Textanalyse und Textgenerierung/Tippfehler und Ähnlichkeitsmaße

Aus testwiki
Zur Navigation springen Zur Suche springen

Einführung

Sie kennen bestimmt aus Suchmaschinen bei Tippfehlern die Meldung: "Meinten Sie ...". Als Beispiel betrachtet man den Begriff "Textanalyse" und die folgenden eingegebenen Wörter mit Tippfehlern

  • "Texanalyse",
  • "Textannalyse",
  • "Textanalüse"

Definition - Halbmetrik

Sei X eine beliebige Menge. Eine Abbildung d:X×X heißt Pseudometrik, Halbmetrik oder Spanne, wenn für beliebige Elemente x, y und z von X die folgenden Bedingungen erfüllt sind:

  • (HM1) d(x,x)=0,
  • (HM2) d(x,y)=d(y,x) (Symmetrie) und
  • (HM3) d(x,y)d(x,z)+d(z,y) (Dreiecksungleichung).

Unterschied - Metrik - Halbmetrik

Bei einer Metrik folgt aus d(x,y)=0, dass x=y. Bei einer Halbmetrik kann es im Grundraum Punkte x,y mit x=y geben, für die d(x,y)=0 gilt. Mit einer Halbmetrik kann man also nicht die Punkte trennen (Hausdorff-Eigenschaft).

Bemerkung - Halbmetrik

  • (HM1) d(x,x)=0 bedeutet, dass „die Spanne zwischen einem Punkt und dem Punkt selbst immer 0 ist.“),
  • (HM2) d(x,y)=d(y,x) liefert eine Symmetrieeigenschaft für die Messung mit der Spanne, die mit dem Axiom nicht von der Reihenfolge abhängt, wie man die Spanne zwischen zwei Punkten messen kann.“)
  • (HM3) d(x,y)d(x,z)+d(z,y) (Dreiecksungleichung: „Die Spanne ist auf dem direkten Weg am kürzesten.“).

Einführende Beispiele für Halbmetriken

Sei 𝒜 ein Alphabet und 𝒜+ die Menge aller (auch sinnfreier) Wörter, die mit dem Alphabet gebildet werden können. Ferner :𝒜+0 die Abbildung, die jedem Wort seine Länge in Zeichen zuordnet (z.B. ('EIMER')=5).

Aufgabe - Halbmetrik - Wortlänge

Zeigen Sie, dass die d(x,y)=|(x)(y)| eine Halbmetrik auf 𝒜+ liefert. Geben Sie ein Gegenbeispiel an, dass d keine Metrik auf 𝒜+ ist!

Aufgaben

  • Wie kann man eine Metrik definieren, die den Abstand zwischen dem gemeinten Wort und dem Wort mit dem Tippfehler angibt?Hausdorff-Eigenschaft
  • Nehmen wir nun an, wir haben ein zufällig generiertes Wort aus unserem Alphabet gegeben und müssen eine Wahrscheinlichkeitsverteilung angeben, welches Wort aus einer Enzyklopädie damit gemeint ist. Wie können wir diese Verteilung statistisch bestimmen oder deterministisch festlegen?

Siehe auch


Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Textanalyse und Textgenerierung' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.