Zweiter Ordnung Kookkurrenz punktweisen gegenseitigen Information

Sarine Bohrmann Dezember 24, 2016 Z 7 0
FONT SIZE:
fontsize_dec
fontsize_inc

Zweiter Ordnung Kookkurrenz punktweise gegenseitige Information ist eine semantische Ähnlichkeitsmaßes mit Punkt- gegenseitigen Information, um Listen von wichtigen Nachbarn Worten der beiden Zielwörter aus einer großen Corpus sortieren. PMI-IR eingesetzt Erweiterte Suche Abfragesyntax AltaVista, Wahrscheinlichkeiten zu berechnen. Beachten Sie, dass die `` NEAR "Suchoperator von AltaVista ist ein wesentlicher Betreiber in der PMI-IR-Verfahren ist es jedoch nicht mehr in Gebrauch in AltaVista;. Dies bedeutet, dass, aus der Umsetzung Sicht ist es nicht möglich zu bedienen der PMI-IR-Methode in der gleichen Form in neue Systeme. In jedem Fall von der algorithmischen Standpunkt aus, ist der Vorteil der Verwendung von SOC-PMI, dass er die Ähnlichkeit zwischen zwei Wörtern, die nicht berechnet zusammen treten häufig auf, weil sie co-treten mit den gleichen benachbarten Wörtern. Zum Beispiel hat der British National Corpus als Quelle von Frequenzen und Zusammenhängen verwendet werden. Das Verfahren berücksichtigt die Worte, die üblich sind in beiden Listen und aggregieren die PMI-Werte, um den relativen semantische Ähnlichkeit zu berechnen . Wir definieren die punktweise gegenseitige Informationsfunktion für die nur die Worte, die,

wo sagt uns, wie oft die Art erschien in der gesamten Korpus, sagt uns, wie oft das Wort erschien mit Wort in einem Kontextfenster und die Gesamtzahl der Token im Corpus. Jetzt, zum Wort, definieren wir eine Reihe von Wörtern ,, in absteigender Reihenfolge nach ihrer PMI Werte sortiert und genommen die oberste Worten mit.

Das Set enthält Worten,

Eine Faustregel wird verwendet, um den Wert zu wählen. Die -PMI Summierungsfunktion eines Wortes in bezug auf ein anderes Wort definiert. Für Wort in Bezug auf das Wort es ist:

wo die alle positiven PMI-Werte der Wörter im Satz auch üblich, die Worte in dem Satz zusammenfasst. Mit anderen Worten, diese Funktion tatsächlich aggregiert die positive PMI-Werte aller semantisch nahe Wörter, aus denen es auch in 's-Liste gemeinsam. sollte einen Wert größer als 1. So haben die -PMI Summenfunktion für Wort in Bezug auf Wort mit und -PMI Summenfunktion für Wort in Bezug auf das Wort, das sind

und

beziehungsweise.

Schließlich wird das semantische PMI Ähnlichkeitsfunktion zwischen den beiden Wörtern und, wie definiert

Die semantische Wortähnlichkeit ist normiert, so dass sie eine Ähnlichkeitsbewertung zwischen den und einschließlich. Die Normalisierung der semantische Ähnlichkeit Algorithmus gibt einen normalisierten Wert von Ähnlichkeit zwischen zwei Wörtern. Es nimmt als Argumente die beiden Wörter, und, und ein Maximalwert ,, dass durch die semantische Ähnlichkeitsfunktion, Sim zurückgegeben. Es gibt einen Ähnlichkeitswert zwischen 0 und 1 inklusive. Zum Beispiel, kehrt der Algorithmus 0,986 Worte Friedhof und Friedhof mit.

  Like 0   Dislike 0
Vorherige Artikel Sudanesische Pfund
Nächster Artikel Peter Andreas Heiberg
Bemerkungen (0)
Keine Kommentare

Fügen Sie einen Kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Zeichen übrig: 3000
captcha