Relevanz-Feedback

Ilona Weigl Dezember 24, 2016 R 16 0
FONT SIZE:
fontsize_dec
fontsize_inc

Relevanz-Feedback ist eine Funktion von einigen Informationsabrufsysteme. Die Idee hinter der Relevanz-Feedback ist, um die Ergebnisse, die zunächst aus einer gegebenen Abfrage zurückgegeben werden zu nehmen und Informationen zu, ob diese Ergebnisse sind relevant, um eine neue Abfrage durchführen verwenden. Wir können sinnvollerweise unterscheiden drei Arten von Feedback: explizite Feedback, implizite Feedback und blind oder "Pseudo" Feedback.

Explizite Feedback

Explizite Feedback von Prüfern von Relevanz, die die Relevanz eines Dokuments für eine Abfrage abgerufen erhalten. Diese Art der Rückmeldung wird als explizite Definition nur dann, wenn die Prüfer wissen, dass die Rückmeldungen zur Verfügung gestellt wird als relevant Urteile interpretiert.

Benutzer können angeben Relevanz explizit unter Verwendung einer binären oder abgestuften Relevanz System. Binary Relevanz-Feedback zeigt an, dass ein Dokument entweder relevant oder nicht relevant für eine bestimmte Abfrage. Graded Relevanz-Feedback zeigt die Relevanz eines Dokuments zu einer Abfrage auf einer Skala mit Zahlen, Buchstaben oder Beschreibungen. Graded Relevanz kann auch die Form einer Kardinal Ordnung der Dokumente, die von einem Gutachter; das heißt, legt der Prüfer Dokumente Ergebnis in der Reihenfolge ihrer Relevanz eingestellt. Ein Beispiel hierfür wäre die Such-Wiki-Funktion von Google auf der Suche Website implementiert werden.

Die Relevanz-Rückmeldungsinformation muss mit der ursprünglichen Abfrage interpoliert, um Abrufleistung wie die bekannte Rocchio Algorithmus verbessern.

Ein Performance-Metrik, die um 2005 populär wurde, um die Nützlichkeit eines Ranking-Algorithmus auf der Grundlage der expliziten Relevanz-Feedback messen NDCG. Weitere Maßnahmen sind Präzision bei k und mittlere durchschnittliche Präzision.

Implizite Feedback

Implizite Rückmeldungen von Benutzerverhalten ableiten, wie beispielsweise der Feststellung, was sie tun und nicht für die Anzeige wählen Sie dokumentiert, die Dauer der Zeitaufwand für ein Dokument angezeigt wird, oder eine Seite durchsuchen oder Scrollen Aktionen.

Die Hauptunterschiede der impliziten Relevanz-Feedback von der expliziten umfassen:

  • der Benutzer nicht beurteilen Relevanz für den Nutzen der IR-System, sondern nur ihre eigenen Bedürfnisse zu befriedigen und
  • der Benutzer nicht notwendigerweise darauf hingewiesen, dass ihr Verhalten als Relevanz-Feedback verwendet werden,

Ein Beispiel hierfür ist die Surf Canyon Browser-Erweiterung, die Suchergebnisse geht von dem späteren Seiten der Ergebnismenge basierend sowohl auf Benutzerinteraktion und Zeit investiert der Anzeige der Seite in einem Suchergebnis verlinkt sind.

Blind Feedback

Pseudo Relevanz-Feedback, auch als blinde Relevanz-Feedback bekannt ist, ist ein Verfahren zur automatischen lokalen Analyse. Es automatisiert den manuellen Teil der Relevanz-Feedback, so dass der Benutzer bekommt eine verbesserte Abfrageleistung ohne erweiterten Interaktion. Die Methode ist in den normalen Abruf zu tun, um eine erste Reihe von den meisten relevanten Dokumente zu finden, um dann davon ausgehen, dass die Besten "k" sortiert Dokumente relevant sind, und schließlich auf Relevanz-Feedback wie bisher unter dieser Annahme zu tun. Das Verfahren ist:

  • Nehmen Sie die Ergebnisse nach anfänglichen Abfrage als relevante Ergebnisse zurück.
  • Wählen Sie oben 20-30 Begriffe aus diesen Dokumenten unter Verwendung von zum Beispiel TF-IDF Gewichte.
  • Haben Erweiterung der Suchanfrage, fügen Sie diese Begriffe auf Abfrage, und entsprechen die zurückgegebenen Dokumente für diese Abfrage und schließlich die relevantesten Dokumente zurück.

Einige Experimente wie zB Ergebnisse von der Cornell SMART-System veröffentlicht, zeigen die Verbesserung der Bereitstellungssysteme Aufführungen mit pseudo-Relevanz-Feedback im Rahmen der TREC 4 Experimenten.

Diese automatische Technik funktioniert meistens. Hinweise darauf, dass es besser als globale Analyse zur Arbeit neigt. Durch eine Erweiterung der Suchanfrage können einige relevante Dokumente in der ersten Runde verpasst dann abgerufen werden, um die Gesamtleistung zu verbessern. Offensichtlich ist die Wirkung dieses Verfahrens beruht stark auf die Qualität der ausgewählten Entwicklungsterme. Es wurde festgestellt, um die Leistung in der TREC Ad-hoc-Aufgabe zu verbessern. Es ist jedoch nicht ohne die Gefahren eines automatischen Prozesses. Zum Beispiel, wenn die Abfrage über Kupferminen und die Top verschiedene Dokumente sind alle über Minen in Chile, dann kann es Abfrage Drift in Richtung der Dokumente auf Chile sein. Darüber hinaus, wenn die Worte, um die ursprüngliche Abfrage hinzugefügt werden, die nicht mit der Abfrage-Thema, wahrscheinlich abgebaut werden, vor allem im Web suchen, wo Web-Dokumente decken oft mehrere verschiedene Themen die Qualität der Wiederherstellung. Um die Qualität des Erweiterungs Wörter Pseudo-Relevanz-Feedback zu verbessern, ist eine Positions Relevanz-Feedback für die pseudo-Relevanz-Feedback wurde vorgeschlagen, aus Rück wählen dokumentiert diese Worte, die auf der Abfrage-Thema fokussiert sind, basierend auf Positionen der Wörter Feedback Dokumenten. Insbesondere wird die Positionsrelevanz Modell weist mehrere Gewichte zu Wörtern auftretenden näher Worten auf der Grundlage der Intuition, dass Wörter näher Worte abgefragt werden eher auf die Abfrage Thema werden abzufragen.

Blind Feedback automatisiert den manuellen Teil der Relevanz-Feedback und hat den Vorteil, dass Beisitzer sind nicht erforderlich.

Verwendung Relevanz Informationen

Relevanz Informationen unter Verwendung des Inhalts der relevanten Dokumente, entweder durch Veränderung der Gewichte der Begriffe in der ursprünglichen Abfrage, oder durch die Verwendung dieser Inhalte, um Wörter zur Abfrage hinzuzufügen genutzt. Relevanz-Feedback wird oft mit der Rocchio Algorithmus implementiert.

Weiterführende Literatur

  • Relevanz-Feedback Skriptum - Jimmy Lin Skripten, von Doug Oard angepasst
  •  - Kapitel von Modern Information Retrieval
  • Stefan Büttcher, Charles LA Clarke, und Gordon V. Cormack. Information Retrieval: Durchführung und Bewertung von Suchmaschinen. MIT Press, Cambridge, Mass. 2010.
  Like 0   Dislike 0
Vorherige Artikel Santiago Cañizares
Nächster Artikel Studios Architektur
Bemerkungen (0)
Keine Kommentare

Fügen Sie einen Kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Zeichen übrig: 3000
captcha