2.2 Zweck von Thesauri (In Bearbeitung)

 

 

1 Welche Funktion hat ein Thesaurus?

Thesauri werden zur formalen und inhaltlichen Erschließung sowie zum Wiederauffinden von Informationen (Information-Retrieval) in allen kulturellen und wissenschaftlichen Bereichen eingesetzt. Aber auch im kommerziellen Bereich und zur Informationsorganisation in Intranets sind Thesauri verbreitet.

Thesauri

  • unterstützen eine einheitliche, konsistente Indexierung, indem sie verbindliche Schlagwörter (Deskriptoren) für definierte Begriffe bereitstellen.

  • erleichtern die Auffindbarkeit von Indextermen oder Suchbegriffen.

  • unterstützen eine automatische Ausweitung der Suchanfrage (Explode oder Expansion), indem Synonyme oder Unterbegriffe in die Suche einbezogen werden können oder die Suche auf Oberbegriffe ausgeweitet werden kann.

  • werden benötigt, wenn Text nicht zur Verfügung steht, wie zum Beispiel bei Bildern oder Tondokumenten.

  • unterstützen die Interoperabilität, indem sie Konkordanzen zu Begriffen anderer Vokabulare bereitstellen.

  • können zur Überwindung von Sprachbarrieren beitragen.

Zunehmend gewinnen Thesauri auch an Bedeutung als Referenzvokabulare für inhaltsbeschreibende Metadaten. So empfiehlt zum Beispiel die Dublin Core Metadata Initiative die Nutzung des Getty Thesaurus of Geographic Names (TGN) oder der Library of Congress Classification für die Werte der Metadatenelemente "Coverage" und "Subject". In den DCMI Metadata Terms werden die kontrollierten Vokabulare als Encoding Schemes bezeichnet.

 

2 Auswirkung auf das Information-Retrieval

Kontrollierte Vokabulare beeinflussen die Qualität des Information-Retrieval positiv. Die Qualität wird üblicherweise in den Größen "Recall" und "Precision" gemessen.

  • "Recall" ist das Maß für die Vollständigkeit des Suchergebnisses bezogen auf die Geamtzahl der relevanten Dokumente in einem System. Angenommen, es gibt 100 Dokumente zum Thema "Weihnachtsbräuche" in einer Datenbank. Wenn auf eine entsprechende Suchanfrage zu "Weihnachtsbräuchen" alle 100 Dokumente gefunden werden, ist der Recall 100 Prozent.

  • "Precision" ist das Maß für die Genauigkeit des Suchergebnisses bezogen auf die Gesamtzahl aller Dokumente eines Systems. Angenommen, 100 Dokumente von insgesamt 1000 Dokumenten einer Datenbank behandeln das Thema "Weihnachtsbräuche". Wenn auf eine entsprechende Suchanfrage zu "Weihnachtsbräuchen" genau nur diese 100 Dokumente gefunden werden, und nicht auch solche zu "Osterbräuchen" zum Beispiel, ist die Precision 100 Prozent.

Die Retrievalqualität ist also optimal bei einem Recall und einer Precision von 100 Prozent.

 

Aktuelle Fassung in Überarbeitung

Thesauri werden zur formalen und inhaltlichen Erschließung von Ressourcen sowie zum Wiederauffinden von Informationen (Information-Retrieval) in allen kulturellen und wissenschaftlichen Bereichen eingesetzt. Aber auch im kommerziellen Bereich und zur Informationsorganisation in Intranets sind Thesauri verbreitet.

Thesauri

  • unterstützen eine einheitliche, konsistente Indexierung, indem sie verbindliche Schlagwörter ( → Deskriptoren) bereitstellen

  • erleichtern die Auffindbarkeit von Indextermen oder Suchbegriffen

  • ermöglichen eine automatische Ausweitung der Suchanfrage (Expand oder Explode), indem Synonyme oder Unterbegriffe in die Suche einbezogen werden können oder die Suche auf Oberbegriffe ausgeweitet werden kann

  • werden benötigt, wenn Text nicht zur Verfügung steht, wie zum Beispiel bei Bildern oder Tondokumenten

  • erhöhen die Interoperabilität, indem sie Konkordanzen zu Begriffen anderer Vokabulare bereitstellen

  • können zur Überwindung von Sprachbarrieren beitragen.

Zunehmend gewinnen Thesauri auch an Bedeutung als Referenzvokabulare für inhaltsbeschreibende Metadaten. So empfiehlt zum Beispiel die Dublin Core Metadata Initiative die Nutzung des Getty Thesaurus of Geographic Names (TGN) oder der Library of Congress Classification für die Werte der Metadatenelemente "Coverage" und "Subject". In den DCMI Metadata Terms werden die kontrollierten Vokabulare als Encoding Schemes bezeichnet.

Kontrollierte Vokabulare beeinflussen die Qualität des Information-Retrieval positiv. Die Qualität wird üblicherweise in den Größen "Recall" und "Precision" gemessen.

  • "Recall" ist das Maß für die Vollständigkeit des Suchergebnisses bezogen auf die Gesamtzahl der relevanten Dokumente in einem System. Angenommen, es gibt 100 Dokumente zum Thema "Weihnachtsbräuche" in einer Datenbank. Wenn auf eine entsprechende Suchanfrage zu "Weihnachtsbräuchen" alle 100 Dokumente gefunden werden, ist der Recall 100 Prozent.

  • "Precision" ist das Maß für die Genauigkeit des Suchergebnisses bezogen auf die Gesamtzahl aller Dokumente eines Systems. Angenommen, 100 Dokumente von insgesamt 1000 Dokumenten einer Datenbank behandeln das Thema "Weihnachtsbräuche". Wenn auf eine entsprechende Suchanfrage zu "Weihnachtsbräuchen" genau nur diese 100 Dokumente gefunden werden, und nicht auch solche zu "Osterbräuchen" zum Beispiel, ist die Precision 100 Prozent.

Die Retrievalqualität ist also optimal bei einem Recall und einer Precision von 100 Prozent.