2.1 Was ist ein Thesaurus? (In Bearbeitung)

 

1 Definition

Ein Thesaurus ist in der Dokumentation ein kontrolliertes und strukturiertes Vokabular, das Begriffe und Bezeichnungen zur Erschließung und zum Finden von Dokumenten, Objektbeschreibungen oder anderen Arten von Ressourcen bereitstellt. Diese Art Thesaurus heißt deshalb auch Information-Retrieval-Thesaurus (IR-Thesaurus). Andere Bedeutungen von "Thesaurus" werden in Abschnitt 2 "Etymologie" beschrieben.

Ein Thesaurus für das Information-Retrieval ist ein

  • kontrolliertes Vokabular, weil seine →Begriffe und →Bezeichnungen vorgegebenen Regeln folgen, das heißt eine festgelegte sprachliche Form haben und in einer bestimmten Beziehung zueinander stehen. Die Bezeichnungen, die für Indexierung und Retrieval verwendet werden, heißen in Thesauri "Deskriptoren". In anderen Kontexten werden Deskriptoren auch Indexterme oder Schlagwörter genannt.

  • strukturiertes Vokabular, weil Beziehungen zwischen den Begriffen hergestellt werden, die dem Thesaurus seine Struktur geben. Die klassischen Begriffsbeziehungen in Thesauri sind →hierarchische und →assoziative Relationen.

2 Etymologie

Das Wort "Thesaurus" ist ein "Polysem". Es hat mehrere Bedeutungen, die auf einen gemeinsamen Urspung zurückgeführt werden können.

  • In der Antike war ein "thēsaurós" ein Schatzhaus, ein Gebäude in einem Heiligtum zur Aufbewahrung kostbarer Weihegaben.

  • Im Bereich der Sprachwissenschaft ist ein Thesaurus ein Synonymwörterbuch. Der bekannteste Thesaurus dieser Art dürfte Roget's Thesaurus mit weltweit 40 Millionen verkauften Exemplaren sein.

  • Im Informations- und Dokumentationsbereich ist ein Thesaurus eine auf der natürlichen Sprache basierende Dokumentationssprache, die für die inhaltliche Erschließung (Indexierung) und das Auffinden (Retrieval) von Dokumenten verwendet wird.

3 Erläuterung

Wie ein Wörterbuch besteht ein Thesaurus aus einer Menge von Wörtern oder Wortkombinationen der natürlichen Sprache. Von einem Wörterbuch, einem Glossar oder einem Lexikon unterscheidet sich ein Thesaurus aber durch seine Funktion als →Dokumentationssprache für das Information-Retrieval. Im Vordergrund steht hier die eindeutige Festlegung von Begriffen und ihren Bezeichnungen für die Erschließung und das Wiederauffinden von Informationsressourcen. Anders als ein Wörterbuch bildet ein Thesaurus deshalb auch nicht möglichst vollständig den Wortschatz einer natürlichen Sprache ab, sondern beschränkt sich auf die für Indexierung und Suche relevanten Terme. Thesauri orientieren sich an der Standardsprache oder an der gängigen Fachterminologie, um die Deskriptoren vorhersehbar und leicht auffindbar zu machen. Viele Thesauri bieten auch Konkordanzen (→Mappings) zu Begriffen anderer kontrollierter Vokabulare an, um Recherchen in verschiedenene Datenbanken gleichzeitig zu ermöglichen.

In einem Thesaurus werden Bezeichnungen der natürlichen Sprache regelbasiert formuliert (normiert) und mit dem Begriff, auf den sie verweisen, verbunden. Die Begriffe werden in Beziehung zueinander gesetzt, sodass ein Netz aus hierarchisch und assoziativ verknüpften Elementen entsteht.

  • Die Form der Bezeichnungen (zum Beispiel Numerus, Genus, Wortreihenfolge) wird nach vorgegebenen Regeln vereinheitlicht.

  • Die Mehrdeutigkeit von Bezeichnungen wird aufgelöst (Disambiguierung). Diese Art der →terminologischen Kontrolle wird →Homonymkontrolle genannt.

  • Synonyme und bedeutungsähnliche Bezeichnungen (Quasisynonyme) werden identifiziert und zu einer Gruppe (Äquivalenzklasse) zusammengefasst. Aus dieser Äquivalenzklasse wird ein Term als Vorzugsbezeichnung (Deskriptor) gewählt, der den Begriff repräsentiert und der für Indexierung und Retrieval benutzt wird. Diese Art der →terminologischen Kontrolle wird →Synonymkontrolle genannt.

4 Kernelemente eines Thesaurus

Die Grundbausteine eines Thesaurus sind die →Begriffe, die durch Bezeichnungen repräsentiert und zueinander in Beziehung gesetzt werden. Die üblichen Begriffsrelationen sind die →Hierarchierelation und die →Assoziationsrelation.