2.1 Was ist ein Thesaurus? (In Bearbeitung)

 

 

1 Definition

Ein Thesaurus ist in der Dokumentation ein kontrolliertes und strukturiertes Vokabular, das zur Erschließung und zum Finden von Dokumenten verwendet wird. Diese Art Thesaurus heißt deshalb auch Information-Retrieval-Thesaurus (IR-Thesaurus). Andere Bedeutungen von “Thesaurus” werden in Abschnitt 2 “Etymologie” beschrieben.

Ein Thesaurus ist ein

  • kontrolliertes Vokabular, weil nach Regeln ausgewählte Begriffe und normierte Bezeichnungen für die Indexierung und Suche bereitgestellt werden. Die Bezeichnungen, die für Indexierung und Suche bevorzugt werden, heißen in Thesauri Deskriptoren. In anderen Kontexten werden Deskriptoren auch Indexterme oder Schlagwörter genannt.

  • strukturiertes Vokabular, weil hierarchische und assoziative Beziehungen zwischen den Begriffen dargestellt werden.     

 

2 Etymologie

Die Bezeichnung "Thesaurus" hat mehrere Bedeutungen:

  1. In der Antike war ein "thēsaurós" ein Gebäude in einem Heiligtum zur Aufbewahrung kostbarer Weihegaben; Schatzhaus.

  2. Im Bereich der Sprachwissenschaft versteht man unter einem Thesaurus ein Synonymwörterbuch. Der bekannteste Thesaurus dieser Art dürfte Roget's Thesaurus mit weltweit 40 Millionen verkauften Exemplaren sein.

  3. Im Informations- und Dokumentationsbereich ist ein Thesaurus eine auf der natürlichen Sprache basierende Dokumentationssprache, die für die inhaltliche Erschließung und das Wiederauffinden von Dokumenten verwendet wird.

 

3 Erläuterung

Wie ein Wörterbuch besteht ein Thesaurus aus einer Menge von Wörtern oder Wortkombinationen der natürlichen Sprache. Von einem Wörterbuch, einem Glossar oder einem Lexikon unterscheidet sich ein Thesaurus aber durch seine Funktion als Dokumentationssprache für das Information-Retrieval. Im Vordergrund steht hier die eindeutige Festlegung von Begriffen und ihren Bezeichnungen für die Erschließung und das Wiederauffinden von Informationsressourcen. Anders als ein Wörterbuch listet ein Thesaurus deshalb auch nicht möglichst vollständig Ausdrücke einer natürlichen Sprache auf, sondern beschränkt sich auf die für Indexierung und Suche relevanten Terme. Thesauri orientieren sich an der Standardsprache oder gegebenenfalls an der gängigen Fachterminologie, um das Auffinden der Deskriptoren zu erleichtern. Viele Thesauri bieten auch Konkordanzen (Mappings) zu Begriffen anderer kontrollierter Vokabulare an, um anwendungsübergreifende Recherchen mit guten Retrievalergebnissen zu ermöglichen.

In einem Thesaurus werden die natürlichsprachigen Bezeichnungen normiert und mit dem entsprechenden Begriff, auf den sie verweisen, verbunden. Die Begriffe werden in Beziehung zueinander gesetzt, sodass ein Netz aus hierarchisch und assoziativ verknüpften Elementen entsteht.

  • Die Form der Bezeichnungen (zum Beispiel Numerus, Genus, Wortreihenfolge) wird regelbasiert vereinheitlicht.

  • Die Mehrdeutigkeit von Bezeichnungen wird aufgelöst (Disambiguierung). Diese Art terminologischen Kontrolle wird als Homonymkontrolle bezeichnet.

  • Synonyme und bedeutungsnahe Bezeichnungen (Quasisynonyme) werden identifiziert und zu einer Gruppe (Äquivalenzklasse) zusammengefasst. Aus dieser Äquivalenzklasse wird ein Term als Vorzugsbezeichnung (Deskriptor) gewählt, der den Begriff repräsentiert und der für Indexierung und Retrieval benutzt wird. Diese Art der terminologischen Kontrolle wird als Synonymkontrolle bezeichnet.

 

4 Kernelemente eines Thesaurus

Die Grundbausteine eines Thesaurus sind Begriffe, die durch Bezeichnungen repräsentiert und zueinander in Beziehung gesetzt werden. Die klassischen Thesaurusrelationen sind die Hierarchierelation und die Assoziationsrelation.

 

Aktuelle Fassung in Bearbeitung

1 Definition

Ein Thesaurus ist in der Dokumentation ein kontrolliertes und strukturiertes Vokabular, das Begriffe und Bezeichnungen zur Erschließung und zum Finden von Dokumenten, Objektbeschreibungen oder anderen Arten von Ressourcen bereitstellt. Diese Art Thesaurus heißt deshalb auch Information-Retrieval-Thesaurus (IR-Thesaurus). Andere Bedeutungen von "Thesaurus" werden in Abschnitt 2 "Etymologie" beschrieben.

Ein Thesaurus für das Information-Retrieval ist ein

kontrolliertes Vokabular, weil seine → Begriffe und → Bezeichnungen vorgegebenen Regeln folgen, das heißt eine festgelegte sprachliche Form haben und in einer bestimmten Beziehung zueinander stehen. Die Bezeichnungen, die für Indexierung und Retrieval verwendet werden, heißen in Thesauri "Deskriptoren". In anderen Kontexten werden Deskriptoren auch Indexterme oder Schlagwörter genannt.

strukturiertes Vokabular, weil Beziehungen zwischen den Begriffen hergestellt werden, die dem Thesaurus seine Struktur geben. Die klassischen Begriffsbeziehungen in Thesauri sind → hierarchische und → assoziative Relationen.

2 Etymologie

Das Wort "Thesaurus" ist ein "Polysem". Es hat mehrere Bedeutungen:

  1. In der Antike war ein "thēsaurós" ein Schatzhaus, ein Gebäude in einem Heiligtum zur Aufbewahrung kostbarer Weihegaben.

  2. Im Bereich der Sprachwissenschaft ist ein Thesaurus ein Synonymwörterbuch. Der bekannteste Thesaurus dieser Art dürfte Roget's Thesaurus mit weltweit 40 Millionen verkauften Exemplaren sein.

  3. Im Informations- und Dokumentationsbereich ist ein Thesaurus eine auf der natürlichen Sprache basierende Dokumentationssprache, die für die inhaltliche Erschließung (Indexierung) und das Auffinden (Retrieval) von Dokumenten verwendet wird.

3 Erläuterung

Wie ein Wörterbuch besteht ein Thesaurus aus einer Menge von Wörtern oder Wortkombinationen der natürlichen Sprache. Von einem Wörterbuch, einem Glossar oder einem Lexikon unterscheidet sich ein Thesaurus aber durch seine Funktion als Dokumentationssprache für das Information-Retrieval. Im Vordergrund steht hier die eindeutige Festlegung von Begriffen und ihren Bezeichnungen für die Erschließung und das Wiederauffinden von Informationsressourcen. Anders als ein Wörterbuch bildet ein Thesaurus deshalb auch nicht möglichst vollständig den Wortschatz einer natürlichen Sprache ab, sondern beschränkt sich auf die für Indexierung und Suche relevanten Terme. Thesauri orientieren sich an der Standardsprache oder an der gängigen Fachterminologie, um die Deskriptoren vorhersehbar und leicht auffindbar zu machen. Viele Thesauri bieten auch Konkordanzen (→ Mappings) zu Begriffen anderer kontrollierter Vokabulare an, um Recherchen in verschiedenene Datenbanken gleichzeitig zu ermöglichen.

 

 

 

 

 

 

 

 

 

 

 

In einem Thesaurus werden Bezeichnungen der natürlichen Sprache regelbasiert formuliert (normiert) und mit dem Begriff, auf den sie verweisen, verbunden. Die Begriffe werden in Beziehung zueinander gesetzt, sodass ein Netz aus hierarchisch und assoziativ verknüpften Elementen entsteht.

  • Die Form der Bezeichnungen (zum Beispiel Numerus, Genus, Wortreihenfolge) wird nach vorgegebenen Regeln vereinheitlicht.

  • Die Mehrdeutigkeit von Bezeichnungen wird aufgelöst (Disambiguierung). Diese Art der → terminologischen Kontrolle wird → Homonymkontrolle genannt.

  • Synonyme und bedeutungsähnliche Bezeichnungen (Quasisynonyme) werden identifiziert und zu einer Gruppe (Äquivalenzklasse) zusammengefasst. Aus dieser Äquivalenzklasse wird ein Term als Vorzugsbezeichnung (Deskriptor) gewählt, der den Begriff repräsentiert und der für Indexierung und Retrieval benutzt wird. Diese Art der → terminologischen Kontrolle wird → Synonymkontrolle genannt.

4 Kernelemente eines Thesaurus

Die Grundbausteine eines Thesaurus sind die → Begriffe, die durch Bezeichnungen repräsentiert und zueinander in Beziehung gesetzt werden. Die üblichen Begriffsrelationen sind die → Hierarchierelation und die → Assoziationsrelation.

Sprache für die Dokumentation