2.1 Was ist ein Thesaurus? (In Bearbeitung)

2.1 Was ist ein Thesaurus? (In Bearbeitung)

Fragen, Anregungen und Kommentare sind sehr willkommen. Markieren Sie dafür bitte den Teil des Textes, den Sie kommentieren möchten, und klicken Sie auf das Sprechblasensymbol, um Ihren Kommentar einzufügen. Richten Sie den Kommentar bitte an “@Jutta Lindenthal” oder an “@Jessica Sandrock”. Bestätigen Sie Ihre Eingabe durch Anklicken von „Speichern“. Alternativ schreiben Sie bitte eine E-Mail an jessica.sandrock@digicult-verbund.de oder an jutta.lindenthal@gmail.com.

Definition

Ein Thesaurus ist in der Dokumentation ein kontrolliertes und strukturiertes Vokabular, das Begriffe und Bezeichnungen zur Erschließung und zum Finden von Dokumenten, Objektbeschreibungen oder anderen Arten von Informationsressourcen bereitstellt. Diese Art Thesaurus heißt deshalb auch Information-Retrieval-Thesaurus (IR-Thesaurus). Andere Bedeutungen von „Thesaurus” werden in Abschnitt 2 „Etymologie” beschrieben.

Ein Thesaurus für das Information-Retrieval ist ein

  • Kontrolliertes Vokabular, weil → Begriffe und ihre → Bezeichnungen nach vorgegebenen Regeln in eine eindeutige Beziehung zueinander gesetzt und die Bezeichnungen festgelegt werden.

  • Strukturiertes Vokabular, weil Beziehungen zwischen den Begriffen hergestellt werden, die dem Thesaurus seine Struktur geben. Die klassischen Begriffsbeziehungen in Thesauri sind → hierarchische und → assoziative Relationen.

Auszug aus ISO 25964-1

2.62 thesaurus

controlled (2.12) and structured vocabulary (2.56) in which concepts (2.11) are represented by terms (2.61), organized so that relationships between concepts (2.11) are made explicit, and preferred terms (2.45) are accompanied by lead-in entries for synonyms (2.58) or quasi-synonyms (2.47)

The purpose of a thesaurus is to guide both the indexer and the searcher to select the same preferred term or combination of preferred terms to represent a given subject. For this reason a thesaurus is optimized for human navigability and terminological coverage of a domain.

Etymologie

Das Wort „Thesaurus” ist ein Polysem: Es hat mehrere Bedeutungen, die auf einen gemeinsamen Urspung zurückgeführt werden können.

  • In der Antike war ein „thēsaurós” ein Schatzhaus, ein Gebäude in einem Heiligtum zur Aufbewahrung kostbarer Weihegaben.

  • Im Bereich der Sprachwissenschaft ist ein Thesaurus ein Synonymwörterbuch. Der bekannteste Thesaurus dieser Art dürfte Roget's Thesaurus mit weltweit 40 Millionen verkauften Exemplaren sein.

  • Im Informations- und Dokumentationsbereich ist ein Thesaurus eine auf der natürlichen Sprache basierende Dokumentationssprache, die für die inhaltliche Erschließung (Indexierung) und das Auffinden (Retrieval) von Dokumenten verwendet wird.

Erläuterung

Wie ein Wörterbuch besteht ein Thesaurus aus einer Menge von Wörtern oder Wortkombinationen der natürlichen Sprache. Von einem Wörterbuch, einem Glossar oder einem Lexikon unterscheidet sich ein Thesaurus aber durch seine Funktion als → Dokumentationssprache für das Information-Retrieval. Im Vordergrund steht hier die eindeutige Festlegung von Begriffen und ihren Bezeichnungen für die Erschließung und das Wiederauffinden von Informationsressourcen. Anders als ein Wörterbuch bildet ein Thesaurus deshalb auch nicht möglichst vollständig den Wortschatz einer natürlichen Sprache ab, sondern beschränkt sich auf die für Indexierung und Suche relevanten Terme. Thesauri orientieren sich an der Standardsprache oder an der gängigen Fachterminologie, um die Deskriptoren vorhersehbar und leicht auffindbar zu machen. Viele Thesauri bieten auch Konkordanzen (→ Mappings) zu Begriffen anderer kontrollierter Vokabulare an, um Recherchen in verschiedenene Datenbanken gleichzeitig zu ermöglichen.

In einem Thesaurus werden Bezeichnungen der natürlichen Sprache regelbasiert formuliert (normiert) und mit dem Begriff, auf den sie verweisen, verbunden. Die Begriffe werden in Beziehung zueinander gesetzt, sodass ein Netz aus hierarchisch und assoziativ verknüpften Elementen entsteht.

  • Die Form der Bezeichnungen (zum Beispiel Numerus, Genus, Wortreihenfolge) wird nach vorgegebenen Regeln vereinheitlicht.

  • Die Mehrdeutigkeit von Bezeichnungen wird aufgelöst (Disambiguierung). Diese Art der Vokabularkontrolle wird → Homonymkontrolle genannt.

  • Synonyme und bedeutungsähnliche Bezeichnungen (Quasisynonyme) werden identifiziert und zu einer Gruppe (Äquivalenzklasse) zusammengefasst. Aus dieser Äquivalenzklasse wird ein Term als Vorzugsbezeichnung (Deskriptor) gewählt, der den Begriff für Indexierung und Retrieval repräsentiert. Diese Art der Vokabularkontrolle wird →Synonymkontrolle genannt.

Kernelemente eines Thesaurus

Die Grundbausteine eines Thesaurus sind die → Begriffe, die durch Bezeichnungen repräsentiert und zueinander in Beziehung gesetzt werden. Die gebräuchlichen Begriffsrelationen sind die → Hierarchierelation und die → Assoziationsrelation.

Thesaurus-Modelle

Der zur Zeit (2026) aktuelle Thesaurusstandard ist der internationale Standard ISO 25964. Thesauri and interoperability with other vocabularies. Er besteht aus zwei Teilen: ISO 25964-1:2011. Part 1: Thesauri for information retrieval und ISO 25964-2:2013. Part 2: Interoperability with other vocabularies. Das Thesaurus-Modell des ISO-Standards ist in einem UML-Diagramm https://www.niso.org/schemas/iso25964/Model_2011-06-02.jpg und in einem XML-Schema https://www.niso.org/schemas/iso25964/schema-intro dargestellt. Es gibt keine RDF-Repräsentation des Standards. Einige Elemente des Modells sind jedoch als Erweiterungen von SKOS definiert.

SKOS, das Simple Knowledge Organization System des W3C, ist ein weit verbreitetes Modell zur Darstellung kontrollierter Vokabulare im Semantic Web. In einem Satz fasst das Reference-Dokument die wichtigsten Eigenschaften des SKOS-Modells zusammen. Auch das Modell des ISO-Standards ist mit dieser Synopsis gut beschrieben:

Synopsis

Using SKOS, concepts can be identified using URIs, labeled with lexical strings in one or more natural languages, assigned notations (lexical codes), documented with various types of note, linked to other concepts and organized into informal hierarchies and association networks, aggregated into concept schemes, grouped into labeled and/or ordered collections, and mapped to concepts in other schemes.

Alle genannten Elemente und Eigenschaften sind im ISO-Standard ebenfalls enthalten, zum Teil spezifischer und stärker ausdifferenziert. Es lag deshalb nahe, Elemente des ISO-Modells als Erweiterung von SKOS auszudrücken. Die Dokumentation der RDF-Repräsentation von SKOS-Thes zeigt den Stand der Entwicklung und offene Punkte: http://purl.org/iso25964/skos-thes. Der Definition von SKOS-Thes liegt eine Korrespondenztabelle zugrunde, die ebenfalls öffentlich zugänglich ist.

Quellen

Dextre Clarke, Stella G.: Thesaurus (for information retrieval), 2017
https://www.isko.org/cyclo/thesaurus

A different sort of confusion surrounds the basic roles of terms versus concepts. From the early days of thesaurus R&D, the basic aim was to index the semantic content of documents rather than the terminological content. […]

Over the decades this confusion has led to much misunderstanding among thesaurus users. Also the software developed for thesaurus management has often adopted a data model in which the hierarchical and associative relationships are established between terms rather than between concepts, and this has impeded thesaurus interoperability.

Dextre Clarke, Stella G. and Marcia Lei Zeng. 2012. From ISO 2788 to ISO 25964: the evolution of thesaurus standards towards interoperability and data modeling. Information Standards Quarterly, 24, no. 1 (Winter): 20-26. http://www.niso.org/publications/isq/2012/v24no1/clarke/. DOI 10.3789/isqv24n1.2012.04.

In particular, we did not then clarify the difference between the concepts of a search for information and the terms in which we express the query. If this distinction is fudged, human users may not be put out at all, but computers are at risk of floundering. To perform on the Semantic Web, computer software needs an explicit data model that distinguishes between terms and concepts.

Will, L. (2012), The ISO 25964 data model for the structure of an information retrieval thesaurus. Bul. Am. Soc. Info. Sci. Tech., 38: 48-51. https://doi.org/10.1002/bult.2012.1720380413