Einleitung

Einleitung

„Warum haben Fische keine Haare?“ – „Weil sie Schuppen haben.“ – „Und warum haben sie Schuppen?“ – „Weil sie nichts dagegen tun.“ – „Und warum tun sie nichts dagegen?“ – „Weil sie ihre Fahrräder unterstellen können.“

Die natürliche Sprache bietet reichlich Gelegenheit zu Missverständnissen. Viele Wörter haben mehr als eine Bedeutung, was sich dieser Kalauer zunutze macht, dessen absurder Witz in den drei verschiedene Bedeutungen von „Schuppen“ liegt. Menschen können sich unschwer das Gemeinte aus dem Kontext zusammenreimen. Aber wie ist es, wenn das Wort „Schuppen“ ohne Zusammenhang auftaucht? Weiß ein Mensch dann, was gemeint ist? Und kann eine Maschine die Bedeutung entschlüsseln?

Auf die Suchanfrage „Schuppen“ liefert die Bildersuche in Google (2024-08-07) eine große Auswahl an Vorschlägen, die zur Anfrage passen könnten, darunter auch die folgenden drei Einträge als Filtermöglichkeiten.

Fisch Haar Carport

Woher kennt die Maschine diese unterschiedlichen Bedeutungen und wie ist es möglich, dass sie einem Dokument das passende Schlagwort zuordnet?

Um Bedeutungen von Zeichenketten zu ermitteln, kann die Maschine auf Wörterbücher oder KI zurückgreifen. ChatGPT, gefragt, was das Wort „Schuppen“ bedeutet, antwortet mit vier Vorschlägen (2025-09-17):

  1. Schuppen (Gebäude)

  2. Schuppen (Haut / Kopfhaut)

  3. Schuppen (Tierhaut)

  4. Schuppen (Ort / Lokal) (umgangssprachlich)

ChatGPT zeigt an, dass es die vier unterschiedlichen Begriffe auseinanderhält, indem es in Klammern den Kontext hinzufügt, der die Bedeutung bestimmt. (Bei 2. und 3. verschweigt die KI allerdings, dass es sich um den Plural des Wortes „Schuppe“ handelt.) Diese Methode zur Auflösung von Mehrdeutigkeiten durch Klammerzusätze wird auch in der Vokabulararbeit verwendet.

Ob Texte oder Bilder, Museumsobjekte oder Archivakten, wir müssen meist (noch) das Zeichensystem Sprache als Kommunikationsmittel nutzen, um die Dokumente beschreiben und finden zu können. Die Erschließung geschieht unter anderem durch einzelne „Schlagwörter“, die den Inhalt eines Textes oder das Dargestellte auf einem Bild mit einem Wort oder einer Wortkombination charakterisieren. Die natürliche Sprache eignet sich aber, wie wir gesehen haben, nur bedingt für eine „Verschlagwortung“, weil die sprachlichen Ausdrücke ohne weiteren Kontext mehrdeutig sein können oder auch weil es oft mehrere Bezeichnungen für ein und dieselbe Sache gibt. Es wird also eine Art „Kunstsprache“ benötigt, die die Mehrdeutigkeiten und die Bezeichnungsvielfalt der natürlichen Sprache soweit auflöst, dass die Schlagwörter das Gemeinte möglichst unmissverständlich ausdrücken. Eine solche Kunstsprache wird auch Dokumentationssprache genannt.

Kontrollierte Vokabulare sind solche Dokumentationssprachen. Sie sind eine Vereinbarung über Begriffe und Bezeichnungen, die der Beschreibung und dem Auffinden von Dokumenten dienen.

Oben haben wir aber gesehen, dass ein Large Language Model (LLM) wie ChatGPT sehr wohl in der Lage ist, Begriffe auseinanderzuhalten. Da liegt die Frage nahe, warum man sich noch Mühe mit Thesauri machen sollte, wenn KI die Wortbedeutungen oft richtig erkennen kann.

Thesauri und andere kontrollierte Vokabulare haben aber Eigenschaften, die von LLMs noch nicht eingeholt sind:

  • Thesauri drücken langfristig gültige Vereinbarungen aus, während KI sich auf Wahrscheinlichkeiten stützt.

  • Bei Beachtung der Regeln sind die Begriffsbestimmungen eines Thesaurus dauerhaft nachvollziehbar.

  • Thesauri spiegeln nicht nur den aktuellen Sprachgebrauch wider wie KI-Modelle, sondern berücksichtigen auch den Sprachwandel.

  • KI-Modelle sind noch nicht in der Lage, logische Beziehungen zwischen Begriffen zu erkennen oder herstellen zu können.

Um verlässlichere und nachvollziehbare Antworten zu liefern, werden KI-Anwendungen zunehmend mit kontrollierten Vokabularen wie Thesauri oder mit Glossaren und Lexika gekoppelt. Diese als RAG (Retrieval-augmented generation) bekannten Verfahren stellen ein neues, wichtiges Anwendungsfeld für Thesauri dar.