2.2.2.1.3 Zerlegungskontrolle (In Bearbeitung)

 

 

 

1 Definition

Zerlegungskontrolle ist ein Verfahren der Vokabularkontrolle, bei dem geprüft und entschieden wird, ob eine Begriffskombination als Deskriptor in das Vokabular aufgenommen wird oder ob die Bedeutung dieses Wortes durch zwei oder mehrere Deskriptoren ausgedrückt wird.

 

2 Erläuterung

Bezeichnungen der natürlichen Sprache sind oft aus mehreren Wörtern oder Wortbestandteilen zusammengesetzt (man spricht von “Begriffskombinationen”, “Komposita” oder “Wortzusammensetzungen”). Diese Wortkombinationen können in der zusammengesetzten Form

  1. als Schlagwörter (Deskriptoren) in das Vokabular aufgenommen werden oder

  2. sie können in ihre bedeutungstragenden Bestandteile zerlegt und durch zwei oder mehrere Schlagwörter repräsentiert werden.

Terminologischer Hinweis
Im Folgenden wird die Bezeichnung “Begriffskombination” für alle Arten von Wortzusammensetzungen verwendet.

Begriffskombinationen können Einwortbegriffe sein wie ‘Windmühle’ oder Adjektiv-Substantiv-Verbindungen, zum Beispiel ‘Technische Anlage’, oder Phrasen wie ‘Nicht genehmigungsbedürftige Anlage’ 1.

 

3 Beispiel

Der Begriff ‘Galerieholländerwindmühle’ setzt sich aus vier Begriffen zusammen: dem Grundwort ‘Mühle’ und den differenzierenden Begriffen ‘Wind’, ‘Holländer’, ‘Galerie’. Grundwort heißt der Teil eines zusammengesetzten Schlagwortes, der den Gattungsbegriff (was für "eine Art von" ist der Begriff) enthält, in diesem Fall also 'Mühle'. Die anderen Bestandteile in diesem Kompositum spezifizieren den Begriff nach bestimmten Merkmalen:

  • Eine Windmühle ist eine Mühle, die durch Wind angetrieben wird.

  • Eine Holländerwindmühle ist eine Windmühle, bei der nur die obere Kappe drehbar ist.

  • Eine Galerieholländerwindmühle ist eine Holländerwindmühle mit einem Galeriebau.

Diese Begriffe bilden eine Hierarchieleiter aus Oberbegriffen und Unterbegriffen:

Mühle (Bauwerk)
. Windmühle
.. Holländerwindmühle
... Galerieholländerwindmühle
.... Galerieholländerturmwindmühle

Nun können aber die verschiedenen Merkmale von Mühlen, zum Beispiel die Antriebsart, die Bauweise oder die Bestimmung für ein spezielles Mahlgut, in unterschiedlichen Kombinationen in jeweils spezifischen Mühlentypen vereint sein. Alle möglichen Kombinationen als Schlagwörter in ein Vokabular aufzunehmen, würde nicht nur zu einer großen Zahl zusammengesetzter Begriffe führen, sondern vor allem die Pflege des Vokabulars in Bezug auf die Konsistenz erschweren. In solchen Fällen sollte eine Zerlegung des zusammengesetzen Begriffes in zwei (oder gegebenenfalls mehr als zwei) Schlagwörter erwogen werden.

 

4 Beispiele aus Thesauri

Der "Thesaurus Ethik in den Biowissenschaften" benötigt die zusammengesetzten Begriffe ‘Pferdesport' und ‘Reitsport' nicht als eigenständige Deskriptoren, möchte aber eine Indexierung und Suche nach diesen Sachverhalten ermöglichen. Deshalb werden die Komposita zerlegt und durch zwei im Thesaurus bereits vorhandene Deskriptoren ausgedrückt: ‘Pferdesport’ und ‘Reitsport’ werden als alternative Bezeichnungen zu den Deskriptoren 'Pferd’ UND 'Sport’ aufgenommen.

Auf eine Suchanfrage nach 'Reitsport' im Bioethik-Thesaurus wird folgender Hinweis ausgegeben:

"Der Begriff wurde in den Deskriptoren und Nicht-Deskriptoren (Synonymen) gesucht. Dadurch erhalten Sie ein erweitertes Suchergebnis. Suchergebnisse in Nicht-Deskriptoren (multiple, UF+): Reitsport USE Pferd AND Sport"

Bioethik-Thesaurus

5 Zerlegungskontrolle

Wenn solche Mehrwortbegriffe als Deskriptoren in das Vokabular aufgenommen werden, spricht man von Präkombination. Komposita können aber auch für Indexierung und Suche in einzelne Deskriptoren zerlegt werden. Im Fall einer Zerlegung wird das Kompositum als alternative Bezeichnung für die Begriffe aufgenommen, die bei der Suche dieses Kompositum repräsentieren. Die einzelnen Deskriptoren werden bei der Suche dann mit Boole'schen Operatoren verknüpft (Postkoordination).
Begriffszerlegung (bei Thesauri spricht man von "Zerlegungskontrolle") bedeutet, dass ein zusammengesetzter Begriff, zum Beispiel 'Renaissanceschloss', nicht präkombiniert als Schlagwort in das Vokabular aufgenommen wird, sondern durch zwei (oder mehr als zwei) Schlagwörter repräsentiert wird (in diesem Fall: 'Renaissance' und 'Schloss'). 'Fabrikantenvillengarten' könnte zum Beispiel zerlegt werden in 'Fabrikantenvilla' und 'Villengarten'). Bei der Suche werden die einzelnen Schlagwörter durch eine UND-Verknüpfung postkoordiniert, also zum Beispiel "Renaissance UND Schloss".

Hinweis
Es ist möglich, dass eine mehrdeutige zusammengesetzte Bezeichnung in der einen Bedeutung als zusammengesetzes Schlagwort geführt wird und in der anderen Bedeutung durch zwei verschiedene Schlagwörter repräsentiert wird.

Beispiel
Das Polysem 'Steinbeil' würde als archäologischer Begriff in zusammengesetzter Form in das Vokabular aufgenommen, während das 'Beil' aus 'Stein' (bei entsprechender Regelung) durch die Schlagwörter "Beil UND Stein" repräsentiert würde.

 

6 Vorteile der Zerlegung

Die Zerlegung zusammengesetzter Begriffe

  • reduziert die Anzahl der Schlagwörter in einem Vokabular. Häufig wird von dieser Reduktion auch eine bessere Übersichtlichkeit und Handhabbarkeit des Vokabulars erwartet.

  • erleichtert die Pflegbarkeit des Vokabulars.

 

7 Nachteile der Zerlegung

Grundsätzlich lässt sich aber sagen, dass die Nachteile einer Begriffszerlegung erheblich sein können:

  • Ein Begriff, der zerlegt wird, kann keine semantischen Begriffsbeziehungen haben, also keine hierarchischen oder assoziativen Beziehungen. Dadurch gehen möglicherweise wertvolle Informationen zu dem Begriff verloren.

  • Eine semantisch sinnvolle Zerlegung ist nicht immer einfach. Eine morphologische Zerlegung in die Wortbestandteile, zum Beispiel in 'Chor' und 'Hemd' für 'Chorhemd', kann bei einer Suche Dokumente liefern, in denen Chöre und Hemden vorkommen, aber kein 'Chorhemd', wie es das Suchergebnis im Screenshot rechts zeigt.

  • Das Suchergebnis kann unerwünschte Treffer, Informationsballast, enthalten. Dieser Ballast entsteht durch ungerichtete Verknüpfungen bei der Postkoordination. Diese "falschen" Treffer entstehen, weil die "UND-Verknüpfung" bei der Suche keine Richtung kennt, also nicht weiß, ob zum Beispiel "Baum UND Stamm" 'Stammbaum' oder 'Baumstamm' bedeutet.

  • Die mit den zwei (oder mehr) einfachen Begriffen indexierten Dokumente werden auch bei jeder Suche mit nur einem der Begriffe gefunden2, sofern die einfachen Begriffe, in die zerlegt wurde, nicht als syntaktische Einheit suchbar sind.

Diese Nachteile der Zerlegung werden aber in facettenbasierten Systemen weitgehend aufgehoben. Es muss sichergestellt sein, dass die Einfachbegriffe, die den zerlegten Begriff repräsentieren, bei der Suche mit einem "UND-Operator" verbunden werden.

 

8 Bedeutung für Indexierung und Retrieval

 

Die Zerlegung komplexer Begriffe reduziert die Anzahl der Deskriptoren in einem Vokabular. Eine geringere Deskriptorzahl wird häufig als ein Vorteil der Begriffszerlegung genannt, weil der Thesaurus dadurch übersichtlicher gehalten werde.

Zusammengesetzte Begriffe erhöhen die Präzision der Suche und sind deshalb insbesondere bei großen Datenmengen vorteilhaft. Der Nachteil ist oft, dass Nutzer die spezifischen Begriffe nicht kennen und sich die entsprechenden Schlagwörter erst über die Thesaurusbeziehungen erstöbern müssen. Es können aber möglicherweise nur sehr wenige Dokumente zu dem präkombinierten, sehr spezifischen Deskriptor nachgewiesen werden.

Begriffskombinationen haben den Vorteil, relativ spezifisch zu sein und damit eine präzise Indexierung und Suche zu ermöglichen. Auf der anderen Seite kann die Zahl präkombinierter Begriffe sehr groß werden, wenn das Differenzwort Eigenschaften beschreibt, die sehr viele Gegenstände teilen. Das ist häufig bei Kombinationen mit Geografika oder Ethnografika der Fall. (Ein Beispiel hierfür ist die Liste der zusammengesetzten Begriffe für Kriegsgefangene verschiedener Nationalität der Gemeinsamen Normdatei, etwa Bulgarischer Kriegsgefangener.)

Begriffszerlegung hat den Nachteil, dass falsche Treffer bei postkoordinierter Suche kaum zu vermeiden sind. Außerdem sind Nutzer erfahrungsgemäß selten bereit, erweiterte Suchmöglichkeiten mit Boole'schen Operatoren anzuwenden. Für facettierte Informationssysteme dagegen sind postkoordinierende Verfahren gut geeignet.

 

9 Faktoren, die bei der Zerlegungskontrolle berücksichtigt werden sollten

Zusammengesetzte Begriffe erhöhen die Präzision der Suche und sind deshalb insbesondere bei großen Datenmengen vorteilhaft. Der Nachteil ist oft, dass Nutzer die spezifischen Begriffe nicht kennen und sich die entsprechenden Schlagwörter erst über die Thesaurusbeziehungen erstöbern müssen. Es können aber möglicherweise nur sehr wenige Dokumente zu dem präkombinierten, sehr spezifischen Deskriptor nachgewiesen werden.

Begriffskombinationen haben den Vorteil, relativ spezifisch zu sein und damit eine präzise Indexierung und Suche zu ermöglichen. Auf der anderen Seite kann die Zahl präkombinierter Begriffe sehr groß werden, wenn das Differenzwort Eigenschaften beschreibt, die sehr viele Gegenstände teilen. Das ist häufig bei Kombinationen mit Geografika oder Ethnografika der Fall. (Ein Beispiel hierfür ist die Liste der zusammengesetzten Begriffe für Kriegsgefangene verschiedener Nationalität der Gemeinsamen Normdatei, etwa Bulgarischer Kriegsgefangener.)

Begriffszerlegung hat den Nachteil, dass falsche Treffer bei postkoordinierter Suche kaum zu vermeiden sind. Außerdem sind Nutzer erfahrungsgemäß selten bereit, erweiterte Suchmöglichkeiten mit Boole'schen Operatoren anzuwenden. Für facettierte Informationssysteme dagegen sind postkoordinierende Verfahren gut geeignet.

 

10 Wann sollten Begriffskombinationen zerlegt werden?

 

Wann zusammengesetzte Bezeichnungen in ein Vokabular aufgenommen werden sollen, lässt sich nur schwer allgemein regeln. Es gibt aber einige generelle Anhaltspunkte. Zusätzlich werden jedoch systemspezifische Regelungen erforderlich sein.

Die Zerlegung einer Kombination ist in folgenden Fällen zu erwägen:

 

Merkmal der Kombination

Beispiele

Erläuterung

Merkmal der Kombination

Beispiele

Erläuterung

1

Die kombinierte Bezeichnung ist ungebräuchlich und deshalb als Suchbegriff schwer vorherzusehen.

Lanzettstabgitterzaun

Zusammengesetzte Begriffe sind oft schlecht vorhersehbar und auffindbar, wenn sie aus vielen Komponenten zusammengesetzt oder ungewöhnlich kombiniert sind.

2

Die Kombination enthält mehr als zwei Determinanten.

Blechblasinstrumentenbauer

Wenn das Grundwort eines Begriffes durch mehr als zwei Begriffe weitere Begriffe differenziert wird, ist eine Zerlegung zu erwägen, sofern es sich nicht um einen gebräuchlichen Fachbegriff handelt.

3

Das Kompositum ist (für den Anwendungsbereich) zu spezifisch und hat keine Unterscheidungskraft.

Flugzeugabsturzstelle

Der zusammengesetzte Begriff ist so spezifisch, dass wahrscheinlich nur wenige Dokumente zu diesem Begriff nachgewiesen werden können.3

4

Das Grundwort des Kompositums kommt häufig in Kombination mit anderen Begriffen vor.

Modell; Entwurf; Plan; System; Struktur; Statistik

Dieser Fall ist häufig bei Wortkombinationen, bei denen das Grundwort einen sehr hohen Allgemeinheitsgrad hat.

5

Das Kompositum ist eine Wortneuschöpfung für Indexierungszwecke.

Fabrikantenvillengarten; Arbeitersportbewegungturnhose; Gaswechselmesskammersteuergerät; Kartokupferstecherlehrausbildungsmappe

Komposita, die nur für Indexierungszwecke neu gebildet werden, sind zwangsläufig ungebräuchlich, nicht vorhersehbar und deshalb als Deskriptoren für Information und Retrieval nicht gut geeignet.

6

Die Kombination enthält einen Differenzbegriff, das Material oder Epoche beziehungsweise Stil bezeichnet, sofern die Kombination keine spezifische Eigenbedeutung hat.

Barockkirche; Steintreppe

Wortzusammensetzungen dieser Art können zu einer langen Liste von Deskriptoren führen, die nicht konsistent pflegbar ist.

7

Der Differenzbegriff ist ein Adjektiv, das ein Merkmal des Fokus bezeichnet, das in vielen Ausprägungen vorkommt und deshalb zu einer sehr langen Liste präkombinierter Begriffe führen würde.

rote Seide; lettischer Kriegsgefangener

 

8

Der Differenzbegriff bestimmt den Inhalt und Umfang des Kopfbegriffs.

Landschaftsfotografie; medizinisches Labor; buddhistischer Tempel

 

9

Der Differenzbegriff bezeichnet einen Akteur, der in einem Besitzverhältnis zum Gegenstand des Kopfbegriffs steht.

executioners' + swords; artists' + houses

 

10

Das Kompositum eine Teil-Ganzes-Beziehung ausdrückt oder einen Ort oder Kontext wiedergibt.

Flughafenlounge; Münzinschrift; Buchillustration

 

 

 

 

11 Wann sollten Begriffskombinationen bevorzugt werden?

Begriffskombinationen sollten bevorzugt werden, wenn

  • sie eine festgefügte semantische Einheit bilden

  • die Kombination sehr gebräuchlich und in der Standard- oder Fachsprache etabliert ist

  • die Zerlegung bei der Suche zu Informationsballast führt

  • die Anzahl der Dokumente/Objekte, die durch den präkombinierten Begriff repräsentiert werden, voraussichtlich groß ist

  • die Begriffskomponenten nicht ohnehin als Deskriptor im Thesaurus vorhanden sind und speziell für den Zweck der Zerlegung eingeführt werden müssten

Eine Begriffskombination sollte nicht zerlegt werden, wenn

 

Art der Kombination

Beispiele

Art der Kombination

Beispiele

1

die Wortzusammensetzung gebräuchlich ist oder eine festgefügte semantische Einheit bildet und wie ein Begriff aufgefasst wird

Kulturlandschaft; Datenverarbeitung; Kunstgeschichte

2

die Bezeichnung in der Fachsprache etabliert ist

Photovoltaikanlage

3

die Zerlegung des zusammengesetzten Begriffes bei der Suche zu unerwünschten Treffern führen kann; es ein Problem beim Retrieval oder der Vokabularkontrolle geben kann, zum Beispiel wenn durch die Zerlegung zu viele falsche Treffer auftreten, weil die Richtung der Beziehung nicht klar ist

Bibliothekswissenschaft – Wissenschaftsbibliothek; Zwiebelturm; Chorhemd

4

die Anzahl der Dokumente, die durch den zusammengesetzten Begriff repräsentiert werden, voraussichtlich groß ist

 

5

die Begriffskomponenten nicht ohnehin als Schlagwort im Vokabular vorhanden sind und nur für den Zweck der Zerlegung eingeführt werden müssten; einer der Komponenten des Kompositums kein Deskriptor ist oder werden soll

"Bevölkerung" und "Statistik" sollten als Schlagwörter vorhanden sein, wenn "Bevölkerungsstatistik" zerlegt werden soll.

6

die Bedeutung der zusammengesetzten Bezeichnung nicht genau aus den einzelnen Bestandteilen rekonstruiert werden kann, gewöhnlich weil das Grundwort oder der Differenzbegriff die Bedeutung in der zusammengesetzen Bezeichnung ändern

(e.g., High Gothic)

7

der Differenzbegriff eine bildliche Bedeutung hat

(e.g., rose windows (Fensterrose, Rosette, Rosenfenster), barrel organs (Drehorgel), spade money, saddlebag houses)

8

der Differenzbegriff eine spezifische Form oder einen Typ des Grundbegriffs bezeichnet

(e.g., sleigh beds, basket capitals, window seats, ice houses)

9

der Differenzbegriff den Zweck oder die Funktion des Grundwortes definiert und dieser Zweck oder diese Funktion dem Gegenstand, den das Grundwort ausdrückt, eine bestimmte Form geben

Gebetsteppich, Geschirrschrank, crib barns, Messbecher

10

Bestandteile eines Kompositums zu vage sind, um als eigenständige Deskriptoren benutzt werden zu können

Erstentwurf; amtliche Urkunde oder Behördendokument; stone cutters; lost cities (verlorene Stadt))

11

das Komposition Präpositionen enthält

chests with drawers, books of hours, towers of silence, chapels of ease)

12

das Kompositum einen Eigennamen enthält

Brewster chairs, Usonian houses, Rangeley boats, Schuetzen rifles

13

das Kompositum einen Handelsnamen enthält

Conte crayons (TM), Plastic Wood (TM), Zonolite Concrete (TM))

14

der Differenzbegriff die Bedeutung des Grundwortes ändert

Papierflugzeug, Zinnsoldat, artificial limbs (Prothese), Greek fire (Griechisches Feuer))

15

der Differenzbegriff der leitende Begriff für das Grundwort ist

(e.g., cathedral cities, capital cities, army bases, colonial cities)

 

12 Vorgehen bei der Begriffszerlegung

Bei der Zerlegung ist es wichtig zu beachten, dass nicht das zusammengesetzte Wort in Wortteile zerlegt wird, sondern der Begriff, den das Kompositum repräsentiert, in Begriffskomponenten.4, 5

  • Analyse der Anzahl der Komponenten des zusammengesetzten Begriffes

  • Analyse der grundlegenden Kategorien, denen die einzelnen Begriffe des zusammengesetzten Begriffes angehören; wenn entsprechende Facetten (Metadatenelemente in der Objektdatenbank) existieren, ist ein Zerlegen sinnvoll (aber nicht unbedingt nötig)

  • Semantisch zerlegen, nicht morphologisch: nicht 'Eisenbahn' in 'Eisen + Bahn' oder 'Fingerhut' in 'Finger + Hut'.6

 

13 Zusammenfassung: Faktoren, die bei der Zerlegung berücksichtigt werden sollten

  • Gebräuchlichkeit der Bezeichnung
    Wenn der zusammengesetzte Begriff ein eingeführter Fachbegriff ist, sollte er nicht zerlegt werden, wenn das Fachgebiet zum Kerngebiet des Thesaurus gehört.

  • Häufigkeit des Gebrauchs
    Wenn der zusammengesetzte Begriff gebräuchlich ist und häufig als Suchterm benutzt wird, sollte er in der zusammengesetzten Form in das Vokabular aufgenommen werden.

  • Art der Begriffszusammensetzung
    Wenn der zusammengesetzte Begriff neben dem Grundwort mehr als einen differenzierenden Begriff enthält, ist an eine Zerlegung zu denken.

  • Grad der erforderlichen Spezifität des Vokabulars
    Wenn zu erwarten ist, dass eine große Dokumentmenge zu einem spezifischen Gegenstand vorkommen wird, ist es3 sinnvoll, ein Schlagwort für diesen spezifischen Begriff vorzuhalten. Wenn eine hohe Spezifität angestrebt wird, sind zusammengesetzte Begriffe als Schlagwort geeigneter als Einfachbegriffe.

  • Zugehörigkeit zu einem Kerngebiet oder Randgebiet des Thesaurus
    Begriffe, die zum Kerngebiet des Vokabulars gehören, sollten eher nicht zerlegt werden; umgekehrt ist eine Zerlegung bei marginalen Begriffen weniger kritisch.

  • Vermeidung von Mehrdeutigkeit bei der Suche
    Die Zerlegung eines zusammengesetzen Begriffes kann zu mehrdeutigen Ergebnissen bei der Suche führen. Zum Beispiel kann eine Zerlegung von "Baumstamm" in "Baum + Stamm" als Suchergebnis "Baumstamm" oder "Stammbaum"7 haben. Weiteres Beispiel: Bibliothek + Wissenschaft kann Wissenschaftliche Bibliothek oder Bibliothekswissenschaft8 meinen.

  • Geplante Suchschnittstelle
    Nicht zuletzt spielt die beabsichtigte Suchschnittstelle für die Entscheidungen bei der Begriffszerlegung eine große Rolle. Wenn zum Beispiel eine facettenbasierte Suchschnittstelle vorgesehen ist, kann eine Zerlegung zusammengesetzter Begriffe von Vorteil sein. Ist dagegen eher eine Suchoberfläche zum Blättern und Stöbern in Hierarchiebäumen geplant, sind zusammengesetzte Begriffe nützlicher.

 

14 Siehe auch

https://digicult.atlassian.net/wiki/spaces/XTREE/pages/3304226871

https://digicult.atlassian.net/wiki/spaces/XTREE/pages/3304226864

https://digicult.atlassian.net/wiki/spaces/XTREE/pages/3304718393

 

15 Anmerkungen

 


1 Die Beispiele sind der Schlagwortnormdatei entnommen.

2 Kuhlen et al. (2004): Grundlagen der praktischen Information und Dokumentation, S. 145

3 Der Grad der benötigten Spezifität hängt (auch) von der Anwendungsumgebung ab und sollte systemspezifisch festgelegt werden. Bei spezifischen Datenbanken, zum Beispiel Military Aircraft Crash Sites von English Heritage, können solche zusammengesetzten Schlagwörter sinnvoll sein.

4 "Bei der Zerlegung ist es wichtig zu beachten, dass die vorliegenden Bezeichnungen nur die Repräsentanten der Begriffe sind. Was eigentlich zu zerlegen ist, ist der Begriff in Begriffskomponenten, nicht das Wort in Wortteile." [Grundlagen 2004, S. 144]

5 S.a. DIN 1463-1:1987, 5.5.3

6 "Bei der Zerlegung ist es wichtig zu beachten, dass die vorliegenden Bezeichnungen nur die Repräsentanten der Begriffe sind. Was eigentlich zu zerlegen ist, ist der Begriff in Begriffskomponenten, nicht das Wort in Wortteile." [Kuhlen et al. (2004): Grundlagen der praktischen Information und Dokumentation, S. 144]

7 Beispiel aus DIN 1463-1

8 Beispiel aus ISO 25964

 

 

 

Überarbeitete Fassung Zerlegungskontrolle (in Bearbeitung)

1 Definition

Zerlegungskontrolle ist ein Verfahren der → Terminologischen Kontrolle, bei dem geprüft und entschieden wird, ob eine Begriffskombination als Deskriptor in das Vokabular aufgenommen wird oder ob die Bedeutung dieses Wortes durch zwei oder mehrere Deskriptoren ausgedrückt wird.

2 Terminologie und Kürzel

Im Folgenden wird die Bezeichnung "Begriffskombination" für alle Arten von Wortzusammensetzungen verwendet. Andere Bezeichnungen sind "Begriffskombinationen", "Komposita" oder "Wortzusammensetzungen".

Note 1 to entry: Compound terms can be multi-word terms, or can consist of only one word.

2.8 compound equivalence

relationship or mapping in which one term (2.61) or concept (2.11) in one context is represented by two or more terms (2.61) or concepts (2.11) in another

2.9 compound term

term (2.61) that can be split morphologically into separate components

EXAMPLE:

In English:

“copper mines” can be split into “copper” and “mines”; “lawnmowers” can be split into “lawns” and “mowers”

3 Erläuterung

Bezeichnungen der natürlichen Sprache sind oft aus mehreren Wörtern oder Wortbestandteilen zusammengesetzt. Diese Wortkombinationen können in der zusammengesetzten Form

  1. als Schlagwörter (Deskriptoren) in das Vokabular aufgenommen werden oder

  2. sie können in ihre bedeutungstragenden Bestandteile zerlegt und durch zwei oder mehrere Schlagwörter repräsentiert werden

Begriffskombinationen können Einwortbegriffe sein wie "Windmühle" oder Adjektiv-Substantiv-Verbindungen, zum Beispiel "Technische Anlage", oder Phrasen wie "Nicht genehmigungsbedürftige Anlage".

3.1 Zerlegungskontrolle

Wenn solche Mehrwortbegriffe als Deskriptoren in das Vokabular aufgenommen werden, spricht man von "Präkombination". Komposita können aber auch für Indexierung und Suche in einzelne Deskriptoren zerlegt werden. Im Fall einer Zerlegung wird das zusammengesetzte Wort als alternative Bezeichnung für die Begriffe aufgenommen, die bei der Suche dieses Kompositum repräsentieren. Die einzelnen Deskriptoren werden bei der Suche dann mit Boole'schen Operatoren verknüpft (Postkoordination).
Begriffszerlegung (bei Thesauri spricht man von "Zerlegungskontrolle") bedeutet, dass ein Kompositum, zum Beispiel "Renaissanceschloss", nicht präkombiniert als Schlagwort in das Vokabular aufgenommen wird, sondern durch zwei (oder mehr als zwei) Schlagwörter repräsentiert wird (in diesem Fall: 'Renaissance' und 'Schloss'). 'Fabrikantenvillengarten' könnte zum Beispiel zerlegt werden in 'Fabrikantenvilla' und 'Villengarten'). Bei der Suche werden die einzelnen Schlagwörter durch eine UND-Verknüpfung postkoordiniert, also zum Beispiel "Renaissance UND Schloss".

3.2 Vorteile der Zerlegung

Die Zerlegung zusammengesetzter Begriffe

  • reduziert die Anzahl der Schlagwörter in einem Vokabular. Häufig wird von dieser Reduktion auch eine bessere Übersichtlichkeit und Handhabbarkeit des Vokabulars erwartet.

  • erleichtert die Pflegbarkeit des Vokabulars.

3.3 Nachteile der Zerlegung

Grundsätzlich lässt sich aber sagen, dass die Nachteile einer Begriffszerlegung erheblich sein können:

  • Ein Begriff, der zerlegt wird, kann keine semantischen Begriffsbeziehungen haben, also keine hierarchischen oder assoziativen Beziehungen. Dadurch gehen möglicherweise wertvolle Informationen zu dem Begriff verloren.

  • Eine semantisch sinnvolle Zerlegung ist nicht immer einfach. Eine morphologische Zerlegung in die Wortbestandteile, zum Beispiel in 'Chor' und 'Hemd' für "Chorhemd", kann bei einer Suche Dokumente liefern, in denen Chöre und Hemden vorkommen, aber kein Chorhemd.

  • Das Suchergebnis kann unerwünschte Ergebnisse enthalten. Die "falschen Treffer" entstehen, weil die "UND-Verknüpfung" bei der Suche keine Richtung kennt, also nicht weiß, ob zum Beispiel "Baum UND Stamm" 'Stammbaum' oder 'Baumstamm' bedeutet.

  • Die mit den zwei (oder mehr) einfachen Begriffen indexierten Dokumente werden auch bei jeder Suche mit nur einem der Begriffe gefunden, wenn keine syntaktische Verkettung der einzelnen Begriffe bei der Suche (Präkoordination) möglich sind.

Diese Nachteile der Zerlegung werden aber in facettenbasierten Systemen weitgehend aufgehoben. Es muss sichergestellt sein, dass die Einfachbegriffe, die den zerlegten Begriff repräsentieren, bei der Suche mit einem "UND-Operator" verbunden werden.

3.4 Faktoren, die bei der Zerlegungskontrolle berücksichtigt werden sollten

Zusammengesetzte Begriffe erhöhen die Präzision der Suche und sind deshalb insbesondere bei großen Datenmengen vorteilhaft. Der Nachteil ist oft, dass Nutzer die spezifischen Begriffe nicht kennen und sich die entsprechenden Schlagwörter erst über die Thesaurusbeziehungen erstöbern müssen. Es können aber möglicherweise nur sehr wenige Dokumente zu dem präkombinierten, sehr spezifischen Deskriptor nachgewiesen werden.

Begriffskombinationen haben den Vorteil, relativ spezifisch zu sein und damit eine präzise Indexierung und Suche zu ermöglichen. Auf der anderen Seite kann die Zahl präkombinierter Begriffe sehr groß werden, wenn das Differenzwort Eigenschaften beschreibt, die sehr viele Gegenstände teilen. Das ist häufig bei Kombinationen mit Geografika oder Ethnografika der Fall. (Ein Beispiel hierfür ist die Liste der zusammengesetzten Begriffe für Kriegsgefangene verschiedener Nationalität der Gemeinsamen Normdatei, etwa Bulgarischer Kriegsgefangener.)

Begriffszerlegung hat den Nachteil, dass falsche Treffer bei postkoordinierter Suche kaum zu vermeiden sind. Außerdem sind Nutzer erfahrungsgemäß selten bereit, erweiterte Suchmöglichkeiten mit Boole'schen Operatoren anzuwenden. Für facettierte Informationssysteme dagegen sind postkoordinierende Verfahren gut geeignet.

3.5 Wann sollten Begriffskombinationen zerlegt werden?

Wann zusammengesetzte Bezeichnungen in ein Vokabular aufgenommen werden sollen, lässt sich nur schwer allgemein regeln. Es gibt aber einige generelle Anhaltspunkte. Zusätzlich werden jedoch systemspezifische Regelungen erforderlich sein. Tabelle 1 erläutert Fälle, in denen die Zerlegung einer Kombination zu erwägen ist.

3.6 Wann sollten Begriffskombinationen bevorzugt werden?

Begriffskombinationen sollten bevorzugt werden, wenn

  • sie eine festgefügte semantische Einheit bilden

  • die Kombination sehr gebräuchlich und in der Standard- oder Fachsprache etabliert ist

  • die Zerlegung bei der Suche zu Informationsballast führt

  • die Anzahl der Dokumente/Objekte, die durch den präkombinierten Begriff repräsentiert werden, voraussichtlich groß ist

  • die Begriffskomponenten nicht ohnehin als Deskriptor im Thesaurus vorhanden sind und speziell für den Zweck der Zerlegung eingeführt werden müssten.

3.7 Vorgehen bei der Begriffszerlegung

Bei der Zerlegung ist es wichtig zu beachten, dass nicht das zusammengesetzte Wort in Wortteile zerlegt wird, sondern der Begriff in Begriffskomponenten.

  • Analyse der Anzahl der Komponenten des zusammengesetzten Begriffes

  • Analyse der grundlegenden Kategorien, denen die einzelnen Begriffe des zusammengesetzten Begriffes angehören; wenn entsprechende Facetten (Metadatenelemente in der Objektdatenbank) existieren, ist ein Zerlegen sinnvoll (aber nicht unbedingt nötig)

  • Semantisch zerlegen, nicht morphologisch: nicht 'Eisenbahn' in 'Eisen + Bahn' oder 'Fingerhut' in 'Finger + Hut'.

4 Beispiele

Der Begriff Galerieholländerwindmühle setzt sich aus vier Wörtern zusammen: dem Grundwort "Mühle" und den differenzierenden Begriffen "Wind", "Holländer", "Galerie". Grundwort heißt der Teil eines zusammengesetzten Schlagwortes, der den Gattungsbegriff (was für "eine Art von" ist der Begriff) enthält, in diesem Fall also "Mühle". Das Grundwort steht bei zusammengesetzten Begriffen im Deutschen in der Regel am Ende der Kombination. Die anderen Bestandteile im Kompositum "Galerieholländerwindmühle" spezifizieren den Begriff nach bestimmten Merkmalen:

  • Eine Windmühle ist eine Mühle, die durch Wind angetrieben wird.

  • Eine Holländerwindmühle ist eine Windmühle, bei der nur die obere Kappe drehbar ist.

  • Eine Galerieholländerwindmühle ist eine Holländerwindmühle mit einem Galeriebau.

Diese Begriffe bilden eine Hierarchieleiter aus Oberbegriffen und Unterbegriffen:

Mühle (Bauwerk)
. Windmühle
. . Holländerwindmühle
. . . Galerieholländerwindmühle
. . . . Galerieholländerturmwindmühle

Nun können aber die verschiedenen Merkmale von Mühlen, zum Beispiel die Antriebsart, die Bauweise oder die Bestimmung für ein spezielles Mahlgut, in unterschiedlichen Kombinationen in jeweils spezifischen Mühlentypen vereint sein. Alle möglichen Kombinationen als Schlagwörter in ein Vokabular aufzunehmen, würde nicht nur zu einer großen Zahl zusammengesetzter Begriffe führen, sondern vor allem die Pflege des Vokabulars in Bezug auf die Konsistenz erschweren. In solchen Fällen sollte eine Zerlegung des zusammengesetzen Begriffes in zwei (oder gegebenenfalls mehr als zwei) Deskriptoren erwogen werden (Zerlegungskontrolle).

Glossar: Zerlegungskontrolle; Grundwort;

4.1 Beispiele aus Thesauri

Der "Thesaurus Ethik in den Biowissenschaften" benötigt die zusammengesetzten Begriffe 'Pferdesport' und 'Reitsport' nicht als eigenständige Deskriptoren, möchte aber eine Indexierung und Suche nach diesen Sachverhalten ermöglichen. Deshalb werden die Komposita zerlegt und durch zwei im Thesaurus bereits vorhandene Deskriptoren ausgedrückt: 'Pferdesport' und 'Reitsport' werden als alternative Bezeichnungen zu den Deskriptoren 'Pferd’ UND 'Sport’ aufgenommen.

Auf eine Suchanfrage nach 'Reitsport' im Bioethik-Thesaurus wird folgender Hinweis ausgegeben:

"Der Begriff wurde in den Deskriptoren und Nicht-Deskriptoren (Synonymen) gesucht. Dadurch erhalten Sie ein erweitertes Suchergebnis. Suchergebnisse in Nicht-Deskriptoren (multiple, UF+): Reitsport USE Pferd AND Sport"

5 Indexierung und Retrieval

Die Zerlegung komplexer Begriffe reduziert die Anzahl der Deskriptoren in einem Vokabular. Eine geringere Deskriptorzahl wird häufig als ein Vorteil der Begriffszerlegung genannt, weil der Thesaurus dadurch übersichtlicher gehalten werde. Dieses Argument wiegt bei einem gut strukturierten Thesaurus und guten Retrievalfunktionen nicht sehr schwer.

Begriffskombinationen haben den Vorteil, durch ihre Spezifität eine präzise Indexierung und Suche zu ermöglichen und dadurch die Genauigkeit der Suchergebnisse (Precision) zu erhöhen. Das ist insbesondere bei großen Datenbeständen von Vorteil.

Begriffszerlegung hat den Nachteil, dass falsche Treffer bei postkoordinierter Suche kaum zu vermeiden sind. Außerdem sind Nutzer erfahrungsgemäß selten bereit, erweiterte Suchmöglichkeiten mit Boole'schen Operatoren anzuwenden. Für facettierte Informationssysteme dagegen sind postkoordinierende Verfahren gut geeignet.

Ein Nachteil ist jedoch, dass die spezifischen Begriffe meist weniger bekannt sind und möglicherweise deshalb bei einer einfachen Suche nicht gefunden werden.

6 Zerlegungsrelation in xTree

7 Zusammenfassung

https://wiki.dnb.de/x/ZNv0CQ

https://wiki.dnb.de/x/b1NVCw

Präkombination bezeichnet in diesem Kontext Schlagwörter, die aus mehr als einem Begriff zusammengesetzt sind. Darunter fallen Komposita, Adjektiv-Substantiv-Verbindungen und Phrasen.

Präkombinationen erhöhen die Spezifität des Vokabulars und verbessern damit die Genauigkeit der Suchergebnisse (Precision). Nicht gebräuchliche oder nicht vorhersehbare Präkombinationen mindern umgekehrt die Qualität des Retrieval.

Verweisungen in Begriffskombinationen sind mehrstellige Relationen, die von einem zusammengesetzten Wort (Präkombination) auf zwei oder mehr Deskriptoren verweisen, die anstelle der Wortkombination zur Indexierung benutzt werden sollen. Eine Kombinationsverweisung ist also eine Beziehung zwischen einem Nicht-Deskriptor und zwei oder mehr Deskriptoren.

In der GND wird die Kombinationsverweisung durch Hinweissätze ausgedrückt. Kombinationsverweisungen sollten eindeutig als nicht für die Indexierung zugelassen gekennzeichnet sein. 

Faktoren, die bei der Zerlegung berücksichtigt werden sollten

  • Gebräuchlichkeit der Bezeichnung
    Wenn der zusammengesetzte Begriff ein eingeführter Fachbegriff ist, sollte er nicht zerlegt werden, wenn das Fachgebiet zum Kerngebiet des Thesaurus gehört.

  • Häufigkeit des Gebrauchs
    Wenn der zusammengesetzte Begriff gebräuchlich ist und häufig als Suchterm benutzt wird, sollte er in der zusammengesetzten Form in das Vokabular aufgenommen werden.

  • Art der Begriffszusammensetzung
    Wenn der zusammengesetzte Begriff neben dem Grundwort mehr als einen differenzierenden Begriff enthält, ist an eine Zerlegung zu denken.

  • Grad der erforderlichen Spezifität des Vokabulars
    Wenn zu erwarten ist, dass eine große Dokumentmenge zu einem spezifischen Gegenstand vorkommen wird, ist es sinnvoll, ein Schlagwort für diesen spezifischen Begriff vorzuhalten. Wenn eine hohe Spezifität angestrebt wird, sind zusammengesetzte Begriffe als Schlagwort geeigneter als Einfachbegriffe.

  • Zugehörigkeit zu einem Kerngebiet oder Randgebiet des Thesaurus
    Begriffe, die zum Kerngebiet des Vokabulars gehören, sollten eher nicht zerlegt werden; umgekehrt ist eine Zerlegung bei marginalen Begriffen weniger kritisch.

  • Vermeidung von Mehrdeutigkeit bei der Suche
    Die Zerlegung eines zusammengesetzen Begriffes kann zu mehrdeutigen Ergebnissen bei der Suche führen. Zum Beispiel kann eine Zerlegung von “Baumstamm” in “Baum + Stamm” als Suchergebnis "Baumstamm" oder "Stammbaum" haben. Weiteres Beispiel: Bibliothek + Wissenschaft kann Wissenschaftliche Bibliothek oder Bibliothekswissenschaft meinen.

  • Geplante Suchschnittstelle
    Nicht zuletzt spielt die beabsichtigte Suchschnittstelle für die Entscheidungen bei der Begriffszerlegung eine große Rolle. Wenn zum Beispiel eine facettenbasierte Suchschnittstelle vorgesehen ist, kann eine Zerlegung zusammengesetzter Begriffe von Vorteil sein. Ist dagegen eher eine Suchoberfläche zum Blättern und Stöbern in Hierarchiebäumen geplant, sind zusammengesetzte Begriffe nützlicher.

8 Siehe auch

9 Referenzen

"Ein weiterer Relationstyp ergibt sich dann, wenn von der Möglichkeit der Begriffskombination Gebrauch gemacht wird. Der zusammengesetzte Begriff, der im Thesaurus durch die Kombination von zwei Deskriptoren wiedergegeben wird, ist formal Nicht-Deskriptor (Beispiel: Benutze Kombination 'Gebäude' und 'Diplomatische Vertretung' für den Sachverhalt 'Botschaftsegbäude'). [Etc. ...] [Grundlagen 2004, S. 10]

1 Die Beispiele sind der Schlagwortnormdatei entnommen.

2 Kuhlen et al. (2004): Grundlagen der praktischen Information und Dokumentation, S. 145

3 Der Grad der benötigten Spezifität hängt (auch) von der Anwendungsumgebung ab und sollte systemspezifisch festgelegt werden. Bei spezifischen Datenbanken, zum Beispiel Military Aircraft Crash Sites von English Heritage, können solche zusammengesetzten Schlagwörter sinnvoll sein.

4 "Bei der Zerlegung ist es wichtig zu beachten, dass die vorliegenden Bezeichnungen nur die Repräsentanten der Begriffe sind. Was eigentlich zu zerlegen ist, ist der Begriff in Begriffskomponenten, nicht das Wort in Wortteile." [Grundlagen 2004, S. 144]

5 S.a. DIN 1463-1:1987, 5.5.3

6 "Bei der Zerlegung ist es wichtig zu beachten, dass die vorliegenden Bezeichnungen nur die Repräsentanten der Begriffe sind. Was eigentlich zu zerlegen ist, ist der Begriff in Begriffskomponenten, nicht das Wort in Wortteile." [Kuhlen et al. (2004): Grundlagen der praktischen Information und Dokumentation, S. 144]

7 Beispiel aus DIN 1463-1

8 Beispiel aus ISO 25964

 

 

 

 


Tabelle 1: Kombinationen, die zerlegt werden sollten

Merkmal der Kombination

Beispiele

Erläuterung

Merkmal der Kombination

Beispiele

Erläuterung

Die kombinierte Bezeichnung ist ungebräuchlich und deshalb als Suchbegriff schwer vorherzusehen.

Lanzettstabgitterzaun

Zusammengesetzte Begriffe sind oft schlecht vorhersehbar und auffindbar, wenn sie aus vielen Komponenten zusammengesetzt oder ungewöhnlich kombiniert sind.

Die Kombination enthält mehr als zwei Differenzbegriffe.

Blechblasinstrumentenbauer

Wenn das Grundwort eines Begriffes durch mehr als zwei weitere Begriffe differenziert wird, ist eine Zerlegung zu erwägen, sofern es sich nicht um einen gebräuchlichen Fachbegriff handelt.

Das Kompositum ist zu spezifisch und hat keine Unterscheidungskraft. Der Grad der benötigten Spezifität hängt aber auch von der Anwendungsumgebung ab.

Flugzeugabsturzstelle

Bei spezifischen Datenbanken, zum Beispiel Military Aircraft Crash Sites von English Heritage, kann ein solcher zusammengesetzter Deskriptor sinnvoll sein.

Der zusammengesetzte Begriff ist so spezifisch, dass wahrscheinlich nur wenige Dokumente zu diesem Begriff nachgewiesen werden können.

Das Grundwort des Kompositums kommt oft in Kombination mit anderen Begriffen vor.

Modell; Entwurf; Plan; System; Struktur; Statistik

Dieser Fall ist häufig bei Wortkombinationen, bei denen das Grundwort einen sehr hohen Allgemeinheitsgrad hat.

Das Kompositum ist eine Wortneuschöpfung für Indexierungszwecke.

Fabrikantenvillengarten; Arbeitersportbewegungturnhose; Gaswechselmesskammersteuergerät; Kartokupferstecherlehrausbildungsmappe

Komposita, die nur für Indexierungszwecke neu gebildet werden, sind zwangsläufig ungebräuchlich, nicht vorhersehbar und deshalb als Deskriptoren für Indexierung und Retrieval nicht gut geeignet.

Die Kombination enthält einen Differenzbegriff, das Material oder Epoche beziehungsweise Stil bezeichnet, sofern die Kombination keine spezifische Eigenbedeutung hat.

Barockkirche; Steintreppe

Wortzusammensetzungen dieser Art können zu einer langen Liste von Deskriptoren führen, die nicht konsistent pflegbar ist.

Der Differenzbegriff ist ein Adjektiv, das ein Merkmal des Fokus bezeichnet, das in vielen Ausprägungen vorkommt und deshalb zu einer sehr langen Liste präkombinierter Begriffe führen würde.

rote Seide; lettischer Kriegsgefangener

 

Der Differenzbegriff bestimmt den Inhalt und Umfang des Grundworts.

Landschaftsfotografie; Medizinisches Labor; Buddhistischer Tempel

 

Der Differenzbegriff bezeichnet einen Akteur, der in einem Besitzverhältnis zum Gegenstand des Kopfbegriffs steht.

executioners' + swords; artists' + houses

 

Das Kompositum eine Teil-Ganzes-Beziehung ausdrückt oder einen Ort oder Kontext wiedergibt.

Flughafenlounge; Münzinschrift; Buchillustration

 

Tabelle 2: Kombinationen, die nicht zerlegt werden sollten

Art der Kombination

Beispiele

Art der Kombination

Beispiele

Die Wortzusammensetzung ist gebräuchlich oder eine festgefügte semantische Einheit und wird wie ein Begriff verstanden.

Kulturlandschaft; Datenverarbeitung; Kunstgeschichte

Die Bezeichnung ist in der Fachsprache etabliert.

Photovoltaikanlage

Die Zerlegung des zusammengesetzten Begriffes kann bei der Suche zu unerwünschten Ergebnissen führen, zum Beispiel weil die Richtung der Beziehung nicht klar ist. Was bedeutet “Wissenschaft + Bibliothek”? “Bibliothekswissenschaft” oder “Wissenschaftsbibliothek”?

Bibliothekswissenschaft – Wissenschaftsbibliothek

Die Anzahl der Objekte, die mit dem zusammengesetzten Begriff indexiert wird, ist voraussichtlich groß.

 

Die Begriffskomponenten sind nicht als Deskriptor im Vokabular vorhanden oder geplant und müssten nur für den Zweck der Zerlegung eingeführt werden.

“Bevölkerung” und “Statistik” sollten als Schlagwörter vorhanden sein, wenn “Bevölkerungsstatistik” zerlegt werden soll.

Die Bedeutung der zusammengesetzten Bezeichnung ist aus den einzelnen Bestandteilen nicht abzuleiten, gewöhnlich weil das Grundwort oder der Differenzbegriff die Bedeutung in der zusammengesetzen Bezeichnung ändern.

Hochgotik;

Der Differenzbegriff hat eine bildliche Bedeutung.

Rosenfenster; Drehorgel; Spatengeld

Der Differenzbegriff bezeichnet eine spezifische Form oder einen Typ des Grundbegriffs.

Schlittenbett; Korbkapitell; Fensterplatz

Der Differenzbegriff definiert den Zweck oder die Funktion des Grundwortes und bestimmt damit Form oderAussehen des Gegenstandes.

Gebetsteppich; Geschirrschrank; Messbecher

Die Bestandteile eines Kompositums sind zu allgemein und unbestimmt, um als eigenständige Deskriptoren aufgenommen zu werden.

Erstentwurf; Amtliche Urkunde; Behördendokument

Das Kompositum enthält einen Eigennamen.

Wolf-Rayet-Stern; Stellers Seekuh; Backus-Normalform

Das Kompositum enthält einen Handelsnamen.

Jaguar D-Type; Künstler-Antiqua; Nikon Coolpix 8800

Der Differenzbegriff ändert die Bedeutung des Grundwortes.

Papierflugzeug; Zinnsoldat; Griechisches Feuer

Der Differenzbegriff ist der leitende Begriff für das Grundwort.

Hauptstadt; Domstadt; Militärbasis