2.2.2.1.3 Zerlegungskontrolle (In Bearbeitung)
- 1 1 Definition
- 2 2 Terminologie und Kürzel
- 3 3 Erläuterung
- 3.1 3.1 Zerlegungskontrolle
- 3.2 3.2 Vorteile der Zerlegung
- 3.3 3.3 Nachteile der Zerlegung
- 3.4 3.4 Faktoren, die bei der Zerlegungskontrolle berücksichtigt werden sollten
- 3.5 3.5 Wann sollten Begriffskombinationen zerlegt werden?
- 3.6 3.6 Wann sollten Begriffskombinationen bevorzugt werden?
- 3.7 3.7 Vorgehen bei der Begriffszerlegung
- 4 4 Beispiele
- 5 5 Indexierung und Retrieval
- 6 6 Zerlegungsrelation in xTree
- 7 7 Zusammenfassung
- 8 8 Siehe auch
- 9 9 Referenzen
- 10 Tabelle 1: Kombinationen, die zerlegt werden sollten
- 11 Tabelle 2: Kombinationen, die nicht zerlegt werden sollten
1 Definition
Zerlegungskontrolle ist ein Verfahren der → Terminologischen Kontrolle, bei dem geprüft und entschieden wird, ob eine Begriffskombination als Deskriptor in das Vokabular aufgenommen wird oder ob die Bedeutung dieses Wortes durch zwei oder mehrere Deskriptoren ausgedrückt wird.
2 Terminologie und Kürzel
Im Folgenden wird die Bezeichnung "Begriffskombination" für alle Arten von Wortzusammensetzungen verwendet. Andere Bezeichnungen sind "Begriffskombinationen", "Komposita" oder "Wortzusammensetzungen".
Note 1 to entry: Compound terms can be multi-word terms, or can consist of only one word.
relationship or mapping in which one term (2.61) or concept (2.11) in one context is represented by two or more terms (2.61) or concepts (2.11) in another
term (2.61) that can be split morphologically into separate components
EXAMPLE:
In English: |
“copper mines” can be split into “copper” and “mines”; “lawnmowers” can be split into “lawns” and “mowers” |
3 Erläuterung
Bezeichnungen der natürlichen Sprache sind oft aus mehreren Wörtern oder Wortbestandteilen zusammengesetzt. Diese Wortkombinationen können in der zusammengesetzten Form
als Schlagwörter (Deskriptoren) in das Vokabular aufgenommen werden oder
sie können in ihre bedeutungstragenden Bestandteile zerlegt und durch zwei oder mehrere Schlagwörter repräsentiert werden
Begriffskombinationen können Einwortbegriffe sein wie "Windmühle" oder Adjektiv-Substantiv-Verbindungen, zum Beispiel "Technische Anlage", oder Phrasen wie "Nicht genehmigungsbedürftige Anlage".
3.1 Zerlegungskontrolle
Wenn solche Mehrwortbegriffe als Deskriptoren in das Vokabular aufgenommen werden, spricht man von "Präkombination". Komposita können aber auch für Indexierung und Suche in einzelne Deskriptoren zerlegt werden. Im Fall einer Zerlegung wird das zusammengesetzte Wort als alternative Bezeichnung für die Begriffe aufgenommen, die bei der Suche dieses Kompositum repräsentieren. Die einzelnen Deskriptoren werden bei der Suche dann mit Boole'schen Operatoren verknüpft (Postkoordination).
Begriffszerlegung (bei Thesauri spricht man von "Zerlegungskontrolle") bedeutet, dass ein Kompositum, zum Beispiel "Renaissanceschloss", nicht präkombiniert als Schlagwort in das Vokabular aufgenommen wird, sondern durch zwei (oder mehr als zwei) Schlagwörter repräsentiert wird (in diesem Fall: 'Renaissance' und 'Schloss'). 'Fabrikantenvillengarten' könnte zum Beispiel zerlegt werden in 'Fabrikantenvilla' und 'Villengarten'). Bei der Suche werden die einzelnen Schlagwörter durch eine UND-Verknüpfung postkoordiniert, also zum Beispiel "Renaissance UND Schloss".
HINWEIS
Es ist möglich, dass eine zusammengesetzte Bezeichnung mehrdeutig ist und in der einen Bedeutung als zusammengesetzes Schlagwort geführt wird und in der anderen Bedeutung durch zwei verschiedene Schlagwörter repräsentiert wird. Das Polysem "Steinbeil" würde als archäologischer Begriff zusammengesetzt in das Vokabular aufgenommen, während das "Beil aus Stein" (bei entsprechender Regelung) durch die Deskriptoren 'Beil' UND 'Stein' repräsentiert würde.
BEISPIEL
3.2 Vorteile der Zerlegung
Die Zerlegung zusammengesetzter Begriffe
reduziert die Anzahl der Schlagwörter in einem Vokabular. Häufig wird von dieser Reduktion auch eine bessere Übersichtlichkeit und Handhabbarkeit des Vokabulars erwartet.
erleichtert die Pflegbarkeit des Vokabulars.
3.3 Nachteile der Zerlegung
Grundsätzlich lässt sich aber sagen, dass die Nachteile einer Begriffszerlegung erheblich sein können:
Ein Begriff, der zerlegt wird, kann keine semantischen Begriffsbeziehungen haben, also keine hierarchischen oder assoziativen Beziehungen. Dadurch gehen möglicherweise wertvolle Informationen zu dem Begriff verloren.
BEISPIEL
Der Begriff Renaissanceschloss trägt Merkmale, die bei einer Begriffszerlegung in 'Schloss' und 'Renaissance' nicht ausgedrückt werden können. Außerdem kann der Begriff nach einer Zerlegung nicht unter dem Oberbegriff 'Schloss' aufgefunden werden. Für ein Stöbern im Bestand ist das eher von Nachteil.
Eine semantisch sinnvolle Zerlegung ist nicht immer einfach. Eine morphologische Zerlegung in die Wortbestandteile, zum Beispiel in 'Chor' und 'Hemd' für "Chorhemd", kann bei einer Suche Dokumente liefern, in denen Chöre und Hemden vorkommen, aber kein Chorhemd.
Das Suchergebnis kann unerwünschte Ergebnisse enthalten. Die "falschen Treffer" entstehen, weil die "UND-Verknüpfung" bei der Suche keine Richtung kennt, also nicht weiß, ob zum Beispiel "Baum UND Stamm" 'Stammbaum' oder 'Baumstamm' bedeutet.
Die mit den zwei (oder mehr) einfachen Begriffen indexierten Dokumente werden auch bei jeder Suche mit nur einem der Begriffe gefunden, wenn keine syntaktische Verkettung der einzelnen Begriffe bei der Suche (Präkoordination) möglich sind.
Diese Nachteile der Zerlegung werden aber in facettenbasierten Systemen weitgehend aufgehoben. Es muss sichergestellt sein, dass die Einfachbegriffe, die den zerlegten Begriff repräsentieren, bei der Suche mit einem "UND-Operator" verbunden werden.
3.4 Faktoren, die bei der Zerlegungskontrolle berücksichtigt werden sollten
Zusammengesetzte Begriffe erhöhen die Präzision der Suche und sind deshalb insbesondere bei großen Datenmengen vorteilhaft. Der Nachteil ist oft, dass Nutzer die spezifischen Begriffe nicht kennen und sich die entsprechenden Schlagwörter erst über die Thesaurusbeziehungen erstöbern müssen. Es können aber möglicherweise nur sehr wenige Dokumente zu dem präkombinierten, sehr spezifischen Deskriptor nachgewiesen werden.
Begriffskombinationen haben den Vorteil, relativ spezifisch zu sein und damit eine präzise Indexierung und Suche zu ermöglichen. Auf der anderen Seite kann die Zahl präkombinierter Begriffe sehr groß werden, wenn das Differenzwort Eigenschaften beschreibt, die sehr viele Gegenstände teilen. Das ist häufig bei Kombinationen mit Geografika oder Ethnografika der Fall. (Ein Beispiel hierfür ist die Liste der zusammengesetzten Begriffe für Kriegsgefangene verschiedener Nationalität der Gemeinsamen Normdatei, etwa Bulgarischer Kriegsgefangener.)
Begriffszerlegung hat den Nachteil, dass falsche Treffer bei postkoordinierter Suche kaum zu vermeiden sind. Außerdem sind Nutzer erfahrungsgemäß selten bereit, erweiterte Suchmöglichkeiten mit Boole'schen Operatoren anzuwenden. Für facettierte Informationssysteme dagegen sind postkoordinierende Verfahren gut geeignet.
3.5 Wann sollten Begriffskombinationen zerlegt werden?
Wann zusammengesetzte Bezeichnungen in ein Vokabular aufgenommen werden sollen, lässt sich nur schwer allgemein regeln. Es gibt aber einige generelle Anhaltspunkte. Zusätzlich werden jedoch systemspezifische Regelungen erforderlich sein. Tabelle 1 erläutert Fälle, in denen die Zerlegung einer Kombination zu erwägen ist.
3.6 Wann sollten Begriffskombinationen bevorzugt werden?
Begriffskombinationen sollten bevorzugt werden, wenn
sie eine festgefügte semantische Einheit bilden
die Kombination sehr gebräuchlich und in der Standard- oder Fachsprache etabliert ist
die Zerlegung bei der Suche zu Informationsballast führt
die Anzahl der Dokumente/Objekte, die durch den präkombinierten Begriff repräsentiert werden, voraussichtlich groß ist
die Begriffskomponenten nicht ohnehin als Deskriptor im Thesaurus vorhanden sind und speziell für den Zweck der Zerlegung eingeführt werden müssten.
3.7 Vorgehen bei der Begriffszerlegung
Bei der Zerlegung ist es wichtig zu beachten, dass nicht das zusammengesetzte Wort in Wortteile zerlegt wird, sondern der Begriff in Begriffskomponenten.
Analyse der Anzahl der Komponenten des zusammengesetzten Begriffes
Analyse der grundlegenden Kategorien, denen die einzelnen Begriffe des zusammengesetzten Begriffes angehören; wenn entsprechende Facetten (Metadatenelemente in der Objektdatenbank) existieren, ist ein Zerlegen sinnvoll (aber nicht unbedingt nötig)
Semantisch zerlegen, nicht morphologisch: nicht 'Eisenbahn' in 'Eisen + Bahn' oder 'Fingerhut' in 'Finger + Hut'.
4 Beispiele
Der Begriff Galerieholländerwindmühle
setzt sich aus vier Wörtern zusammen: dem Grundwort "Mühle" und den differenzierenden Begriffen "Wind", "Holländer", "Galerie". Grundwort heißt der Teil eines zusammengesetzten Schlagwortes, der den Gattungsbegriff (was für "eine Art von" ist der Begriff) enthält, in diesem Fall also "Mühle". Das Grundwort steht bei zusammengesetzten Begriffen im Deutschen in der Regel am Ende der Kombination. Die anderen Bestandteile im Kompositum "Galerieholländerwindmühle" spezifizieren den Begriff nach bestimmten Merkmalen:
Eine Windmühle ist eine Mühle, die durch Wind angetrieben wird.
Eine Holländerwindmühle ist eine Windmühle, bei der nur die obere Kappe drehbar ist.
Eine Galerieholländerwindmühle ist eine Holländerwindmühle mit einem Galeriebau.
Diese Begriffe bilden eine Hierarchieleiter aus Oberbegriffen und Unterbegriffen:
Mühle (Bauwerk)
. Windmühle
. . Holländerwindmühle
. . . Galerieholländerwindmühle
. . . . Galerieholländerturmwindmühle
Nun können aber die verschiedenen Merkmale von Mühlen, zum Beispiel die Antriebsart, die Bauweise oder die Bestimmung für ein spezielles Mahlgut, in unterschiedlichen Kombinationen in jeweils spezifischen Mühlentypen vereint sein. Alle möglichen Kombinationen als Schlagwörter in ein Vokabular aufzunehmen, würde nicht nur zu einer großen Zahl zusammengesetzter Begriffe führen, sondern vor allem die Pflege des Vokabulars in Bezug auf die Konsistenz erschweren. In solchen Fällen sollte eine Zerlegung des zusammengesetzen Begriffes in zwei (oder gegebenenfalls mehr als zwei) Deskriptoren erwogen werden (Zerlegungskontrolle).
Glossar: Zerlegungskontrolle; Grundwort;
4.1 Beispiele aus Thesauri
Der "Thesaurus Ethik in den Biowissenschaften" benötigt die zusammengesetzten Begriffe 'Pferdesport' und 'Reitsport' nicht als eigenständige Deskriptoren, möchte aber eine Indexierung und Suche nach diesen Sachverhalten ermöglichen. Deshalb werden die Komposita zerlegt und durch zwei im Thesaurus bereits vorhandene Deskriptoren ausgedrückt: 'Pferdesport' und 'Reitsport' werden als alternative Bezeichnungen zu den Deskriptoren 'Pferd’ UND 'Sport’ aufgenommen.
Auf eine Suchanfrage nach 'Reitsport' im Bioethik-Thesaurus wird folgender Hinweis ausgegeben:
"Der Begriff wurde in den Deskriptoren und Nicht-Deskriptoren (Synonymen) gesucht. Dadurch erhalten Sie ein erweitertes Suchergebnis. Suchergebnisse in Nicht-Deskriptoren (multiple, UF+): Reitsport USE Pferd AND Sport"
5 Indexierung und Retrieval
Die Zerlegung komplexer Begriffe reduziert die Anzahl der Deskriptoren in einem Vokabular. Eine geringere Deskriptorzahl wird häufig als ein Vorteil der Begriffszerlegung genannt, weil der Thesaurus dadurch übersichtlicher gehalten werde. Dieses Argument wiegt bei einem gut strukturierten Thesaurus und guten Retrievalfunktionen nicht sehr schwer.
Begriffskombinationen haben den Vorteil, durch ihre Spezifität eine präzise Indexierung und Suche zu ermöglichen und dadurch die Genauigkeit der Suchergebnisse (Precision) zu erhöhen. Das ist insbesondere bei großen Datenbeständen von Vorteil.
Begriffszerlegung hat den Nachteil, dass falsche Treffer bei postkoordinierter Suche kaum zu vermeiden sind. Außerdem sind Nutzer erfahrungsgemäß selten bereit, erweiterte Suchmöglichkeiten mit Boole'schen Operatoren anzuwenden. Für facettierte Informationssysteme dagegen sind postkoordinierende Verfahren gut geeignet.
Ein Nachteil ist jedoch, dass die spezifischen Begriffe meist weniger bekannt sind und möglicherweise deshalb bei einer einfachen Suche nicht gefunden werden.
6 Zerlegungsrelation in xTree
7 Zusammenfassung
8 Siehe auch
2.2.2.1.3.1 Präkombination (Im Aufbau)
2.2.2.1.3.3 Postkoordination (In Bearbeitung)
2.2.2.1.3.2 Präkoordination (Im Aufbau)
9 Referenzen
"Ein weiterer Relationstyp ergibt sich dann, wenn von der Möglichkeit der Begriffskombination Gebrauch gemacht wird. Der zusammengesetzte Begriff, der im Thesaurus durch die Kombination von zwei Deskriptoren wiedergegeben wird, ist formal Nicht-Deskriptor (Beispiel: Benutze Kombination 'Gebäude' und 'Diplomatische Vertretung' für den Sachverhalt 'Botschaftsegbäude'). [Etc. ...] [Grundlagen 2004, S. 10]
1 Die Beispiele sind der Schlagwortnormdatei entnommen.
2 Kuhlen et al. (2004): Grundlagen der praktischen Information und Dokumentation, S. 145
3 Der Grad der benötigten Spezifität hängt (auch) von der Anwendungsumgebung ab und sollte systemspezifisch festgelegt werden. Bei spezifischen Datenbanken, zum Beispiel Military Aircraft Crash Sites von English Heritage, können solche zusammengesetzten Schlagwörter sinnvoll sein.
4 "Bei der Zerlegung ist es wichtig zu beachten, dass die vorliegenden Bezeichnungen nur die Repräsentanten der Begriffe sind. Was eigentlich zu zerlegen ist, ist der Begriff in Begriffskomponenten, nicht das Wort in Wortteile." [Grundlagen 2004, S. 144]
6 "Bei der Zerlegung ist es wichtig zu beachten, dass die vorliegenden Bezeichnungen nur die Repräsentanten der Begriffe sind. Was eigentlich zu zerlegen ist, ist der Begriff in Begriffskomponenten, nicht das Wort in Wortteile." [Kuhlen et al. (2004): Grundlagen der praktischen Information und Dokumentation, S. 144]
Tabelle 1: Kombinationen, die zerlegt werden sollten
Merkmal der Kombination | Beispiele | Erläuterung |
---|---|---|
Die kombinierte Bezeichnung ist ungebräuchlich und deshalb als Suchbegriff schwer vorherzusehen. | Lanzettstabgitterzaun | Zusammengesetzte Begriffe sind oft schlecht vorhersehbar und auffindbar, wenn sie aus vielen Komponenten zusammengesetzt oder ungewöhnlich kombiniert sind. |
Die Kombination enthält mehr als zwei Differenzbegriffe. | Blechblasinstrumentenbauer | Wenn das Grundwort eines Begriffes durch mehr als zwei weitere Begriffe differenziert wird, ist eine Zerlegung zu erwägen, sofern es sich nicht um einen gebräuchlichen Fachbegriff handelt. |
Das Kompositum ist zu spezifisch und hat keine Unterscheidungskraft. Der Grad der benötigten Spezifität hängt aber auch von der Anwendungsumgebung ab. | Flugzeugabsturzstelle Bei spezifischen Datenbanken, zum Beispiel Military Aircraft Crash Sites von English Heritage, kann ein solcher zusammengesetzter Deskriptor sinnvoll sein. | Der zusammengesetzte Begriff ist so spezifisch, dass wahrscheinlich nur wenige Dokumente zu diesem Begriff nachgewiesen werden können. |
Das Grundwort des Kompositums kommt oft in Kombination mit anderen Begriffen vor. | Modell; Entwurf; Plan; System; Struktur; Statistik | Dieser Fall ist häufig bei Wortkombinationen, bei denen das Grundwort einen sehr hohen Allgemeinheitsgrad hat. |
Das Kompositum ist eine Wortneuschöpfung für Indexierungszwecke. | Fabrikantenvillengarten; Arbeitersportbewegungturnhose; Gaswechselmesskammersteuergerät; Kartokupferstecherlehrausbildungsmappe | Komposita, die nur für Indexierungszwecke neu gebildet werden, sind zwangsläufig ungebräuchlich, nicht vorhersehbar und deshalb als Deskriptoren für Indexierung und Retrieval nicht gut geeignet. |
Die Kombination enthält einen Differenzbegriff, das Material oder Epoche beziehungsweise Stil bezeichnet, sofern die Kombination keine spezifische Eigenbedeutung hat. | Barockkirche; Steintreppe | Wortzusammensetzungen dieser Art können zu einer langen Liste von Deskriptoren führen, die nicht konsistent pflegbar ist. |
Der Differenzbegriff ist ein Adjektiv, das ein Merkmal des Fokus bezeichnet, das in vielen Ausprägungen vorkommt und deshalb zu einer sehr langen Liste präkombinierter Begriffe führen würde. | rote Seide; lettischer Kriegsgefangener |
|
Der Differenzbegriff bestimmt den Inhalt und Umfang des Grundworts. | Landschaftsfotografie; Medizinisches Labor; Buddhistischer Tempel |
|
Der Differenzbegriff bezeichnet einen Akteur, der in einem Besitzverhältnis zum Gegenstand des Kopfbegriffs steht. | executioners' + swords; artists' + houses |
|
Das Kompositum eine Teil-Ganzes-Beziehung ausdrückt oder einen Ort oder Kontext wiedergibt. | Flughafenlounge; Münzinschrift; Buchillustration |
|
Tabelle 2: Kombinationen, die nicht zerlegt werden sollten
Art der Kombination | Beispiele |
---|---|
Die Wortzusammensetzung ist gebräuchlich oder eine festgefügte semantische Einheit und wird wie ein Begriff verstanden. | Kulturlandschaft; Datenverarbeitung; Kunstgeschichte |
Die Bezeichnung ist in der Fachsprache etabliert. | Photovoltaikanlage |
Die Zerlegung des zusammengesetzten Begriffes kann bei der Suche zu unerwünschten Ergebnissen führen, zum Beispiel weil die Richtung der Beziehung nicht klar ist. Was bedeutet “Wissenschaft + Bibliothek”? “Bibliothekswissenschaft” oder “Wissenschaftsbibliothek”? | Bibliothekswissenschaft – Wissenschaftsbibliothek |
Die Anzahl der Objekte, die mit dem zusammengesetzten Begriff indexiert wird, ist voraussichtlich groß. |
|
Die Begriffskomponenten sind nicht als Deskriptor im Vokabular vorhanden oder geplant und müssten nur für den Zweck der Zerlegung eingeführt werden. | “Bevölkerung” und “Statistik” sollten als Schlagwörter vorhanden sein, wenn “Bevölkerungsstatistik” zerlegt werden soll. |
Die Bedeutung der zusammengesetzten Bezeichnung ist aus den einzelnen Bestandteilen nicht abzuleiten, gewöhnlich weil das Grundwort oder der Differenzbegriff die Bedeutung in der zusammengesetzen Bezeichnung ändern. | Hochgotik; |
Der Differenzbegriff hat eine bildliche Bedeutung. | Rosenfenster; Drehorgel; Spatengeld |
Der Differenzbegriff bezeichnet eine spezifische Form oder einen Typ des Grundbegriffs. | Schlittenbett; Korbkapitell; Fensterplatz |
Der Differenzbegriff definiert den Zweck oder die Funktion des Grundwortes und bestimmt damit Form oderAussehen des Gegenstandes. | Gebetsteppich; Geschirrschrank; Messbecher |
Die Bestandteile eines Kompositums sind zu allgemein und unbestimmt, um als eigenständige Deskriptoren aufgenommen zu werden. | Erstentwurf; Amtliche Urkunde; Behördendokument |
Das Kompositum enthält einen Eigennamen. | Wolf-Rayet-Stern; Stellers Seekuh; Backus-Normalform |
Das Kompositum enthält einen Handelsnamen. | Jaguar D-Type; Künstler-Antiqua; Nikon Coolpix 8800 |
Der Differenzbegriff ändert die Bedeutung des Grundwortes. | Papierflugzeug; Zinnsoldat; Griechisches Feuer |
Der Differenzbegriff ist der leitende Begriff für das Grundwort. | Hauptstadt; Domstadt; Militärbasis |