[Allgemein: Die Untersuchungen stützen sich auf die folgenden Standards: ISO 25964, CDWA/CCO, LRM, LIDO.]
Das DHM-Vokabular wurde zunächst als PDF-Datei geliefert. Die Datei enthält alle für die Objekterschließung genutzten Begriffe mit ihren bevorzugten und alternativen Bezeichnungen sowie ihren Oberbegriffen. Diese Daten wurden in eine SKOS-basierte Form gewandelt, mit temporären Identifikatoren und rekonstruierten Oberbegriffsbeziehungen versehen und in eine RDF-Datenbank (Triplestore) überführt. Auf dieser technischen Plattform folgten mehrere Durchgänge automatischer Zeichenkettenvergleiche mit Sachbegriffs-Benennungen der hier ebenfalls installierten Linked-Data-Fassung der GND.
Zu den einzelnen Matching-Durchgängen siehe auch → Matching-Verfahren für DHM.
Die Daten des DDK und der saarländischen Museen wurden als "flache" Vokabularlisten verarbeitet und denselben Matching-Verfahren unterzogen wie das DHM-Vokabular. Neben dem exakten Zeichenketten-Vergleich kamen hierbei verschiedene unscharfe Verfahren zur Anwendung, darunter eine experimentelle Suche nach Grundworten in Komposita und die häufig genutzte Distanzmetrik nach Damerau und Levenshtein.
Die weiteren Arbeitsschritte sind noch nicht abgeschlossen: Positive Matching-Ergebnisse werden intellektuell auf Plausibilität geprüft und die Ursachen für Mismatches untersucht. Für die negativen Ergebnisse wird intellektuell nach möglicherweise doch vorhandenen Äquivalenten in der GND gesucht und es wird dokumentiert, warum sie nicht im automatischen Matching-Prozess gefunden wurden. Diese Untersuchungen dienen der sukzessiven Verfeinerung der Matching-Algorithmen.
Dabei zeigen sich Hindernisse für einen automatischen Zeichenkettenabgleich auf beiden Seiten der Vokabulare: Fehlende Synonyme und Homonyme sind dabei die häufigsten Ursachen für ein Versagen des automatischen Abgleichs in Fällen, in denen tatsächlich ein bedeutungsgleicher Begriff im Vokabular des Museums und in der GND existiert.
Wir haben fünf Typen von Matching-Ergebnissen identifiziert:
- eindeutiger und korrekter Match (sowohl die Benennung wie auch die Bedeutung stimmen auf beiden Seiten überein),
- zu viele Treffer im Zielvokabular (tritt auf, wenn beispielsweise Klammerzusätze nicht ausgewertet werden können),
- falsch positiver Match (der gefundene Begriff hat eine ander Bedeutung als der gesuchte Begriff),
- falsch ergebnisloser Match (der gesuchte Begriff ist im Zielvokabular vorhanden, wurde aber nicht gefunden),
- ergebnisloser Match (tatsächlich ist kein Äquivalent in der GND vorhanden; der Match ist ein Kandidat für eine Neuaufnahme in die GND).
Die Matching-Ergebnisse werden stichprobenweise manuell einem der fünf Typen zugeordnet. Die Gründe für falsche Matches, falsch ergebnislose Matches sowie unentscheidbare Fälle bei zu vielen Ergebnissen werden intellektuell untersucht. Warum werden identische Zeichenketten nicht gefunden? Warum werden äquivalente Begriffe nicht gefunden? Was sind die Gründe für falsch positive Matches? Die Ergebnisse dieser Untersuchungen werden auch zur Verbesserung der Matching-Algorithmen herangezogen.
In jenen Fällen, in denen ein Begriff des Museumsvokabulars mit Sicherheit kein Äquivalent in der GND hat, stellt sich die Frage, ob dieser relevant genug ist, um in die GND aufgenommen zu werden. Für die Einschätzung der Relevanz gehen wir von folgenden heuristischen Annahmen aus: Ein Begriff könnte relevant für die GND sein, wenn
- es einen Oberbegriff zum Kandidaten in der GND gibt
- es gleichgeordnete Begriffe (Geschwisterbegriffe) zum Kandidaten in der GND gibt
- er als Oberbegriff für vorhandene Begriffe der GND in Frage kommt
- Bezeichnung und Begriff in Vokabularen und/oder Wörterbüchern belegt sind
- der Gebrauch in der Objekterschließung in Datenbanken und Portalen nachgewiesen ist.
Diese Annahmen haben wir der Untersuchung der Matching-Ergebnisse zu Grunde gelegt.
Suche nach Oberbegriffen in der GND (automatisch über Grundworterkennung), Abgleich mit Wikidata und AAT und Duden, 1. Gebräuchlichkeit terminologisch, 2. AAT Bedarf in der Museumsgemeinschaft, 3. Wikidata als Hinweis auf die strukturelle Position des Begriffs;
Häufigkeit des Vorkommens in DNB-Katalog und DDB; wenn es kein Äquivalent gibt, Suche nach Oberbegriff und Unterbegriffen, die dann mögliche Geschwisterbegriffe des fraglichen Schlagworts sind, Anzahl der Geschwisterbegriffe.
Die Mapping-Relationen werden in den Kürzeln von ISO 25964-2:2013 angegeben (Kapitel 4 und 11):
Nr. | Bezeichnunng | Kürzel | Entsprechung in SKOS | |
---|---|---|---|---|
1 | Exact equivalence | =EQ | skos:exactMatch | |
2 | Inexact equivalence | ~EQ (hier ≈EQ) | etwa skos:closeMatch | |
3 | Broader mapping | BM | skos:broadMatch | |
4 | Narrower mapping | NM | skos:narrowMatch | |
5 | Related mapping | RM | skos:relatedMatch | |
6 | AND-Verknüpfung | EQ + | ||
7 | OR-Verknüpfung | EQ | |
Spalten der Tabelle:
Spalte | Erläuterung | Diskussion |
---|---|---|
Deskriptor | bevorzugte Bezeichnung im DHM-Vokabular | |
Synonym | alternative Bezeichnung im DHM-Vokabular | |
Mapping zur GND | Übereinstimmung des Deskriptors aus dem DHM-Vokabular (Quellvokabular) mit der GND (Zielvokabular) beziehungsweise Oberbegriffe der GND | |
Art | Art der Übereinstimmung in der Nomenklatur von ISO 25964-2:2013 | |
NT | Anzahl der Unterbegriffe, die in der GND zu dem mit BM gemappten Begriff vorhanden sind, das heißt potenzielle Geschwisterbegriffe | |
Typ Mismatch | Grund für ein falsch negatives oder falsch positives Match des Deskriptors und/oder Synonyms zu GND-Bezeichnungen
| |
WD-ID | Identifikator des Wikidata-Datensatzes, der dem Begriff im DHM entspricht | |
AAT-ID | Identifikator des Datensatzes im Art & Architecture Thesaurus, der dem Begriff im DHM entspricht | |
Duden/DWDS | Lemma im Duden oder in Digitales Wörterbuch der deutschen Sprache | |
Gebrauch | Anzahl des Vorkommens des Deskriptors und/oder des Synonyms als Ergebnis einer Freitextsuche in dem entsprechenden Portal oder Katalog (Anzahl als Stichwort, falls vorhanden ist in Klammern nachgestellt). Die Zahlen für die DDB beziehen sich immer auf eine Anfrage nach der Vereinigungsmenge der Bezeichnung im Singular und im Plural (Beispiel: "Fliegerbombe OR Fliegerbomben"). Die Ergebnisse der Freitextsuche können auch nicht gewünschte Datensätze enthalten.
| |
Relevanz | Vorschlag, ob der Begriff als relevant für die GND eingestuft werden könnte
|
Tabelle 1: Indexterme aus dem Vokabular des DHM, für die beim automatischen Zeichenkettenvergleich keine Entsprechungen in der GND gefunden wurden, intellektuelle Mappings zur GND und Gründe für nicht erfolgreiche Matches.
Hinweis
Die folgende Tabelle ist in Arbeit. Es handelt sich um einen kleinen Auszug aus einer Untersuchung von etwa 1.000 Schlagwörtern aus dem DHM, die keine automatischen Matches hatten. Die Tabelle soll exemplarisch das Vorgehen zeigen sowie mögliche Fälle kritischer Mappings weitgehend aufdecken und an Beispielen dokumentieren. Die Zahlen in "Gebrauch" stammen aus Anfragen im Mai/Juni 2019.
Deskriptor | Synonym | Mapping zur GND | Mismatch | WD-ID | AAT-ID | Duden/DWDS | Gebrauch | Relevanz | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ID und Bezeichnung | Art | NT | Typ | Grund | DHM | DNB | DDB | ||||||
Abtreibungsparagraf | Paragraph 218 | 7501785-4 Paragraf 218 StGB USE+ Schwangerschaftsabbruch AND Strafrecht | EQ+ | 4 | Bezeichnung | Abtreibungsparagraf | |||||||
Anti-Atom-Bewegung | Anti-AKW-Bewegung | 4002288-2 | =EQ | 4 | Bezeichnung | Q574580 | |||||||
Backwaren | 4019489-9 | =EQ | 4 | Numerus | |||||||||
Badekarre | Badekarren | 4199059-6 Karren | BM | 3 | 5 | Q644886 | Badekarren | 80 | 42 (16) | x 5 Sparten historisch | |||
Bartpflege | 4132949-1 Haarpflege 4073578-3 Körperpflege | BM | 0 | 5 | Q809579 | fehlt | 2.294 (67) | ||||||
Contergan-Skandal | Contergan-Opfer | 7503102-4 Contergankind | ≈EQ BM | 4 | Bezeichnung | Q875992 | Contergankind | x | |||||
Einwegpfand | Dosenpfand | 4173985-1 Pfand | BM | 5 | Dosenpfand | ||||||||
Fliegerbombe | 4338394-4 Bombe BT Abwurfmunition falsch | BM | 5 | 5 | 1 | 386 (11) | x 6 Sparten | ||||||
Messegelände | 4074745-1 RT Messe <Wirtschaft> | RM | 5 | Zusatz | Messegelände | ||||||||
Quäkertum | Quäker | 1162588810 Religiöse Gesellschaft der Freunde (Quäker); 4239330-9 Quäkerin vorhanden, Quäker fehlt | RM | 5 | Q170208 | 300157276 | 206 | ||||||
Rasierklinge | 4176970-3 Rasiermesser | BMP | 5 | Q11625433 | 300024919 | ||||||||
Rauchwaren | 4662637-2 Rauchutensilie | ≈EQ | 4 | Bezeichnung | |||||||||
Rentier | 4177757-8 Ren | =EQ | 4 | Zusatz | |||||||||
Schilderhaus | 4705021-4 Wachlokal | ? | ? | x historisch | |||||||||
Schlossplatz | 4046326-6 Platz | BM | 7 | 5 | x | ||||||||
Sektorengrenze | 985597690 MARC 653 a (VLB-FS) | ||||||||||||
Seuchenschutz | Schlagwort ungebunden in 740400681 | ||||||||||||
Typhus | Fleckfieber | 4071253-9 Fleckfieber | =EQ | 4 | Bezeichnung | ||||||||
Vorkriegszeit | 4421423-6 Nachkriegszeit | RM | 5 | ||||||||||
Weltuhr | 7606633-2 Weltzeituhr | =EQ | 4 | Bezeichnung | Q1451661 | Weltzeituhr | |||||||
Zofe | Kammerzofe | 4824772-8 Kammerdiener | RM | 5 | Äquivalent | Q25110562 | 300379706 | Zofe; Kammerzofe; Kammermädchen; Kammerfrau; Kammerdienerin |
Kommentar hinzufügen