...
- eindeutiger und korrekter Match (sowohl die Benennung wie auch die Bedeutung stimmen auf beiden Seiten überein),
- zu viele Treffer im Zielvokabular (tritt auf, wenn beispielsweise Homonymzusätze fehlen oder nicht ausgewertet werden können),
- falsch positiver Match (der gefundene Begriff hat eine andere Bedeutung als der gesuchte Begriff),
- falsch ergebnisloser Match (der gesuchte Begriff ist im Zielvokabular vorhanden, wurde aber nicht gefunden),
- ergebnisloser Match (tatsächlich ist kein Äquivalent in der GND vorhanden; der Match ist ein Kandidat für eine Neuaufnahme in die GND),
- ähnliche Schreibweisen von Benennungen, die durch eine unscharfe Suche gefunden werden, können verschiedene Begriffe repräsentieren;
es können durch eine unscharfe Suche aber auch exakte Übereinstimmungen entdeckt werden.
Sticproben Stichproben von Matching-Ergebnissen werden manuell einem der sechs Typen zugeordnet. Die Gründe für falsche Matches, falsch ergebnislose Matches sowie unentscheidbare Fälle bei zu vielen Ergebnissen werden intellektuell untersucht. Warum werden identische Zeichenketten nicht gefunden? Warum werden äquivalente Begriffe nicht gefunden? Was sind die Gründe für falsch positive Matches? Die Ergebnisse dieser Untersuchungen werden auch zur Verbesserung der Matching-Algorithmen herangezogen.
...
Wenn kein Äquivalent in der GND zu finden ist, wird für den Schlagwortkandidaten ein passender Oberbegriff aus der GND gesucht (später möglicherweise teil-automatisch über Grundworterkennung). Die Anzahl seiner Unterbegriffe wird ermittelt, weil sie mögliche Geschwisterbegriffe des Kandidaten sind. Das Vorhandensein solcher gleichgeordneter Begriffe würde für die Relevanz des Kandidaten als GND-Deskriptor sprechen. Nach Übereinstimmungen mit anderen Vokabularen und Lemmata in Wörterbüchern wird aus mehreren Gründen gesucht: In jedem Fall ist das Vorkommen der Bezeichnung ein Indiz für die terminologische Gebräuchlichkeit, darüber hinaus geben Wikidata-Datenobjekte und AAT einen Hinweis auf die strukturelle Position des Begriffs. Das Vorkommen eines Begriffs im AAT ist ein Hinweis auf den tatsächlichen Bedarf in der Museumsgemeinschaft. Stichprobenartig wird außerdem die Häufigkeit des Kandidaten in den Freitextindizes des DNB-Katalogs und der DDB sowie der entsprechenden Stichwörter in der DDB zur Einschätzung von Bedarf und Relevanz erhoben.
Die Mapping-Relationen werden in den Kürzeln von ISO 25964-2:2013 angegeben (Kapitel 4 und 11):
Tabelle 1
Nr. | Bezeichnunng | Kürzel | Entsprechung in SKOS | |
---|---|---|---|---|
1 | Exact equivalence | =EQ | skos:exactMatch | |
2 | Inexact equivalence | ~EQ (hier ≈EQ) | etwa skos:closeMatch | |
3 | Broader mapping | BM | skos:broadMatch | |
4 | Narrower mapping | NM | skos:narrowMatch | |
5 | Related mapping | RM | skos:relatedMatch | |
6 | AND-Verknüpfung | EQ + | ||
7 | OR-Verknüpfung | EQ | |
Notizen
...
...
Spalten der Tabelle:
Tabelle 2
Spalte | Erläuterung | Diskussion |
---|---|---|
Deskriptor | bevorzugte Bezeichnung im DHM-Vokabular | |
Synonym | alternative Bezeichnung im DHM-Vokabular | |
Mapping zur GND | Übereinstimmung des Deskriptors aus dem DHM-Vokabular (Quellvokabular) mit der GND (Zielvokabular) beziehungsweise Oberbegriffe der GND | |
Art | Art der Übereinstimmung in der Nomenklatur von ISO 25964-2:2013 | |
NT | Anzahl der Unterbegriffe, die in der GND zu dem mit BM gemappten Begriff vorhanden sind, das heißt potenzielle Geschwisterbegriffe | |
Typ Mismatch | Grund für ein falsch negatives oder falsch positives Match des Deskriptors und/oder Synonyms zu GND-Bezeichnungen
| |
WD-ID | Identifikator des Wikidata-Datensatzes, der dem Begriff im DHM entspricht | |
AAT-ID | Identifikator des Datensatzes im Art & Architecture Thesaurus, der dem Begriff im DHM entspricht | |
Duden/DWDS | Lemma im Duden oder in Digitales Wörterbuch der deutschen Sprache | |
Gebrauch | Anzahl des Vorkommens des Deskriptors und/oder des Synonyms als Ergebnis einer Freitextsuche in dem entsprechenden Portal oder Katalog (Anzahl als Stichwort, falls vorhanden ist in Klammern nachgestellt). Die Zahlen für die DDB beziehen sich immer auf eine Anfrage nach der Vereinigungsmenge der Bezeichnung im Singular und im Plural (Beispiel: "Fliegerbombe OR Fliegerbomben"). Die Ergebnisse der Freitextsuche können auch nicht gewünschte Datensätze enthalten.
| |
Relevanz | Vorschlag, ob der Begriff als relevant für die GND eingestuft werden könnte
|
...
Hinweis | ||
---|---|---|
| ||
Die folgende Tabelle ist in Arbeit. Es handelt sich um einen kleinen Auszug aus einer Untersuchung von etwa 1.000 Schlagwörtern aus dem DHM, die keine automatischen Matches hatten. Die Tabelle soll exemplarisch das Vorgehen zeigen sowie mögliche Fälle kritischer Mappings weitgehend aufdecken und an Beispielen dokumentieren. Die Zahlen in "Gebrauch" stammen aus Anfragen im Mai/Juni 2019. |
Tabelle 3
Deskriptor | Synonym | Mapping zur GND | Mismatch | WD-ID | AAT-ID | Duden/DWDS | Gebrauch | Relevanz | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ID und Bezeichnung | Art | NT | Typ | Grund | DHM | DNB | DDB | ||||||
Abtreibungsparagraf | Paragraph 218 | 7501785-4 Paragraf 218 StGB USE+ Schwangerschaftsabbruch AND Strafrecht | EQ+ | 4 | Bezeichnung | Abtreibungsparagraf | |||||||
Anti-Atom-Bewegung | Anti-AKW-Bewegung | 4002288-2 | =EQ | 4 | Bezeichnung | Q574580 | |||||||
Backwaren | 4019489-9 | =EQ | 4 | Numerus | |||||||||
Badekarre | Badekarren | 4199059-6 Karren | BM | 3 | 5 | Q644886 | Badekarren | 80 | 42 (16) | x 5 Sparten historisch | |||
Bartpflege | 4132949-1 Haarpflege 4073578-3 Körperpflege | BM | 0 | 5 | Q809579 | fehlt | 2.294 (67) | ||||||
Contergan-Skandal | Contergan-Opfer | 7503102-4 Contergankind | ≈EQ BM | 4 | Bezeichnung | Q875992 | Contergankind | x | |||||
Einwegpfand | Dosenpfand | 4173985-1 Pfand | BM | 5 | Dosenpfand | ||||||||
Fliegerbombe | 4338394-4 Bombe BT Abwurfmunition falsch | BM | 5 | 5 | 1 | 386 (11) | x 6 Sparten | ||||||
Messegelände | 4074745-1 RT Messe <Wirtschaft> | RM | 5 | Zusatz | Messegelände | ||||||||
Quäkertum | Quäker | 1162588810 Religiöse Gesellschaft der Freunde (Quäker); 4239330-9 Quäkerin vorhanden, Quäker fehlt | RM | 5 | Q170208 | 300157276 | 206 | ||||||
Rasierklinge | 4176970-3 Rasiermesser | BMP | 5 | Q11625433 | 300024919 | ||||||||
Rauchwaren | 4662637-2 Rauchutensilie | ≈EQ | 4 | Bezeichnung | |||||||||
Rentier | 4177757-8 Ren | =EQ | 4 | Zusatz | |||||||||
Schilderhaus | 4705021-4 Wachlokal | ? | ? | x historisch | |||||||||
Schlossplatz | 4046326-6 Platz | BM | 7 | 5 | x | ||||||||
Sektorengrenze | 985597690 MARC 653 a (VLB-FS) | ||||||||||||
Seuchenschutz | Schlagwort ungebunden in 740400681 | ||||||||||||
Typhus | Fleckfieber | 4071253-9 Fleckfieber | =EQ | 4 | Bezeichnung | ||||||||
Vorkriegszeit | 4421423-6 Nachkriegszeit | RM | 5 | ||||||||||
Weltuhr | 7606633-2 Weltzeituhr | =EQ | 4 | Bezeichnung | Q1451661 | Weltzeituhr | |||||||
Zofe | Kammerzofe | 4824772-8 Kammerdiener | RM | 5 | Äquivalent | Q25110562 | 300379706 | Zofe; Kammerzofe; Kammermädchen; Kammerfrau; Kammerdienerin |
...