Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

Dabei zeigen sich Hindernisse für einen automatischen Zeichenkettenabgleich auf beiden Seiten der Vokabulare: Fehlende Synonyme und Homonyme sind dabei die häufigsten Ursachen für ein Versagen des automatischen Abgleichs in Fällen, in denen tatsächlich ein bedeutungsgleicher Begriff im Vokabular des Museums und in der GND existiert.

Wir haben fünf sechs Typen von Matching-Ergebnissen identifiziert:

  1. eindeutiger und korrekter Match (sowohl die Benennung wie auch die Bedeutung stimmen auf beiden Seiten überein),
  2. zu viele Treffer im Zielvokabular (tritt auf, wenn beispielsweise Klammerzusätze Homonymzusätze fehlen oder nicht ausgewertet werden können),
  3. falsch positiver Match (der gefundene Begriff hat eine ander andere Bedeutung als der gesuchte Begriff),
  4. falsch ergebnisloser Match (der gesuchte Begriff ist im Zielvokabular vorhanden, wurde aber nicht gefunden),
  5. ergebnisloser Match (tatsächlich ist kein Äquivalent in der GND vorhanden; der Match ist ein Kandidat für eine Neuaufnahme in die GND).

...

  1. ,
  2. ähnliche Schreibweisen von Benennungen, die durch eine unscharfe Suche gefunden werden, können verschiedene Begriffe repräsentieren;
    es können durch eine unscharfe Suche aber auch exakte Übereinstimmungen entdeckt werden.

Stichproben von Matching-Ergebnissen werden manuell einem der sechs Typen zugeordnet. Die Gründe für falsche Matches, falsch ergebnislose Matches sowie unentscheidbare Fälle bei zu vielen Ergebnissen werden intellektuell untersucht. Warum werden identische Zeichenketten nicht gefunden? Warum werden äquivalente Begriffe nicht gefunden? Was sind die Gründe für falsch positive Matches? Die Ergebnisse dieser Untersuchungen werden auch zur Verbesserung der Matching-Algorithmen herangezogen.

...

Diese Annahmen haben wir der intellektuellen Untersuchung der Matching-Ergebnisse zu Grunde gelegt.Suche nach Oberbegriffen in der GND (:

Wenn kein Äquivalent in der GND zu finden ist, wird für den Schlagwortkandidaten ein passender Oberbegriff aus der GND gesucht (später möglicherweise teil-automatisch über Grundworterkennung), Abgleich mit Wikidata und AAT und Duden, 1. Gebräuchlichkeit terminologisch, 2. AAT Bedarf in der Museumsgemeinschaft, 3. Wikidata als . Die Anzahl seiner Unterbegriffe wird ermittelt, weil sie mögliche Geschwisterbegriffe des Kandidaten sind. Das Vorhandensein solcher gleichgeordneter Begriffe würde für die Relevanz des Kandidaten als GND-Deskriptor sprechen. Nach Übereinstimmungen mit anderen Vokabularen und Lemmata in Wörterbüchern wird aus mehreren Gründen gesucht: In jedem Fall ist das Vorkommen der Bezeichnung ein Indiz für die terminologische Gebräuchlichkeit, darüber hinaus geben Wikidata-Datenobjekte und AAT einen Hinweis auf die strukturelle Position des Begriffs;Häufigkeit des Vorkommens in DNB-Katalog und DDB; wenn es kein Äquivalent gibt, Suche nach Oberbegriff und Unterbegriffen, die dann mögliche Geschwisterbegriffe des fraglichen Schlagworts sind, Anzahl der GeschwisterbegriffeBegriffs. Das Vorkommen eines Begriffs im AAT ist ein Hinweis auf den tatsächlichen Bedarf in der Museumsgemeinschaft. Stichprobenartig wird außerdem die Häufigkeit des Kandidaten in den Freitextindizes des DNB-Katalogs und der DDB sowie der entsprechenden Stichwörter in der DDB zur Einschätzung von Bedarf und Relevanz erhoben.

Die Mapping-Relationen werden in den Kürzeln von ISO 25964-2:2013 angegeben (Kapitel 4 und 11):

Tabelle 1

Nr.BezeichnunngKürzelEntsprechung in SKOS
1Exact equivalence=EQskos:exactMatch
2Inexact equivalence~EQ (hier ≈EQ)etwa skos:closeMatch
3Broader mappingBMskos:broadMatch
4Narrower mappingNMskos:narrowMatch
5Related mappingRMskos:relatedMatch
6AND-VerknüpfungEQ +

7OR-VerknüpfungEQ |

Notizen

  • Suche nach Oberbegriffen in der GND (automatisch über Grundworterkennung), Abgleich mit Wikidata und AAT und Duden, 1. Gebräuchlichkeit terminologisch, 2. AAT Bedarf in der Museumsgemeinschaft, 3. Wikidata als Hinweis auf die strukturelle Position des Begriffs;
    Häufigkeit des Vorkommens in DNB-Katalog und DDB; wenn es kein Äquivalent gibt, Suche nach Oberbegriff und Unterbegriffen, die dann mögliche Geschwisterbegriffe des fraglichen Schlagworts sind, Anzahl der Geschwisterbegriffe


Spalten der Tabelle:

Tabelle 2

SpalteErläuterungDiskussion
Deskriptorbevorzugte Bezeichnung im DHM-Vokabular
Synonymalternative Bezeichnung im DHM-Vokabular
Mapping zur GNDÜbereinstimmung des Deskriptors aus dem DHM-Vokabular (Quellvokabular) mit der GND (Zielvokabular) beziehungsweise Oberbegriffe der GND
ArtArt der Übereinstimmung in der Nomenklatur von ISO 25964-2:2013
NTAnzahl der Unterbegriffe, die in der GND zu dem mit BM gemappten Begriff vorhanden sind, das heißt potenzielle Geschwisterbegriffe
Typ Mismatch

Grund für ein falsch negatives oder falsch positives Match des Deskriptors und/oder Synonyms zu GND-Bezeichnungen

  • ohne Äquivalent: In der GND ist keine entsprechende Bezeichnung, das heißt auch kein entsprechender Begriff, vorhanden.
  • Bezeichnung: Das falsch negative Match ist in den Bezeichnungen begründet; es wird in der Tabelle nicht differenziert, ob die Bezeichnung des Quell- oder des Zielvokabulars betroffen ist; Synonyme fehlen etc.
  • Zusatz: Das falsch negative Match ist durch fehlende oder nicht erkannte Zusätze bedingt.

WD-IDIdentifikator des Wikidata-Datensatzes, der dem Begriff im DHM entspricht
AAT-IDIdentifikator des Datensatzes im Art & Architecture Thesaurus, der dem Begriff im DHM entspricht
Duden/DWDSLemma im Duden oder in Digitales Wörterbuch der deutschen Sprache
Gebrauch

Anzahl des Vorkommens des Deskriptors und/oder des Synonyms als Ergebnis einer Freitextsuche in dem entsprechenden Portal oder Katalog (Anzahl als Stichwort, falls vorhanden ist in Klammern nachgestellt). Die Zahlen für die DDB beziehen sich immer auf eine Anfrage nach der Vereinigungsmenge der Bezeichnung im Singular und im Plural (Beispiel: "Fliegerbombe OR Fliegerbomben"). Die Ergebnisse der Freitextsuche können auch nicht gewünschte Datensätze enthalten.

  • DHM: Deutsches Historisches Museum
  • DNB: Katalog Deutsche Nationalbibliothek
  • DDB: Portal Deutsche Digitale Bibliothek

Relevanz

Vorschlag, ob der Begriff als relevant für die GND eingestuft werden könnte

  • x = relevant
  • 0 = nicht relevant
  • ? = Relevanz ist fraglich

...

Hinweis
titleHinweis

Die folgende Tabelle ist in Arbeit. Es handelt sich um einen kleinen Auszug aus einer Untersuchung von etwa 1.000 Schlagwörtern aus dem DHM, die keine automatischen Matches hatten. Die Tabelle soll exemplarisch das Vorgehen zeigen sowie mögliche Fälle kritischer Mappings weitgehend aufdecken und an Beispielen dokumentieren. Die Zahlen in "Gebrauch" stammen aus Anfragen im Mai/Juni 2019.

Tabelle 3

DeskriptorSynonymMapping zur GNDMismatchWD-IDAAT-IDDuden/DWDSGebrauchRelevanz


ID und BezeichnungArtNTTypGrund


DHMDNBDDB
AbtreibungsparagrafParagraph 218

7501785-4 Paragraf 218 StGB USE+ Schwangerschaftsabbruch AND Strafrecht

EQ+
4 Bezeichnung

Abtreibungsparagraf



Anti-Atom-BewegungAnti-AKW-Bewegung

4002288-2
Antikernkraftbewegung

=EQ
4BezeichnungQ574580





Backwaren

4019489-9
Gebäck UF Backware

=EQ
4Numerus






BadekarreBadekarren4199059-6 KarrenBM35
Q644886
Badekarren80
42 (16)x 5 Sparten historisch 
Bartpflege
4132949-1 Haarpflege 4073578-3 KörperpflegeBM

0
4

5
Q809579
fehlt

2.294 (67)
Contergan-SkandalContergan-Opfer

7503102-4 Contergankind
Kind AND Thalidomid-Embryopathie; 4125832-0 Skandal
RT 4148295-5 Contergan-Prozess

≈EQ

BM



4BezeichnungQ875992
Contergankind


x
EinwegpfandDosenpfand4173985-1 PfandBM
5


Dosenpfand



Fliegerbombe
4338394-4 Bombe BT Abwurfmunition falschBM55




1386 (11)

x 6 Sparten

Messegelände
4074745-1 RT Messe <Wirtschaft>RM
5Zusatz

Messegelände



QuäkertumQuäker1162588810 Religiöse Gesellschaft der Freunde (Quäker); 4239330-9 Quäkerin vorhanden, Quäker fehltRM
5
Q170208300157276
206


Rasierklinge
4176970-3 RasiermesserBMP
5
Q11625433300024919




Rauchwaren
4662637-2 Rauchutensilie≈EQ
4Bezeichnung






Rentier
4177757-8 Ren=EQ
4Zusatz






Schilderhaus
4705021-4 Wachlokal?
?






x historisch
Schlossplatz
4046326-6 Platz

BM75






x
Sektorengrenze
985597690 MARC 653 a (VLB-FS)










Seuchenschutz
Schlagwort ungebunden in 740400681










TyphusFleckfieber4071253-9 Fleckfieber=EQ
4Bezeichnung






Vorkriegszeit
4421423-6 NachkriegszeitRM
5







Weltuhr
7606633-2 Weltzeituhr=EQ
4BezeichnungQ1451661
Weltzeituhr



ZofeKammerzofe4824772-8 KammerdienerRM
5ÄquivalentQ25110562300379706Zofe; Kammerzofe; Kammermädchen; Kammerfrau; Kammerdienerin



...