Text
Auszug aus BeRT: Beschreibung des Vorhabens
"Motivation: Die semantische Vernetzung von Daten über Grenzen von Systemen und Domänen hinweg ist das zentrale Anliegen der Linked-Data-Bewegung. Im Bibliothekssektor – insbesondere im deutschsprachigen Raum – hat dieser Gedanke Tradition. Kooperativ gepflegte Normdaten bilden hier schon lange Brücken zwischen Daten. Zunächst vorwiegend als Instrument zur Arbeitsersparnis und Standardisierung eingeführt, setzte man zunehmend auf die Möglichkeiten zur Verbesserung der Recherche in Bibliothekskatalogen. Das größte Potential der Normdaten liegt aber darin, das Rückgrat eines maschinenlesbaren, semantischen Netzes der Kultur und Wissenschaft zu bilden: inhaltliche Verbindungen zwischen Kulturgütern, Bibliotheksbeständen, Forschungsdaten und assoziierten Personen, Einrichtungen, Orten, Ereignissen, Projekten, etc. auszuweisen und maschinell auswertbar zu machen, die sonst im Verborgenen bleiben würden."
"Aus dem bisher auf eine bibliothekarische Nutzung ausgerichteten Angebot soll ein spartenübergreifendes Produkt werden und in diesem erweiterten Rahmen seine größten Stärken vollständig ausspielen: Verlässlichkeit, Transparenz, Eindeutigkeit und ein reichhaltiges Angebot semantischer Verknüpfungen."
BSZ: "... fachliche Kompetenz im Bereich der Verzahnung von Fachthesauri mit der GND". [Was bedeutet das konkret? Jens fragen]
2.2 Ziele
Gesamtziel des Projektes ist die Erweiterung der bislang auf eine bibliothekarische Nutzung ausgerichteten GND für die umfassende Mitwirkung durch Einrichtungen nicht-bibliothekarischer Sparten wie Museen, Archive, Denkmalbehörden oder wissenschaftliche Einrichtungen. Die 1. Projektphase, die Gegenstand dieses Förderantrags ist, widmet sich dem weiteren Aufbau eines organisatorischen Rahmens und der detaillierten Klärung von Anforderungen und Konzepten für den Ausbau der GND. Dieser Klärungsprozess wird durch die Entwicklung und Evaluation von explorativen Prototypen unterstützt. Das Projekt hat den Anspruch, generische, nachhaltige Lösungen für die spartenübergreifende Nutzung und Erweiterung der GND zu liefern.
Bisher sind die Datenstrukturen und Regeln im Wesentlichen auf die Bibliothekswelt ausgelegt. Um die GND universell einsetzbar und geeignet für Beiträge aus nicht-bibliothekarischen Bereichen zu machen sowie gleichzeitig die Nutzbarkeit für bibliothekarische Kernanwendungen zu erhalten, müssen die bestehenden Regelungen und Konzepte weiterentwickelt werden. Ebenso muss das Datenmodell zur Unterstützung von Materialarten angepasst werden, die bisher noch nicht oder kaum durch die GND abgedeckt sind – beispielsweise Bauwerke mit ihren Ausstattungsobjekten, Archivalien, Museumsobjekte, druckgraphische Werke aus VD16/VD17/VD18-Publikationen und Handschriften oder spartenspezifische Erweiterungen. Von entscheidender Bedeutung ist zudem die Einführung gruppenspezifischer Bereiche und Sichten: Einige Eigenschaften sind Teil eines spartenübergreifend gepflegten und redaktionell bearbeiteten Datenbereichs (GND-CORE), andere Teile werden von den verschiedenen Anwendungsgruppen als optionale gegenseitige Ergänzungen begriffen (GND-PLUS).
Alle Fallbeispiele adressieren zwar primär je einen Entitätstyp: Geografika, Werke (Bau- und Kunstwerke), Sachbegriffe, Personen. Sie berühren aber implizit – über die für die Modellierung benötigten Entitätsmerkmale – auch andere Arten von Entitäten und stehen auf diese Weise im Dialog. Indirekt behandelt wird beispielsweise auch die Abbildung von Konzepten wie Berufen, Materialien, Werkzeugen und Ereignissen.
Fallbeispiel C „Registrierung objektbeschreibender Sachbegriffe der Museumsdokumentation“
(Leitung SHLB/DDB) Eine der Kernaufgaben von Museen ist die wissenschaftliche Erschließung der Sammlungsbestände. Voraussetzung für eine zukunftsfähige Dokumentation ist die Verwendung und Einhaltung anerkannter Standards und Regelwerke sowie die konsequente gemeinsame Nutzung von Normdaten. Im deutschen Museumsbereich wird jedoch noch immer eine Vielzahl unterschiedlicher Erfassungssysteme verwendet, die etablierte Datenmodelle und Metadatenstandards oft nur ungenügend berücksichtigen. Ein Desiderat ist vor allem die einheitliche Erschließung mit verbreiteten, qualitativ hochwertigen kontrollierten Vokabularen. Um Erwartungen an eine Infrastruktur für museale Sammlungsbestände zur Unterstützung von Katalogverbünden und Publikumsportalen zu erfüllen, müssen divergierende Benennungen durch gemeinsam genutzte Vokabulare aufgefangen werden:
- Datensätze aus Museumsbeständen müssen mit verbreiteten Datensets aus der Linked-Open-Data-Cloud an Aggregatoren geliefert werden. Zur Anreicherung mit Normdaten bietet sich die GND als meistgenutztes Vokabular im deutschsprachigen Raum vorrangig an.
- Ein großer Teil der von Museen verwendeten Schlagwörter ist noch nicht in der GND verfügbar. Die Einbindung dieser Sachbegriffe in die GND wäre ein wichtiger Schritt zu einer besseren Metadatenqualität und Voraussetzung für ein gutes (semantisches) Retrieval in Portalen wie der DDB oder Europeana.
Damit die GND spartenübergreifend auch für Sachbegriffe als semantische Brücke in Erschließungs- und Forschungsumgebungen verwendet werden kann, sollen an diesem Fallbeispiel Lösungsstrategien erarbeitet werden zur
- Integration der Sachbegriffe aus der GND in Datensätze aus dem Museumsbereich.
- Integration der objektbeschreibenden Daten aus dem Museumsbereich in die GND.
Im Projekt bearbeitete Referenzdatensets:
Als Grundlage kommen die Daten der Stiftung Deutsches Historisches Museum zum Einsatz.
Diese sind als Referenz besonders geeignet:
- Mehr als die Hälfte der insgesamt etwa eine Million Datensätze aus der Sparte Museum in der DDB stammen vom DHM (616.719 Objekte der Stiftung Deutsches Historisches Museum, gefolgt von 158.591 Objekten der Stiftung Preußischer Kulturbesitz (Stand: 3. Mai 2017)).
- Wegen des großen Datenumfangs ist der praktische Nutzen einer Anreicherung der DHM-Metadaten mit GND-Daten für die DDB groß.
- Das DHM bietet hochwertige, gut strukturierte Daten, die alle wichtige Objektgattungen des kulturellen Erbes Objekte abdecken – von Schriftgut, Druckgrafik, Fotografie, Kunstwerken der Malerei bis zu dreidimensionalen Alltagsgegenständen ebenso wie künstliche und natürliche.
Einleitung
Das Projekt "GND für Kulturdaten" (GND4C) will auch Museen ermuntern, vermehrt die GND zu nutzen und zu ihrer Weiterentwicklung beizutragen. Traditionell dienen die Sachbegriffe der GND im bibliothekarischen Kontext überwiegend der thematischen Erschließung. In der Museumsdokumentation werden Sachschlagwörter darüber hinaus zur Beschreibung der besonderen Objekteigenschaften gebraucht: allen voran der Objekttyp, der aussagt, was ein Ding ist. Material, Technik, Stil oder Epoche sind unter anderen weitere Objektmerkmale, für die Normdaten benötigt werden.
Die Gemeinsame Normdatei (GND) enthält derzeit mehr als 211.000 Sachbegriffsdatensätze aus nahezu allen Wissensgebieten, und unter diesen Sachschlagwörtern finden sich schon viele, die für die Beschreibung musealer Objekte geeignet sind. Historisch sind die Sachschlagwörter der GND aus der Schlagwortnormdatei (SWD) hervorgegangen zu einer Zeit, als „normierte Ansetzungen“ den Zugang zu gedruckten Listen und Zettelkästen erleichterten. Heute bietet die GND als RDF-basiertes Vokabular, orientiert an Standardmodellen für Information-Retrieval-Thesauri[1], formal gute Voraussetzungen, die "semantische Vernetzung von Daten über Grenzen von Systemen und Domänen hinweg zu unterstützen". Da die GND jedoch nicht als Wissensorganisationssystem angelegt war, sondern vielmehr mit dem praktischen Bedarf an Normschlagwörtern gewachsen ist, erfüllt sie inhaltlich-strukturell noch nicht alle Voraussetzungen, um das "Rückgrat eines maschinenlesbaren, semantischen Netzes der Kultur und Wissenschaft" zu bilden.
Den Museen stehen mit dem Austauschformat LIDO[2] und den Vokabularen und Regelwerken des Getty Research Institute[3] exzellente Instrumente für die Erschließungsarbeit zur Verfügung. Leider werden sie in der musealen Praxis der Vokabularentwicklung und Indexierung noch kaum beachtet. Stattdessen gibt es entweder hauseigene Instrumente und Regeln, oder es wird regellos und frei erschlossen. Auch die GND wird, wie Untersuchungen[4] zeigen, in der Museumsdokumentation bisher kaum verwendet.
GND4C kann daher für beide Seiten Gewinn bringen: Die GND wird inhaltlich bereichert und vorhandene Lücken gefüllt, und die Museen können von standardbasierter Wissensrepräsentation profitieren. Wir untersuchen deshalb in der 1. Projektphase die Voraussetzungen, unter denen Schlagwörter für eine Aufnahme in die GND in Frage kommen und wie eine Datenintegration gelingen könnte.
[1] ISO 25964-1:2011, iso-thes
[2] Lightweight Information Describing Objects. http://lido-schema.org
[3] AAT, CDWA/CCO, CONA etc.
[4] Schulze, F. (2019): ...
Beispiel Schilduhr?
Noch zu zitieren: Kasprzik/Kett, Weiterentwicklung der Sacherschließung und Aufwertung der GND. o-bib 5 (2018) Nr. 4 https://doi.org/10.5282/o-bib/2018H4S127-140
Die Datengrundlage
Zu diesem Zweck haben wir drei Korpora ausgewählt, deren Erschließungsvokabular als weitgehend repräsentativ für die reale Museumsdokumentation angesehen werden kann. Folgende Einrichtungen haben uns dankenswerterweise ihre Daten zur Auswertung zur Verfügung gestellt:
- Stiftung Deutsches Historisches Museum (DHM): 30.445 Deskriptoren.
- Deutsches Dokumentationszentrum für Kunstgeschichte (DDK): 10.478 Deskriptoren.
- Das Portal „Museen im Saarland“: 3.668 Deskriptoren.
Diese drei Korpora geben einen Eindruck von der Spannbreite der Museumsdokumentation zwischen normorientierer Erschließung und freier Beschreibung. Sie eignen sich auch deshalb als Basis für unsere Untersuchung, weil wir hier den häufigsten kritischen Fällen, die einer Datenvereinigung mit der GND im Wege stehen könnten, exemplarisch begegnen. Wir haben die Bestände aus folgenden Gründen als Datengrundlage für unsere Untersuchungen gewählt:
Die Stiftung Deutsches Historisches Museum (DHM) hat einen umfangreichen Bestand mit breiter inhaltlicher Abdeckung. Das Vokabular basiert auf der Schlagwortnormdatei; es enthält anwendungsbezogene Anpassungen und etwa 1.000 neue Begriffe. Die Indexierung ist an dokumentarischen Inhaltsstandards[4] orientiert und folgt den Vorschlägen des LIDO-Schemas[5]. Normierte Schlagwörter werden zur Indexierung der wichtigsten Metadaten Objekttyp, Medium, Trägermaterial, Technik und zur Inhaltsbeschlagwortung verwendet.
Das Deutsche Dokumentationszentrum für Kunstgeschichte (DDK) verfügt ebenfalls über einen großen Bestand mit vielen verschiedenen Objekttypen, insbesondere auch Bauwerken (siehe AP2 Fall B). Die Erschließung erfolgt nach Hausregeln mit hauseigenem Vokabular, das bereits strukturiert nach den wichtigsten LIDO-Elementen vorliegt. Zusätzlich stellt das DDK-Vokabular Schlagwörter zur strukturierten Beschreibung von Form und Formtypen bereit. Abweichend von anderen Museen wird thematisch mit Iconclass erschlossen. Von großem Vorteil für unsere Auswertung sind die teilweise bereits vorliegenden Mappings zur GND und zum Art & Architecture Thesaurus.
Das Portal Saarland ist ein Beispiel für kleine Museen, die nicht regelbasiert erschließen und ihre Objekte überwiegend freitextlich beschreiben. Das auszuwertende Vokabular entstammt einer Datenkumulation aus 26 oft themenbezogenen Museen, womit eine für den Untersuchungszweck ungünstige Beschränkung auf wenige Spezialthemen vermieden wird.
Für alle drei Vokabulare liegen Angaben zur Verwendungshäufigkeit jedes Deskriptors aus der Objekterschließung vor. Die Wahl der Datengrundlage wurde auch im Hinblick auf einen möglichen praktischen Nutzen für die Deutsche Digitale Bibliothek (DDB) getroffen: DHM und DDK gehören zu den Datengebern mit der höchsten Datenlieferung an die DDB; das Portal Saarland fungiert selbst sowohl als Aggregator wie auch als DDB-Datenlieferant.
Datenintegration
In jedem der untersuchten Vokabulare finden sich Deskriptoren, für die es in der GND bisher kein geeignetes Äquivalent gibt. Das wirft die Frage auf, unter welchen Voraussetzungen eine Übernahme in das GND-Vokabular denkbar, möglich und wünschenswert ist. Am Anfang steht hier die Überlegung, wie die bisherigen Relevanzkriterien der GND auf neue Begriffe aus dem Museumssektor anzuwenden sind. Hierzu sind Vorarbeiten nötig, die nicht nur die Museumsvokabulare, sondern auch den derzeitigen Bestand der GND in den Fokus nehmen.
Massenimporte, wie für Personendaten oder Geografika anvisiert, würden für Sachbegriffe nur dann in Frage kommen, wenn es sich um Sets qualitätsgeprüfter Deskriptoren handelt, die thematisch eng verknüpft sind. Wahrscheinlicher ist ein Szenario, das von einem Mapping oder einer Integration einzelner Sachbegriffe zur Übernahme in die GND ausgeht. In beiden Fällen aber müssen die Datensätze festgelegten Mindestanforderungen entsprechen, und es muss in jedem Fall durch geeignete Matching-Verfahren sichergestellt sein, dass nicht bereits äquivalente Begriffe in der GND existieren.
Vollständig automatisierte Matching-Verfahren, soviel zeigen die bisherigen Untersuchungen, scheitern oft am vorliegenden Datenmaterial. In der Museumsdokumentation finden sich häufig von etablierten Regeln abweichende Benennungen, ungewöhnliche syntaktische Formen und Wortarten, nicht identifizierte Homonyme, fehlende Synonyme sowie eine Vielzahl von Bezeichnungen, die mit einem Fragezeichen unsichere Bezüge kennzeichnen. Ohne Einbeziehung des Faktors Mensch (heute auch bekannt als human-in-the-loop automation) werden hier keine überzeugenden Lösungen zu finden sein. Im GND4C-Arbeitspaket 3 wird deshalb an Mensch-Maschine-Schnittstellen gearbeitet, die, nicht zuletzt auch als Resultat unserer Untersuchungen, eine maximale automatische Unterstützung für intellektuelle Matching-Entscheidungen ermöglichen sollen.
Neben dem Matching einzelner Begriffe steht auch noch die Frage im Raum, wie mit den semantischen Beziehungen im Quellvokabular (soweit dort vorhanden) und denen in der GND zu verfahren ist. Hier können sich schwer auflösbare Widersprüche ergeben (beispielsweise ist im DDK-Vokabular ein Schloss ein Regierungsgebäude, während diese Begriffe in der GND separaten Hierachiepfaden angehören). Hinzu kommt, dass das semantische Beziehungsnetz der GND-Sachbegriffe bisher noch lückenhaft ist, was dazu führen kann, dass Relationen nicht sinnvoll ergänzt werden können und deren Übernahme stattdessen zu vermehrter Inkonsistenz in der GND beitragen würde.
Es liegen aber auch Chancen für die GND in der Öffnung für andere Daten: Im Matching-Prozess können Dubletten, fehlende Disambiguierungen, sowie Irrtümer und Lücken im semantischen Netz aufgedeckt werden.
Vorgehen
[Allgemein: Die Untersuchungen stützen sich auf die folgenden Standards: ISO 25964, CDWA/CCO, LRM, LIDO.]
Das DHM-Vokabular enthält alle für die Objekterschließung genutzten Begriffe mit ihren bevorzugten und alternativen Bezeichnungen sowie ihren Oberbegriffen. Diese Daten wurden aus dem Lieferformat in eine SKOS-basierte Form gewandelt, mit temporären Identifikatoren und rekonstruierten Oberbegriffsbeziehungen versehen und in eine RDF-Datenbank (Triplestore) überführt. Auf dieser technischen Plattform folgten mehrere Durchgänge automatischer Zeichenkettenvergleiche mit den Sachbegriffs-Benennungen der Linked-Data-Fassung der GND, die ebenfalls auf dieser Plattform vorliegt. Die Daten des DDK und der saarländischen Museen wurden als "flache" Vokabularlisten verarbeitet und denselben Matching-Verfahren unterzogen wie das DHM-Vokabular.
Neben dem exakten Zeichenketten-Vergleich kamen hierbei verschiedene unscharfe Verfahren zur Anwendung, darunter eine experimentelle Suche nach Grundworten in Komposita und die häufig genutzte Distanzmetrik nach Damerau und Levenshtein.
Dabei zeigen sich Hindernisse für einen automatischen Zeichenkettenabgleich auf beiden Seiten der Vokabulare: Fehlende Synonyme und Homonyme sind dabei die häufigsten Ursachen für ein Versagen des automatischen Abgleichs in Fällen, in denen tatsächlich ein bedeutungsgleicher Begriff im Vokabular des Museums und in der GND existiert.
Wir haben sechs Typen von Matching-Ergebnissen identifiziert:
- eindeutiger und korrekter Match (sowohl die Benennung wie auch die Bedeutung stimmen auf beiden Seiten überein),
- zu viele Treffer im Zielvokabular (tritt auf, wenn beispielsweise Homonymzusätze fehlen oder nicht ausgewertet werden können),
- falsch positiver Match (der gefundene Begriff hat eine andere Bedeutung als der gesuchte Begriff),
- falsch ergebnisloser Match (der gesuchte Begriff ist im Zielvokabular vorhanden, wurde aber nicht gefunden),
- ergebnisloser Match (tatsächlich ist kein Äquivalent in der GND vorhanden; der Match ist ein Kandidat für eine Neuaufnahme in die GND),
- ähnliche Schreibweisen von Benennungen, die durch eine unscharfe Suche gefunden werden, können verschiedene Begriffe repräsentieren;
es können durch eine unscharfe Suche aber auch exakte Übereinstimmungen entdeckt werden.
Stichproben von Matching-Ergebnissen werden manuell einem der sechs Typen zugeordnet. Die Gründe für falsche Matches, falsch ergebnislose Matches sowie unentscheidbare Fälle bei mehreren Treffern im Zielvokabular werden intellektuell untersucht. Warum werden identische Zeichenketten nicht gefunden? Warum werden äquivalente Begriffe nicht gefunden? Was sind die Gründe für falsch positive Matches? Die Ergebnisse dieser Untersuchungen werden auch zur Verbesserung der Matching-Algorithmen herangezogen.
Relevanzkriterien
In jenen Fällen, in denen ein Begriff des Museumsvokabulars mit Sicherheit kein Äquivalent in der GND hat, stellt sich die Frage, ob dieser relevant genug ist, um in die GND aufgenommen zu werden. Für die Einschätzung der Relevanz gehen wir von folgenden heuristischen Annahmen aus: Ein Begriff könnte relevant für die GND sein, wenn
- es einen Oberbegriff zum Kandidaten in der GND gibt
- es gleichgeordnete Begriffe (Geschwisterbegriffe) zum Kandidaten in der GND gibt
- er als Oberbegriff für vorhandene Begriffe der GND in Frage kommt
- Bezeichnung und Begriff in Vokabularen und/oder Wörterbüchern belegt sind
- der Gebrauch in der Objekterschließung in Datenbanken und Portalen nachgewiesen ist.
Diese Annahmen haben wir der intellektuellen Untersuchung der Matching-Ergebnisse zu Grunde gelegt:
Wenn kein Äquivalent in der GND zu finden ist, wird für den Schlagwortkandidaten ein passender Oberbegriff aus der GND gesucht (später möglicherweise teil-automatisch über Grundworterkennung). Die Anzahl seiner Unterbegriffe wird ermittelt, weil sie mögliche Geschwisterbegriffe des Kandidaten sind. Das Vorhandensein solcher gleichgeordneter Begriffe würde für die Relevanz des Kandidaten als GND-Deskriptor sprechen. Nach Übereinstimmungen mit anderen Vokabularen und Lemmata in Wörterbüchern wird aus mehreren Gründen gesucht: In jedem Fall ist das Vorkommen der Bezeichnung ein Indiz für die terminologische Gebräuchlichkeit, darüber hinaus geben Wikidata-Datenobjekte und AAT einen Hinweis auf die strukturelle Position des Begriffs. Das Vorkommen eines Begriffs im AAT ist ein Hinweis auf den tatsächlichen Bedarf in der Museumsgemeinschaft. Stichprobenartig wird außerdem die Häufigkeit des Kandidaten in den Freitextindizes des DNB-Katalogs und der DDB sowie der entsprechenden Stichwörter in der DDB zur Einschätzung von Bedarf und Relevanz erhoben.
Aus der Heuristik sind näherungsweise die folgenden Relevanzkriterien als Diskussionsvorschlag abgeleitet worden. Ein Schlagwort aus der Museumsdokumentation kann GND-relevant sein, wenn
- es als Oberbegriff für einen Allgemeinbegriff oder Individualbegriff benötigt wird.
- mindestens ein Geschwisterbegriff in der GND vorhanden ist.
- es ein Merkmal ausdrückt, das zur Identifizierung eines in der GND erfassten Werkes benötigt wird.
- der Gebrauch durch eine Mindestanzahl an Objekten in relevanten Datenbanken belegt ist.
- die Gebräuchlichkeit der Bezeichnung für den Begriff durch mindestens zwei relevante Quellen nachgewiesen ist.
Eine Harmonisierung dieser Punkte mit den für die GND vorliegenden, aus bibliothekarischer Perspektive entwickelten Relevanzkriterien steht derzeit noch aus.
Datenmodell
Das Datenmodell der GND ist gegenwärtig durch ein Normdatenprofil für das bibliothekarische Katalogsystem PICA definiert. Dieses Anwendungsprofil ist im zurückliegenden Jahrzehnt unter anderem in Richtung auf Linked-Data-Anwendungen erweitert worden, indem zahlreiche textbasierten Aussagen mit Identifikatoren-Verweisen ergänzt werden. Als weiterer Schritt in Richtung Linked (Open) Data wurde mit der GND-Ontologie ein Schema für eine RDF-basierte Publikation der GND entwickelt. Da nicht zu erwarten ist, dass sich viele Museen auf die an MARC orientierten Datenformate der Bibliotheken einlassen werden, gehen wir davon aus, dass hier der RDF-gestützen Form der GND eine zentrale Rolle zukommen wird.
Nun deckt die Linked-Data-Repräsentation der GND bisher allerdings erst eine Untermenge jener Aussagen ab, die im PICA-basierten Redaktionssystem gemacht werden. Hinzu kommt, dass die GND-Ontologie als Versuch, ein bibliothekarisches Normdatenschema in ein logisches Axiomensystem zu überführen, selbst noch zahlreiche Inkonsistenzen aufweist. Ein Zweig des GND4C-Projektes ist daher auch der Frage gewidmet, wie eine zukünftige GND-Ontologie aussehen sollte.
Aus den bisherigen Auswertungen, Matching-Versuchen und weiteren Analysen der Museumsvokabulare gehen bereits etliche Desiderate an ein künftiges GND-Datenmodell hervor, darunter:
- Gliederung der Benennungen (Terme) mit separaten Elementen für Homonym- und andere Zusätze
- Ergänzung (Reifizierung) von Beziehungsaussagen mit Angaben zu zeitlicher und räumlicher Extension, Unsicherheit der Zuschreibung u.a.
- konsistentere Gültigkeitsbestimmungen (Domain- und Range-Restriktionen) für Beziehungen (Properties) zur automatischen Erkennung von Regelverstößen
- Klarere Trennung von Entitätstypen wie Werk und Geografikum
- Präzisierung der Bedeutung verschiedener Properties, vor allem jener für Zeitangaben
- Ergänzung der Relationen um museumsspezifische Aussagen, beispilweise Epochenstile
- Vorkehrungen für die Entflechtung von Rollenattributen in Begriffen (vor allem: "Motiv")
- Modellelemente für die Gruppierung von Begriffen (Node Labels, Concept Groups)
Einige dieser Desiderate wären prinzipiell auch mit den bisherigen Systemplattformen, d.h. als Erweiterungen des PICA-Normdatenprofils und der GND-Ontologie umsetzbar. Andere dagegen lassen sich vermutlich erst nach einem Wechsel des GND-Redaktionssystems realisieren.
Ausblick
In Bibliotheken des deutschsprachigen Raumes ist die GND bereits jetzt die umfangreichste und meistgenutzte Quelle für Normdaten. Mit einer Ausweitung der Nutzung auf andere Kultursparten könnte hieraus ein ...
Wie kann die GND von einer Öffnung für Museumsdaten profitieren?
- Schließen von inhaltlichen „Lücken” durch Ergänzungen von Sachbegriffen aus anderen Wissensbereichen
- Lieferung von eindeutigen Begriffen und klaren Definitionen, Vervollständigen der Definitionen
- Vokabulare aus Museumsbereich, v.a. AAT, können helfen, GND zu verbessern und als Wissensorganisationssystem auszubauen:
- bereits vorgenommenes Ziel der GND, die Schlagwörter durchgängig hierarchisch zu relationieren, Ausbau der generischen Hierarchieleiter
- Implizite Annahmen und Informationen werden explizit gemacht
- Aufdecken von Homonymen und Disambiguierung, Identifizieren von Dubletten, Disambiguierung von Homonymen
- Ergänzen fehlender Synonyme
- Konkordanzen zu weiteren LOD-Vokabularen
- Präzisierung oder gegebenenfalls Korrektur von Faktenaussagen
- Weiterentwicklung des Datenmodells
Wie können die Museen von einer Integration ihrer Daten in die GND profitieren?
- Bessere Auffindbarkeit der Objekte
- Regehafte Ansetzungen
- ...
Notizen
Node Label können bei Strukturierung der Hierarchien helfen, als Unterfacetten fungieren, als Checkliste für vollständige Indexierung dienen
Bedeutung von Ort und Zeit auch für Sachbegriffe
Identifizierende Merkmale müssen Sachbegriff semantisch eindeutig machen: Bezeichnungen (Synonyme), Eindeutigkeit (disambiguierende Homonymzusätze), Kontextinformationen (Relationen, v.a. Hierarchien), Definitionen
Mögliche Auswirkungen für Datenmodell der GND erwähnen
Beispielhaft mögliche Probleme bei Abgleich und Retrieval vorstellen (z.B. keine Möglichkeit für Search Explosion bei fehlenden Hierarchien; durch fehlende Disambiguierungen gibt es Begriffe, die nicht zum Oberbegriff passen)
Am Beispiel AAT die möglichen Vorteile für GND durch einen Abgleich mit einem Museumsvokabular zeigen
Mögliche Relevanzkriterien für Neuaufnahmen von Begriffen