Datengrundlage

Eine zusammenfassende Übersicht über die untersuchten Datenquellen gibt es im Beitrag → Bestandsanalysen im DNB-Wiki.

Bei allen drei Datenquellen sind die Nutzungshäufigkeiten der Deskriptoren bekannt. Nachfolgend ein Vergleich der Häufigkeitsverteilungen in den drei untersuchten Beständen:

Die Y-Achse (log(f_t)) gibt hier die logarithmierte Verwendungshäufigkeit für jedes Vokabularelement an.

Für das DHM beschränkt sich die Auswertung auf das Vokabular für die Eigenschaft "Thema" des Metadatensets, wogegen für das DDK alle elementspezifischen Vokabulare zusammengefasst ausgewertet wurden. Dadurch weist die Verteilung beim DDK einen größeren Anteil von Verwendungen im optimalen Diskriminanzbereich (log(f_t) zwischen ca. 2 und 6) auf.