Einführung

Mit DALL-E KI generierte Illustration zu Metadaten

Im Bereich akademischer Forschungsprojekte fallen vielfältige Metadaten an. Zum Teil ist im Ziel und Zweck der wissenschaftlichen Untersuchungen die Erhebung von Metadaten schon selbst vorgeschrieben. Metadaten lassen sich nur kontextbezogen von den Daten trennen. So werden beispielsweise in den Projekten Corpus Nummorum oder Corpus Vitrearum Maedii Aevii Metadaten zu den Forschungsobjekten - einerseits Münzen, andererseits Kirchenfenster - gesammelt und diese Metadatenkataloge publiziert. Um die Qualität von Metadaten zu verbessern, werden Normdaten, Ontologien oder Klassifikationssysteme verwendet, die für Linked Open Data eine Grundlage sind. Über diese abstrahierenden Klassifikationssysteme können unterschiedliche Ressourcen anderer Wissensbestände miteinander in Verbindung gesetzt werden. Im Bereich digitaler Editionen können so über die Gemeinsame Normdatei (GND) der Deutschen Nationalbibliothek Informationen über Personen vereinheitlicht (unterschiedliche Schreibweisen von Namen) und miteinander in Verbindung gebracht werden (vgl. hier die Übersicht zu Alexander von Humboldt in der Deutschen Biographie, wo die externen Ressourcen unter Quellen verlinkt sind: https://www.deutsche-biographie.de/sfz35959.html#).

Unterschieden werden muss zwischen verschiedenen Arten von Metadaten, wie bibliographische Metadaten, administrative Metadaten, inhaltsbeschreibende Metadaten sowie prozessorale Metadaten(vgl. auch https://forschungsdaten.info/themen/beschreiben-und-dokumentieren/metadaten-und-metadatenstandards/).

Daneben erzeugen Menschen im digitalen Zeitalter zu fast jeder Zeit Metadaten, seien es Metadaten zu Fotos, die wir mit unserem Smartphone schießen oder sei es der Leseverlauf von Artikeln bei Verlagen.

Abhängig von den Forschungsfragen werden in Projekten auch spezialisierte Metadaten erhoben. So gibt es hunderte domänenspezifische Metadatenstandards, die unterschiedliche Daten zu den Daten erfassen.

Ursprünglich wurden Metadaten im Zusammenhang mit Bibliotheken entworfen, um die Bücher sortieren zu können. Im 19. Jahrhundert wurde mittels standardisierter Titelerfassung der Fernleihverkehr - der frühe Informationsaustausch - ermöglicht. So sind auch die ersten digitalen Metadatenkataloge im Bibliothekswesen zu finden, die auch bald im Internet zur Verfügung standen. Sogar die ersten Einstiege ins Internet in den 1990er Jahren waren als (redaktionell erstellte) Kataloge aufgebaut, bevor Volltextsuchmaschinen programmatisch den Inhalt von Webseiten indexierten (vgl. Vergleich von Suchmaschinen und Katalogen : Schwerpunkt deutschsprachige Suchmaschinen ; Stand 2002 / Anja Gerber. - Saarbrücken : VDM Verl. Müller, 2008. - 118 S. : Ill., graph. Darst.).

Am weitesten verbreitet dürfte der DublinCore Metadatenstandard sein, der Mitte der 1990er Jahre für die Erfassung von Webseiten und anderen Ressourcen im Internet entwickelt wurde und es ermöglichen sollte, Webseiten zu beschreiben und informationswissenschaftlich zu erfassen. Er besteht nur aus wenigen Pflichtfeldern. Diese Metadaten können über Schnittstellen zur Verfügung gestellt werden und somit in Metasuchmaschinen (wie z.B. BASE oder kvk) nachgewiesen werden. Metadaten ermöglichen es somit Daten, auffindbar zu sein und sind deshalb für die Umsetzung der FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable) essenziell. Tatsächlich beziehen sich die FAIR-Prinzipien primär auf die Metadaten und nur sekundär auf die Daten an sich.

Standardisierte Metadaten wie z.B. das DataCite-Metadatenschema oder IMDI für Sprachressourcen müssen dann ausgefüllt werden, wenn Daten in Repositorien abgelegt oder mit einem Digital Object Identifier (DOI) versehen werden sollen.

Oft müssen unterschiedliche Metadatensysteme aufeinander abgeglichen werden, wenn bestehende Katalogdaten in andere Systeme überführt werden sollen. Dieser Vorgang wird als mapping bezeichnet. So können z.B. die Bild-Metadaten des CVMA in LIDO (Leightweight Identifier Describing Objects) gemappt werden. Dadurch können die Objekte im Museumskontext beschrieben werden. Je komplexer die Beschreibung, desto abstrakter werden die Metadatensysteme. LIDO ist eine Subentität von CIDOC-CRM, ein ISO-Standard, der eine Ontologie für die Beschreibung von Kulturgütern zur Verfügung stellt, d.h. implizite und explizite Verbindungen und Konzepte werden in einer formalen Sprache beschrieben (https://cidoc-crm.org/cidoc-crm-short-intro).

Sie sehen also, dass die Beschäftigung mit Metadaten sehr komplex werden kann.

Wenn Sie in diesem Bereich Unterstützung oder Beratung wünsche, wenden Sie sich bitte an uns!