Dos & Don’ts im digiS-Datenmanagement

Grundsätzliches

Gutes Datenmanagement ist für ein erfolgreiches Digitalisierungsprojekt essenziell. Sie sollten sich bereits in der Planungsphase überlegen, welche Daten im Projektverlauf entstehen, wo sie gespeichert, wie sie verwaltet und wo sie gesichert werden. Es ist sicherzustellen, dass es für die Speicherung der Daten inkl. der Sicherungskopien genügend geeignete Speicherkapazität gibt.

Bedenken Sie, welche Dateien im Verlauf des Projekts entstehen, und dokumentieren Sie am besten schriftlich, in welcher Ordnerstruktur und mit welchem Benennungssystem Sie die Dateien abspeichern. Die schriftliche Dokumentation hilft dabei, ein hausintern einheitliches Vorgehen zu etablieren, kann Onboarding erleichtern und als Grundlage für Folgeprojekte dienen. Geben Sie die relevanten Teile der Dokumentation auch an Ihre Digitalisierungsdienstleistenden weiter und machen Sie am besten die Benennung zum Bestandteil des Auftrags.

Stellen Sie sicher, dass Sie über die nötige Hard- und Software und dass alle Projektbeteiligten über das nötige Wissen (z.B. Ihre Richtlinien zum Datenmanagement) und die nötigen Fertigkeiten (Umgang mit Dateien und Dateimanagern, Umbenennung von Dateien) verfügen. Planen Sie auch Schulungsbedarf ein.

Erproben Sie die Praktikabilität der Struktur vorab anhand eines kleinen Beispielprojekts.
Ordnerstruktur
Bei wenigen hundert bis etwa 1000 digitalen Objekten mit wenigen Dateien pro Objekt ist eine flache Dateistruktur ohne Unterordner denkbar. Darüber empfiehlt sich die Ausarbeitung einer zweckmäßigen Ordnerstruktur. Denkbar sind hier unter anderem die folgenden Verfahren:

Ordner für die Erschließungsobjekte bzw. Gruppen von Erschließungsobjekten (intellektuelle Einheiten, IE): Die zu den IE gehörigen digitalen Objekte werden in einem Ordner zusammengefasst.

Ordner für Dateitypologien: Es werden je eigene Ordner für die Masterdateien und die verschiedenen Derivatgruppen (z.B. JPEGs in verschiedenen Auflösungsstufen) erstellt.

Logische Gruppierung: Es werden je eigene Ordner für einzelne Sammlungsbereiche (o.ä.) angelegt in denen alle Dateien (ggf. ohne weitere Unterordner) einsortiert werden.

Welches der Verfahren sich am besten für Ihren Workflow eignet, muss im Einzelfall erwogen werden. Wir empfehlen insbesondere bei einer sehr großen Zahl an Objekten das dritte Vorgehen, das die Übersichtlichkeit erhöht und gleichzeitig die Überprüfung auf Konsistenz der Benennung und Vollständigkeit der Daten erleichtert. Je nach Umfang empfiehlt sich auch eine Kombination aus dem dritten und ersten Vorgehen.

Weitere Anregungen und Beispiele für Ordnerstrukturen finden sich hier.

Gerne beraten wir Sie auch bei Fragen zum Datenmanagement im Vorfeld der Projektarbeit.
Forschungsdaten

Forschungsdaten und Forschungsdatenmanagement sind an Wissenschaftseinrichtungen in den letzten Jahren verstärkt in den Fokus gerückt und werden nicht zuletzt im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI, für GLAM-Einrichtungen insbes. NFDI4Culture) auch im GLAM-Sektor immer mehr diskutiert. Bei digiS-Digitalisierungsprojekten steht die digitale Verfügbarmachung von Kulturerbeobjekten und zugehörigen Metadaten im Mittelpunkt. Forschungsdaten und Forschungsdatenmanagement sind dem ihrer Bedeutung nach nachgeordnet. Es empfiehlt sich dennoch, frühzeitig Praktiken guten Forschungsdatenmanagements in die eigenen Workflows zu integrieren. Die folgenden Hinweise können eine Anregung hierfür bieten.

Im Zuge von Digitalisierungs- und Erschließungsprojekten entstehen neben den Digitalisaten und Objektbeschreibungen (Metadaten) auch Forschungsdaten, die nicht in Ihrer Sammlungsmanagementsoftware verwaltet werden können, für die weitere Beschäftigung mit den Objekten jedoch wichtig sein können. Der Begriff „Forschungsdaten“ ist hier sehr weit zu fassen und kann so heterogenes Material wie Literaturangaben, Archivalien, Fotodokumentation, historische oder Ihre fachliche Korrespondenz, Messdaten, Softwarecode bzw. Skripte, Präsentationsfolien und vieles mehr beinhalten. Entwickeln Sie auch für diese Daten eine zweckmäßige Beschreibungs- und Aufbewahrungssystematik. Es können hier urheber- und persönlickeitsrechtliche Aspekte eine Rolle spielen (vgl. Klimpel, Paul. In Bewegung. Die Rechtsfibel für Digitalisierungsprojekte in Kulturerbe-Einrichtungen, 2022). In Ihrem Haus entstehende Werke (z.B. von Ihnen oder Ihren Mitarbeiter:innen erstellte Präsentationen) sollten Sie offen lizenzieren (z.B. CC0, CC BY), um eine Nachnutzbarkeit zu garantieren. Sie können auf einschlägigen Fachrepositorien (einen Überblick bietet https://www.re3data.org/) oder auf https://zenodo.org/ dauerhaft zugänglich gemacht werden.

Auch bei der Aufbereitung von Forschungsdaten kommt den Metadaten eine wichtige Rolle zu. Sie müssen die Daten auch für Dritte nachvollziehbar beschreiben und somit auffindbar und nachnutzbar machen. Auch Forschungsdaten sollten den FAIR-Prinzipien genügen. Vgl. zu den FAIR-Prinzipien nun Angela Kailus‘ Handreichung für ein FAIRes Management kulturwissenschaftlicher Forschungsdaten.

Tips zur Dateibenennung

Erläuterung / Hinweis

DON’T

Dateinamen sollten aus alphanumerischen Zeichen bestehen und keine Umlaute, Sonder- oder Leerzeichen (ß, ?, # …) enthalten, außer: _ (vgl. auch #6).

Andere Zeichen können auf unterschiedlichen Systemen unterschiedlich interpretiert werden und zu Problemen führen.

schoenesbild001.tif
schoenerbaum_2_3.tif
schoeneblume_8_5.tif

schönes Bild 1.tif
schöner Baum 2 & #3.tif
schöne Blume 8-5.tif

Buchstaben in Dateinamen und Dateiendungen sollten nur Kleinbuchstaben sein.

Dateinamen sind „case-sensitive„, es werden also Groß- und Kleinbuchstaben unterschieden. Die Dateien „a.tif“ und „A.tif“ sind also zwei gänzlich unterschiedliche Objekte. Zur Vereinheitlichung, sowie um Verwirrung und Fehler z.B. bei der Zuordnung zu den Metadaten zu vermeiden, empfiehlt es sich daher für Dateinamen grundsätzlich nur Kleinbuchstaben zu verwenden.

tif_25_a_2_il1.tif
tif_25_a_2_il2.tif

TIF_25_a_2_IL1.tif
tif_25_a_2_il2.TIF

Dateinamen sollen einheitlich sein und einer klaren Struktur folgen.

Die Dateiverarbeitung erfolgt möglichst automatisiert. Die Automatisierung wird dadurch erleichert, dass Dateinamen einem bestimmten formalisierbaren Muster folgen.

bild001.tif
bild002.tif
bild003.tif

Bild001.tif
bild3.tif
BILD04.TIF

Verwenden Sie Füllnullen, um numerische Bestandteile gleicher Länge zu erzeugen.

Sortieralgorithmen sortieren zeichenweise. Die Zeichenkette „15“ kommt also entgegen ihrem numerischen Wert vor „91“, da „1“ vor „9“ kommt und dann erst die zweite Stelle („5“ bzw. „1“) berücksichtigt wird. Das Negativbeispiel rechts zeigt die resultierende Sortierreihenfolge („0“ bzw. „1“ kommen vor „.“, entsprechend werden bild10.tif und bild11.tif vor bild1.tif einsortiert). Durch vorangestellte Nullen wird eine korrekte (alpha)numerische Sortierung garantiert. Es bietet sich bei der Festlegung von Füllnullen an, die voraussichtliche Zahl der Objekte abzuschätzen und im Zweifel eine zusätzliche Stelle vorzusehen. Bei 800 Bildern könnten z.B. für den numerischen Teil der Benennung mindestens 3, sicherheitshalber mit Puffer 4 Stellen vorgesehen werden, also bild0001.tif.

bild001.tif
bild002.tif
bild003.tif
...
bild009.tif
bild010.tif
bild011.tif

bild10.tif
bild11.tif
bild1.tif
bild2.tif
bild3.tif
bild9.tif

Dateinamen sollten aussagekräftig sein und die relevanten Informationen enthalten, sodass nötigenfalls eine automatisierte manuelle Zuordnung möglich ist.

Sofern in den Metadaten (z.B. METS, LIDO) kein eindeutiger Bezug zu den Masterdateien enthalten ist, erfolgt die finale Zuordnung der Masterdateien zu den Objekten für die Langzeitarchivierung im Wesentlichen anhand der Dateinamen. Eine eindeutige Zuordenbarkeit auf Grundlage der Benennung ist somit unerlässlich.

inv123_bild001.tif
inv123_bild002.tif
inv124_bild001.tif
inv125_bild001.tif
inv125_bild002.tif
inv125_bild003.tif

dQpv_001.tif
vpqr_002.tif
a19E_003.tif

Dateinamen sollten möglichst keine römischen Zahlen enthalten (vgl. jedoch #7).

Römische Zahlen werden vom Computer i.d.R. nur als Buchstabenzeichen erkannt und nicht als Zahlen. Entsprechend werden sie z.B. bei der automatischen Sortierung nicht adäquat berücksichtigt.
Außerdem kann es bei der (manuellen) Benennung zu Fehlern kommen, da das große I (klein: i), und das kleine l (groß: L) sich ähnlich sehen. Eine automatische Verarbeitung wird damit erschwert.

inv25_2_a.tif
inv25_2_b_6.tif

Inv25_II_a.tif
Inv25_II_b_VI.tif

Inventarnummern können insbesondere mit Regeln 1 und 6 konfligieren. Sollen Inverntarnummern teil der Dateinamen sein, muss vorab ein praktikabler Kompromiss definiert werden (z.B. römische Ziffern können durch arabische ersetzt werden, Sonderzeichen durch „_“ etc.). Dokumentieren Sie besonders in diesem Fall auch das Format des Dateinamens und teilen Sie uns mit, an welcher Stelle römische Ziffern verwendet werden.

04_obj_54_b_01.tif

iv obj 54/b i.tif

Dateinamen von Nutzungsderivaten und Masterdateien sollten in ihren relevanten identifizierenden Teilen identisch sein, sich also nur in Prä- oder Suffixen bzw. Dateiendungen unterscheiden.

Dies erlaubt eine Gruppierung zusammengehöriger Objekte. Die Gruppierung erfolgt musterbasiert und setzt entsprechende Dateinamen voraus.

123_bild001.tif
123_bild001.jpg

master_123_bild001.tif
web_123_bild001.jpg

Dateiendungen von gleichen Formaten sollten identisch geschrieben sein.

Die Dateiverarbeitung erfolgt möglichst automatisiert. Die Automatisierung wird dadurch erleichert, dass Dateinamen einem bestimmten formalisierbaren Muster folgen.

tif_25_a_2_il1.tif
tif_25_a_2_il2.tif

tif_25_a_2_il1.tif
tif_25_a_2_il2.tiff