Dos & Don’ts im digiS-Datenmanagement
Tips zur Dateibenennung
#
Erläuterung / Hinweis
DO
DON’T
1
Dateinamen sollten aus alphanumerischen Zeichen bestehen und keine Umlaute, Sonder- oder Leerzeichen (ß, ?, # …) enthalten, außer: _ (vgl. auch #6).
Andere Zeichen können auf unterschiedlichen Systemen unterschiedlich interpretiert werden und zu Problemen führen.
schoenesbild001.tif
schoenerbaum_2_3.tif
schoeneblume_8_5.tif
schönes Bild 1.tif
schöner Baum 2 & #3.tif
schöne Blume 8-5.tif
2
Buchstaben in Dateinamen und Dateiendungen sollten nur Kleinbuchstaben sein.
Dateinamen sind „case-sensitive„, es werden also Groß- und Kleinbuchstaben unterschieden. Die Dateien „a.tif“ und „A.tif“ sind also zwei gänzlich unterschiedliche Objekte. Zur Vereinheitlichung, sowie um Verwirrung und Fehler z.B. bei der Zuordnung zu den Metadaten zu vermeiden, empfiehlt es sich daher für Dateinamen grundsätzlich nur Kleinbuchstaben zu verwenden.
tif_25_a_2_il1.tif
tif_25_a_2_il2.tif
TIF_25_a_2_IL1.tif
tif_25_a_2_il2.TIF
3
Dateinamen sollen einheitlich sein und einer klaren Struktur folgen.
Die Dateiverarbeitung erfolgt möglichst automatisiert. Die Automatisierung wird dadurch erleichert, dass Dateinamen einem bestimmten formalisierbaren Muster folgen.
bild001.tif
bild002.tif
bild003.tif
Bild001.tif
bild3.tif
BILD04.TIF
4
Verwenden Sie Füllnullen, um numerische Bestandteile gleicher Länge zu erzeugen.
Sortieralgorithmen sortieren zeichenweise. Die Zeichenkette „15“ kommt also entgegen ihrem numerischen Wert vor „91“, da „1“ vor „9“ kommt und dann erst die zweite Stelle („5“ bzw. „1“) berücksichtigt wird. Das Negativbeispiel rechts zeigt die resultierende Sortierreihenfolge („0“ bzw. „1“ kommen vor „.“, entsprechend werden bild10.tif
und bild11.tif
vor bild1.tif
einsortiert). Durch vorangestellte Nullen wird eine korrekte (alpha)numerische Sortierung garantiert. Es bietet sich bei der Festlegung von Füllnullen an, die voraussichtliche Zahl der Objekte abzuschätzen und im Zweifel eine zusätzliche Stelle vorzusehen. Bei 800 Bildern könnten z.B. für den numerischen Teil der Benennung mindestens 3, sicherheitshalber mit Puffer 4 Stellen vorgesehen werden, also bild0001.tif
.
bild001.tif
bild002.tif
bild003.tif
...
bild009.tif
bild010.tif
bild011.tif
bild10.tif
bild11.tif
bild1.tif
bild2.tif
bild3.tif
bild9.tif
5
Dateinamen sollten aussagekräftig sein und die relevanten Informationen enthalten, sodass nötigenfalls eine automatisierte manuelle Zuordnung möglich ist.
Sofern in den Metadaten (z.B. METS, LIDO) kein eindeutiger Bezug zu den Masterdateien enthalten ist, erfolgt die finale Zuordnung der Masterdateien zu den Objekten für die Langzeitarchivierung im Wesentlichen anhand der Dateinamen. Eine eindeutige Zuordenbarkeit auf Grundlage der Benennung ist somit unerlässlich.
inv123_bild001.tif
inv123_bild002.tif
inv124_bild001.tif
inv125_bild001.tif
inv125_bild002.tif
inv125_bild003.tif
dQpv_001.tif
vpqr_002.tif
a19E_003.tif
6
Dateinamen sollten möglichst keine römischen Zahlen enthalten (vgl. jedoch #7).
Römische Zahlen werden vom Computer i.d.R. nur als Buchstabenzeichen erkannt und nicht als Zahlen. Entsprechend werden sie z.B. bei der automatischen Sortierung nicht adäquat berücksichtigt.
Außerdem kann es bei der (manuellen) Benennung zu Fehlern kommen, da das große I (klein: i), und das kleine l (groß: L) sich ähnlich sehen. Eine automatische Verarbeitung wird damit erschwert.
inv25_2_a.tif
inv25_2_b_6.tif
Inv25_II_a.tif
Inv25_II_b_VI.tif
7
Inventarnummern können insbesondere mit Regeln 1 und 6 konfligieren. Sollen Inverntarnummern teil der Dateinamen sein, muss vorab ein praktikabler Kompromiss definiert werden (z.B. römische Ziffern können durch arabische ersetzt werden, Sonderzeichen durch „_“ etc.). Dokumentieren Sie besonders in diesem Fall auch das Format des Dateinamens und teilen Sie uns mit, an welcher Stelle römische Ziffern verwendet werden.
04_obj_54_b_01.tif
iv obj 54/b i.tif
8
Dateinamen von Nutzungsderivaten und Masterdateien sollten in ihren relevanten identifizierenden Teilen identisch sein, sich also nur in Prä- oder Suffixen bzw. Dateiendungen unterscheiden.
Dies erlaubt eine Gruppierung zusammengehöriger Objekte. Die Gruppierung erfolgt musterbasiert und setzt entsprechende Dateinamen voraus.
123_bild001.tif
123_bild001.jpg
master_123_bild001.tif
web_123_bild001.jpg
9
Dateiendungen von gleichen Formaten sollten identisch geschrieben sein.
Die Dateiverarbeitung erfolgt möglichst automatisiert. Die Automatisierung wird dadurch erleichert, dass Dateinamen einem bestimmten formalisierbaren Muster folgen.
tif_25_a_2_il1.tif
tif_25_a_2_il2.tif
tif_25_a_2_il1.tif
tif_25_a_2_il2.tiff