Langzeitarchivierung

CDs sind die dümmste Lösung

Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Aufbewahrt werden die Bänder in vollklimatisierten Räumen mit konstanter Temperatur und Feuchtigkeit, die mehrfach gegen alle möglichen Katastrophen abgesichert sind. Sollte es trotz aller Vorsichtsmaßnahmen doch einmal zu einer völligen Zerstörung des Rechenzentrums kommen, bleiben immer noch die Nachbarn: Die wichtigsten Daten werden an das einige hundert Meter entfernte RechenzentrumRechenzentrum der Max-Planck-Gesellschaft in Garching kopiert. Alles zu Rechenzentrum auf CIO.de

Arbeit für Scan-Roboter

Mit der Bayerischen Staatsbibliothek führt das LRZ mehrere gemeinsame Projekte durch. Im Rahmen eines von der DFG geförderten Projektes wird beispielsweise das deutsche Schriftgut des 16. Jahrhunderts eingescannt und archiviert. Hierzu wurden Scan-Roboter beschafft, die im 24-Stunden-Einsatz die Buchseiten automatisch umblättern und einlesen. Die Seiten werden anschließend als Bilddaten im TIF-Format (TIFF) gespeichert. TIFF nutzt man, weil es relativ weit verbreitet und zukunftssicher ist und weil die Farbtreue sehr gut ist. Später sollen die TIFF-Buchseiten per OCR-Software eingelesen werden, um Textpassagen per Volltextsuche zu erreichen.

Mit dem Vorgehen der Staatsbibliothek, Daten als Bilddokumente einzulesen und später per OCR lesbar zu machen, ist man auf der sicheren Seite. Nur so lässt sich mit hoher Gewißheit vermeiden, dass Dokumente irgendwann nicht mehr gelesen werden können, weil der Hersteller die Unterstützung für ein Format aufgekündigt hat.

PDF/A hoch im Kurs

Dennoch ist es in der Praxis meist sinnvoll, Textdokumente in dafür geeigneten Formaten zu archivieren. Hier empfehlen Nestor und andere Forschungsprojekte die Beschränkung auf Standardformate. Erste Wahl sind herstellerunabhängige Standards, die von anerkannten Organisationen wie der ISO oder dem W3C spezifiziert sind, zum Beispiel ASCII, Unicode, SVG und XSL. Einige herstellerabhängige Formate haben sich als Quasi-Standards am Markt durchgesetzt, beispielsweise PDF von Adobe. Die Spezifikation ist ebenfalls frei verfügbar, steht aber unter der alleinigen Kontrolle des Eigentümers.

PDF kommt eine besondere Bedeutung bei der Archivierung zu. 2005 hat die ISO das PDF/A-Format ("A" = Archive) als Standard für die Langzeitarchivierung von Dokumenten zertifiziert. Seitdem wird dieses Format im Markt hoch gehandelt. Viele Hersteller sind bereits von den Vorteilen des PDF/A-Formates überzeugt und haben ihre Produktpalette entsprechend angepasst oder erweitert.

Zur Startseite