• Technologie

Surfen im Datenmeer

Datenspeicherung und Schutz vor Datenverfall

27. Februar 2017

Von Datenverfall (d. h. dem Umstand, dass Daten durch Beschädigung unbrauchbar werden können) bleibt kaum jemand verschont: Speichermedien unterliegen einem Alterungsprozess. Bei Kopierfehlern drohen Datenverluste. Die Sicherung von Computerdaten für künftige Generationen ist eine fortlaufende Herausforderung für die Menschheit. Erfahren Sie mehr über die Problematik der Datenspeicherung und des Datenverfalls und was man dagegen tun kann.

Entwicklung der Speicherkapazität

Woher kommt nur diese Masse an Daten? Schon immer hatte der Stand der Technik einen wesentlichen Einfluss auf die Datenmenge, die zu einer bestimmten Zeit aufbewahrt wurde. Dies wird deutlich, wenn man die Entwicklung von Datenträgern und das Wachstum der Speicherkapazität im Laufe der Jahrhunderte betrachtet.

Tontafeln: die ältesten noch erhaltenen DatenträgerNach heutigem Wissensstand findet man die ältesten noch erhaltenen Schriften auf sumerischen Tontafeln, die vor 5000 Jahren von Tempelbeamten zur Aufzeichnung von Handelsgeschäften angefertigt wurden. 1 Die Informationsmenge, die auf diesen Tafeln untergebracht werden konnte, war relativ gering. Allerdings liegt die Langlebigkeit dieser frühesten Datenträger deutlich über der Lebensdauer heutiger Medien.
Papyrus und Papier: leicht verwendbar, doch wenig haltbarMit den ersten Schriften auf Papyrus in Ägypten und auf Papier in China wurden neue faserbasierte Materialien eingeführt. Bei sachgemässer Lagerung erwiesen sie sich als äusserst langlebig. Doch in einem feuchteren Klima waren sie anfällig für Schimmelbefall und drohten, innerhalb weniger Jahrzehnte zu zerfallen. Als weitere Gefahren lauerten Brände, Bücherwürmer und Säuren, die in bestimmten Fällen das Material von innen heraus zerstörten.
Die Industrialisierung als LochkartenzeitalterMit der industriellen Revolution mussten zunehmend grössere Datenmengen verarbeitet werden. Die traditionellen Mittel zur Erfassung von Informationen stiessen dabei an ihre Grenzen. 1725 wurden zur Steuerung von Webstühlen erstmals gelochte Papierstreifen eingesetzt. Später wurden Lochkarten ganz allgemein zur Speicherung von digital codierten Daten verwendet und waren trotz ihrer begrenzten Speicherkapazität bis in die 1970er-Jahre in Gebrauch.
Vom Mikrofilm über Magnetbänder zur DisketteIn den 1920er-Jahren hielt der Mikrofilm Einzug. Ein weiterer Sprung erfolgte mit der Erfindung des Magnetbands. IBM Computer nutzen ab den 1950er-Jahren Magnetbänder, die bald schon zum faktischen Standard der Branche in Sachen Datenspeicherung wurden. Auch heute finden sie wegen Ihrer hohen Kapazität breite Verwendung. Die Lebensdauer des einzelnen Magnetbandes beträgt etwa 10 bis 20 Jahre. 2 Magnetspeicher wurden in der Folgezeit für die unterschiedlichsten Aufzeichnungsformen wie Musikkassetten oder Disketten genutzt.
Festplatten-Laufwerke, Flash- und Solid State SpeicherParallel zu den leicht transportierbaren Speichermedien kamen ab 1956 die ersten Festplatten-Laufwerke auf. In der Anfangszeit bestanden sie aus 50 Magnetplatten mit einem Durchmesser von je 60 Zentimetern und einer Kapazität von je 5 MB. Heutige Festplatten im handlichen 2,5-Zoll-Format passen hingegen in jede Jackentasche und können Terabytes an Daten aufnehmen. Die ersten 2001 eingeführten USB-Flashspeicher hatten eine Kapazität von 8 MB, während heute mit der sehr ähnlichen Solid State Drive (SSD) Technologie bereits der Terabyte-Bereich erreicht wird.
Optische Speichermedien für umfangreiche Datenmengen1980 wurde die erste Compact Disc (CD) vorgestellt, auf der digitale Daten optisch gespeichert wurden. Weitere Entwicklungsschritte dieser Technologie waren die DVD 1995 und die Blu-ray Disc 2003, welche mittlerweile 25 GB und mehr speichern kann. Die optische Speicherung hat trotz ihrer Kapazität eine hohe Anfälligkeit für Kratzer, Sonnenlicht und Temperaturschwankungen, sodass die Lebensdauer zwischen 2 und 25 Jahren variiert.
Datenspeicherung in der CloudNeben der physischen Datenspeicherung ist mittlerweile die Speicherung in der Cloud, also in einer Datenwolke, zum Standard geworden. Dabei werden Daten auf mehreren von Dritten betriebenen Servern gespeichert. Damit findet zwar auch in der Cloud eine physische Speicherung statt. Da diese jedoch nicht vor Ort erfolgt und der Zugriff nur über das Internet möglich ist, spricht man von einer Datenwolke im Unterschied zur klar lokalisierten Speicherung. Zum Durchbruch gelangte die Cloud-Speicherung mit der Einführung der ersten Cloud-Dienste durch Amazon im Jahr 2006, gefolgt von Dropbox 2007.

Unendliches Wachstum der Speicherkapazitäten? – Mooresches Gesetz

1965 postulierte Gordon Moore, einer der Gründer von Intel, dass sich die Anzahl der Transistoren in einem Schaltkreis etwa alle zwei Jahre verdoppelt. Eine ähnliche Entwicklung hat sich in der Folge auch für die erreichten Speicherdichten bestätigt: Die Kapazität von Datenträgern ist dramatisch gewachsen, während die Größe der Speichermedien immer weiter geschrumpft ist. Wenngleich dieser Trend in den vergangenen Jahren stagnierte, scheint die digitale Zukunft dennoch endlose Möglichkeiten bereitzuhalten.

Die Entwicklung der Speicherkapazitäten anhand ihrer FlächendichteFlächendichte in MB/in², 1951 – 2016

Der Blick nach vorne: Datenverfall in der Zukunft

Die heutige wissenschaftliche Forschung versucht, Lösungen zu finden, um den Datenverfall zu stoppen und die Haltbarkeit der Datenträger zu verlängern. Bei der holografischen Speicherung werden Daten beispielsweise in winzigen Hologrammen gespeichert, die in mehreren Schichten angeordnet sind. 3 Ein noch extremeres Szenario sieht die Codierung eines einzelnen Bits in einem quantenmechanischen System wie einem Elektron vor, das von einem Quantencomputer gelesen werden kann. Auch die Haltbarkeit von Daten ist Gegenstand der Forschung. So entdeckten Wissenschaftler der University of Southampton eine Möglichkeit, um Daten in fünf Dimensionen auf einem nanostrukturierten Glas zu speichern, das Milliarden Jahre überdauern könnte. 4 Ähnlich futuristische Forschungsarbeiten werden an der ETH Zürich durchgeführt, wo es gelungen ist, Daten in der Form von DNA zu codieren und sie damit quasi für die Ewigkeit aufzubewahren. 5

Wie die Geschichte zeigt, ist die Entwicklung der Datenspeicherung vielschichtig und von raschen Veränderungen geprägt. Die Frage, die es zu beantworten gilt, bleibt jedoch stets die gleiche: «Wie kann ich meine Daten so einfach wie möglich und so lange wie nötig speichern?» Letztlich sind die Daten – genauso wie alle Datenträger – von Menschen gemacht und damit auch vergänglich. 6

Viele Kopien machen Daten sicher

…So wollen wir das, was geblieben ist, […] durch möglichst viele Abschriften sichern und sie so aufbewahren, dass sie vor Unfällen sicher sind. 7

— Thomas Jefferson über den Verlust von Dokumenten in einem Brief vom 18. Februar 1791

Moderne Datenträger haben sich bei der Aufbewahrung von Informationen in vielfältiger Weise als sehr hilfreich erwiesen. Dennoch ist die Gefahr des Verlusts wichtiger Daten für die Menschheit nicht gebannt, denn viele Daten liegen nur in digitaler Form vor und können nur mit der jeweils passenden Technologie wieder nutzbar gemacht werden. Im Kampf gegen den Datenverfall wurden Informationen praktisch seit Erfindung der Schrift immer wieder auf neuere und noch modernere Speichermedien übertragen. Um die so erhaltenen Daten nutzen zu können, ist aber mehr nötig: Geeignete Software zur Wiedergabe muss vorhanden sein sowie grundlegende Angaben dazu, um was für Daten es sich handelt.

Theoretisch sollten digitale Daten unverwundbar sein. Damit wiegen wir uns jedoch in falscher Sicherheit. Häufig glaubt man, was digital ist, sei sicher. Doch auch moderne Datenträger sind nicht gegen Zersetzung und Zerfall gefeit. Oft sind sie sogar noch anfälliger dafür als Papier und ihre Nutzung ist viel stärker abhängig von bestimmten Technologien.

Eine Geschichte von Datenverlust und ‑wiederherstellung an der ETH Zürich

Jeder hat es schon erlebt: Datenträger werden älter, und Daten gehen in der einen oder anderen Form verloren. Von den Urlaubsbildern wurde keine Sicherheitskopie gemacht, und die VHS-Kassette lässt sich nicht mehr abspielen. Ein öffentliches Beispiel, das in einem kürzlich erschienenen Artikel diskutiert wurde 8 , stammt von der Gruppe für terrestrische Ökosysteme 9 an der ETH Zürich unter der Leitung von Professor Andreas Fischlin. 10 Ihre interdisziplinäre Forschung nutzte verschiedene Datenquellen. Dadurch musste die Gruppe bei der Verwaltung ihres Forschungsprojekts besondere Herausforderungen bewältigen. Ein wesentliches Thema waren die laufenden Feldmessungen, die seit 1949 im Rahmen eines Projekts zur Beobachtung von Raupen des Lärchenwicklers – eines Schmetterlings - über die gesamte Länge der Alpen durchgeführt wurden. 11 Seit das Projekt ins Leben gerufen wurde, wurden konsequent die modernsten verfügbaren Methoden der jeweiligen Zeit genutzt. So wurden die gesammelten Daten im Laufe der vergangenen Jahrzehnte auf Datenträgern wie Lochkarten, Papierbändern, Magnetband-Kasetten etc. gespeichert. Ende der 1970er-Jahre wurde eine projekteigene Datenbank entwickelt. Der hohe Personaleinsatz und die hohen Kosten für die Verlagerung des Datenbanksystems auf einen modernen Host führten jedoch zu seiner Einstellung.

Vorsicht! Modernste Technologie ist noch kein Garant für Erfolg!

— Prof. Fischlin, 2016
Photographie des Lärchenwalds bei Sils (Engadin, Schweiz, 1981), mit LärchenwicklerbefallPhoto, Prof. Andreas Fischlin, ETH Zürich; Glitch-Kunst, Will Crook

Trotz bester Absichten und Planungen machte der Datenverfall es den Forschern aufgrund von «Software-Erosion» - also eines schrittweisen Veraltens der benötigten Software - schliesslich unmöglich, gewisse Daten wieder korrekt aufzurufen. Letztlich konnte die Mehrzahl der Daten nur noch in Rohform gerettet werden. Einer der Hauptgründe für den Datenverlust ist nach Ansicht von Professor Fischlin die Alterung der Speichermedien:

Materialalterung ist schwer prognostizierbar. Die Materialwissenschaften müssen die Haltbarkeit verschiedener Speichermedien auch mit Blick auf den Datenerhalt weiter erforschen, denn dafür sind andere Eigenschaften gefragt als im täglichen Gebrauch.

— Prof. Fischlin, 2016

Was darüber hinaus nötig ist, um die vorhandenen Daten auch nutzbar zu halten, hängt von ihren genauen Eigenschaften ab. Wird vielleicht eine bestimmte Software benötigt oder gibt es anderswo wichtige Informationen zum Verständnis? Solche Abhängigkeiten müssen für eine spätere Nutzung bekannt sein.

Die Geschichte ging für die Gruppe für terrestrische Ökosysteme an der ETH Zürich dennoch weitgehend gut aus: Mit viel Zeit- und Personalaufwand konnten die meisten Daten wiederhergestellt werden. Einige Teile sind allerdings noch immer nicht lesbar, weil die Hardware, die zum Lesen der Datenträger benötigt wird, nicht mehr verfügbar ist und daher individuelle Lösungen entwickelt werden müssen. Die Arbeiten sind daher noch nicht abgeschlossen.

Leistungen der ETH-Bibliothek im Bereich Datenerhalt

Die Erhaltung der langfristigen Auffindbarkeit und Nutzbarkeit von relevanten Daten an der ETH Zürich und die Unterstützung der Mitarbeitenden und Forschenden bei der Nutzung und Erhaltung ihrer Daten sind wesentliche Aufgaben der Fachstelle Digitaler Datenerhalt an der ETH-Bibliothek. Mit dem ETH Data Archive bietet die ETH-Bibliothek eine Infrastruktur für die mittel- und langfristige Erhaltung von digitalen Daten. Die Fachstelle Digitaler Datenerhalt ist dabei Ansprechpartnerin für technische und konzeptionelle Fragen zur elektronischen Langzeitarchivierung und zum Datenmanagement. Darüber hinaus unterstützt sie die Forschenden bei der Verwaltung und Veröffentlichung ihrer Daten sowie bei der Umsetzung der Vorgaben der Richtlinien für Integrität in der Forschung an der ETH Zürich. 12 Auch wenn es um die Auswahl des am besten geeigneten Dateiformats geht, kann man sich bei der Fachstelle beraten lassen. Damit ist sie Teil eines wachsenden Netzwerks von Institutionen, die es braucht, um dem Datenverfall Einhalt zu gebieten.

Sechs einfache Tipps für die sichere Datenaufbewahrung

Wie lässt sich die Gefahr von Datenverlusten bannen? Ein wichtiger erster Schritt besteht darin, diese sechs Tipps zu befolgen.

1. Organisieren und standardisieren

Richten Sie Datei- und Ordnerstrukturen ein, die für die Anwenderinnen und Anwender gut funktionieren und daher konsequent verwendet werden.

2. Identifizieren

Entscheiden Sie, welche Dateien unbedingt zu erhalten sind.

3. Automatische Sicherungen

Erstellen Sie automatische Sicherungskopien, die sowohl lokal als auch ausserhalb des eigenen Standorts aufbewahrt werden.

4. Haltbarkeit feststellen

Wer die Haltbarkeit seiner Datenträger kennt, kann die Daten rechtzeitig auf einen neuen Datenträger kopieren.

5. Einfache Tools verwenden

Einigen Sie sich für die Zusammenarbeit auf einfache Workflows und Sicherungstools. Vergessen Sie dabei nicht die Dokumentation des Daten-Kontextes: Um was für Daten handelt es sich?

6. Offene Dateiformate verwenden

Verwenden Sie offene Dateiformate, und komprimieren Sie die Daten nicht, denn nur so ist eine Kompatibilität mit unterschiedlichen Betriebssystemen gewährleistet.
  1. Lerner F (2009) The story of libraries: from the invention of writing to the computer age. 2nd ed. New York: Continuum. ↩︎
  2. https://www.clir.org/pubs/reports/pub54/4life_expectancy.html ↩︎
  3. https://mozy.com/infographics/the-past-present-and-future-of-data-storage/ ↩︎
  4. Zhang J, Čerkauskaitė A, Drevinskas R, et al. (2016) Eternal 5D data storage by ultrafast laser writing in glass. 9736: 1–16. ↩︎
  5. Grass RN, Heckel R, Puddu M, Paunescu D, Stark WJ: Robust Chemical Preservation of Digital Information on DNA in Silica with Error-Correcting Codes. Angewandte Chemie International Edition, 54, 8, 2552,-2555, DOI: 10.1002/anie.201411378 ↩︎
  6. Smith Rumsey A (2016) When We Are No More How Digital Memory Is Shaping Our Future. Bloomsbury Press. ↩︎
  7. National Archives (2016) From Thomas Jefferson to Ebenezer Hazard, 18 February 1791. Founders Online. Abrufbar auf: http://founders.archives.gov/documents/Jefferson/01-19-02-0059 (Zugriff am 12. Juli 2016). ↩︎
  8. Ana Sesartic, Andreas Fischlin, Matthias Töwe (2016): Towards Narrowing the Curation Gap—Theoretical Considerations and Lessons Learned from Decades of Practice ISPRS Int. J. Geo-Inf. 5: 6. 91. ↩︎
  9. http://www.sysecol.ethz.ch/ ↩︎
  10. http://www.sysecol.ethz.ch/people/afischli ↩︎
  11. Baltensweiler, W.; Fischlin, A. The larch bud moth in the Alps. In: Dynamics of Forest Insect Populations: Patterns, Causes, Implications; Berryman, A.A., Ed.; Plenum Publishing Corporation: New York, NY, USA, 1988; Volume 1, pp. 331–351. ↩︎
  12. https://www.ethz.ch/content/dam/ethz/main/research/pdf/forschungsethik/Broschure.pdf ↩︎