Wenn das Internet im Archiv landet

Die österreichische Nationalbibliothek sammelt seit beinahe 500 Jahren alles, was in Österreich publiziert wird. Fast alles. Denn österreichische Online-Medien oder 15 Jahre alte Websites suchte man in der Bibliothek bisher vergebens. Das ändert sich jetzt.

Bücher, alte Handschriften, Zeitungen oder Musikpartituren: die österreichische Nationalbibliothek sammelt seit beinahe 500 Jahren alles, was in Österreich bis dato publiziert wurde. Fast alles. Denn österreichische 15 Jahre alte Websites suchte man in der Bibliothek bisher vergebens. Seit am 1. März 2009 die Mediengesetznovelle in Kraft getreten ist, kümmert sich der nationale Wissensspeicher auch um die digitalen Schätze der Republik. Bei mehr als 800.000 österreichischen Webseiten keine leichte Aufgabe.

"Bis zu viermal pro Jahr wird die Nationalbibliothek die gesamte .at-Domain einsammeln. Von der österreichischen Registrierungsagentur nic.at bekommt die Nationalbibliothek dafür die jeweils aktuelle Liste der registrierten österreichischen Domains", sagt Bettina Kann, Leiterin der Abteilung Digitale Medien der Österreichischen Nationalbibliothek.

Pionierarbeit

Seit Anfang September findet der erste solche Erntegang statt. "Dabei bewegt sich ein spezielles Programm, ein sogenannter Harvester durch das österreichische WWW und legt dabei eine Kopie der österreichischen Seiten ab", erklärt Bettina Kann. Ein solcher Erntegang, fachmännisch auch Crawl genannt, dauert ungefähr drei Monate. Wie groß die Datenmenge sein wird, die so zusammenkommt, bleibt abzuwarten, da bisher niemand weiß, wie groß das österreichische Web eigentlich ist. Bettina Kann schätzt aber, dass ungefähr acht Terabyte pro Crawl anfallen werden. Gespeichert werden die Daten dabei nicht in der Nationalbibliothek, sondern im Bundesrechenzentrum. Ein Backup der Daten landet im Hochsicherheitsdatenspeicher des Bundes in St. Johann im Pongau.

Dreifache Archivierungsstrategie

Das Archivieren von Bits und Bytes ist etwas komplizierter als das von bedrucktem oder beschriebenem Papier, dem sich die Nationalbibliothek normalerweise widmet. Bettina Kann fährt mit ihrem Team deshalb eine dreifache Strategie beim Harvesten: "Parallel zur generellen Domain-Archivierung gibt es ein selektives Harvesting. Ausgewählte Seiten, deren Inhalt mehrmals pro Tag verändert wird, etwa die Webportale von Tageszeitungen, werden in kürzeren Intervallen archiviert."

Darüber hinaus werden spezielle Großereignisse eigens festgehalten. Bisher gab es testweise drei sogenannte Eventharvestings: Im Vorjahr anlässlich der Europafußballmeisterschaft und der Nationalratswahlen. Heuer anlässlich der Wahlen zum EU-Parlament.

Eingeschränkter Zugriff

Nicht erfasst werden von den Harvestern der Nationalbibliothek übrigens dynamische Webseiten. Das sind Seiten, deren Inhalt erst erzeugt wird, sobald sie aufgerufen werden. Beispielsweise das österreichische Netztelefonbuch herold.at. Darüber hinaus verzichtet die Nationalbibliothek auf Inhalte von Audio- und Videoplattformen sowie von Community-Seiten.

Ab 2010 soll schließlich jeder auf das Webarchiv der Nationalbibliothek zugreifen können. Allerdings muss man sich dafür in die Nationalbibliothek, das Staatsarchiv oder in eine der Landes-, und Universitätsbibliotheken bewegen. Der bequeme Zugriff zuhause vom Rechner aus bleibt verwehrt. "Die Gründe dafür sind in erster Linie wirtschaftliche", so Bettina Kann. "Viele Tageszeitungen, die kostenpflichtige Archive führen, fürchten um ihre Einnahmen, wenn die Inhalte genauso gut im Webarchiv abrufbar sind." Nicht zuletzt stellt auch der Datenschutz einen wichtigen Grund dar, den Zugang zur Websammlung einzuschränken. "Private Webseiten, die durch das generelle Domain-Harvesting mitarchiviert werden, wollen wir nicht vollkommen frei und offen zur Verfügung stellen".

Hör-Tipp
Matrix, Sonntag, 13. Dezember 2009, 22:30 Uhr

Link
Österreichische Nationalbibliothek

Übersicht