I den digitala världen råder en rasande entropi. Hårdiskar går sönder och inspelningsbara CD-skivor blir ospelbara på bara några år. All digital media vi visat tillit till visar sig vara opålitliga. Och sedan Internet blivit vårt favoritställe att publicera information har vi valt att inte spara något alls. Archiwwwe tar upp kampen mot vårt digitala sönderfall genom att arkivera webben och tillämpa trippel modulär redundans för digitalt långtidsbevarande.

Webbarkivering skiljer sig från traditionell arkivering

Metoden för att arkivera webbplatser skiljer sig från det traditionella sättet. Filerna hamnar visserligen i en struktur men där slutar likheterna. Till skillnad från ett traditionellt arkiv är en webbplats uppbyggd av sammanlänkat material. Archiwwwe tillämpar kompletta avbilder som metod för att arkivera webbplatsen. Det innebär att vi eftersträvar att komma så nära som möjligt när det gäller upplevelse, disponering och struktur.

Metoden komplett avbild innebär att vi laddar hem hela webbplatsen genom att följa samtliga länkar och spara respektive sida i en mappstruktur. När detta är gjort uppdaterar vi samtliga länkar så att de blir relativa.

Det var bättre förr!

Traditionellt arkiverat historiskt material finns för oss att ta del av och uppfattas som en självklarhet. Men hur är det med den information som publicerades för femton år sedan på Internet? Tar vi exemplet med en hundra år gammal dagstidning och jämför vad man kan hitta för femton år sedan är skillnaden slående. I det hundra år gamla arkivet kan vi ta del av exakt hur Dagens Nyheter såg ut. Den nyare digitala kopian är ofullständig och ser inte alls ut som den gjorde vid arkiveringstillfället.

Datainsamling eller kompletta avbilder?

Metoderna för att arkivera en webbplats har varierat något under de senaste 20 åren. I början av Internets historia var webbplatserna i regel inte så komplicerade, innehöll mindre information och uppdaterades mer sällan. Metoden då kunde vara att kopiera eller skärmdumpa dem för hand eller skriva ut dem och sätta in dem i en pärm. Idag är läget raka motsatsen. Webbplatserna är stora, komplicerade, uppdateras frekvent och är omöjliga att arkivera manuellt.

Idag är de två vanligast förekommande metoderna datainsamling och kompletta avbilder. Det finns för- och nackdelar med bägge metoderna.

Datainsamling

Denna metod innebär att man läser in text och tillhörande bild eller media separat, oftast i artiklar eller sidor. Ett vanligt format som används är XML. Med denna metod är det enklare att bearbeta, lagra informationen över tid och bygga mjukvaror som hjälper användaren söka i arkivet. Arkiven blir också i regel mindre då man inte behöver spara det övriga på webbplatsen för att presentera hur den såg ut.

En nackdel med denna metod är just att man inte får en bild av hur webbplatsen såg ut vid tillfället då den arkiverades. Man missar också med denna metod hur informationen var strukturerad. Denna metod kräver också en mer omfattande gallring.

Kompletta avbilder

Med kompletta avbilder är avsikten att komma så nära som möjligt hur webbplatsen såg ut vid arkiveringstillfället. Varje sida sparas inklusive texter, bilder, design, färger, media, stilmallar och typsnitt. Fördelen med denna metod är att den liknar mer en traditionell arkivering där man förutom all information bevarar tidsandan. Archiwwwe använder denna metod.

Nackdelen med denna metod är att förutsättningarna för att kunna spara ner alla beståndsdelar ändras i takt med att webbplatserna blir mer komplexa. Detta innebär en kontinuerlig utveckling av arkivsystemen.

Långtidsbevarande, vad innebär det?

Lång tid i den digitala världen är inte århundraden utan fem år i taget. Att långtidslagra digitala filformat kräver aktiv omsorg. Viktigt är att säkerställa att de är kompatibla med de standarder som gäller nu och fem år framåt. Om fem år så kan de format som ett arkiv idag innehåller behövas konverteras till de format som gäller då.

Ytterligare en utmaning är att all digital media är relativt illa rustad för långtidsbevarande. Hårddiskar, magnetband, optiskt media är inte vidare lämpade för långtidsbevarande, de tappar ofta information under en fem- till tioårsperiod.

Den enda nu kända metoden för att kunna bevara digitalt material över tid är att hela tiden kopiera arkiven till nya lagringsmedia och kontinuerligt med två års intervall kontrollera så att arkiven är intakta. Archiwwwe använder en metod kallad trippel modulär redundans för att just säkerställa arkiven över tid.