Archiwwwe har tagit fram en metod för att underlätta förvaltning och hantering av inkrementella webbarkiv, kallad Statisk inkrementell metod (SIM). Till skillnad från branschstandarden WARC så är SIM inte beroende av någon mjukvara.

Vad är problemet med WARC?

WARC-formatet är en branschstandard vid webbarkivering, ett filformat där den insamlade webbplatsens samtliga filer lagras. Formatet tillåter också inkrementell insamling (avbilder över tid). Tekniken bygger på att ”spela in” och ”spela upp” webbplatsen med en speciell mjukvara, vilket i sig är en bra teknisk lösning. Webbplatser innehåller inte bara tillgångar för att presentera innehållet (bilder, stilmallar, skript etc.) utan ofta bifogade dokument. Dessa dokument behöver ibland bearbetas och konverteras för att kunna långtidsbevaras.

Och det är just förvaltning som formatet WARC lämpar sig mindre bra för. Formatet kräver en speciell mjukvara för att öppna arkivet. En annan nackdel är att formatet försvårar bearbetning av arkivet. Det finns idag inga enkla metoder för att extrahera filer ur WARC för att analysera dem eller konvertera och uppdatera arkivet.

Behov av en ny metod för lagring av webbarkiv

En branschöverenskommelse är att få beroenden och öppna format skapar en bättre förutsättning för kvalitativa arkiv över tid. Archiwwwe har sedan starten provat och utmanat de rådande standarder och metoder som finns för att kunna leverera en så bra lösning som möjligt. Vi upptäckte tidigt att branschen hittills lagt mest resurser på tekniken för själva insamlandet av webbplatser och inte så mycket på att underlätta förvaltningen.

Det blev extra tydligt att det fanns behov av en ny metod när vi skulle hjälpa våra offentliga kunder att leverera inkrementella webbarkiv till Riksarkivet. Riksarkivet accepterar nämligen inte WARC som leveransformat.

Viktigt när vi utvecklade metoden var möjligheten att förvalta webbarkivet, det vill säga att kunna öppna filerna i arkivet utan speciell mjukvara, kunna bearbeta och uppdatera arkivet. Därför utgick vi från att filerna i arkivet bör lagras i en filstruktur och länka till varandra relativt. Sedan tittade vi på hur vi skulle lösa problematiken med just inkrementella webbarkiv för att undvika dubbletter, det vill säga de filer i arkivet som inte ändrats över tid.

SIM är alltså en metod för att spara och namnge filer, inte en produkt eller ett program. Med metoden kan digitala kanaler insamlas inkrementellt och samtidigt vara tillgängligt för bearbetning (exempelvis konvertering) över tid. SIM är gratis, vem som helst som har tillgång till en dator kan börja använda SIM idag.