Startsida - Om oss - Teknik

Teknik för arkivarier

Att arkivera digital information blir mer och mer utmanande i takt med att mängden information kontinuerligt ökar. Vi använder oss av molnbaserad ”harvesting”-teknik som följer länkar, sparar all publicerad information inkrementellt och konverterar filerna till format för långtidsbevarande. Vi har också tagit fram en metod för att underlätta förvaltning och hantering av inkrementella webbarkiv, kallad Statisk inkrementell metod (SIM).

1.3

Introduktion

Filosofin bakom tekniken i Archiwwwe är att minska antalet beroenden i så många led som möjligt. Vår miljö är placerad inom Sveriges gränser hos City Networks och är skalbar. Archiwwwe är en molntjänst (SaaS) och ställer inga mjukvarukrav på dina system. Det ställs inte heller några krav på insatser från er interna IT-avdelning. Arkiven är åtkomliga via webbläsare där du kan söka och hitta den information du önskar.

1.3.1

Genomsökning, struktur och bearbetning

Vår mjukvara söker igenom och sparar allt innehåll som är publikt och åtkomligt på den angivna URL:en. När alla sidor är sparade konverteras samtliga länkar för att återspegla webbplatsens struktur.

http://www.domän.se/kategori/sida
file://www.domän.se/kategori/sida/index.html

Filerna som skapas är oberoende av mjukvara och kan öppnas i en vanlig webbläsare. Ovan visas hur strukturen speglas när den är sparad.

1.3.2

Filformat för långtidsbevarande

En av de stora utmaningarna är att kontinuerligt konvertera filer och dokument till format som går att öppna i framtiden. Därför följer Archiwwwe de framtagna rekommendationerna och standarder för långtidsbevarande som finns idag.

Många webbplatser idag innehåller filer som vi måste konvertera till ett lämpligt format. Exempel på filformat för kontorsfiler som uppfyller kraven för långtidsbevarande är PDF/A (ISO 19005) och ODF (ISO 26300). Se ytterligare information om filformat för långtidsbevarande.

1.3.3

Styrker autenticiteten med kontrollsiffra

För att styrka autenticiteten av ett arkiv och kunna bevisa att arkivet inte har manipulerats förser vi arkivet med en kontrollsumma (med algoritmen SHA-1, en kryptografisk hash-funktion). Om minsta ändring görs i arkivet kommer kontrollsumman inte stämma och arkivet inte validera.

Därför behåller vi alltid originalet när vi konverterar filer. På så sätt behålls spårbarheten och arkivets autenticitet kan styrkas. Med denna metod kan man kontrollera ett datum och innehållet i en fil som sparats i ditt arkiv. Med samma metod kontrollerar vi hela arkivet så att ingen fil har ändrats sedan avbildningen.

1.3.4

Låser inte in kunden

Du kan när som helst begära uttag av ditt arkiv. Som standard levereras arkivet i en filstruktur med statiska filer som motsvarar den ursprungliga strukturen. Du kan välja mellan ett statiskt inkrementellt arkiv utan dubbletter (SIM-metoden), eller ett arkiv med separata fristående avbilder från varje insamlingstillfälle. Vi kan även leverera arkiv i WARC-format, men det kräver att du har en speciell mjukvara för att kunna öppna arkivet.

2.1.1

Lagringsmetod för webbarkiv

WARC-formatet är en branschstandard vid webbarkivering, ett filformat där den insamlade webbplatsens samtliga filer lagras. Formatet tillåter också inkrementell insamling (avbilder över tid). Tekniken bygger på att ”spela in” och ”spela upp” webbplatsen med en speciell mjukvara, vilket i sig är en bra teknisk lösning.

Webbplatser innehåller inte bara tillgångar för att presentera innehållet (bilder, stilmallar, skript etc.) utan ofta bifogade dokument. Dessa dokument behöver ibland bearbetas och konverteras för att kunna långtidsbevaras.

Och det är just förvaltning som formatet WARC lämpar sig mindre bra för. Formatet kräver en speciell mjukvara för att öppna arkivet. En annan nackdel är att formatet försvårar bearbetning av arkivet. Det finns idag inga enkla metoder för att extrahera filer ur WARC för att analysera dem eller konvertera och uppdatera arkivet.

2.1.2

Egenutvecklad metod för statisk inkrementell lagring (SIM)

En branschöverenskommelse är att minskade beroenden och öppna format skapar en bättre förutsättning för kvalitativa arkiv över tid. Archiwwwe har sedan starten provat och utmanat de rådande standarder och metoder som finns för att kunna leverera en så bra lösning som möjligt. Vi upptäckte tidigt att branschen hittills lagt mest resurser på tekniken för själva insamlandet av webbplatser och inte så mycket på att underlätta förvaltningen.

Det blev extra tydligt att det fanns behov av en ny metod när vi skulle hjälpa våra offentliga kunder att leverera inkrementella webbarkiv till Riksarkivet. Riksarkivet accepterar nämligen inte WARC som leveransformat. Viktigt när vi utvecklade metoden var möjligheten att förvalta webbarkivet, det vill säga att kunna öppna filerna i arkivet utan speciell mjukvara, kunna bearbeta och uppdatera arkivet.

Vi utgick från att filerna i arkivet borde lagras i en filstruktur med relativa länkar till varandra. Sedan tittade vi på hur vi skulle lösa problematiken med inkrementella webbarkiv för att undvika dubbletter, det vill säga de filer i arkivet som inte ändrats över tid.

SIM är en metod för att spara och namnge filer, inte en produkt eller ett program. Med metoden kan digitala kanaler insamlas inkrementellt och samtidigt vara tillgängligt för bearbetning (exempelvis konvertering) över tid. SIM är gratis, vem som helst som har tillgång till en dator kan börja använda SIM idag.

Ladda hem vitbok om SIM (the Static Incremental Metod), engelska