Digitoday

Kuinka säilyttää digitieto vuosisatojen päähän?

Julkaistu: , Päivitetty:

Suomessa rakennetaan ennenkuulumatonta järjestelmää digitaalisen tiedon säilyttämiseksi satojen vuosien päähän. Haasteista ei ole pulaa.


Kirjastojen, arkistojen ja museoiden yhteinen digitaalisen tiedon pitkäaikaissäilytys hahmottuu uudessa hankkeessa, jota vetää Tieteen tietotekniikan keskus CSC.

Johtaja Pirjo-Leena Forsström CSC:stä korostaa, että vastaavaa järjestelmää ei ole Suomessa aikaisemmin yritetty rakentaa.

– Tässä on tarkoitus ylevästi sanottuna taata "ikuisesti" ainakin lakisääteisesti säilytettäviksi määrättyjen kulttuuriperintöaineistojen säilyvyys, Forsström hahmottaa. Käytännössä uskalletaan varovasti puhua satojen vuosien säilytyksestä.

Ensimmäinen maailmalta löydetty opetus on, että järjestelmää ei saa rakentaa yhden toimittajan varaan. Saksassa ja Hollannissa vastaavien hankkeiden ongelmana on ollut liika nojailu yhteen laitevalmistajaan.
Mainos (Teksti jatkuu alla)
Mainos päättyy

– Järjestelmätoimittajasidonnaisten ratkaisujen uhkana on, että jos vaikka jonkun ohjelmiston ylläpito loppuu, ei aineistoja saadakaan enää ulos järjestelmästä, Forsström huomauttaa. On myös mahdollista, että valmistajia ei ole enää edes olemassa vuosikymmenten päästä.

Australiassa ja Uudessa-Seelannissa näyttäisi menevän paremmin.

– Uuden-Seelannin ratkaisu on toivottavasti sellainen, että siitä voidaan sanoa kaiken toimivan, Forsström toteaa.

Avointa koodia
aina kun mahdollista

Pitkäaikaissäilytyksen jatkohanke aloittaa siitä, mihin Kansallinen digitaalinen kirjasto (KDK) -hankkeen pitkäaikaissäilytysjaosto lopetti. Esitetylle toimintamallille keskeistä on luotettavuus, kustannustehokkuus ja asiakaslähtöisyys.

KDK-hanke on opetus- ja kulttuuriministeriön alainen. Jaoston loppuraportin liitteessä kuvaillaan suunniteltavan järjestelmän edellytyksiä.

Pitkäaikaistallennuksen ongelman ydin on, miten saada digitaalinen aineisto säilymään tallennusvälineeltä toiselle, tiedostojärjestelmästä toiseen, palvelinympäristöstä toiseen noin sata vuotta tai pidempäänkin.

Samalla tallennusvälineet, laitteet ja ohjelmistot eivät saa koskaan kohdata mitään kohtalokasta virhettä. Ei, vaikka järjestelmän oletetaan varmasti joutuvan hyökkäysten kohteeksi.

Siksi järjestelmässä ei loppuraportin liitteen mukaan saa olla yksittäistä kohtaa, jonka pettäessä koko järjestelmä pettää. Järjestelmän täytyy myös toimia, vaikka tallennusvälineet, ohjelmistot ja laitteistot vaihtuvat tasaisena virtana.

Liitteen mukaan "avoimen lähdekoodin ratkaisuja kannattaa hyödyntää ja suosia kun mahdollista, koska se takaa pitkällä aikavälillä mahdollisuudet ohjelmistojen ylläpitoon ja muokkaukseen yksittäisten toimijoiden mahdollisesta toiminnan loppumisesta huolimatta".

700 teratavua
tallennetta


Digitaalisesti säilytettävä aineisto käsittää eri arkistojen, museoiden ja kirjastojen kokoelmia. Mukana on muun muassa ministeriöiden asiakirjoja, mediataidetta, digitoituja sanomalehtiä ja museoesineiden kuvauksia.

Vuoden 2011 lopussa säilytettävää aineistoa on arviolta kymmenen miljoonaa asiakirjaa, miljoona valokuvaa, 100 000 äänitallennetta, 10 000 elokuvaa, 70 miljoonaa viitetietoa tai kirjastoluettelon nimekettä sekä 400 miljoonaa verkkoarkiston objektia.

Kaikkien tallenteiden koko on yhteensä noin 700 teratavua. Aineiston määrän ennakoidaan kasvavan kovaa tahtia tulevaisuudessa.

Yhteisen pitkäaikaissäilytysjärjestelmän kokonaiskustannukset olisivat 12 ensimmäisen toimintavuoden aikana 42 miljoonaa euroa.

Kustannusarvio perustuu kahteen maantieteellisesti hajautettuun säilytyspisteeseen, joista molemmat sisältävät valmiudet aineistojen vastaanottoon, säilytykseen, käyttöön ja hyödyntämiseen.

Prosessien hiominen
vie vuosia


CSC:n johtama jatkohanke kestää vuoden 2011 loppupuolelle. Pirjo-Leena Forsström toivoo, että järjestelmä olisi toiminnassa parin kolmen vuoden päästä.

– Teknisesti järjestelmää ei ole sinänsä hankala rakentaa levyineen ja kahdennuksineen. Mutta vie aikansa saada toimiviksi kaikki ne prosessit, jotka tuottavat ja varmistavat aineistojen sisällön ymmärrettävyyden säilyvyyden ja eheyden aineistoja tuottavissa organisaatioissa.

Kommentit

    Näytä lisää