Digitaalajastu on toonud kaasa olulise nihke asutuste tööprotsessides, liikudes füüsiliste dokumentide põhiselt süsteemilt üha enam andmehalduskesksele lähenemisele. See areng ei väljendu pelgalt paberdokumentide hulga märkimisväärses kahanemises, vaid ka kasvavas vajaduses andmeid efektiivsemalt korrastada, talletada ja töödelda. Nii on tihti kogu info killustunud andmebaasi tabelite ja väljade rägastikku.
Asutuste liikumine dokumendihalduselt andmehaldusele on sundinud ka Rahvusarhiivi täiesti teistmoodi mõtlema hakkama. Lisaks tuttavale pabermaterjali süstematiseerimistööle on tulnud välja nuputada, kuidas vastu võtta terve andmebaas.
Kuidas jõuab andmebaas arhiivi?
Levinuim lahendus on arhiveerida infosüsteemist ainult andmed, teisendades need konkreetse andmebaasimootori spetsiifilisest vormingust avatud arhiivivormingusse. Lisaks andmetele koostatakse arhiivikirjeldused – et oleks võimalik andmeid arhiivist leida – ja kogutakse infosüsteemi dokumentatsioon – et oleks võimalik andmeid mõista. Kasutajaliidese tarkvara asemel arhiveeritakse videosalvestis, kus süsteemi hästi tundev isik teeb kasutajaliideses tüüpilisi toiminguid (nt otsingud, andmete sirvimine) ja kommenteerib oma tegevust. Salvestise eesmärk on anda tuleviku arhiivikasutajale ettekujutus süsteemi toimimisest ja andmete esitusest algses kontekstis.
Andmete arhiveerimiseks kasutab Rahvusarhiiv vormingut nimega SIARD (Software Independent Archiving of Relational Databases), mille lõi Šveitsi Föderaalarhiiv 2004. aastal ja mida nüüdseks kasutatakse enamikus võimekatest arhiiviriikidest. SIARD on XML vormingus tekstifail, mis on universaalselt loetav nii masinale kui ka inimesele. See sisaldab märgendeid tabelite ja seoste kirjeldustega ning andmeid arhiveeritud andmebaasist. Selline esitusviis kõrvaldab riski, et andmebaasis olevad andmed mõne tarkvaratoote käibelt kadumise tõttu loetamatuks muutuksid.
Mis teeb andmebaasi arhiveerimise keeruliseks?
Relatsioonilised andmebaasisüsteemid korraldavad inimese jaoks andmeid keerukalt. Näiteks liiklusregistri andmed on jaotatud eri tabelitesse: sõidukid, isikud ja kindlustuspoliisid on kõik eraldi. Iga tabel on omavahel seotud: näiteks “sõiduk” tabel on seotud “omanik” ja “kindlustuspoliis” tabelitega. Selline ülesehitus aitab vältida andmete kordamist. Kuigi see süsteem töötab hästi andmete haldamiseks, muudab see andmete sirvimise keerulisemaks. Kui keegi tahab teada, millises firmas Kati Karu oma autot kindlustab, tuleb läbi vaadata andmed neljast erinevast tabelist.
Seda tegevust aga hõlbustab DBPTK (Database Preservation Toolkit) ehk andmebaaside arhiveerimise tarkvaraline tööriistakast. Lisaks andmebaaside teisendamisele SIARD vormingusse annab see võimaluse kuvada diagrammi, kus ringikestena on kujutatud tabelid ja ringide-vaheliste joontega on kuvatud tabelite seosed. Ringil klikkides saab avada vastava tabeli andmed ning klikitava lingina on kuvatud ka viited teistele tabelitele. Seega võimaldab DBPTK hõlpsasti saada ülevaate andmebaasi struktuurist ning arhiveeritud andmetest.
Teine keerukus on see, et andmebaasid on tavaliselt loodud praeguste, mitte ajalooliste andmete haldamiseks. Kui soovitakse jälgida andmete arengut või muutumist ajas, tuleb luua andmebaasi erinevate ajahetkede tõmmised. Kuna iga tõmmis on justkui eraldi andmebaas, mis peegeldab andmeid konkreetse hetke seisuga, siis nende võrdlemine ja analüüs nõuab manuaalset tööd. Kasutaja peab iga tõmmise eraldi läbi vaatama ja huvipakkuvad andmed käsitsi välja võtma. Seejärel tuleb need andmed viia kokku ja analüüsida, et mõista andmete dünaamikat läbi aja. See protsess võib olla aeganõudev ja keerukas, eriti suurte andmekogumite puhul.
Rahvusarhiivi kogemus
Andmebaase on Rahvusarhiiv arhiveerinud aastast 2004. Kokku on hetkel Rahvusarhiivis hoiul 12 erinevat andmekogu, sealhulgas põllumassiivide registrist on tehtud erinevatel aegadel kolm erinevat koopiat ehk tõmmist. Rahvusarhiivis säilitatakse nii neid andmekogusid, mis enam ei tegutse (näiteks Hooneregister), kui ka neid, mis on endiselt aktiivsed (näiteks Ehitisregister).
Arhiiviväärtuslikuks on kuulutatud veidi alla 100 andmebaasi. Selleks, et neis olevaid andmeid säilitada, tuleks teha neist arhiivikoopia vähemalt kord iga viie aasta tagant, mis tähendab vähemalt 14 vastuvõttu aastas.
Kõige tõhusam on Rahvusarhiiviga oma arhiiviväärtusliku andmekogu arhiveerimise ajakava kokku leppida ning lisada arhiveerimine asutuse tööplaani. Planeeritud projektina võtab arhiveerimine enamasti 1-3 nädalat ja üleandmiseks kulub oluliselt vähem ressursse.