Pitkäaikaistallennus CSC - Tieteen tietotekniikan keskus IT2008 Ari Lukkarinen
Mitä on pitkäaikaistallennus? Tiedon tallennuksen aikajänne ylittää tallennusjärjestelmän sekä laite-että ohjelmistokomponenttien eliniän. (10 - vuotta). Uuden (IT) ja vanhan (arkistointi) tieteenalan yhdistävä ongelma.
Miksi juuri nyt? Tallennuskapasiteetti on halventunut ja mahdollistaa kaiken aiemmin arkistoidun tiedon tallentamisen digitaaliseen muotoon. Analogisen materiaalin informaatio saadaan turvaan digitaaliseen muotoon. Osa uudesta tallennettavasta aineistosta on syntytavaltaan digitaalista.
Haasteita - pieni ympäristö Pitkäaikaistallennus ei ole vain suurten organisaatioiden ongelma! Tallennusjärjestelmät ovat epäluotettavia eivätkä ne huomaa vikaantumisia. Käyttäjät tekevät virheitä. Media ja formaattiongelmat ovat hankalia. Kuinka informaatio on käytettävissä?
Moderni piironginlaatikko? Käyttäjä Verkkopalvelin Backup Säännölliset varmistukset. Säännöllinen eheyden tarkistus Helppokäyttöinen! Osat helposti vaihdettavissa.
Haasteita suurissa ympäristöissä Pitkäaikaistallennus ei ole vain pienten organisaatioiden ongelma! Tallennusjärjestelmät ovat epäluotettavia eivätkä ne huomaa vikaantumisia. Käyttäjät tekevät virheitä. Formaattiongelmat ovat hankalia. Käytettävyys? Datamigraatiot ovat hyvin haastavia.
Tallennusjärjestelmät epäluotettavia? Helppo tapaus, luku ei onnistu Kovalevyilla todennäköisyys, jolla luku ei onnistu on suuri verrattuna levyjen kokoon. (Non-recoverable Read Error 1 sector in 10^14 bits) Nauhamedialla vastaava todennäköisyys on pienempi.
Tallennusjärjestelmät epäluotettavia? Virtualisoitu Palvelin Käyttäjärjestelmä Tiedostojärjestelmä Virtualisointialusta Muisti Käyttöjärjestelmä Tiedostojärjestelmä Väylät Adapteri Moduli Moduli Kontrolleri Moduli Tallennusverkko Kovalevy Moduli
Tallennusjärjestelmät epäluotettavia? Kukaan ei pysty takaamaan toiminnan virheettömyyttä!!!! Mitä voidaan tehdä? Suunnittelun lähtökohdaksi epävarmuus. Tarkistukset mahdollistettava joka tasolla järjestelmää. Tiedostojärjestelmätason tarkistukset koko tallennusketjun läpi. Levyjärjestelmien kehityttävä!! Data on monistettava useaan keskukseen!
Levyjärjestelmät Tallennuskapasiteetti täytyisi jakaa objekteina blokkien sijasta, koska se mahdollistaisi älyn lisäämisen levyjärjestelmiin. o Sisäisen HSM toiminnallisuus o Objektin eheyden tarkistus o Automaattiset hakutoiminnot o Datamigraatiot helpottuisivat. o Hallinnan yksinkertaistuminen. Vaatii suuria muutoksia!!!
Kuinka luotettavia valmistajat ovat? Toimittajan kvarttaali 0.25 v Median kaupallinen elinikä 2v Palvelimen/käyttöjärjestelmän tekninen elinikä 5v Median käytännön elinikä 5v Ohjelmiston elinikä 10v Nauhamedian elinikä 20-50v Kuinka pitkälle tulevaisuutteen toimittajan perspektiivi oikeasti ylettyy?
Haasteita - Inhimilliset virheet Voivat olla tahattomia tai tahallisia. Ylläpitäjiltä on hankala suojautua. Jotaín on kuitenkin mahdollista tehdä o Häviöttömät mediat (WORM) o Medioiden säännölliset siirrot keskuksen ulkopuolelle o Datan hajautus useaan keskukseen
Haasteita - Dataformaatit Dataformaatteja on erittäin paljon. Niiden elinikä ja käytön laajuus vaihtelee. Alkuperäinen formaatti on todennäköisesti säilytettävä mutta tarvitaan myös standardiformaatteja. Formaattimuunnoksia tarvittaneen, mutta se on erittäin riskialtista. Milloin valmistuu ensimmäinen data-arkeologi?
Haasteita - käytettävyys Kuinka oikea informaatio löydetään? Kuvaus siitä, mihin data liittyy ja kuinka se on tuotettu. Metadataa... Standardi metadata sekä datan standardiformaattit tullaan jatkossa vaatimaan myös tieteelliseltä datalta. Mahdollisuus parantaa tuotetun tai mitatun informaation laatua!
Haasteita - datamigraatiot Migraatiot ovat riskialttein osa pitkäaikaistallennusta! Migraatiot ovat välttämättömiä, koska tallennusmediat, käyttöjärjestelmät, tallennusohjelmat, sekä myös datakeskus vaihtuvat. Palvelukatkoa vaatimattomat datamigraatiot olisi saatava vakiotoiminnoksi tallennusympäristöön.
Datakeskukset Data on monistettava useaan datakeskukseen, mutta datakeskusten on pystyttävä kommunikoimaan keskenään. Kommunikointi edellyttää yhteistä tapaa identifioida aineisto. Identifioinnin lisäksi tarvitaan tapa siirtää yksittäinen tiedosto, kokoelma tiedostoja tai koko aineisto keskuksesta toiseen. Keskusten laite- ja ohjelmistokannat tulisi olla toisistaan poikkeavat. Käytettävyyden kannalta olisi myös hyödyllistä, jos datakeskus voisi tarvittaessa ohjata palvelupyynnöt toiseen keskukseen.
Onko valmista tietoa olemassa? OAIS o Open Archival Information System (kts. Wikipedia) o ISO malli, joka määrittelee käsitteitä sekä kuvaa millaisia toimintoja pitkäaikaistallennusta tekevässä organisaatioissa pitäisi olla. o Malli ei ota kantaa tallennettavaan dataan. o Ei anna yksityiskohtaista kuvausta siitä, kuinka asiat käytännössä pitäisi tehdä.
Onko valmista tietoa olemassa? TRAC o Trustworthy Repositories Audit & Certification: Criteria and cheklist o Listalla asioita liittyen Organisaatioon Digitaalisten objektien käsittelyyn IT infraan, ympäristöön ja tietoturvaan o Valmis yksityiskohtainen lista.
Ei ole helppoa Pitkäaikastallennus ei ole helppoa kenellekkään. Toiminta vaatii riittävästi henkilökuntaa ja laiteresursseja Rauta (5-10) Softat (5-10) Kehitys (5-10) Tietokannat? Mittakaavaetu on huomattava. Kansallinen keskitys järkevää!
Digitaalinen kirjasto EU tason päätös - EU:n digitaalinen kirjasto Valtioneuvoston päätös - Kansallinen digitaalinen kirjasto 2008-2011 Opetusministeriön hanke. Tavoitteet: Kirjastojen, arkistojen ja museoiden keskeisten tietovarantojen saatavuuden ja käytettävyyden edistäminen Sähköisen kulttuuriperintöaineiston pitkäaikaistallennuksen kehittäminen.
Kansallinen digitaalinen kirjasto Yhteinen käyttöliittymä Tallennettava aineisto Kirjasto Museo Arkisto Yhteinen tallennusjärjestelmä.
Pitkäaikaistallennus CSC:llä? Organisaatio muuttui -> Datan painoarvo kasvoi merkittävästi. Osallistumme KDK:n suunnitteluun. Arvioimme ja kehitämme ympäristöämme. Teemme datanhallintatyökaluja. Seuraamme ympäristön tapahtumia.
Kiitoksia Kysyttävää? Yhteystiedot: Ari Lukkarinen Ari.Lukkarinen@csc.fi Tai contact@csc.fi