Mikkelin maakunta-arkisto Juhlaseminaari 10.4.2014 Digitoitu historia - historiantutkimus ja digitalisoituminen Kun Mikkelin maakunta-arkisto perustettiin 80 vuotta sitten, maailma oli kovin eri näköinen kuin se on tänään. Elimme ajassa, jolloin radio oli vielä mediana uusi ja televisiota vasta kehiteltiin. Tieto siirtyi ja tallentui pääsääntöisesti paperilla ja sen kopionti ja levittäminen oli vaivalloista, kallista ja hidasta toimintaa. Historian tutkimusta tehtiin arkistoissa ja kirjastoissa, tutkijoiden kammioissa, joista tieto, usein vuosien työn jälkeen, päätyi kirjoina tai artikkeleina kansan ulottuville. Tänään tilanne on erilainen. Avointen tietoverkkojen ja digitoinnin myötä on, kuten kuulimme/kuulemme Timo Honkela esityksestä, pääsy sekä tutkimuksen tuloksiin, että joskus myös tutkimusaineistoihin on helpottunut tavalla, joka haastaa sekä arkistot että tutkijat. Koko yhteiskuntamme muuttuessa myös meidän toimintaedellytyksemme muuttuvat. Uudessa verkkoyhteiskunnassa eivät vanhat talouden lait toimi, vaan tiedon jakaminen ja levittäminen on käytännössä ilmaista. Perinteiset mediat ja niiden tuottajat elävät todellisessa mylleryksessä. Oikean tiedon lisäksi väärä tieto leviää nopeasti, joskus jopa tarkoituksellisesti levitettynä. Clay Shirkyn sanojen mukaan olemme siirtyneet "Filter first, publish then" - yhteiskunnasta "Publish first. filter then"-yhteiskuntaan, jossa lähdekritiikki ja tiedon konteksti ovat entistä tärkeämpiä jokaiselle meistä. Tietoähky, Shrikyä edelleen lainatakseni, ei ole ongelma, vaan tiedon hallinta. Ennen kaikkea tiedon suodattaminen on yhä selvemmin osoittautumassa suurimmaksi haasteeksemme. Sen tähden tiedon hallinnan pitkän linjan ammattilaisilla, eli kirjastoilla ja arkistoilla, on paljon annettavaa, mutta meidän on myös nähtävä murroksen radikaali luonne, jotta pystymme soveltamaan osaamistamme uudessa ympäristössä. Ellemme itse pidä aktiivisesti huolta siitä, että olemme relevantteja, näkyviä ja että meidät koetaan tarpeellisina, tulemme tulevaisuudessa kamppailemaan vähenevän rahoituksen kanssa nykypäivän järkyttävän kovassa huomiotaloudessa. Meidän, kansakuntamme muistin ja se tutkijoiden, on nykyään perusteellisesti pohdittava sitä, mikä tehtävämme ydin oikeastaan on, ja miten voimme sitä toteuttaa. SIksi meidän on tutkittava, mikä tälle digitalisoidulle yhteiskunnalle ja sen uudelle medialle on ominaista. Mikä erottaa digitaalimediat muista vanhemmista medioista? Miten bitin bitistä erottaa? Ensinnäkin jokainen bitti on samanlainen kuin sen kopio: se on ykkönen tai nolla. Meillä ei enää ole "alkuperäistä" originaalia, jota vaalia ja tutkia, sillä tieto syntyy uudestaan joka kerta, kun avaamme tiedoston. Se on siksi riippuvainen paitsi käytetyistä tietokoneohjelmista, formaateista ja itse tietokoneesta. Digitaalinen tieto ei ole "virtuaalista", vaan mitä suurimmassa määrin riippuvaista esimerkiksi 1
tietokoneen näytön fyysisistä ominaisuuksista. Koska meillä ei ole alkuperäistä originaalia, tarvitsemme äärettömän tarkan sähköisen provenienssin, jotta pystymme tekemään lähdekriittisen arvioinnin lähteestä. Sitä varten on jo olemassa hyviä standardeja. Jokaisen dokumentin yksityiskohtainen historia on tallennettava. Yksityiskohtaisin tekninen tieto on muun muassa edellä mainituista syistä erittäin tärkeää. Silti, loppujen lopuksi, ainoa ratkaiseva tekijä on tiedon luovuttajan uskottavuus: luotammeko tähän henkilöön ja organisaation, vai emme? Osaavatko he asiansa, mitkä ovat heidän motiivinsa? Ellei luottamusta teknisen datan uskottavuuteen ei ole, tiedolla ei ole kovin suurta arvoa todisteena muusta kuin tiedon luovuttajan toiveista, miten asioiden hänen mielestään tulisi olla. Kaikki lokikirjat ja tarkistussummat ovat loppujen lopuksi vain ykkösiä ja nollia. Eli väärennettävissä. Muotonsa muuttaneet Arkistolähteiden digitointi on erittäin tärkeää toimintaa. Ei vähintään siksi, että avaamalla myös lähdeaineistoja suurelle yleisölle, annamme sille mahdollisuuden itse tutustua historiaamme ja antaa panoksensa sen tutkimisessa ja levittämisessä. Oikeusvaltiossa on tärkeää, että kansalaisilla on pääsy historialliseen tietoon. Yhteiskunnan on dokumentoitava toimintansa, ja kansalaisten on saatava siitäkin oikeaa tietoa. Valtio tai hallinto, joka vaikeuttaa tiedon saantia, on epäilyttävä, salaileva hallitus, jonka legitimiteetin voi kyseenalaistaa. Mielestäni meidän on todella korostettava poliitikoille ja päätöksentekijöille näin aikoina tätä asiaa: arkistot eivät ole ala, josta voi säästää, vaikka tiukka tekeekin. Varsinkaan aikana, jolloin tiedon määrä räjähtää ja vaarallisen populistiset voimat helposti lähtevät vääntelemään ja kääntelemään historian faktoja tavalla, jotka palvelevat mustavalkoisia ja yksinkertaistettuja tulkintoja menneisyydestä, ja suurentelevat koettuja epäoikeudenmukaisuuksia ja osoittelevat toisia ihmisryhmiä syyllistävin sormin. Meillä on vastuu tuoda esiin faktat mahdollisimman laajalle ja suurelle yleisölle. Oikea tieto on meidän takanamme. Paljon on kiinni siitä, miten tehokkaasti pystymme sitä markkinoimaan ja levittämään. Mutta palatkaamme hetkeksi sähköisten aineistojen ominaislaatuun. Joskus ajatellaan, että tärkeintä on, ettei tietoja menetetä, kun aineistoja siirretään formaatista toiseen. Haluamme säilyttää ja siirtää mahdollisimman paljon tietoa. Kun tietoa siirretään paperista sähköiseen mediaan, meidän on kuitenkin tehtävä lukuisia valintoja. Digitaalinen formaatti vaati esimerkiksi resoluution ja väriavaruuden määrittelyn absoluuttisin arvoin, sillä kaiken tiedon on oltava bittimuodossa eli numeroina. Tarvitsemme myös kuvailutietoja, joiden avulla pysymme ymmärtämään, mitä aineisto on, mistä se on peräisin ja mihin se liittyy. Usein näihin kuvailutietoihin liittyy yksilöity tunniste, joka tietomalleista usein vääntyy originaaliksi, vaikka näin ei tietenkään itse asiassa ole, sillä itse tiedosto saattaa muuttua ajan mittaan. Arkistolaitos on yhteistyössä tutkijoiden kanssa kehittänyt linkityspalvelua, jonka avulla sähköisestä viitteestä pääsee suoraan ja yksiselitteisesti tutkijan käyttämään lähteeseen. Tämä on tietenkin suuri edistysaskel ja tulevaisuudessa uskottavan tutkimuksen edellytys. Silti on muistettava edellä mainittu tosiasia, nimittäin se, ettei 2
sähköistä originaalia oikeastaan ole olemassa, vaan saamme pääsyn johonkin mahdollisimman samankaltaiseen tietoon. Samankaltaisuus ja sen aste on mittari muistiorganisaation osaamisesta, mikä voi olla haastavaa. Perinpohjainen lähdekritiikki vaatii myös huomattavan paljon kuvailutietoa paperisesta originaalista, silloin, kun sellainen arkistojen kätköistä löytyy. On paljon tietoa, jonka välittäminen vaatii työtä, ei vähiten itse fyysisen objektin kuvailu, esimerkiksi sen koon ja sijainnin kuvailu. Jos tekstin saaminen koneluettavaan muotoon onnistuu, siitä on paljon hyötyä esimerkiksi tiedon louhinnassa ja hakujen tekemisessä. Tässäkin on kuitenkin monia haasteita. Koneluettu teksti sisältää usein suhteellisen paljon virheitä, mutta teksti itsessäänkin saattaa olla vaativaa esimerkisiksi vaihtelevan oikeinkirjoituksen vuoksi. Ymmärrämme, että arkistojen omat resurssit eivät ikinä riitä tällaisten määrien kuvailemisen ja oikolukemisen ja normalisointiin. Tämä ei silti ole syy olla avaamatta näitä resursseja, vaan meidän on kutsuttava yleisö avuksi. Yleisö innostuu usein tällaisesta tekemisestä, mikä on omiaan lisäämään historian tuntemusta ja samalla tietoisuutta arkistojen merkityksestä. Meillä ei kerta kaikkiaan ole varaa olla avautumatta. Meidän on muututtava arkistoaarteiden vaalijoista niiden markkinoijiksi. Kansa on maksanut vuosikymmeniä niiden säilyttämisestä. Nyt voimme kutsua kansan mukaan osallistumaan, innostumaan ja jakamaan. Myös historiantutkijoiden on totuttauduttava siihen, että me emme aina tiedä kaikesta eniten, eikä meidän tulkintamme aina välttämättä ole se ainoa oikea. Myös harrastajat on otettava mukaan yhteiseen keskusteluun historiastamme. Asiantuntijan asema ja auktoriteetti on nykyään ansaittava yhä uudestaan, jokaisessa kontaktissa. Sähköisenä syntyneet Mutta mitä ovatkaan huomisen tutkimusaineistot historiantutkijalle? Mitä hän haluaa tutkia, jotta hän voisi ymmärtää tätä päiväämme, ja sitä murrosta, jota nyt elämme, kun niin valtava määrä tietoa syntyy joka sekunti? Aiemmin julkaistu tieto kuului kirjastoon, muu arkistoon. Mutta mitä tänään onkaan "julkaiseminen"? Teksti, kuvat, videot, pelit, tietokoneohjelmat ovat jatkuvassa muutoksessa, versioiden ja varianttien määrä on loputon ja kopio on alkuperäisen veroinen Lainsäädäntö on pahasti jälkijunassa. Esimerkiksi tekijänoikeuslaki hankaloittaa arkistojen ja tutkijoiden toimintaa. Missä on vapaakappalelaki, joka koskee Angry Birdsejä? Missä koulutamme data-arkeologimme? Kaipaammeko valtion tietokonemuseota, jossa pystymme emuloimaan ja pitämään käynnissä niin korpun kun lerpunkin lukevan vempeleen, kun sellaisia ilmaantuu? Miten pystymme arkistoimaan virastojen Facebook-sivuja? Kenen vastuulla kaikki tämä on? Ja kuka maksaa nämä kalliit huvit? Olennainen on kuitenkin kysymys siitä, haluammeko, että Suomi on johtava tietoyhteiskuntamaa vai ei? Olemmeko maa, jossa panostetaan innovaatioon ja tutkimusinfraan ihan tosissaan? Vai katsommeko vain miten käy? Edustavuus Historian tutkijalle sähköinen ympäristö tuo uusia haasteita. Kun käytämme sähköisiä tutkimusaineistoja, joudumme digitoitujen aineistojen kohdalla lisäämään 3
uuden ulottuvuuden lähdekritiikkiin: miten digitointi on tehty? Kun haemme tietokannasta tai tekstikorpuksesta, meidän tulisi tuntea sen aineiston rajat ja se aineisto, josta haemme. Siksi on tärkeää, että tiedämme esimerkiksi, mitä on digitoitu ja mitä on digitoimatta, ja muuttuko tuo joukko, josta haemme päivästä toiseen, sillä itse haku ja sen tulos ovat tavallaan osa itse tutkimusmenetelmää. Meidän on myös tunnettava digitointiprosessi eli miten aineistoa on tulkittu ja kuvailtu. Rikastaminen Mainitsin jo aiemmin yleisön päästämisestä mukaan aineiston tuottamiseen, esimerkiksi kuvailuun. On hyvä muistaa, että useimmiten mikä tahansa hakumahdolliuus tai asiasana on parempi, kuin ei mikään, olkoonkin että joukkoon pääsee virheitä. Sekä ihmiset että koneet tekevät virheitä. Muun väittäminen ei ole rehellistä. Tärkeää on kriittinen lukeminen ja käyttö, taito, jota me kaikki joudumme tänä päivänä yhä enemmän harjoittelemaan. Mutta ihmiset haluavat myös jakaa omaa historiaansa ja tietojaan. Wikipedia on tästä jo klassinen esimerkki. Tätä on käytetty hyvällä menestyksellä kokoelmien kartoittamiseen museoiden ja kansanperinnearkistojen puolella. Kyse on myös siitä, kenen tulkinta on relevantti missäkin kontekstissa. Ovatko esimerkiksi kuntien tai kaupunginosien hallinnolliset rajat merkityksellisempiä, kuin se, miten käyttäjä hahmottaa jonkun tietyn alueen ja sen "rajat"? Digitaalisessa maalimassa on se hyvä puoli, että usein tällaisissa ongelmissa voimme valita useamman rinnakkaisen vaihtoehdon. Fiksuun järjestelmään mahtuu niitä metatietoja vaikka kuinka paljon. Haasteet (Mukaillen: Bernhard Rieder och Theo Röhle, Digital Methods: Five Challenges, i David M. Berry (red.), Understanding Digital Humanities (Basingstoke: Palgrave Macmillan, 2012). Objektiivisuuden harha: Numerot luovat kuvan yksiselitteisyydestä, vaikka jokaisen numeron taustalla on aina tulkinta Visuaalisten todisteiden voima: Kuvaa on aina vaikeampi tarkastella ja analysoida kriittisesti kuin pelkkiä numeroita tai tekstiä Mustan laatikon mysteeri: Tietokoneen tekemät laskuoperaatiot ovat tosiasiallisesti ymmärryksemme ulkopuolella. Usein voimme vain eri ratkaisuja kokeilemalla arvioida prosessien laatua. Monitieteisyys: Digitaalista historiaa ei enää voi tehdä yksin. Meidän on otettava oppia luonnontieteistä tässä suhteessa. Suuren selityksen houkutus: Suuren datan käsittely voi houkutella tekemään liian pitkälle vedettyjä johtopäätöksiä, tai yksinkertaistamaan asioita liikaa. 4
Visualisointi Kuulimme aiemmin professori Honkelan esityksestä, miten digitaalinen tieto mahdollistaa uudenlaisia tapoja tiedon käsittelyyn ja esittämiseen. Mediassa jo laajalle levinnyt visualisointi on suuri murros meille historiantutkijoille. Aiemmin olemme aina operoineet historian narratiivien kautta. Tekstit ovat olleet meille lähes pääasiallinen lähde ja pääasiallinen tapa esittää tuloksemme. Tänään, tietokoneohjelmien hajottaessa tietorakenteita yhä monimutkaisemmiksi loputtomiksi verkoiksi, voimme myös laajentaa narratiivia uusin keinoin, jotka ovat sekä helpompia että vaikeampia käyttää, kuin mitä ensi näkemältä uskoisi. Relaatiot, verkostot, numerot taipuvat moneen muotoon. Niitä käyttämällä myös me humanistit voimme markkinoida tutkimustuloksia tavalla, joka on hyvin tehokasta kommunikaatiota. Tämä vaatii kuitenkin paljon harjoitusta. Peruskoulumme, lukiomme tai edes korkeakoulumme eivät aina näytä tarjoavan sitä opetusta, joka se vaatii. Tällainen tietojen käsittely, esittäminen ja ennen kaikkea kriittinen tulkinta vaatii koulusta, joka ei todellakaan toteudu sillä, että ylioppilaskirjoitukset osittain kirjoitetaan tietokoneella muutaman vuoden päästä. Tiedonhallinnan suunnittelu Humanistit ovat tottuneet tekemään työnsä yksin. Historian kirjoitus oli melkein pari vuosisataa osa romantiikan perintöä, jossa tämä kirjallisuuden ja tieteen risteymä oli suurten miesten kirjoittamien suurten tarinoiden maailma. Tämän päivän verkkomaailmassa tämä ei onnistu. Tietovarannot sulautuvat yhteen. Tutkimusmetodit, samoin itse tekniikka ja koodaus, tuovat yhteistyövaatimuksen. Tulevaisuuden historiaa kirjoitetaan tiimeissä, mikä vaatii monia erilaisia taitoja. On parempi, että teemme yhteistyötä, sillä vaikka historiantutkija voi opetella koodaamaan, hän ei kuitenkaan voi hallita kaikkea tietojen käsittelyyn, hallintaan ja dokumentaatioon liittyvää. Ja sitä paitsi, insinööri saattaa ihan oikeasti osata ratkaista teknisen ongelman paremmin, kunhan hänelle osaa kertoa tarpeensa. Myös arkistojen kanssa tarvitsemme läheisempää yhteistyötä, jotta digitointi, palvelut, kuvailu yms. oikeasti tehdään alusta alkaen sellaisella tavalla, että siitä on pitkäaikaista hyötyä. Tämä vaatii arkistoilta resurssien panostamista tutkijoiden projekteihin. Meidän on todellakin pyrittävä huomioimaan jokaisesta eurosta saatava hyöty, eikä vain tyytyä laskemaan digitoitujen tiedostojen määrää tai hyllymetrien kehitystä. Standardisointi Arkistot ovat historiantutkijoiden tärkeimpiä infrastruktuureja. Mutta ne eivät saa olla siilo, vaan niiden on mahdollisimman saumattomasti linkityttävä muihin tietovarantoihin, ei ainoastaan objektien kuvailutasolla, vaan myös sisällön kohdalla, semanttisten linkitysten tasolla. Tämä vaatii myös ehdottomasti arkistojen omien avointen rajapintojen luomista. Tiedon on oltava avointa, koneluettavaa ja dynaamista. Vastuuta tästä ei voi ulkoistaa kansallisille projekteille. Yhteistyö avoimen tutkimustiedon kohdalla on tärkeää, jotta pystymme luomaan niitä rakenteita, joita kansallisissa tavoitteissa on asetettu luotavaksi. Avoin tieto on uskottavaa 5
Vain avoin tieto on uskottavaa. Tämä on haaste myös historian tutkijoille, joiden on tultava kammioistaan verkkoon luomaan historiaa yhdessä ihmisten kanssa. Yhdessä me pystymme tähän! 6