AURAICA Scripta a Societate Porthan edita Vol. 7, 2016: Big data ja Porthan. Hannu Salmi

Samankaltaiset tiedostot
"Porthanin lehti" ja otteita sen myöhemmästä elämästä

Hintzellit Suomen lehdistöss. ssä sata vuotta sitten. Hintzellin sukukokous Holman kurssikeskus Klaukkala

Kirjastojen verkkoaineistoja opetukseen

Keskeltä Laatokka lainehtii Kansalliskirjaston verkkoaineistot historiantutkimuksessa

Kirjastojen verkkoaineistoja opetukseen

Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Kielellisen datan käsittely ja analyysi tutkimuksessa

Arvoisa juhlayleisö, Mitä tämä voi olla käytännössä?

Porthanin ajan kaupunkikuva kuvitteellinen kävelykierros kaunopuheisuuden professorin asuinympäristöön

Tutka ja julkaisufoorumien murros Mitä tapahtui historialle?

Kansalliset digitaaliset kulttuuriaineistot Eduskunnan kirjastossa Annamari Törnwall

Jos sinulla on puutarha ja kirjoja, sinulta ei puutu mitään

Taideopintoja, historian tutkimusta, kävelylenkkejä uuden elämän askelin

Sanomalehtien Liiton keskustelutilaisuus Digiarkistoista liiketoimintaa. Taustaa. Mitä Kansalliskirjasto voi tarjota sanomalehdille?

Aviisi-projektin avaamat mahdollisuudet

Marcus Tullius Cicero (106 eaa.- 43 eaa.), roomalainen filosofi ja valtiomies

Alkupiiri (5 min) Lämmittely (10 min) Liikkuvuus/Venyttely (5-10min) Kts. Kuntotekijät, liikkuvuus

Fennica ja muut kirjastolue1elot avoimen 3eteen lähteina. Kirjastoverkkopäivät, 2015 Mikko Tolonen, Helsingin yliopisto

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Oulun kaupunginkirjasto-maakuntakirjasto M. Pekkala. Proaktiivinen kirjastoammattilainen ja uusi kokoelmakonsepti

Hashtagien lyhyt oppimäärä. Salla Hänninen CULTURE FINLAND

LEHDET EIVÄT ILMESTYNEET: KIRJAPAINOLAKKO YLEISLAKKO

Ruotsin aikaan -näyttelyyn

Tulevaisuudentutkimus Pirkanmaalla

HISTORIA PERUSOPETUKSESSA katsaus Arja Virta. Kasvatustieteiden tiedekunta, Opettajankoulutuslaitos (Turku)

Tekijänoikeuden vaikutuksesta E tiedon hyödyntämisessä. Mari Lampenius Asianajaja

TIEDOTE 2/2007. Silvastien sukuseura ry:n kokous Savonlinnassa Ravintola Paviljonki, Rajalahdenkatu 4 Tervetuloa!

Kansalliskirjaston digitaaliset lehtiaineistot vuoteen 2010 asti tutkimus-ja opetuskäyttöön yliopistoille ja korkeakouluille.

Kansallinen digitaalinen kirjasto KDK Miten se palvelee?

Digi.kansalliskirjasto.fi:n käyttöohje

Median tulevaisuus alan murroksessa. Metsäakatemia, Mikael Pentikäinen,

Historialliset kartat verkossa. Jari Järvinen JY, Multimediaopintokokonaisuus

Mitä voin lainata Kielipankista?

Paneelin 20 näkökulma. Sami Pihlström Tutkijakollegium & teologinen tdk, Helsingin yliopisto sami.pihlstrom@helsinki.fi

Jarmo Saarti Kirjastojuridiikan ajankohtaispäivä Kirjastot ja datamining, tutkijan ja kirjaston näkökulmat

Ottaisin mieluummin ponin

digi.kansalliskirjasto.fi Kansalliskirjaston digitoitujen aineistojen uudistettu käyttöliittymä ja uudet toiminnot

JÄLJET. Aika, esineet, muisti

Näin toimii Digitalkoot. Digi.kansalliskirjasto.fi:n toiminnot Kansalliskirjasto / Digitointi- ja Konservointikeskus URN:NBN:fi-fe

Maaseudun ja kaupungin muuttuva suhde sanomalehdissä ja 1900-lukujen vaihteessa miten maaseuduista tuli maaseutu?

Elektronisen julkaisemisen uusia tuulia - sanomalehtiä ja aikakausjulkaisuja taannehtivasti verkossa AGRICOLA

Lataa Tieteen lyhyt historia - vai pitkä tie luonnonfilosofian ja empirismin kohtaamiseen - Tuomo Suntola. Lataa

1.1 Tämä on STT-Lehtikuva

Kansalliskirjaston julkaisuarkistopalvelut. Jyrki Ilva Erikoiskirjastojen neuvosto,

absoluuttisia matkustajamääriä havaitaan kuitenkin huomattavasti suurempi työssäkäyntiliikenteen kasvu Lahden seudun ja pääkaupunkiseudun

Tietosuojaselvitys Aviisi-projektissa ja Kansalliskirjaston digitaaliset aineistot

Osuustoimintatutkimuksen eteneminen

Kaukopalvelusuositukset

KIRJASTO. Lämmittely. Selitä sana. lainata varata kaukolaina palauttaa maksaa sakkoa. myöhästymismaksu. printata tulostaa.

E-kirjat sähköiset kirjat

Espoo IKÄVAKIOIDUT. Yhteensä 0,0. Ikäluokittain. IKÄVAKIOIMATTOMAT Yhteensä ,8 0,6 8,3 2,9

Tieteellisten seurojen julkaisutoiminta Eeva-Liisa Aalto

Ihmiset ja osaaminen sujuvasti liikkeelle kasvukeskusten välillä. Maarakennuspäivä Aleksi Randell

Mr & Mrs. Future. kysymystä. Mika Aaltonen & Rolf Jensen. Talentum Helsinki 2012

Mitä on tutkimus ja tutkijan työ? Luonnonvarakeskus

Painetun aineiston saatavuus Suomessa. Viikki Pentti Vattulainen

Digitaalisten sanomalehtiarkistojen avaaminen lehden lukijoille. Jukka-Pekka Timonen

KESTÄVÄN KEHITYKSEN TYÖ TURUN SUOMENKIELISESSÄ TYÖVÄENOPISTOSSA. Outi Eronen

Kotimaisen mediatarjonnan merkitys suomalaisille Mediapäivä

Museoviraston kuvakokoelmien digitointiprojekti Priorisointikysymyksiä eli arvovalintoja ja haja-ajatuksia

Helsingin yliopiston kirjasto 1

Saadaanko tutkimushankkeen ja yrityksen tarpeet kohtaamaan? Subjektiivisia ja stereotyyppisiä hajamietteitä 25 vuoden yliopistokokemuksella.

Lataa Sen täytyi tapahtua - Kauko K. Mäkinen. Lataa

Toimintaympäristö: Koulutus ja tutkimus

TAMPEREEN MUUTTOLIIKE 2007

Tieto matkaa maailmalle

SUOMALAINEN ASUMISREGIIMI MURROKSESSA (KONSORTIO) VASTUUHENKILÖ: HANNU RUONAVAARA, TURUN YLIOPISTO

Lataa Sairauksien keisari - Siddhartha Mukherjee. Lataa

KESÄ-KARUSELLI. Kesäkulkija kuluttaa KESÄ-KARUSELLILLA SAAT PIENELLÄ RAHALLA PALJON KONTAKTEJA: Kaikki tämä 800

HISTORIATIETEIDEN OPISKELU OULUN YLIOPISTOSSA

LUENTO 7 TAULUKKOLASKENTA I

Lataa Suomen lintujen nimet - Jukka Hintikka. Lataa

Kielipankki ja FIN-CLARIN

Kirjastoinfo TY KTMT Porin tiedekirjasto

Historiantutkimus ja tietosuja. Kirsi Vainio-Korhonen Suomen historian professori, Turun yliopisto Etiikan päivä

PRINTIN HINNASTO 2016

Mainosvuosi Mainosvuosi 2013

Henrik Rainio

Kohti parasta kuntatalouden kehitystä? Kuntaliitokset ja kuntien talouskehitys ARTTUtutkimusohjelman

HELSINGIN YLIOPISTON KIRJASTO

KARI SUOMALAINEN Arkistoluettelo

KOPIOINTILUPA YLIOPISTOILLE JA AMMATTIKORKEAKOULUILLE

VALTIO-OPPI PERUSOPINNOT 25 OP

ASIAKASNÄKÖKULMA JULKAISUTOIMINNAN MURROKSEEN

Katetta kumppanuudelle

Kaksi kehittäjäädynaamiset

Lähdeaineistot: Kaupunkilaeista Portolana-merikortteihin, tulkintaa riveiltä ja rivien välistä

ASIAKKAAN NÄKÖKULMA Medialiiton hallituksen pj. Keskisuomalainen Oyj:n konsernijohtaja Vesa-Pekka Kangaskorpi

Arvojen tunnistaminen

Menneisyyden äänet nyt ja tulevaisuudessa

Tästä kaikki lähti: Rajakauppa ja väestön liikkuminen itärajan yli. Pielisen Karjalan V Tulevaisuusfoorumi Lieksa, FL Asko Saarelainen

Kuinka mittaan mediatiedotteen vaikuttavuuden? Sanelma Helkearo M-Brain

Kustannusosakeyhtiö Otava 2

Miten löydän Venäjää koskevaa tietoa? Johdatus monitieteiseen Venäjä-tutkimukseen (VEN301)

9. luokan runoanalyysi kielitietoisesti

Historialliset maanjäristykset Suomessa ja lähialueilla

LovOne tutkimushankkeen johtopäätöksiä /jm

Asuntopolitiikan tutkimus ja julkinen keskustelu

Eduskunnan sivistysvaliokunnalle

lehtipajaan! Oppilaan aineisto

Transkriptio:

AURAICA Scripta a Societate Porthan edita Vol. 7, 2016: 91 95 Big data ja Porthan Hannu Salmi Aloitimme vuoden 2016 alussa tutkimushankkeen Computational History and Transformation of Public Discourse in Finland, 1640 1910, joka perustuu Helsingin yliopiston, Kansalliskirjaston ja Turun yliopiston tutkijoiden yhteistyöhön. Tavoitteena on hahmottaa suomalaisen julkaisutoiminnan historiaa kokonaisuutena, joka ulottuu kirjatuotannon alkuvaiheista sanoma- ja aikakauslehdistön kukoistukseen 1800- ja 1900-lukujen vaihteessa. Turun yliopiston osuus perustuu informaatioteknologian tutkijoiden ja kulttuurihistorioitsijoiden yhteistyöhön: ryhmä analysoi vuosien 1771 1910 sanoma- ja aikakauslehdistöä, joka on kattavasti digitoitu. Kokoelma sisältää kaksi miljoonaa sivua sanomalehtiaineistoa, josta puolet ruotsin, puolet suomen kielellä. Juuri kaksikielisyys tekee Suomen tilanteesta ainutlaatuisen: autonomian ajan aineistoa voi käyttää laboratoriona sellaisten menetelmien tutkimiseen, joita voidaan hyödyntää myöhemmin Euroopan kielellisesti fragmentoituneen kulttuurin tutkimuksessa. Tällä hetkellä olemme tutkineet tekstin uudelleenkäyttöä. Ajatuksena on etsiä laskennallisin menetelmin isosta tekstimassasta toistettuja tekstejä tai tekstien katkelmia. Kansainvälinen tekijänoikeussopimus solmittiin vasta 1880-luvulla, ja sitä ennen lehdet saattoivat vapaasti kopioida tekstejä toisiltaan. Niin sanomalehdistöön muodostui toistojen ketjuja tai rihmastoja, jotka levisivät yhtä kontrolloimattomasti ja epälineaarisesti kuin meemit nykypäivän digitaalisissa verkoissa. Kansainvälisesti sanomalehdistön ekspansio oli erityisen voimakasta 1820-luvulta eteenpäin, ja saman voi havaita Suomessakin. Turun palon jälkeen lehtiä painettiin yhä enemmän ja myös useilla paikkakunnilla. Vuosisadan puolivälissä sanomalehtiä tuotettiin Turun ja Helsingin ohella myös Oulussa, Porvoossa, Vaasassa ja Viipurissa. Olemme tällä hetkellä jo prosessoineet koko sanomalehtiaineiston 1, ja tuloksena on miljoonia tekstitoistoja. Tämä on jo itsessään tulos, joka saa pohtimaan näkemystämme historiasta. Olemmeko liiankin kiinnostunteita alkuperäisisestä ja originaalista ja jätämme huomiotta toiston ja kopioinnin, joka on menneisyyden pimeää ainetta? Kopiointi tuntuu mekaaniselta, mutta sen kautta voi ymmärtää, miten ilmiöt voimistuivat ja saivat painoarvoa ja miten tieto menneisyydessä liikkui. Käymme parhaillaan läpi ajanjaksoa vuodesta 1771, suomalaisen sanomalehdistön synnystä, 1840-luvun loppuun. Tältä aikaväliltä olemme löytäneet saman tekstin toistoketjuja, klustereita, yli 30 000 kappaletta, joista suurimmissa on satoja toistoja (kuva 1). Valtaosa on pieniä klustereita, joissa on vain 2 4 esiintymää. Tähän on vielä lisättävä, että olemme poistaneet saman lehden sisällä tapahtuneen kopioinnin. Tärkeää on myös, että toistot eivät välttämättä ole tapahtuneet lyhyellä aikavälillä vaan saattavat ulottua koko tutkitun periodin läpi, vuoteen 1910 asti. 1 Kiitän tutkimusryhmäämme, johon kuuluvat Filip Ginter, Asko Nivala, Heli Rantala, Tapio Salakoski ja Aleksi Vesanto. Edidit Porthan-Seura http://www.protsv.fi/porthan-seura ISSN 1797-5913

92 Salmi AURAICA 7, 2016 Kuva 1. Toistettujen tekstien klusterit suomalaisessa sanomalehtiaineistossa vuosikymmenittäin vuoteen 1850 asti. Klusteri on ajoitettu ensimmäisen esiintymän mukaan. Lähde: Computational History and Transformation of Public Discourse in Finland, 1640 1910 -hanke. Kun aineisto on käsillä, väistämättä tulee pohtineeksi, millaisiin tutkimuskysymyksiin sitä voisi hyödyntää. On selvää, että 1800-luvulla suomalainen sanomalehdistö oli merkittävä yhteiskunnan ja kulttuurin muovaaja. Se ei ollut vain passiivinen heijastuspinta vaan aktiivisesti tuotti sitä Suomea, joka lopulta syntyi. Aineistoa seuloessa olen miettinyt, millainen merkitys sanomalehdistöllä oli historiakulttuurin kannalta ja miten esimerkiksi suomalaiset suurmiehet vakiinnuttivat asemaansa painetun sanan kautta. Olen aiemmin käsitellyt Auraicassa Henrik Gabriel Porthanin muistoa 1800-luvun Suomessa. 2 On selvää, että Porthanin suurmieheyttä rakennettiin erityisesti 1850-luvulta eteenpäin. Jos Kansalliskirjaston historiallisen sanomalehtiarkiston aineistosta etsii Porthan-mainintoja, näyttää, että absoluuttinen määrä kasvoi voimakkaasti vuosisadan loppua kohti (kuva 2). 2 Hannu Salmi, Porthanin arkku ja historian perintö. Auraica Vol. 6, 2015: 21 32.

AURAICA 7, 2016 Big data ja Porthan 93 Kuva 2. Porthan-viitteet historiallisessa sanomalehtiarkistossa. Lähde: Kansalliskirjasto. Porthan-viitteet sisältävät tässä kaiken mahdollisen, historiallisen henkilön käsittelystä höyrylaiva Porthanin aikatauluihin, mutta viittaaminen Porthaniin on selvästi ollut nousujohteista. Kaiken kaikkiaan viitteitä on yli 40 000, ja suhteellinen osuus näyttää erityisen korkealta tilanteessa, jossa suurmiehelle puuhattiin patsasta Turkuun 1860- luvulla, mutta myös fennomanian kiihtyessä ja vielä vuosisadan vaihteen sortokausien keskellä. Kuva 2 osoittaa, ettei Porthaniin liittyvä tekstin uusiokäyttö voinut olla kovin vilkasta ennen 1850-lukua, sillä vasta tuossa vaiheessa suomalaisen sanomalehdistön volyymi lähti räjähdysmäiseen kasvuun. Koska projektimme on vielä kesken, on vaikea arvioida, miten suuren kierrätyksen kohteena juuri Porthan oli. Tosin etukäteistuntuma on, että 1800-luvun lopulta löytyy varmasti kymmenien toistojen Porthan-klustereita. Nyt käsiteltävänä oleva aineisto 1770-luvulta 1840-luvulle sisältää 18 Porthan-aiheista klusteria. Aiheena ovat muun muassa Suomen historia ja Turun Akatemian kirjasto, ja mukana on myös monia muistokirjoituksia. Klustereissa on vain 2 4 toistoa, joten ne ovat vielä hyvin pieniä siihen nähden, mitä sanomalehdistössä oli sittemmin tulossa. Vaikka lehdistön määrä kasvoikin nopeasti 1830- ja 1840-luvuilla kuten myös klustereiden määrä kuvan 1 osoittamalla tavalla lehdistö ei vielä ollut julkisuuden määrittelijä. Joka tapauksessa 1800-luvun alun aineisto sisältää kiinnostavia esimerkkejä Porthanin muistosta. Kun Porthan oli menehtynyt 16. maaliskuuta 1804, Åbo Tidningin julkaisi muistorunon 23. maaliskuuta (kuva 3). Tästä runosta tuli teksti, joka liikkui ajassa vuosikymmenien mittaan. Se nostettiin uudelleen esiin, kun Porthanin kuolemasta oli kulunut 50 vuotta ja julkaistiin Suomettaressa 9. syyskuuta 1864. Runo löydettiin myös sadan vuoden kuluttua, sillä se esiteltiin lukijoille vielä Wiipurissa 18. maaliskuuta 1904.

94 Salmi AURAICA 7, 2016 Kuva 2. Porthanin muistoruno Åbo Tidningarissa 23.3.1804. Lähde: Kansalliskirjasto. Kun tutkimushanke Computational History and Transformation of Public Discourse in Finland, 1640 1910 etenee, saamme varmasti lisää tietoa ja näkemystä siitä, miten Porthanin varsinainen kulttiasema 1800-luvun lopussa vakiintui ja miten hänestä tehtiin fennomanian edelläkävijä. Jo nyt historiallisesta sanomalehtiarkistosta voi löytää voimakkaan tunteellisia kuvauksia. Päijänne-lehti julkaisi 12. marraskuuta 1878 runon, jossa Porthanin sivistystehtävää kuvattiin vertaamalla häntä koskenperkaajaan (kuva 4). Kuva 4. Porthan koskenperkaajana. Päijänne 21.11.1878. Lähde: Kansalliskirjasto.

AURAICA 7, 2016 Big data ja Porthan 95 Runon mukaan koskenperkaaja oli avannut esteet kansallisuuden koskelta, joka saattoi nyt kuohua maltitonna. Yhtä kuohuvaa ja esteetöntä oli lopulta suomalainen sanomalehdistö, josta 1800-luvun kuluessa kasvoi moniaineksinen, moneen suuntaan haarautuva rihmasto, jonka silmukoiden ja risteyskohtien, umpikujien ja jatkumoiden tutkimus tempaa mukaansa. Hannu Salmi Kulttuurihistorian professori, Turun yliopisto Computational History and Transformation of Public Discourse in Finland, 1640 1910 -konsortion johtaja hansalmi (apud) utu.fi