Aineistojen käsittely ja jalostaminen Tuula Pääkkönen Tietojärjestelmäasiantuntija Liikearkistopäivät 30.9.-1.10.2015, Mikkeli http://urn.fi/urn:nbn:fi-fe2015092714084 orcid.org/0000-0003-3958-9732
Kansalliskirjasto, Helsingin Yliopiston erillislaitos #KK375 2015 Digitointi- ja Konservointikeskus 1990 1828 Keisarillinen Aleksanterin yo Turun akatemia 1707 Vapaakappalelaki 1640 Lähde: http://www.kansalliskirjasto.fi/yleistieto/kirjastotietoutta/historia.html
Sisältö 1. Aineistot 2. Käsittely 3. Jalostaminen
THE NATIONAL LIBRARY OF FINLAND
Moninaiset aineistot Timo Honkela, 11.3.2014, Digitaalisen humanismin tutkimuksesta ja uusista liiketoimintamahdollisuuksista
http://digi.kansalliskirjasto.fi
Digitaaliset aineistot 3,2M sivua, 60% vapaassa verkkokäytössä 6M, 20% 130k, 100%
Käsittely
Konteksti Raakadatasta viisaudeksi Viisaus Tietämys Informaatio Data Kuka, Mitä, Milloin Missä? Ymmärrys Kuinka? Miksi? Käännetty alkuperäisestä Lähde (Forsythe, Implementing KM, Part I: Concepts & Approach)
Moninaiset käyttäjäryhmät Kansalaiset Taiteilijat Opettajat Tutkijat Toimittajat Informaatikot Päätöksentekijät Digitaaliset aineistot Museot Arkistot Kirjastot Yliopistot Yhdistykset Media Yritykset Kunnat Valtio Timo Honkela, 11.3.2014, Digitaalisen humanismin tutkimuksesta ja uusista liiketoimintamahdollisuuksista
THE NATIONAL LIBRARY OF FINLAND Lähde: Kohti avointa kulttuuria, Sanna Marttila & Laura Sillanpää, http://avoinglam.fi/opas.pdf
Joukkoistaminen
Kuvaaja: Tuula THE NATIONAL Pääkkönen, LIBRARY 2015 OF FINLAND
Miksi digitoida? Vaikuttavuus Monikanavaisuus Datan rikastaminen * Brändi Uudenlaiset rahoitusmallit Löydettävyys * Uudet asiakkaat Julkinen tehtävä * Osaamisen kasvattaminen Onnekkaat sattumat Lähde: Benefits of open data (image by JAM/Europeana. CC BY via http://mw2013.museumsandtheweb.com/p aper/open-culture-data-opening-glam-databottom-up/
Tekstinlouhinta Sehän on tiedon hakua algoritmilla Kyllä, ja Keino löytää merkityksiä suurista tekstimassoista automaattisesti Käytetään yleensä tilastollisia ohjelmia, jotka etsivät tekstimassoista toistuvia hahmoja tai malleja Luokittelu Tapahtumat, henkilöt, paikat -> Linkitetty data! Sentimenttianalyysi
Haku tekstimassasta/lähiluku Tehokkuusero digitoitujen hakujen ja paperihakujen välillä on todella päätähuimaava! Kirjoita hakutermi, ja hae julkaisuaika Sanomalehden nimi fraasi Etc.
Haaste: sivutekstimöykky mt'">6>? * * *? "».»*.Tm?'^?mffmmraor-N:o 0^* HELSINGIN SANOMATVastaava toimitta ia: Paavo Warén.Kuudesti viikossa ilmestyvä aamulehti.helsingissä, torstaina heinäkuun 7 p.pälvällbt2.helsingin posti immlstot pidetään»voin! a : r äanostikor.ttoriiiläklevien postien toimisto: arkipäivinäklo II) a. p.? «i, p., aimn- ja juhlapiiiv. klo 9?ll a. p.tulevien postien toimislo: arki/iiivinäklo 8 a. p.? (? i. p., sunii -ja juulapäiv. klo o? ll a. p.postiosotusten ja po>tis:i;istöpankin Kmi.it ii, arkipäivinä klo 10 a. p.? 7p., sunn.- ja juhlapäivinä klo il? 11a. p.frankkomorkkcjä myydään arkipäivinäklo 7 a. p.? 10 i. p., suun.- ja juhla{.uv. klu 7 a. p. 11 a. p ja?>,?><?> -7,30 i, p.postiuv MGtBulevardinkatu 28, arkipäivinä klo 10a. p,? 3 i, p. 4 G i. p., tunnun,- jajuhlapäiv. klo B?lo8? 10 a. p.vuorimiehenkatu 1, arkipäivinä klo 10a. p, Mikä? i, p. tämä 4? on? li i. p,, sunnjajuhlapäiv. klo? 10 a. p.kaivokatu (i, yksinkertaisten Mistä lehdestä? ja sis.liinkirj. lälietysten sekä vakuuttainauomien pakettien Mikä on vastaanottamista lehden rakenne? varten: arkipäivinä klo 7,3(J 'J,3H a. p.2-3 ja 4,30? K,10 i. p., sunn.- ja juhlapäiv. klo 7.30? i),30 a. p.frankkoincrkkicn myymistä vartimi. arkipäivinä klo 7,:)0 a. p.? 8.10 i. p.sunn.- ja juhlapäivinä klo I,'M) 'J,30
Sanojen analysointia Kiitos! https://github.com/flammie/omorfi ja [WORD_ID=ja][POS=PARTICLE][SUBCAT=CONJUNCTION][SUBCAT=COORDINATING] Vwerst +? Lumantin +? armosa +? ollen [WORD_ID=olla][POS=VERB][VOICE=ACTIVE][INFINITIVE=E][NUMBER=SI NGULAR][CASE=INSTRUCTIVE] Herran [WORD_ID=Herra][POS=NOUN][SUBCAT=PROPER][NUMBER=SINGULAR][CASE=GENITIVE]
Jalostaminen tuotteita & sovelluksia Lähde: Accessibility by public transport predicts residential real estate prices Fig 5. http://ceur-ws.org/vol-1392/paper-09.pdf
Tuotteita Source: http://melissaterras.blogspot.fi/20 14/10/reuse-of-digitised-content- 2-heres-one.html
Sanoitusten analyysiä Eminem Shakespeare Lähde: http://mining4meaning.com/2015/02/13/raplyzer/
Fraktuuramerkit itseorganisoivalla kartalla Kettunen, Honkela, Linden, Kauppinen, Pääkkönen & Kervinen 2014
Datasta eteenpäin Talletettua, digitoitua aineistoa voi jalostaa eteenpäin Käsittelyn ja jalostamisen vaatimukset Aineisto Digitointi/digitaalisuus Standardit (esim. METS/ALTO) Analyysi (yksityiskohdat/massa) Lähiluku & tiedonlouhinta
Tulevia tapahtumia / EU koodiviikko Kansalliskirjasto osallistuu EU:n Koodiviikko-tapahtumaan viikonloppuna: 10.-11.10.2015 Paikka : MAMK/Xinno, Mikkeli