Studia Generalia: MIKÄ BIG DATA? Kylmä data kohtaa inhimillisen tulkinnan: koneoppiminen ihmistieteiden työkaluna Timo Honkela timo.honkela@helsinki.fi Helsingin yliopisto 6.10.2016
Liisa, meillä on tehtävänä opetella ohjelmointia. Kuvalähde: http://digi.kansalliskirjasto.fi/pienpainate/binding/346723?page=1 Inspiraatio: http://www.geekculture.com/joyoftech/joyarchives/2193.html
ILMIÖT JA ORGANISAATIOT: HUMANISTISET JA YHTEISKUNTATIETEET HELSINGIN YLIOPISTON KESKUSTAKAMPUS
Tieteiden kohteiden monimutkaisuus Kulttuurinen maailma Biologinen maailma Fysikaalinen maailma
Englannin kielen osuus eri tieteenaloilla Suomessa (1.-15.) Matematiikka Farmasia Kemia Fysiikka Biokemia, molekyylibiologia, mikrobiologia, perinnöllisyystiede ja biotekniikka Solu ja kehitysbiologia, fysiologia ja ekofysiologia Tietojenkäsittelytieteet Sähkötekniikka ja elektroniikka Ympäristötekniikka Geotieteet Ekologia, evoluutiotutkimus ja systematiikka Kone ja valmistustekniikka Metsätieteet Avaruustieteet ja tähtitiede Prosessi ja materiaalitekniikka (Timo Honkela, TUTKAS-seminaari 17.11.2010) VANHA TIETEENALALUOKITUS 95.3 94.1 93.7 93.4 93.4 93.4 93.0 92.8 92.7 92.1 92.1 91.9 91.4 91.0 90.8 5
Englannin kielen osuus eri tieteenaloilla Suomessa (31.-44.) TIETEENALA Rakennus ja yhdyskuntatekniikka Maatalous ja elintarviketieteet Ympäristöpolitiikka, talous ja oikeus Maantiede Arkkitehtuuri ja teollinen muotoilu Viestintä ja informaatiotieteet Kasvatustiede Valtio oppi ja hallintotiede Taiteiden tutkimus Sosiaalitieteet Kulttuurien tutkimus Historia ja arkeologia Teologia Oikeustiede % 85.9 85.4 85.3 84.8 83.7 83.1 82.6 82.2 81.6 80.4 79.3 78.1 77.0 70.8 (Timo Honkela, TUTKAS-seminaari 17.11.2010) VANHA TIETEENALALUOKITUS 6
Englannin kielen osuus eri tieteenaloilla Suomessa (31.-44.) TIETEENALA Rakennus ja yhdyskuntatekniikka Maatalous ja elintarviketieteet Ympäristöpolitiikka, talous ja oikeus Maantiede Arkkitehtuuri ja teollinen muotoilu Viestintä ja informaatiotieteet Kasvatustiede Valtio oppi ja hallintotiede Taiteiden tutkimus Sosiaalitieteet Kulttuurien tutkimus Historia ja arkeologia Teologia Oikeustiede VANHA TIETEENALALUOKITUS % 85,9 85,4 85,3 84,8 Tärkeitä tieteenaloja, joissa 83,7 kieli-, tulkitsija-, tilanneja 83,1 82,6 kulttuurisidonnaisuus 82,2 on paljon voimakkaampaa 81,6 kuin listan alkupään 80,4aloilla. 79,3 78,1 77,0 70,8 7
Digitaalisten ihmistieteiden kehittyvä kukoistus Perinteinen syvällinen osaaminen ja ymmärrys liittyen humanitisten ja yhteiskuntatieteiden alueeseen Tämä ymmärrys yhdistetään nykyaikaisiin tietojenkäsittelymenetelmiin kuten tilastolliseen koneoppimiseen Avoin tiede ja laajat tietoaineistot antavat vahvan pohjan työlle Helsingin yliopistossa on tehty työtä tällä saralla jo esimerkiksi kielen tutkimuksessa pitkään. Viime aikoina alue on laajentunut ja panostuksia on lisätty. 8
Varieng - Research Unit for the Study of Variation, Contacts and Change in English Terttu Nevalainen http://www.helsinki.fi/varieng/people/varieng_saily.html Big Data, Rich Data, Uncharted Data 19 22 October 2015 Helsinki, Finland http://www.helsinki.fi/varieng/ ja moni muu... Tanja Säily Irma Taavitsainen
FIN-CLARIN on suomalaisten yliopistojen, CSC:n ja Kotimaisten kielten keskuksen muodostama konsortio, joka auttaa eri alojen tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan kieliaineistoja. Osa kansainvälistä CLARIN ERI -tutkimusinfrastruktuuria. Krister Lindén ja moni muu...
Koneellinen ja koneavusteinen kääntäminen ja tulkkaus Jörg Tiedemann ja muut
Historiallisten sanomalehtien tekstilouhinta Mikko Tolonen Kimmo Kettunen
Citizen Mindscapes Ymmärrystä yhteiskunnasta louhimalla suuria sosiaalisen median aineistoja
Esimerkki uudenlaisesta opetusta: Digital Humanities Hackathon
375 humanistia http://375humanistia.helsinki.fi/
HELDIG-avajaiset eilen 5.10.2016 Eero Hyvönen, Mikko Tolonen, Arto Mustajoki Anna Mauranen
Arto Mustajoki https://www.helsinki.fi/en/researchgroups/helsinki-digital-humanities/heldig-kick-off-symposium Anna Mauranen
Maailman suurin ongelma on, että ihmiset eivät ymmärrä toisiaan Arto Mustajoki
DATA: AINEISTOT
Yli sata miljoonaa kirjaa Googlen kirjaprojektissa kerrottiin vuonna 2010, että maailmassa on julkaistu 129 864 880 kirjaa Tarkan luvun antaminen ei ole kovin mielekästä, koska kaikkia kirjoja Googlekaan ei ole voinut löytää ja luku muuttuu jatkuvasti http://www.pcworld.com/article/202803/google_129_million_different_books_have_been_published.html
Pohjoismaat kirjoissa (Google Books 1860-2006)
Artikkelit, kirjoissa ilmestyneet artikkelit, kirjat, konferenssijulkaisut Kiitokset: Leo Näteaho, Helsingin yliopiston kirjasto Julkaisemisen volyymi kolmessa yliopistossa 1980-2015
Aineistojen digitointi: esimerkkinä Kansalliskirjaston sanomalehtiaineisto Digitointi > OCR > Hakutoiminnot ja jatkojalostus http://digi.kansalliskirjasto.fi/ https://www.kansalliskirjasto.fi/fi/palvelut#digitointi--ja-sailytyspalvelut
Inhimillisen ymmärryksen keruun vaiheita Puheeseen perustuva perinne Käsin kirjoitettu kieli: hidas leviäminen Kirjapainotaito ja painetut tekstit: nopea leviäminen Digitaaliset tekstit: entistäkin nopeampi leviäminen Tiedon määrämuotoinen linkittäminen ja avoin jakelu (Open Linked Data) Sosiokognitiiviset keinotekoiset toimijat: tiedon ja kokemuksen leviäminen yli yksilö-, kieli-, kulttuuri- ja sosiaalisten rajojen
VÄLINEET: TIETOKONEET JA OHJELMISTOT
Laskenta- ja muistikapasiteetti http://yle.fi/uutiset/3-6467338 CSC Tieteen tietotekniikan keskus https://www.csc.fi/ http://yle.fi/uutiset/3-6467338
Valtavat ohjelmistomassat yhteiskunnan peruspilareina Ohjelmarivejä: - Unix 1.0 ~ 10.000 - Windows 3.1 ~ 2.000.000 - Firefox ~ 10.000.000 Suomalaislähtöisiä: - MySQL ~ 13.000.000 - Linux 3.1 ~ 15.000.000 http://www.informationisbeautiful.net/visualizations/million-lines-of-code/ - Facebook ~ 60.000.000 - Googlen palvelut ~ 2.000.000.000
MENETELMÄT: TILASTOLLINEN KONEOPPIMINEN JA KIELITEKNOLOGIA
Tietämyksen ohjelmoimisesta koneoppimiseen Pitkään on ollut tapana ohjelmoida koneita inhimisen tiedon puitteissa rajoituksineen 1980-luvulla maailmassa kehitettiin miljardipanostuksin asiantuntijajärjestelmiä ajatuksella, että asiantuntija tietää parhaiten ja pystyy kuvaamaan tietämyksensä sääntöinä Nykyään koneet ohjelmoimaan oppimaan Tilastollisen koneoppimisen avulla kone voi osata enemmän kuin kukaan ihminen Olennaisia ovat aineistot
Koneoppiminen ja tiedon louhinta Tilastollisen koneoppimisen avulla matkitaan ihmisen oppimista Kone käy läpi sille annettuja esimerkkejä Annetun datan perusteella kone oppii esimerkiksi luokittelemaan, järjestämään, ryhmittelemään, hahmottamaan, käsitteistämään tai laittamaan paremmuusjärjestykseen erilaisia tietoalkioita
Koneille opetetaan kieltä Koneet oppivat kieltä Perinteisesti koneet on pyritty saamaan kielitaitoisiksi kirjoittamalla kielen sääntöjä koneen ymmärtämään muotoon Tämän on kuitenkin osoittautunut ongelmalliseksi Nykyisin hyödynnetään koneoppimismenetelmiä
Sanojen suhteet paljastuvat niiden käytöstä Kun käytettävissä on suuria tekstiaineistoja, mielivaltaisen kielen sanojen välisiä suhteita voidaan selvittää tilastollisesti Perusidea on se, että kahta sanaa käytetään tyypillisesti samaan tapaan (samanlaisessa lauseyhteydessä), jos niiden merkitykset ja/tai kieliopillinen rooli on samankaltainen
Klassikkoesimerkki: Grimmin satujen analyysi (1995) Honkela, Pulkki & Kohonen 1995
Klassikkoesimerkki: Grimmin satujen analyysi (1995) Huom: Suomessa tehtiin tällaista työtä jo ennen kuin esimerkiksi Googlea oli olemassa Akateemikko Teuvo Kohonen on ollut yksi neuroverkko- ja hahmontunnistusalan perustajahahmoista http://www.aka.fi/fi/akatemia/tutkimuksen-tekijoita/tieteen-akateemikot/suomalaiset-tieteen-akateemikot/akateemikko-teuvo-kohonen/
Tilastollisesti etsittyjä assosiaatioita sanoille 1) onnellisuus ja 2) lätäkkö mielenrauha lammikko tyytyväisyys lampi onnellisuuden oja elämänilo läntti yksilöllisyys kuoppa rakkaus kolo välittäminen hiekka onni allas hyvinvointi pläntti positiivisuus läikkä Kiitokset: Turku BioNLP group, Filip Ginter ja Citizen Mindscapes -projekti (Helsinki, Turku) http://bionlp-www.utu.fi/wv_demo/ http://blogs.helsinki.fi/citizenmindscapes/
Tekstien louhinta Edellä kuvatulla tavalla mitä tahansa suuria data- tai tekstiaineistoja voidaan tutkia (Honkela & Klami, 2008)
Suomen tieteen kartta Akatemian aineistosta Bio- ja ympäristötieteet Kone auttaa käymään Luonnon-jopa ja läpi tuhansia, insinööritieteet miljoonia dokumentteja Tieteellisiä tekstejä Terveystieteet ei lueta ainoastaan ihmisvoimin yksi kerrallaan Kulttuuri- ja yhteiskuntatieteet (Honkela & Klami, 2008) Kemia
Uusi askel: Humanistinen meta-analyysi
Taustaa: tulkinnan yksilöllisyyden mallintaminen (GICA-menetelmä) GICA-menetelmät (Grounded Intersubjective Concept Analysis) (Honkela ym. 2012) mahdollistaa mallit, joissa kunkin sanan merkitystä tarkastellaan yksilöllisesti Esimerkkinä USAn presidenttien puheet (State of the Union Address) ja sanan HEALTH merkityksen analyysi kontekstitietoa tilastollisesti analysoide
Sanan health analyysi
Humanistinen meta-analyysi (Honkela 2016) Analyysi olettaen sanojen jaettu merkitys Aineisto sanoineen Analyysi hyödyntäen merkityksien vaihtelumallia Honkelan ehdotus Merkityksien analyysi rikkaissa konteksteissa Aineisto sanoineen
Humanistinen meta-analyysi (Honkela 2016) Sanoja Analyysiei voi ottaa olettaenperusdataksi analyysin sanojen olettaen, että sana tarkoittaa jaettu täsmälleen samaa, kun merkitys puhuja/ kirjoittaja on eri ja eri kontekstissa Honkelan ehdotus Aineisto Sanan merkitys on sanoineen tilastollinen, subjektiivinen ja kontekstiriippuva ilmiö Analyysi hyödyntäen merkityksien vaihtelumallia Merkityksien analyysi rikkaissa konteksteissa Aineisto sanoineen
Humanistinen meta-analyysi (Honkela 2016)... AUTENTTINEN... HAUVA KATTI KISSA KOIRA REILU... TEHOKAS... DATA (1) RIKAS MERKITYSMALLI DATA (2) SISÄLTÖANALYYSI (HUMANISTINEN META-ANALYYSI)
Yhteisen ymmärryksen uusia mahdollisuuksia Tieteen uudet keinot tilanteisiin ja kysymyksiin, joita koskien yhtä oikeaa tulkintaa ei ole eikä voi olla. Humanistinen meta-analyysi ja vastaavat keinot voivat auttaa meitä tuomaan yhteen ymmärrystä, jota ihmiset ovat keränneet eri kielellisissä, sosiaalisissa, kulttuurissa ja historiallisissa konteksteissa Merkitysneuvotteluiden osittaiseen automatisointi
Uusi valistuksen aika? Ratkaisuja maailman polttaviin ongelmiin
Koneet eivät ole ihmeidentekijöitä vaan apuvälineitä Koneet eivät voi tarjota objektiivisuutta sen enempää kuin ihminenkään, kun tarkastelun kohteena ovat monimutkaiset ja tulkinnanvaraiset teemat Koneiden avulla voidaan kuitenkin kerätä yhteen ihmisten keräämää tietoa ja kokemusta ennennäkemättömällä tavalla Menetelmät täytyy kehittää humanistisen ymmärryksen pohjalta
Filosofiaa eivät voi paeta tietojenkäsittelijätkään Uusi valituksen aika? Empirismin ja rationalismin vuoropuhelu Vuosisataiset filosofiset näkökulmat ja teemat ovat edelleen tärkeitä ja aina vain tärkeämpiä koneiden käyttöön liittyen eli kun tekoälyä ja koneoppimista sovelletaan ihmistieteiden piirissä
Skenaarioita: digihumanismin mahdollisuuksia Ihmisten välinen parempi ymmärrys ja vuorovaikutus sodan ja rauhan kysymykset yhteiskunnallinen päätöksenteko ja politiikka Monimutkaisia ilmiöitä koskeva ongelmanratkaisu: esimerkiksi ympäristökysymykset terveyttä ja hyvinvointia koskevan tutkimus- ja kokemustiedon kerääminen ja yhteen tuominen
Kuvalähde: http://digi.kansalliskirjasto.fi/pienpainate/binding/346723?page=1
Kiitos! http://375humanistia.helsinki.fi/humanistit/timo-honkela http://www.slideshare.net/timohonkela https://www.youtube.com/watch?v=uxwkgpmmzdk
Avoin data moraaliseksi periaatteksi, kiitos! http://375humanistia.helsinki.fi/humanistit/timo-honkela http://www.slideshare.net/timohonkela https://www.youtube.com/watch?v=uxwkgpmmzdk