Kielipankin analyysityökalut ja aineistot Työmarkkinatilanteen tutkiminen lehtiaineiston avulla Tämä dokumentti on lisensoitu Creative Commons Attribution 4.0 Kansainvälinen -lisenssillä. Sisältöjä ovat yhteistyössä tuottaneet FIN-CLARINin Kielipankki-työryhmän jäsenet (Mietta Lennes, Sam Hardwick, Krister Lindén ja Tero Aalto).
https://www.kielipankki.fi
Kielipankin käyttäjät Kaikkien alojen tutkijat ovat tervetulleita! Monet aineistot ovat saatavilla myös ilman kirjautumista. FIN-CLARIN voi auttaa aineistosi säilytyksessä ja välityksessä tutkimuskäyttöön. 25.9.2019 3
Kansainvälinen yhteistyö ja resurssien yhteiskäyttö CLARIN ERIC European Research Infrastructure Consortium perustettu 29.2.2012 https://www.clarin.eu / NL [ ] Jäsenmaat: Alankomaat Bulgaria DLU Italia Itävalta Latvia Liettua Kreikka Kroatia Norja Puola Portugali Ruotsi Saksa Slovenia Suomi Tanska Tshekin Tasavalta Unkari Viro Tarkkailijat: Islanti Etelä-Afrikka Iso-Britannia Ranska CMU (USA)
CLARIN-keskukset Jäsenmaat: Alankomaat Bulgaria DLU Italia Itävalta Latvia Liettua Kreikka Kroatia Norja Puola Portugali Ruotsi Saksa Slovenia Suomi Tanska Tshekin Tasavalta Unkari Viro Tarkkailijat: Islanti Etelä-Afrikka Iso-Britannia Ranska CMU (USA)
Jäsenet - Helsingin yliopisto - CSC IT Center for Science - KOTUS Kotimaisten kielten keskus - Aalto-yliopisto - Itä-Suomen yliopisto - Jyväskylän yliopisto - Oulun yliopisto - Tampereen yliopisto - Turun yliopisto - Vaasan yliopisto Koordinointi ja isojen keskitetysti hankittujen aineistojen ja työkalujen hallinta Yksittäisten tutkijoiden ja tutkimusryhmien aineistojen ja työkalujen hallinta
Aineistoja Gw = miljardia sanaa, Mw = miljoonaa sanaa, kw = miljoonaa sanaa, h = tuntia Aineistot 2018 2022 Tekstiä Sanoma- ja aikakauslehtiä 1770- (Kansalliskirjasto ym.) 12 Gw 20 Gw Verkkokeskustelut ja muu internet 2000- (Suomi24,Ylilauta ym.) 4 Gw 10 Gw Kirjallisuutta ja käsikirjoituksia (Gutenberg, Fennica, arkistot) 60 Mw 70 Mw Puhetta Uutislähetyksiä (YLE) 10000 h Suomen eduskunnan täysistunnot 2008-2016 500 h 1000 h Murre- ja arkikielen aineistoja (Kotus, Turku, Helsinki) 500 h 1000 h Viittomakielten aineistoja (Jyväskylän yliopisto, Kuurojen Liitto) 20 h 500 h Monikieliset ja muut aineistot Monikielisiä aineistoja (EuroParl, laki, Raamattu, tekstitykset, ) 3 Gw 10 Gw Oppijankielen aineistoja (Oulu, Jyväskylä, Turku, Aalto) 2 Mw 5 Mw Avoimet sanakirjat ja terminologiat (Helsinki, Tromssa) 300 kw 400 kw
Aineistoja Gw = miljardia sanaa, Mw = miljoonaa sanaa, kw = miljoonaa sanaa, h = tuntia Aineistot 2018 2022 Tekstiä Sanoma- ja aikakauslehtiä 1770- (Kansalliskirjasto ym.) 12 Gw 20 Gw Verkkokeskustelut ja muu internet 2000- (Suomi24,Ylilauta ym.) 4 Gw Tällä 10 hetkellä Gw Kirjallisuutta ja käsikirjoituksia (Gutenberg, Fennica, arkistot) 60 MwFIN-CLARINin 70 kautta on Puhetta tarjolla n. 19 GW ( > 1400 tietokannassa) Uutislähetyksiä (YLE) 10000 h Suomen eduskunnan täysistunnot 2008-2016 500 h 1000 h Murre- ja arkikielen aineistoja (Kotus, Turku, Helsinki) 500 h 1000 h Viittomakielten aineistoja (Jyväskylän yliopisto, Kuurojen Liitto) 20 h 500 h Monikieliset ja muut aineistot Monikielisiä aineistoja (EuroParl, laki, Raamattu, tekstitykset, ) 3 Gw 10 Gw Oppijankielen aineistoja (Oulu, Jyväskylä, Turku, Aalto) 2 Mw 5 Mw Avoimet sanakirjat ja terminologiat (Helsinki, Tromssa) 300 kw 400 kw
Aineistoperheitä CLARINin kautta 25.9.2019 www.kielipankki.fi 9
Kielipankin aineistoluettelo www.kielipankki.fi/aineistot 25.9.2019 10
www.kielipankki.fi CLARIN -lisenssiluokat julkisesti saatavilla akateemisten, kirjautuneiden käyttäjien käytettävissä vaatii henkilökohtaisen käyttöluvan 25.9.2019 11
www.kielipankki.fi Lisenssiehtojen yksityiskohdat +BY alkuperäisen tekijän nimi mainittava +NC vain epäkaupallinen käyttö +ID vaatii kirjautumisen +PLAN vaatii tutkimussuunnitelman +PRIV sisältää henkilötietoja +NORED ei uudelleenjakelua +DEP muokattuja versioita voi jakaa CLARINissa sekä tarvittaessa muut aineistokohtaiset lisäehdot 25.9.2019 12
Kielipankin aineistoluettelo www.kielipankki.fi/aineistot www.kielipankki.fi 25.9.2019 13
Viittausohjeen löytäminen www.kielipankki.fi 25.9.2019 14
META-SHARE metashare.csc.fi www.kielipankki.fi 25.9.2019 15
Kuvailutiedot www.kielipankki.fi 25.9.2019 16
Virtual Language Observatory (VLO) vlo.clarin.eu www.kielipankki.fi 25.9.2019 17
www.kielipankki.fi VIHASANOJEN HAKU JA KÄYTTÖ SEKÄ SENTIMENTTIANALYYSI 25.9.2019 18
Työkalu: korp.csc.fi
Työkalu: korp.csc.fi
Yksinkertainen haku: sanan eri muodot
Yksinkertainen haku: sanan eri muodot Toimii kaikissa korpuksissa, joihin liittyy kieliopillinen jäsennys
Yksinkertainen haku: sanan eri muodot
Suomi 24: Linkki alkuperäiseen viestiin
Suomi 24: Alkuperäinen viesti
Sanakuva: vihainen (adjektiivi) Suomi 24 virkkeet korpus (2016H2)
Sanakuva: vihainen (adjektiivi)
Sanakuva: vihata (verbi)
www.kielipankki.fi 25.9.2019 30
www.kielipankki.fi 25.9.2019 31
www.kielipankki.fi 25.9.2019 32
https://www.kielipankki.fi/tyokalut 25.9.2019 33
https://www.kielipankki.fi/tyokalut > Demo www.kielipankki.fi 25.9.2019 34
www.kielipankki.fi 25.9.2019 35
www.kielipankki.fi 25.9.2019 36
www.kielipankki.fi 25.9.2019 37
www.kielipankki.fi 25.9.2019 38
www.kielipankki.fi 25.9.2019 39
www.kielipankki.fi 25.9.2019 40
www.kielipankki.fi Eduskunnan täysistunnot Eduskunnan täysistunnot, Kielipankin Korp-versio 1.1 sisältää ajalla 10.9.2008-1.7.2016 pidettyjen eduskunnan täysistuntojen videotallenteista tehtyjen transkriptioiden ensimmäisen version. Alkuperäiset pöytäkirjat on kohdistettu videoon. Osasta Korp-hakutuloksia on linkit videoihin. Eduskunta (2017). Eduskunnan täysistunnot, Kielipankin Korp-versio 1.1 [tekstikorpus]. Kielipankki. Saatavilla http://urn.fi/urn:nbn:fi:lb-2017020202 25.9.2019 41
Eduskunnan täysistuntokeskustelut: maahanmuuttaja (substantiivi)
Sanakuva 25.9.2019 www.kielipankki.fi 43
Kartta perustuu tässä korpuksessa automaattiseen nimentunnistukseen FiNERtyökalulla (Named Entity Recognition) Klikkaa täplää 25.9.2019 www.kielipankki.fi 44
Kartta perustuu tässä korpuksessa automaattiseen nimentunnistukseen FiNERtyökalulla (Named Entity Recognition) Paikannimeä klikkaamalla näet vastaavat osumat tekstissä 25.9.2019 www.kielipankki.fi 45
Eduskunnan täysistuntokeskustelut: maahanmuuttaja (substantiivi)
Eduskunnan täysistuntokeskustelut: Linkki videoon
www.kielipankki.fi Miten käsitettä työttömyys voitaisiin tutkia sanomalehtiaineistosta? 25.9.2019 48
korp.csc.fi > KLK-aineisto
korp.csc.fi > KLK > Laajennettu haku
korp.csc.fi, Tilastoja-välilehti
korp.csc.fi, Tilastoja > trendikuvaaja
www.kielipankki.fi Sanaupotukset (word embeddings) Analyysit ja kuvat: Sam Hardwick 25.9.2019 54
https://www.kielipankki.fi/tyokalut > Demo 25.9.2019 55
www.kielipankki.fi
työttömyys Kansalliskirjaston sanoma- ja aikakauslehtikorpuksessa 1. Sanavektorien tuottaminen vertailun pohjaksi opitaan suoraan tekstiaineistosta (word2vec-menetelmä) CSC Tieteen tietotekniikan keskus (1998). Suomen kielen tekstikokoelman ladattava versio [tekstikorpus]. Kielipankki. Saatavilla http://urn.fi/urn:nbn:fi:lb-2016050206 2. Sanojen tekstikohtainen maksimiaktivaatio (verrattuna työttömyys -sanavektoriin) kaikista käytettävissä olevista lehdistä / vuosi Kansalliskirjasto (2011). Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio [tekstikorpus]. Kielipankki. Saatavilla http://urn.fi/urn:nbn:fi:lb-2016050302
Artikkelien/tekstien keskimääräinen maksimiaktivaatio / työttömyys KLK:n teksteissä vuosittain 1920-2000 Analyysi ja kuvat: Sam Hardwick www.kielipankki.fi
Artikkelien/tekstien keskimääräinen maksimiaktivaatio / työttömyys KLK:n teksteissä vuosittain 1920-2000 Aineiston kokonaismäärän vaihtelu -> vertailu on hankalaa eri ajanjaksojen välillä Analyysi ja kuvat: Sam Hardwick
Artikkelien/tekstien keskimääräinen maksimiaktivaatio / sairaus KLK:n teksteissä vuosittain 1920-2000 Analyysi ja kuvat: Sam Hardwick www.kielipankki.fi
Artikkelien/tekstien keskimääräinen maksimiaktivaatio / siirtolaisuus KLK:n teksteissä vuosittain 1920-2000 Analyysi ja kuvat: Sam Hardwick www.kielipankki.fi
Artikkelien/tekstien keskimääräinen maksimiaktivaatio / työttömyys KLK:n teksteissä vuosittain 1920-2000 Analyysi ja kuvat: Sam Hardwick www.kielipankki.fi
Kuva: Tilastokeskus
Artikkelien/tekstien keskimääräinen maksimiaktivaatio / työttömyys KLK:n teksteissä vuosittain 1920-2000 Analyysi ja kuvat: Sam Hardwick www.kielipankki.fi
Artikkelien/tekstien keskimääräinen maksimiaktivaatio / työttömyys KLK:n teksteissä vuosina 1920-1944 Analyysi ja kuvat: Sam Hardwick www.kielipankki.fi
Artikkelien/tekstien keskimääräinen maksimiaktivaatio / työttömyys KLK:n teksteissä vuosina 1991-2000 Analyysi ja kuvat: Sam Hardwick www.kielipankki.fi
Avoimet verkkokurssit Korpuslingvistiikka ja tilastolliset menetelmät (5 op) Puheen analyysin perusteet (5 op) Aineistoklinikka, Data Clinic (5 op) https://www.kielipankki.fi/tuki/koulutus/
www.kielipankki.fi Yleinen käyttäjätuki fin-clarin@helsinki.fi Kiitos! Tack! Thank you! Tekniset palvelut ja käyttöluvat kielipankki@csc.fi