Luokitteluohje täysistuntokeskustelujen LDA-mallien laatuanalyysille Versio 1.2

Samankaltaiset tiedostot
Google Sites: sivun muokkaaminen (esim. tekstin, kuvien, linkkien, tiedostojen, videoiden ym. lisääminen)

1 Bayesin teoreeman käyttö luokittelijana

T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

Ajalliset muunnokset eksploratiivisen paikkatietoanalyysin työkaluna. Salla Multimäki ProGIS Ry Paikkatietomarkkinat

805306A Johdatus monimuuttujamenetelmiin, 5 op

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Mittariston laatiminen laatutyöhön

Tilastokeskuksen postinumeroalueittaisen avoimen tiedon käyttäminen ArcGIS Onlinessa

Asiakaspalvelun ymmärrettävyys. Sanasto ja kieli julkisissa palveluissa Ulla Tiililä

Avainsanojen poimiminen Eeva Ahonen

Yhteentoimivuusvälineistö: Sanastoeditorin esittelytilaisuus klo Väestörekisterikeskus, Lintulahdenkuja 4, Helsinki

805306A Johdatus monimuuttujamenetelmiin, 5 op

T Luonnollisten kielten tilastollinen käsittely

Kaksintaistelun approksimatiivinen mallintaminen (valmiin työn esittely)

4. Lausekielinen ohjelmointi 4.1

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

YRITYSTEN JAKAMINEN SUHTEELLISIIN RISKILUOKKIIN

Webforum. Version 15.1 uudet ominaisuudet. Päivitetty:

Webropol 3.0 tulosten raportointi. Aki Taanila

pitkittäisaineistoissa

Palveluintegraation muotoilu ohjeet yhteistyöprosessin toteutukseen

Laskuharjoitus 9, tehtävä 6

Alberta Language and Development Questionnaire (ALDeQ) A. Varhaiskehitys Lapsen nimi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sonera Viestintäpalvelu VIP VIP Laajennettu raportointi Ohje

Varoitukset ja Riskiviestintä

Vertaisvuorovaikutus tekee tiedon eläväksi Avoimen opiskelijoiden kokemuksia hyvästä opetuksesta

Suomen puherytmi typologisessa katsannossa

Diskriminanttianalyysi I

Opetuksen ja opiskelun tehokas ja laadukas havainnointi verkkooppimisympäristössä

Laskuharjoitus 2 ( ): Tehtävien vastauksia

Älykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Additions, deletions and changes to courses for the academic year Mitä vanhoja kursseja uusi korvaa / kommentit

Microsoft Outlook Web Access. Pikaohje sähköpostin peruskäyttöön

Paikkaontologiat. Tomi Kauppinen ja Jari Väätäinen Aalto-yliopiston teknillinen korkeakoulu tomi.j.kauppinen at gmail.com

Luku 8. Aluekyselyt. 8.1 Summataulukko

Ajalliset muunnokset eksploratiivisen paikkatietoanalyysin työkaluna. Salla Multimäki

ARVO - verkkomateriaalien arviointiin

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Oma nimesi Tehtävä (5)

Outoja funktioita. 0 < x x 0 < δ ε f(x) a < ε.

Algoritmit 2. Luento 13 Ti Timo Männikkö

Kenguru 2017 Student lukio

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Käyttöohje Planeetta Internet Oy

11. laskuharjoituskierros, vko 15, ratkaisut

LUONNOLLINEN KIELI JA TEKOÄLYN KOGNITIO

Tietokoneohjelmien käyttö laadullisen aineiston analyysin apuna

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Ohjeistus kouluttajille

Sisällönanalyysi. Sisältö

Ikäihmisten pitkäaikaishoidon kustannusten vertailu palveluntuottajalähtöisesti vai asiakastasolla yli palvelurakenteen?

Toimeentulotuen sähköinen asiointi. palvelun käyttöohje

Kopiodaksesi, leikataksesi ja liittääksesi helpointa on käyttää näppäimistön pikavalintoja:

pitkittäisaineistoissa

Kuvat Web-sivuilla. Keskitie:

Hannu Mäkiö. kertolasku * jakolasku / potenssiin korotus ^ Syöte Geogebran vastaus

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Uutisjärjestelmä. Vaatimusmäärittely. Web-palvelujen kehittäminen. Versio 1.3

MONOGRAFIAN KIRJOITTAMINEN. Pertti Alasuutari

Datatähti 2000: alkukilpailun ohjelmointitehtävä

Ohjelmoinnin perusteet, syksy 2006

Cantorin joukon suoristuvuus tasossa

Monimutkaisten järjestelmien toimintavarmuuden parantaminen Jussi Kangaspunta ja Ahti Salo

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Kvantitatiiviset menetelmät

KONEOPPIMISEN HYÖDYNTÄMINEN: AUTOMAATTINEN TIKETTIEN KÄSITTELY. Esa Sairanen

Epooqin perusominaisuudet

Kielten oppimisen vaikeuksien ja lukivaikeuksien yhteydet

Harjoitus 7: NCSS - Tilastollinen analyysi

Preference Programming viitekehys: epätäydellisen preferenssi-informaation elisitointi ja mallintaminen, dominanssi

Kirjautuminen Espoon kaupungin Kansalaisen terveyspalveluun

Ohje sähköiseen osallistumiseen

OPPILAAN/ OPISKELIJAN NÄKYMÄ

Kahden laboratorion mittaustulosten vertailu

MUSIIKIN PIENOISMUODOT Muoto 4 ANALYYSIHARJOITUKSIA

ISO SUOMEN KIELIOPPI S2- OPETUKSESSA. Muutama havainto

Lingsoft. Tiedon hallinnan sanastotyö - asiantuntijoiden infotilaisuus. Täyden palvelun kielitalo. Katri Haverinen,

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Työelämäosaamisen edistäminen Tampere Baronetti-järjestelmä on työelämän osaamisen ennakointijärjestelmä

asema ja oikeudet Esitteitä 2001:1 selkokieli

Soiden luonnontilaisuusluokitus

Suomen kielen opinnot maahanmuuttajien ammatilliseen peruskoulutukseen valmistavassa koulutuksessa

Text Mining. Käyttöopas

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Using the QGIS Browser

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Option GlobeSurfer III pikakäyttöopas

Sektoritutkimusohjelman ilmastoskenaariot SETUKLIM

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

ALVin käyttöohjeet. Kuvaus, rajaus ja tallennus puhelimella ALVin -mobiilisovelluksen avulla dokumentit kuvataan, rajataan ja tallennetaan palveluun.

TÄRKEÄÄ HUOMIOITAVAA ***

YH1b: Office365 II, verkko-opiskelu

Kortinhaltijat joilla on maksukeskeytys Maksuryhmään liitettyjen kortinhaltijoiden lukumäärä, joiden maksut ovat tilapäisesti keskeytetty.

Transkriptio:

Aihemallinnus sekä muut ohjaamattomat koneoppimismenetelmät yhteiskuntatieteellisessä tutkimuksessa 1 Luokitteluohje täysistuntokeskustelujen LDA-mallien laatuanalyysille Versio 1.2 Kimmo Makkonen 5.9.2017 Tämän luokituksen tarkoituksena on yksittäisten LDA-mallien laadun arviointi, jota voidaan hyödyntää vertailtaessa eri LDA-malleja ja arvioitaessa mielekästä mallinnettavien puheenaiheiden määrää sekä muita mallinnusparametreja. LDA-mallit luokitellaan kahdella tavalla: 1) Top 50 -sanat 2) pyldavis-visualisoinnin erottamiskyvyn ja relevanssin avulla Kolmas laadunarviointitapa olisi lukea puheita, jotka LDA-malli osoittaa kuuluvaksi puheenaiheeseen suurimmalla todennäköisyydellä, ja arvioida niiden kuuluvuutta yhtenäiseen teemaan. Tässä yhteydessä sitä ei tehdä ajankäytöllisistä syistä, mutta alkuperäiset puheet pidetään ihmislukijoiden saatavilla, jos jossakin kohdassa niistä halutaan tukea päättelytyölle. Luokittelun tekijöiden on hyvä perehtyä LDA-mallin toiminnan yleisiin periaatteisiin (Blei 2012, Blei ym. 2003) ennen analyysia, mutta mallien laskennan ymmärtäminen ei ole ihmislukijan analyysille välttämätöntä. Luokat Ihmislukijan tehtävänä on määritellä jokainen puheenaihe johonkin seuraavista luokista: Laadukas: puheenaihe vastaa yhtä ihmislukijalle mielekästä teemaa. Läheiset: erilliset aiheet, jotka liittyvät toisiinsa jollain tapaa. Esimerkiksi toimeentulotuki ja lapsilisä ovat yhteiskunnan tukia, mutta kuitenkin erilaisia tukia. Luokan käyttö riippuu myös puheenaiheiden määrästä: jos kokonaisaihemäärä on pieni, voidaan tulkita, että kaikenlainen puhe yhteiskunnan tukimuodoista sopii yhteen aiheeseen. Erilliset: puheenaihe vastaa kahta tai useampaa ihmislukijalle mielekästä teemaa. Tunkeutunut: puheenaihe vastaa pääpiirteissään yhtä ihmislukijalle mielekästä teemaa, mutta todennäköisimpien sanojen joukossa esiintyy useita sanoja, jotka eivät sovi asiayhteyteen. Satunnainen: puheenaiheen sanasto ei muodosta ihmislukijalle mielekästä kokonaisuutta. Ketjuuntunut: puheenaiheessa esiintyy kaksi erillistä teemaa, jotka liittyvät toisiinsa jonkin yhdistävän sanajoukon kautta. Esimerkiksi puheet terrorismista ja lasten kotihoidosta saattavat luokittua samaan aiheeseen, koska molemmissa puhutaan tukemisesta. Tällaisia puheenaiheita esiintyy yleensä varsin niukasti. Vinoutunut: puheenaiheessa yksi tai muutama sana saavat erittäin suuren todennäköisyyden, ja muilta osin todennäköisyydet ovat pieniä. Esimerkiksi sanat kannattaa ja ehdotus esiintyvät todennäköisyydellä > 0,1, ja muuten sanasto liittyy vain löyhästi johonkin

Petri Loukasmäki Matti Nelimarkka ja Kimmo Makkonen 2 teemaan tai on satunnaista. Jos sanasto liittyy johdonmukaisesti samaan teemaan, kyseessä on laadukas puheenaihe. Yleissanoja: puheenaihe sisältää kielessä yleisesti esiintyviä sanoja, esimerkiksi paljon, mennä, silloin, puhua, ihminen, tietää jne., eikä joukossa ole merkittävässä määrin erityisalasanastoa. Näiden lisäksi luokituksen yhteydessä kerätään muita luokittelijan tekemiä huomioita puheenaiheesta esimerkiksi toistuuko sama teema mallin useissa puheenaiheissa, minkälaisia yksittäisiä tunkeutujasanoja esiintyy, vaikka koko aihetta ei luokiteltaisi tunkeutuneeksi, sekä mitä tahansa luokittelijaa kummastuttavia havaintoja. Edellisten määritelmien lisäksi luokitusta laadittaessa kannattaa kiinnittää huomiota myös siihen, kuinka yleinen puheenaihe on kyseessä. Mikäli yhteen puheenaiheeseen malliintuu erityisalasanastoa, kyseessä saattaa olla erittäin käyttökelpoinen puheenaihe, vaikka aineistossamme ei olisi paljoakaan puheita, joissa aihe on keskeisimpänä. Tämä luokitus on kehitetty Chuangin ym. (2013) ja Mimnon ym. (2011) luokituksen perusteella. Puheenaiheiden nimeäminen Tulosten raportoimiseksi on yleensä tarpeen nimetä laskennalliset puheenaiheet ihmislukijoille helposti ymmärrettävällä tavalla. Esimerkiksi jos aiheessa esiintyvät sanat lapsi, äiti, isä, perhe, vanhemmuus yms., on luontevaa nimetä puheenaihe perhepolitiikaksi, vaikka sana perhepolitiikka ei olisikaan merkitsevimpien sanojen joukossa. Periaatteena on nimetä puheenaihe käyttäen teemaa yhdistävää abstraktia kokoavaa käsitettä, mikäli sellainen on suomen kielessä olemassa, tai ellei sopivaa käsitettä ole, kuvailemalla puheenaihetta muutamilla aiheen merkitsevimmillä sanoilla. Jos aihe on ihmislukijalle satunnainen, on kuvauksena käytetty sanaa sekalaista. Erittäin usein kaikenlaisissa teemoissa esiintyviä sanoja sisältävät puheenaiheet on luokiteltu nimikkeellä tavallisia sanoja. Mallitulosteiden lukuohje Kuvassa on tuloste yhdestä laadukkaasta LDA-puheenaiheesta, johon on malliintunut koulutuspolitiikkaa käsittelevää sanastoa. Top 50 -sanat Ylimmältä riviltä voidaan lukea, että puheenaiheen sanastoa esiintyy 22,57 prosentissa analysoiduista puheista, ja merkitsevin aihe se on 12,12 prosentissa puheenvuoroista. Sanakohtaiset todennäköisyydet kyseisen puheenaiheen todennäköisimmille sanoille esiintyvät kunkin sanan jälkeen.

Aihemallinnus sekä Luokitteluohje muut ohjaamattomat täysistuntokeskustelujen koneoppimismenetelmät LDA-mallien yhteiskuntatieteellisessä laatuanalyysille tutkimuksessa 3 pyldavis-visualisointi LDA-vis-visualisoinnissa ja relevanssin arviossa Sievert ja Shirley (2014) ovat määritelleet sanan w relevanssin käyttämällä Taddyn (2011) kehittämää suuretta noste (lift). He merkitsevät φkw sanan w todennäköisyys puheenaiheessa k, ja p w sanan todennäköisyys korpuksessa. Noste on termin todennäköisyys puheenaiheen sisällä jaettuna todennäköisyydellä koko korpuksessa. Sievert ja Shirley pitävät nosteen etuna sitä, että koko korpuksessa tavallisten sanojen esiintyminen sanalistojen kärjessä vähenee, mutta toisaalta erittäin harvinaiset sanat saattavat nostetta käytettäessä saada liiankin suuren painoarvon, mikä saattaa vaikeuttaa puheenaiheen tulkintaa. Sievertin ja Shirleyn ratkaisuna on muodostaa relevanssi-yhdistelmäsuure, jossa parametri λ (välillä [0, 1]) määrittää, missä suhteessa kumpaakin mittaria käytetään. Eduskuntakeskusteluista laskettujen LDA-analyysien vertailussa ja puheenaiheiden sisällön tunnistamisessa pyldavis-ohjelman avulla käytännössä on osoittautunut toimivimmaksi tarkastella puheenaihetta ensin arvolla λ = 0,6 ja tarvittaessa lisäksi ääriarvoilla 0 ja 1. Muitakin arvoja voi käyttää, mutta se ei ole yleensä mielekästä työajan pitämiseksi kohtuullisena. Kaksiulotteisen visualisoinnin tuottamasta kuvasta voi arvioida aiheiden läheisyyttä sekä katsoa, kuinka suuri osa puheista kuuluu aiheisiin. Tässä yhteydessä kyseistä informaatiota ei ole kuitenkaan tarkoitus analysoida järjestelmällisesti.

Petri Loukasmäki Matti Nelimarkka ja Kimmo Makkonen 4 Esimerkki pyldavis-tulosteesta. Korostettuna on puheenaihe nro. 6. Tulosteesta nähdään ylhäältä vasemmalta lukien, että mallissa on 68 881 sanaa ja 30 puheenaihetta. Lisäksi nähdään LDAlaskennan parametrit decay ja chunksize, joista ihmislukijan ei tarvitse tässä yhteydessä välittää. Oikeanpuoleisessa kuvaajassa punaisella on merkitty kunkin sanan merkitys kyseiselle puheenaiheelle ja sinisellä sanan yleisyys koko korpuksen tasolla. Valitsemalla lambda välillä [0, 1] voidaan tarkastella sanan merkitystä koko puheenaiheessa, koko korpuksessa tai painottaen näiden välillä. Yksittäisen sanan merkitystä ja esiintymistä muissa puheenaiheissa voidaan tarkastella viemällä kursori kyseisen sanan ylle. Esimerkiksi jos jokin poliittisesti tärkeä sana on malliintunut puheenaiheeseen, johon se ei kuuluisi, tilanne voi olla varsin ongelmaton, mikäli sana esiintyy sopivissakin puheenaiheissa, mutta hankala, mikäli sana esiintyy vain yhdessä puheenaiheessa. pyldavis-tuloste sisältää paljon muutakin ohjelman käyttöön liittyvää informaatiota, jonka voi tässä yhteydessä ohittaa. Vaikka kyseessä on offline-tiedostolta vaikuttava paketti, tiedoston käyttö edellyttää internetyhteyttä. pyldavis toimii ainakin Mozilla Firefox -selaimessa. Yhteystietoja ja lisäkysymyksiä Kaikissa ongelmatilanteissa ja lisätietoja tarvittaessa ota yhteyttä: Kimmo Makkonen, puh. 040 516 8090, ja sähköpostitse kikama@utu.fi. Mikäli jokin puheenaihe ei sovi mihinkään luokista, sen voi jättää toistaiseksi luokittamatta, ja miettiä, olisiko luokitusta täydennettävä jollain tapaa.

Aihemallinnus sekä Luokitteluohje muut ohjaamattomat täysistuntokeskustelujen koneoppimismenetelmät LDA-mallien yhteiskuntatieteellisessä laatuanalyysille tutkimuksessa 5 Lähteet Blei, David M., Andrew Y. Ng, Michael I. Jordan ja John Lafferty. 2003. Latent Dirichlet Allocation. Journal Of Machine Learning Research 3:4/5, 993-1022. Blei, David M. 2012. Probabilistic topic models. Communications of the ACM. 55:4, 77-84. Chuang, Jason, Sonal Gupta, Christopher D. Manning ja Jeffrey Heer. 2013. Topic Model Diagnostics: Assessing Domain Relevance via Topical Alignment. International Conference on Machine Learning (ICML), 2013. Saatavilla: http://vis.stanford.edu/files/2013-topicmodeldiagnostics-icml.pdf Luettu: 16.3.2017. Mimno, D., H. M. Wallach, E. Talley, M. Leenders, ja A. McCallum. 2011. Optimizing semantic coherence in topic models. Proc. of the Conf. on Empirical Methods in Natural Language Processing, 262-272. Sievert, Carson ja Kenneth. E. Shirley. 2014. LDAvis: A method for visualizing and interpreting topics. Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces, 63 70. Muutokset luokitteluohjeeseen Versio 1.1 (22.8.2017): Lisätty luokka yleissanoja ja poistettu ohje luokitella yleissanat laadukkaiksi nimikkeellä tavallisia sanoja. Versio 1.2 (5.9.2017): Täsmennys luokkaan vinoutunut: Jos sanasto liittyy johdonmukaisesti samaan teemaan, kyseessä on laadukas puheenaihe.