Luonnollisen kielen tilastollinen käsittely. T (5 op) L. Kevät Luentokalvot: Krista Lagus ja Timo Honkela

Samankaltaiset tiedostot
Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät Luentokalvot: Krista Lagus ja Timo Honkela

Luonnollisten kielten tilastollinen käsittely. T (3 ov) L. Kevät 2002

Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Luento 2, Luentokalvot: Krista Lagus ja Timo Honkela

Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Luento 2, Luentokalvot: Krista Lagus ja Timo Honkela

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

HAHMONTUNNISTUKSEN PERUSTEET

HAHMONTUNNISTUKSEN PERUSTEET

Luonnollisten kielten tilastollinen käsittely. T (3 ov) L. Kevät 2002

Inversio-ongelmien laskennallinen peruskurssi Luento 7

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

TILASTOLLINEN OPPIMINEN

T Luonnollisten kielten tilastollinen käsittely

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Mallipohjainen klusterointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Maximum likelihood-estimointi Alkeet

OPETUSSUUNNITELMALOMAKE

OPETUSSUUNNITELMALOMAKE

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

30A02000 Tilastotieteen perusteet

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

ELEC-C5210 Satunnaisprosessit tietoliikenteessä

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Todennäköisyyden ominaisuuksia

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayesläiset tilastolliset mallit

Osa 2: Otokset, otosjakaumat ja estimointi

1. Tilastollinen malli??

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Luento 5: Peliteoriaa

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

1. TILASTOLLINEN HAHMONTUNNISTUS

Tilastollinen aineisto Luottamusväli

Sovellettu todennäköisyyslaskenta B

Säännölliset kielet. Sisällys. Säännölliset kielet. Säännölliset operaattorit. Säännölliset kielet

Mallintamisesta. Mallintamisesta

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

Laskuharjoitus 5. Mitkä ovat kuvan 1 kanavien kapasiteetit? Kuva 1: Kaksi kanavaa. p/(1 p) ) bittiä lähetystä kohti. Voidaan

031021P Tilastomatematiikka (5 op)

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja.

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

T DATASTA TIETOON

Todennäköisyys (englanniksi probability)

Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Väliestimointi (jatkoa) Heliövaara 1

Teema 8: Parametrien estimointi ja luottamusvälit

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

811120P Diskreetit rakenteet

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

JOHDATUS TEKOÄLYYN LUENTO 4.

Normaalijakaumasta johdettuja jakaumia

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Nollasummapelit ja bayesilaiset pelit

&idx=2&uilang=fi&lang=fi&lvv=2015

Harjoitus 7: NCSS - Tilastollinen analyysi

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

Suodatus ja näytteistys, kertaus

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

JOHDATUS TEKOÄLYYN TEEMU ROOS

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen päättelyn perusteet

Suotuisien tapahtumien lukumäärä Kaikki alkeistapahtumien lukumäärä

Transkriptio:

Luonnollisen kielen tilastollinen käsittely T-61.5020 (5 op) L Kevät 2006 Luennot: Timo Honkela Luentokalvot: Krista Lagus ja Timo Honkela

1. YLEISTÄ KURSSISTA.................... 1 1.1 Kurssin suorittaminen................ 1 1.2 Ilmoittautuminen.................. 1 1.3 Tiedotukset..................... 2 1.4 Luennot....................... 3 1.5 Laskuharjoitukset.................. 4 1.6 Kirja......................... 5 1.7 Luentomonisteet.................. 6 1.8 Tentin järjestelyt.................. 7 1.9 Tenttikysymyksistä................. 8 1.10 Harjoitustyö..................... 10 2. JOHDANTO......................... 11 2.1 Tilastollinen luonnollisen kielen käsittely...... 11 2.2 Luonnollisen kielen käsittelyn sovelluskohteita... 12 2.3 Mallinnuksen peruskäsitteitä............ 13 2.4 Yleisestä kielitieteestä................ 14 2.5 Lähestymistapoja kieli-ilmiöihin........... 15 2.6 Perinteinen lähestymistapa kielitieteessä...... 16 2

2.7 Kielen mallintamisen haasteita........... 17 2.8 Probabilistinen esitystapa.............. 18 2.9 Probabilistisen esitystavan ja sumean esitystavan suhde.......................... 19 2.10 Perusteluja datasta oppimiselle, 1.......... 20 2.11 Perusteluja datasta oppimiselle, 2.......... 21 2.12 Ihmisen kielikyky ja kielen oppiminen........ 23 3. MATEMAATTISIA PERUSTEITA.............. 28 3.1 Todennäköisyyslasku................ 28 3.2 Ehdollinen todennäköisyys............. 29 3.3 Bayesin kaava.................... 32 3.4 Satunnaismuuttuja................. 34 3.5 P:n laskeminen................... 35 3.6 Bayesläisestä tilastotieteestä............ 36 3.7 Bayesläinen päätösteoria.............. 37 3.8 Shannonin informaatioteoria............ 43 0

1. YLEISTÄ KURSSISTA 1.1 Kurssin suorittaminen Kurssi suoritetaan tekemällä harjoitustyö ja läpäisemällä tentti. 1.2 Ilmoittautuminen Ilmoittautukaa kurssille www-topin avulla. Kieliteknologian opetuksen verkoston (KIT) opiskelijat voivat ilmoittautua sähköpostitse kurssin luennoijalle, kunnes saavat opintokirjannumeron TKK:lle. 1

1.3 Tiedotukset Kurssista tiedotetaan webissä http://www.cis.hut.fi/opinnot/t-61.5020 ja ryhmässä news://nntp.tky.hut.fi/opinnot.tik.informaatiotekniikka. 2

1.4 Luennot Luennot pidetään tiistaisin kello 10 12 salissa T3. Luennoitsija: dos. Timo Honkela ja vierailija(t) (ilm. myöh.) (mailto:timo.honkela@tkk.fi). Luentokalvot ovat luennon jälkeen nähtävillä osoitteessa http://www.cis.hut.fi/opinnot/t-61.5020/. 3

1.5 Laskuharjoitukset Laskuharjoitukset pidetään torstaisin salissa T3 26.1. alkaen. Harjoitukset pitää DI Sami Virpioja (mailto:sami.virpioja@tkk.fi). 4

1.6 Kirja Kurssilla käytetään osin kirjaa: Christopher D. Manning, Hinrich Schütze: Foundations of statistical natural language processing, MIT Press, 1999. Kirja löytyy TKK:n pääkirjastosta ja tietotekniikan kirjastosta. Tutustumiskappale on nähtävillä laboratorion sihteerin Tarja Pihamaan huoneessa B326 olevassa harmaassa peltisessä vetolaatikostossa. 5

1.7 Luentomonisteet Laskuharjoitukset ratkaisuineen ja luentokalvot ilmestyvät opetusmonisteina kurssin lopuksi. Laskuharjoituksissa paikan päällä jaetaan mallivastaukset, jotka ovat myös opetusmonisteessa. Vapaaehtoinen kurssitoimittaja? 6

1.8 Tentin järjestelyt Tentti järjestetään toukokuussa. Tarkempi ajankohta selviää osaston tenttijärjestyksen valmistuttua. Lisäksi syksyn tenttikausilla järjestetään yksi tai kaksi tenttiä. Tentissä on 5 tehtävää à 6 pistettä, maksimi 30 pistettä. Tenttiin ilmoittaudutaan normaalisti Topin kautta. 7

1.9 Tenttikysymyksistä Tentissä pyritään mittaamaan sitä kuinka hyvin opiskelija on perehtynyt toisaalta tilastollisen kielenkäsittelyn sovellusongelmiin ja toisaalta alan keskeisiin menetelmiin. Tehtävät tulevat painottumaan luentomonisteiden ja laskarien käsittelemiin aiheisiin. Kuitenkin kirjan/oheismateriaalin lukeminen näiden aiheiden osalta on suositeltavaa. Tehtävät voivat olla esseetehtäviä, pieniä sanallisia tehtäviä ja laskutehtäviä. Laskutehtävät ovat samantyyppisiä kuin laskareissa. Tehtävinä voi olla esim. tietyn sovellusongelman selostaminen (mistä on kysymys), mitä menetelmiä ongelmaan on käytetty tai voidaan käyttää, jonkin (tietyn) menetelmän selostaminen yksityiskohtaisesti, tai eri menetelmien hyvien ja huonojen puolien vertaaminen. Voidaan myös edellyttää kykyä tulkita mitä oletuksia jossain mallissa tehdään, 8

ja arvioida kuinka paikkansapitäviä ne ovat ko. sovellusongelman kannalta. 9

1.10 Harjoitustyö Kurssin suoritukseen kuuluu pakollinen harjoitustyö. Jos haluaa kurssista suoritusmerkinnän toukokuun tenttitulosten yhteydessä, harjoitustehtävä on saatava hyväksytysti läpi toukokuun 5. päivään mennessä. Harjoitustyön tehtävänanto, arvostelu ja aiheet esitellään luennolla 7.2.2006, jolloin aiheet laitetaan myös esille osoitteeseen http://www.cis.hut.fi/opinnot/t-61.5020/harjtyo.html. Harjoitustyöhön liittyvissä asioissa ottakaa yhteyttä kurssin assistenttiin (mailto:sami.virpioja@tkk.fi). 10

2. JOHDANTO 2.1 Tilastollinen luonnollisen kielen käsittely Kieliteknologian osa-alue Sovelletaan informaatiotekniikan, tilastomatematiikan, ja tietojenkäsittelytieteen menetelmiä kieliteknologisiin ongelmiin. Rakennetaan malleja luonnollisesta kielestä niin, että niiden sisältämät todennäköisyysarvot estimoidaan (hyvin) suurista aineistoista (nk. korpuksista). Menetelmäaloja: koneoppiminen, hahmontunnistus, tilastotiede, todennäköisyyslasku, signaalinkäsittely Lähialoja: kielitiede, korpuslingvistiikka, fonetiikka, keskusteluntutkimus, tekoälytutkimus, kognitiotiede 11

2.2 Luonnollisen kielen käsittelyn sovelluskohteita Sovelluskohteita ovat mm. tiedonhaku tekstien järjestäminen ja luokittelu puheentunnistus luonnollisen kielen käyttöliittymät esimerkiksi tietokantoihin ja varauspalveluihin 12

2.3 Mallinnuksen peruskäsitteitä Malli Jonkin ilmiön tai datajoukon kattava kuvaus. Esim: sääntökokoelma joka kuvaa suomen morfologian. Malliperhe, malliavaruus joukko potentiaalisia malleja joita harkitaan ilmiön kuvaamiseen. Esim. niiden sääntöjen kokoelma jota voitaisiin periaatteessa käyttää kielen syntaksin kuvaamiseen. Mallin valinta prosessi jonka kautta päädytään johonkin tiettyyn malliin. Algoritmit usein tämäntyyppisiä: vuorotellaan mallin evaluointia ja mallin muuttamista, pyrkien kohti parempaa mallia. Oppiminen ks. mallin valinta. Probabilistinen malli(perhe) esittää ilmiöiden todennäköisyyksiä. Iteratiivinen vähän kerrassaan, toiston kautta tapahtuva 13

2.4 Yleisestä kielitieteestä Tavoiteena kuvata ja selittää toisaalta kielen (kielten) säännönmukaisuudet, toisaalta kielen (kielten) monimuotoisuus. Tavoitteena on konstruoida malli kielestä. Kielen ilmenemismuotoja mm. keskustelut visuaalisella kontaktilla ja ilman, viittomalla, yksinpuhelut, kirjoitetut artikkelit, kirjat, luennot, ja muut kielelliset viestit eri viestinvälineitä ja -ympäristöjä käyttäen. Laajemmin nähtynä kielen mallinnuksen tavoitteena on selvittää ja kuvata: Miten ihmiset käyttävät kieltä, mitä todella sanotaan? Mitä kielen käyttäjä tahtoo tai mihin pyrkii sanoessaan jotain? 14

2.5 Lähestymistapoja kieli-ilmiöihin Autonominen kielitiede: Selvitetään kielissä esiintyviä säännönmukaisuuksia ja variaatiota. Kognitiivinen kielitiede: Selvitetään kielen käsittelyyn liittyviä kognitiivisia mekanismeja, kuten sitä, miten kielikyky syntyy ja muotoutuu ihmisessä (ja muissa olennoissa), ja miten tuotamme ja ymmärrämme kieltä. Luonnollisen kielen käsittely tekoälyn osa-alueena: Kehitetään kielen ilmausten automaattisen tulkinnan ja tuottamisen mekanismeja. Selvitetään kielen ja maailman välisiä yhteyksiä ja kehitetään malleja niiden toiminnalliseen kuvaukseen. 15

2.6 Perinteinen lähestymistapa kielitieteessä Ominaisuus 1: Perinteisen lähestymistavan mukaan kieli on kuvattavissa joukkona kovia sääntöjä, esim. produktiosääntöjä. Esimerkki: Englannin substantiivilauseke NP koostuu valinnaisesta artikkelista DET=[a, the, an], valinnaisesta määrästä adjektiiveja ADJ=[brown, beautiful,...] ja substantiivista N=[flower, building, thought...]. NP => (Det)? (ADJ)* N Ominaisuus 2: Sääntöjen avulla pyritään kuvaamaan mitkä lauseet ovat hyvinmuodostettuja (sallittuja, kieliopin mukaisia) ja mitkä väärinmuodostettuja (kiellettyjä, kieliopin vastaisia). Mallinnuksella on kaksi tavoitetta: kattavuus ja tarkkuus. 16

2.7 Kielen mallintamisen haasteita Monitulkintaisuudet Tulkinnan kontekstuaalisuus Kielen tulkinnan sumeus Jatkuvien ja diskreettien ilmiöiden välinen suhde Kielen muuttuminen Tulkinnassa tarvittavan tietämyksen määrä ja laatu Multimodaalinen kommunikaatio Tulkinnan subjektiivisuus ja intersubjektiivisuus 17

2.8 Probabilistinen esitystapa Probabilistisessa mallissa malliperheenä todennäköisyydet. (vertailukohta: kaksiarvoinen esitystapa jossa asiat ovat joko-tai, tosia tai epätosia Esitystapa mahdollistaa tiedon esittämisen silloinkin, kun ei voida muodostaa kategorista sääntöä, mutta on olemassa preferenssi: Subjekti on ennen predikaattia 90% tapauksista P(A)=0.9. Kova sääntö: P(A)=1 tai P(A)=0. Probabilistisessa representaatiossa tiedon kerääminen ja mallin päivittäm voi tapahtua iteratiivisesti, vähitellen. Lisäesimerkit tarkentavat aiemmin muodostettua alustavaa kuvaa. 18

2.9 Probabilistisen esitystavan ja sumean esitystavan suhde Probabilistinen näkökulma: kuinka todennäköinen jokin tapahtuma on. Sumeus: missä määrin jokin alkio kuuluu johonkin joukkoon, tms. 19

2.10 Perusteluja datasta oppimiselle, 1 Miksi kannattaa muodostaa malleja automaattisesti, datasta oppimalla tai estimoimalla (eli automaattisesti), eikä asiantuntijatietoa kirjaamalla? Data on halpaa ja sitä on paljon, myös sähköisesti. Voidaan saada mallit aikaan nopeammin / vähemmällä ihmistyövoimalla / pienemmin kustannuksin. Kielen muuttuessa mallit voidaan estimoida uudestaan helposti. Asiantuntijatietämys hankalaa tuottaa tai kerätä (mm. konsistenssiongelmat). Asiantuntijatietoa käytettäessä malliperhettä rajoittaa ihmisbias. 20

2.11 Perusteluja datasta oppimiselle, 2 Koneiden kognitiiviset ominaisuudet eroavat ihmisen vastaavista. Toteutettaessa kielikykyä koneille ei tarvitse rajoittua ihmiselle helposti ymmärrettäviin malleihin. Aineistolähtöinen keskittää resurssit niihin ilmiöihin jotka todella esiintyvät. Resurssien käyttö suhteessa ilmiön keskeisyyteen aineistossa. 21

Onnistuneen oppivan mallinnuksen seurauksia Resurssien käytön tehostuminen: Voidaan ulottaa mallinnus laajempaan kielijoukkoon, ja yksittäisen kielen sisällä eri osa-alueisiin. Laadullinen parannus, koska koneellisesti pystytään käymään läpi suuri joukko malleja ja koska mallin valinnassa ei ole inhimillistä biasta (ainakaan samassa määrin kuin käsin muodostetuissa malleissa). Riskejä ja haasteita: Datan valinta ja kattavuus, sopivien malliperheiden määrittely, optimointimenetelmien tehokkuus. 22

2.12 Ihmisen kielikyky ja kielen oppiminen Miten kielikyky ihmisellä syntyy ja muotoutuu? Mikä osa on synnynnäistä, mitä opitaan? Rationalistinen näkemys: Kielikyky on synnynnäinen, ja oma erillinen kielimodulinsa Keskeisiltä osin ihmismielen ja kielen rakenne on kiinnitetty (oletettavasti geneettisesti määrätty). Perustelu: argumentti stimuluksen vähyydestä (mm. Chomsky 1986). Kannattajia mm: Chomsky, Pinker. Vrt. tekoälytutkimus 1970-luvulla: tietämyksen koodaaminen käsin. Saatiin aikaan pienimuotoisia älykkään oloisesti käyttäytyviä systeemejä (mm. Newell & Simon: Blocks world). Systeemit usein käsin koodattuja sääntöpohjaisia järjestelmiä. Näiden laajentaminen on kuitenkin osoittautunut hyvin hankalaksi. 23

Empiristinen näkemys: Kieli opitaan, kielikyky toteutuu osana yleistä kognitiivista systeemiä Amerikkalaiset strukturalistit. Zellig Harris (1951) jne: tavoitteena kielen rakenteen löytäminen automaattisesti analysoimalla suuria kieliaineistoja. Ajatus siitä että hyvä rakennekuvaus (grammatical structure) on sellainen joka kuvaa kielen kompaktisti. Nykyisin melko yleisen näkemyksen mukaan mieli ei ole täysin tyhjä taulu, vaan oletetaan että tietyt (1) rakenteelliset preferenssit yhdessä (2) yleisten kognitiivisten oppimisperiaatteiden ja (3) sopivanlaisen havaintoaineiston kanssa johtavat kielen oppimiseen. Vrt. adaptiivisten menetelmien tutkimus, havaintopsykologia ja laskennallinen neurotiede, ihmisen havaintomekanismien ja piirreirroittimien muotoutuminen aistisyötteen avulla (plastisiteetti). 24

Avoimia kysymyksiä: Tarvittavan prioritiedon määrä ja muoto? Mitä ovat tarvittavat oppimisperiaatteet? Minkälaista syötettä ja missä järjestyksessä tarvitaan? 25

Käytännöllinen lähestymistapa Tavoite voi olla puhtaasti käytännöllinen: kehittää toimivia, tehokkaita kieliteknologisia menetelmiä ja järjestelmiä. Eri menetelmiä sovellettaessa ei välttämättä oteta rationalismi-empirismivastakkainasetteluun lainkaan kantaa. Aineistoihin (korpuksiin) pohjautuvat ja tietämysintensiiviset mallit ovat tällöin samalla viivalla. Vertailukriteerit: lopputuloksen laatu lopullisen mallin tilankäytön tehokkuus ja riittävä nopeus (esim. reaaliaikaiset sovellukset) mallin konstruoinnin tai oppimisen tehokkuus (tarvittava ihmistyö, prosessointitila ja -aika) 26

Usein kohteena jokin spesifi kieliteknologinen sovellusongelma, jonka ratkaisemiseksi riittää vain osittainen kielen mallinnus. Koko kielikyvyn implementointi luultavasti edellyttäisi koko kognitiivisen välinei ja tekoälyn toteuttamista, mukaanlukien maailmantiedon kerääminen ja esittäm 27

3. MATEMAATTISIA PERUSTEITA 3.1 Todennäköisyyslasku Peruskäsitteitä Todennäköisyysavaruus (probability space): Tapahtuma-avaruus Ω diskreetti tai jatkuva Todennäköisyysfunktio P Kaikilla tapahtuma-avaruuden pisteillä A on todennäköisyys: 0 P (A) 1 Todennäköisyysmassa koko avaruudessa on A P (A) = 1 28

3.2 Ehdollinen todennäköisyys A= asiaintila jonka todennäköisyyden haluamme selvittää B= meillä oleva ennakkotieto tilanteesta, ts. tähän asti tapahtunutta Ehdollinen todennäköisyys, A:n todennäköisyys ehdolla B: P (A B) = P (A, B) P (B) (1) Oletetaan että on jo heitetty kolikkoa kerran ja saatu kruuna. Mikä nyt on todennäköisyys että saadaan 2 kruunaa kolmen heiton sarjassa? Alunperin mahdolliset heittosarjat: {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT} Prioritiedon B perusteella enää seuraavat sarjat mahdollisia: { HHH, HHT, HTH, HTT } 29

P (A B) = 1/2 Ketjusääntö P (A 1,...A n ) = P (A 1 )P (A 2 A 1 )P (A 3 A 1, A 2 )... P (A n A 1,..., A n 1 ) Riippumattomuus Tilastollinen riippumattomuus: P (A, B) = P (A)P (B) (2) Sama ilmaistuna toisin: se että saamme lisätiedon B ei vaikuta käsitykseemme A:n todennäköisyydestä, eli: P (A) = P (A B) Huom: tilastollinen riippuvuus kausaalinen riippuvuus! Esim. jäätelön syönnin ja hukkumiskuolemien välillä on tilastollinen riippu- 30

vuus. (Yhteinen kausaalinen tekijä ehkä lämmin kesäsää.) 31

3.3 Bayesin kaava Paljon käytetty Bayesin kaava perustuu ajatukseen siitä, että koska kahden tapahtuman yhdessä esiintymisessä ei ole kyse kausaalisesta riippuvuudesta, tapahtumien järjestystä voidaan vaihtaa: P (A, B) = P (B)P (A B) = P (A)P (B A) (3) Eli P (B A) voidaan laskea P (A B):n avulla. P (B A) = P (A, B) P (A) = P (B)P (A B) P (A) (4) 32

Todennäköisimmän tapahtuman määrittely Jos A = lähtötilanne, joka ei muutu (esim. jo tapahtuneet asiat), ja haluamme ainoastaan tietää, mikä tulevista tapahtumista B on todennäköisin, P (A) on normalisointitekijä joka voidaan jättää huomiotta: arg max B P (B A) = arg max B P (B)P (A B) P (A) = arg max P (B)P (A B) (5) B 33

3.4 Satunnaismuuttuja Periaate: satunnaismuuttuja on se asia, josta ollaan kiinnostuneita, ja joka kussakin kokeessa saa jonkin arvon. Jatkuva-arvoinen satunnaismuuttuja: X : Ω => R n, jossa R on reaalilukujen joukko ja n on avaruuden dimensio. Jos n > 1 puhutaan myös satunnaisvektorista. Diskreetti satunnaismuutuja: X : Ω => S, jossa S on numeroituva R:n osajoukko. Indikaattorimuuttuja: X : Ω => 0, 1. Todennäköisyysjakauma probability mass function pmf p(x) kertoo miten todennäköisyysmassa jakautuu satunnaismuuttujan eri arvojen kesken. Jakauman massa aina = 1 (muussa tapauksessa ei ole tn-jakauma). 34

3.5 P:n laskeminen Yleisesti P on tuntematon, ja estimoitava datasta, tyypillisesti erilaisten tapahtumien frekvenssejä laskemalla. Koko todennäköisyysjakauman estimoinnin sijaan on mahdollista käyttää parametrisia malleja todennäköisyysjakaumille: tällöin estimoidaan vain jakauman parametrit. Bayeslaisessa estimoinnissa datan lisäksi huomioidaan prioritieto. 35

3.6 Bayesläisestä tilastotieteestä Tähän asti on tarkasteltu todennäköisyyttä frekventistisestä näkökulmasta. Bayesläinen tulkinta: todennäköisyys kuvastaa uskomuksen astetta. Bayesläises mallinnuksessa myös prioritieto eli uskomukset ennen datan näkemistä ilmaistaan eksplisiittisesti. Esimerkki 1: ainutkertaiset tapahtumat Mikä on todennäköisyys sille että maailmankaikkeus loppuu huomenna? Frekventisti: ei vastausta, koska koetta ei voi toistaa N kertaa. Bayesläinen: subjektiivinen todennäköisyys (uskomus) on olemassa. Esimerkki 2: taskussani olevien kolikoiden rahallinen arvo Arvo on jokin täsmällinen luku, mutta tietoni siitä ovat vajavaiset. Uskomukseni: Arvo on varmasti positiivinen, ja lähes varmasti alle 20 euroa. 36

3.7 Bayesläinen päätösteoria Optimaalinen tapa mallin (teorian) valintaan: valitaan malli (teoria), joka uskottavimmin selittää jonkin havaintojoukon. Ts. maksimoidaan mallin todennäköisyys kun tunnetaan data ts. mallin posterioritodennäköisyys: P (Malli data) Esimerkki 1: Mallin parametrien valinta Kolikonheitto. Olkoon malli M m joka sanoo P (kruuna) = m, 0 m 1. Olkoon s jokin heittojono jossa i kruunaa, j klaavaa. P (s M m ) = m i (1 m) j (6) Frekventistinen näkökulma: valitaan malli joka maksimoi datan todennäköisyyden (MLE, maximum likelihood estimate): 37 arg max m P (s M m) (7)

Havainnot: 10 heittoa joista 8 kruunaa. Frekventistinen lähestymistapa (MLE): m = i = 0.8 i+j Bayesläinen lähestymistapa: kolikkoa tarkastelemalla näyttäisi siltä että kolikko on tasapainoinen, siis dataa katsomatta vaikuttaisi todennäköiseltä että m = 1/2 tai niillä main. Tämä uskomus voidaan liittää malliin priorijakaumana mallien yli. 38

Valitaan prioriuskomuksiamme kuvastava priorijakauma Eräs sopiva priorijakauma olisi gaussinen jakauma jonka keskipiste (ja siis maksimi) on 1/2:ssa. Valitaan kuitenkin prioriksi polynominen jakauma, jonka keskipiste (korkein kohta) 1/2 ja pinta-ala 0 ja 1 välillä on 1: p(m m ) = 6m(1 m) Posterioritodennäköisyys Bayeslaisessa lähestymistavassa: P (M m s) = P (s Mm)P (Mm) P (s) = mi (1 m) j 6m(1 m) P (s) jossa P (s) on datan prioritodennäköisyys. Oletetaan, ettei se riipu mallista M m joten voidaan jättää huomiotta mallia valittaessa. Maksimoidaan osoittaja etsimällä derivaatan nollakohta m:n suhteen, kun i = 8 ja j = 2. Tämä on arg max m P (M m s) = 3 4 (8) 39

Mallin estimointi on-line Aloitetaan pelkällä priorimallilla, ja aina uuden havainnon tultua päivitetään malli posteriorimalliksi; ns. MAP (Maximum A Posteriori) -estimointi). Taustaoletus: peräkkäiset havainnot ovat riippumattomia. 40

Esimerkki 2: Teorioiden tai malliperheiden vertailu Havainnot: joukko aidan takaa kuultuja kruuna ja klaava - sanoja. Malli/Teoria M 1(θ): joku heittää yhtä kolikkoa, joka saattaa olla painotettu, ja mallin vapaa parametri θ on painotuksen voimakkuus. Malli/teoria M 2: joku heittää kahta tasapainoista kolikkoa, ja sanoo kruuna jos molemmat kolikot ovat kruunuja, ja klaava muuten. Mallin M 2 mukaan heittojonon, jossa on i kruunaa ja j klaavaa todennäköisyys on siis: P (data M2) = ( 3 4 )i ( 1 4 )j Tehdään oletus: molemmat teoriat/mallit yhtä todennäköisiä a priori (ts. ennen kuin on saatu yhtään havaintoa): P (M1) = P (M2) = 0.5 41

Bayesin kaavasta: P (M1 data) = P (data M1)P (M1) P (M2 data) = P (data) P (data M2)P (M2) P (data) Halutaan selvittää kumpi malleista on uskottavampi. Lasketaan niiden uskottavuuksien välinen suhde: P (M1 data) P (M2 data) = P (data M1)P (M1) P (data M2)P (M2) Jos suhdeluku on > 1, valitaan malli M1, jos < 1, malli M2 (Vastaukset eri heittosarjoilla: taulukko 2.1 kirjan sivulla 58) 42

3.8 Shannonin informaatioteoria Claude Shannon, 1948 ( A Mathematical Theory of Communication ) Tavoitteena maksimoida informaation siirtonopeus kohinaisella kommunikaatikanavalla Teoreettinen maksimi datan pakkaamiselle = Entropia H Kanavan kapasiteetti C: jos kapasiteettia ei ylitetä, virheiden todennäköisyys saadaan niin alhaiseksi kuin halutaan. Nykyiset tiedonpakkausmenetelmät hyödyntävät näitä teoreettisia tuloksia. 43

Entropia Olkoon p(x) satunnaismuuttujan X jakauma diskreetin symbolijoukon (aakkoston) A yli: p(x) = P (X = x), x A (Määritellään 0 log 0 = 0). H(p) = H(X) = x A p(x) log 2 p(x) (9) Entropia ilmaistaan tavallisesti biteissä (kaksikantainen logaritmi), mutta muunkantaiset logaritmit yhtä lailla ok. Jos symbolijoukko on tasajakautunut, entropia on maksimissaan. 44

Esimerkki: 8-sivuisen nopan heittäminen, kommunikoitava yksittäisen heiton tulos. H(X) = 8 i=1 p(i) log p(i) = 8 1 i=1 log 1 8 8 = log 1 = log8 = 3bittiä 8 Pätee yleisesti: jos viestin todennäköisyys on p(i), sen optimaalinen koodinpituus on log p(i) bittiä. Vaihtoehtoinen kirjoitustapa entropian kaavalle: H(X) = x A p(x) log p(x) = 1 x A p(x) log p(x) = E(log 1 ) p(x) ts. entropia = optimaalisen koodinpituuden odotusarvo, eli montako bittiä keskimäärin on käytettävä yhden viestin välittämiseen. 45

Yhteisinformaatio (Mutual Information, MI) Yhteisinformaatio I muuttujien X ja Y välillä on I(X; Y ) = H(X) H(X Y ) = H(Y ) H(Y X) (10) 46

Kohinainen kanava-malli Binäärinen kommunikointikanava, lähetetään 1 tai 0. p = todennäköisyys jolla kanavalla lähetetty bitti kääntyy päinvastaiseksi. Kanavan kapasiteetti C on tällöin: C = max I(X; Y ) = 1 H(p) (11) p(x) 47