Luonnollisten kielten tilastollinen käsittely. T (3 ov) L. Kevät 2002

Samankaltaiset tiedostot
Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät Luentokalvot: Krista Lagus ja Timo Honkela

Luonnollisen kielen tilastollinen käsittely. T (5 op) L. Kevät Luentokalvot: Krista Lagus ja Timo Honkela

HAHMONTUNNISTUKSEN PERUSTEET

HAHMONTUNNISTUKSEN PERUSTEET

Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Luento 2, Luentokalvot: Krista Lagus ja Timo Honkela

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Luento 2, Luentokalvot: Krista Lagus ja Timo Honkela

Luonnollisten kielten tilastollinen käsittely. T (3 ov) L. Kevät 2002

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

T DATASTA TIETOON

30A02000 Tilastotieteen perusteet

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

JOHDATUS TEKOÄLYYN TEEMU ROOS

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Pinoautomaatit. TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 6. lokakuuta 2016 TIETOTEKNIIKAN LAITOS

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Sovellettu todennäköisyyslaskenta B

&idx=2&uilang=fi&lang=fi&lvv=2015

&idx=2&uilang=fi&lang=fi&lvv=2015

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto

Nollasummapelit ja bayesilaiset pelit

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Sovellettu todennäköisyyslaskenta B

Suotuisien tapahtumien lukumäärä Kaikki alkeistapahtumien lukumäärä

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

FUNKTIONAALIANALYYSIN PERUSKURSSI Johdanto

4. Todennäköisyyslaskennan kertausta

dx=2&uilang=fi&lang=fi&lvv=2015

Talousmatematiikan perusteet: Johdanto. Kurssin tavoitteet Käytännön järjestelyt Suosituksia suorittamiseen

TN-IIa (MAT22001), syksy 2017

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

JOHDATUS TEKOÄLYYN LUENTO 4.

811120P Diskreetit rakenteet

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Jatkuvat satunnaismuuttujat

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

on rekursiivisesti numeroituva, mutta ei rekursiivinen.

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

Todennäköisyyden ominaisuuksia

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

The Metropolis-Hastings Algorithm

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

8. Kieliopit ja kielet

ABHELSINKI UNIVERSITY OF TECHNOLOGY

4.0.2 Kuinka hyvä ennuste on?

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

OPETUSSUUNNITELMALOMAKE

OPETUSSUUNNITELMALOMAKE

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

8. Kieliopit ja kielet 1 / 22

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus matematiikkaan

Johdatus tn-laskentaan perjantai

Sovellettu todennäköisyyslaskenta B

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Mat Sovellettu todennäköisyyslasku A

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Johdatus matematiikkaan

tilastotieteen kertaus

811120P Diskreetit rakenteet

ELEC-C5210 Satunnaisprosessit tietoliikenteessä

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

3. laskuharjoituskierros, vko 6, ratkaisut

Yleistä tietoa kokeesta

Harjoitus 2: Matlab - Statistical Toolbox

35C00250 Hankintojen johtaminen Kurssin esittely

Mat Sovellettu todennäköisyyslasku A

Onko kuvaukset injektioita? Ovatko ne surjektioita? Bijektioita?

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

1. Tilastollinen malli??

MS-A0102 Differentiaali- ja integraalilaskenta 1

Todistus: Aiemmin esitetyn mukaan jos A ja A ovat rekursiivisesti lueteltavia, niin A on rekursiivinen.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Sovellettu todennäköisyyslaskenta B

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tutkimustiedonhallinnan peruskurssi

Onko empiirinen käänne vain empirian kääntötakki?

Helsinki University of Technology

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Transkriptio:

Luonnollisten kielten tilastollinen käsittely T-61.281 (3 ov) L Kevät 2002 Luennot: Laskuharjoitukset: Krista Lagus Vesa Siivola

1. YLEISTÄ KURSSISTA.................... 1 1.1 Kurssin suorittaminen................ 1 1.2 Ilmoittautuminen.................. 1 1.3 Tiedotukset..................... 1 1.4 Luennot....................... 3 1.5 Laskuharjoitukset.................. 3 1.6 Kirja......................... 5 1.7 Luentomonisteet.................. 6 1.8 Suhde muihin opintoihin.............. 7 1.9 Tentti........................ 8 1.10 Harjoitustyö..................... 9 2. JOHDANTO......................... 10 2.1 Mitä on tilastollinen luonnollisen kielen käsittely?. 10 2.2 Mallinnuksen peruskäsitteitä............ 12 2.3 Yleisestä kielitieteestä................ 13 2.4 Perinteinen lähestymistapa kielitieteessä...... 15 2.5 Kategoriset (diskreetit) vs. jatkuvat representaatiot 18 2.6 Probabilistinen esitystapa.............. 19 2

2.7 Datasta oppiminen................. 20 2.8 Ihmisen kielikyky ja kielen oppiminen........ 23 3. MATEMAATTISIA PERUSTEITA.............. 28 3.1 Todennäköisyyslasku................ 28 3.2 Ehdollinen todennäköisyys............. 30 3.3 Bayesin teoreema.................. 33 3.4 Satunnaismuuttuja................. 35 3.5 Odotusarvo ja varianssi............... 36 0

1. YLEISTÄ KURSSISTA 1.1 Kurssin suorittaminen Kurssi suoritetaan tekemällä harjoitustyö ja läpäisemällä tentti. 1.2 Ilmoittautuminen Ilmoittautukaa kurssille www-topin avulla. Kieliteknologian opetuksen verkoston (KIT) opiskelijat voivat ilmoittautua sähköpostitse kurssin luennoijalle, kunnes saavat opintokirjannumeron TKK:lle. 1.3 Tiedotukset 1

Kurssista tiedotetaan webissä http://www.cis.hut.fi/opinnot/t-61.281, ryhmässä news://nntp.tky.hut.fi/opinnot.tik.informaatiotekniikka sekä CIS-laboratorion ilmoitustaululla 3.krs aulassa B-käytävän suulla. 2

1.4 Luennot Luennot pidetään keskiviikkoisin kello 10 12 salissa T2. Luennoitsija opettava tutkija TKT Krista Lagus (mailto:krista.lagus@hut.fi). Luentokalvot ovat luennon jälkeen nähtävillä osoitteessa http://www.cis.hut.fi/opinnot/t-61.281/kalvot.pdf. Luennoitsijan vastaanotto on tarvittaessa välittömästi luennon jälkeen T- talossa huoneessa C310. 1.5 Laskuharjoitukset Laskuharjoitukset tiistaisin kello 8 10 salissa U264 alkaen 22.1.2001. Harjoitukset pitää DI Vesa Siivola (mailto:vesa.siivola@hut.fi). 3

Tehtävät laitetaan edellisenä perjantaina nähtäville osoitteeseen http://www.cis.hut.fi/opinnot/t-61.281/laskarit.html. 4

1.6 Kirja Kurssi seuraa kirjaa: Christopher D. Manning, Hinrich Schütze: Foundations of statistical natural language processing, MIT Press, 1999. Kirja löytyy TKK:n pääkirjastosta ja tietotekniikan kirjastosta. Yliopiston kirjakauppa (TKK) tilaa kirjaa haluttaessa sitovilla etukäteistilauksil (hinta n. 600 mk). Kirjan hinta muutamassa web-kaupassa: http://www.uk.bol.com/ noin 74 euroa (sis. kuljetus) http://www.amazon.com/ noin 87 euroa (sis. kuljetus) http://www.amazon.co.uk/ noin 79 euroa (sis. kuljetus) Tutustumiskappale on nähtävillä laboratorion sihteerin Tarja Pihamaan huoneessa B326 olevassa harmaassa peltisessä vetolaatikostossa. 5

1.7 Luentomonisteet Laskuharjoitukset ratkaisuineen ja luentokalvot ilmestyvät opetusmonisteina. Materiaalia voi myös lainata luennoitsijalta ja assarilta itse kopioitavaksi. Vapaaehtoinen kurssitoimittaja? 6

1.8 Suhde muihin opintoihin Kurssi soveltuu osaksi seuraavia opintoja Kieliteknologian pää- ja sivuaine TKK:lla (Tik, Sähkö) Informaatiotekniikan pää- ja sivuaineen valinnaiset opinnot KIT-verkoston opinnot (mm. Helsingin Yliopistolla) Muut aiheeseen liittyvät jatko-opinnot TKK:lla ja muualla (hyväksytettäv erikseen) 7

1.9 Tentti Tentti järjestetään 14.toukokuuta klo 13-16. Lisäksi syksyn tenttikausilla järjestetään yksi tai kaksi tenttiä. Tentissä saa olla mukana matemaattinen kaavakokoelma ja tavallinen funktiolaskin. Tenttiin ilmoittaudutaan normaalisti eli Topin kautta viimeistään 2 päivää etukäteen. 8

1.10 Harjoitustyö Kurssin suoritukseen kuuluu pakollinen harjoitustyö. Harjoitustyön tehtävänanto, arvostelu ja aiheet esitellään luennolla myöhemmin keväällä, jolloin aiheet laitetaan myös esille osoitteeseen http://www.cis.hut.fi/opinnot/t-61.281/harjtyo.html. 9

2. JOHDANTO 2.1 Mitä on tilastollinen luonnollisen kielen käsittely? Kieliteknologian osa-alue Sovelletaan informaatiotekniikan, tilastomatematiikan, ja tietojenkäsittelytieteen menetelmiä kieliteknologisiin ongelmiin. Malliperheet sisältävät todennäköisyyksiä, jotka estimoidaan hyvin suurista aineistoista (korpuksista). Sovelluskohteita: tiedonhaku, tekstien järjestäminen ja luokittelu, puheentunnistus, luonnollisen kielen käyttöliittymät tietokantoihin ja varauspalveluihin Menetelmäaloja: koneoppiminen, hahmontunnistus, tilastotiede, todennäköisyyslasku, signaalinkäsittely Lähialoja: lingvistiikka, korpuslingvistiikka, fonetiikka, keskusteluntutkimus, tekoälyntutkimus, kognitiotiede 10

11 Nykykäsitys: Lingvististä tietoa kielestä hyödynnetään prioritietona, sen sijaan että lähdettäisiin täysin puhtaalta pöydältä.

2.2 Mallinnuksen peruskäsitteitä Malli Jonkin ilmiön tai datajoukon kattava kuvaus. Esim: sääntökokoelma joka kuvaa suomen morfologian. Malliperhe, malliavaruus joukko potentiaalisia malleja joita harkitaan ilmiön kuvaamiseen. Esim. niiden sääntöjen kokoelma jota voitaisiin periaatteessa käyttää kielen syntaksin kuvaamiseen. Mallin valinta prosessi jonka kautta päädytään johonkin tiettyyn malliin. Algoritmit usein tämäntyyppisiä: vuorotellaan mallin evaluointia ja mallin muuttamista, pyrkien kohti parempaa mallia. Oppiminen ks. mallin valinta. Probabilistinen malli(perhe) representoi ilmiöiden todennäköisyyksiä. Algoritmi menetelmä jolla edetään malliavaruudessa, kokeillen eri malleja. Iteratiivinen vähän kerrassaan, toiston kautta tapahtuva 12

2.3 Yleisestä kielitieteestä Tavoiteena kuvata ja selittää toisaalta kielen (kielten) säännönmukaisuudet, toisaalta kielen (kielten) monimuotoisuus. Oppivien menetelmien terminologialla ilmaistuna: tavoiteena on konstruoida malli kielestä. Kielen ilmenemismuotoja mm. keskustelut visuaalisella kontaktilla ja ilman, viitomalla, yksinpuhelut, kirjoitetut artikkelit, kirjat, luennot, ja muut kielelliset viestit eri viestinvälineitä ja -ympäristöjä käyttäen. Laajemmin nähtynä kielen mallinnuksen tavoitteena on selvittää ja kuvata: Miten ihmiset käyttävät kieltä, mitä todella sanotaan? Mitä kielenkäyttäjä tahtoo tai mihin pyrkii sanoessaan jotain? 13

Kuvattavan ilmiön osa-alueita: Kogitiiviset mekanismit, eli miten kielikyky syntyy ja muotoutuu ihmisessä (ja muissa olennoissa), ja miten tuotamme ja ymmärrämme kieltä. Kielen ilmausten ja maailman väliset yhteydet (entä maailmantiedon kuvaus?) Kielessä esiintyvät säännönmukaisuudet. 14

2.4 Perinteinen lähestymistapa kielitieteessä Ominaisuus 1: Perinteisen lähestymistavan mukaan kieli on kuvattavissa joukkona kovia sääntöjä, esim. produktiosääntöjä. <= MALLIPERHE Esimerkki: Englannin substantiivilauseke NP koostuu valinnaisesta artikkelista DET=[a, the, an], valinnaisesta määrästä adjektiiveja ADJ=[brown, beautiful,...] ja substantiivista N=[flower, building, thought...]. NP => (Det)? (ADJ)* N Ominaisuus 2: Sääntöjen avulla pyritään kuvaamaan mitkä lauseet ovat hyvinmuodostettuja (sallittuja, kieliopin mukaisia) ja mitkä väärinmuodostettuja (kiellettyjä, kieliopin vastaisia). <= MALLINNUKSEN TAVOITE Mallinnuksen tavoite aina kahtalainen: kattavuus ja tarkkuus. Kaikki kieliopit vuotavat (Edward Sapir, 1921) 15

Täydellisen kuvauksen saavuttamisen esteinä ainakin kielellinen variaatio (yksilöiden ja kieliyhteisöjen välillä), luovuus, kielen muuttuminen. Kritiikki 1: Onko kovan kieliopillinen-eikieliopillinen rajan etsiminen hyvin määritelty ongelma, ts., onko sellaista rajaa edes olemassa, vai onko kyse aidosti sumeasta ilmiöstä? On paljon lauseita joiden kieliopillisuudesta voidaan olla montaa mieltä, ja ollaankin. => Todellisuudessa kovaa rajaa ei ehkä ole. Kritiikki 2: Onko kieliopillisuus relevantti ja riittävä kielen kuvauksen taso? Esim. lause Colourless green ideas sleep furiously. (Chomsky) on syntaktisesti ok, mutta semanttisesti ei kovin mielekäs tai ainakaan tavanomainen. Ratkaisuyritys: määritellään myös semanttisia sääntöjä. Ongelmia kuitenkin tulee, mm. sanojen metaforisen käytön kanssa. Ehkä kovat säännöt ylipäänsä eivät ole oikea malliperhe? Esimerkki: 16

Sääntö: niellä-sanan subjektina täytyy olla elävä olento Lause: Supernova nielaisi planeetan. 17

2.5 Kategoriset (diskreetit) vs. jatkuvat representaatiot a/ä p/b: äänisignaalissa jatkuva muutos, foneemitasolla havainto on kategorinen: havaitaan joko a tai ä, ja havainto muuttuu yhtäkkisesti jossain kohti signaalin muuttuessa vähitellen. Havainttaessa puhetta muutos jatkuvalta representaation tasolta (äänisignaali) diskreetiksi tai kategoriseksi (foneemi). Puhetta tuotettaessa päinvastainen muutos. Todellisissa systeemeissä eroa diskreetin ja jatkuvan välillä ei ole, koska: Kaikki todelliset systeemit ovat kohinaisia (fysiikan perusteet) kohinainen kommunikaatikanava aina diskretoi signaalin (Shannonin informaatiteoria) Sen sijaan aidosti relevantti kysymys on, onko representaatioavaruuden pisteiden välille määritelty etäisyysrelaatio (metriikka) vai ei. Usein tarkoitetaankin tätä silloin kun puhutaan jatkuvista representaatioista. 18

2.6 Probabilistinen esitystapa Probabilistisessa mallissa malliperheenä todennäköisyydet. (vertailukohta: kaksiarvoinen esitystapa jossa asiat ovat joko-tai, tosia tai epätosia Esitystapa mahdollistaa tiedon esittämisen silloinkin kun ei voida muodostaa kategorista sääntöä, mutta on olemassa preferenssi: Subjekti on ennen predikaattia 90% tapauksista P(A)=0.9. Kova sääntö: P(A)=1 tai P(A)=0. Probabilistisessa representaatiossa tiedon kerääminen ja mallin päivittäm voi tapahtua iteratiivisesti, vähitellen. Lisäesimerkit tarkentavat aiemmin muodostettua alustavaa kuvaa. 19

2.7 Datasta oppiminen Periaatteellinen lähtökohta mallinnukseen Mallit eivät ole tosia tai epätosia. Ne ovat parempia tai huonompia. Paremmuus mitataan suurista joukoista todellista dataa kokonaisuutena. Vertailukohta tai onnistumisen mitta ei ole vastaavuus lingvistisen intuition kanssa, vaan ilmiön/datan optimaalinen kuvaus. Perustelu oppimiselle Miksi kannattaa muodostaa malleja automaattisesti, datasta oppimalla tai estimoimalla (eli automaattisesti), eikä asiantuntijatietoa kirjaamalla? Data on halpaa ja sitä on paljon, myös sähköisesti. Voidaan saada mallit aikaan nopeammin / vähemmällä ihmistyövoimalla / pienemmin kustannuksin. Kielen muuttuessa mallit voidaan estimoida uudestaan helposti. 20

Asiantuntijatietämys hankalaa tuottaa tai kerätä (mm. konsistenssiongelmat). Asiantuntijatietoa käytettäessä malliperhettä rajoittaa ihmisbias. Koneiden kognitiiviset ominaisuudet eroavat ihmisen vastaavista. Toteutettaessa kielikykyä koneille ei tarvitse rajoittua ihmiselle helposti ymmärrettäviin malleihin. Aineistolähtöinen keskittää resurssit niihin ilmiöihin jotka todella esiintyvät. Resurssien käyttö suhteessa ilmiön keskeisyyteen aineistossa. 21

Onnistuneen oppivan mallinnuksen seurauksia Resurssien käytön tehostuminen: Voidaan ulottaa mallinnus laajempaan kielijoukkoon, ja yksittäisen kielen sisällä eri osa-alueisiin. Laadullinen parannus, koska koneellisesti pystytään käymään läpi suuri joukko malleja ja koska mallin valinnassa ei ole inhimillistä biasta (ainakaan samassa määrin kuin käsin muodostetuissa malleissa). Riskejä ja haasteita Datan valinta ja kattavuus, sopivien malliperheiden määrittely, optimointimenetelmien tehokkuus. 22

2.8 Ihmisen kielikyky ja kielen oppiminen Miten kielikyky ihmisellä syntyy ja muotoutuu? Mikä osa on synnynnäistä, mitä opitaan? Rationalistinen näkemys: Kielikyky on synnynnäinen, ja oma erillinen kielimodulinsa Keskeisiltä osin ihmismielen ja kielen rakenne on kiinnitetty (oletettavasti geneettisesti määrätty). Perustelu: argumentti stimuluksen vähyydestä (mm. Chomsky 1986). Kannattajia mm: Chomsky, Pinker. Vrt. tekoälyntutkimus 1970-luvulla: tietämyksen koodaaminen käsin. Saatiin aikaan pienimuotoisia älykkään oloisesti käyttäytyviä systeemejä (mm. Newell & Simon: Blocks world). Systeemit usein käsin koodattuja sääntöpohjaisia järjestelmiä. Näiden laajentaminen on kuitenkin osoittautunut hyvin hankalaksi. 23

Empiristinen näkemys: Kieli opitaan, kielikyky toteutuu osana yleistä kognitiivista laitteistoa Amerikkalaiset strukturalistit. Zellig Harris (1951) jne: tavoitteena kielen rakenteen löytäminen automaattisesti analysoimalla suuria kieliaineistoja. Ajatus siitä että hyvä rakennekuvaus (grammatical structure) on sellainen joka kuvaa kielen kompaktisti. Nykyisin melko yleisen näkemyksen mukaan mieli ei ole täysin tyhjä taulu, vaan oletetaan että tietyt 1. rakenteelliset preferenssit yhdessä 2. yleisten kognitiivisten oppimisperiaatteiden ja 3. sopivanlaisen stimulin kanssa johtavat kielen oppimiseen. Vrt. adaptiivisten menetelmien tutkimus, havaintopsykologia ja laskennallinen neurotiede, ihmisen havaintomekanismien ja piirreirroittimien muotoutuminen aistisyötteen avulla (plastisiteetti). 24

Avoimia kysymyksiä: Tarvittavan prioritiedon määrä ja muoto? Mitä ovat tarvittavat oppimisperiaatteet? Minkälaista syötettä ja missä järjestyksessä tarvitaan? 25

Käytännöllinen lähestymistapa Tavoite voi olla puhtaasti käytännöllinen: kehittää toimivia, tehokkaita kieliteknologisia menetelmiä ja järjestelmiä. Eri menetelmiä sovellettaessa ei välttämättä oteta rationalismi-empirismivastakkainasetteluun lainkaan kantaa. Aineistoihin (korpuksiin) pohjautuvat ja tietämysintensiiviset mallit ovat tällöin samalla viivalla. Vertailukriteerit: lopputuloksen laatu lopullisen mallin tilankäytön tehokkuus ja riittävä nopeus (esim. reaaliaikaiset sovellukset) mallin konstruoinnin tai oppimisen tehokkuus (tarvittava ihmistyö, prosessointitila ja -aika) 26

Usein kohteena jokin spesifi kieliteknologinen sovellusongelma, jonka ratkaisemiseksi riittää vain osittainen kielen mallinnus. Koko kielikyvyn implementointi luultavasti edellyttäisi koko kognitiivisen välinei ja tekoälyn toteuttamista, mukaanlukien maailmantiedon kerääminen ja esittäm 27

3. MATEMAATTISIA PERUSTEITA 3.1 Todennäköisyyslasku Peruskäsitteitä Todennäköisyysavaruus (probability space): Tapahtuma-avaruus Ω diskreetti tai jatkuva Todennäköisyysfunktio tai -jakauma P Kaikilla tapahtuma-avaruuden pisteillä A on todennäköisyys: 0 P (A) 1 Todennäköisyysmassa koko avaruudessa on A P (A) = 1 Esimerkki 1 Jos tasapainoista kolikkoa heitetään 3 kertaa, mikä on todennäköisyys että 28

saadaan 2 kruunaa? Mahdolliset heittosarjat Ω: { HHH, HHT, HTH, HTT, THH, THT, TTH, TTT } Heittosarjat joissa 2 kruunaa: A={ HHT, HTH, THH} Oletetaan tasajakauma: jokainen heittosarja yhtä todennäköinen, P = 1/8 P (A) = A Ω = 3 8 29

3.2 Ehdollinen todennäköisyys A= asiaintila jonka todennäköisyyden haluamme selvittää B= meillä oleva ennakkotieto tilanteesta, ts. tähän asti tapahtunutta Ehdollinen todennäköisyys, A:n todennäköisyys ehdolla B: P (A B) = P (A, B) P (B) (1) Palataan esimerkkiin 1: Oletetaan että on jo heitetty kolikkoa kerran ja saatu kruuna. Mikä nyt on todennäköisyys että saadaan 2 kruunaa kolmen heiton sarjassa? Alunperin mahdolliset heittosarjat: {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT} Prioritiedon B perusteella enää seuraavat sarjat mahdollisia: { HHH, HHT, HTH, HTT } 30

P (A B) = 1/2 Ketjusääntö P (A 1,...A n ) = P (A 1 )P (A 2 A 1 )P (A 3 A 1, A 2 )... P (A n A 1,..., A n 1 ) Riippumattomuus Tilastollinen riippumattomuus: P (A, B) = P (A)P (B) (2) Sama ilmaistuna toisin: se että saamme lisätiedon B ei vaikuta käsitykseemme A:n todennäköisyydestä, eli: P (A) = P (A B) Huom: tilastollinen riippuvuus kausaalinen riippuvuus! Esim. jäätelön syönnin ja hukkumiskuolemien välillä on tilastollinen riippu- 31

vuus. (Yhteinen kausaalinen tekijä ehkä lämmin kesäsää.) Ehdollinen riippumattomuus P (A, B C) = P (A C)P (B C) (3) A ja B ovat riippumattomia ehdolla C mikäli on niin että jos jo tiedämme C:n, tieto A:sta ei anna mitään lisätietoa B:stä (ja päinvastoin). 32

3.3 Bayesin teoreema Koska kyse ei ole kausaalisesta riippumisesta, tapahtumien järjestystä voidaan vaihtaa: P (A, B) = P (B)P (A B) = P (A)P (B A) (4) Eli P (B A) voidaan laskea P (A B):n avulla. P (B A) = P (A, B) P (A) = P (B)P (A B) P (A) (5) Jos A = lähtötilanne, joka ei muutu (esim. jo tapahtuneet asiat), ja haluamme ainoastaan tietää, mikä tulevista tapahtumista B on todennäköisin, 33

P (A) on normalisointitekijä joka voidaan jättää huomiotta: arg max B P (B A) = arg max B P (B)P (A B) P (A) = arg max P (B)P (A B) (6) B Toisaalta, P (A) voidaan myös laskea: P (A) = i P (A B i)p (B i ) 34

3.4 Satunnaismuuttuja Satunnaismuuttuja (random variable) Jatkuva-arvoinen satunnaismuuttuja: X : Ω => R n, jossa R on reaalilukujen joukko ja n on avaruuden dimensio. Jos n > 1 puhutaan myös satunnaisvektorista. Diskreetti satunnaismuutuja: X : Ω => S, jossa S on numeroituva R:n osajoukko. Indikaattorimuuttuja: X : Ω => 0, 1. Todennäköisyysjakauma probability mass function pmf p(x) 35

3.5 Odotusarvo ja varianssi Odotusarvolle E(X) = x xp(x) (äärellisessä tapauksessa; äärettömässä tapauksessa summan korvaa integraali) Ts. odotusarvo on (painotettu) keskiarvo. Varianssi kuvaa muuttujan arvon vaihtelua keskiarvon ympärillä: V ar(x) = E((X E(X)) 2 ) = E(X 2 ) E 2 (X) 36