T-61.281 Luonnollisen kielen tilastollinen käsittely



Samankaltaiset tiedostot
Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

Todennäköisyyden ominaisuuksia

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Mat Sovellettu todennäköisyyslasku A

D ( ) E( ) E( ) 2.917

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

6. laskuharjoitusten vastaukset (viikot 10 11)

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tn-laskentaan torstai

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

4. laskuharjoituskierros, vko 7, ratkaisut

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

&idx=2&uilang=fi&lang=fi&lvv=2015

Tutkimustiedonhallinnan peruskurssi

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Jatkuvat satunnaismuuttujat

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Ilkka Mellin (2008) 1/5

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS

, tuottoprosentti r = X 1 X 0

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Tilastomatematiikka Kevät 2008

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

Sovellettu todennäköisyyslaskenta B

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

T Luonnollisten kielten tilastollinen käsittely

&idx=2&uilang=fi&lang=fi&lvv=2015

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Sovellettu todennäköisyyslaskenta B

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Valintahetket ja pysäytetyt martingaalit

dx=2&uilang=fi&lang=fi&lvv=2015

Todennäköisyyslaskenta - tehtävät

3. laskuharjoituskierros, vko 6, ratkaisut

Tilastollinen aineisto Luottamusväli

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

30A02000 Tilastotieteen perusteet

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Sallitut apuvälineet: kirjoitusvälineet, laskin sekä käsinkirjoitettu, A4-kokoinen lunttilappu ja MAOL taulukkokirjaa

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Johdatus tn-laskentaan perjantai

Väliestimointi (jatkoa) Heliövaara 1

5. laskuharjoituskierros, vko 8, ratkaisut

Poisson-prosessien ominaisuuksia ja esimerkkilaskuja

V ar(m n ) = V ar(x i ).

Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto

Martingaalit ja informaatioprosessit

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia

ikä (vuosia) on jo muuttanut 7 % 46 % 87 % 96 % 98 % 100 %

A-osio: Ilman laskinta, MAOL:in taulukkokirja saa olla käytössä. Maksimissaan tunti aikaa.

3.7 Todennäköisyysjakaumia

k S P[ X µ kσ] 1 k 2.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku A

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Satunnaismuuttujan odotusarvo ja laskusäännöt

Tilastollisia peruskäsitteitä ja Monte Carlo

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Sovellettu todennäköisyyslaskenta B

Suotuisien tapahtumien lukumäärä Kaikki alkeistapahtumien lukumäärä

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Todennäköisyys (englanniksi probability)

0 3 y4 dy = 3 y. 15x 2 ydx = 15. f Y (y) = 5y 4 1{0 y 1}.

Muista merkitä vastauspaperiin oma nimesi ja tee etusivulle pisteytysruudukko. Kaikkiin tehtävien ratkaisuihin välivaiheet näkyviin!

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku. Aiheet: Todennäköisyyslaskennan peruskäsitteet Todennäköisyyslaskennan peruslaskusäännöt Avainsanat:

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Todennäköisyyslaskun kertaus. Heliövaara 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Matemaattisten tieteiden kandiohjelma / MTL Todennäköisyyslaskenta IIb Kurssikoe (kesto 2h 30 min)

Varma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö

Nollasummapelit ja bayesilaiset pelit

11. laskuharjoituskierros, vko 15, ratkaisut

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

1. laskuharjoituskierros, vko 4, ratkaisut

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy Tehtävissä 1, 2, ja 3 tarkastelemme seuraavaa tilannetta:

Moniulotteiset satunnaismuuttujat ja jakaumat

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe klo Ratkaisut ja pisteytysohjeet

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin Yliopisto Harjoitus 1, ratkaisuehdotukset

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe klo 10 13

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Transkriptio:

T-6.8 Luonnollisen kielen tilastollinen käsittely Ratkaisut. Ti 7..4, 8:5-: Palautellaan mieliin todennäköisyyslaskuja Versio.. Todennäköisyyksistä ensimmäinen P( sana=lyhenne sana=kolmikirjaiminen ) =.8 kertoo, että jos me näemme kolmikirjaimisen sanan, se on todennäköisyydellä.8 lyhenne ja todennäköisyydellä. jotain muuta. Toinen kaava P( sana=kolmikirjaiminen ) =.3 kertoo, että satunnainen sana on todennäköisyydellä.3 kolmikirjaiminen ja todennäköisyydellä.9997 jotain muuta. Todennäköisyys, että satunnainen sana on kolmikirjaiminen lyhenne saadaan kertomalla edellä annetut todennäköisyydet keskenään. Eli ensin katsotaan, kuinka todennäköistä on, että sana on kolmikirjaiminen ja sitten vielä kuinka todennäköistä on, että kolmikirjaiminen sana olisi lyhenne: P( sana=lyhenne, sana=kolmikirjaiminen ) = P( sana=kolmikirjaiminen ) P( sana=lyhenne sana=kolmikirj. ) =.3.8 =.4 Sivuhuomautuksena sanottakoon, että annetut todennäköisyydet eivät varmaankan päde todelliselle englannin kielelle.. Kokeillaan ensin paria hypoteesia: Oletetaan, että kaikki veljenpojat arvaavat innoissaan satunnaisen värin. Kaikilla on siis puolen todennäköisyys arvata oikein ja pelin voittotodennäköisyys on siis.5.5.5 =.5. Tämä ei ilmeisestikään ole hyvä strategia. Jos pojat olisivat vain hieman ovelampia, he päättäisivät että vain yksi heistä arvaa ja muut ovat hiljaa. Tällöinhän voittotodennäköisyys olisi.5. Muttu Pupu ei puhunut puppua. Jos tarkastelemme mahdollisia tuloksia, löydämme vielä paremman strategian (taulukko ). Kaikki taulukon tapahtumat ovat yhtä todennäköisiä. Huomaamme, että on vain kahdenlaisia tuloksia: ) Kaikilla veljeksillä on samanvärinen hattu päässään ) Yhdellä veljistä on erivärinen hattu kuin muilla. Luomalla strategian, jolla voitamme kun kaikilla veljeksillä on samanvärinen hattu päässään, katamme kahdeksasta tuloksesta, eli voittotodennäköisyys olisi.5. Tämä ei meitä kiinnosta. Veljesten keksimä strategia kattoi tapaukset, jossa yhdellä veljellä oli erivärinen hattu kuin muilla. Tässä tilanteessa pitää sen veljen, joka näkee kaksi samanväristä hattua veikata omaa hattuaan eriväriseksi. Ne jotka näkevät kaksi eriväristä hattua pitävät suunsa kiinni. Tällä strategialla katetaan 6 kahdeksasta alkeistapauksesta, ja saadaan voittotodennäköisyydeksi.75.

Taulukko : Mahdolliset tulokset, kukin veljenpoika on merkitty nimen alkukirjaimella (R,K,P) ja lippiksen väri värin ensimmäisellä kirjaimella (p,s) R K P punaisia sinisiä s s s 3 s s p s p s s p p p s s p s p p p s p p p 3 Kuinka paljon poikien kannattaisi maksaa peliin osallistumisesta? Voittonahan oli yhteensä euron arvoiset jätskit. Jos peliä pelattaisiin äärettömän monta kertaa, keskimääräinen voitto olisi E(voitto) = euro.75 =.75euro Kun peliä kuitenkin pelataan vain kerran, on hyvin subjektiivinen kysymys, miten paljon kannattaa sijoittaa. Jos pitää pelaamisesta, voi maksaa paljonkin ilman mitään toivoa voitosta (flipperi), toisaalta jos ei halua riskeerata säästöjään, ei ehkä kannata tarjota juuri mitään peliin osallistumisesta. Pojilla oli taskunpohjalle jäänyt senttiä Sudenpentujen Käsikirjan uuden painoksen ostamisen jälkeen ja tämän he suostuivat asettamaan pelipanokseksi. 3. Merkitään kantamuotoa se C :llä ja kantamuotoa siittää C :lla. Tunnistustulos olkoon T ja oikea luokka O. Kirjoitetaan tehtävässä annetut todennäköisyydet: P(T = C O = C ) =.95 P(T = C O = C ) =.5 P(T = C O = C ) =.5 P(T = C O = C ) =.95 P(O = C ) =.999 P(O = C ) =. Nyt voimme laskea Bayesin kaavaan P(B j A) = P(A B j)p(b j ) P(A) = P(A B j)p(b j ) i P(A B i)p(b i ) avulla todennäköisyyden, että laiteen väittäessä sanan perusmuodoksi siittää se on

myös oikeassa. P(O = C T = C ) P(T =C O=C )P(O=C ) = P(T =C O=C )P(O=C ) + P(T =C O=C )P(O=C ).95. =.95. +.5.999.9 Sanoista, joiden perusmuodoksi laite on ehdottanut siittää vain joka viideskymmenes on oikein jäsennetty. Vaikka Åke olikin saanut ihan hyvät tunnistustulokset sinänsä, käytännön testejen jälkeen hän päätti romuttaa tunnistimensa ja ryhtyä jazz-muusikoksi. 4. Jotta tällainen satunnainen kieli generoisi yksikirjaimisen sanan, sen pitää generoida kaksi merkkiä (joku muu kuin sanaväli ja sanaväli). Tällaisia sanoja on 9 kappaletta. P(s = t ) = 3 Vastaavasti, tietyn kahden merkin pituisen sanan todennäköisyys on P(s = t, t ) = 3 3 3 3 Tällaisia sanoja on 9 kappaletta. Kolmikirjaimiset sanat P(s = 3) = 3 ja näitä sanoja on siis 9 3 kappaletta. 3 3 Koska sanan esiintymistodennäköisyys on suoraan verrannollinen sen odotettuun esiintymistiheyteen testiaineistossa, voimme tehdä kirjan taulukon.3 kaltaisen taulukon suoraan laskemalla todennäköisyyksiä. Koska samanpituiset sanat ovat yhtä todennäköisiä eikä niitä voi asettaa yleisyysjärjestykseen, laskemme k:n arvon vain yhdelle samanpituisista sanoista. Tulokset on esitetty taulukossa ja piirretty kuvaan. Huomataan, että satunnaisellakin kielellä k pysyttelee melko samansuuruisena hyvin suurella r:n vaihteluvälilläkin. Zipfin löytö ei ehkä tunnu tämän faktan valossa aivan niin hämmästyttävltä. 5. Tehtävän ratkaisussa oletetaan tunnetuksi seuraavat kaavat: 3 E(x) = V ar(x) = xp(x)dx (x E(x)) p(x)dx 3

Taulukko : Zipfin vakio. Taulukon vasempaan sarakkeeseen on merkitty kuinka monenneksi yleisin sana on kyseessä. Keskellä lukee, kuinka monta kertaa voimme odottaa näkevämme sanan sanan pitusessa aineistossa. Oikealla on laskettu vakio k, kahden ensimmäisen sarakkeen tulo. r f k 5 6 45 37.4 6648 364.35 69 3789.4 5593 988.37 573 3866.457 457.7 x 4 Zipf:in laki satunnaiselle kielelle.6.5 r*k.4.3. 5 5 Kuva : k r:n funktiona r a) Lasketaan odotusarvo yhden heiton silmäluvuksi. Noppa laskeutuu jokaiselle :lle sivustaan yhtä todennäköisesti, eli jokaisen tapahtuman todennäköisyys p(x) =. Odotusarvo: E(x) = i= ip(x = i) = ( + + 3 + 4 + + ) = (( + ) + ( + 99) + (3 + 98) + + (5 + 5)) 5 = = 5 4

Varianssi voidaan laskea kaavalla: V ar(x) = i= (i E(x)) p(x = i) = (5 + 49 + + + + + + + 49 + 5 ) = ( + + + 49 + 5 ) Nyt voimme käyttää avuksemme seuraava kaavaa jolloin saamme tulokseksi + + 3 + 4 + + n = n(n + )(n + ) 6 V ar(x) = 5 5 = 85 6 b) Ratkaistaksemme tämän tehtävä, tarvitsemme muutamia todennäköisyyslaskun peruskaavoja. Kaavat on tässä johdettu, mutta niiden johtamisen osaaminen ei ole olennaista kurssin kannalta. Riippumattomien satunnaismuuttujien summan oletusarvo Olkonn satunnaismuuttujat x ja y riippumattomia. Lasketaan näiden satunnaismuuttujien summan oletusarvo. E(x + y) = (x + y)p(x, y)dxdy = (x + y)p(x)p(y)dxdy = xp(x)p(y)dxdy + yp(x)p(y)dxdy = p(y)dy xp(x)dx + p(x)dx yp(y)dy = xp(x)dx + yp(y)dy = E(x) + E(y) Vakiolla kerrotun satunnaismuuttujan varianssi V ar(ax) = (ax E(ax)) p(x)dx = (ax ae(x)) p(x)dx = a (x E(x)) p(x) = a V ar(x) 5

Riippumattomien satunnaismuuttujien summan varianssi Olkoon satunnaismuuttujat x ja y riippumattomia. Lasketaan näiden satunnaismuuttujien summan varianssi. V ar(x + y) = (x + y E(x + y)) p(x, y)dxdy = (x + y) p(x, y)dxdy (x + y)e(x + y)p(x, y)dxdy + E(x + y) p(x, y)dxdy = E((x + y) ) E(x + y) + E(x + y) = E((x + y) ) E(x + y) = E(x + xy + y ) (E(x) + E(y)) = E(x ) + E(xy) + E(y ) E(x) E(x)E(y) E(y) = E(x ) E(x) + E(y ) E(y) + xyp(x)p(y)dxdy xp(x)dx = E(x ) E(x) + E(y ) E(y) = V ar(x) + V ar(y) yp(y)dy Tämän pakerruksen jälkeen päästään itse asiaan. Nyt halutaan laskea oletusarvo lauseelle x + y, missä x on ensimmäiseen heittoon liittyvä satunnaismuuttuha ja y on toiseen heittoon liittyvä satunnaismuuttuja. E( x + y ) = (E(x) + E(y)) = (5 + 5) = 5 Huomaamme siis, että odotusarvo ei muutu. Entä miten käykään varianssin? V ar( x + y ) = V ar( x ) + V ar(y ) = 4 V ar(x) + 4 V ar(y) = (85 + 85) = 45 4 c) Heitämme kymmentä noppaa, sovellamme edelle opittuja tuloksia. Odotusarvo Varianssi E( x + x + + x ) = 5 = 5 V ar( x + x + + x ) = 85 = 85 d) Kun heitämme yhä useampaa noppaa, tarkentuu jakauma odotusarvon ympärille. Rajalla odotusarvo on 5 ja varianssi eli saamme aina varmasti tulokseksi 5. 6

Odotusarvo ja varianssi eivät suinkaan kerro kaikkea jakaumasta. Kuvassa on simuloitu matlabilla erilaisia määriä nopanheittoa. Huomaamme että jakauman muoto muuttuu, mitä useampaa nopaa heitetään. Muoto tulee lähemmäksi ja lähemmäksi normaalijakaumaa. Tämän takia useita luonnollisia ilmiöitä mallinnetaan normaalijakaumalla: Jos tulokseen vaikuttaa monta pientä satunnaista asiaa, tulos on normaalisti jakautunut. Tämä on myös hyvä tekosyy käyttää normaalijakaumaa, jolla saadaan laskut usein helppoon muotoon. Formaalimpi todistelu siitä, että jakauma lähestyy normaalijakaumaa löytyy http:// mathworld.wolfram.com/centrallimittheorem.html noppaa noppaa 5 5 5 x 4 4 6 8 3 noppaa x 4 4 6 8 5 noppaa.5.5 x 4 4 4 6 8 noppaa x 4 4 6 8 noppaa 3 5 4 6 8 4 6 8 Kuva : Nopanheittoa. Kutakin kuvaa varten on koe toistettu miljoona kertaa. 7