031021P Tilastomatematiikka (5 op) Jukka Kemppainen Mathematics Division
Yleinen todennäköisyys Kertausmateriaalissa esiteltiin koulusta tuttuja todennäköisyysmalleja. Tällä kurssilla todennäköisyys on (abstrakti) funktio P, joka on määritelty tapahtumasysteemissä E ja joka toteuttaa todennäköisyyden perusominaisuudet kuten esimerkiksi P(A) = 1 P(A) tai P(A B) = P(A)+P(B) P(A B). Tapahtumasysteemiltä vaaditaan riittävästi rakennetta, jotta todennäköisyys on hyvin määritelty. Esitetään seuraavassa venäläisen matemaatikon Andrei Kolmogorovin (1903-1987) esittämä todennäköisyyden matemaattinen malli. On ehkä hämmästyttävää, että matemaattisen mallin määrittelyyn riittää kolme ehtoa. Jukka Kemppainen Mathematics Division 2 / 32
Yleinen todennäköisyys Tapahtumasysteemiltä vaaditaan σ-algebran rakenne. Määr. 1 Tapahtumasysteemi E on σ-algebra, jos 1.,S E 2. A E = A E 3. A,B E = A B E 4. A,B E = A B E 5. A i E kaikilla i N i=1 A i E. Nyt voidaan esitellä Kolmogorovin todennäköisyyden aksioomat, jotka antavat todennäköisyyden matemaattisen mallin. Jukka Kemppainen Mathematics Division 3 / 32
Todennäköisyyden aksioomat Määr. 2 Todennäköisyysavaruus on kolmikko {S, E, P}, missä S on epätyhjä joukko, E on σ-algebra ja kuvaus P : E R toteuttaa ehdot 1. 0 P(A) 1 2. P(S) = 1 3. Jos A i E ja A i A j = aina, kun i j ja i,j = 1,2,..., niin P ( ) A i = P(A i ). i=1 Ehtoja 1 3 sanotaan todennäköisyyslaskennan aksioomiksi ja kuvausta P, joka toteuttaa ehdot 1 3, sanotaan todennäköisyydeksi. i=1 Jukka Kemppainen Mathematics Division 4 / 32
Todennäköisyydestä Huomautus 1 Todennäköisyys voi siis olla periaatteessa mikä tahansa funktio, kunhan se toteuttaa Määritelmän 2 ehdot. Todennäköisyys riippuu mm. otosavaruuden S valinnasta. Huomautus 2 Todennäköisyys voi olla subjektiivinen eli riippua siitä, kuka sen määrittelee. Eri henkilöillä voi olla erilainen näkemys samasta satunnaiskokeesta. Tapahtuman todennäköisyys voi olla vaikkapa 90%, mutta jos kysytään Stubbilta, saman tapahtuman tn. voi olla 10%. Myös eri rahapelitoimistot voivat antaa erilaisia voittokertoimia (so. erilaisia voittotodennäköisyyksiä) samoille kohteille. Jukka Kemppainen Mathematics Division 5 / 32
Todennäköisyyden perusominaisuudet Lause 1 Todennäköisyydelle on voimassa: (i) P( ) = 0; (ii) P(A) = 1 P(A); (iii) Jos tapahtumat {A 1,A 2,...,A n } ovat erillisiä, ts. A i A j =, kun i j, niin P(A 1 A 2 A n ) = P(A 1 )+ +P(A n ); (iv) P(A) P(B) aina, kun A B; (v) P(A B) = P(A) P(A B); (vi) P(A B) = P(A)+P(B) P(A B). Jukka Kemppainen Mathematics Division 6 / 32
Esimerkkejä Todennäköisyyksien laskemisessa voidaan (ja on suotavaa) käyttää Lauseen 1 tuloksia. Lisäksi joukko-opista tutut De Morganin kaavat A B A B = A B = A B voivat olla hyödyksi. Esim. 1 Olkoon P(A) = 3 5, P(B) = 1 2 ja P(A B) = 1 5. Laske todennäköisyydet P(A B), P(A), P(B), P(A B), P(A B) ja P(A B). Jukka Kemppainen Mathematics Division 7 / 32
Ehdollinen todennäköisyys Todennäköisyys riippuu vähintäänkin otosavaruuden valinnasta. Esimerkiksi eri sairauksen esiintyvyys voi poiketa hyvinkin paljon eri alueilla. Jos vaikkapa analysoidaan tuberkuloositartuntaa, on eri asia tutkitaanko sitä Suomessa tai esimerkiksi Venäjällä. Käytännöllisesti katsoen kaikki todennäköisyydet ovat ehdollisia. Ehdollisen todennäköisyyden käsite on eräs todennäköisyysteorian tärkeimmistä käsitteistä. Esitetään seuraavaksi ehdollisen todennäköisyyden määritelmä. Jukka Kemppainen Mathematics Division 8 / 32
Ehdollinen todennäköisyys Määr. 3 Olkoon S otosavaruus, A, B S tapahtumia ja P todennäköisyys. Tapahtuman A ehdollinen todennäköisyys ehdolla B on jos P(B) > 0. P(A B) = P(A B), P(B) Ehdollista todennäköisyyttä ei ole määritelty, kun P(B) = 0. Tilastollisessa päättelyssä ehdollinen tn. P(A B) on tapahtuman A tn:n P(A) päivitys, kun on havaittu informaatio B. Tapahtuma B voidaan ottaa uudeksi otosavaruudeksi, jolloin funktio P : A P(A B) kaikilla tapahtumilla A on todennäköisyys B:ssä. Jukka Kemppainen Mathematics Division 9 / 32
Ehdolllisen todennäköisyyden ominaisuudet Ehdollinen tn. P on siis tn. B:ssä ja P on tn. S:ssä sekä P voidaan laskea alkuperäisen tn:n P avulla. Ehdollinen tn. P täyttää kaikki todennäköisyydeltä vaadittavat ominaisuudet. Esimerkiksi 1. 0 P(A) = P(A B) 1 kaikilla tapahtumilla A 2. P(B) = P(B B) = 1; 3. P(A 1 A 2 ) = P(A 1 A 2 B) = P(A 1 B)+P(A 2 B) aina, kun A 1 A 2 =. = P(A 1 )+ P(A 2 ). Jukka Kemppainen Mathematics Division 10 / 32
Huomioita Esitetään joitakin tärkeitä huomioita ehdolliseen todennäköisyyteen liittyen. Todennäköisyydessä P(A B) A on tapahtuma, jonka tn. halutaan laskea, ja B on ehto, jonka suhteen tn. lasketaan. Yleisesti P(A B) P(B A). Todennäköisyyden tulkinnassa täytyy olla varovainen. Yleisesti P(A B) P(A). Käsitellään näitä tarkemmin esimerkeissä. Jukka Kemppainen Mathematics Division 11 / 32
Kertolaskusääntö Ehdollisen todennäköisyyden määritelmä voidaan esittää kahtena kertosääntönä P(A B) = P(B)P(A B),jos P(B) > 0 P(A B) = P(A)P(B A),jos P(A) > 0 Samaa periaatetta voidaan soveltaa myös useammalle tapahtumalle. Jos esimerkiksi tapahtumia on kolme ja P(B C) > 0, saadaan P(A B C) = P(A (B C)) = P(A B C)P(B C) = P(A B C)P(B C)P(C). Jukka Kemppainen Mathematics Division 12 / 32
Kertolaskusääntö Samaa kertolaskusääntöä voidaan käyttää kuinka monelle tapahtumalle hyvänsä. Täydellisellä induktiolla voidaan todistaa: Lause 2 Olkoot A 1,A 2,...,A n E siten, että P(A 1 A n 1 ) > 0. Tällöin on voimassa P(A 1 A 2 A n ) =P(A 1 )P(A 2 A 1 )P(A 3 A 2 A 1 ) P(A n A 1 A n 1 ). Jukka Kemppainen Mathematics Division 13 / 32
Esimerkkejä Esim. 2 Tuotteessa voi olla materiaalivika (tapahtuma A) tai käsittelyvika (tapahtuma B). Tuote on susi, jos siinä on molemmat viat. Olkoot P(A) = 0,1, P(B) = 0,06 ja P(A B) = 0,005. Mikä on todennäköisyys, että (a) tuote on susi ehdolla, että siinä on ainakin yksi vika? (b) tuotteessa on materiaalivika ehdolla, että siinä on tarkalleen yksi vika? Esim. 3 Pokerissa kullekin pelaajalle jaetaan viisi korttia. Jos pelaajia on 2, niin millä todennäköisyydellä molemmat saavat 2 ässää? Jukka Kemppainen Mathematics Division 14 / 32
Kokonaistodennäköisyys Olkoon {A 1,A 2 } on otosavaruuden S ositus eli A 1 A 2 = ja A 1 A 2 = S. Oletetaan, että P(A i ) > 0, i = 1,2. Olkoon B tapahtuma, jolle P(B) > 0. Tällöin (A 1 B) (A 2 B) = B (A 1 B) (A 2 B) = ja P(B) = P(A 1 B)+P(A 2 B). Toisaalta kertolaskusäännön nojalla i = 1, 2: P(A i B) = P(B A i )P(A i ). (1) Jukka Kemppainen Mathematics Division 15 / 32
Kokonaistodennäköisyys Edellä osituksen {A 1,A 2 } tapauksessa saadaan kokonaistodennäköisyydeksi P(B) = P(A 1 )P(B A 1 )+P(A 2 )P(B A 2 ) Yleisesti, jos {A 1,A 2,...,A n } on ositus, saadaan Lause 3 (Kokonaistodennäköisyyden kaava) n P(B) = P(A k )P(B A k ). k=1 Jukka Kemppainen Mathematics Division 16 / 32
Puukaavio (1/3) Kokonaistodennäköisyyttä kannattaa usein hahmotella puukaavion avulla. Useinkaan emme tiedä jonkin tapahtuman B todennäköisyyttä suoraan, jolloin B kannattaa ehdollistaa sellaisilla tapahtumilla A k, jotka muodostavat osituksen ja ehdolliset todennäköisyydet P(B A k ) voidaan laskea. Erityisesti {A,A} muodostaa S:n osituksen, jolloin tapahtuman B todennäköisyyttä voidaan hahmottaa seuraavan puukaavion avulla. Jukka Kemppainen Mathematics Division 17 / 32
Puukaavio (2/3) p 1 p 2 A A q 1 q 2 q 1 q 2 B B B B Jukka Kemppainen Mathematics Division 18 / 32
Puukaavio (3/3) Puukaaviossa kustakin lehdestä (ympyrästä) lähtevien oksien todennäköisyyksien summa on yksi eli p 1 + p 2 = q 1 + q 2 = q 1 + q 2 = 1. Todennäköisyys voidaan laskea tuloperiaatteella. Esimerkiksi punaista reittiä pitkin laskettu todennäköisyys on P(B A)P(A) = q 1 p 1, ja tapahtuman B kokonaistodennäköisyydeksi saadaan P(B) = P(B A)P(A)+P(B A)P(A) = p 1 q 1 + p 2 q 1. Jukka Kemppainen Mathematics Division 19 / 32
Esimerkki Esim. 4 Korttipakan 52 kortista nostetaan umpimähkään takaisinpanematta kaksi korttia. Mikä on todennäköisyys, että toinen kortti on pata? Jukka Kemppainen Mathematics Division 20 / 32
Bayesin kaava Käyttämällä kaavaa (1) saadaan ehdolliselle todennäköisyydelle Bayesin kaava P(A k B) = P(A k B) P(B) = P(B A k)p(a k ), P(B) joka kokonaistodennäköisyyden kaavaan mukaan voidaan kirjoittaa muodossa Lause 4 (Bayesin kaava) P(A k B) = P(B A k )P(A k ) n k=1 P(A k)p(b A k ). Jukka Kemppainen Mathematics Division 21 / 32
Bayesin kaava (2/2) Todennäköisyyttä P(A k ) sanotaan priori-todennäköisyydeksi. - prior (lat.) (edeltävä, aikaisempi) - Käsityksemme tapahtuman A k tn:stä ennen kuin tiedetään, onko B sattunut vai ei. P(A k B) sanotaan posteriori-todennäköisyydeksi - posterior (lat.) (jälkeen tuleva, myöhempi) - Päivitetään tapahtuman A k tn., kun tiedetään, että B on sattunut. P(B A k ) sanotaan uskottavuudeksi (likelihood) - Mikä on tapahtuman B tn., kun havaitaan A k, eli B:n uskottavuus ehdolla A k ). Jukka Kemppainen Mathematics Division 22 / 32
Esimerkkejä Esim. 5 Neljä teknikkoa tekee säännöllisesti korjauksia, kun eräällä automaatiolinjalla ilmenee vika. Teknikko 1 tekee 20% korjauksista, mutta tekee virheen keskimäärin yhdessä korjauksessa suorittamissaan 20 korjauksessa, teknikko 2 tekee 60% korjauksista ja tekee yhden virheen 10 korjauksessa, teknikko 3 tekee 15% korjauksista ja tekee virheen 1 tapauksessa 10:stä ja teknikko 4 tekee 5% korjauksista ja virheen 1 tapauksessa 20:sta. Automaatiolinjalla ilmenee vika ja sen diagnosoidaan johtuvan virheellisestä korjauksesta. Millä todennäköisyydellä korjauksen on tehnyt teknikko 1? Jukka Kemppainen Mathematics Division 23 / 32
Esimerkkejä Esim. 6 Tutkimusten mukaan HIV esiintyy väestössä todennäköisyydellä 0,0004. Sairautta tutkitaan verikokeella, jossa on seuraavat virhemahdollisuudet: (i) sairaan henkilön testitulos on negatiivinen todennäköisyydellä 0,001; (ii) terveen henkilön testitulos on positiivinen todennäköisyydellä 0,002. Millä todennäköisyydellä satunnaisesti valitulla, positiivisen testituloksen saaneella henkilöllä todella on HIV? Jukka Kemppainen Mathematics Division 24 / 32
Esimerkkejä Esim. 7 Tenttitehtävässä on väittämiä, joista kuhunkin tenttijän pitää vastata valitsemalla toinen kahdesta vaihtoehdosta (kyllä tai ei). Turo Teekkarin asiat ovat niin kehnosti, että hän tietää vastauksen vain 60 % väittämistä ja loput hän veikkaa täysin umpimähkään. (a) Millä todennäköisyydellä Turo vastaa oikein (tietämällä tai veikkaamalla) satunnaisesti valittuun väittämään? (b) Jos Turo vastasi oikein satunnaisesti valittuun väittämään, niin mikä on todennäköisyys, että hän päätyi oikeaan vastaukseen tietämällä eikä veikkaamalla? Jukka Kemppainen Mathematics Division 25 / 32
Riippumattomuus Määr. 4 Tapahtumat A ja B ovat riippumattomia, jos Huomautus 3 P(A B) = P(A)P(B). (2) Tulosääntöä (2) voidaan käyttää vain riippumattomille tapahtumille! Tilastollinen riippumattomuus on todennäköisyysfunktion ominaisuus ja on eri asia kuin joukko-opillinen erillisyys. Jukka Kemppainen Mathematics Division 26 / 32
Esimerkki Esim. 8 Valitaan korttipakasta satunnaisesti yksi kortti. Olkoot A = kortti on pata ; B = kortti on ässä ; C = kortti on hertta. tapahtumia. Tutki, ovatko (a) A ja B riippumattomia. (b) A ja C riippumattomia. (c) B ja C riippumattomia. Jukka Kemppainen Mathematics Division 27 / 32
Riippumattomien tapahtumien ominaisuuksia Jos P(B) = 0, niin B on riippumaton mistä tahansa tapahtumasta A. Jos P(B) > 0, niin Lause 5 A ja B ovat riippumattomia P(A B) = P(A). eli B:n esiintyminen ei vaikuta tapahtuman A todennäköisyyteen. Tapahtumat A ja B ovat riippumattomia, jos ja vain jos mikä tahansa seuraavista ominaisuuksista on voimassa (a) A ja B ovat riippumattomia. (b) A ja B ovat riippumattomia. (c) A ja B ovat riippumattomia. Jukka Kemppainen Mathematics Division 28 / 32
Usean tapahtuman riippumattomuus Määr. 5 Tapahtumat A 1,...,A n ovat (keskinäisesti) riippumattomia, jos kaikille indeksijoukoille {i 1,...,i k } {1,...,n} P(A i1 A ik ) = P(A i1 )P(A i2 )...P(A in ). Tulosääntö pätee kaikille osajoukoille. Ei riitä, että tulosääntö pätee pareittain P(A i A j ) = P(A i )P(A j ) kaikillai j. Jukka Kemppainen Mathematics Division 29 / 32
Riippumattomien tapahtumien yhdiste ja leikkaus Usean tapahtuman leikkauksen ja yhdisteen todennäköisyyden laskeminen helpottuu huomattavasti riippumattomien tapahtumien tapauksessa. Olkoot tapahtumat A 1,A 2,...,A n riippumattomia. Todennäköisyys tapahtumalle kaikki tapahtumat A i sattuvat on (vrt. Lause 2) P(A 1 A 2 A n ) = P(A 1 )P(A 2 ) P(A n ) Todennäköisyys tapahtumalle "ainakin yksi tapahtumista A i sattuu" P(A 1 A 2 A n ) =1 P(A 1 A 2 A n ) ( ) ( ) =1 1 P(A 1 ) 1 P(A n ). Jukka Kemppainen Mathematics Division 30 / 32
Esimerkki Edellä olevia ominaisuuksia tarvitaan esimerkiksi komponenttien luotettavuuden arvioinnissa. Esim. 9 Systeemi koostuu kolmesta rinnankytketystä identtisestä komponentista. Systeemi toimii, jos ainakin yksi kolmesta rinnakkaisesta komponentista on toimiva. Jokaisen komponentin kestoikä on yli 10 viikkoa todennäköisyydellä 0.2. Millä todennäköisyydellä kokonaissysteemin virheetön toiminta-aika on yli 10 viikkoa? Jukka Kemppainen Mathematics Division 31 / 32
Riippumattomuus käytännössä Usein riippumattomuus on käytännössä oletus, joka on ilmiselvästi voimassa. Esimerkiksi kolikon tai nopan heitto. Heittojen tulokset eivät riipu toisistaan. ottelukierroksen tulokset (vakioveikkauksessa). Pelien lopputulokset ovat riippumattomia toisistaan. Näin oletamme, ellei toisin mainita. Joskus oletukset on syytä asettaa kyseenalaiseksi. Esimerkiksi havaitaan epätavalliset vetosuhteet ottelukierroksella (sopupeli). Riippumattomuus helpottaa laskentaa, mutta oletus riippumattomuudesta on syytä asettaa kyseenalaiseksi. Jukka Kemppainen Mathematics Division 32 / 32