Tilastollie päättely 6.1. Johdato Bayesi kaava, Bayeslaie lähestymistapa, Eakkotieto, Estimoiti, Frekvetistie lähestymistapa, Frekvessitulkita, Klassie lähestymistapa, Luottamustaso, Luottamusväli, Merkitsevyystaso, Otos, Otostieto, Parametri, Posteriorijakauma, Priorijakauma, Prioritieto, Testaus, Todeäköisyys, Todeäköisyysjakauma, Uskomus, Väliestimoiti 6.2. Bayesi kaava Bayesi kaava, Diskreetti jakauma, Ehdollie jakauma, Ehdollie todeäköisyys, Jatkuva jakauma, Kokoaistodeäköisyyde kaava, Ositus, Pistetodeäköisyysfuktio, Posterioritodeäköisyys, Prioritodeäköisyys, Tiheysfuktio 6.3. Priorijakaumat ja posteriorijakaumat Bayesi kaava, Bayes-uskottavuus, Diskreetti jakauma, Ehdollie jakauma, Epäiformatiivie priorijakauma, Epäoleellie priorijakauma, Jatkuva jakauma, Kojugaattiperhe, Kojugaattipriorijakauma, Otos, Otostieto, Parametri, Posteriorijakauma, Priorijakauma, Prioritieto, Uskottavuusfuktio 6.4. Bayes-estimoiti Estimaattori, Estimoiti, Mediaai, Moodi, Odotusarvo, Parametri, Posteriorijakauma, Tuusluku 6.5. Bayes-testit Hylkäysalue, Nollahypoteesi, Parametri, Posteriorijakauma, Testaus, Testi, Testisuure, Vaihtoehtoie hypoteesi 6.6. Bayes-luottamusvälit Bayeslaie optimaalisuus, Luottamustaso, Luottamusväli, Parametri, Peittotodeäköisyys, Posteriorijakauma, Uskottavuusjoukko, Uskottavuustodeäköisyys, Uskottavuusväli @ Ilkka Melli (2010) 1/13
@ Ilkka Melli (2010) 2/13
6.1. Johdato Klassisessa eli frekvetistisessä lähestymistavassa tilastollisee päättelyy oletetaa, että havaiot oudattavat jakaumaa, joka ideksoiva parametri o kiiteä, ei-satuaie vakio. Klassisessa lähestymistavassa ajatellaa, että otos sisältää kaike parametria koskeva iformaatio ja site kaikki parametria koskevat johtopäätökset voidaa perustaa otoksee ja se jakaumaa. Klassisessa lähestymistavassa estimoitii ja testauksee ojataa voimakkaasti todeäköisyyde frekvessitulkitaa siitä imitys frekvetistie lähestymistapa: (i) (ii) Väliestimoiissa luottamusväli luottamustasolle 1 aetaa seuraava tulkita: Jos otataa toistetaa, ii luottamusväli peittää parametri kiiteä, mutta tutemattoma arvo (1 ) %:ssa otoksia. Testauksessa testi merkitsevyystasolle aetaa seuraava tulkita: Jos otataa toistetaa tilateessa, ollahypoteesi H 0 koko aja pätee, ii se joudutaa virheellisesti hylkäämää %:ssa otoksia. Bayeslaisessa lähestymistavassa tilastollisee päättelyy ajatellaa, että parametri o satuaismuuttuja, joka arvoje vaihtelua voidaa kuvata todeäköisyysjakaumalla, jota kutsutaa priorijakaumaksi. Priorijakauma o subjektiivie jakauma, joka kuvastaa tutkimukse tekijä uskomuksia tai eakkokäsityksiä parametri käyttäytymisestä. Huomaa, että tutkimukse tekijä pitää pystyä formuloimaa eakkokäsityksesä priorijakauma muotoo ilma otostietoje apua (siis jo ee havaitoje keräämistä). Otokse poimimise jälkee parametri priorijakauma päivitetää s. posteriorijakaumaksi käyttämällä Bayesi kaavaa. Bayesi kaava yhdistää parametria koskeva prioritiedo ja otostiedo toisiisa. Bayeslaisessa lähestymistavassa kaikki parametria koskevat johtopäätökset perustetaa se posteriorijakaumaa. Matemaattisissa tieteissä ei yleesä ole koulukutia. Tilastotiede o kuiteki jakautuut frekvetisteihi ja bayeslaisii. Frekvetistisestä äkökulmasta prioritiedo liittämie malleihi tuo mukaa epätoivottava subjektiivise elemeti tutkimuksee. Lisäksi frekvetistit ovat huomauttaeet, että vaikka prioritietoa parametrista olisiki käytettävissä, se formuloiti priorijakauma muotoo saattaa olla hyvi vaikeata. Bayeslaiset tilastotieteilijät ovat teheet tähä se vastahuomautukse, että tutkijalla o joka tapauksessa joitaki eakkokäsityksiä tutkimustilateesta ja o parempi pyrkiä formuloimaa eakkokäsitykset priorijakauma muotoo kui yrittää piilottaa e mato alle. Jos tutkijalla ei ole kuollista prioritietoa tutkimustilateesta, hä voi pyrkiä formuloimaa epätietoisuutesa s. epäiformatiivise priorijakauma muotoo; ks. kappaletta 6.3. alla). Lisäksi bayeslaiset tilastotieteilijät ovat kiiittäeet huomiota siihe, että todeäköisyyde frekvessitulkia käyttöö estimoiissa ja testauksessa liittyy vaikeasti tulkittavaa puhetta siitä, mitä tapahtuu, jos otataa toistetaa, ku todellisuudessa käytettävissä o vai yksi aioa otos se otos, joka o poimittu. @ Ilkka Melli (2010) 3/13
6.2. Bayesi kaava Ositus Jouko S osajoukot B 1, B 2,, B muodostavat jouko S ositukse, jos seuraavat ehdot pätevät: (i) B, i 1, 2,, i (ii) B B, i j i (iii) S B1 B2 B j Kokoaistodeäköisyyde kaava Olkoo A epätyhjä otosavaruude S osajoukko: A S, A Oletetaa, että joukot B 1, B 2,, B muodostavat otosavaruude S ositukse. Tällöi pätee kokoaistodeäköisyyde kaava Pr( A) Pr( Bi ) Pr( A Bi ) i1 Bayesi kaava Olkoo A epätyhjä otosavaruude S osajoukko: Oletetaa, että joukot A S, A B 1, B 2,, B muodostavat otosavaruude S ositukse. Tällöi pätee Bayesi kaava Pr( Bi ) Pr( A Bi ) Pr( Bi A), i 1, 2,, Pr( B ) Pr( A B ) i1 i i Bayesi kaava kertoo mite prioritodeäköisyydet Pr(B i ) (lat. prior = edeltävä) voidaa tapahtuma A havaitsemise jälkee päivittää posterioritodeäköisyyksiksi Pr(B i A) (lat. posterior = jälkee tuleva). Bayesi kaava diskreeteille todeäköisyysjakaumille Olkoo f Y (x,y) diskreettie satuaismuuttujie ja Y yhteisjakauma pistetodeäköisyysfuktio. Olkoo lisäksi f Y (y) satuaismuuttuja Y reuajakauma pistetodeäköisyysfuktio ja f Y (x y) satuaismuuttuja x ehdollise jakauma (ehdolla y) pistetodeäköisyysfuktio. @ Ilkka Melli (2010) 4/13
Tällöi f ( x, y) f ( x y) f ( y) Y Y Y ja satuaismuuttuja y ehdollise jakauma (ehdolla x) pistetodeäköisyysfuktio f(y x) saadaa kaavasta f Y ( y x) f ( x y) f ( y) Y f ( x) f ( x) f ( x y) f ( y) Y Y y Y satuaismuuttuja reuajakauma pistetodeäköisyysfuktio. Summa lasketaa yli kaikkie satuaismuuttuja Y mahdolliste arvoje. Bayesi kaava jatkuville todeäköisyysjakaumille Olkoo f Y (x,y) jatkuvie satuaismuuttujie ja Y yhteisjakauma tiheysfuktio. Olkoo lisäksi f Y (y) satuaismuuttuja Y reuajakauma tiheysfuktio ja f Y (x y) satuaismuuttuja x ehdollise jakauma (ehdolla y) tiheysfuktio. Tällöi f ( x, y) f ( x y) f ( y) Y Y Y ja satuaismuuttuja y ehdollise jakauma (ehdolla x) tiheysfuktio f(y x) saadaa kaavasta f Y ( y x) f ( x y) f ( y) Y f ( x) f ( x) f Y ( x y) fy ( y) dy satuaismuuttuja reuajakauma tiheysfuktio. Huomautus: Y Bayesi kaava todeäköisyysjakaumille voidaa ilmeisellä tavalla formuloida myös sekamuodoille, joissa toie satuaismuuttujista ja Y o diskreetti ja toie o jatkuva. 6.3. Priorijakaumat ja posteriorijakaumat Otosiformaatio Olkoo 1, 2,, satuaisotos satuaismuuttuja jakaumasta, joka pistetodeäköisyys- tai tiheysfuktio f(x;) riippuu parametrista. Tällöi havaiot 1, 2,, ovat riippumattomia, idettisesti jakautueita satuaismuuttujia, joilla o sama pistetodeäköisyys- tai tiheysfuktio f(x;): @ Ilkka Melli (2010) 5/13
,,, 1 2 f ( x; ), i 1, 2,, i Koska parametria pidetää Bayeslaisessa lähestymistavassa satuaismuuttujaa, havaitoje jakauma f(x;) tulkitaa satuaismuuttuja ehdolliseksi jakaumaksi ehdolla. Kirjoitamme siksi jatkossa f ( x ) Koska havaiot 1, 2,, muodostavat satuaisotokse jakaumasta f(x ), ii otokse (,,, ) 1 2 yhteisjakauma pistetodeäköisyys- tai tiheysfuktio voidaa esittää muodossa f ( x ) f ( x, x,, x ) f ( x ) f ( x ) f ( x ) f ( x ), i 1,2,, i 1 2 1 2 o yksittäisee havaitoo i, i = 1, 2,, liittyvä pistetodeäköisyys- tai tiheysfuktio ja x (,,, ) x1 x2 x Otokse uskottavuusfuktio L( x) f ( x ) o otokse yhteisjakauma pistetodeäköisyys- tai tiheysfuktio f arvo pisteessä x tulkittua parametri arvoje fuktioksi. Uskottavuusperiaattee mukaa uskottavuusfuktio L() sisältää kaike otosiformaatio parametrista. Priorijakauma Oletetaa yt, että parametri o satuaismuuttuja, joka pistetodeäköisyys- tai tiheysfuktio o (): ( ) Kutsumme todeäköisyysjakaumaa () parametri priorijakaumaksi ja se sisältää prioriiformaatio eli eakkotiedo parametrista. Posteriorijakauma Parametri posteriorijakauma ( x) x (,,, ) x1 x2 x saadaa otokse = ( 1, 2,, ) yhteisjakaumasta ja parametri priorijakaumasta Bayesi kaavalla. Parametri posteriorijakauma o parametri ehdollie jakauma ehdolla = x. Ehdo muodostaa siis poimittu otos eli e havaiot, jotka todella o saatu. @ Ilkka Melli (2010) 6/13
Diskreettie jakaumie tapauksessa posteriorijakauma saadaa kaavasta ( x) f ( x ) ( ) f ( x) f ( x ) ( ) f ( x ) ( ) f ( x ) f ( x ) ( ) f ( x, ) o otokse reuajakauma, s. Bayes-uskottavuus. Summa lasketaa yli kaikkie satuaismuuttuja mahdolliste arvoje. Huomaa, että f ( x ) ( ) E [ f ( x )] Jatkuvie jakaumie tapauksessa posteriorijakauma saadaa kaavasta ( x) f ( x ) ( ) f ( x) f ( x ) ( ) f ( x ) ( ) d f ( x ) f ( x ) ( ) d f ( x, ) d o otokse reuajakauma, s. Bayes-uskottavuus. Huomaa, että Huomautus: f ( x ) ( ) d E [ f ( x )] Posteriorijakauma kaava voidaa ilmeisellä tavalla formuloida myös sekamuodoille, joissa toie satuaismuuttujista ja o diskreetti ja toie o jatkuva. Bayeslaisessa lähestymistavassa kaikki parametria koskeva tilastollie päättely perustetaa se posteriorijakaumaa. Koska ( x) f ( x ) ( ) ii posteriorijakaumaa johdettaessa voidaa toimia site, että muodostetaa otokse yhteisjakauma f(x ) ja priorijakauma () tulo ja ormeerataa tulo todeäköisyysjakaumaksi. Itse asiassa posteriorijakaumaa muodostettaessa riittää käsitellä otokse yhteisjakauma ja priorijakauma ytimiä eli iitä jakaumie pistetodeäkköisyys- tai tiheysfuktioide osia, jotka jäävät jäljelle, ku fuktioide lausekkeista jätetää pois kaikki (kerraaiset) vakio-osat, so. e (kerraaiset) osat, jotka eivät riipu ko. fuktioide argumeteista. @ Ilkka Melli (2010) 7/13
O syytä huomata, että ei ole edes välttämätötä, että priorijakauma aito todeäköisyysjakauma. Silti posteriorijakaumaksi saadaa aito todeäköisyysjakauma. Tällä tarkoitetaa sitä, että ehdo ei tarvitse päteä, kuha ( ) d 1 ( ) 0 kaikille. Bayesi kaava ataa silti (sopiva ormeeraukse jälkee) posteriorijakaumaksi f ( x) aido todeäköisyysjakauma. Jos ( ) 0 ja ( )d fuktiota () o tapaa kutsua epäoleelliseksi priorijakaumaksi. Bayeslaisessa lähestymistavassa o tapaa käyttää tällaisia epäoleellisia priorijakaumia esimerkiksi silloi, ku halutaa kuvata sitä, että prioritieto parametri käyttäytymisestä o ii heikkoa, että kaikkia vaihtoehtoja voidaa pitää yhtä epämääräisiä; ks. kohtaa epäiformatiivisista priorijakaumista alla. Kojugaattiperheet Posteriorijakauma ei tarvitse olla mitää tuettua tyyppiä, jolloi se hallitsemie saattaa olla hyvi vaikeata. Jos posteriorijakauma o samaa tyyppiä kui priorijakauma, ii tällaista ogelmaa ei ole. Saomme, että tällaisessa tapauksessa priorijakauma kuuluu havaitoje jakauma kojugaattiperheesee. Olkoo F parametri ideksoima tiheys- tai pistetodeäköisyysfuktioide f(x ) perhe. Priorijakaumie perhe o perhee F kojugaattiperhe, jos parametri posteriorijakauma kuuluu jokaiselle f F ja jokaiselle priorijakaumalle perheesee. Alla olevaa taulukkoo o kerätty eräide keskeiste jakaumie parametrie kojugaattipriorijakaumat. Havaitoje jakauma Parametri Kojugaattipriorijakauma Beroulli-jakauma p = E() Beta-jakauma Biomijakauma p = E() Beta-jakauma Poisso-jakauma = E() Gamma-jakauma Ekspoettijakauma = 1/E() Gamma-jakauma Normaalijakauma ( 2 o tuettu) = E()/ Normaalijakauma Normaalijakauma ( o tuettu) 2 = E[( ) 2 ] Ivertoitu gamma-jakauma @ Ilkka Melli (2010) 8/13
Epäiformatiiviset priorijakaumat Jos parametri käyttäytymisestä ei ole käytettävissä sellaista eakkotietoa, joka mahdollistaa priorijakauma tarka formuloii, ii Bayeslaisessa lähestymistavassa pyritää kuvaamaa kaikkie vaihtoehtoje epämääräisyyttä epäiformatiivise priorijakauma avulla. Tämä voidaa tehdä määrittelemällä parametrille (tai jolleki se muuokselle) lokaalisti tasaie jakauma. Jos parametriavaruutea o reaalilukuje joukko, ii parametrille voidaa määritellä epäiformatiivie priorijakauma kaavalla jolloi k o vakio. ( )d d ( ) k Jos parametriavaruutea o positiiviste reaalilukuje joukko, ii parametri logaritmimuuokselle = log() voidaa määritellä epäiformatiivie priorijakauma kaavalla jolloi koska ( ) d d ( ) 1 d d Kummassaki tapauksessa priorijakauma o epäoleellie eli ( )d Molemmat priorijakaumat kuvaavat vaihtoehtoje epämääräisyyttä seuraavassa mielessä: (i) Tapauksessa suhde Pr (, a) Pr ( a, ) d Pr (, d) ( ) d,, d {, }, d o määrittelemätö eli muotoa / kaikille a. (ii) Tapauksessa suhde Pr (0, a) Pr ( a, ) @ Ilkka Melli (2010) 9/13
d Pr (, d) ( ) d,, d { }, d o määrittelemätö eli muotoa / kaikille a. 6.4. Bayes-estimoiti Puhdasveriset Bayeslaiset tilastotieteilijät eivät yritä estimoida todeäköisyysjakaumie parametreja samassa mielessä kui frekvetistit. Frekvetisti o tyytyväie, ku hä o kyeyt tuottamaa parametrille piste-estimaati. Se sijaa Bayeslaie tilastotieteilijä haluaa kostruoida parametrille kokoaise posteriorijakauma. Parametri Bayes-estimaattoria käytetää kuiteki yleisesti jotaki posteriorijakauma sijaitia kuvaavaa tuuslukua. Tällöi kyseesee tulevat posteriorijakauma odotusarvo, mediaai tai moodi. Varsiki posteriorijakauma moodi o suosittu valita Bayeslaisessa lähestymistavassa estimoitii, koska se asettuu todeäköisimpie parametri arvoje kohdalle. 6.5. Bayes-testit Olkoo otokse f ( x ) 1, 2,, yhteisjakauma tiheysfuktio, ( ) parametri priorijakauma ja ( x) parametri posteriorijakauma. Olkoo testaukse kohteea oleva ollahypoteesi H 0 muotoa H 0 : 0 0 o joki parametriavaruude osajoukko ja olkoo vaihtoehtoie hypoteesi H 1 muotoa H : 1 0 0 o jouko 0 komplemetti. Määritellää todeäköisyydet ja Pr( x) Pr(H pätee x) 0 0 Pr( x) Pr(H pätee x) 0 1 Huomaa, että ämä todeäköisyydet eivät ole mielekkäitä frekvetistille, koska klassisessa lähestymistavassa parametri ei ole satuaismuuttuja vaa kiiteä luku ja lisäksi hypoteesit ovat @ Ilkka Melli (2010) 10/13
väitteitä, jotka ovat tosia tai epätosia ja site iihi ei voida liittää ollasta ja ykkösestä poikkeavia todeäköisyyksiä. Bayeslaisessa lähestymistavassa testauksee voidaa toimia esimerkiksi seuraavalla tavalla: Hyväksytää ollahypoteesi H 0, jos ja hylätää ollahypoteesi H 0, jos Pr( x) Pr( x) 0 0 Pr( x) Pr( x) 0 0 Tämä merkitsee sitä, että testisuureea käytetää otokse fuktiota ( ) Pr( ) ja testi hylkäysalue o muotoa 0 1 0 2 x Pr( x) jolloi testi hyväksymisalue o muotoa 1 0 2 x Pr( x) Jos haluamme erityisesti suojautua ollahypoteesi H 0 virheellistä hylkäystä vastaa, voimme ottaa hylkäysalueeksi jouko x Pr( x) 0 o joki ykköstä lähellä oleva luku kute 0.95 tai 0.99. 6.6. Bayes-luottamusvälit Ku frekvetistisessä lähestymistavassa tilastotieteesee puhutaa parametri ja se luottamusväli suhteesta, olisi aia hyvä käyttää saotaa: Otoksesta kostruoitu luottamusväli peittää parametri arvo luottamustaso ilmaisemalla todeäköisyydellä. Näi tulisi korostetuksi sitä, että frekvetistille luottamisväli o satuaissuure, joka päätepisteet vaihtelevat satuaisesti otoksesta toisee ja parametri o kiiteä, ei-satuaie vakio. Näi ei kuitekaa aia saota, vaa saotaa, että Parametri arvo o otoksesta kostruoidu luottamusväli sisällä luottamustaso ilmaisemalla todeäköisyydellä. Tähä saotaa liittyy se epätäsmällisyys, että luottamusväli o satuaissuure, jolle o realisoituut poimitussa otoksessa yksi se mahdollisista arvoista ja koska parametri o kiiteä, eisatuaie vakio, se arvo o realisoituee väli sisällä joko todeäköisyydellä 0 tai todeäköisyydellä 1. Ku saomme, että realisoituut luottamusväli peittää parametri arvo luottamustasolla (1 ), ii tarkasti ottae ilmaisu tarkoittaa sitä, että (1 ) % kaikista mahdollisista havaitopisteistä johtaa luottamusvälii, joka peittää parametri ja % kaikista mahdollisista havaitopisteistä johtaa luottamusvälii, joka ei sitä tee. @ Ilkka Melli (2010) 11/13
Koska erilaisia käsitteitä ei haluta sekoittaa toisiisa, Bayeslaisessa lähestymistavassa tilastotieteesee o tapaa puhua luottamusjoukkoje tai -välie sijasta uskottavuusjoukoista tai -väleistä. Olkoo ( x) parametri posteriorijakauma ehdolla = x (so. ku otostietoa o = x). Olkoo A joki parametriavaruude osajoukko: A Tällöi jouko A uskottavuustodeäköisyys o Pr( A x) ( x) d A ja A o uskottavuusjoukko parametrille. Jos posteriorijakauma ( x) o joki diskreeti jakauma pistetodeäköisyysfuktio, ii yo. kaava itegraali o korvattava summalla. Uskottavuusjoukkoje uskottavuustodeäköisyydet määrätää posteriorijakaumasta. Posteriorijakauma todeäköisyysmekaismi taas perustuu priorijakauma todeäköisyysmekaismii. Tutkija o kuvaut priorijakauma avulla parametria koskevie eakkokäsitystesä varmuutta. Tämä kuvaukse pitää tapahtua jo ee kui tutkija o saaut käyttöösä otostietoa. Uskottavuustodeäköisyydet kuvaavat tutkija parametria koskevie käsityste varmuutta se jälkee, ku hä o päivittäyt parametria koskevat eakkokäsityksesä otostiedolla. Ku bayeslaie tilastotieteilijä saoo, että parametri kuuluu 90 %: todeäköisyydellä kostruoituu uskottavuusjoukkoo, hä tarkoittaa seuraavaa: Se jälkee ku otostieto o yhdistetty prioritietoo, hä o 90 %:se varma siitä, että parametri kuuluu uskottavuusjoukkoo. Se sijaa luottamusjoukkoje peittotodeäkäisyydet kuvaavat otataa liittyvää epävarmuutta ja siihe liittyvä todeäköisyysmekaismi perustuu siihe, että ajatellaa, että otataa voidaa aiaki hypoteettisesti toistaa. Ku frekvetisti saoo, että luottamusjoukko peittää 90 %: todeäköisyydellä parametri arvo, hä tarkoittaa seuraavaa: Jos otataa toistetaa, ii 90 % kostruoiduista luottamusjoukoista peittää parametri todellise arvo. Bayeslaie optimaalisuus Klassisise lähestymistava luottamusjoukkoja kostruoitaessa haluttii iistä joukoista, joilla o sama peittotodeäköisyys, valita mahdollisimma piei. Sama ajatus voidaa liittää myös bayeslaisii uskottavuusjoukkoihi. Olkoo ( x) parametri posteriorijakauma ehdolla = x (so. ku otostietoa o = x). Haluamme siis löytää jouko C(x), joka toteuttaa seuraavat kaksi ehtoa: (i) C ( x) ( x) d 1 (ii) Jouko C(x) koko o korkeitaa yhtä suuri kui jouko C (x) koko kaikille joukoille C (x), jotka toteuttavat ehdo @ Ilkka Melli (2010) 12/13
C ( x) ( x) d 1 Jos uskottavuusjoukkoa o väli ja jouko kokoa mitataa väli pituudella, pätee seuraava lause (vrt. luvu 5. kappalee 5.3. kohdassa Peittotodeäköisyys ja luottamusjouko koko esitettyy lauseesee): Lause: Olkoo posteriorijakauma ( x) uimodaalie. Valitaa luku [0,1]. Tällöi lyhyi uskottavuusväli parametrille toteuttaa ehdo { ( x) k} { ( x) k} ( x) d 1 Lausee määrittelemää uskottavuusjoukkoa kutsutaa korkeimma posterioritiheyde alueeksi. @ Ilkka Melli (2010) 13/13