MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastollisen merkitsevyyden testaus Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2017 2018 Periodi I

Sisältö Tilastollisen merkitsevyyden testaaminen Odotusarvon testaaminen suurille datajoukoille Merkitsevyyden testaaminen normaalimallille

Mustekala Paul Jalkapallon MM-kisoissa 2010 Paul ennusti voittajan oikein jokaiselle Saksan ottelulle. Onko poikkeuksellisen hyvä ennustustulos tilastollisesti merkitsevä, vai voidaanko se lukea tavanomaisen satunnaisvaihtelun piiriin? https://en.wikipedia.org/wiki/paul_the_octopus

Nollahypoteesi H 0 Tilastollisen merkitsevyystestin lähtökohdaksi muotoillaan nollahypoteesi H 0, joka vastaa tilannetta, jossa mitään uutta tai yllättävää ei tarvita havaintojen selittämiseen. Esim H 0 : Selvännäkijän ennustukset eivät ole arvauksia parempia H 0 : Uusi lääke ei ole lumelääkettä tehokkaampi H 0 : Salkunhoitajan rahaston tuotto ei ole pörssi-indeksiä parempi Merkitsevyystestin vastahypoteesi H 1 on yleensä nollahypoteesin vastakohta.

Nollahypoteesi vs. data Kuuluuko havaittu data tyypillisen satunnaisvaihtelun piiriin vai onko syytä epäillä nollahypoteesia? Esimerkki (Kolikko) Tasaiseksi väitettyä kolikkoa 50 kertaa heitettäessä saadaan 42 kruunaa. H 0 : Kruunan tn θ = 1/2 H 1 : Kruunan tn θ 1/2 Esimerkki (Kohinainen kanava) Tiedonsiirtovirheiden väitetään olevan normaalijakautuneita parametreina µ = 0 ja σ = 3. Kanavaa kerran testaamalla mitattiin virheeksi x 1 = 4.8. H 0 : µ = 0 H 1 : µ 0 Esimerkki (Laadunvalvonta) Tukkukauppiaan väitteen mukaan sen tomaateista enintään 5% on huonolaatuisia. Suuresta tilauserästä poimittiin satunnaisesti 50 tomaattia ja niistä 4 todettiin huonolaatuisiksi. H 0 : Huonolaatuisten osuus θ 0.05 H 1 : Huonolaatuisten osuus θ > 0.05

Testisuureen p-arvo Havaitun datajoukon x = (x 1,..., x n ) poikkeuksellisuutta analysoidaan laskemalla testisuure t(x) = t(x 1,..., x n ), joka tiivistää havaitut datapisteet yhdeksi reaaliluvuksi. Testisuureen p-arvo on todennäköisyys, jolla nollahypoteesin mukaisen datalähteen ennakoidaan tuottavan poikkeavampia tai yhtä poikkeavia testisuureen arvoja kuin t(x). p-arvo Tulkinta > 0.10 Havainto ei ole ristiriidassa H 0 :n kanssa 0.05 Havainto todistaa jonkun verran H 0 :aa vastaan < 0.01 Havainto todistaa vahvasti H 0 :aa vastaan

Esim. Kolikko Tasaiseksi väitetty kolikko tuottaa 42 kruunaa 50 heitolla. H 0 : Kruunan tn θ = 1/2 H 1 : Kruunan tn θ 1/2 Testisuure = kruunien lukumäärä: t(x) = 42 T = t(x ) = kruunien lkm stokastisessa mallissa f (x) = P(T = x H 0 ) = ( 50 x ) ( 1 2 Testisuureen odotusarvo t 0 = E(T H 0 ) = 25. p-arvo = P( T t 0 t(x) t 0 H 0 ) ) x ( 1 1 ) 50 x 2 = P( T 25 17 H 0 ) 8 50 = f (x) + f (x) 1.2 10 6. x=0 x=42 Havainto todistaa vahvasti H 0 :aa vastaan.

Esim. Kohinainen kanava Tiedonsiirtovirheiden väitetään olevan normaalijakautuneita odotusarvona µ = 0 ja keskihajontana 3. Havainto: x 1 = 4.8. H 0 : Odotusarvo µ = 0 H 1 : Odotusarvo µ 0 Testisuure = normitettu poikkeama nollahypoteesin mukaisesta odotusarvosta: z(x) = x 1 0 3 = 1.6 p-arvo = P( Z 1.6 H 0 ) = 2 1.6 1 2π e t2 /2 dt 11%, Havainto on selitettävissä tavanomaisella satunnaisvaihtelulla. Havainto ei puhu H 0 :aa vastaan.

Esim. Laadunvalvonta Tukkukauppiaan väitteen mukaan sen toimittamista tomaateista enintään 5% on huonolaatuisia. Suuresta erästä poimittiin satunnaisesti 50 tomaattia ja niistä 4 todettiin huonolaatuisiksi. H 0 : Huonojen osuus θ 0.05 H 1 : Huonojen osuus θ > 0.05 Testisuure: Huonojen lkm: t(x) = 4 Datalähteen tuottamien testisuureen arvojen stokastinen malli: ( ) 50 P θ (T = t) = f θ (t) = θ t (1 θ) 50 t t Poikkeavuus: testisuureen arvo poikkeaa ylöspäin odotusarvosta ( ) P θ T E θ (T ) t(x) E θ (T ) = P θ (T t(x)) = Ongelma: tn riippuu θ:sta. Valitaan suurin tn (miksi?). 50 t=4 f θ (t). p-arvo = max P θ(t t(x)) = P 0.05 (T t(x)) = θ 0.05 50 t=4 f 0.05 (t) 24%

Tilastollisen merkitsevyystestin vaiheet Joskus asetetaan myös vastahypoteesi H 1, jolloin tarkoitus on tutkia, puoltaako havaittu datajoukko enemmän H 0 :n vai H 1 :n hyväksymistä. 1. Asetetaan nollahypoteesi H 0 ja mahdollisesti vastahypoteesi H 1. 2. Valitaan käytettävä testisuure ja lasketaan havaittua dataa x vastaava testisuureen arvo t(x). 3. Määritetään datalähteen tuottamia testisuureen arvoja mallintavan satunnaismuuttujan T jakauma nollahypoteesin vallitessa. 4. Määritetään mitkä testisuureen arvot tulkitaan havaittua testisuureen arvoa poikkeuksellisemmiksi (puoltavat H 1 :n hyväksymistä H 0 :n sijaan) ja lasketaan testin p-arvo. 5. Tehdään johtopäätökset: Pieni p-arvo = H 0 hylätään Suuri p-arvo = H 0 jää voimaan

Testaaminen valitulla merkitsevyystasolla Miten pieni p-arvo on riittävän pieni? Tietyissä tilanteissa vaaditaan yksiselitteistä johtopäätöstä: testin pohjalta H 0 joko hyväksytään tai hylätään. Tällaisen testin pohjaksi valitaan merkitsevyystaso α (0, 1) ja johtopäätös muodostetaan seuraavasti: Jos p-arvo α, nollahypoteesi hyväksytään (jää voimaan), Jos p-arvo < α, nollahypoteesi hylätään. Usein on tapana valita merkitsevyystasoksi α = 1% tai α = 5%

Testausvirheet Mikään ei takaa, että tehty johtopäätös olisi oikea. Johtopäätös Totuus H 0 hyväksytään H 0 hylätään H 0 tosi Oikea päätös Hylkäysvirhe H 0 epätosi Hyväksymisvirhe Oikea päätös Testaajan johtopäätös on aina arvaus. Hyvä arvaus on todennäköisesti oikein.

Testausvirheiden todennäköisyydet p(x) = testisuureen p-arvo datajoukolle x X = (X 1,..., X n ) mallintaa datalähteen tuottamia arvoja ennen niiden havaitsemista = p(x ) on satunnaisluku Hylkäysvirheen todennäköisyys on P(H 0 hylätään H 0 ) = P(p(X ) < α H 0 ) Hyväksymisvirheen todennäköisyys on P(H 0 hyväksytään H 1 ) = P(p(X ) α H 1 ), α Hylkäysvirheen tn Hyväksymisvirheen tn Lähellä nollaa Pieni Suuri Lähellä ykköstä Suuri Pieni Fakta Hylkäysvirheen tn α.

Testausvirheiden tulkinta Anni Aktiivi Käyttää merkitsevyystasoa α = 5% Hylkää useammin nollahypoteeseja On henkisesti varautunut siihen, että tietty osuus testien johtopäätöksistä on virheellisiä Tietää, että pitkällä tähtäyksellä hänen hylkäämistään nollahypoteeseista enintään 5% on virheellisesti hylätty (Hän ei kuitenkaan tiedä mitkä niistä.) Hyväksyy Villeä harvemmin virheellisesti nollahypoteeseja (ei tiedä miten usein) Ville Varovainen Käyttää merkitsevyystasoa α = 1% Hylkää harvemmin nollahypoteeseja On henkisesti varautunut siihen, että tietty osuus testien johtopäätöksistä on virheellisiä Tietää, että pitkällä tähtäyksellä hänen hylkäämistään nollahypoteeseista enintään 1% on virheellisesti hylätty (Hän ei kuitenkaan tiedä mitkä niistä.) Hyväksyy Annia useammin virheellisesti nollahypoteeseja (ei tiedä miten usein)

Esim. Rikosoikeus H 0 : Epäilty on syytön H 1 : Epäilty on syyllinen Havaittu data: Saatavilla oleva todistusaineisto Hylkäysvirhe: Syytön tuomitaan Hyväksymisvirhe: Syyllistä ei tuomita Anni Aktiivi Käyttää merkitsevyystasoa α = 5% Langettaa useammin tuomioita Tuomitsee pitkällä tähtäyksellä 5% syyttömiä Jättää Villeä harvemmin syyllisiä tuomitsematta Ville Varovainen Käyttää merkitsevyystasoa α = 1% Langettaa harvemmin tuomioita Tuomitsee pitkällä tähtäyksellä 1% syyttömiä Jättää Annia useammin syyllisiä tuomitsematta

Esim. Kolikko Tasaiseksi väitettyä kolikkoa 10 kertaa heitettäessä havaitaan data y = (0, 0, 1, 0, 0, 0, 0, 0, 0, 0). Testaa väitettä 5% merkitsevyystasolla. H 0 : Kruunan tn θ = 0.5, H 1 : Kruunan tn θ 0.5. Testisuure: t(x)=kruunien lkm Testisuureen stokastinen malli: T = t(x ) f H0 (t) = P(T = t H 0 ) = ( 10 t ) ( 1 2 ) 10 Havainnon y p-arvo p(y) = P( t(x ) 5 4 H 0 ) = 1 10 f H0 (t) + f H0 (t) 2.1%. t=0 t=9 Johtopäätös: Nollahypoteesi hylätään (5% merkitsevyystasolla). Mitä osataan sanoa virhetodennäköisyyksistä?

Esim. Kolikko Hylkäysvirheen tn Testin p-arvot testisuureen funktiona: # kruunat 0 1 2 3 4 5 6 7 8 9 10 p-arvo (%) 0.2 2.1 10.9 34.4 75.4 100 75.4 34.4 10.9 2.1 0.2 5% merkitsevyystasolla testin hylkäysalue on {0, 1, 9, 10}. Hylkäysvirheen tn on P(t(X ) {0, 1, 9, 10} H 0 ) = 1 10 f H0 (t) + f H0 (t) 2.1%. t=0 t=9

Esim. Kolikko Hyväksymisvirheen tn Testin p-arvot testisuureen funktiona: # kruunat 0 1 2 3 4 5 6 7 8 9 10 p-arvo (%) 0.2 2.1 10.9 34.4 75.4 100 75.4 34.4 10.9 2.1 0.2 5% merkitsevyystasolla testin hylkäysalue on {0, 1, 9, 10}. Hyväksymisvirheen tn on P(t(X ) {2, 3,..., 8} H 1 ) =? Ongelma: vastahypoteesi (H 1 : θ 0.5) ei määrää θ:n arvoa. Ääritapaus θ 0.5, jolloin P(t(X ) {2, 3,..., 8} H 1 ) P(t(X ) {2, 3,..., 8} H 0 ) 8 = f H0 (t) 97.9%. t=2

Esim. Kahden tyyppisiä kolikoita Tasaiseksi väitettyä kolikkoa 10 kertaa heitettäessä havaitaan data y = (0, 0, 1, 0, 0, 0, 0, 0, 0, 0). Tiedetään, että joko θ = 0.5 tai θ = 0.9. Testaa väitettä 5% merkitsevyystasolla. H 0 : Kruunan tn θ = 0.5, H 1 : Kruunan tn θ = 0.9. Sama testisuure, sama p-arvo, sama johtopäätös (H 0 hylätään). ( ) 10 f H1 (t) = P(T = t H 1 ) = 0.9 t (1 0.9) 10 t t Hyväksymisvirheen tn: P( t(x ) {2, 3,..., 8} H 1 ) = 8 f H1 (t) 26%. t=2

Odotusarvon testisuure suurille datajoukoille Datalähde tuottaa toisistaan riippumattomia ja samoin jakautuneita satunnaislukuja X 1, X 2,..., X n odotusarvona (tuntematon) µ. H 0 : µ = µ 0 H 1 : µ µ 0 Jakauma tuntematon = mahdoton testata? Approksimatiivinen testi mahdollinen, jos paljon dataa. Testisuure: t(x) = m(x) µ 0 s(x)/ n. Fakta Suurille datajoukoille testisuureen stokastinen malli t(x ) noudattaa likimain normitettua normaalijakaumaa, jolloin p-arvo P( t(x ) t(x) H 0 ) P( Z t(x) ).

Esim. Kahviautomaatti Kahviautomaatin on tarkoitus laskea jokaiseen kuppiin keskimäärin 10.0 cl kahvia. Kahviautomaatin toimintaa testattiin valuttamalla automaatista 30 kupillista ja mittamalla kahvin määrät kupeissa. Mittauksessa havaittiin arvot (cl): 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Onko kahviautomaatti oikein kalibroitu? Mittausdatan x keskiarvo on m(x) = 10.473, joka poikkeaa tavoitearvosta µ 0 = 10.0. Onko poikkeama tilastollisesti merkitsevä?

Esim. Kahviautomaatti 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Datajoukon keskiarvo m(x) = 10.473, keskihajonta s(x) = 0.563. H 0 : µ = 10.0 H 1 : µ 10.0 Havaitun datajoukon testisuure: t(x) = m(x) µ 0 s(x)/ n = 10.473 10.0 0.563/ 30 = 4.60. Jos uskotaan, että n = 30 on riittävän iso, voidaan käyttää suuren datajoukon testiä: p-arvo P( t(x ) t(x) H 0 ) P( Z 4.60) 4.2 10 6. Johtopäätös: Hyvin pieni p-arvo puoltaa vahvasti H 0 :n hylkäämistä.

Datalähteen normaalimalli Analyysiä helpottava yleinen hypoteesi: Havaitut arvot ovat toteumia riippumattomista Nor(µ, σ)-jakautuneista satunnaismuuttujista. Normaalijakauman parametreja µ ja σ ei tunneta. Yleisen hypoteesin pätiessä tilastokokeen tulos (ennen sen havaitsemista) on satunnaisvektori X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja Nor(µ, σ)-jakautuneet. Huom Ennen testaamista on syytä pohtia (tai testata) onko normaalisuus perusteltu.

Tilastokokeen stokastisen mallin tunnusluvut Tilastokokeen stokastinen malli on X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja Nor(µ, σ)-jakautuneet. Stokastisesta mallista laskettu keskiarvo on satunnaisluku m(x ) = 1 n n X i, i=1 jonka odotusarvo on µ ja keskihajonta σ/ n. Jos hypoteesi µ = µ 0 pätee, niin suure m(x ) µ 0 σ/ n noudattaa normitettua normaalijakaumaa.

Esim. Kahviautomaatti: mittausten jakauma 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Mittausdatan x keskiarvo on m(x) = 10.473. Onko mittausdata likimain normaalijakautunut? Kahvimäärien histogrammi frekvenssi 0 2 4 6 8 10 12 9.0 9.5 10.0 10.5 11.0 11.5 12.0 Määrä(cl)

Esim. Kahviautomaatti: Normitettu keskiarvo Jos data tulee normaalijakaumasta, niin poikkeaman tilastollista merkitsevyyttä voidaan verrata N(0, 1)-jakaumaan, kunhan m(x) normitetaan muotoon m(x) µ 0 σ/ n = 10.473 10.0 σ/ 30 =? Ongelma: Parametri σ on tuntematon. Ratkaisu: Korvataan σ estimaatilla s(x) = 0.563. Havaitusta datasta saadaan tunnusluku t(x) = m(x) µ 0 s(x)/ n = 10.473 10.0 0.563/ 30 = 4.60.

Keskihajonnan korvaaminen otoskeskihajonnalla Yleisen hypoteesin (normaalimalli) ja nollahypoteesin (µ = µ 0 ) pätiessä normitettu tunnusluku m(x ) µ 0 σ/ n Nor(0, 1) Entä t(x ) := m(x ) µ 0 s(x )/ n?

Normaalimallin testisuure Fakta Normaalimallin tuottaman satunnaisvektorin X = (X 1,..., X n ) tunnusluku t(x ) = m(x ) µ s(x )/ n noudattaa Studentin t-jakaumaa vapausastein n 1, jonka tiheysfunktio on ( ) (n 1)+1 f (t) = c n 1 1 + t2 2. n 1

Studentin t-jakauma Jatkuva satunnaisluku X noudattaa t-jakaumaa vapausastein n, jos sillä on tiheysfunktio muotoa f (x) = c n ( 1 + x 2 n ) n+1 2. t distributions f(x) 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 x Kuva: Studentin t-jakaumia vapausastein n = 1 (sininen), n = 2 (vihreä), n = 5 (punainen)ja n = (musta). Student (William S Gosset): The probable error of a mean. Biometrika 1908.

Studentin t-testi 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitulle datalle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin (normaalijakauma) ja nollahypoteesin (µ = µ 0 ) pätiessä stokastista mallia vastaava (satunnainen) tunnusluku on t(x ) := m(x ) µ 0 s(x )/ n t(29). Jos hypoteesit ok, niin tyypillisesti t(x ) 0. Studentin t-testin p-arvo on poikkeaman t(x ) 4.60 tn: P( t(x ) 4.60) = 2*(1-pt(4.60,29)) = 0.000077. Näin pieni p-arvo tarkoittaa, että testisuureen havaittu poikkeama nollasta johtuu hyvin epätodennäköisesti satunnaisvaihtelusta. Havaittu poikkeama on siis tilastollisesti merkitsevä ja antaa aiheen hylätä nollahypoteesi µ = 10.0.

Studentin t-testin suorittaminen p-arvolla: Yhteenveto Lähtökohdat Havaittu data x = (x 1,..., x n ). Yleinen hypoteesi (normaalimalli): Datalähteen arvot riippumattomia ja normaalijakautuneita (µ,σ) Nollahypoteesi H 0 : µ = µ 0 (Vaihtoehtoinen hypoteesi H 1 : µ µ 0 ) Testaus Lasketaan datasta testisuure t(x) = m(x) µ 0 s(x)/ n Lasketaan t(n 1)-jakaumasta p-arvo P( t(x ) t(x) ). Johtopäätös Jos p-arvo on lähellä nollaa = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan. R: t.test(x,mu=10.0)

Luennot päättyvät tähän (perjantaina ei ole luentoa). Kiitos aktiivisesta osallistumisesta ja menestystä tuleviin opintoihin.