MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 5 Tilastollisten hypoteesien testaaminen Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015
Sisältö Hypoteesi määrällisen muuttujan odotusarvosta Kahden odotusarvon yhtäsuuruuden testaaminen Binaariarvoisen laadullisen muuttujan testaus
Sisältö Hypoteesi määrällisen muuttujan odotusarvosta Kahden odotusarvon yhtäsuuruuden testaaminen Binaariarvoisen laadullisen muuttujan testaus
Esim. Kahviautomaatti Kahviautomaatin on tarkoitus laskea jokaiseen kuppiin keskimäärin 10.0 cl kahvia. Kahviautomaatin toimintaa testattiin valuttamalla automaatista 30 kupillista ja mittamalla kahvin määrät kupeissa. Mittauksessa havaittiin arvot (cl): 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Onko kahviautomaatti oikein kalibroitu? Havaitun aineiston x keskiarvo on m(x) = 10.473, joka poikkeaa tavoitearvosta µ 0 = 10.0. Onko poikkeama tilastollisesti merkitsevä?
Tilastokokeen stokastinen malli Analyysiä helpottava (tai sen mahdollistava) yleinen hypoteesi H: Havaitut arvot ovat realisaatioita riippumattomista N(µ, σ 2 )-jakaumaa noudattavista satunnaismuuttujista. Normaalijakauman parametreja µ ja σ 2 ei tunneta. Yleisen hypoteesin pätiessä tilastokokeen tulos (ennen sen havaitsemista) on satunnaisvektori X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Huom Normaalijakaumaoletus on erittäin rajoittava ja ennen testaamista on syytä pohtia (tai testata) onko normaalijakaumaoletus perusteltu. Jos ei, niin suurelle aineistolle voidaan käyttää normaaliarviota. On myös olemassa muita testejä, jotka soveltuvat pienemmillekin otoksille. Näitä käsitellään kurssilla Tilastollisen analyysin perusteet.
Tilastokokeen stokastisen mallin tunnusluvut Tilastokokeen stokastinen malli on X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Stokastisesta mallista laskettu keskiarvo on satunnaisluku m(x ) = 1 n n X i, i=1 jonka odotusarvo on µ ja keskihajonta σ/ n. Jos hypoteesi µ = µ 0 pätee, niin normalisoitu tunnusluku noudattaa N(0, 1)-jakaumaa. m(x ) µ 0 σ/ n
Esim. Kahviautomaatti: aineiston jakauma 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitun aineiston x keskiarvo on m(x) = 10.473. Onko aineisto normaalijakautunut? Kahvimäärien histogrammi frekvenssi 0 2 4 6 8 10 12 9.0 9.5 10.0 10.5 11.0 11.5 12.0 Määrä(cl)
Esim. Kahviautomaatti: Normalisoitu keskiarvo Jos aineisto on normaalijakautunut, niin poikkeaman tilastollista merkitsevyyttä voidaan verrata N(0, 1)-jakaumaan, kunhan m(x) normalisoidaan muotoon m(x) µ 0 σ/ n = 10.473 10.0 σ/ 30 =? Ongelma: Parametri σ on tuntematon. Ratkaisu: Korvataan σ estimaatilla s(x) = 0.563. Aineistosta saadaan tunnusluku t(x) = m(x) µ 0 s(x)/ n = 10.473 10.0 0.563/ 30 = 4.60.
Keskihajonnan korvaaminen otoskeskihajonnalla Yleisen hypoteesin (normaalijakautuma) ja nollahypoteesin (µ = µ 0 ) pätiessä normalisoitu tunnusluku m(x ) µ 0 σ/ n N(0, 1) Entä t(x ) := m(x ) µ 0 s(x )/ n? Fakta Yleisen hypoteesin ja nollahypoteesin pätiessä tunnusluku t(x ) noudattaa Studentin t(n 1)-jakaumaa vapausastein n 1.
Studentin t-testi 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Aineistolle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin (normaalijakauma) ja nollahypoteesin (µ = µ 0 ) pätiessä stokastista mallia vastaava (satunnainen) tunnusluku on t(x ) := m(x ) µ 0 s(x )/ n t(29). Jos hypoteesit ok, niin tyypillisesti t(x ) 0. Studentin t-testin p-arvo on poikkeaman t(x ) 4.60 tn: Pr( t(x ) 4.60) = 2*(1-pt(4.60,29)) = 0.000077.
Studentin t-testin tulkinta 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Aineistolle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin ja nollahypoteesin pätiessä stokastista mallia vastaava tunnusluku toteuttaa t(x ) 4.60 todennäköisyydellä Pr( t(x ) 4.60) = 0.000077. Näin pieni p-arvo tarkoittaa, että testisuureen havaittu poikkeama nollasta johtuu hyvin epätodennäköisesti satunnaisvaihtelusta. Havaittu poikkeama on siis tilastollisesti merkitsevä ja antaa aiheen hylätä nollahypoteesi µ = 10.0. Johtopäätös: Kahviautomaatti on virheellisesti kalibroitu.
Studentin t-testin suorittaminen p-arvolla: Yhteenveto Lähtökohdat Määrällisen muuttujan aineisto x = (x 1,..., x n ). Yleinen hypoteesi H: Havaittu aineisto koostuu riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuttujien realisaatioista Nollahypoteesi H 0 : µ = µ 0 (Vaihtoehtoinen hypoteesi H 1 : µ µ 0 ) Testaus Lasketaan aineistosta testisuure t(x) = m(x) µ 0 s(x)/ n Lasketaan t(n 1)-jakaumasta p-arvo Pr( t(x ) t(x) ). Johtopäätös Jos p-arvo on lähellä nollaa = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan. R: t.test(x,mu=10.0)
Studentin t-testi ennalta määrätyllä merkitsevyystasolla Lähtökohdat: Samat Valitaan testin merkitsevyystaso α (esim. α = 1%) ja määritetään t(n 1)-jakaumasta kriittiset arvot a ja b, joille Pr(t(X ) a) = α/2 ja Pr(t(X ) b) = α/2. R:llä b = qt(1-α/2, n-1) ja a = qt(α/2, n-1) = b. Testaus Lasketaan aineistosta testisuure t(x) = m(x) µ 0 s(x)/ n Katsotaan kuuluuko t(x) välille (a, b). Johtopäätös Jos t(x) / (a, b) = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan.
Esim. Kahviautomaatti 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Aineistolle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Merkitsevyystasoa α = 0.01 vastaavat kriittiset arvot ovat a = qt(0.005,29) = 2.76 b = qt(0.995,29) = +2.76 Testisuure t(x) ( 2.76, 2.76) = Nollahypoteesi µ = 10.0 hylätään 1 % merkitsevyystasolla. Johtopäätös: Kahviautomaatti ei valuta keskimäärin 10.0 cl kokoisia kupillisia.
Yleisen hypoteesin merkitys Yleinen hypoteesi H: Tehdyt havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Yleistä hypoteesia ei t-testin yhteydessä testata, vaan sen ajatellaan olevan vahvistettu muilla tavoin. Jos yleinen hypoteesi ei päde, on t-testin tulos merkityksetön. Aineiston normaalisuuden testaamiseksi on olemassa omia testejä (ei käsitellä tällä kurssilla)
Oikea vai väärä johtopäätös? Testin tulos Nollahypoteesi jää voimaan Nollahypoteesi hylätään Maailman tila Nollahypoteesi Nollahypoteesi pätee ei päde Oikea Hyväskymisvirhe johtopäätös Hylkäysvirhe Oikea johtopäätos Testin merkitsevyystaso α kertoo hylkäysvirheen todennäköisyyden (ennen aineiston havaitsemista) Nollahypoteesi hylätään merkitsevyystasolla α täsmälleen silloin, kun testin p-arvo on pienempi kuin α. Testin hyväksymisvirhe ei ole 1 α. (Hyväksymisvirheen analysoimista ei käsitellä tällä kurssilla.)
Sisältö Hypoteesi määrällisen muuttujan odotusarvosta Kahden odotusarvon yhtäsuuruuden testaaminen Binaariarvoisen laadullisen muuttujan testaus
Esim. Verenpainelääke Samojen potilaiden (8 kpl) verenpaine mitattiin ennen ja jälkeen testattavan lääkkeen nauttimisen. Koetulokset (mm/hg) ovat: 1 2 3 4 5 6 7 8 Ennen 134 174 118 152 187 136 125 168 Jälkeen 128 176 110 149 183 136 118 158 Onko lääkkeellä keskimäärin verenpainetta alentava vaikutus? Verenpaineiden keskiarvo ennen: m(x (e) ) = 149.25 Verenpaineiden keskiarvo ennen: m(x (j) ) = 144.75 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on siis 4.5 yksikköä alempi Onko tämä muutos tilastollisesti merkitsevä?
Parivertailun stokastinen malli Erotukset verenpaine ennen - verenpaine jälkeen : 1 2 3 4 5 6 7 8 Ennen 134 174 118 152 187 136 125 168 Jälkeen 128 176 110 149 183 136 118 158 Erotus 6-2 8 3 4 0 7 10 Yleinen hypoteesi H: Havaitut erotukset d i ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Nollahypoteesi H 0 : µ = 0 Vaihtoehtoinen hypoteesi H 1 : µ 0.
Odotusarvon parivertailun t-testi Tilastokokeen stokastinen malli on satunnaisvektori D = (D 1,..., D n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Yleisen hypoteesin ja nollahypoteesin pätiessä stokastisen mallin testisuure t(d) = m(d) 0 s(d)/ t(n 1). n Vastaava aineistosta laskettu testisuure on t(d) = m(d) 0 s(d)/ n = 4.5 4.07/ 8 = 3.13. Kun vaihtoehtoinen hypoteesi on (H 1 : µ 0), saadaan p-arvoksi Pr( t(d) 3.13) = 2*(1-pt(3.13,7)) = 0.017. R: t.test(x (e),x (j),paired=true,alternative="two.sided")
Odotusarvon parivertailun t-testin tulkinta Onko lääkkeellä keskimäärin verenpainetta alentava vaikutus? 1 2 3 4 5 6 7 8 Ennen 134 174 118 152 187 136 125 168 Jälkeen 128 176 110 149 183 136 118 158 Erotus 6-2 8 3 4 0 7 10 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on 4.5 yksikköä alempi Erotuksista laskettu t(d) = 3.13; testin p-arvo on 0.017 Onko tämä muutos tilastollisesti merkitsevä? Nollahypoteesi (lääkkellä ei vaikutusta, µ = 0): Hylätään 2 % merkitsevyystasolla Jää voimaan 1 % merkitsevyystasolla Lääkäri, joka hylkää nollahypoteesit 2 % merkitsevyystasolla, tekee pitkällä aikavälillä virheellisiä johtopäätöksiä 2 % tapauksista, joissa H 0 olisi ollut tosi.
Parivertailun yksisuuntainen t-testi Tilastokokeen stokastinen malli on D = (D 1,..., D n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Yleisen hypoteesin ja nollahypoteesin pätiessä t(d) = m(d) 0 s(d)/ n t(n 1). Vastaava aineistosta laskettu testisuure on t(d) = 3.13. Kun vaihtoehtoinen hypoteesi on (H 1 : µ > 0), saadaan p-arvoksi Pr(t(D) 3.13) = 1-pt(3.13,7) = 0.0083. Tällöin nollahypoteesi H 0 : µ = 0 (lääke ei alenna verenpainetta) voidaan hylätä vaihtoehtoisen hypoteesin H 1 : µ > 0 tukemana merkitsevyystasolla 1 %. R: t.test(x (e),x (j),paired=true,alternative="greater")
Odotusarvojen vertailu eri kokoisille otoksille Potilaat on jaettu kahteen ryhmään, joista toisen ryhmän potilaille on annettu lumelääkettä (10 kpl) ja toisen ryhmän potilaille (8 kpl) testattavaa lääkettä. Molempien ryhmien potilailta mitattiin eräs antigeeniarvo lääkekuurien jälkeen. Koetulokset (U/ml) ovat: 1 2 3 4 5 6 7 8 9 10 Lume 102 88 69 102 83 88 93 109 61 70 Testattava 111 84 60 80 83 71 54 59 Onko lääkkeellä keskimäärin antigeenipitoisuutta alentava vaikutus? Lumelääkettä saaneiden keskiarvo: m(x (l) ) = 79.7 Testattavaa lääkettä saaneiden keskiarvo ennen: m(x (t) ) = 75.25 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on siis 4.45 yksikköä alempi Onko tämä muutos tilastollisesti merkitsevä?
Ryhmien odotusarvojen vertailun stokastinen malli Ryhmät G 1 ja G 2, joiden otoskoot ovat n 1 = 10 ja n 2 = 8 Yleinen hypoteesi H: Ryhmän G 1 havainnot ovat riippumattomien N(µ 1, σ1 2 )-jakautuneiden satunnaismuuttujien X 1,..., X n1 realisaatioita. Ryhmän G 2 havainnot ovat riippumattomien N(µ 2, σ2 2 )-jakautuneiden satunnaismuuttujien Y 1,..., Y n2 realisaatioita. Otokset ovat riippumattomat Nollahypoteesi H 0 : µ 1 = µ 2 Vaihtoehtoinen hypoteesi H 1 : µ 1 µ 2.
Ryhmien odotusarvojen vertailun t-testi Otoskeskiarvot noudattavat normaalijakaumia, m(x ) N ( ) µ 1, σ2 1 n 1 ja m(y ) N ( ) µ 2, σ2 2 n 2, joten niiden erotus noudattaa normaalijakaumaa, ( ) m(x ) m(y ) N µ 1 µ 2, σ2 1 + σ2 2. n 1 n 2 Testisuure on m(x ) m(y ) t(x, Y ) = s 2 (X ) s(y )2 n 1 + n 2 ja sen jakaumaa voidaan arvoida 1. N(0, 1)-jakaumalla, jos n 1 ja n 2 ovat suuria 2. t(ν)-jakaumalla, missä ν = jos n 1 tai n 2 on pieni. [ s 2 (X ) ] 2 n 1 + s2 (Y ) n 2 ( ) 1 s 2 2 (X ) n 1 1 n 1 + 1 n 2 1 ( s 2 (Y ) n 2 ) 2,
Ryhmien dotusarvojen vertailun t-testi Onko lääkkeellä keskimäärin antigeenipitoisuutta alentava vaikutus? 1 2 3 4 5 6 7 8 9 10 Lume 102 88 69 102 83 88 93 109 61 70 Testattava 111 84 60 80 83 71 54 59 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on 4.45 yksikköä alempi, n 1 = 10 ja n 2 = 8, s 2 (x) = 164.2 ja s 2 (y) = 343.4. Vapausasteet: ν = [ s 2 (X ) n 1 + s2 (Y ) n 2 ] 2 ( ) 2 1 s 2 (X ) n 1 1 n 1 + 1 n 2 1 ( s 2 (Y ) n 2 ) 2 = 12.01. Testisuureen arvo t(x, Y ) = 0.578; testin p-arvo on Pr(t(D) 0.578) = 2*(1-pt(0.578,12)) = 0.574. Onko tämä muutos tilastollisesti merkitsevä? Nollahypoteesia ei hylätä.
Sisältö Hypoteesi määrällisen muuttujan odotusarvosta Kahden odotusarvon yhtäsuuruuden testaaminen Binaariarvoisen laadullisen muuttujan testaus
Laadun testaaminen Valmistaja väittää, että sen tuotteista korkeintaan 5 % on viallisia. Asiakas poimii tilaamiensa tuotteiden joukosta 200 tuotteen otoksen löytää 19 viallista tuotetta. Onko valmistajan väite oikeutettu? Otoksessa havaittu viallisten osuus on 19 200 = 9.5%. Voidaanko tämä tulkita satunnaisvaihtelun aiheuttamaksi?
Satunnaisotannan stokastinen malli Poimitaan n = 200 tuotetta suuresta perusjoukosta. Merkitään X i = { 1, jos i:s tarkastettava tuote on on viallinen, 0, muuten. Tällöin X i = 1 tn:llä p ja X i = 0 tn:llä 1 p, missä (tuntematon) parametri p on viallisten tuotteiden suhteellinen osuus Näin ollen X i Ber(p) Kun perusjoukko on suuri, ovat X 1,..., X n riippumattomat. Viallisten tuotteiden lkm otoksessa on f (X ) = n i=1 X i. Viallisten tuotteiden suhteellinen osuus otoksessa on ˆp(X ) = 1 n n i=1 X i. Luvut X i ovat satunnaisia (ennen tuotteiden havaitsemista)
p:n suurimman uskottavuuden estimaattori Kun tuotteet tarkastetaan, havaitaan aineisto x = (x 1,..., x n ). Viallisten lukumäärä otoksessä on f (x) = n i=1 x i.tapahtuman (X 1,..., X n = (x 1,..., x n ) tn on L(p; x 1,..., x n ) = Pr(X 1 = x 1,..., X n = x n ) = p f (x) (1 p) n f (x). Parametrin p suurimman uskottavuuden estimaattori on se p:n arvo ˆp, joka maksimoi uskottavuusfunktion L(p; x 1,..., x n ) arvon.
Uskottavuusfunktion maksimointi Logaritminen uskottavuusfunktio on l(p; x 1,..., x n ) = log L(p; x 1,..., x n ) = f (x) log p+(n f (x)) log(1 p). Derivaatta p:n suhteen l (p) = f (x) 1 p + (n f (x)) 1 ( 1) = 0, 1 p kun eli jonka ratkaisu on f (x) 1 p = (n f (x)) 1 1 p (1 p)f (x) = p(n f (x)), ˆp = f (x) n.
Viallisten osuuden SU-estimaattori Fakta Viallisten osuuden p SU-estimaatti aineistosta x = (x 1,..., x n ) on ˆp(x) = f (x) n = 1 n n i=1 x i eli viallisten tuotteiden suhteellinen osuus otoksessa. Kun estimaattia katsotaan lukuna ennen aineiston havaitsemista, saadaan satunnaisluku ˆp(X ) = f (X ) n = 1 n n i=1 X i ˆp(X ) on viallisten tuotteiden osuuden p SU-estimaattori. ˆp(X ) on Ber(p)-jakauman parametrin p SU-estimaattori.
Suhteeellisen osuuden estimointi SU-estimaattori viallisten tuotteiden (tuntemattomalle) osuudelle p koko perusjoukossa on ˆp(X ) = 1 n Tämä estimaattori on harhaton: Lisäksi E(ˆp(X )) = 1 n Var(ˆp(X )) = 1 n 2 Normalisoidun estimaattorin n X i. i=1 n E(X i ) = p. i=1 n Var(X i ) = i=1 ˆp(X ) p p(1 p) n odotusarvo on nolla ja varianssi yksi. p(1 p). n
Normaalijakaumalla approksimointi Kun n on iso, Tällöin myös ˆp(X ) p p(1 p) n ˆp(X ) p ˆp(X )(1 ˆp(X )) n N(0, 1). N(0, 1). Näin ollen satunnaismuuttujalle ˆp = ˆp(X ) pätee Pr c < ˆp p < c Pr( c < Z < c) = 99%, ˆp(1 ˆp) n kun c = qnorm(1-0.01/2) = 2.58.
99 % luottamusväli Satunnaismuuttujalle ˆp = ˆp(X ) pätee Pr 2.58 < ˆp p < 2.58 99%, ˆp(1 ˆp) n eli ( ) ˆp(X )(1 ˆp(X )) Pr p ˆp(X ) ± 2.58 99%, n Kun havaitaan 19 viallista tuotetta 200:n otoksessa, ˆp(x) = 9.5% ja satunnainen luottamusväli realisoituu väliksi ( ) ˆp(x)(1 ˆp(x)) ˆp(x) ± 2.58 = (0.042, 0.148) n
Hypoteesin p 5% testaaminen Merkitään p 0 = 0.05 ja määritellään testisuure z(x) = ˆp(x) p 0 p 0 (1 p 0 ) n Kun ˆp(x) = 9.5%, saadaan testisuureen arvoksi z(x) = 2.91. Suuret testisuuren arvot puoltavat nollahypoteesin H 0 : p p 0 hylkäämistä. Normaaliapproksimaatiolla saadaan p-arvoksi Pr(z(X ) 2.91) Pr(Z 2.91) = 1-pnorm(2.91) = 0.0018. Koska p-arvo alittaa luvun 0.01, nollahypoteesi p p 0 hylätään 1 % merkitsevyystasolla. Johtopäätös: Valmistajan väite (max 5 % tuotteista viallisia) on tilastollisesti merkitsevästi virheellinen.
Ensi viikolla aiheena lineaarinen regressio...
Aineistolähteet Luentokalvot pohjautuvat osittain kurssin edellisten vuosien (Ilkka Mellin, Milla Kibble, Juuso Liesiö) luentokalvoihin.