Hypoteesin testaus Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos
Johdanto Kokeellinen tutkimus: Varmennetaan teoreettista olettamusta fysikaalisen systeemin käyttäytymisestä (parametrin arvojen suuruudesta tai minkälaista jakaumaa jokin suure noudattaa) Positivistinen tieteenteon lähtökohta: Tutkittavasta asiasta tehdään hypoteesi ( olettamus), joka hyväksytään tai hylätään kokeellisen aineiston perusteella.
Johdanto Tutkittavasta asiasta tehdään nollahypoteesi H 0 vastahypoteesi H 1 Havaintoaineistolla pyritään varmentamaan/hylkäämään nollahypoteesi Satunnaisuus: hypoteesi voidaan hyväksyä vain jollakin todennäköisyydellä "Nollahypoteesi on totta riskitasolla α"
Parametrien testaus. Satunnaismuuttuja X, parametri θ Ψ 0 on parametrin θ arvojoukon osajoukko Nollahypoteesi H 0 : θ Ψ 0, Vastahypoteesi H 1 : θ Ψ 1 = Ψ 0, Ψ 1 nollahypoteesin arvojoukon komplementti parametriavaruudessa.
Parametrien testaus Havaintoaineisto (l. satunnaisotos): {x 1,...,x n } Testimuuttujan Z arvo z(x 1,...,x n ; Ψ 0 ). Testimuuttujan todennäköisyysjakauma P Z Todennäköisyysjakaumasta kynnysarvo r 0 (tai kynnysarvot - kaksisuuntaisessa testissä) P Z (Z r 0 ) 1 α, (tai P( Z r 0 ) 1 α). Nollahypoteesin hyväksymisalue z(x 1,...,x n ; Ψ 0 ) r 0 Muussa tapauksessa nollahypoteesi
Z-testi Testimuuttuja Z N(0, 1) N(0, 1)-jakauman taulukosta kynnysarvo r 0 Riskitaso α Satunnaismuuttujan X N(µ,σ 2 ) odotusarvon µ testaus, missä keskihajonta σ on tunnettu. X = 1 n n i=1 ; X, X i N(µ,σ 2 ) ovat riippumattomia satunnaismuuttujia. Kaksi- vai yksisuuntainen testi?
Odotusarvon testi: yksisuuntainen Hypoteesit H 0 : µ µ 0 H 1 : µ > µ 0 Havaintoaineisto {x 1,...,x n }; α riskitaso; Testimuuttuja: Z = X µ 0 σ N(0, 1); n Kynnysarvo r 0 : P(Z r 0 ) = Φ(r 0 ) = 1 α, Nollahypoteesin hyväksymisalue: z = x µ 0 σ/ n r 0. Muussa tapauksessa nollahypoteesi hylätään ja valitaan vastahypoteesi.
Esimerkki Pohdi, miten kynnysarvo pitää valita, jos nollahypoteesi on riskitasolla α. H 0 : µ µ 0
Odotusarvon testi: kaksisuuntainen Hypoteesit { H 0 : µ = µ 0 H 1 : µ µ 0 Kynnysarvo r 0 : Testisuure z = x µ 0 σ/ n P( Z r 0 ) = 1 α. Hyväksymisalue x µ 0 σ/ n r 0.
%-osuuden testi Satunnaismuuttujan X Bin(n, p) parametrin estimaattori p = 1 p(1 p) X N(p, ) (asymptoottisesti). n n Parametrin estimaatti: ˆp = m n H 0 : ˆp p 0 Hypoteesit H 1 : ˆp > p 0. Testisuure z = ˆp p 0 q p0 (1 p 0 ) n N(0, 1). Kynnysarvo r 0 : Φ(r 0 ) = 1 α. Hyväksymisalue: {z r 0 }
T-testi Kun hajonta σ ei ole tunnettu. X noudattaa normaalijakaumaa X N(µ,σ 2 ) Parametrien estimaatit ovat n Otoskeskiarvo: x = 1. n i=1 Otoskeskihajonta: s 2 = 1 n 1 H 0 : µ µ 0 Hypoteesit H 1 : µ > µ 0 n [x i x] 2. i=1 Testimuuttuja z = x µ 0 s n t n 1.
T-testi Hyväksymisalueen kynnysarvo luetaan t-jakauman taulukosta riskitasolla α: P(t n 1 r 0 ) = 1 α. Nollahypoteesi hyväksytään, jos testisuure z r 0. Huomaa, että jos nollahypoteesissa epäyhtälö toisinpäin, niin kynnysarvo (r 0 < 0) pitää valita siten, että P(t n 1 r 0 ) = 1 α.
H 0 : σ σ 0 H 1 : σ > σ 0. Hajonnan testi Kun X N(µ,σ 2 ) Satunnaisotos {x 1,x 2,...,x n } X:stä Tällöin testimuuttuja noudattaa χ 2 -jakaumaa: (n 1)s 2 σ 2 χ 2 n 1. Vapausasteita n 1 Tutkittavat hypoteesit ovat tyypillisesti muotoa
Hajonnan testi Kynnysarvo r 0 riskitasolla α: P(χ 2 n 1 r 0 ) = 1 α. Testimuuttujan hyväksymisalue (n 1)s2 σ 2 0 = np (x i x) 2 i=1 σ 2 0 r 0, Muussa tapauksessa H 0 hylätään. Esimerkiksi jos riskitasoksi valitaan 5 %:a ja otoskoko n = 10, niin testimuuttuja noudattaa χ 2 9-jakaumaa 9:llä vapausasteella. Tällöin valitaan kynnystasoksi r 0 siten, että P(χ 2 9 r 0 ) = 0.95 r 0 = 16.919.
Odotusarvojen erotuksen testi X N(µ 1,σ1) 2 ja Y N(µ 2,σ 2 ) { H 0 : µ 1 = µ 2 Tehdään hypoteesit H 1 : µ 1 µ 2 Satunnaisotokset {x 1,x 2,...,x n } ja {y 1,y 2,...,y m }. Otostunnusluvut x = 1 n x i, s 2 1 = 1 n n 1 i=1 1 m 2 1 n [x i x] 2 i=1 m 2
Odotusarvojen erotustesti Odotusarvojen erotuksen estimaattori X Y N(µ 1 µ 2, σ2 1 n + σ2 2 m ). Testimuuttuja z = x y r σ 2 1 n + σ2 2 m N(0, 1) Kaksisuuntaisen testin kynnysarvo r 0 : Φ(r 0 ) Φ( r 0 ) = 2Φ(r 0 ) 1 = 1 α Φ(r 0 ) = 1 α 2, Kun keskihajonnat ovat tuntemattomia, testimuuttujana z = 1 n + 1 m x y (n 1)s 2 1 +(m 1)s2 2 n+m 2 t n+m 2, l. se noudattaa Studentin jakaumaa
Khiin neliötestit Yhteensopivuustesti Noudattaako havaintoaineisto oletettua jakaumaa vai ei? Satunnaismuuttujasta X tehdään n toisistaan riippumatonta havaintoa {x 1,x 2,...,x n } Havainnot jaetaan luokkiin E i,i = 1, 2,...,k Havaintojen lukumäärä luokassa E i on n i (n 1 + n 2 + + n k = n). Olettamus: Satunnaismuuttujan todennäköisyysfunktio on P( ).
Yhteensopivuustesti Todennäköisyys sille, että satunnaismuuttuja on luokassa E i on p i = P(X E i ) Luokassa E i tulisi olla np i alkiota Jos oletettu jakauma ja havainnot vastaavat toisiaan tulisi olla n i np i kaikilla i = 1, 2,...,k. Havaintoaineiston ja mallin välisen hyvyyden mittariksi valitaan testimuuttuja k i=1 (n i np i ) 2 np i.
Yhteensopivuustesti Nyt voidaan osoittaa, että testimuuttuja noudattaa likimain χ 2 k 1-jakaumaa, jos seuraavat ehdot ovat voimassa: havaintoaineiston koko on kyllin suuri: n 50; Jokainen luvuista np i 2; Korkeintaan 20 % luvuista np i 5. Muussa tapauksessa yhdistä luokkia.
Testin suorittaminen Asetettavat hypoteesit ovat H 0 : Havaintoaineisto noudattaa oletusjakaumaa; H 1 : havaintoaineisto ei noudata oletusjakaumaa. Valitaan riskitaso α Luetaan χ 2 k 1-jakauman taulukosta kynnysarvo r 0 : P(χ 2 k 1 r 0) = 1 α. Nollahypoteesi kelpuutetaan, jos k (ni np i ) 2 r 0.
Huomioita Usein satunnaismuuttujan oletusjakauma sisältää tuntemattomia parametreja, jotka on ensin estimoitava havaintoaineistosta. Jos estimoitavien parametrien lukumäärä on l, niin silloin testimuuttuja k i=1 (n i nˆp i ) 2 nˆp i χ 2 k l 1 missä ˆp i = ˆP(X E i ) on estimoitu luokkatodennäköisyys.
Riippumattomuustesti Satunnaismuuttuja X; Havaintoaineisto {x 1,x 2,...,x n } Aineisto luokitellaan kahdella eri tavalla luokkiin A-tapa: luokat A 1,A 2,...,A k ; B-tapa: luokat B 1,B 2,...,B l. Tutkitaan, ovatko luokittelut riippumattomat
Riippumattomuustesti Havainnoista muodostetaan lukumäärätaulukko l. kontingenssitaulukko: A\B B 1 B 2 B 3 B l rivisumm A 1 n 11 n 12 n 13 n 1k l j=1 n 1j = A 2 n 21 n 22 n 23 n 2k l j=1 n 2j = A 3 n 31 n 32 n 33 n 3k l j=1 n 3j =...... A k n k1 n k2 n k3 n l kk j=1 n kj = sarakesummat n 1 n 2 n 3 n l i,j n ij =
Riippumattomuustesti Merkitään P( Havainto luokasta A i ) = p i P( Havainto luokasta B j ) = q j P( Havainto luokasta A i B j ) = t ij Jos luokittelut ovat riippumattomat, niin tulisi olla t ij = p i q j Epävarmuus päätöksenteossa: riskitaso α. Luokan A i havaintojen suhteellinen osuus ˆp i = m i n Luokan B j havaintojen suhteellinen osuus. ˆq j = n j n
Riippumattomuustesti Testimuuttuja k i=1 l j=1 (n ij nˆp iˆq j ) 2 nˆp iˆq j χ 2 (k 1)(l 1) Testimuuttujan käyttö sallittua, jos n 50, nˆp iˆq j 2, korkeintaan 20 % luvuista nˆp iˆq j on pienempiä kuin 5. Tehdään hypoteesit H 0 : Luokittelut riippumattomat H : Luokittelut riippuvat.
Hypoteesin testaus Luetaan χ 2 -jakauman taulukosta kynnysarvo r 0 siten, että P(χ 2 (k 1)(l 1) r 0) = 1 α. Jos testimuuttujan arvo k i=1 l j=1 (n ij nˆp iˆq j ) 2 nˆp iˆq j r 0, niin luokittelut ovat riippumattomia.