Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18
1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen testaus Yleinen hypoteesi Nollahypoteesi Vaihtoehtoinen hypoteesi 3 Testisuure Testisuureen normaaliarvo Virheet testauksessa Testin tulos ja maailman tilat 4 Hylkäys- ja hyväksymisalueet Merkitsevyystaso Hylkäysalueen määrääminen yksisuuntaisessa testissä Hylkäysalueen määrääminen kaksisuuntaisessa testissä 5 Tilastollisen testin suorittamisen vaiheet 6 p-arvo Antti Rasila () TodB 8. marraskuuta 2007 2 / 18
Esimerkki (momenttimenetelmä) Tarkkaillaan peräkkäisten autojen aikaväliä (sekunteja) maantiellä. Oletetaan, että aikaväli X on eksponenttijakautunut parametrina λ. Tällöin E(X ) = 1/λ. Tarkkailija havaitsi seuraavat aikavälin pituudet: 18 4 7 33 28 5 6 14 9 18 Havaintojen aritmeettinen keskiarvo on 142/10=14.2. Asetetaan odotusarvo ja aritmeettinen keskiarvo yhtäsuuriksi ja ratkaistaan λ: 1/λ = 14.2, joten λ = 0.0704. Peräkkäisten autojen väliaikaa siis kuvaa parhaiten (y.o. aineiston perusteella) se eksponenttijakauma, jonka tiheysfunktio on f X (x) = 0.0704 e 0.0704x. Antti Rasila () TodB 8. marraskuuta 2007 3 / 18
Esimerkki (suurimman uskottavuuden menetelmä) Sovitetaan edellisen esimerkin havaintoihin eksponenttijakauma f X (x; λ) = λe λx. Havaintoaikojen summa on 142. Likelihood-funktioksi tulee L(λ) = λe λ18 λe λ4... λe λ18 = λ 10 e 142λ. Asetetaan derivaatta nollaksi, jolloin saadaan λ L(λ) = 10λ9 e 142λ 142λ 10 e 142λ = 0. Derivaatta on nolla arvolla λ = 10/142 = 0.0704. Päädyttiin samaan ratkaisuun kuin momenttimenetelmällä. Antti Rasila () TodB 8. marraskuuta 2007 4 / 18
Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai väitteet tulee muotoilla tutkimuskohteiden tutkittavaa ominaisuutta kuvaavaa jakaumaa tai sen parametreja koskeviksi hypoteeseiksi. Testausasetelma kiinnitetään tekemällä seuraavat kolme oletusta: (i) Testausasetelmaa koskevia yleisiä oletuksia kutsutaan testin yleiseksi hypoteesiksi. (ii) Testattavaa väitettä tai oletusta kutsutaan testin nollahypoteesiksi. (iii) Jos nollahypoteesi hylätään testissä, astuu voimaan vaihtoehtoinen hypoteesi. Antti Rasila () TodB 8. marraskuuta 2007 5 / 18
Yleinen hypoteesi Yleinen hypoteesi H sisältää oletukset perusjoukosta käytetystä otantamenetelmästä perusjoukon jakaumasta Yleisen hypoteesin oletuksista pidetään kiinni koko testauksen ajan. Yleisen hypoteesin sisältämiä jakaumaoletuksia voidaan ja on yleensä syytä testata erikseen. Antti Rasila () TodB 8. marraskuuta 2007 6 / 18
Nollahypoteesi Testattavaa perusjoukon jakauman parametreja koskevaa väitettä tai oletusta kutsutaan nollahypoteesiksi ja merkitään H 0. Nollahypoteesi H 0 hyväksytään, elleivät havaintojen sisältämät todisteet nollahypoteesia vastaan ole kyllin voimakkaita. Yksinkertaisissa testausasetelmissa nollahypoteesi on muotoa H 0 : θ = θ 0 Antti Rasila () TodB 8. marraskuuta 2007 7 / 18
Vaihtoehtoinen hypoteesi Vaihtoehtoinen hypoteesi H 1 on oletus, joka astuu voimaan, jos nollahypoteesi H 0 hylätään. Vaihtoehtoista hypoteesia, joka on muotoa H 1 : θ > θ 0 tai muotoa H 1 : θ < θ 0 kutsutaan yksisuuntaiseksi. Muotoa H 1 : θ θ 0 olevaa vaihtoehtoista hypoteesia kutsutaan kaksisuuntaiseksi. Antti Rasila () TodB 8. marraskuuta 2007 8 / 18
Testisuure Tilastollinen testi perustuu testisuureeseen, joka mittaa havaintojen ja nollahypoteesin H 0 yhteensopivuutta. Testisuure on satunnaismuuttuja, jonka arvo riippuu havainnoista ja nollahypoteesista H 0. Havaintojen ja nollahypoteesin H 0 yhteensopivuuden mittaaminen tarkoittaa sitä, että tutkitaan kuinka todennäköistä on saada sellaisia testisuureen arvoja kuin on saatu, ehdolla että H 0 pätee. Yhteensopivuuden mittaaminen vaatii siis testisuureen jakauman tuntemista. Antti Rasila () TodB 8. marraskuuta 2007 9 / 18
Testisuureen normaaliarvo Testisuureen odotusarvoa nollahypoteesin H 0 pätiessä kutsutaan testisuureen normaaliarvoksi. Jos testisuureen havaittu arvo on lähellä normaaliarvoa, havainnot ovat sopusoinnussa nollahypoteesin H 0 kanssa. Jos testisuureen havaittu arvo poikkeaa merkitsevästi normaaliarvosta, havainnot sisältävät todisteita nollahypoteesia H 0 vastaan. Antti Rasila () TodB 8. marraskuuta 2007 10 / 18
Virheet testauksessa Jos nollahypoteesi H 0 hylätään silloin kun se on tosi, tehdään hylkäysvirhe. Hylkäysvirheen todennäköisyys α on muotoa Pr(H 0 hylätään H 0 on tosi) = α Jos nollahypoteesi H 0 jätetään voimaan silloin kun se ei ole tosi, tehdään hyväksymisvirhe. Hyväksymisvirheen todennäköisyys β on muotoa Pr(H 0 jätetään voimaan H 0 ei ole tosi) = β Hylkäysvirhettä kutsutaan usein ensimmäisen lajin virheeksi. Tällöin hyväksymisvirhettä kutsutaan toisen lajin virheeksi. Antti Rasila () TodB 8. marraskuuta 2007 11 / 18
Testin tulos ja maailman tilat Maailman tilat ja testin tulos voidaan ryhmitellä seuraavaksi nelikentäksi: Antti Rasila () TodB 8. marraskuuta 2007 12 / 18
Hylkäys- ja hyväksymisalueet Jaetaan testisuureen saamien mahdollisten arvojen joukko kahteen osaan: (i) Jos testisuureen havainnoista laskettu arvo joutuu hylkäysalueelle, niin nollahypoteesi H 0 hylätään. (ii) Jos testisuureen havainnoista laskettu arvo joutuu hyväksymisalueelle, niin nollahypoteesi H 0 hyväksytään. Jos testisuureen havaittu arvo joutuu nollahypoteesin H 0 pätiessä hylkäysalueelle, niin seuraksena on hylkäysvirhe. Tämän todennäköisyys on α. Antti Rasila () TodB 8. marraskuuta 2007 13 / 18
Merkitsevyystaso Testin merkitsevyystaso α on todennäköisyys sille, että testisuureen havainnoista laskettu arvo on hylkäysalueella, vaikka nollahypoteesi H 0 pätee. Merkitsevyystaso α on siis hylkäysvirheen todennäköisyys. Tavanomaiset merkitsevyystasot ovat α = 0.05 α = 0.01 α = 0.001 (i) Jos nollahypoteesti voidaan hylätä merkitsevyystasolla α = 0.05, sanotaan, että testin tulos on melkein merkitsevä. (ii) Jos nollahypoteesti voidaan hylätä merkitsevyystasolla α = 0.01, sanotaan, että testin tulos on merkitsevä. (iii) Vastaavasti, jos nollahypoteesti voidaan hylätä merkitsevyystasolla α = 0.001, sanotaan, että testin tulos on erittäin merkitsevä. Antti Rasila () TodB 8. marraskuuta 2007 14 / 18
Hylkäysalueen määrääminen yksisuuntaisessa testissä Olkoon parametria θ koskeva nollahypoteesi muotoa H 0 : θ = θ 0. olkoon testisuureena satunnaismuuttuja Z, jonka mahdolliset arvot ovat välillä (a, b). Jos vaihtoehtoinen hypoteesi on muotoa H 1 : θ > θ 0, on hylkäysalue (yleensä) väli (u, b), jossa kriittinen raja u määrätään siten, että Pr(Z u H 0 ) = α Jos vaihtoehtoinen hypoteesi on muotoa H 1 : θ < θ 0, on hylkäysalue (yleensä) väli (a, l), jossa kriittinen raja l määrätään siten, että Pr(Z l H 0 ) = α Antti Rasila () TodB 8. marraskuuta 2007 15 / 18
Hylkäysalueen määrääminen kaksisuuntaisessa testissä Jos vaihtoehtoinen hypoteesi on muotoa H 1 : θ θ 0, on hylkäysalue (yleensä) joukko (a, l) (u, b), jossa kriittiset rajat l ja u määrätään siten, että Pr(Z u H 0 ) = Pr(Z l H 0 ) = α/2 Huom. Jos testisuureen Z jakauma on symmetrinen origon suhteen, pätee kriittisille rajoille l = u Antti Rasila () TodB 8. marraskuuta 2007 16 / 18
Tilastollisen testin suorittamisen vaiheet Hylkäysalueen määrääminen yksisuuntaisessa testissä Tilastollisen testin suorittaminen sisältää seuraavat vaiheet: (1) Asetetaan testin hypoteesit. (2) Valitaan testisuure. (3) Valitaan merkitsevyystaso α ja muodostetaan sitä vastaava hylkäysalue. (4) Poimitaan otos niin, että yleisen hypoteesin oletukset pitävät. (5) Lasketaan testisuureen arvo havainnoista. (6) Tehdään päätös nollahypoteesin hylkäämisestä. Antti Rasila () TodB 8. marraskuuta 2007 17 / 18
p-arvo Nollahypoteesin H 0 hyväksyminen tai hylkääminen voidaan perustaa etukäteen valitun merkitsevyystason ja sitä vastaavan hylkäysalueen sijasta testin p-arvoon. Testin p-arvo on pienin merkitsevyystaso, jolla nollahypoteesi hylätään. Testin p-arvo määritetään: (i) Lasketaan testisuureen arvo havainnoista. (ii) Määrätään (olettaen, että H 0 pätee) todennäköisyys sille, että testisuure saa (normaaliarvoon verrattuna) niin poikkeuksellisen arvon kuin se on saanut tai vielä poikkeuksellisempia arvoja. Nollahypoteesi hylätään, jos p-arvo on kyllin pieni. Antti Rasila () TodB 8. marraskuuta 2007 18 / 18