MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

11.1 Nollahypoteesi, vastahypoteesi ja p-arvo

Väliestimointi (jatkoa) Heliövaara 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 7: NCSS - Tilastollinen analyysi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku A

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

031021P Tilastomatematiikka (5 op) viikko 5

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

10. laskuharjoituskierros, vko 14, ratkaisut

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Sovellettu todennäköisyyslaskenta B

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Bayesläiset tilastolliset mallit

Todennäköisyyden ominaisuuksia

Tilastollinen aineisto Luottamusväli

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

Testejä suhdeasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Mat Tilastollisen analyysin perusteet, kevät 2007

2. TILASTOLLINEN TESTAAMINEN...

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

riippumattomia ja noudattavat samaa jakaumaa.

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

dx=5&uilang=fi&lang=fi&lvv=2014

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Osa 2: Otokset, otosjakaumat ja estimointi

5 Hypoteesien testaaminen

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

HAVAITUT JA ODOTETUT FREKVENSSIT

Testit laatueroasteikollisille muuttujille

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Transkriptio:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastollisen merkitsevyyden testaus Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2017 2018 Periodi I

Sisältö Tilastollisen merkitsevyyden testaaminen Odotusarvon testaaminen suurille datajoukoille Merkitsevyyden testaaminen normaalimallille

Mustekala Paul Jalkapallon MM-kisoissa 2010 Paul ennusti voittajan oikein jokaiselle Saksan ottelulle. Onko poikkeuksellisen hyvä ennustustulos tilastollisesti merkitsevä, vai voidaanko se lukea tavanomaisen satunnaisvaihtelun piiriin? https://en.wikipedia.org/wiki/paul_the_octopus

Nollahypoteesi H 0 Tilastollisen merkitsevyystestin lähtökohdaksi muotoillaan nollahypoteesi H 0, joka vastaa tilannetta, jossa mitään uutta tai yllättävää ei tarvita havaintojen selittämiseen. Esim H 0 : Selvännäkijän ennustukset eivät ole arvauksia parempia H 0 : Uusi lääke ei ole lumelääkettä tehokkaampi H 0 : Salkunhoitajan rahaston tuotto ei ole pörssi-indeksiä parempi Merkitsevyystestin vastahypoteesi H 1 on yleensä nollahypoteesin vastakohta.

Nollahypoteesi vs. data Kuuluuko havaittu data tyypillisen satunnaisvaihtelun piiriin vai onko syytä epäillä nollahypoteesia? Esimerkki (Kolikko) Tasaiseksi väitettyä kolikkoa 50 kertaa heitettäessä saadaan 42 kruunaa. H 0 : Kruunan tn θ = 1/2 H 1 : Kruunan tn θ 1/2 Esimerkki (Kohinainen kanava) Tiedonsiirtovirheiden väitetään olevan normaalijakautuneita parametreina µ = 0 ja σ = 3. Kanavaa kerran testaamalla mitattiin virheeksi x 1 = 4.8. H 0 : µ = 0 H 1 : µ 0 Esimerkki (Laadunvalvonta) Tukkukauppiaan väitteen mukaan sen tomaateista enintään 5% on huonolaatuisia. Suuresta tilauserästä poimittiin satunnaisesti 50 tomaattia ja niistä 4 todettiin huonolaatuisiksi. H 0 : Huonolaatuisten osuus θ 0.05 H 1 : Huonolaatuisten osuus θ > 0.05

Testisuureen p-arvo Havaitun datajoukon x = (x 1,..., x n ) poikkeuksellisuutta analysoidaan laskemalla testisuure t(x) = t(x 1,..., x n ), joka tiivistää havaitut datapisteet yhdeksi reaaliluvuksi. Testisuureen p-arvo on todennäköisyys, jolla nollahypoteesin mukaisen datalähteen ennakoidaan tuottavan poikkeavampia tai yhtä poikkeavia testisuureen arvoja kuin t(x). p-arvo Tulkinta > 0.10 Havainto ei ole ristiriidassa H 0 :n kanssa 0.05 Havainto todistaa jonkun verran H 0 :aa vastaan < 0.01 Havainto todistaa vahvasti H 0 :aa vastaan

Esim. Kolikko Tasaiseksi väitetty kolikko tuottaa 42 kruunaa 50 heitolla. H 0 : Kruunan tn θ = 1/2 H 1 : Kruunan tn θ 1/2 Testisuure = kruunien lukumäärä: t(x) = 42 T = t(x ) = kruunien lkm stokastisessa mallissa f (x) = P(T = x H 0 ) = ( 50 x ) ( 1 2 Testisuureen odotusarvo t 0 = E(T H 0 ) = 25. p-arvo = P( T t 0 t(x) t 0 H 0 ) ) x ( 1 1 ) 50 x 2 = P( T 25 17 H 0 ) 8 50 = f (x) + f (x) 1.2 10 6. x=0 x=42 Havainto todistaa vahvasti H 0 :aa vastaan.

Esim. Kohinainen kanava Tiedonsiirtovirheiden väitetään olevan normaalijakautuneita odotusarvona µ = 0 ja keskihajontana 3. Havainto: x 1 = 4.8. H 0 : Odotusarvo µ = 0 H 1 : Odotusarvo µ 0 Testisuure = normitettu poikkeama nollahypoteesin mukaisesta odotusarvosta: z(x) = x 1 0 3 = 1.6 p-arvo = P( Z 1.6 H 0 ) = 2 1.6 1 2π e t2 /2 dt 11%, Havainto on selitettävissä tavanomaisella satunnaisvaihtelulla. Havainto ei puhu H 0 :aa vastaan.

Esim. Laadunvalvonta Tukkukauppiaan väitteen mukaan sen toimittamista tomaateista enintään 5% on huonolaatuisia. Suuresta erästä poimittiin satunnaisesti 50 tomaattia ja niistä 4 todettiin huonolaatuisiksi. H 0 : Huonojen osuus θ 0.05 H 1 : Huonojen osuus θ > 0.05 Testisuure: Huonojen lkm: t(x) = 4 Datalähteen tuottamien testisuureen arvojen stokastinen malli: ( ) 50 P θ (T = t) = f θ (t) = θ t (1 θ) 50 t t Poikkeavuus: testisuureen arvo poikkeaa ylöspäin odotusarvosta ( ) P θ T E θ (T ) t(x) E θ (T ) = P θ (T t(x)) = Ongelma: tn riippuu θ:sta. Valitaan suurin tn (miksi?). 50 t=4 f θ (t). p-arvo = max P θ(t t(x)) = P 0.05 (T t(x)) = θ 0.05 50 t=4 f 0.05 (t) 24%

Tilastollisen merkitsevyystestin vaiheet Joskus asetetaan myös vastahypoteesi H 1, jolloin tarkoitus on tutkia, puoltaako havaittu datajoukko enemmän H 0 :n vai H 1 :n hyväksymistä. 1. Asetetaan nollahypoteesi H 0 ja mahdollisesti vastahypoteesi H 1. 2. Valitaan käytettävä testisuure ja lasketaan havaittua dataa x vastaava testisuureen arvo t(x). 3. Määritetään datalähteen tuottamia testisuureen arvoja mallintavan satunnaismuuttujan T jakauma nollahypoteesin vallitessa. 4. Määritetään mitkä testisuureen arvot tulkitaan havaittua testisuureen arvoa poikkeuksellisemmiksi (puoltavat H 1 :n hyväksymistä H 0 :n sijaan) ja lasketaan testin p-arvo. 5. Tehdään johtopäätökset: Pieni p-arvo = H 0 hylätään Suuri p-arvo = H 0 jää voimaan

Testaaminen valitulla merkitsevyystasolla Miten pieni p-arvo on riittävän pieni? Tietyissä tilanteissa vaaditaan yksiselitteistä johtopäätöstä: testin pohjalta H 0 joko hyväksytään tai hylätään. Tällaisen testin pohjaksi valitaan merkitsevyystaso α (0, 1) ja johtopäätös muodostetaan seuraavasti: Jos p-arvo α, nollahypoteesi hyväksytään (jää voimaan), Jos p-arvo < α, nollahypoteesi hylätään. Usein on tapana valita merkitsevyystasoksi α = 1% tai α = 5%

Testausvirheet Mikään ei takaa, että tehty johtopäätös olisi oikea. Johtopäätös Totuus H 0 hyväksytään H 0 hylätään H 0 tosi Oikea päätös Hylkäysvirhe H 0 epätosi Hyväksymisvirhe Oikea päätös Testaajan johtopäätös on aina arvaus. Hyvä arvaus on todennäköisesti oikein.

Testausvirheiden todennäköisyydet p(x) = testisuureen p-arvo datajoukolle x X = (X 1,..., X n ) mallintaa datalähteen tuottamia arvoja ennen niiden havaitsemista = p(x ) on satunnaisluku Hylkäysvirheen todennäköisyys on P(H 0 hylätään H 0 ) = P(p(X ) < α H 0 ) Hyväksymisvirheen todennäköisyys on P(H 0 hyväksytään H 1 ) = P(p(X ) α H 1 ), α Hylkäysvirheen tn Hyväksymisvirheen tn Lähellä nollaa Pieni Suuri Lähellä ykköstä Suuri Pieni Fakta Hylkäysvirheen tn α.

Testausvirheiden tulkinta Anni Aktiivi Käyttää merkitsevyystasoa α = 5% Hylkää useammin nollahypoteeseja On henkisesti varautunut siihen, että tietty osuus testien johtopäätöksistä on virheellisiä Tietää, että pitkällä tähtäyksellä hänen hylkäämistään nollahypoteeseista enintään 5% on virheellisesti hylätty (Hän ei kuitenkaan tiedä mitkä niistä.) Hyväksyy Villeä harvemmin virheellisesti nollahypoteeseja (ei tiedä miten usein) Ville Varovainen Käyttää merkitsevyystasoa α = 1% Hylkää harvemmin nollahypoteeseja On henkisesti varautunut siihen, että tietty osuus testien johtopäätöksistä on virheellisiä Tietää, että pitkällä tähtäyksellä hänen hylkäämistään nollahypoteeseista enintään 1% on virheellisesti hylätty (Hän ei kuitenkaan tiedä mitkä niistä.) Hyväksyy Annia useammin virheellisesti nollahypoteeseja (ei tiedä miten usein)

Esim. Rikosoikeus H 0 : Epäilty on syytön H 1 : Epäilty on syyllinen Havaittu data: Saatavilla oleva todistusaineisto Hylkäysvirhe: Syytön tuomitaan Hyväksymisvirhe: Syyllistä ei tuomita Anni Aktiivi Käyttää merkitsevyystasoa α = 5% Langettaa useammin tuomioita Tuomitsee pitkällä tähtäyksellä 5% syyttömiä Jättää Villeä harvemmin syyllisiä tuomitsematta Ville Varovainen Käyttää merkitsevyystasoa α = 1% Langettaa harvemmin tuomioita Tuomitsee pitkällä tähtäyksellä 1% syyttömiä Jättää Annia useammin syyllisiä tuomitsematta

Esim. Kolikko Tasaiseksi väitettyä kolikkoa 10 kertaa heitettäessä havaitaan data y = (0, 0, 1, 0, 0, 0, 0, 0, 0, 0). Testaa väitettä 5% merkitsevyystasolla. H 0 : Kruunan tn θ = 0.5, H 1 : Kruunan tn θ 0.5. Testisuure: t(x)=kruunien lkm Testisuureen stokastinen malli: T = t(x ) f H0 (t) = P(T = t H 0 ) = ( 10 t ) ( 1 2 ) 10 Havainnon y p-arvo p(y) = P( t(x ) 5 4 H 0 ) = 1 10 f H0 (t) + f H0 (t) 2.1%. t=0 t=9 Johtopäätös: Nollahypoteesi hylätään (5% merkitsevyystasolla). Mitä osataan sanoa virhetodennäköisyyksistä?

Esim. Kolikko Hylkäysvirheen tn Testin p-arvot testisuureen funktiona: # kruunat 0 1 2 3 4 5 6 7 8 9 10 p-arvo (%) 0.2 2.1 10.9 34.4 75.4 100 75.4 34.4 10.9 2.1 0.2 5% merkitsevyystasolla testin hylkäysalue on {0, 1, 9, 10}. Hylkäysvirheen tn on P(t(X ) {0, 1, 9, 10} H 0 ) = 1 10 f H0 (t) + f H0 (t) 2.1%. t=0 t=9

Esim. Kolikko Hyväksymisvirheen tn Testin p-arvot testisuureen funktiona: # kruunat 0 1 2 3 4 5 6 7 8 9 10 p-arvo (%) 0.2 2.1 10.9 34.4 75.4 100 75.4 34.4 10.9 2.1 0.2 5% merkitsevyystasolla testin hylkäysalue on {0, 1, 9, 10}. Hyväksymisvirheen tn on P(t(X ) {2, 3,..., 8} H 1 ) =? Ongelma: vastahypoteesi (H 1 : θ 0.5) ei määrää θ:n arvoa. Ääritapaus θ 0.5, jolloin P(t(X ) {2, 3,..., 8} H 1 ) P(t(X ) {2, 3,..., 8} H 0 ) 8 = f H0 (t) 97.9%. t=2

Esim. Kahden tyyppisiä kolikoita Tasaiseksi väitettyä kolikkoa 10 kertaa heitettäessä havaitaan data y = (0, 0, 1, 0, 0, 0, 0, 0, 0, 0). Tiedetään, että joko θ = 0.5 tai θ = 0.9. Testaa väitettä 5% merkitsevyystasolla. H 0 : Kruunan tn θ = 0.5, H 1 : Kruunan tn θ = 0.9. Sama testisuure, sama p-arvo, sama johtopäätös (H 0 hylätään). ( ) 10 f H1 (t) = P(T = t H 1 ) = 0.9 t (1 0.9) 10 t t Hyväksymisvirheen tn: P( t(x ) {2, 3,..., 8} H 1 ) = 8 f H1 (t) 26%. t=2

Sisältö Tilastollisen merkitsevyyden testaaminen Odotusarvon testaaminen suurille datajoukoille Merkitsevyyden testaaminen normaalimallille

Odotusarvon testisuure suurille datajoukoille Datalähde tuottaa toisistaan riippumattomia ja samoin jakautuneita satunnaislukuja X 1, X 2,..., X n odotusarvona (tuntematon) µ. H 0 : µ = µ 0 H 1 : µ µ 0 Jakauma tuntematon = mahdoton testata? Approksimatiivinen testi mahdollinen, jos paljon dataa. Testisuure: t(x) = m(x) µ 0 s(x)/ n. Fakta Suurille datajoukoille testisuureen stokastinen malli t(x ) noudattaa likimain normitettua normaalijakaumaa, jolloin p-arvo P( t(x ) t(x) H 0 ) P( Z t(x) ).

Esim. Kahviautomaatti Kahviautomaatin on tarkoitus laskea jokaiseen kuppiin keskimäärin 10.0 cl kahvia. Kahviautomaatin toimintaa testattiin valuttamalla automaatista 30 kupillista ja mittamalla kahvin määrät kupeissa. Mittauksessa havaittiin arvot (cl): 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Onko kahviautomaatti oikein kalibroitu? Mittausdatan x keskiarvo on m(x) = 10.473, joka poikkeaa tavoitearvosta µ 0 = 10.0. Onko poikkeama tilastollisesti merkitsevä?

Esim. Kahviautomaatti 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Datajoukon keskiarvo m(x) = 10.473, keskihajonta s(x) = 0.563. H 0 : µ = 10.0 H 1 : µ 10.0 Havaitun datajoukon testisuure: t(x) = m(x) µ 0 s(x)/ n = 10.473 10.0 0.563/ 30 = 4.60. Jos uskotaan, että n = 30 on riittävän iso, voidaan käyttää suuren datajoukon testiä: p-arvo P( t(x ) t(x) H 0 ) P( Z 4.60) 4.2 10 6. Johtopäätös: Hyvin pieni p-arvo puoltaa vahvasti H 0 :n hylkäämistä.

Sisältö Tilastollisen merkitsevyyden testaaminen Odotusarvon testaaminen suurille datajoukoille Merkitsevyyden testaaminen normaalimallille

Datalähteen normaalimalli Analyysiä helpottava yleinen hypoteesi: Havaitut arvot ovat toteumia riippumattomista Nor(µ, σ)-jakautuneista satunnaismuuttujista. Normaalijakauman parametreja µ ja σ ei tunneta. Yleisen hypoteesin pätiessä tilastokokeen tulos (ennen sen havaitsemista) on satunnaisvektori X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja Nor(µ, σ)-jakautuneet. Huom Ennen testaamista on syytä pohtia (tai testata) onko normaalisuus perusteltu.

Tilastokokeen stokastisen mallin tunnusluvut Tilastokokeen stokastinen malli on X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja Nor(µ, σ)-jakautuneet. Stokastisesta mallista laskettu keskiarvo on satunnaisluku m(x ) = 1 n n X i, i=1 jonka odotusarvo on µ ja keskihajonta σ/ n. Jos hypoteesi µ = µ 0 pätee, niin suure m(x ) µ 0 σ/ n noudattaa normitettua normaalijakaumaa.

Esim. Kahviautomaatti: mittausten jakauma 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Mittausdatan x keskiarvo on m(x) = 10.473. Onko mittausdata likimain normaalijakautunut? Kahvimäärien histogrammi frekvenssi 0 2 4 6 8 10 12 9.0 9.5 10.0 10.5 11.0 11.5 12.0 Määrä(cl)

Esim. Kahviautomaatti: Normitettu keskiarvo Jos data tulee normaalijakaumasta, niin poikkeaman tilastollista merkitsevyyttä voidaan verrata N(0, 1)-jakaumaan, kunhan m(x) normitetaan muotoon m(x) µ 0 σ/ n = 10.473 10.0 σ/ 30 =? Ongelma: Parametri σ on tuntematon. Ratkaisu: Korvataan σ estimaatilla s(x) = 0.563. Havaitusta datasta saadaan tunnusluku t(x) = m(x) µ 0 s(x)/ n = 10.473 10.0 0.563/ 30 = 4.60.

Keskihajonnan korvaaminen otoskeskihajonnalla Yleisen hypoteesin (normaalimalli) ja nollahypoteesin (µ = µ 0 ) pätiessä normitettu tunnusluku m(x ) µ 0 σ/ n Nor(0, 1) Entä t(x ) := m(x ) µ 0 s(x )/ n?

Normaalimallin testisuure Fakta Normaalimallin tuottaman satunnaisvektorin X = (X 1,..., X n ) tunnusluku t(x ) = m(x ) µ s(x )/ n noudattaa Studentin t-jakaumaa vapausastein n 1, jonka tiheysfunktio on ( ) (n 1)+1 f (t) = c n 1 1 + t2 2. n 1

Studentin t-jakauma Jatkuva satunnaisluku X noudattaa t-jakaumaa vapausastein n, jos sillä on tiheysfunktio muotoa f (x) = c n ( 1 + x 2 n ) n+1 2. t distributions f(x) 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 x Kuva: Studentin t-jakaumia vapausastein n = 1 (sininen), n = 2 (vihreä), n = 5 (punainen)ja n = (musta). Student (William S Gosset): The probable error of a mean. Biometrika 1908.

Studentin t-testi 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitulle datalle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin (normaalijakauma) ja nollahypoteesin (µ = µ 0 ) pätiessä stokastista mallia vastaava (satunnainen) tunnusluku on t(x ) := m(x ) µ 0 s(x )/ n t(29). Jos hypoteesit ok, niin tyypillisesti t(x ) 0. Studentin t-testin p-arvo on poikkeaman t(x ) 4.60 tn: P( t(x ) 4.60) = 2*(1-pt(4.60,29)) = 0.000077. Näin pieni p-arvo tarkoittaa, että testisuureen havaittu poikkeama nollasta johtuu hyvin epätodennäköisesti satunnaisvaihtelusta. Havaittu poikkeama on siis tilastollisesti merkitsevä ja antaa aiheen hylätä nollahypoteesi µ = 10.0.

Studentin t-testin suorittaminen p-arvolla: Yhteenveto Lähtökohdat Havaittu data x = (x 1,..., x n ). Yleinen hypoteesi (normaalimalli): Datalähteen arvot riippumattomia ja normaalijakautuneita (µ,σ) Nollahypoteesi H 0 : µ = µ 0 (Vaihtoehtoinen hypoteesi H 1 : µ µ 0 ) Testaus Lasketaan datasta testisuure t(x) = m(x) µ 0 s(x)/ n Lasketaan t(n 1)-jakaumasta p-arvo P( t(x ) t(x) ). Johtopäätös Jos p-arvo on lähellä nollaa = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan. R: t.test(x,mu=10.0)

Luennot päättyvät tähän (perjantaina ei ole luentoa). Kiitos aktiivisesta osallistumisesta ja menestystä tuleviin opintoihin.