MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

11.1 Nollahypoteesi, vastahypoteesi ja p-arvo

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 7: NCSS - Tilastollinen analyysi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku A

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

031021P Tilastomatematiikka (5 op) viikko 5

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Bayesläiset tilastolliset mallit

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Sovellettu todennäköisyyslaskenta B

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Tilastollisia peruskäsitteitä ja Monte Carlo

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Sovellettu todennäköisyyslaskenta B

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testejä suhdeasteikollisille muuttujille

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyden ominaisuuksia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mat Tilastollisen analyysin perusteet, kevät 2007

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

10. laskuharjoituskierros, vko 14, ratkaisut

Tilastollinen aineisto Luottamusväli

Sovellettu todennäköisyyslaskenta B

riippumattomia ja noudattavat samaa jakaumaa.

HAVAITUT JA ODOTETUT FREKVENSSIT

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Estimointi. Vilkkumaa / Kuusinen 1

1. Tilastollinen malli??

Testit laatueroasteikollisille muuttujille

dx=5&uilang=fi&lang=fi&lvv=2014

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Sovellettu todennäköisyyslaskenta B

5 Hypoteesien testaaminen

Mat Tilastollisen analyysin perusteet, kevät 2007

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Transkriptio:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi I

Sisältö Tilastollisen merkitsevyyden testaaminen Osa II Odotusarvon testaaminen suurille datajoukoille

Nollahypoteesi vs. data Kuuluuko havaittu data tyypillisen satunnaisvaihtelun piiriin vai onko syytä epäillä nollahypoteesia? Esimerkki (Kolikko) Tasaiseksi väitettyä kolikkoa 50 kertaa heitettäessä saadaan 42 kruunaa. Esimerkki (Kohinainen kanava) Kohinaisen tiedonsiirtokanavan virheiden väitetään olevan normaalijakautuneita odotusarvona 0 ja keskihajontana 3. Kanavaa kerran testaamalla mitattiin virheeksi x 1 = 4.8. Esimerkki (Laadunvalvonta) Tukkukauppias väittää, että sen toimittamista vihanneksista enintään 5% on huonolaatuisia. Suuresta tilauserästä poimittiin satunnaisesti 50 tomaattia ja niistä 4 todettiin huonolaatuisiksi.

Testisuureen p-arvo Havaitun datajoukon poikkeuksellisuutta analysoidaan laskemalla testisuure t(x) = t(x 1,..., x n ) käyttämällä funktiota t(x), joka tiivistää havaitut datapisteet yhdeksi reaaliluvuksi. Testisuureen p-arvo on todennäköisyys, jolla nollahypoteesia noudattavan datalähteen ennakoidaan tuottavan poikkeavampia tai yhtä poikkeavia testisuureen arvoja kuin t(x). p-arvo Tulkinta 0.10 Havainto on kohtuullisessa sopusoinnussa H 0 :n kanssa 0.05 Havainto todistaa jonkun verran H 0 :aa vastaan < 0.01 Havainto todistaa vahvasti H 0 :aa vastaan

Esim. Kolikko Tasaiseksi väitetty kolikko tuottaa 42 kruunaa 50 heitolla. H 0 : Kruunan tn θ = 1/2 H 1 : Kruunan tn θ 1/2 Testisuure = kruunien lukumäärä: t(x) = 42 T = t(x ) = kruunien lkm stokastisessa mallissa P(T = k H 0 ) = f (k) = ( ) ( ) 50 1 50, k = 0, 1,..., 50, k 2 Testisuureen odotusarvo t 0 = E(T H 0 ) = 25. p-arvo = P( T t 0 t(x) t 0 H 0 ) = P( T 25 17 H 0 ) 8 50 = f (k) + f (k) 1.16 10 6. k=0 k=42 Havainto todistaa vahvasti H 0 :aa vastaan.

Esim. Kohinainen kanava Tiedonsiirtovirheiden väitetään olevan normaalijakautuneita odotusarvona µ = 0 ja keskihajontana 3. Havainto: x 1 = 4.8. H 0 : Odotusarvo µ = 0 H 1 : Odotusarvo µ 0 Testisuure = normitettu poikkeama: z(x) = x 1 0 3 = 1.6 p-arvo = P( Z 1.6 H 0 ) = 2 1.6 1 2π e t2 /2 dt 11%, Havainto on selitettävissä tavanomaisella satunnaisvaihtelulla. Havainto ei puhu H 0 :aa vastaan.

Esim. Laadunvalvonta Tukkukauppias väittää, että sen toimittamista vihanneksista enintään 5% on huonolaatuisia. Suuresta erästä poimittiin satunnaisesti 50 tomaattia ja niistä 4 todettiin huonolaatuisiksi. H 0 : Huonojen osuus θ 0.05 H 1 : Huonojen osuus θ > 0.05 Testisuure: Huonojen lkm: t(x) = 4. Datalähteen tuottamien testisuureen arvojen stokastinen malli: ( ) 50 P θ (T = k) = f θ (k) = θ k (1 θ) 50 k, k Poikkeavuus: testisuureen arvo poikkeaa ylöspäin odotusarvosta ( ) P θ T E θ (T ) t(x) E θ (T ) = P θ (T t(x)) = Ongelma: tn riippuu θ:sta. Valitaan suurin tn (miksi?). p-arvo = max P θ(t t(x)) = P 0.05 (T t(x)) = θ 0.05 50 k=4 50 k=4 f θ (k). f 0.05 (k) 24%

Tilastollisen merkitsevyystestin vaiheet Joskus asetetaan myös vastahypoteesi H 1, jolloin tarkoitus on tutkia, puoltaako havaittu datajoukko enemmän H 0 :n vai H 1 :n hyväksymistä. 1. Asetetaan nollahypoteesi H 0 ja mahdollisesti vastahypoteesi H 1. 2. Valitaan käytettävä testisuure ja lasketaan havaittua dataa x vastaava testisuureen arvo t(x). 3. Määritetään datalähteen tuottamia testisuureen arvoja mallintavan satunnaismuuttujan T jakauma tai jakauman approksimaatio nollahypoteesin vallitessa. 4. Määritetään mitkä testisuureen arvot tulkitaan havaittua testisuureen arvoa poikkeuksellisemmiksi (puoltavat H 1 :n hyväksymistä H 0 :n sijaan) ja lasketaan testin p-arvo. 5. Tehdään johtopäätökset.

Testaaminen valitulla merkitsevyystasolla Miten pieni p-arvo on riittävän pieni? Tietyissä tilanteissa vaaditaan yksiselitteistä johtopäätöstä: testin pohjalta H 0 joko hyväksytään tai hylätään. Tällaisen testin pohjaksi valitaan merkitsevyystaso α (0, 1) ja johtopäätös muodostetaan seuraavasti: Jos p-arvo α, nollahypoteesi hyväksytään (jää voimaan), Jos p-arvo < α, nollahypoteesi hylätään. Usein on tapana valita merkitsevyystasoksi α = 1% tai α = 5%

Testausvirheet Mikään ei takaa, että tehty johtopäätös olisi oikea. Johtopäätös Totuus H 0 hyväksytään H 0 hylätään H 0 tosi Oikea päätös Hylkäysvirhe H 0 epätosi Hyväksymisvirhe Oikea päätös Testaajan johtopäätös on aina arvaus. Hyvä arvaus on todennäköisesti oikein.

Testausvirheiden todennäköisyydet p(x) = testisuureen p-arvo datajoukolle x X = (X 1,..., X n ) mallintaa datalähteen tuottamia arvoja ennen niiden havaitsemista = p(x ) on satunnaisluku Hylkäysvirheen todennäköisyys on P(H 0 hylätään H 0 ) = P(p(X ) < α H 0 ) Hyväksymisvirheen todennäköisyys on P(H 0 hyväksytään H 1 ) = P(p(X ) α H 1 ), α Hylkäysvirheen tn Hyväksymisvirheen tn Lähellä nollaa Pieni Suuri Lähellä ykköstä Suuri Pieni Fakta Hylkäysvirheen tn α.

Testausvirheiden tulkinta Anni Aktiivi Käyttää merkitsevyystasoa α = 5% Hylkää useammin nollahypoteeseja On henkisesti varautunut siihen, että tietty osuus testien johtopäätöksistä on virheellisiä Tietää, että pitkällä tähtäyksellä hänen hylkäämistään nollahypoteeseista enintään 5% on virheellisesti hylätty (Hän ei kuitenkaan tiedä mitkä niistä.) Hyväksyy B:tä harvemmin virheellisiä nollahypoteeseja Ville Varovainen Käyttää merkitsevyystasoa α = 1% Hylkää harvemmin nollahypoteeseja On henkisesti varautunut siihen, että tietty osuus testien johtopäätöksistä on virheellisiä Tietää, että pitkällä tähtäyksellä hänen hylkäämistään nollahypoteeseista enintään 1% on virheellisesti hylätty (Hän ei kuitenkaan tiedä mitkä niistä.) Hyväksyy A:ta useammin virheellisesti nollahypoteeseja

Esim. Rikosoikeus H 0 : Epäilty on syytön H 1 : Epäilty on syyllinen Havaittu data: Saatavilla oleva todistusaineisto Anni Aktiivi Käyttää merkitsevyystasoa α = 5% Langettaa useammin tuomioita Tuomitsee pitkällä tähtäyksellä 5% syyttömiä Jättää B:tä harvemmin syyllisiä tuomitsematta Ville Varovainen Käyttää merkitsevyystasoa α = 1% Langettaa harvemmin tuomioita Tuomitsee pitkällä tähtäyksellä 1% syyttömiä Jättää A:ta useammin syyllisiä tuomitsematta

Esim. Kolikko Tasaiseksi väitettyä kolikkoa 10 kertaa heitettäessä havaitaan data y = (0, 0, 1, 0, 0, 0, 0, 0, 0, 0). Testaa väitettä 5% merkitsevyystasolla. H 0 : Kruunan tn θ = 0.5, H 1 : Kruunan tn θ 0.5. Testisuure: t(x)=kruunien lkm Testisuureen stokastinen malli: T = t(x ) f 0 (k) = P(T = k) H 0 ) = ( 10 k ) ( 1 2 ) 10, Havainnon y p-arvo p(y) = P( t(x ) 5 4 H 0 ) = 1 10 f 0 (k) + f 0 (k) 2.1%. k=0 k=9 Johtopäätös: H 0 hylätään. Mitä osataan sanoa virhetodennäköisyyksistä?

Esim. Kolikko Hylkäysvirheen tn Testin p-arvot testisuureen funktiona: # kruunat 0 1 2 3 4 5 6 7 8 9 10 p-arvo (%) 0.2 2.1 10.9 34.4 75.4 100 75.4 34.4 10.9 2.1 0.2 5% merkitsevyystasolla testin hylkäysalue on {0, 1, 9, 10}. Hylkäysvirheen tn on P(t(X ) {0, 1, 9, 10} H 0 ) = 1 10 f 0 (k) + f 0 (k) 2.1%. k=0 k=9

Esim. Kolikko Hyväksymisvirheen tn Testin p-arvot testisuureen funktiona: # kruunat 0 1 2 3 4 5 6 7 8 9 10 p-arvo (%) 0.2 2.1 10.9 34.4 75.4 100 75.4 34.4 10.9 2.1 0.2 5% merkitsevyystasolla testin hylkäysalue on {0, 1, 9, 10}. Hyväksymisvirheen tn on P(t(X ) {2, 3,..., 8} H 1 ) =? Ongelma: vastahypoteesi (H 1 : θ 0.5) ei määrää θ:n arvoa. Ääritapaus θ 0.5, jolloin P(t(X ) {2, 3,..., 8} H 1 ) P(t(X ) {2, 3,..., 8} H 0 ) 8 = f 0 (k) 97.9%. k=2

Esim. 2 kolikkoa Tasaiseksi väitettyä kolikkoa 10 kertaa heitettäessä havaitaan data y = (0, 0, 1, 0, 0, 0, 0, 0, 0, 0). Tiedetään, että joko θ = 0.5 tai θ = 0.9. Testaa väitettä 5% merkitsevyystasolla. H 0 : Kruunan tn θ = 0.5, H 1 : Kruunan tn θ = 0.9. Sama testisuure, sama p-arvo, sama johtopäätös (H 0 hylätään). ( ) 10 f 1 (k) = P(T = k H 1 ) = 0.9 k (1 0.9) n k, k Hyväksymisvirheen tn: P( t(x ) {2, 3,..., 8} H 1 ) = 8 k=2 ( ) 10 f 1 (k) 26%. k

Sisältö Tilastollisen merkitsevyyden testaaminen Osa II Odotusarvon testaaminen suurille datajoukoille

Odotusarvon testisuure suurille datajoukoille Datalähde tuottaa toisistaan riippumattomia ja samoin jakautuneita satunnaislukuja X 1, X 2,..., X n odotusarvona (tuntematon) µ. H 0 : µ = µ 0 H 1 : µ µ 0 Jakauma tuntematon = mahdoton testata? Approksimatiivinen testi mahdollinen, jos paljon dataa. Testisuure: t(x) = m(x) µ 0 s(x)/ n. Fakta Suurilla n arvoilla testisuureen stokastinen malli t(x ) d Z, missä Z noudattaa normitettua normaalijakaumaa. p-arvo P( t(x ) t(x) H 0 ) P(Z t(x) ),

Seuraavalla kerralla puhutaan luottamusväleistä...