MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

10. laskuharjoituskierros, vko 14, ratkaisut

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Testejä suhdeasteikollisille muuttujille

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Testit laatueroasteikollisille muuttujille

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tilastollinen aineisto Luottamusväli

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tilastollisia peruskäsitteitä ja Monte Carlo

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

9. laskuharjoituskierros, vko 12-13, ratkaisut

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

tilastotieteen kertaus

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

031021P Tilastomatematiikka (5 op) viikko 5

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

riippumattomia ja noudattavat samaa jakaumaa.

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

5.7 Uskottavuusfunktioon perustuvia testejä II

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

2. TILASTOLLINEN TESTAAMINEN...

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Todennäköisyyden ominaisuuksia

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Mat Tilastollisen analyysin perusteet, kevät 2007

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Mat Tilastollisen analyysin perusteet, kevät 2007

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

dx=5&uilang=fi&lang=fi&lvv=2014

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Transkriptio:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 5 Tilastollisten hypoteesien testaaminen Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Sisältö Hypoteesi määrällisen muuttujan odotusarvosta Kahden odotusarvon yhtäsuuruuden testaaminen Binaariarvoisen laadullisen muuttujan testaus

Sisältö Hypoteesi määrällisen muuttujan odotusarvosta Kahden odotusarvon yhtäsuuruuden testaaminen Binaariarvoisen laadullisen muuttujan testaus

Esim. Kahviautomaatti Kahviautomaatin on tarkoitus laskea jokaiseen kuppiin keskimäärin 10.0 cl kahvia. Kahviautomaatin toimintaa testattiin valuttamalla automaatista 30 kupillista ja mittamalla kahvin määrät kupeissa. Mittauksessa havaittiin arvot (cl): 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Onko kahviautomaatti oikein kalibroitu? Havaitun aineiston x keskiarvo on m(x) = 10.473, joka poikkeaa tavoitearvosta µ 0 = 10.0. Onko poikkeama tilastollisesti merkitsevä?

Tilastokokeen stokastinen malli Analyysiä helpottava (tai sen mahdollistava) yleinen hypoteesi H: Havaitut arvot ovat realisaatioita riippumattomista N(µ, σ 2 )-jakaumaa noudattavista satunnaismuuttujista. Normaalijakauman parametreja µ ja σ 2 ei tunneta. Yleisen hypoteesin pätiessä tilastokokeen tulos (ennen sen havaitsemista) on satunnaisvektori X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Huom Normaalijakaumaoletus on erittäin rajoittava ja ennen testaamista on syytä pohtia (tai testata) onko normaalijakaumaoletus perusteltu. Jos ei, niin suurelle aineistolle voidaan käyttää normaaliarviota. On myös olemassa muita testejä, jotka soveltuvat pienemmillekin otoksille. Näitä käsitellään kurssilla Tilastollisen analyysin perusteet.

Tilastokokeen stokastisen mallin tunnusluvut Tilastokokeen stokastinen malli on X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Stokastisesta mallista laskettu keskiarvo on satunnaisluku m(x ) = 1 n n X i, i=1 jonka odotusarvo on µ ja keskihajonta σ/ n. Jos hypoteesi µ = µ 0 pätee, niin normalisoitu tunnusluku noudattaa N(0, 1)-jakaumaa. m(x ) µ 0 σ/ n

Esim. Kahviautomaatti: aineiston jakauma 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitun aineiston x keskiarvo on m(x) = 10.473. Onko aineisto normaalijakautunut? Kahvimäärien histogrammi frekvenssi 0 2 4 6 8 10 12 9.0 9.5 10.0 10.5 11.0 11.5 12.0 Määrä(cl)

Esim. Kahviautomaatti: Normalisoitu keskiarvo Jos aineisto on normaalijakautunut, niin poikkeaman tilastollista merkitsevyyttä voidaan verrata N(0, 1)-jakaumaan, kunhan m(x) normalisoidaan muotoon m(x) µ 0 σ/ n = 10.473 10.0 σ/ 30 =? Ongelma: Parametri σ on tuntematon. Ratkaisu: Korvataan σ estimaatilla s(x) = 0.563. Aineistosta saadaan tunnusluku t(x) = m(x) µ 0 s(x)/ n = 10.473 10.0 0.563/ 30 = 4.60.

Keskihajonnan korvaaminen otoskeskihajonnalla Yleisen hypoteesin (normaalijakautuma) ja nollahypoteesin (µ = µ 0 ) pätiessä normalisoitu tunnusluku m(x ) µ 0 σ/ n N(0, 1) Entä t(x ) := m(x ) µ 0 s(x )/ n? Fakta Yleisen hypoteesin ja nollahypoteesin pätiessä tunnusluku t(x ) noudattaa Studentin t(n 1)-jakaumaa vapausastein n 1.

Studentin t-testi 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Aineistolle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin (normaalijakauma) ja nollahypoteesin (µ = µ 0 ) pätiessä stokastista mallia vastaava (satunnainen) tunnusluku on t(x ) := m(x ) µ 0 s(x )/ n t(29). Jos hypoteesit ok, niin tyypillisesti t(x ) 0. Studentin t-testin p-arvo on poikkeaman t(x ) 4.60 tn: Pr( t(x ) 4.60) = 2*(1-pt(4.60,29)) = 0.000077.

Studentin t-testin tulkinta 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Aineistolle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin ja nollahypoteesin pätiessä stokastista mallia vastaava tunnusluku toteuttaa t(x ) 4.60 todennäköisyydellä Pr( t(x ) 4.60) = 0.000077. Näin pieni p-arvo tarkoittaa, että testisuureen havaittu poikkeama nollasta johtuu hyvin epätodennäköisesti satunnaisvaihtelusta. Havaittu poikkeama on siis tilastollisesti merkitsevä ja antaa aiheen hylätä nollahypoteesi µ = 10.0. Johtopäätös: Kahviautomaatti on virheellisesti kalibroitu.

Studentin t-testin suorittaminen p-arvolla: Yhteenveto Lähtökohdat Määrällisen muuttujan aineisto x = (x 1,..., x n ). Yleinen hypoteesi H: Havaittu aineisto koostuu riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuttujien realisaatioista Nollahypoteesi H 0 : µ = µ 0 (Vaihtoehtoinen hypoteesi H 1 : µ µ 0 ) Testaus Lasketaan aineistosta testisuure t(x) = m(x) µ 0 s(x)/ n Lasketaan t(n 1)-jakaumasta p-arvo Pr( t(x ) t(x) ). Johtopäätös Jos p-arvo on lähellä nollaa = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan. R: t.test(x,mu=10.0)

Studentin t-testi ennalta määrätyllä merkitsevyystasolla Lähtökohdat: Samat Valitaan testin merkitsevyystaso α (esim. α = 1%) ja määritetään t(n 1)-jakaumasta kriittiset arvot a ja b, joille Pr(t(X ) a) = α/2 ja Pr(t(X ) b) = α/2. R:llä b = qt(1-α/2, n-1) ja a = qt(α/2, n-1) = b. Testaus Lasketaan aineistosta testisuure t(x) = m(x) µ 0 s(x)/ n Katsotaan kuuluuko t(x) välille (a, b). Johtopäätös Jos t(x) / (a, b) = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan.

Esim. Kahviautomaatti 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Aineistolle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Merkitsevyystasoa α = 0.01 vastaavat kriittiset arvot ovat a = qt(0.005,29) = 2.76 b = qt(0.995,29) = +2.76 Testisuure t(x) ( 2.76, 2.76) = Nollahypoteesi µ = 10.0 hylätään 1 % merkitsevyystasolla. Johtopäätös: Kahviautomaatti ei valuta keskimäärin 10.0 cl kokoisia kupillisia.

Yleisen hypoteesin merkitys Yleinen hypoteesi H: Tehdyt havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Yleistä hypoteesia ei t-testin yhteydessä testata, vaan sen ajatellaan olevan vahvistettu muilla tavoin. Jos yleinen hypoteesi ei päde, on t-testin tulos merkityksetön. Aineiston normaalisuuden testaamiseksi on olemassa omia testejä (ei käsitellä tällä kurssilla)

Oikea vai väärä johtopäätös? Testin tulos Nollahypoteesi jää voimaan Nollahypoteesi hylätään Maailman tila Nollahypoteesi Nollahypoteesi pätee ei päde Oikea Hyväskymisvirhe johtopäätös Hylkäysvirhe Oikea johtopäätos Testin merkitsevyystaso α kertoo hylkäysvirheen todennäköisyyden (ennen aineiston havaitsemista) Nollahypoteesi hylätään merkitsevyystasolla α täsmälleen silloin, kun testin p-arvo on pienempi kuin α. Testin hyväksymisvirhe ei ole 1 α. (Hyväksymisvirheen analysoimista ei käsitellä tällä kurssilla.)

Sisältö Hypoteesi määrällisen muuttujan odotusarvosta Kahden odotusarvon yhtäsuuruuden testaaminen Binaariarvoisen laadullisen muuttujan testaus

Esim. Verenpainelääke Samojen potilaiden (8 kpl) verenpaine mitattiin ennen ja jälkeen testattavan lääkkeen nauttimisen. Koetulokset (mm/hg) ovat: 1 2 3 4 5 6 7 8 Ennen 134 174 118 152 187 136 125 168 Jälkeen 128 176 110 149 183 136 118 158 Onko lääkkeellä keskimäärin verenpainetta alentava vaikutus? Verenpaineiden keskiarvo ennen: m(x (e) ) = 149.25 Verenpaineiden keskiarvo ennen: m(x (j) ) = 144.75 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on siis 4.5 yksikköä alempi Onko tämä muutos tilastollisesti merkitsevä?

Parivertailun stokastinen malli Erotukset verenpaine ennen - verenpaine jälkeen : 1 2 3 4 5 6 7 8 Ennen 134 174 118 152 187 136 125 168 Jälkeen 128 176 110 149 183 136 118 158 Erotus 6-2 8 3 4 0 7 10 Yleinen hypoteesi H: Havaitut erotukset d i ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Nollahypoteesi H 0 : µ = 0 Vaihtoehtoinen hypoteesi H 1 : µ 0.

Odotusarvon parivertailun t-testi Tilastokokeen stokastinen malli on satunnaisvektori D = (D 1,..., D n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Yleisen hypoteesin ja nollahypoteesin pätiessä stokastisen mallin testisuure t(d) = m(d) 0 s(d)/ t(n 1). n Vastaava aineistosta laskettu testisuure on t(d) = m(d) 0 s(d)/ n = 4.5 4.07/ 8 = 3.13. Kun vaihtoehtoinen hypoteesi on (H 1 : µ 0), saadaan p-arvoksi Pr( t(d) 3.13) = 2*(1-pt(3.13,7)) = 0.017. R: t.test(x (e),x (j),paired=true,alternative="two.sided")

Odotusarvon parivertailun t-testin tulkinta Onko lääkkeellä keskimäärin verenpainetta alentava vaikutus? 1 2 3 4 5 6 7 8 Ennen 134 174 118 152 187 136 125 168 Jälkeen 128 176 110 149 183 136 118 158 Erotus 6-2 8 3 4 0 7 10 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on 4.5 yksikköä alempi Erotuksista laskettu t(d) = 3.13; testin p-arvo on 0.017 Onko tämä muutos tilastollisesti merkitsevä? Nollahypoteesi (lääkkellä ei vaikutusta, µ = 0): Hylätään 2 % merkitsevyystasolla Jää voimaan 1 % merkitsevyystasolla Lääkäri, joka hylkää nollahypoteesit 2 % merkitsevyystasolla, tekee pitkällä aikavälillä virheellisiä johtopäätöksiä 2 % tapauksista, joissa H 0 olisi ollut tosi.

Parivertailun yksisuuntainen t-testi Tilastokokeen stokastinen malli on D = (D 1,..., D n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Yleisen hypoteesin ja nollahypoteesin pätiessä t(d) = m(d) 0 s(d)/ n t(n 1). Vastaava aineistosta laskettu testisuure on t(d) = 3.13. Kun vaihtoehtoinen hypoteesi on (H 1 : µ > 0), saadaan p-arvoksi Pr(t(D) 3.13) = 1-pt(3.13,7) = 0.0083. Tällöin nollahypoteesi H 0 : µ = 0 (lääke ei alenna verenpainetta) voidaan hylätä vaihtoehtoisen hypoteesin H 1 : µ > 0 tukemana merkitsevyystasolla 1 %. R: t.test(x (e),x (j),paired=true,alternative="greater")

Odotusarvojen vertailu eri kokoisille otoksille Potilaat on jaettu kahteen ryhmään, joista toisen ryhmän potilaille on annettu lumelääkettä (10 kpl) ja toisen ryhmän potilaille (8 kpl) testattavaa lääkettä. Molempien ryhmien potilailta mitattiin eräs antigeeniarvo lääkekuurien jälkeen. Koetulokset (U/ml) ovat: 1 2 3 4 5 6 7 8 9 10 Lume 102 88 69 102 83 88 93 109 61 70 Testattava 111 84 60 80 83 71 54 59 Onko lääkkeellä keskimäärin antigeenipitoisuutta alentava vaikutus? Lumelääkettä saaneiden keskiarvo: m(x (l) ) = 79.7 Testattavaa lääkettä saaneiden keskiarvo ennen: m(x (t) ) = 75.25 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on siis 4.45 yksikköä alempi Onko tämä muutos tilastollisesti merkitsevä?

Ryhmien odotusarvojen vertailun stokastinen malli Ryhmät G 1 ja G 2, joiden otoskoot ovat n 1 = 10 ja n 2 = 8 Yleinen hypoteesi H: Ryhmän G 1 havainnot ovat riippumattomien N(µ 1, σ1 2 )-jakautuneiden satunnaismuuttujien X 1,..., X n1 realisaatioita. Ryhmän G 2 havainnot ovat riippumattomien N(µ 2, σ2 2 )-jakautuneiden satunnaismuuttujien Y 1,..., Y n2 realisaatioita. Otokset ovat riippumattomat Nollahypoteesi H 0 : µ 1 = µ 2 Vaihtoehtoinen hypoteesi H 1 : µ 1 µ 2.

Ryhmien odotusarvojen vertailun t-testi Otoskeskiarvot noudattavat normaalijakaumia, m(x ) N ( ) µ 1, σ2 1 n 1 ja m(y ) N ( ) µ 2, σ2 2 n 2, joten niiden erotus noudattaa normaalijakaumaa, ( ) m(x ) m(y ) N µ 1 µ 2, σ2 1 + σ2 2. n 1 n 2 Testisuure on m(x ) m(y ) t(x, Y ) = s 2 (X ) s(y )2 n 1 + n 2 ja sen jakaumaa voidaan arvoida 1. N(0, 1)-jakaumalla, jos n 1 ja n 2 ovat suuria 2. t(ν)-jakaumalla, missä ν = jos n 1 tai n 2 on pieni. [ s 2 (X ) ] 2 n 1 + s2 (Y ) n 2 ( ) 1 s 2 2 (X ) n 1 1 n 1 + 1 n 2 1 ( s 2 (Y ) n 2 ) 2,

Ryhmien dotusarvojen vertailun t-testi Onko lääkkeellä keskimäärin antigeenipitoisuutta alentava vaikutus? 1 2 3 4 5 6 7 8 9 10 Lume 102 88 69 102 83 88 93 109 61 70 Testattava 111 84 60 80 83 71 54 59 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on 4.45 yksikköä alempi, n 1 = 10 ja n 2 = 8, s 2 (x) = 164.2 ja s 2 (y) = 343.4. Vapausasteet: ν = [ s 2 (X ) n 1 + s2 (Y ) n 2 ] 2 ( ) 2 1 s 2 (X ) n 1 1 n 1 + 1 n 2 1 ( s 2 (Y ) n 2 ) 2 = 12.01. Testisuureen arvo t(x, Y ) = 0.578; testin p-arvo on Pr(t(D) 0.578) = 2*(1-pt(0.578,12)) = 0.574. Onko tämä muutos tilastollisesti merkitsevä? Nollahypoteesia ei hylätä.

Sisältö Hypoteesi määrällisen muuttujan odotusarvosta Kahden odotusarvon yhtäsuuruuden testaaminen Binaariarvoisen laadullisen muuttujan testaus

Laadun testaaminen Valmistaja väittää, että sen tuotteista korkeintaan 5 % on viallisia. Asiakas poimii tilaamiensa tuotteiden joukosta 200 tuotteen otoksen löytää 19 viallista tuotetta. Onko valmistajan väite oikeutettu? Otoksessa havaittu viallisten osuus on 19 200 = 9.5%. Voidaanko tämä tulkita satunnaisvaihtelun aiheuttamaksi?

Satunnaisotannan stokastinen malli Poimitaan n = 200 tuotetta suuresta perusjoukosta. Merkitään X i = { 1, jos i:s tarkastettava tuote on on viallinen, 0, muuten. Tällöin X i = 1 tn:llä p ja X i = 0 tn:llä 1 p, missä (tuntematon) parametri p on viallisten tuotteiden suhteellinen osuus Näin ollen X i Ber(p) Kun perusjoukko on suuri, ovat X 1,..., X n riippumattomat. Viallisten tuotteiden lkm otoksessa on f (X ) = n i=1 X i. Viallisten tuotteiden suhteellinen osuus otoksessa on ˆp(X ) = 1 n n i=1 X i. Luvut X i ovat satunnaisia (ennen tuotteiden havaitsemista)

p:n suurimman uskottavuuden estimaattori Kun tuotteet tarkastetaan, havaitaan aineisto x = (x 1,..., x n ). Viallisten lukumäärä otoksessä on f (x) = n i=1 x i.tapahtuman (X 1,..., X n = (x 1,..., x n ) tn on L(p; x 1,..., x n ) = Pr(X 1 = x 1,..., X n = x n ) = p f (x) (1 p) n f (x). Parametrin p suurimman uskottavuuden estimaattori on se p:n arvo ˆp, joka maksimoi uskottavuusfunktion L(p; x 1,..., x n ) arvon.

Uskottavuusfunktion maksimointi Logaritminen uskottavuusfunktio on l(p; x 1,..., x n ) = log L(p; x 1,..., x n ) = f (x) log p+(n f (x)) log(1 p). Derivaatta p:n suhteen l (p) = f (x) 1 p + (n f (x)) 1 ( 1) = 0, 1 p kun eli jonka ratkaisu on f (x) 1 p = (n f (x)) 1 1 p (1 p)f (x) = p(n f (x)), ˆp = f (x) n.

Viallisten osuuden SU-estimaattori Fakta Viallisten osuuden p SU-estimaatti aineistosta x = (x 1,..., x n ) on ˆp(x) = f (x) n = 1 n n i=1 x i eli viallisten tuotteiden suhteellinen osuus otoksessa. Kun estimaattia katsotaan lukuna ennen aineiston havaitsemista, saadaan satunnaisluku ˆp(X ) = f (X ) n = 1 n n i=1 X i ˆp(X ) on viallisten tuotteiden osuuden p SU-estimaattori. ˆp(X ) on Ber(p)-jakauman parametrin p SU-estimaattori.

Suhteeellisen osuuden estimointi SU-estimaattori viallisten tuotteiden (tuntemattomalle) osuudelle p koko perusjoukossa on ˆp(X ) = 1 n Tämä estimaattori on harhaton: Lisäksi E(ˆp(X )) = 1 n Var(ˆp(X )) = 1 n 2 Normalisoidun estimaattorin n X i. i=1 n E(X i ) = p. i=1 n Var(X i ) = i=1 ˆp(X ) p p(1 p) n odotusarvo on nolla ja varianssi yksi. p(1 p). n

Normaalijakaumalla approksimointi Kun n on iso, Tällöin myös ˆp(X ) p p(1 p) n ˆp(X ) p ˆp(X )(1 ˆp(X )) n N(0, 1). N(0, 1). Näin ollen satunnaismuuttujalle ˆp = ˆp(X ) pätee Pr c < ˆp p < c Pr( c < Z < c) = 99%, ˆp(1 ˆp) n kun c = qnorm(1-0.01/2) = 2.58.

99 % luottamusväli Satunnaismuuttujalle ˆp = ˆp(X ) pätee Pr 2.58 < ˆp p < 2.58 99%, ˆp(1 ˆp) n eli ( ) ˆp(X )(1 ˆp(X )) Pr p ˆp(X ) ± 2.58 99%, n Kun havaitaan 19 viallista tuotetta 200:n otoksessa, ˆp(x) = 9.5% ja satunnainen luottamusväli realisoituu väliksi ( ) ˆp(x)(1 ˆp(x)) ˆp(x) ± 2.58 = (0.042, 0.148) n

Hypoteesin p 5% testaaminen Merkitään p 0 = 0.05 ja määritellään testisuure z(x) = ˆp(x) p 0 p 0 (1 p 0 ) n Kun ˆp(x) = 9.5%, saadaan testisuureen arvoksi z(x) = 2.91. Suuret testisuuren arvot puoltavat nollahypoteesin H 0 : p p 0 hylkäämistä. Normaaliapproksimaatiolla saadaan p-arvoksi Pr(z(X ) 2.91) Pr(Z 2.91) = 1-pnorm(2.91) = 0.0018. Koska p-arvo alittaa luvun 0.01, nollahypoteesi p p 0 hylätään 1 % merkitsevyystasolla. Johtopäätös: Valmistajan väite (max 5 % tuotteista viallisia) on tilastollisesti merkitsevästi virheellinen.

Ensi viikolla aiheena lineaarinen regressio...

Aineistolähteet Luentokalvot pohjautuvat osittain kurssin edellisten vuosien (Ilkka Mellin, Milla Kibble, Juuso Liesiö) luentokalvoihin.