MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 5 Tilastollisten hypoteesien testaaminen Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Kevät 2016

Sisältö Tilastollisen hypoteesin testaamisen periaatteet Hypoteesi määrällisen muuttujan odotusarvosta Kahden odotusarvon yhtäsuuruuden testaaminen Binaariarvoisen laadullisen muuttujan testaus

Mustekala Paul https://en.wikipedia.org/wiki/paul_the_octopus

Esimerkkikysymyksiä hypoteesin testaamiseen Kehitettävän uuden lääkkeen vaikutus Onko uusi lääke tehokkaampi kuin aiempi vakiintunut hoitomenetelmä? (Tai: onko uusi lääke edes lumelääkettä tehokkaampi?) Väitetty selvännäkijä Pystyykö selvännäkijä ennustamaan pelituloksia pelkkää arvaamista osuvammin?

Nollahypoteesi ja vaihtoehtoinen hypoteesi Testaamista varten muotoillaan: Nollahypoteesi H 0 Varovainen ja konservatiivinen hypoteesi ilmiöstä (sisältö tyypillisesti: mitään uutta tai yllättävää ei tarvita havaintojen selittämiseen ) Vaihtoehtoinen hypoteesi H 1 Vaihtoehto konservatiiviselle hypoteesille (sisältönä tyypillisesti uusi ja kiinnostava selitys ilmiölle) Kehitettävän uuden lääkkeen vaikutus H 0 Uusi lääke ja lumelääke ovat yhtä tehokkaita. H 1 Uusi lääke on lumelääkettä tehokkaampi. Väitetty selvännäkijä H 0 Ennustukset ovat yhtä hyviä kuin arvaukset. Ennustukset ovat osuvampia kuin arvaukset. H 1

Tilastollisen hypoteesin testaamisen vaiheet 1. Muotoillaan nollahypoteesi H 0 ja vaihtoehtoinen hypoteesi H 1 ja muodostetaan nollahypoteesia vastaava tilastokokeen stokastinen malli. 2. Valitaan testisuure, jonka jakauman voidaan olettaa olevan riittävän erilainen riippuen siitä päteekö nollahypoteesi H 0 vai vaihtoehtoinen hypoteesi H 1. 3. Johdetaan testisuureen jakauma (tai sen approksimaatio) olettaen että nollahypoteesi H 0 pätee. 4. Tarkastellaan, olisivatko havainnot poikkeuksellisia, jos nollahypoteesi olisi tosi. - ei kovin poikkeuksellisia ei hylätä nollahypoteesia - poikkeuksellisia hylätään nollahypoteesi Miten poikkeuksellisuutta arvoidaan? * p-arvo: p = Pr(havainnot vähintään näin poikkeuksellisia H 0 ) * hylätään tai ei hylätä ennalta määrätyn merkitsevyystason α mukaan (p α tai p > α)

Esim. Kahviautomaatti Kahviautomaatin on tarkoitus laskea jokaiseen kuppiin keskimäärin 10.0 cl kahvia. Kahviautomaatin toimintaa testattiin valuttamalla automaatista 30 kupillista ja mittamalla kahvin määrät kupeissa. Mittauksessa havaittiin arvot (cl): 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Onko kahviautomaatti oikein kalibroitu? Mittausdatan x keskiarvo on m(x) = 10.473, joka poikkeaa tavoitearvosta µ 0 = 10.0. Onko poikkeama tilastollisesti merkitsevä?

Tilastokokeen stokastinen malli Analyysiä helpottava (tai sen mahdollistava) yleinen hypoteesi H: Havaitut arvot ovat realisaatioita riippumattomista N(µ, σ 2 )-jakaumaa noudattavista satunnaismuuttujista. Normaalijakauman parametreja µ ja σ 2 ei tunneta. Yleisen hypoteesin pätiessä tilastokokeen tulos (ennen sen havaitsemista) on satunnaisvektori X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Huom Normaalijakaumaoletus on erittäin rajoittava ja ennen testaamista on syytä pohtia (tai testata) onko normaalijakaumaoletus perusteltu. Jos ei, niin suurelle datamäärälle voidaan silti toisinaan käyttää normaaliarviota. On myös olemassa muita testejä, jotka soveltuvat pienemmillekin otoksille. Näitä käsitellään kurssilla Tilastollisen analyysin perusteet.

Tilastokokeen stokastisen mallin tunnusluvut Tilastokokeen stokastinen malli on X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Stokastisesta mallista laskettu keskiarvo on satunnaisluku m(x ) = 1 n n X i, i=1 jonka odotusarvo on µ ja keskihajonta σ/ n. Jos hypoteesi µ = µ 0 pätee, niin suure noudattaa N(0, 1)-jakaumaa. m(x ) µ 0 σ/ n

Esim. Kahviautomaatti: mittausten jakauma 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Mittausdatan x keskiarvo on m(x) = 10.473. Onko mittausdata normaalijakautunut? Kahvimäärien histogrammi frekvenssi 0 2 4 6 8 10 12 9.0 9.5 10.0 10.5 11.0 11.5 12.0 Määrä(cl)

Esim. Kahviautomaatti: Normalisoitu keskiarvo Jos data tulee normaalijakaumasta, niin poikkeaman tilastollista merkitsevyyttä voidaan verrata N(0, 1)-jakaumaan, kunhan m(x) normalisoidaan muotoon m(x) µ 0 σ/ n = 10.473 10.0 σ/ 30 =? Ongelma: Parametri σ on tuntematon. Ratkaisu: Korvataan σ estimaatilla s(x) = 0.563. Havaitusta datasta saadaan tunnusluku t(x) = m(x) µ 0 s(x)/ n = 10.473 10.0 0.563/ 30 = 4.60.

Keskihajonnan korvaaminen otoskeskihajonnalla Yleisen hypoteesin (normaalijakautuma) ja nollahypoteesin (µ = µ 0 ) pätiessä normalisoitu tunnusluku m(x ) µ 0 σ/ n N(0, 1) Entä t(x ) := m(x ) µ 0 s(x )/ n? Fakta Yleisen hypoteesin ja nollahypoteesin pätiessä tunnusluku t(x ) noudattaa Studentin t(n 1)-jakaumaa vapausastein n 1.

Studentin t-testi 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitulle datalle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin (normaalijakauma) ja nollahypoteesin (µ = µ 0 ) pätiessä stokastista mallia vastaava (satunnainen) tunnusluku on t(x ) := m(x ) µ 0 s(x )/ n t(29). Jos hypoteesit ok, niin tyypillisesti t(x ) 0. Studentin t-testin p-arvo on poikkeaman t(x ) 4.60 tn: Pr( t(x ) 4.60) = 2*(1-pt(4.60,29)) = 0.000077.

Studentin t-testin tulkinta 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitulle datalle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin ja nollahypoteesin pätiessä stokastista mallia vastaava tunnusluku toteuttaa t(x ) 4.60 todennäköisyydellä Pr( t(x ) 4.60) = 0.000077. Näin pieni p-arvo tarkoittaa, että testisuureen havaittu poikkeama nollasta johtuu hyvin epätodennäköisesti satunnaisvaihtelusta. Havaittu poikkeama on siis tilastollisesti merkitsevä ja antaa aiheen hylätä nollahypoteesi µ = 10.0. Johtopäätös: Kahviautomaatti on virheellisesti kalibroitu.

Studentin t-testin suorittaminen p-arvolla: Yhteenveto Lähtökohdat Havaittu data x = (x 1,..., x n ). Yleinen hypoteesi H: Havaittu data koostuu riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuttujien realisaatioista Nollahypoteesi H 0 : µ = µ 0 (Vaihtoehtoinen hypoteesi H 1 : µ µ 0 ) Testaus Lasketaan datasta testisuure t(x) = m(x) µ 0 s(x)/ n Lasketaan t(n 1)-jakaumasta p-arvo Pr( t(x ) t(x) ). Johtopäätös Jos p-arvo on lähellä nollaa = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan. R: t.test(x,mu=10.0)

Studentin t-testi ennalta määrätyllä merkitsevyystasolla Lähtökohdat: Samat Valitaan testin merkitsevyystaso α (esim. α = 1%) ja määritetään t(n 1)-jakaumasta kriittiset arvot a ja b, joille Pr(t(X ) a) = α/2 ja Pr(t(X ) b) = α/2. R:llä b = qt(1-α/2, n-1) ja a = qt(α/2, n-1) = b. Testaus Lasketaan datasta testisuure t(x) = m(x) µ 0 s(x)/ n Katsotaan kuuluuko t(x) välille (a, b). Johtopäätös Jos t(x) / (a, b) = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan.

Esim. Kahviautomaatti 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitulle datalle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Merkitsevyystasoa α = 0.01 vastaavat kriittiset arvot ovat a = qt(0.005,29) = 2.76 b = qt(0.995,29) = +2.76 Testisuure t(x) ( 2.76, 2.76) = Nollahypoteesi µ = 10.0 hylätään 1 % merkitsevyystasolla. Johtopäätös: Kahviautomaatti ei valuta keskimäärin 10.0 cl kokoisia kupillisia.

Yleisen hypoteesin merkitys Yleinen hypoteesi H: Tehdyt havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Yleistä hypoteesia ei t-testin yhteydessä testata, vaan sen ajatellaan olevan vahvistettu muilla tavoin. Jos yleinen hypoteesi ei päde, on t-testin tulos merkityksetön. Datan normaalisuuden testaamiseksi on olemassa omia testejä (ei käsitellä tällä kurssilla)

Oikea vai väärä johtopäätös? Testin tulos Nollahypoteesi jää voimaan Nollahypoteesi hylätään Maailman tila Nollahypoteesi pätee Nollahypoteesi ei päde Oikea Hyväksymisvirhe johtopäätös (tyyppi II) Hylkäysvirhe Oikea (tyyppi I) johtopäätos Testin merkitsevyystaso α kertoo hylkäysvirheen todennäköisyyden (ennen datan havaitsemista) Nollahypoteesi hylätään merkitsevyystasolla α täsmälleen silloin, kun testin p-arvo on pienempi kuin α. Testin hyväksymisvirhe ei ole 1 α. (Hyväksymisvirheen analysoimista ei käsitellä tällä kurssilla.)

Esim. Verenpainelääke Samojen potilaiden (8 kpl) verenpaine mitattiin ennen ja jälkeen testattavan lääkkeen nauttimisen. Koetulokset (mmhg) ovat: 1 2 3 4 5 6 7 8 Ennen 134 174 118 152 187 136 125 168 Jälkeen 128 176 110 149 183 136 118 158 Onko lääkkeellä keskimäärin verenpainetta alentava vaikutus? Verenpaineiden keskiarvo ennen: m(x (e) ) = 149.25 Verenpaineiden keskiarvo ennen: m(x (j) ) = 144.75 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on siis 4.5 yksikköä alempi Onko tämä muutos tilastollisesti merkitsevä?

Parivertailun stokastinen malli Erotukset verenpaine ennen - verenpaine jälkeen : 1 2 3 4 5 6 7 8 Ennen 134 174 118 152 187 136 125 168 Jälkeen 128 176 110 149 183 136 118 158 Erotus 6-2 8 3 4 0 7 10 Yleinen hypoteesi H: Havaitut erotukset d i ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Nollahypoteesi H 0 : µ = 0 Vaihtoehtoinen hypoteesi H 1 : µ 0.

Odotusarvon parivertailun t-testi Tilastokokeen stokastinen malli on satunnaisvektori D = (D 1,..., D n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Yleisen hypoteesin ja nollahypoteesin pätiessä stokastisen mallin testisuure t(d) = m(d) 0 s(d)/ t(n 1). n Vastaava datasta laskettu testisuure on t(d) = m(d) 0 s(d)/ n = 4.5 4.07/ 8 = 3.13. Kun vaihtoehtoinen hypoteesi on (H 1 : µ 0), saadaan p-arvoksi p = Pr( t(d) 3.13) = 2*(1-pt(3.13,7)) = 0.017. R: t.test(x (e),x (j),paired=true,alternative="two.sided")

Odotusarvon parivertailun t-testin tulkinta Onko lääkkeellä keskimäärin verenpainetta alentava vaikutus? 1 2 3 4 5 6 7 8 Ennen 134 174 118 152 187 136 125 168 Jälkeen 128 176 110 149 183 136 118 158 Erotus 6-2 8 3 4 0 7 10 Potilaiden keskimääräinen verenpaine lääkkeen nauttimisen jälkeen on 4.5 yksikköä alempi Erotuksista laskettu t(d) = 3.13; testin p-arvo on 0.017 Onko tämä muutos tilastollisesti merkitsevä? Nollahypoteesi (lääkkellä ei vaikutusta, µ = 0): Hylätään 2 % merkitsevyystasolla Jää voimaan 1 % merkitsevyystasolla Lääkäri, joka hylkää nollahypoteesit 2 % merkitsevyystasolla, tekee pitkällä aikavälillä virheellisiä johtopäätöksiä 2 % tapauksista, joissa H 0 olisi ollut tosi.

Parivertailun yksisuuntainen t-testi Tilastokokeen stokastinen malli on D = (D 1,..., D n ), jonka komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet. Yleisen hypoteesin ja nollahypoteesin pätiessä t(d) = m(d) 0 s(d)/ n t(n 1). Vastaava datasta laskettu testisuure on t(d) = 3.13. Kun vaihtoehtoinen hypoteesi on (H 1 : µ > 0), saadaan p-arvoksi p = Pr(t(D) 3.13) = 1-pt(3.13,7) = 0.0083. Tällöin nollahypoteesi H 0 : µ = 0 (lääke ei alenna verenpainetta) voidaan hylätä vaihtoehtoisen hypoteesin H 1 : µ > 0 tukemana merkitsevyystasolla 1 %. R: t.test(x (e),x (j),paired=true,alternative="greater")

Laadunvalvonta Valmistaja väittää, että sen tuotteista korkeintaan 5 % on viallisia. Asiakas poimii tilaamiensa tuotteiden joukosta 200 tuotteen otoksen ja löytää 19 viallista tuotetta. Onko valmistajan väite oikeutettu? Otoksessa havaittu viallisten osuus on 19 200 = 9.5%. Voidaanko tämä tulkita satunnaisvaihtelun aiheuttamaksi? Havaittu data x = (x 1 ) on yhden alkion lista: x 1 = 19. Tilastokokeen stokastinen malli =?

Laadunvalvonta tilastokokeen stokastinen malli X 1 = viallisten tuotteiden (satunnainen) lukumäärä 200 tuotteen otoksessa (ennen otoksen havaitsemista). Kun tuotteet on satunnaisesti poimittu suuresta perusjoukosta, noudattaa stokastisen mallin testisuure X 1 binomijakaumaa ( ) 200 Pr(X 1 = k) = θ k (1 θ) 200 k, k = 0, 1,..., 200, k missä θ on viallisten (tuntematon) osuus koko perusjoukossa. H 0 : θ 0.05 (nollahypoteesi) H 1 : θ > 0.05 (vaihtoehtoinen hypoteesi)

Laadunvalvonta p-arvon laskeminen Nollahypoteesin (θ 0.05) pätiessä stokastisen mallin testisuure X 1 noudattaa Bin(200, θ)-jakaumaa, jonka odotusarvo on E[X 1 θ] = 200 θ 10. Testin p-arvo on tn, että nollahypoteesin pätiessä testisuure X 1 saa havaittua dataa (x 1 = 19) vastaavan tai sitä poikkeavamman arvon. Yksinkertaiselle nollahypoteesille (θ = 0.05) p-arvo = Pr(X 1 19 θ = 0.05) = Yhdistetylle nollahypoteesille (θ 0.05) 200 k=19 ( 200 k ) 0.05 k (1 0.05) 200 k Pr(X 1 19 θ 0.05) =? = (ei ole määritelty). Yhdistetylle nollahypoteesille (θ 0.05) määritellään p-arvo = max r 0.05 Pr(X 1 19 θ = r).

... Laadunvalvonta p-arvon laskeminen Bin(n, r)-jakauma on stokastisesti kasvava r:n suhteen = max Pr(X 1 19 θ = r) = Pr(X 1 19 θ = 0.05). r 0.05 Testin p-arvo saadaan Bin(200, 0.05)-jakaumasta: p-arvo = max r 0.05 Pr(X 1 19 θ = r) = Pr(X 1 19 θ = 0.05) = 1 pbinom(18, 200, 0.05) 0.00266. Nollahypoteesin pätiessä on siis tn havaita 200 tuotteen otoksessa 19 tai enemmän viallisia enintään 0.00266. = Nollahypoteesi hylätään 1 % merkitsevyystasolla. = Valmistajan väite (max 5 % tuotteista viallisia) on havaitun datan perusteella virheellinen (merkitsevyystasolla 1 %).

Laadunvalvonta normaaliapproksimaatio Merkitään θ 0 = 0.05, n = 200 ja määritellään testisuure z(x) = ˆθ(x) θ 0 θ 0 (1 θ 0 ) n, ˆθ(x) = x 1 n. Kun ˆθ(x) = 19/200, saadaan testisuureen arvoksi z(x) = 2.91. Suuret testisuuren arvot puoltavat nollahypoteesin H 0 : θ θ 0 hylkäämistä. Normaaliapproksimaatiolla z(x ) N(0, 1) saadaan likimääräinen p-arvo Pr(z(X ) 2.91) Pr(Z 2.91) = 1-pnorm(2.91) = 0.0018. Koska likimääräinen p-arvo alittaa luvun 0.01, nollahypoteesi θ θ 0 hylätään 1 % merkitsevyystasolla. Johtopäätös: Valmistajan väite (max 5 % tuotteista viallisia) on tilastollisesti merkitsevästi virheellinen.

Laadun testaaminen, vaihtoehtoinen lähestymistapa Valmistaja väittää, että sen tuotteista korkeintaan 5 % on viallisia. Asiakas poimii tilaamiensa tuotteiden joukosta 200 tuotteen otoksen ja löytää 19 viallista tuotetta. Onko valmistajan väite oikeutettu? Otoksessa havaittu viallisten osuus on 19 200 = 9.5%. Voidaanko tämä tulkita satunnaisvaihtelun aiheuttamaksi? Lähestytään väitettä vaihtoehtoisella tavalla: estimoimalla havainnoista virheellisten tuotteiden todellista osuutta θ.

Suurimman uskottavuuden estimaattori osuudelle p Kun tuotteet tarkastetaan, havaitaan data x = (x 1,..., x n ). Viallisten lukumäärä otoksessa on fr(x) = n i=1 x i. Tapahtuman (X 1,..., X n ) = (x 1,..., x n ) tn on L(θ; x 1,..., x n ) = Pr(X 1 = x 1,..., X n = x n ) = θ fr(x) (1 θ) n fr(x). Parametrin θ suurimman uskottavuuden estimaattori on se θ:n arvo ˆθ, joka maksimoi uskottavuusfunktion L(θ; x 1,..., x n ) arvon: ( ) ˆθ = argmax L(θ; x 1,..., x n ). θ

Uskottavuusfunktion maksimointi Logaritminen uskottavuusfunktio on l(θ; x 1,..., x n ) = log L(θ; x 1,..., x n ) = fr(x) log θ+(n fr(x)) log(1 θ). Derivaatta θ:n suhteen l (θ) = fr(x) 1 θ + (n fr(x)) ( 1) 1 θ. Maksimi löydetään pisteestä, jossa derivaatta on nolla, eli fr(x) 1 θ = (n fr(x)) 1 1 θ. Tästä ratkaistaan suurimman uskottavuuden estimaatti ˆθ = fr(x) n.

Viallisten osuuden SU-estimaattori Fakta Viallisten osuuden θ SU-estimaatti datasta x = (x 1,..., x n ) on ˆθ(x) = fr(x) n = 1 n n i=1 x i eli viallisten tuotteiden suhteellinen osuus otoksessa. Kun estimaattia katsotaan lukuna ennen datan havaitsemista, saadaan satunnaisluku ˆθ(X ) = fr(x ) n = 1 n n i=1 X i ˆθ(X ) on viallisten tuotteiden osuuden θ SU-estimaattori. ˆθ(X ) on Ber(θ)-jakauman parametrin θ SU-estimaattori.

Suhteeellisen osuuden estimointi SU-estimaattori viallisten tuotteiden (tuntemattomalle) osuudelle θ koko perusjoukossa on ˆθ(X ) = 1 n Tämä estimaattori on harhaton: Lisäksi E(ˆθ(X )) = 1 n Var(ˆθ(X )) = 1 n 2 n X i. i=1 n E(X i ) = θ. i=1 n Var(X i ) = i=1 Normalisoidun satunnaismuuttujan ˆθ(X ) θ θ(1 θ) n odotusarvo on nolla ja varianssi yksi. θ(1 θ). n

Normaalijakaumalla approksimointi Kun n on suuri ja θ ei ole kovin lähellä nollaa tai ykköstä, ˆθ(X ) θ θ(1 θ) n N(0, 1). (approksimatiivisesti) Voidaan myös edelleen approksimoida seuraavasti ˆθ(X ) θ ˆθ(X )(1 ˆθ(X )) N(0, 1). (approksimatiivisesti) n Jos Z N(0, 1), niin ylläolevasta huomaamme, että satunnaismuuttujalle ˆθ = ˆθ(X ) pätee approksimatiivisesti Pr z 0.005 < ˆθ θ ˆθ(1 ˆθ) n < z 0.995 Pr(z 0.005 < Z < z 0.995 ) = 99%, missä z 0.995 = qnorm(0.995) 2.58 ja z 0.005 = qnorm(0.005) 2.58.

Johtopäätös: Väitetty arvo θ 0 = 0.05 kuuluu y.o. luottamusvälille, joten yllä tehdyillä approksimaatiolla valmistajan väitettä ei hylättäisi merkitsevyystasolla 1%. 99 % luottamusväli Satunnaismuuttujalle ˆθ = ˆθ(X ) pätee Pr 2.58 < ˆθ θ ˆθ(1 ˆθ) < 2.58 99%, n eli Pr θ ˆθ(X ) ± 2.58 ˆθ(X )(1 ˆθ(X )) 99%, n Kun havaitaan 19 viallista tuotetta 200:n otoksessa, ˆθ(x) = 9.5% ja satunnainen (approksimatiivinen) luottamustason 99% luottamusväli realisoituu väliksi ˆθ(x)(1 ˆθ(x)) ˆθ(x) ± 2.58 = (0.042, 0.148). n

Ensi viikolla aiheena lineaarinen regressio...

Aineistolähteet Luentokalvot pohjautuvat osittain kurssin edellisten vuosien (Kalle Kytölä, Heikki Seppälä, Lasse Leskelä, Ilkka Mellin, Milla Kibble, Juuso Liesiö) luentokalvoihin.