Satunnaismuuttujien mittausasteikot 93

Samankaltaiset tiedostot
Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen aineisto Luottamusväli

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Estimointi. Vilkkumaa / Kuusinen 1

tilastotieteen kertaus

Testejä suhdeasteikollisille muuttujille

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Testit laatueroasteikollisille muuttujille

031021P Tilastomatematiikka (5 op) viikko 5

Harjoitus 7: NCSS - Tilastollinen analyysi

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Todennäköisyyden ominaisuuksia

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisia peruskäsitteitä ja Monte Carlo

Harjoitus 2: Matlab - Statistical Toolbox

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Hypoteesin testaus Alkeet

Sovellettu todennäköisyyslaskenta B

Parametrin estimointi ja bootstrap-otanta

Teema 8: Parametrien estimointi ja luottamusvälit

Sovellettu todennäköisyyslaskenta B

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

pisteet Frekvenssi frekvenssi Yhteensä

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Mat Sovellettu todennäköisyyslasku A

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Otoskoko 107 kpl. a) 27 b) 2654

dx=5&uilang=fi&lang=fi&lvv=2014

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

9. laskuharjoituskierros, vko 12-13, ratkaisut

HAVAITUT JA ODOTETUT FREKVENSSIT

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

10. laskuharjoituskierros, vko 14, ratkaisut

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

riippumattomia ja noudattavat samaa jakaumaa.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

031021P Tilastomatematiikka (5 op) viikko 4

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

11. laskuharjoituskierros, vko 15, ratkaisut

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

1. Tilastollinen malli??

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tutkimustiedonhallinnan peruskurssi

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Testit järjestysasteikollisille muuttujille

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Luottamusvälit. Normaalijakauma johnkin kohtaan

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Transkriptio:

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Otos 90 Otosta tarvitaan, kun koko perusjoukon tutkiminen on mahdotonta esim. seuraavista syistä: joukko on ääretön tai erittäin suuri kaikkia joukon alkioita ei tunneta tai voida tavoittaa tutkimus/mittaaminen on kallista tai aikaa vievää mittauksen tekeminen voi vahingoittaa tai tuhota tutkimuskohteen. varmennetaan kokeellisesti jotain ilmiötä koskevaa teoriaa

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Otoksen poiminta 91 Otoksen poiminta voi käytännössä tarkoittaa tarkkailevaa havainnointia kokeiden suorittamista mittauksia kyselyjä, haastatteluja tiedon keräämistä valmiista tietokannoista Otokseen perustuva päättely sisältää virhemahdollisuuksia. Päätelmiin liittyvä epävarmuus on pyrittävä ilmaisemaan johtopäätösten yhteydessä (esim. virhemarginaalit).

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Termilogia 92 Perusjoukko, populaatio (Ω) on tutkimuksen kohdejoukko, josta otos poimitaan. Satunnaisotos perusjoukosta Ω on sellainen äärellinen joukko Ω:n alkioita, johon jokaisella perusjoukon alkiolla on etukäteen yhtäsuuri valintatodennäköisyys ja valinnat ovat toisistaan riippumattomia. Otokseen valittuja alkioita a 1,..., a n kutsutaan tilastoyksiköiksi ja n on otoskoko. Otos satunnaismuuttujasta: Yhden muuttujan X arvot otoksessa muodostavat jonon satunnaismuuttujia (X 1, X 2,..., X n ), jotka ovat täydellisesti riippumattomia ja noudattavat samaa jakaumaa. Otoksen realisaatio on sen havaittujen arvojen jono, jota merkitään pienillä kirjaimilla (x 1, x 2,..., x n ).

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Satunnaismuuttujien mittausasteikot 93 Nominaali- eli luokitteluasteikko: luokkien välillä ei järjestystä. Ordinaali- eli järjestysasteikko: luokat voidaan asettaa järjestykseen, mutta luokkien välisiä eroja ei voida vertailla Intervalli- eli välimatka-asteikko: muuttuja-arvot voidaan asettaa järjestykseen ja arvojen erotuksilla on mielekäs tulkinta. Suhdeasteikko: kuten intervalliasteikko, mutta asteikossa absoluuttuinen nollakohta.

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Havaintoaineiston kuvaus 94 Suuren numerojoukon sisältämää informaatiota pyritään tiivistämään olennaisen tutkittavan tiedon esille saamiseksi. Ennen varsinaisten otostunnuslukujen laskemista ja tilastollista päättelyä luokitellaan havainnot (jos ne ovat intervalli- tai suhdeasteikollisia) lasketaan luokkafrekvenssit ym. jakaumaa kuvaavia lukuja taulukoidaan piirretään jakauman pylväsdiagrammi (diskreetit muuttujat) tai histogrammi + frekvenssimonikulmio (jatkuvat muuttujat).. Näin saadaan käsitys arvojen suuruusluokasta ja levinneisyydestä sekä jakauman muodosta

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Otossuure 95 Otossuure on otoksesta laskettu reaaliarvoinen suure. Satunnaismuuttujan T (X 1, X 2,..., X n ) jakaumaa kutsutaan T :n otantajakaumaksi. Otoskeskiarvo: x = x 1 + x 2 +... + x n n = 1 n Otosvarianssi: [ s 2 = 1 n n (x i x) 2 = 1 xi 2 n 1 n 1 i=1 i=1 Otoshajonta: s = s 2 n i=1 x i ] 1 n n ( x i ) 2 i=1

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Luokiteltu aineisto 96 Otoskeskiarvo: x = 1 n k f i y i i=1 Otosvarianssi: s 2 = 1 n 1 [ n i=1 f i y 2 i ] 1 n n ( f i y i ) 2 i=1 Missä k = luokkien lukumäärä, y i =luokkavälin keskikohta, f i = luokkafrekvenssi.

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Empirinen jakauma 97 Keskilukuja Moodi: se havaintoarvo, jolla on suurin frekvenssi (ei välttämättä yksikäsitteinen).. Mediaani: järjestetyn otoksen keskimmäinen havaintoarvo tai kahden keskimmäisen keskiarvo, kun n on parillinen Hajontalukuja Keskipoikkeama: 1 n n x i x i=1 Vaihteluväli: R = x max x min Variaatiokerroin: V = s x

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Empirinen jakauma 98 Hajontalukuja Kvartaalipoikkeama: (Q 3 Q 1 ) n missä alakvartiili Q 1 on arvo, jota pienempiä havaintoja on 25%, yläkvartiili Q 3 on arvo, jota pienempiä havaintoja on 75% (ja suurempia 25%). Kvartiilivälille (Q 1, Q 3 ) jää puolet havainnoista. s Keskiarvon keskivirhe: n

Havaintoainesto: otos Havaintoaineiston kuvaus Otossuureet, otostunnusluvut Outliers: Poikkeavat havainnot 99 Eräs kriteeri poikkeavien havaintojen tunnistamiselle: Olkoon kvartiilivälin pituus (interquartile range) IQR = Q 3 Q 1. Jos x < Q 1 1.5 IQR tai x > Q 3 + 1.5 IQR niin havaintoarvoa x voidaan pitää poikkeavana havaintona.

Piste-estimaatit Luottamusvälit Piste-estimaatit 100 Parametrien estimointi on populaation/otosavaruuden tunnuslukujen arviointia. Parametrin θ estimaattori, merk. ˆθ tai ˆθ(X 1, X 2,..., X n ) on siis satunnaismuuttuja. Hyvä estimaattori on: Harhaton E(ˆθ) = θ Minimivarianssinen D 2 ˆθ tarkentuva lim n P( ˆθ(X 1,..., X n ) θ < ɛ) = 1 kaikilla ɛ > 0.

Piste-estimaatit Luottamusvälit Piste-estimaatit 101 Tavallisimpia estimaattoreita: Odotusarvo: ˆµ = X Varianssi: ˆσ 2 = s 2 Bin(n, p)-jakauman parametri: ˆp = P = X n Exp(λ)-jakauman parametri: ˆλ = 1/X Näistä kolme ensimmäistä ovat harhattomia.

Piste-estimaatit Luottamusvälit Luottamusvälit 102 Estimoitavan parametrin θ (1 α)100%:n luottamusväli on otoksen määräämä väli, jolle parametrin θ todellinen arvo kuuluu todennäköisyydellä 1 α Tavallisimmat tasot: α = 0.05 95%:n luottamusväli α = 0.01 99%:n luottamusväli α = 0.001 99.9%:n luottamusväli

Piste-estimaatit Luottamusvälit Väliestimoinnin periaate 103 Muunnetaan otossuure (estimaattori) sellaiseen muotoon, johon sisältyy estimoitava parametri θ ja jonka jakauma on riippumaton θ:sta (vrt. normeeraus): olkoon tämä T θ (X 1,..., X n ). Otossuureen T θ (X 1,..., X n ) jakaumasta voidaan määrätä rajat (fraktiilit) a ja b siten, että P(a T θ (X 1,..., X n ) b) = 1 α Ja lisäksi P(T θ (X 1,..., X n ) < a) = α 2 P(T θ (X 1,..., X n ) > b) = α 2

Piste-estimaatit Luottamusvälit Väliestimoinnin periaate 104 Epäyhtälöparista a T θ (X 1,..., X n ) b ratkaistaan ylä- ja alaraja parametrille θ: L(X 1,..., X n ) θ U(X 1,..., X n ) Numeeriset rajat saadaan sijoittamalla ylä- ja alarajan lausekkeeseen otoksen realisaatio (x 1,..., x n ). Jos kiinnostuksen kohteena on vain parametrin alaraja TAI yläraja, voidaan vastaavalla tavalla muodostaa toispuoleinen luottamusväli θ:lle P(T θ (X 1,..., X n ) a) = 1 α tai P(T θ (X 1,..., X n ) b) = 1 α

Sokeria pussitetaan kilon paketeihin, mutta keskimääräinen paino ei yleensä ole tasan 1000 g. Tutkimuksessa punnittiin 12 satunnaisesti valittua pussia. Olkoon X pussissa olevan sokerin määrä (g) ja oletaan, että X N(µ, σ 2 ), missä annostelulaitteen aiheuttaman painon hajonnan tiedetään olevan 4.0 g. Estimoidaan aineiston perusteella X :n odotusarvo ja määritetään sen 95%:n luottamusväli (α = 0.05) Havainnot (g): 1004, 998, 1005, 1001, 999, 997, 1008, 1010, 1003, 1005, 1002, 998 Piste-estimaatti: ˆµ = x = 1002.5 g, n = 12, σ = 4.0 g Koska X i N(µ, σ 2 ), niin X N(µ, σ 2 /n), joten 95%:n varmuudella Z = X µ σ/ n N(0, 1) z 0.975 Z z 0.975

z 0.975 X µ σ/ n z 0.975 z 0.975 σ/ n X µ z 0.975 σ/ n X z 0.975 σ/ n µ X + z 0.975 σ/ n X z 0.975 σ/ n µ X + z 0.975 σ/ n Sijoittamalla tähän saadut arvot ja taulukosta z 0.975 = 1.96, saadaan odotusarvon 95%:n luottamusväliksi 1002.5 1.96 4/ 12 µ 1002.5 + 1.96 4/ 12 1002.5 2.26 µ 1002.5 + 2.26 1000.24 µ 1004.76 µ = 1002.5 ± 2.26

Piste-estimaatit Luottamusvälit Odotusarvon luottamusväli 107 Varianssi tunnetaan Oletukset: X i N(µ, σ 2 ), i = 1,..., n, missä σ 2 tunnettu TAI otoskoko n suuri (n 50), jolloin σ 2 = s 2. Piste-estimaatti: ˆµ = x Otossuure: Z = x µ σ/ N(0, 1) n Otossuuren (1 α)100%: luottamusväli: z 1 α/2 x µ σ/ n z 1 α/2 Odostusarvon (1 α)100%: luottamusväli: x z 1 α/2 σ/ n µ x + z 1 α/2 σ/ n eli µ = x ± z 1 α/2 σ/ n

Piste-estimaatit Luottamusvälit Odotusarvon luottamusväli 108 Varianssi tuntematon Oletukset: X i N(µ, σ 2 ), i = 1,..., n, missä otoskoko pieni ja σ 2 tuntematon. Piste-estimaatti: ˆµ = x Otossuure: T = x µ s/ t(n 1) n Otossuuren (1 α)100%: luottamusväli: t 1 α/2 (n 1) x µ s/ n t 1 α/2(n 1) Odostusarvon (1 α)100%: luottamusväli: x t 1 α/2 (n 1)s/ n µ x + t 1 α/2 (n 1)s/ n eli µ = x ± t 1 α/2 (n 1)s/ n

Fyysikko määritti kastepistehygrometrin avulla ilman absoluuttisen kosteuden ( g/m 3) neljä kertaa ja sai tulokset 12.8, 12.7, 12.8, 12.9. Määrää kosteuden odotusarvon 95%:n luottamusväli, kun määritystulos oletetaan normaalijakautuneeksi. Oletus: Kosteusmäärityksen tulos x N ( µ, σ 2) µ = x = 1 4 (12.8 + 12.7 + 12.8 + 12.9) = 12.8 s 2 = 1 n 1 (xi x) 2 = 1 ( 3 0 2 + ( 0.1) 2 + 0 2 + 0.1 2) = 0.00666666 Hajonta tuntematon: Luottamusväli perustuu otossuureeseen T = x µ s/ t (n 1) n 95%:n luottamusväli odotusarvolle on µ = x ± t 1 α/2 (n 1) s/ n Sijoitetaan estimaatit ja t 1 α/2 (n 1) = t 0.975 (3) = 3.18 µ = 12.8 ± 3.18 0.00666666/4 = 12.8 ± 0.13

Piste-estimaatit Luottamusvälit Suhteellisen osuuden luottamusväli 110 Oletukset: X Bin(n, p), missä n suuri Piste-estimaatti: ˆp = x/n Otossuure: Z = ˆp p p(1 p) n N(0, 1) Otossuuren (1 α)100%: luottamusväli: z 1 α/2 ˆp p p(1 p) n z 1 α/2 Suhteellisen osuuden (1 α)100%: luottamusväli: ˆp z 1 α/2 ˆp(1 ˆp) n p ˆp + z 1 α/2 ˆp(1 ˆp) n

Haastateltiin 200 satunnaista henkilöä, joilta kysyttiin kantaa pyöräilykypärän käyttöpakkoon. Haastatelluista 118 kannatti kypäräpakkoa. Laske 95% luottamusväli kannatusosuudelle koko väestössä. n=200, x=118 ˆp = x n = 0, 59 kannatusosuus otoksessa n suuri ja nˆp(1 ˆp) > 9, joten voidaan käyttää normaalijakaumaa Z = N(0, 1) ˆp p ˆp(1 ˆp) n 95% luottamusväli (α = 0, 05) ˆp(1 ˆp) ˆp(1 ˆp) ˆp Z 0,975 n p ˆp + Z 0,975 n ˆp(1 ˆp) p = ˆp ± Z 0,975 n Sijoitetaan p = 0, 59 ± 1, 96 = 0, 59 ± 0, 07 % eli 59 ± 7 % 0,59 0,41 200

Piste-estimaatit Luottamusvälit Varianssin luottamusväli 112 Oletukset: X i N(µ, σ 2 ), i = 1,..., n, missä n suuri Piste-estimaatti: ˆσ2 = s 2 Otossuure: χ 2 (n 1)s2 = σ 2 χ 2 (n 1) Otossuuren (1 α)100%: luottamusväli: χ 2 (n 1)s2 α/2 (n 1) σ 2 χ 2 1 α/2 (n 1) Varianssin (1 α)100%: luottamusväli: (n 1)s 2 χ 2 1 α/2 (n 1) σ2 (n 1)s2 (n 1) χ 2 α/2

Kartongin tuotannon laadunvalvonnassa saatiin neliöpainon hajonnaksi 25 mittauksen otoksessa 0, 93g/m 2. Neliöpaino noudattaa normaalijakaumaa N(µ,σ 2 ). Mitä arvoa pienempi neliöpainon hajonta σ on 95%:n varmuudella kyseisen otoksen perusteella? χ 2 = (n 1)s2 σ 2 χ 2 (n 1) P(χ 2 χ 2 α(n 1)) = 1 α P( (n 1)s2 χ 2 σ α(n 1)) = 1 α 2 P(σ 2 (n 1)s2 χ 2 (n 1)) = 1 α α (n 1)s 2 P(σ ) = 1 α χ 2 α (n 1) Hajonta on (1 α)100%:n varmuudella pienempi kuin Tehtävä Otos n=25, s=0,93, α = 0, 05, xα(n 2 1) = x0,05 2 (24) = 13, 85 95%:n varmuudella σ 24 0,93 13,85 = 1, 22 n 1s x 2 α (n 1)

Piste-estimaatit Luottamusvälit Odotusarvojen erotuksen luottamusväli 114 Varianssit tunnetaan Oletukset: Kaksi perusjoukko, joissa riippumattomat otokset kokoa n 1 ja n 2 satunnaismuuttujista X 1 N(µ 1, σ1 2), X 2 N(µ 2, σ2 2 ). Varianssit tunnetaan tai otoskoot suuria Estimoitava: µ 1 µ 2 Piste-estimaatti: x 1 x 2 Otossuure: Z = x 1 x 2 (µ 1 µ 2 ) N(0, 1) σ 2 1 n 1 + σ2 2 n 2 Odotusarvojen erotuksen (1 α)100%: luottamusväli: µ 1 µ 2 = x 1 x 2 ± z 1 α/2 σ 2 1 n 1 + σ2 2 n 2

Piste-estimaatit Luottamusvälit Odotusarvojen erotuksen luottamusväli 115 Varianssit tuntemattomia Oletukset: Kaksi perusjoukko, joissa riippumattomat (pienet) otokset kokoa n 1 ja n 2 satunnaismuuttujista X 1 N(µ 1, σ1 2), X 2 N(µ 2, σ2 2 ). Varianssit tuntemattomia, mutta yhtäsuuria σ1 2 = σ2 2 Estimoitava: µ 1 µ 2 Piste-estimaatti: x 1 x 2 Otossuure: T = x 1 x 2 (µ 1 µ 2 ) T (n 1 + n 2 2) s 1 p n 1 + 1 n 2 missä yhdistetty otosvarianssi s 2 p = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2

Piste-estimaatit Luottamusvälit Odotusarvojen erotuksen luottamusväli 116 Varianssit tuntemattomia Odotusarvojen erotuksen (1 α)100%: luottamusväli: µ 1 µ 2 = x 1 x 2 ± t 1 α/2 (n 1 + n 2 2)s p 1 n 1 + 1 n 2

Vertailtiin kahden tietokoneen laskentanopeuksia, jotka voidaan olettaa normaalijakautuneiksi (varianssit yhtäsuuret). Testiohjelma ajettiin 10 kertaa molemmissa koneissa ja laskettiin suoritusaikojen keskiarvot ja hajonnat: x 1 = 5.1 x 2 = 4.8 s 1 = 1.2 s 2 = 0.9 Muodosta 95%:n luottamusväli laskenta-aikojen odotusarvojen erotukselle. Laskentanopeudet testiohjelmalle X 1 N(µ 1, σ 2 1 ), X 2 N(µ 2, σ 2 2 ) σ2 1 = σ2 2 T = x 1 x 2 (µ 1 µ 2 ) s p 1 n 1 + 1 n 2 t(n 1 + n 2 2) 95%:n luottamusväli: T ± t 0.975 (n 1 + n 2 2)

µ 1 µ 2 = x 1 x 2 ± t 0.975 (n 1 + n 2 2)s p 1 n 1 + 1 n 2 x 1 = 5.1 x 2 = 4.8 s 1 = 1.2 s 2 = 0.9 n 1 = 10 n 2 = 10 Yhdistetty otosvarianssi: s 2 p = (n 1 1)s 2 1 +(n 2 1)s 2 2 n 1 +n 2 2 = 9 1.22 +9 0.9 2 18 = 1.125 t 0.975 (n 1 + n 2 2) = t 0.975 (18) = 2.10 95%:n luottamusväliksi: µ 1 µ 2 = 5.1 4.8 ± 2.10 1.125( 1 10 + 1 10 ) }{{} 0.9961 0.30 1.00 µ 1 µ 2 0.30 + 1.00 0.70 µ 1 µ 2 1.30

Piste-estimaatit Luottamusvälit Varianssisuhteen luottamusväli 119 Oletukset: Estimoitava: σ 2 1 /σ2 2 Kaksi perusjoukko, joissa riippumattomat otokset kokoa n 1 ja n 2 satunnaismuuttujista X 1 N(µ 1, σ 2 1 ), X 2 N(µ 2, σ 2 2 ). Otossuure: F = s2 1 /σ2 1 s2 2 F (n 1 1, n 2 1) /σ2 2 Varianssisuhteen (1 α)100%: luottamusväli: 1 F 1 α/2 (n 1 1, n 2 1) s1 2 s2 2 σ2 1 σ 2 2 F 1 α/2 (n 1 1, n 2 1) s2 1 s 2 2 Huom! 1 F 1 α/2 (n 2 1, n 1 1) = F α/2(n 1 1, n 2 1)

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Testauksen vaiheet 120 1. Hypoteesin asettelu 2. Riskitason valinta 3. Testisuureen valinta ja hylkäysehdon määrittäminen 4. Havaintoaineiston kerääminen ja testisuureen arvon laskenta 5. Johtopäätöksen tekeminen

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Hypoteesin asettelu 121 Tilastollisessa testauksessa asetetaan kaksi vaihtoehtoista hypoteesia: H 0 nollahypoteesi H 1 vastahypoteesi, vaihtoehtoinen hypoteesi Hypoteesien ero: Vastahypoteesi kuvaa yleensä poikkeamaa totutusta tilanteesta, vaikutusta, eroa, muutosta. Usein se asia, jota tutkija yrittää todistaa. Nollahypoteesi kuvaa vallitsevaa tilannetta, tai väittää ettei todellista vaikutusta, eroa tai muutosta ole. Nollahypoteesi pysyy voimassa, ellei sitä vastaan saada riittäviä todisteita.

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Riskitason valinta 122 Perinteisessä testauksessa johtopäätös, joka perustuu havaintoaineistoon, ilmoitetaan muodossa "H 0 hylätään"tai "H 0 jää voimaan". Testauksessa voidaan tehdä väärä johtopäätös kahdella tavalla: 1. H 0 hylätään, vaikka se on tosi. 2. H 0 hyväksytään, vaikka se ei ole tosi. Riskitaso α = todennäköisyys, että H 0 hylätään, vaikka se on tosi Testin voimakkuus kuvaa testin kykyä erottaa todellinen poikkeama satunnaisvaihtelusta. Testin voimakkuus riippuu yleisesti testattavan parametrin todellisesta arvosta,

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Testisuuren valinta 123 Testisuure, merk. yleisesti T (X 1, X 2,..., X n ), on otossuure, jonka perusteella voidaan tehdä johtopäätös siitä, kumpi hypoteesi on uskottavampi. Testisuure perustuu yleensä testattavan parametrin harhattomaan estimaattoriin ja sen jakauma täytyy tuntea nollahypoteesin vallitessa.

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Hylkäysehdon määrittäminen 124 Testisuureen mahdolliset arvot jaetaan tietyin kriteerein kahteen toisensa poissulkevaan joukkoon: nollahypoteesin hyväksymisalueeseen (merk. S 0 ) ja hylkäysalueseen (merk. S 1 ). Jos testisuureen arvo kuuluu alueeseen S 0, H 0 jää voimaan Jos testisuureen arvo kuuluu alueeseen S 1, H 0 hylätään. Määrätään hylkäysalueen raja tai rajat eli kriittinen arvo tai kriittiset arvot siten, että nollahypoteesin vallitessa testisuure kuuluu hylkäysalueelle (korkeintaan) todennäköisyydellä α.

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Havaintoaineiston kerääminen ja testisuureen arvon laskenta 125 Havaintoaineiston keräämiseen liittyvät otannan ja kokeiden suunnittelu, otoksen poiminta ja mittausten suorittaminen. Näitä käsittelevät tilastotieteen erikoisalueet koesuunnittelu ja otantateoria. Havainnoista eli otoksesta lasketaan valitun testisuureen arvo.

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Johtopäätöksen tekeminen 126 Tarkistetaan hylkäysehto vertaamalla testisuureen laskettua arvoa kriittiseen arvoon (tai arvoihin). Tilastollisena johtopäätöksenä joko "H 0 hylätään"tai "H 0 jää voimaan"(eli "H 0 hyväksytään") riskitasolla α. Muodollisesti Jos T (x 1, x 2,..., x n ) S 0, H 0 jää voimaan Jos T (x 1, x 2,..., x n ) S 1, H 0 hylätään.

Oletetaan, että sokerin pussituslaite on säädetty annostelemaan pussiin keskimäärin 1001 g sokeria, mutta epäillään keskiarvon kasvaneen. Laite on siinä tapauksessa säädettävä uudelleen, jotta raaka-ainekulut pysyisivät minimaalisina. Sokeripussien keskipainoksi saatiin n = 12 pussin otoksessa x = 1002.5 g. Painon keskihajonnan tiedetään olevan 4 g. Paino X N(µ, σ 2 ), missä σ = 4 g. Testataan hypoteeseja H 0 : µ = 1001 g H 1 : µ > 1001 g Kriittinen arvo tasolla = 0.05 saadaan N(0, 1)-jakauman taulukosta standardoidulle arvolle z = x µ 0 σ/ n missä µ 0 = 1001 on H 0 -hypoteesin väittämä arvo Hylkäysehto: Hylkää H 0, jos z > z 0.95

Testisuureen arvoksi saadaan z = x µ 0 σ/ n = 1002.5 1001 4/ 12 = 1.299 Kriittinen arvo tasolla α = 0.05 on z 0.95 = 1.6449. Johtopäätös: Koska z < z 0.95, niin H 0 jää voimaan. Keskipainon ei siis voida katsoa kasvaneen tilastollisesti merkitsevästi, vaan havaittua poikkeamaa voidaan pitää normaaliin satunnaisvaihteluun kuuluvana. Pussituslaitetta ei siis tarvitse säätää.

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Testisuureen P-arvo 129 P-arvo on todennäköisyys saada lasketun testisuureen suuruinen tai sitä suurempi poikkeama nollahypoteesin väittämästä arvosta, jos H 0 on tosi. P-arvo mittaa nollahypoteesin uskottavuutta: mitä pienempi testisuureen P-arvo, sitä vahvempi tuki vastahypoteesille! Jos tutkimuksen tekijä käyttää perinteistä testausta ja valitsee riskitason α etukäteen, johtopäätös tehdään seuraavasti. Tämä pätee kaikissa testeissä: Jos P < α, H 0 hylätään Jos P α, H 0 jää voimaan

Lasketaan P-arvo sokerin pussituslaiteen keskiarvolle. Testisuureen z = 1.299 P-arvo on P = P(Z > 1.299) = 1 Φ(1.299) = 0.097 Jos riskitasoksi on valittu α = 0.05, niin H 0 jää voimaan

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Odotusarvon testaus, varianssi tunnetaan: 131 Oletukset: X i N(µ, σ 2 ), i = 1,..., n, missä σ 2 tunnettu TAI n suuri (n 50) jolloin s 2 = σ 2. Hypoteesit: Tapaus 1: Tapaus 2: Tapaus 3: H 0 : µ = µ 0 H 0 : µ = µ 0 H 0 : µ = µ 0 H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0 Otossuure: Z = X µ 0 σ/ n Testisuureen Jakauma : Z N(0, 1), kun µ = µ 0

Nollahypoteesin hylkäysehto eri tapauksissa Tapaus 1: z > z 1 α/2 P( Z > z ) = 2[1 Φ( z )] Tapaus 2:z > z 1 α P(Z > z) = 1 Φ(z) Tapaus 3:z < z 1 α P(Z < z) = Φ(z)

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Odotusarvon testaus, varianssi tuntematon: 133 Oletukset: X i N(µ, σ 2 ), i = 1,..., n, otos pieni ja σ 2 tuntematon. Hypoteesit: Tapaus 1: Tapaus 2: Tapaus 3: H 0 : µ = µ 0 H 0 : µ = µ 0 H 0 : µ = µ 0 H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0 Otossuure: T = X µ 0 s/ n Testisuureen Jakauma : T t(n 1), kun µ = µ 0

Nollahypoteesin hylkäysehto eri tapauksissa Tapaus 1: t > t 1 α/2 (n 1) P = P(T > t ) = P(T > t ) + P(T < t ) Tapaus 2:t > t 1 α (n 1) P = P(T > t) Tapaus 3:t < t 1 α (n 1) P = P(T < t)

Generaattoreita valmistava tehdas ilmoittaa laitteen ulostulojännitteeksi 120 V. Mittaamalla saatiin 20:n suuruisesta otoksesta keskiarvoksi x = 118.6 ja keskihajonnaksi s = 2.1. Voidaanko valmistajan ilmoituksen katsoa pitävän paikkaansa? Suorita kaksisuuntainen testaus riskitasolla α = 0.01. Olkoon X N(µ, σ 2 ) jännitearvo H 0 : µ = 120 H 1 : µ 120 Otos : n = 20, x = 118.6, s = 2.1 Pieni otos, hajonta tuntematon testisuure T = x µ 0 s/ n t(n 1) H 0 hylätään riskitasolla α = 0.01, jos T > t 1 α/2 (n 1) = t 0,995 (19) = 2.86 Testisuureen arvo T = 118,6 120 2,1/ 20 = 2.98 Koska T > 2.86, H 0 hylätään: µ 120V

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Suhteellisen osuuden testaus, Suuri otos: 136 Oletukset: Hypoteesit: Kokoa n oleva otos (suuresta tai äärettömästä) perusjoukosta, jossa tutkittavan ominaisuuden/ tapahtuman suhteellinen osuus on p. Esiintymiskertojen määrä otoksessa: X Bin(n, p). Otoskoko n niin suuri, että normaalijakauma-approksimaatiota voi käyttää. Tapaus 1: Tapaus 2: Tapaus 3: H 0 : p = p 0 H 0 : p = p 0 H 0 : p = p 0 H 1 : p p 0 H 1 : p > p 0 H 1 : p < p 0 Otossuure: Z = ˆp p 0 p 0 (1 p 0 ) n N(0, 1) missä ˆp = x/n on tutkittavan tapahtuman suhteellinen osuus otoksessa.

Nollahypoteesin hylkäysehto eri tapauksissa Tapaus 1: z > z 1 α/2 P( Z > z ) = 2[1 Φ( z )] Tapaus 2:z > z 1 α P(Z > z) = 1 Φ(z) Tapaus 3:z < z 1 α P(Z < z) = Φ(z)

Erään aikakausilehden järjestämään yleisökilpailuun osallistuneista oli puolet lehden tilaajia. Yhteensä sadasta palkinnosta 58 meni lehden tilaajille ja vain 43 muille. Voidaanko tästä vetää johtopäätös, että arvonnasaa suosittiin lehden tilaajia vai oliko kaikilla sama mahdollisuus voittoon? X = tilaajien määrä voittajien joukossa X Bin(100, p) missä p = tilaajien osuus voitosta H 0 : p = 0, 5 H 1 : p > 0, 5 Otos : n = 100, ˆp = x/n = 58/100 = 0, 58 Testisuure ˆp P z = 0 N(0, 1), koska, n suuri ja, np (P0 0(1 P 0 ) > 9 (1 P 0 )/n z = 0,58 0,5 (0,5 0,5)/100 = 1, 60 H 0 hylätään riskillä α, jos Z > z 1 α α = 0, 05, z 1 α = z 0,95 = 1, 645 H 0 hyväksytään α = 0, 01, z 1 α = z 0,99 = 2, 33 H 0 hyväksytään

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Suhteellisen osuuden testaus, pieni otos: 139 Hypoteesit kuten edellä, nyt testisuureena X Bin(n, p), jonka arvo on otoksessa x. Nollahypoteesin hylkäysehto eri tapauksissa x ( ) n Tapaus 1: P(X x) = p0 k (1 p 0 ) n k < α/2 tai k P(X x) = n k=x Tapaus 2: P(X x) = Tapaus 3:P(X x) = k=0 ( ) n p0 k (1 p 0 ) n k < α/2 k n ( n k=x x k=0 k ) p k 0 (1 p 0 ) n k < α ( ) n p0 k (1 p 0 ) n k < α k

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Varianssitesti 140 Oletukset: X i N(µ, σ 2 ), i = 1,..., n Hypoteesit: Tapaus 1: Tapaus 2: Tapaus 3: H 0 : σ 2 = σ0 2 H 0 : σ 2 = σ0 2 H 0 : σ 2 = σ0 2 H 1 : σ 2 σ0 2 H 1 : σ 2 > σ0 2 H 1 : σ 2 < σ0 2 Otossuure: χ 2 = (n 1)s2 σ 2 0 χ 2 (n 1), kun σ = σ 0

Nollahypoteesin hylkäysehto eri tapauksissa Tapaus 1: χ 2 < χ 2 α/2 (n 1) tai χ 2 > χ 2 1 α/2 (n 1) Tapaus 2:χ 2 > χ 2 1 α (n 1) Tapaus 3:χ 2 < χ 2 α(n 1)

Tutkittiin robottikäden tarkkuutta mittaamalla sen kosketuskohdan etäisyys tarkoitetusta kosketuspisteestä. Etäisyyden otoshajonnaksi saatiin 25 mittauksesta s=0.92 mm. Testaa riskitasoa α = 0.05 käyttäen hypoteesit H 0 : σ 0.80 H 1 : σ > 0.80 Olkoon että etäisyys kosketuskohdasta X N(µ, σ 2 ) H 0 : σ 0.8 H 1 : σ > 0.8 Testisuure χ 2 = (n 1)s2 σ 2 0 Otos n=25 s=92 χ 2 = 24 0,922 0,8 2 = 31.74 χ 2 (n 1) H 0 hylätään riskitasolla α = 0.05, jos χ 2 > χ 2 1 α (n 1) = χ2 0,95 (24) = 36.42 Hylkäysehto ei ole voimassa H 0 jää voimaan

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Odotusarvojen vertailu, varianssi tunnetaan: 143 Oletukset: Hypoteesit: Otossuure: Kaksi perusjoukkoa, joissa riippumattomat otokset kokoa n 1 ja n 2 satunnaismuuttujista X 1 N(µ 1, σ1 2) ja X 2 N(µ 2, σ2 2 ). Varianssit tunnetaan tai otoskoot suuria Tapaus 1: Tapaus 2: H 0 : µ 1 µ 2 = d H 0 : µ 1 µ 2 d H 1 : µ 1 µ 2 d H 1 : µ 1 µ 2 > d Tapaus 3: H 0 : µ 1 µ 2 d H 1 : µ 1 µ 2 < d Z = x 1 x 2 d N(0, 1) kun µ σ 2 1 µ 2 = d 1 n 1 + σ2 2 n 2

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Odotusarvojen vertailu, varianssit tuntemattomia: 144 Oletukset: Hypoteesit: Otossuure: Kaksi perusjoukkoa, joissa riippumattomat (pienet) otokset kokoa n 1 ja n 2 satunnaismuuttujista X 1 N(µ 1, σ1 2) ja X 2 N(µ 2, σ2 2 ). Varianssit tuntemattomia, mutta yhtäsuuria σ1 2 = σ2 2 Kuten edellä T = x 1 x 2 d 1 s p + 1 t(n 1 + n 2 2) kun µ 1 µ 2 = d n 1 n 2 missä s 2 p = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2

Vertailtiin kahta paperin puhkaisumittaria, jota varten poimittiin sattumanvaraisesti 40 näytettä samasta paperilaadusta ja mitattiin kummallakin mittarilla 20 näytettä. Tulokset olivat: n 1 = 20 n 2 = 20 x 1 = 58.0 m 2 x 2 = 55.6 m 2 = 4.0 m4 s = 3.8 m4 s 2 1 Tutkitaan, antavatko mittarit keskimäärin samanlaisia tuloksia: 2 2 H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Riskitaso α = 0.05 Koska varianssit ovat tuntemattomia mutta yhtäsuuria ja otokset pieniä, käytetään t-testiä s 2 p = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2 = 19 4.0 + 19 3.8 38 = 3.9

t = x 1 x 2 s p 1 n 1 + 1 n 2 = 58.0 55.6 3.9 ( 1 20 + 1 ) = 3.84 20 H 0 hylätään, jos t > t 1 α/2 (n 1 + n 2 2) = t 0.975 (38) 2.02 Johtopäätös: H 0 hylätään, mittareilla on systemaattista eroa.

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Varianssien vertailu 147 Oletukset: Hypoteesit: Kaksi perusjoukkoa, joissa riippumattomat otokset kokoa n 1 ja n 2 satunnaismuuttujista X 1 N(µ 1, σ 2 1 ) ja X 2 N(µ 2, σ 2 2 ). Tapaus 1: Tapaus 2: Tapaus 3: H 0 : σ1 2 = σ2 2 H 0 : σ1 2 = σ2 2 H 0 : σ1 2 = σ2 2 H 1 : σ1 2 σ2 2 H 1 : σ1 2 > σ2 2 H 1 : σ1 2 < σ2 2 Otossuure: F = s2 1 s 2 2 F (n 1 1, n 2 1), kun σ 2 1 = σ2 2

Nollahypoteesin hylkäysehto eri tapauksissa Tapaus 1: F < 1/F 1 α/2 (n 2 1, n 1 1) tai F > F 1 α/2 (n 1 1, n 2 1) Tapaus 2:F > F 1 α (n 1 1, n 2 1) Tapaus 3:F < 1/F 1 α (n 2 1, n 1 1)

Vertailtiin kahta paperin puhkaisumittaria, jota varten poimittiin sattumanvaraisesti 40 näytettä samasta paperilaadusta ja mitattiin kummallakin mittarilla 20 näytettä. Tulokset olivat: n 1 = 20 n 2 = 20 x 1 = 58.0 m 2 x 2 = 55.6 m 2 = 4.0 m4 s = 3.8 m4 s 2 1 Testataan menetelmien varianssien yhtäsuuruus: 2 2 H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 σ2 2 Riskitaso α = 0.05 Testisuure: F = s1 2/s2 2 F (19, 19) H 0 hylätään, jos F < F 0.025 (19, 19) tai F > F 0.975 (19, 19) Testisuureen arvo on F = 4.0/3.8 = 1.05 Kriittiset arvot ovat F 0.025 (19, 19) = 1/F 0.975 (19, 19) = 1/2.5 = 0.4 ja F 0.975 (19, 19) = 2.5 H 0 jää voimaan

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä Odotusarvojen vertailu, parittaiset havainnot: 150 Oletukset: Hypoteesit: Muuttujien X N(µ 1, σ 2 1 ) ja Y N(µ 2, σ 2 2 ) arvo. mitataan n:stä tilastoyksiköistä, riippumattomana otoksena havaintoparit (x i, y i ), i = 1,..., n. Tapaus 1: Tapaus 2: Tapaus 3: H 0 : µ 1 = µ 2 H 0 : µ 1 µ 2 H 0 : µ 1 µ 2 H 1 : µ 1 µ 2 H 1 : µ 1 > µ 2 H 1 : µ 1 > µ 2 Satunnaismuuttuja D i = X i Y i N(µ D, σd 2 ), missä µ D = µ 1 µ 2. Testaus palautuu yhden otoksen odotusarvotestiin. Otossuure: T = d s d / t(n 1) n missä d on erotusten otoskeskiarvo ja s d erotusten otoshajonta.

Malmin rautapitoisuus määritettiin kahdeksasta malminäytteestä, kustakin kahdella eri menetelmällä. Antavatko menetelmät samanlaisia tuloksia? Men. 1 38.25 31.68 26.24 41.29 44.81 46.37 35.42 38.41 Men. 2 38.27 31.71 26.22 41.33 44.80 46.39 35.46 38.39 Ero d i 0.02 0.03 0.02 0.04 0.01 0.02 0.04 0.02 Kaksisuuntainen testi, H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2 Valitaan riskitasoksi α = 0.05 H 0 hylätään, jos t > t 1 α/2 (n 1) = t 0.975 (7) = 2.65 Testisuureen arvo t = n = 8, d = 0.0125, s 2 d = 0.00065 d s d / n = 0.0125 0.00065/8 = 1.387 H 0 jää voimaan: menetelmät antavat samanlaisia tuloksia

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä χ 2 -yhteensopivuustesti: 152 Seuraavassa tutkitaan tilastollisesti, noudattaako satunnaismuuttuja X annettua jakaumaa, jota tässä merkitään symbolisesti γ:lla. Jakauma voi olla diskreetti tai jatkuva. Hypoteesit: H 0 : X noudattaa jakaumaa γ H 1 : X ei noudata jakaumaa γ

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä χ 2 -yhteensopivuustesti: 153 1) Diskreetti satunnaismuuttuja Oletetaan että satunnaismuuttujalla X on äärellinen, diskreetti jakauma ja sen mahdolliset arvot ovat x 1,..., x k todennäköisyyksin p 1,..., p k, ts. P(X = x i ) = p i, i = 1,..., k Luvut p i ovat tuntemattomia. Olkoot tunnetun jakauman γ mukaiset eri arvojen todennäköisyydet π i i = 1,..., k. Havaintoaineisto: n:n suuruinen otos satunnaismuuttujasta X, josta arvoja x i havaitaan f i kpl. Näitä kutsutaan havaituiksi frekvensseiksi ja f i = n

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä χ 2 -yhteensopivuustesti: 154 Testin periaate: verrataan havaittuja frekvenssejä f i jakauman γ mukaisiin odotettuihin frekvensseihin e i, jotka ovat e i = nπ i Hypoteesit: H 0 : p i = π i kaikilla i = 1,..., k H 1 : p i π i ainakin joillakin i k Testisuure: χ 2 (f i e i ) 2 =, missä e i = nπ i Jakauma: i=1 e i Kun H 0 on voimassa χ 2 χ 2 (k 1) asymptoottisesti.

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä χ 2 -yhteensopivuustesti: 155 Hylkäysehto: Jakaumahypoteesi H 0 hylätään riskitasolla α, jos χ 2 > χ 2 1 α (k 1) Testin käytön edelletykset: 1) havainnot riippumattomat 2) n 50 3) kaikki odotetut frekvenssit e i 2 4) korkeintaan 20% odotetuista frekvensseistä < 5 Ääretön diskreetti jakauma: Havaitut satunnaismuuttujan arvot kuuluvat aina jollekin äärelliselle välille.

Olkoon X tietokoneen toimintahäiriöiden lukumäärä päivässä. Tutkitaan noudattaako X Poisson-jakaumaa. Havainnot H 0 : H 1 : X noudattaa Poisson-jakaumaa X ei noudata Poisson-jakaumaa x i 0 1 2 3 4 5 f i 24 28 28 16 3 1 n = f i = 100 Poisson(λ)-jakauman parametri on jakauman odotusarvo λ = EX. Sen estimaatti on otoskeskiarvo k ˆλ = x = 1 n f i x i = (24 0+18 1+28 2+16 3+3 41 5)/100 = 1.5 i=1 Poisson(1.5)-jakauman mukaiset todennäköisyydet: x i 0 1 2 3 4 5 π i.223.335.251.125.047.019

Odotetut frekvenssit e i = nπ i : x i 0 1 2 3 4 5 e i 22.3 33.5 25.1 12.5 4.7 1.9 Testin käytön edellytykset 3 ja 4 eivät ole voimassa, joten yhdistetään kaksi viimeistä luokkaa, jolloin saadaan frekvenssit: Testisuureen arvo χ 2 = x i 0 1 2 3 4 f i 24 28 28 16 4 e i 22.3 33.5 25.1 12.5 6.6 (24 22.3)2 22.3 +... + (4 6.6)2 6.6 = 3.37 Koska estimoitiin l = 1 parametri ja lopullinen luokkien lukumäärä k = 5, on testisuureen jakauma χ 2 (k 1 l) = χ 2 (3) Valitaan α = 0.05 χ 2 0.95 (3) = 7.81 H 0 jää voimaan

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä χ 2 -yhteensopivuustesti: 158 2) Jatkuva satunnaismuuttuja Testataan, noudattaako jatkuva satunnaismuuttuja X jakaumaa, jonka kertymä funktio olkoon F. Ennen testisuureen arvon laskemista satunnaismuuttujan arvojoukko luokitellaan eli jaetaan äärelliseksi määräksi osavälejä: E 1 = (c 0, c 1 ] E 2 = (c 1, c 2 ]. E k = (c k 1, c k ] Testisuureen laskenta suoritetaan samalla tavalla kuin diskreetissä tapauksessa.

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä χ 2 -riippumattomuustesti: 159 Tutkitaan ovatko kaksi luokittelutasoista satunnaismuuttujaa X ja Y välillä riippuvuutta. Riippuvuus käsitetään tässä mahdollisimman yleisesti: se voi merkitä mitä tahansa yhteyttä ominaisuuksien X ja Y välillä, ei välttämättä suoraa vuorovaikutusta tai syy-seuraussuhdetta. Havaintoaineisto annetaan kontingenssitaulukkona, joka saadaan ristiintaulukoimalla kaksi muuttujaa X ja Y.

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä χ 2 -riippumattomuustesti: 160 F 1 F 2... F m E 1 n 11 n 12... n 1m r 1 E 2 n 21 n 22... n 2m r 2........ E k n k1 n k2... n km r k c1 c 2... c m n Missä E i,..., E k ovat muuttujan X luokat ja F i,..., F m muuttujan Y luokat n ij on niiden havaintojen (x, y) lukumäärä, joilla x E i, y F j

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä χ 2 -riippumattomuustesti: 161 Hypoteesi: tai H 0 : X ja Y riippumattomat H 1 : X :n ja Y :n välillä on riippuvuutta H 0 : Y :n vaakarivijakaumat samanlaisia X :n eri luokissa H 1 : Y :n vaakarivijakaumissa eroa tai H0: X :n pystyrivijakaumat samanlaisia Y :n eri luokissa H1: X :n pystyrivijakaumissa eroa. k m Testisuure: χ 2 (n ij e ij ) 2 = missä e ij = r i c j n i=1 j=1 Jakauma: Kun H 0 on voimassa χ 2 χ 2 ((k 1)(m 1)) asymptoottisesti. e ij

Testauksen periaatteet ja peruskäsitteet Parametrien testaus Ei-parametrisiä testejä χ 2 -riippumattomuustesti: 162 Hylkäysehto: Jakaumahypoteesi H 0 hylätään riskitasolla α, jos χ 2 > χ 2 1 α ((k 1)(m 1)) Testin käytön edelletykset: 1) havainnot riippumattomat 2) n 50 3) kaikki odotetut frekvenssit e i 2 4) korkeintaan 20% odotetuista frekvensseistä < 5

Tutkitaan tupakoiniin harrastamista tyttöjen ja poikien keskuudesssa, kun haastattelemalla 40 tyttöä ja 60 poikaa on saatu seuraava kontingenssitaulu: Kyllä Ei Tytöt 5 35 40 Pojat 20 40 50 25 75 100 Nollahypoteesi voidaan lausua muodossa: H 0 : tupakointi ei riipu sukupuolesta Odotetut frekvenssit e ij : Kyllä Ei Tytöt 10 30 40 Pojat 15 45 50 25 75 100 Testisuureen arvon laskeminen: χ 2 = (5 10)2 10 + (35 30)2 30 + (20 15)2 15 + (40 45)2 45 = 5.56

Luokkien lukumäärät ovat k = 2, m = 2, joten testisuureen jakauma on χ 2 ((k 1)(m 1)) = χ 2 (1). Valitaan riskitasoksi α = 0.05, jolloin testin kriittinen arvo on χ 2 1 α (1) = χ2 0.95 (1) = 3.84 Koska laskettu arvo χ 2 = 5.56 > 3.84 = χ 2 0.95 (1), niin H 0 hylätään.