Sovellettu todennäköisyyslaskenta B

Samankaltaiset tiedostot
Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

11. laskuharjoituskierros, vko 15, ratkaisut

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Testit laatueroasteikollisille muuttujille

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Sovellettu todennäköisyyslaskenta B

Harjoitus 7: NCSS - Tilastollinen analyysi

Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Sovellettu todennäköisyyslaskenta B

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollinen aineisto Luottamusväli

Testit järjestysasteikollisille muuttujille

Estimointi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

10. laskuharjoituskierros, vko 14, ratkaisut

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Hypoteesin testaus Alkeet

2. TILASTOLLINEN TESTAAMINEN...

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Osa 2: Otokset, otosjakaumat ja estimointi

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

5.7 Uskottavuusfunktioon perustuvia testejä II

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

031021P Tilastomatematiikka (5 op) viikko 5

Sovellettu todennäköisyyslaskenta B

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Tilastollisia peruskäsitteitä ja Monte Carlo

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lohkoasetelmat. Kuusinen/Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Sovellettu todennäköisyyslaskenta B

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Teema 8: Parametrien estimointi ja luottamusvälit

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

1. Tilastollinen malli??

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Vastepintamenetelmä. Kuusinen/Heliövaara 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Teema 9: Tilastollinen merkitsevyystestaus

Transkriptio:

Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15

1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti Rasila () TodB 16. marraskuuta 2007 2 / 15

χ 2 -yhteensopivuustesti 1/5 Tässä esitettävä χ 2 -yhteensopivuustesti on sikäli historiallinen, että se on ensimmäinen todennäköisyyksiin perustuva tilastollinen päättelytesti. Testin esitti vuonna 1900 Karl Pearson (1857-1936). Testi merkitsi alkua modernille tilastotieteelle. Yhteensopivuustestissä tarkastellaan, onko satunnaismuuttujasta X tehdyt havainnot sopusoinnussa X :n jakaumasta tehtyjen ennakko-oletusten kanssa. Menetelmä eroaa aikaisemmin tällä kurssilla esitetyistä testeistä siinä, että nollahypoteesi ei koske jakauman parametreja. Yhteensopivuustesti kuuluu epäparametrisiin testeihin. Yleisemmin χ 2 -testillä voidaan tutkia, onko havaintoaineisto syntynyt hypoteesin edellyttämällä tavalla, esim. onko havaintoaineisto peräisin tietystä jakaumasta, ovatko havaintoaineistot peräisin samasta jakaumasta, ovatko kaksi mitattua suuretta riippumattomia, jne. Antti Rasila () TodB 16. marraskuuta 2007 3 / 15

χ 2 -yhteensopivuustesti 2/5 Oletetaan, että havainnot X 1,..., X n muodostavat satunnaisotoksen perusjoukosta S. Nollahypoteesi H 0 : Havainnot X 1,..., X n noudattavat todennäköisyysjakaumaa f (x; θ), jonka parametrit eivät välttämättä ole tunnettuja. Vaihtoehtoinen hypoteesti H 1 : Havainnot X 1,..., X n eivät noudata nollahypoteesin määräämää todennäköisyysjakaumaa. Luokitellaan havainnot X 1,..., X n toisensa poissulkeviin luokkiin, joiden lukumäärä on m. Olkoot O k, k = 1, 2,..., m luokkia k vastaavat havaintojen frekvenssit. Huomaa, että k O k = n. i=1 Antti Rasila () TodB 16. marraskuuta 2007 4 / 15

χ 2 -yhteensopivuustesti 3/5 Oletetaan, että nollahypoteesti H 0 määrää satunnaismuuttujan X jakauman tyypin, mutta jakauman parametrit ovat tuntemattomia. Oletetaan, että P k on todennäköisyys sille, että X saa arvon luokasta k, kun nollahypoteesi H 0 pätee. Luokkaan k kuuluvien havaintojen odotettu frekvenssi E k on E k = np k, k = 1, 2,...,,. Jakaumassa esiintyvät tuntemattomat parametrit täytyy estimoida havainnoista. Odotetut solufrekvenssit E k toteuttavat yhtälön m E k = n. k=1 Antti Rasila () TodB 16. marraskuuta 2007 5 / 15

χ 2 -yhteensopivuustesti 4/5 Määritellään χ 2 -testisuure χ 2 = m k=1 (O k E k ) 2 E k, missä O k on havaittu frekvenssi, E k odotettu frekvenssi ja m luokkien lukumäärä. Testisuure voidaan kirjoittaa myös muotoon χ 2 = m k=1 (ˆp k P k ) 2 P k, missä ˆp k on suhteellinen frekvenssi luokassa k, P k tn. sille, että havainto kuuluu luokkaan k (jos nollahypoteesin pätee) ja m luokkien lukumäärä. Jos H 0 pätee, testisuure noudattaa suurissa otoksissa approksimatiivisesti χ 2 -jakaumaa vapausastein f = m 1 p, missä p frekvenssien E k määräämiseksi estimoitujen parametrien lukumäärä. Antti Rasila () TodB 16. marraskuuta 2007 6 / 15

χ 2 -yhteensopivuustesti 5/5 Approksimaatio on tavallisesti riittävän hyvä, jos odotetut frekvenssit E k toteuttavat ehdot E k > 5, k = 1, 2,..., m. Testisuuren χ 2 normaaliarvo, eli odotusarvo nollahypoteesin pätiessä on E(χ 2 ) = f, f = m 1 p. Normaaliarvoa merkitsevästi suuremmat testisuureen arvot viittaavat siihen, että H 0 ei päde. Normaaliarvoa merkitsevästi pienemmät testisuureen arvot viittaavat siihen, että havaintojen ja nollahypoteesin määräämän jakauman yhteensopivuus on liian hyvää: havainnot on mahdollisesti väärennetty. Antti Rasila () TodB 16. marraskuuta 2007 7 / 15

Esimerkki (Laininen) 1/2 Tutkittaessa nopan virheettömyyttä suoritettiin n = 120 heittoa. Saadut silmälukujen määrät olivat i 1 2 3 4 5 6 n i 23 17 14 24 16 26 Virheettömällä nopalla Pr(X = i) = 1/6, mitään parametreja ei tarvitse estimoida. Kunkin silmäluvun odotetaan siis esiintyvän 120 heitossa 120/6 = 20 kertaa, eli E i = 20, kun i = 1,..., 6. χ 2 -testisuure saa arvon χ 2 = (23 20)2 20 + (17 20)2 20 +... + (26 20)2 20 = 6.10. Antti Rasila () TodB 16. marraskuuta 2007 8 / 15

Esimerkki (Laininen) 2/2 Luokkia on m = 6 kappaletta, eikä parametreja tarvinnut estimoida, joten p = 0. Testisuure on siis asymptoottisesti χ 2 -jakautunut vapausasteilla ν = m p 1 = 5. Testin p-arvoksi saadaan (tietokoneella) Pr(χ 2 6.10) = 0.2966. Taulukosta voidaan katsoa, että χ 2 0.05 = 11.1 vapausasteilla 5. Koska testisuudeen arvo 6.10 on tätä pienempi, Pr(χ 2 6.10) > 0.05. Noppa hyväksytään virheettömäksi. Antti Rasila () TodB 16. marraskuuta 2007 9 / 15

Homogeenisuuden testaaminen 1/4 Oletetaan, että perusjoukko S on jaettu r:ään ryhmään, joista on poimittu toisistaan riippumattomat satunnaisotokset. Nollahypoteesi H 0 : Havainnot noudattavat jokaisessa ryhmässä i = 1,..., r samaa jakaumaa. Vaihtoehtoinen hypoteesi H 1 : Havainnot eivät ryhmissä i = 1,..., r eivät noudata samaa jakaumaa. Poimitaan ryhmistä toisistaan riippumattomat satunnaisotokset, joiden koot ovat n i, i = 1, 2,..., r. Luokitellaan havainnot jokaisesta otoksesta samaa luokitusta käyttäen toisensa poissulkeviin luokkiin, joiden lukumäärä on c. Määrätään otoksen i luokkaan j kuuluvien havaintojen havaittu frekvenssi O ij, i = 1, 2,..., r, j = 1, 2,..., c. Antti Rasila () TodB 16. marraskuuta 2007 10 / 15

Homogeenisuuden testaaminen 2/4 Nämä voidaan esittää taulukkona: 1 2... c Σ 1 O 11 O 12... O 1c n 1 2 O 21 O 22... O 2c n 2.................. r O r1 O r2... O rc n r Σ C 1 C 2... C c n Tässä r on ryhmien lukumäärä, c on luokkien lukumäärä O ij havaittu frekvenssi ryhmän i luokassa j, n i otoskoko ryhmässä i, C j havaittu frekvenssi yhdistetyn havaintoaineiston luokassa j ja n havaintojen kokonaislukumäärä. Antti Rasila () TodB 16. marraskuuta 2007 11 / 15

Homogeenisuuden testaaminen 3/4 Erityisesti pätee, että (i) c j=1 E ij = n i, (ii) r i=1 O ij = C j, ja (iii) r c O ij = i=1 j=1 r c n i = C j = n. i=1 j=1 Määrätään nollahypoteesin pätiessä odotetut solufrekvenssit E ij yhtälöillä E ij = np ij = n ic j, i = 1,..., r, j = 1,..., c. n Kuten edellä, näistä voidaan muodostaa taulukko. Antti Rasila () TodB 16. marraskuuta 2007 12 / 15

Homogeenisuuden testaaminen 4/4 Määritellään χ 2 -testisuure χ 2 = r c i=1 j=1 (O ij E ij ) 2 E ij. Jos nollahypoteesi pätee, testisuure noudattaa suurissa otoksissa approksimatiivisesti χ 2 -jakaumaa vapausastein f = (r 1)(c 1), missä r on ryhmien ja c luokkien määrä. Approksimaatio on tavallisesti riittävän hyvä, jos E ij > 1 ja keskimääräiset frekvenssit C j /r > 5. Testisuureen normaaliarvo eli odotusarvo nollahypoteesin pätiessä on E(χ 2 ) = f. Normaaliarvoa merkitsevästi suuremmat χ 2 -testisuureen arvot viittaavat siihen, että nollahypoteesi ei päde. Antti Rasila () TodB 16. marraskuuta 2007 13 / 15

Esimerkki (Laininen) 1/2 Tehtaassa valmistetaan tuotetta kolmella tuotantolijalla. Valmistetut tuotteet luokitellaan luokkiin 0 (virheetön), 1 (yksi virhe) ja 2 (vähintään kaksi virhettä). Tutkitaan, onko virheiden lukumäärien jakaumissa eroja eri tuotantolinjojen välillä. Otetaan jokaiselta tuotantolinjalta 200 yksikköä tuotetta ja lasketaan virheellisyysluokkien frekvenssit: Vikoja 0 1 2 Σ Linja 1 169 18 13 200 Linja 2 144 23 33 200 Linja 3 180 9 11 200 Σ 493 50 57 600 Silmämääräisesti näyttäisi siltä, että Linja 2 tuottaa muita ennemmän virheitä. Onko havainto tilastollisesti luotettava? Antti Rasila () TodB 16. marraskuuta 2007 14 / 15

Esimerkki (Laininen) 2/2 Jos linjojen välillä ei ole eroja, on jokaisella linjalla virheettömien tuotteiden lukumäärän estimaatti 200 493/600 = 164.33, yhden virheen sisältävien estimaatti 200 50/600 = 16.67 ja vähintään kaksi virhettä sisältävien 200 57/600 = 19.00. Testisuureen arvo on tällöin χ 2 = (169 164.33)2 164.33 + (18 16.67)2 16.67 + (11 19.00)2 19.00 = 25.76. Vapausasteparametri ν = (3 1)(3 1) = 4. Testin p-arvoksi saadaan Pr(χ 2 25.76) = 0.0000, joten linjojen välillä on tilastollisesti merkitseviä eroja. Antti Rasila () TodB 16. marraskuuta 2007 15 / 15