MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Bayesläiset tilastolliset mallit

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

11.1 Nollahypoteesi, vastahypoteesi ja p-arvo

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mat Sovellettu todennäköisyyslasku A

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tilastollisia peruskäsitteitä ja Monte Carlo

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Testejä suhdeasteikollisille muuttujille

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Todennäköisyyden ominaisuuksia

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Testit laatueroasteikollisille muuttujille

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

10. laskuharjoituskierros, vko 14, ratkaisut

Tilastollinen aineisto Luottamusväli

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Estimointi. Vilkkumaa / Kuusinen 1

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Mat Tilastollisen analyysin perusteet, kevät 2007

tilastotieteen kertaus

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

031021P Tilastomatematiikka (5 op) viikko 5

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

1. Tilastollinen malli??

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

2. TILASTOLLINEN TESTAAMINEN...

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Mat Tilastollisen analyysin perusteet, kevät 2007

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Osa 2: Otokset, otosjakaumat ja estimointi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Transkriptio:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Tilastollisen merkitsevyyden testaus (+ jatkuvan parametrin Bayes-päättely) Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi I

Sisältö Bayeslainen päättely jatkuvilla priorijakaumilla Tilastollisen merkitsevyyden testaaminen Hypoteesi määrällisen muuttujan odotusarvosta

Bayeslainen malli Havaittu data x = (x 1,..., x n ). Kokonaisuuden (tietämys ja datalähde) stokastinen malli = parametrin ja datan (Θ, X ) yhteisjakauma Priori: parametrin Θ jakauma ennen datan havaitsemista Uskottavuus: datan X jakauma ehdolla Θ = θ Posteriori: parametrin Θ jakauma ehdolla X = x Diskreetti parametri ja diskreetti data: Priori: p 0 (θ) ptnf Uskottavuus: f (x θ) on ehdollinen ptnf Posteriori: p 1 (θ x) ehdollinen ptnf Jatkuva parametri ja diskreetti data: Priori: p 0 (θ) tiheysf Uskottavuus: f (x θ) on ehdollinen ptnf Posteriori: p 1 (θ x) ehdollinen tiheysf

Tuntematon kolikko Tuntematonta kolikkoa heitettäessä (0=klaava, 1=kruuna) on havaittu data x = (0, 0, 0, 0, 0, 0, 1, 0, 1, 0). Kolikosta ei ole mitään taustatietoja. Määritä parametrin Θ (kruunan tn) posteriorijakauma. Valitaan prioriksi jatkuvan välin [0, 1] tasajakauma tiheysfunktiona { 1, θ [0, 1], p 0 (θ) = 0, muuten. Uskottavuusfunktio f (x θ) = θ 2 (1 θ) 8 Posteriorijakauman tiheysfunktio { c θ 2 (1 θ) 8, θ [0, 1], p 1 (θ x) = c p 0 (θ)f (x θ) = 0, muuten, missä normitusvakio c = ( 1 0 t2 (1 t) 8 dt) 1

Tuntematon kolikko Data: x = (0, 0, 0, 0, 0, 0, 1, 0, 1, 0) Priori Posteriori 0.0 0.2 0.4 0.6 0.8 1.0 p 0 (θ) dθ = 1 dθ 0.0 0.2 0.4 0.6 0.8 1.0 p 1 (θ x)dθ = c θ 2 (1 θ) 8 dθ

Beta-jakauma Beta(a, b)-jakauman parametreina a > 0 ja b > 0 tiheysfunktio on { c θ a 1 (1 θ) b 1, kun θ [0, 1], f (θ) = 0, muuten, normitusvakiona c = (a+b 1)! (a 1)!(b 1)!. Beta(1, 1) Beta(3, 9) Beta(9, 3) Beta(9, 9) 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Arvojoukko = [0, 1] Odotusarvo µ = a a+b ja keskihajonta σ = Kertymäfunktiota ei tunneta suljetussa muodossa µ(1 µ) a+b+1 dbeta(theta,a,b); pbeta(theta,a,b)

Tuntematon kolikko Data: x = (0, 0, 0, 0, 0, 0, 1, 0, 1, 0) Priori: Tasajakauma Beta(1, 1) Posteriori: Beta(3, 9) Priori Posteriori 0.0 0.2 0.4 0.6 0.8 1.0 p 0 (θ) dθ = 1 dθ 0.0 0.2 0.4 0.6 0.8 1.0 p 1 (θ x)dθ = c θ 2 (1 θ) 8 dθ

Tuntematon kolikko: Kruunien lukumäärä Kolikkoa n kertaa heitettäessä havaittiin k kruunaa. Kolikosta ei ole taustatietoja. Määritä parametrin Θ (kruunan tn) posteriorijakauma. Priorijakauman tiheysfunktio: p 0 (θ) = 1, θ [0, 1] Uskottavuusfunktio datapisteelle x = k saadaan Bin(n, θ)-jakaumasta ( ) n f (k θ) = θ k (1 θ) n k k Posterioritiheys p 1 (θ k) = p 0 (θ)f (k θ) p0 (t)f (k t) dt = c θ k (1 θ) l on Beta(k + 1, l + 1), missä l = n k on klaavojen lkm. Huom Kun n = 10 ja k = 2, saadaan sama posteriori Beta(3, 9), mitä yksityiskohtaiselle datalle x = (0, 0, 0, 0, 0, 0, 1, 0, 1, 0). Normitusvakion c arvo määräytyy ehdosta 1 0 p 1(θ k)dθ = 1. Beta-jakauman taulukoista = c = (k+l+1)! k!l!

Tuntematon kolikko: Kruunien lukumäärä n = 10 0.0 0.2 0.4 0.6 0.8 1.0 Beta(3, 9): k = 2, l = 8 0.0 0.2 0.4 0.6 0.8 1.0 Beta(6, 6): k = 5, l = 5 n = 100 0.0 0.2 0.4 0.6 0.8 1.0 Beta(21, 81): k = 20, l = 80 0.0 0.2 0.4 0.6 0.8 1.0 Beta(51, 51): k = 50, l = 50

Sisältö Bayeslainen päättely jatkuvilla priorijakaumilla Tilastollisen merkitsevyyden testaaminen Hypoteesi määrällisen muuttujan odotusarvosta

Mustekala Paul https://en.wikipedia.org/wiki/paul_the_octopus

Esimerkkikysymyksiä merkitsevyyden testaamiseen Kehitettävän uuden lääkkeen vaikutus Onko uusi lääke tehokkaampi kuin aiempi vakiintunut hoitomenetelmä? (Tai: onko uusi lääke edes lumelääkettä tehokkaampi?) Väitetty selvännäkijä Pystyykö selvännäkijä ennustamaan pelituloksia pelkkää arvaamista osuvammin?

Nollahypoteesi ja vaihtoehtoinen hypoteesi Testaamista varten muotoillaan: Nollahypoteesi H 0 Konservatiivinen hypoteesi ilmiöstä (sisältö tyypillisesti: mitään uutta tai yllättävää ei tarvita havaintojen selittämiseen ), jonka vallitessa satunnaisvaihtelun vaikutus osataan mallintaa Vaihtoehtoinen hypoteesi H 1 Vaihtoehto konservatiiviselle hypoteesille (sisältönä tyypillisesti uusi ja kiinnostava selitys ilmiölle) Kehitettävän uuden lääkkeen vaikutus H 0 Uusi lääke ja lumelääke ovat yhtä tehokkaita. H 1 Uusi lääke on lumelääkettä tehokkaampi. Väitetty selvännäkijä H 0 Ennustukset ovat yhtä hyviä kuin arvaukset. Ennustukset ovat osuvampia kuin arvaukset. H 1

Tilastollisen hypoteesin testaamisen vaiheet 1. Muotoillaan nollahypoteesi H 0 ja vaihtoehtoinen hypoteesi H 1 ja muodostetaan nollahypoteesia vastaava tilastokokeen stokastinen malli. 2. Valitaan testisuure, jonka jakauman voidaan olettaa olevan riittävän erilainen riippuen siitä päteekö nollahypoteesi H 0 vai vaihtoehtoinen hypoteesi H 1. 3. Johdetaan testisuureen jakauma (tai sen approksimaatio) olettaen että nollahypoteesi H 0 pätee. 4. Tarkastellaan, olisivatko havainnot poikkeuksellisia, jos nollahypoteesi olisi tosi. - ei kovin poikkeuksellisia ei hylätä nollahypoteesia - poikkeuksellisia hylätään nollahypoteesi Miten poikkeuksellisuus kvantifioidaan? p-arvo = P(havainnot vähintään näin poikkeuksellisia H 0 )

Sisältö Bayeslainen päättely jatkuvilla priorijakaumilla Tilastollisen merkitsevyyden testaaminen Hypoteesi määrällisen muuttujan odotusarvosta

Esim. Kahviautomaatti Kahviautomaatin on tarkoitus laskea jokaiseen kuppiin keskimäärin 10.0 cl kahvia. Kahviautomaatin toimintaa testattiin valuttamalla automaatista 30 kupillista ja mittamalla kahvin määrät kupeissa. Mittauksessa havaittiin arvot (cl): 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Onko kahviautomaatti oikein kalibroitu? Mittausdatan x keskiarvo on m(x) = 10.473, joka poikkeaa tavoitearvosta µ 0 = 10.0. Onko poikkeama tilastollisesti merkitsevä?

Tilastokokeen stokastinen malli Analyysiä helpottava (tai sen mahdollistava) yleinen hypoteesi H: Havaitut arvot ovat realisaatioita riippumattomista Nor(µ, σ 2 )-jakaumaa noudattavista satunnaismuuttujista. Normaalijakauman parametreja µ ja σ 2 ei tunneta. Yleisen hypoteesin pätiessä tilastokokeen tulos (ennen sen havaitsemista) on satunnaisvektori X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja Nor(µ, σ 2 )-jakautuneet. Huom Normaalisuusoletus on erittäin rajoittava ja ennen testaamista on syytä pohtia (tai testata) onko normaalisuus perusteltu. Jos ei, niin suurelle datamäärälle voidaan silti toisinaan käyttää normaaliarviota. On myös olemassa muita testejä, jotka soveltuvat pienemmillekin otoksille. Näitä käsitellään kurssilla Tilastollisen analyysin perusteet.

Tilastokokeen stokastisen mallin tunnusluvut Tilastokokeen stokastinen malli on X = (X 1,..., X n ), jonka komponentit ovat riippumattomat ja Nor(µ, σ 2 )-jakautuneet. Stokastisesta mallista laskettu keskiarvo on satunnaisluku m(x ) = 1 n n X i, i=1 jonka odotusarvo on µ ja keskihajonta σ/ n. Jos hypoteesi µ = µ 0 pätee, niin suure noudattaa N(0, 1)-jakaumaa. m(x ) µ 0 σ/ n

Esim. Kahviautomaatti: mittausten jakauma 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Mittausdatan x keskiarvo on m(x) = 10.473. Onko mittausdata likimain normaalijakautunut? Kahvimäärien histogrammi frekvenssi 0 2 4 6 8 10 12 9.0 9.5 10.0 10.5 11.0 11.5 12.0 Määrä(cl)

Esim. Kahviautomaatti: Normitettu keskiarvo Jos data tulee normaalijakaumasta, niin poikkeaman tilastollista merkitsevyyttä voidaan verrata N(0, 1)-jakaumaan, kunhan m(x) normitetaan muotoon m(x) µ 0 σ/ n = 10.473 10.0 σ/ 30 =? Ongelma: Parametri σ on tuntematon. Ratkaisu: Korvataan σ estimaatilla s(x) = 0.563. Havaitusta datasta saadaan tunnusluku t(x) = m(x) µ 0 s(x)/ n = 10.473 10.0 0.563/ 30 = 4.60.

Keskihajonnan korvaaminen otoskeskihajonnalla Yleisen hypoteesin (normaalijakautuma) ja nollahypoteesin (µ = µ 0 ) pätiessä normitettu tunnusluku m(x ) µ 0 σ/ n Nor(0, 1) Entä t(x ) := m(x ) µ 0 s(x )/ n? Fakta Yleisen hypoteesin ja nollahypoteesin pätiessä tunnusluku t(x ) noudattaa Studentin t(n 1)-jakaumaa vapausastein n 1.

Normaalijakauman t-tunnusluku Fakta Nor(µ, σ 2 )-jakauman riippumattomista havainnoista muodostuvan stokastisen mallin X = (X 1,..., X n ) t-testisuure t(x ) = m(x ) µ s(x )/ n noudattaa Studentin t-jakaumaa vapausastein n 1, jonka tiheysfunktio on f (x) = c n 1 ( 1 + x 2 n 1 ) (n 1)+1 2.

Studentin t-jakauma Jatkuva satunnaisluku X noudattaa t-jakaumaa vapausastein n, jos sillä on tiheysfunktio muotoa f (x) = c n ( 1 + x 2 n ) n+1 2. t distributions f(x) 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 x Kuva : Studentin t-jakaumia vapausastein n = 1 (sininen), n = 2 (vihreä), n = 5 (punainen)ja n = (musta). Student (William S Gosset): The probable error of a mean. Biometrika 1908.

Studentin t-testi 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitulle datalle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin (normaalijakauma) ja nollahypoteesin (µ = µ 0 ) pätiessä stokastista mallia vastaava (satunnainen) tunnusluku on t(x ) := m(x ) µ 0 s(x )/ n t(29). Jos hypoteesit ok, niin tyypillisesti t(x ) 0. Studentin t-testin p-arvo on poikkeaman t(x ) 4.60 tn: P( t(x ) 4.60) = 2*(1-pt(4.60,29)) = 0.000077.

Studentin t-testin tulkinta 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitulle datalle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Yleisen hypoteesin ja nollahypoteesin pätiessä stokastista mallia vastaava tunnusluku toteuttaa t(x ) 4.60 todennäköisyydellä P( t(x ) 4.60) = 0.000077. Näin pieni p-arvo tarkoittaa, että testisuureen havaittu poikkeama nollasta johtuu hyvin epätodennäköisesti satunnaisvaihtelusta. Havaittu poikkeama on siis tilastollisesti merkitsevä ja antaa aiheen hylätä nollahypoteesi µ = 10.0. Johtopäätös: Kahviautomaatti on virheellisesti kalibroitu.

Studentin t-testin suorittaminen p-arvolla: Yhteenveto Lähtökohdat Havaittu data x = (x 1,..., x n ). Yleinen hypoteesi H: Havaittu data koostuu riippumattomien Nor(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioista Nollahypoteesi H 0 : µ = µ 0 (Vaihtoehtoinen hypoteesi H 1 : µ µ 0 ) Testaus Lasketaan datasta testisuure t(x) = m(x) µ 0 s(x)/ n Lasketaan t(n 1)-jakaumasta p-arvo P( t(x ) t(x) ). Johtopäätös Jos p-arvo on lähellä nollaa = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan. R: t.test(x,mu=10.0)

Studentin t-testi ennalta määrätyllä merkitsevyystasolla Lähtökohdat: Samat Valitaan testin merkitsevyystaso α (esim. α = 1%) ja määritetään t(n 1)-jakaumasta kriittiset arvot a ja b, joille P(t(X ) a) = α/2 ja P(t(X ) b) = α/2. R:llä b = qt(1-α/2, n-1) ja a = qt(α/2, n-1) = b. Testaus Lasketaan datasta testisuure t(x) = m(x) µ 0 s(x)/ n Katsotaan kuuluuko t(x) välille (a, b). Johtopäätös Jos t(x) / (a, b) = Hylätään nollahypoteesi H 0 Muussa tapauksessa nollahypoteesi jää voimaan.

Esim. Kahviautomaatti 11.05 9.65 10.93 9.46 10.27 10.02 10.07 10.74 11.15 10.40 10.12 11.20 10.07 10.27 9.99 9.80 10.83 10.21 11.26 10.11 10.49 10.10 10.15 11.02 10.00 11.68 10.51 11.20 11.29 10.15 Havaitulle datalle m(x) = 10.473, s(x) = 0.563, t(x) = 4.60. Merkitsevyystasoa α = 0.01 vastaavat kriittiset arvot ovat a = qt(0.005,29) = 2.76 b = qt(0.995,29) = +2.76 Testisuure t(x) ( 2.76, 2.76) = Nollahypoteesi µ = 10.0 hylätään 1 % merkitsevyystasolla. Johtopäätös: Kahviautomaatti ei valuta keskimäärin 10.0 cl kokoisia kupillisia.

Yleisen hypoteesin merkitys Yleinen hypoteesi H: Tehdyt havainnot ovat riippumattomien Nor(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Yleistä hypoteesia ei t-testin yhteydessä testata, vaan sen ajatellaan olevan vahvistettu muilla tavoin. Jos yleinen hypoteesi ei päde, on t-testin tulos merkityksetön. Datan normaalisuuden testaamiseksi on olemassa omia testejä (ei käsitellä tällä kurssilla)

Oikea vai väärä johtopäätös? Testin tulos Nollahypoteesi jää voimaan Nollahypoteesi hylätään Maailman tila Nollahypoteesi pätee Nollahypoteesi ei päde Oikea Hyväksymisvirhe johtopäätös (tyyppi II) Hylkäysvirhe Oikea (tyyppi I) johtopäätos Testin merkitsevyystaso α kertoo hylkäysvirheen todennäköisyyden (ennen datan havaitsemista) Nollahypoteesi hylätään merkitsevyystasolla α täsmälleen silloin, kun testin p-arvo on pienempi kuin α. Testin hyväksymisvirhe ei ole 1 α. (Hyväksymisvirheen systemaattista analysoimista ei käsitellä luennoilla.)

Seuraavalla kerralla puhutaan lisää merkitsevyyden testaamisesta...