Parametrittomat ja robustit mentelmät. Jukka Nyblom

Koko: px
Aloita esitys sivulta:

Download "Parametrittomat ja robustit mentelmät. Jukka Nyblom"

Transkriptio

1 Parametrittomat ja robustit mentelmät Jukka Nyblom Jyväskylän yliopisto Tilastotieteen laitos 2009

2 SISÄLTÖ 2 Sisältö Satunnaistamismalli ja permutaatiotestit 4. Täysin satunnaistettu koe, käsittely ja kontrolli Vastinparivertailu, käsittely ja kontrolli Täysin satunnaistettu koe, useita käsittelyjä Satunnaistetut täydelliset lohkot, useita käsittelyjä Luottamusvälit Suurten otosten tuloksia Täysin satunnaistettu koe, kaksi käsittelyä Vastinparivertailu Järjestyslukuihin perustuvat menetelmät 7 2. Satunnaistamismalli ja järjestyslukutestit Vastinparimenettely Järjestyslukujen pisteytys Täydelleen satunnaistettu koe Vastiparimenettely Useita käsittelyjä Dikotominen vaste Kaksi käsittelyä ja multinomivaste Satunnaistetut lohkot Kaksi käsittelyä Cochranin ja McNemarin testit Oikaistut järjestysluvut Populaatio ja satunnaisotos Kaksi käsittelyä tai ominaisuutta Mallit Suurten otosten teoriaa Useamman käsittelyn tai ominaisuuden vertailu populaatiomallissa Vastinaparivertailu populaatiomallissa Riippuvuuden testaus ja estimointi Korrelaatiokertoimet Monimuuttujainen tilanne

3 SISÄLTÖ Useamman muuttujan täydellinen riippumattomuus Yhteiskorrelaatiokerroin Kanoninen korrelaatiokerroin Aikasarjat Spatiaalinen korrelaatio Kontingenssitaulut Nominaaliasteikko Ordinaaliasteikko Robusti estimointi Sijaintiparametrin estimointi L estimaattori M estimaattorit Luottamusväleistä Lineaarinen regression Pienimmän neliösumman keino Pienimmän itseisarvojen summan keino Pienimpien trimmattujen neliöiden summa M estimaattorit R estimaattori Bootstrap Keskivirheen estimointi Luottamusvälit Prosenttipiste- eli persentiilimenetemä Bootstrap-t luottamusvälit BC a -menetelmä

4 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 4 Satunnaistamismalli ja permutaatiotestit Tässä luvussa tarkastellaan eräitä kokeellisen tutkimuksen yksinkertaisia satunnaistamismalleja.. Täysin satunnaistettu koe, käsittely ja kontrolli Aloitetaan esimerkillä. Kuvitellaan, että haluamme tutkia uuden psyykenlääkkeen vaikutusta mielenterveyspotilaisiin. Oletetaan, että koehenkilöinä on N kpl mahdollisimman samanlaisia ja samantyyppisistä oireista karsiviä potilaita. Jaamme potilaat satunnaisesti 2 ryhmään n kpl koeryhmään, joille annetaan uutta lääkettä ja m kpl kontrolliryhmään (N = m + n), joille annetaan lumelääkettä (placebo). Jonkin ajan kuluttua tutkiva lääkäri arvio tai mittaa lääkeen vaikutuksen. Oletamme, että kysymyksessä on kaksoissokkokoe: potilaat eikä tutkiva lääkäri tiedä, kumpaa lääkettää koehenkilöt ovat saaneet. Miksi satunnaistaminen? Potilaiden huomiotta jätetty erilaisuus tai tuntemattomista syistä johtuvat seikat vaikuttavat mittauksiin. Tästä johtuva harha voidaan eliminoida satunnaistamalla. Miksi lumelääkettä? Potilas reagoi yleensä saamaansa hoitoon ja huomioon. Pelkkä usko lääkkeen tehoon vaikuttaa. Miksi kaksoisokkokoe? Potilas reagoi eri tavalla, kun hän saa oikeaa tai lumelääkettä. Lääkärin mittauksiin saattaa tieto vaikuttaa, erityisesti jos mittaus perustuu osin subjektiiviseen arviointiin.

5 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 5 Oletaan nyt, että koe on suoritettu ja että mittaustulokset ovat Kontrolli: Koe: x, x 2,..., x m y, y 2,..., y n Oletetaan nyt hetken, ettei lääkkeellä ole vaikutusta. Tätä sanotaan nollahypoteesiksi. Silloin koeryhmän mittaustulokset olisivat samat kuin siinä siinä tapaukseesa, että koeryhmän henkilöt olisvatkin joutuneet kontrolliryhmään. Voimme myös ajatella, että mittaustulokset oikeastaan ovat olemassa jo ennen koetta. Me emme vain saa niitä selville kuin tehdyn mittauksen kautta. Tämä asiaintila itse asiassa tarkoittaa, että meidän satunnaistamisoperaatiomme on jakanut mittaukset satunnaisesti 2 ryhmään. x, x 2,..., x m, y, y 2,..., y n Jokainen ositus kahteen ryhmään, m kpl toisessa ja n kpl toisessa, on myös yhtätodennäkoinen. Siis havaitun jaon todennäköisyys on ) = ( N n m! n!. N! Tähän voidaan perustaa kokeen tilastollinen analyysi. Huom. Emme siis tarvitse olettamusta normaalijakaumasta tai edes olettamusta, että koehenkilöt ovat satunnaisotos jostakin populaatiosta. Palaamme kuitenkin tähän myöhemmin. Seuraavaksi teemme olettamuksen siitä, miten lääke vaikuttaa silloin kun sillä on vaikutusta. Oletetaan yksinkertaisuuden vuoksi, että lääke vaikuttaa additiivisesti

6 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 6 mittaustukoksiin. Jos vaikutus on multiplikatiivinen, voimme siirtyä mittausten logaritmeihin. Oletamme, että lääke vaikuttaa :n verran, < 0 tai > 0 tai = 0. Haluaame saada selville, onko 0, ja myönteisessä tapauksessa arvioida :n suuruutta. Ryhmiä voidaan vertailla esim. keskiarvojen tai mediaanien tai jonkin muun sopivan tunnusluvun avulla: t x = T m (x,..., x m ), t y = T n (y,..., y n ). Käytännössä tunnusluku valitaan useimmiten niin, että se toteuttaa ehdot T k (z + a,..., z k + a) = T k (z,..., z k ) + a, (.) kaikilla z,..., z k, k, a, T k (z,..., z k ) = T k (z π,..., z πk ), (.2) kaikilla lukujen, 2,..., k permutaatioilla π,... πk. Kun oletetaan, että lääkkeen vaikutus on, niin mikäli koeryhmän jäsenet olisivat joutuneet kontrolliryhmään, heidän mittauksensa olisivat olleet y i. Luonnollinen estimaatti vaikutukselle saadaan, kun etsitään sellainen, että T n (y,..., y n ) T m (x,..., x m ) = 0. Additiivisuus ominaisuus (.) antaa helposti, että = t y t x. Poikkeaako havaittu estimaatti merkitsevästi nollasta?

7 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 7 Merkitsevä poikkeama tarkoittaa, että havaitun suuruinen tai suurempi poikkeama on riittävän harvinainen, kun todellista eroa ei ole. Vastaus merkitsevyysongelmaan saadaan siis käymällä läpi kaikki ( N n aineiston jakoa, ja laskemalla niiden jakojen suhteellinen osuus, jotka tuottavat yhtä suuren tai suuremman pseudovaikutuksen kuin mita saatiin kokeessa. Voimme tehdä vertailun yksisuuntaisesti ottamalla huomioon, mitä etukäteen oletamme :n etumerkistä, tai vertailemalla vaikutuksen ja pseudovaikutusten itseisarvoja. Täsmällisemmin. Laske aineistosta käsittelyvaikutus = t y t x. 2. Käy läpi aineiston (z,..., z m, z m+,..., z m+n ) = (x,..., x m, y,..., y n ) kaikki ositukset (z,..., z m), (z m+,..., z m+n) ja laske = T n (z m+,..., z m+n) T m (z,..., z m). 3. Saat arvot,..., M, M = ( N n). 4. Kaksisuuntainen p-arvo on ) p = M M I( j ). j= Yksisuuntaiset p-arvot ovat H + : > 0 p + = M H : < 0 p = M M I( j ), j= M I( j ),. j=

8 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 8 Toinen tapa laskea 2-suuntaisen testin p-arvo on p = 2 min(p +, p ). Huom. Saatu p-arvo on todellakin todennäköisyys, että nollahypoteesin vallitessa saadaan havaitun arvon suuruinen tai suurempi suurempi poikkeama. Todennäköisyys lasketaan siis kokeeseen liittyvän satunnaistamisen generoiman jakauman avulla. Kun kokeen tekijä huolehtii, että satunnaistaminen on oikein tehty p-arvo on täsmälleen oikea. Käytännössä kaikkien jakojen läpi käyminen on tietysti mahdotonta jo kohtalaisen pienissäkin aineistoissa. Silloin täydellinen luetteleminen voidaan korvata Monte Carlo -simuloinnilla: Kohdassa 2 jono (x,..., x m, y,..., y n ) permutoidaan satunnaisesti. Siiten m ensimmäistä mudostaa kontrollia vastaavan ryhmä ja n viimeistä käsittelyä vastaavan ryhmän. Saatu p-arvo on eksakti sellaisenaan riippumatta toistojen määrästä, so. p- arvo ei ole likiarvo. Mutta jos toistoja on vähän eri tutkijat voivat tehdä erilaisia johtopäätöksiä saman aineiston perusteella. johtopäätökset vaihtelevat paljon kerrasta toiseen. Lisäksi testin voimakkuus saattaa kärsiä, jos toistoja on vähän. Tilastollinen puoli tulee siis kuntoon varsin vähäisillä olettamuksilla, jotka vieläpä ovat tutkijan kontrolloitavissa. Mikä tämän hinta on? Ongelma on yleistettävyys. Edellä saadut johtopäätökset koskevat vain kokeeseen osallistuneita. Jos osallistuneet ovat satunnaisotos sopivasti määritellystä populaatiosta, voimme tehdä yleistyksiä. Jos osallistujat ovat jotenkin valikoituneita tarvitsemme tietoa mahdollisista valikoitumisen tuomista ongelmista johtopäätösten suhteen. Tarvitaan luultavasti uusia kokeita uusilla yksilöillö eri olosuhteissa. Olettamus käsittelyn vakioisesta vaikutuksesta ei ole yhtä vakava. Olete-

9 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 9 taan, että käsittely vaikuttaa koeyksilöihin eri lailla: Ilman käsittelyä vaste on y ja käsiteltäessä y + y. Jos aina käsittelyvaikutus y on samanmerkkinen kaikille yksilöille, testi on edelleen validi. Ongelmana on se, että jos käsittelyn vaikutus ei ole dramaattisen suuri se hukkuu yksilöiden luontaisen vaihtelun joukkoon. Erityisen ongelmallista on se, jos joillekin yksilöille y > 0 ja joillekin y < 0. Käytännössä täytyy pyrkiä löytämään ne yksilöt jotka reagoivat käsittelyyn vastakkaisilla tavoilla. Jos käsittelyvaikutus riippuu yksilösta, sanotaan, että käsittelyn ja yksilön valillä on interaktiota..2 Vastinparivertailu, käsittely ja kontrolli Kuten edellä huomattiin, johtopäätökset käsittelyvaikutuksesta kärsivät koeyksilöiden epähomogeenisuudesta. Tavallinen parannuskeino tähän ongelmaan on jakaa koeyksilöt mahdollisimman homogeenisiin osajoukkoihin eli lohkoihin. Vertailu tapahtuu saman lohkoon kuuluvien yksilöiden välillä. Käsittelemme seuraavaksi tilannetta, missä lohkon koko on 2. Koeyksilöille etsitään vastinparit. Satunnaistaminen tehdään nyt arpomalla toinen vastinparin yksilöistä kontrolliryhmään ja toinen koeryhmään. Arvonnat tehdään toisistaan riippumatta. Tyypillisiä vastinparitilanteita:. kaksoset, oikea ja vasen käsi yms. 2. yksilö on oma parikkinsa, esim ennen-jälkeen -tutkimukset, 3. taustamuuttujien avulla tehty kaltaistaminen (sukupuoli, ikä taudin vakavuusaste jne.). Oletetaan, että meillä on N vastinparia. Kun koe on suoritettu, mittaukset ovat (x, y ),..., (x N, y N ),

10 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 0 missä x i :t viittaavat kontrollitapaukseen ja y i käsiteltyyn tapaukseen. Käsittelyllä on vaikutusta, voimme mitata sen vaikutusta erotusten d i = y i x i kautta. Voimme käyttää keskiarvoa, mediaania tai muuta sopivaa mittaa: = T N (d,..., d N ). (.3) Oletetaan taas ensin, ettei käsittelyllä ole vaikutusta (= nollahypoteesi). Silloin voimme ajatella, että arvot x i, y i ovat olemassa jo ennen mittausta. Se kumpi arvo tulee käsittelyn arvoksi ja kumpi kontrollin arvoksi seuraa yksinomaan sattumasta, so. tekemästämme arvonnasta. Tämä tarkoittaa, että arvot +d i ja d i ovat yhtätodennäköisia, so. molempien todennäköisyys on 2. Lisäksi etumerkit ovat toisistaan riippumattomia. Tähän perustuvat tilastolliset johtopäätökset. Oletetaan taas, että kaikilla d,..., d N, N, a, T N (d + a,..., d N + a) = T N (d,..., d N ) + a, (.4) T N (d,..., d N ) = T N (d π,..., d πn ), (.5) kaikilla lukujen, 2,..., N permutaatioilla π,... πn. Käsittelyvaikutus voidaan taas estimoida yhtälöstä T N (d,..., d N ) = 0. Käsittelyvaikutuksen testi voidaan taas tehdä seuraavalla tavalla.. Laske käsittelyvaikutus. 2. Laske arvot = T N (±d,..., ±d N ) kaikilla etumerkkivaihtehdoilla, joita on 2 N kpl. 3. Saat arvot,..., M, M = 2N. 4. Kaksisuuntainen p-arvo on p = M M I( j ). j=

11 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT Koska 2 N on suuri jo aika pienilläkin N:n arvoilla käytännössä on tyydyttävä Monte Carlo-simulointiin: Arvotaan etumerkit satunnaisesti ja lasketaan arvoja j. Tulosten yleistämistä koskevat varaukset ovat tietysti samat kuin täysin satunaistetussa kokeessa. Samoin vastinparin ja käsittelyn interaktio, so. pariin i liittyvä käsittelyvaikutus i riippuu i:stä, vaikeuttaa vertailua..3 Täysin satunnaistettu koe, useita käsittelyjä Monissa kokeissa käsittelyllä on useita tasoja. Oletetaan, että kontrollin lisäksi käsittelyllä on k tasoa. Yksilöt, N kpl, arvotaan satunnaisesti k ryhmään, ryhmien koot n,..., n k, N = n + + n k. Merkitään mittaustuloksia y ij :llä, missä i viittaa ryhmään, i =,..., k ja j yksilöön ryhmän sisällä j =,..., n i. Oletetaan, että käsittelyvaikutus on additiivinen. Oletetaan, että meillä on vaikutusta mittaavat tunnusluvut, jotka toteuttavat ehdot (.) ja (.2), kustakin ryhmästä t, t 2..., t k, t i = T ni (y i,..., y ini ). Tarvitsemme vielä tunnusluvun, joka mittaa, onko käsittelyllä mitään vaikutusta. Tällaisia ovat esim. S 2 = M k n i (t i t all ) 2, (.6) missä t all = T N (y,..., y knk ). = max t i t i / /n i + /n i, (.7) i,i Jos käsittelyllä ei ole vaikutusta, voimme ajatella, että itse mittaluvut y ij ovat satunnaisesti arvottu eri ryhmiin. Testin merkitsevyys lasketaan samaan tapaan kuin kahden käsittelyn tapauksessa. Nyt käydään kuitenkin läpi kaikki ( ) N N! = n,..., n k n!... n k!

12 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 2 ositusta. Käytännössä tyydytään Monte Carlo -simuluointiin..4 Satunnaistetut täydelliset lohkot, useita käsittelyjä Kun vertaillaan k > 2 käsittelyä, pyritään löytämään k mahdollisimman samankaltaista koeyksilöä. Sitten käsittelyt arvotaan tällaisen lohkon sisällä ja riippumattomasti lohkosta toiseen. Oletetaan, että meillä on N lohkoa. Mittaustulokset ovat y ij, i =,..., k, j =..., N. Oletetaan taas, että käsittelyvaikutus on additiivinen. Lasketaan tunnusluvut t i = T N [ỹ i,..., ỹ in ], ỹ ij = y ij a j s j missä a j :t ja s j :t ovat symmetrisiä funktioita a j = a(y j,..., y kj ) s j = s(y j,..., y kj ). Nämä funktiot voivat olla esim. keskiarvo ja keskihajonta, joilla yritetään korjata lohkojen väliset erot. Joskus voi myös valita a j :t nolliksi ja s j :t ykkösiksi. Nollahypoteesia, ettei käsittelyllä ole vaikutusta, voidaan tutkia esim. suureella (.6) tai missä A = k t i t all. t all = T kn [ỹ,..., ỹ N,..., ỹ k,..., ỹ kn ] on sopiva tunnusluku koko aineistosta. Testin merkitsevyys saadaan nyt permutoimalla arvoja y ij erikseen ja riippumattomasti lohkojen sisällä. Kaiken kaikkiaan permutointeja on (k!) N kpl.

13 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 3.5 Luottamusvälit Permutaatiotestestien avulla voidaan laskea myös myös kasittelyvaikutusten luottamusvälejä joko verrattuna kontrolliin tai toiseen käsittelyyn. Toinen käsittely voi luonnollisesti olla myös saman käsittelyn eri taso. Jos meillä on useita käsittelyjä ao. tekniikoilla saadaan käsittelypariiin liityvät luottamusvälit. Lyhyesti sanottuna luottamusväli koostuu niistä nollahypoteesiarvoista H 0 : = 0, joita ei hylätä merkitsevyystasolla α ts. joihin liittyvä p- arvo α. Oletetaan ensiksi, että meillä täysin satunnaistettu koe: käsittely ja kontrolli. Oletaan vakioinen käsittelyvaikutus. Luvun. testimenetely liittyi nollahypoteesiin = 0. Asetetaan nyt nollahypoteesi H 0 : = 0. Kun vähennetään kaikista y-arvoista 0, niin muunnetussa aineistossa x,..., x m, y 0,..., y n 0 vastaava nollahypoteesi on, että käsittely vaikutus on nolla. Voimme tehdä kaksisuuntaisen permutaatiotestin näille muunnetuille havainnoille täsmälleen kuten luvussa. on kerrottu. Saamme p-arvon p( 0 ). Jos etsimme kaikki arvot 0 joille pätee p( 0 ) α, niin saamme luottamusalueen, joka peittää oikean arvon todennäköisyydellä α. Jos tunnusluku on keskiarvo, niin luottamusalue on väli { 0 p( 0 ) α} = { 0 0 [ lower, upper ]}. Jos tunnusluvut ovat keskiarvoja, on olemassa eksplisiittiset kaavat (Lehmann, 2005, s ja 203), joista luottamusväli saadaan. Vastinparitilanne (luku.2) menee samalla periaatteella, ja keskiarvojen tapauksessa saadaan eksplisiitiset kaavat. Toinen tapa (ja ehkä suositeltavampi) on etsiä sellaiset nollahypoteesit 0, että a) yksisuuntainen p-arvo p + ( 0 ) vastahypoteesia > 0 vastaan on p + ( 0 ) α/2 ja b) yksisuuntainen p-arvo p ( 0 ) vastahypoteesia < 0 vastaan on p ( 0 ) α/2. Keskiarvojen tapauksessa tämäkin johtaa luottamusväliin, joka jonkin verran poikkeaa edellä esitetystä.

14 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 4.6 Suurten otosten tuloksia Tässä luvussa kerrotaan, että kun. tunnusluvut ovat keskiarvoja, 2. täysin satuinnaistetuissa tapauksissa ryhmäkoot ovat isoja, ja satunnaistetuissa lohkokokeissa lohkojen määrä on suuri, 3. tietyt lievät säännöllisyysolettamukset ovat voimassa, niin normaalijakaumaan perustuvat ns. t- ja F -testit antavat likimäärin oikeat p-arvot, vaikka oikea jakauma saadaankin permutaatioperiaatteella. Toisaalta tarkat tai simuloimalla lasketut permutaatiojakaumiin perustuvat p-arvot ovat luotettavampia ja usein käyttökelpoisempia, koska yllä olevien edellytysten ei tarvitse olla voimassa. Seuraavassa tarkastellaan ainoastaan kahden käsittelyn tilanteita. Useamman käsittelyn tapauksiin liityvät testit voitaisiin käsitellä samaan tapaan..6. Täysin satunnaistettu koe, kaksi käsittelyä Oletetaan nyt, että y,..., y n on yksinkertainen satunnaisotos palautamatta joukosta Y,..., Y N, n < N. On helppo osoitaa, että summalle S n = y + + y n pätee E(S n ) = var(s n ) = n N Y i = nȳn, n(n n) N N (Y i Ȳ )2. Oletetaan nyt, että N, n ja N n (voimme ajatella, että n riippuu N:stä, so. n = n N ). Oletetaan vielä, että max(y i Ȳ ( ) )2 N n (Yi Ȳ max )2 n, n 0, kun N. N n Silloin Z = S n nȳn var(sn )

15 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 5 noudattaa asymptoottisesti N(0, )-jakaumaa. Täysin satunaistetussa kokeessa nollahypoteesin vallitessa jaamme Y - arvot satunnaisesti kahteen ryhmään x,..., x m ja y,..., y n. Silloin Ȳ = (m x + nȳ)/(m + n). Muutamien laskujen jälkeen saamme, että Z = ȳ x σ m + n, missä σ 2 = N (Y i Ȳ )2. Tämä tarkoittaa, että kahden käsittelyn permutaatiotestin jakaumaa voidaan approksimoida normaalijakaumalla. Samaan tapaan voidaan osoittaa, että myös tavanomainen kahden otoksen t-testi suureen U = σ 2 p = ȳ x, σ p m + n m (x i x) 2 + n (y i ȳ) 2, m + n 2 permutatiojakauma on asymptoottisesti normaalinen. Siis tavanomainen t-testi voidaan tulkita likimääräiseksi permutaatiotestiksi..6.2 Vastinparivertailu Vastinparivertailun testi perustuu erotuksiin d i = y i x i. Kun valitaan testisuureeksi keskiarvo d, niin sen nollahypoteesijakauma saadaan lausekkeesta s i d i, missä s i :t ovat riippumattomia ja P (s i = ) = P (s i = +) = 2. Ko. summan odotusarvo on 0 ja varianssi i d2 i. keskeisen raja-arvolauseen

16 SATUNNAISTAMISMALLI JA PERMUTAATIOTESTIT 6 nojalla N Z = s id i, i d2 i noudattaa asymptoottisesti, N, N(0, )-jakaumaa, kun max i d 2 i i d2 i 0, kun N. Siis myös tässä tapauksessa normaalijakauma on permutaatiojakauman approksimaatio, kun N on iso. Sama pätee myös ns. kahden riippuvan otoksen t-testisuureeseen U = σ 2 = d σ/ N, N (d i d) 2.

17 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 7 2 Järjestyslukuihin perustuvat menetelmät Järjestyslukuihin perustuvat menetelmät käyttävät vain mittaustulosten järjestystä hyväkseen. Syitä:. Yksinkertaisuus ja laskennallinen helppous. 2. Robustisuus, so. eivät ole herkkiä poikkeaville havainnoille (Outliers). 3. Mittaukset ovat jo alunperin järjestysasteikolla. Nykyisellä laskentateholla kohta ei enää ole kovin tärkeä. Menetelmien haitta on, että esim. monimutkaisten lineaaristen mallien käsittely on hankalaa tai mahdotonta. 2. Satunnaistamismalli ja järjestyslukutestit Oletetaan luvun. tilanne. Jos kokeen mittaustukokset ovat välimatkaasteikon lukuja, korvataan ne järjestysluvuillaan. Oletetaan havainnot Kontrolli , Koe Järjestysluvut ovat silloin Kontrolli , Koe 3 4. Testisuureeksi voidaan valita koeryhmän järjestyslukujen summa = 8. Nollahypoteesin vallitessa kaikki kolmikot joukosta, 2, 3, 4, 5, 6, 7 ovat yhtätodennäköisiä. Jos vastahypoteesi on, että käsitttelyvaikuus on negatiivinen, voimme laskea yksisuuntaisen p-arvon. Koska lisäksi = 6, = 7, = 8, antavat pienemmän tai yhtä suuren summan, p-arvo on 4/ ( 7 3) = 4/35 = 0.4.

18 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 8 Jos vastahypoteesi on kaksisuuntainen, saadaan p-arvoksi 2 8/35 = 0.228, sillä mukaan on laskettava neljä suurinta summaa, joilla on sama todennäköisyys. Silloin kun varsinaiset mittaukset ovat kaikki eri suuria eli kun ei ole sidoksia, koko aineisto järjestysluvuiksi muunnettuina sisältää luvut, 2,..., N, joista koeryhmän järjestyslukuja merkitään R,..., R n ja kontrolliryhmän järjestyslukuja S,..., S m. Järjestyslukusumman W r = R + + R n jakauma saadaan nollahypoteesin vallitessa käymällä läpi kaikki n kombinaatiot luvuista, 2,..., N. Toisin kuin luvun. permutaatiotestien kohdalla nyt on mahdollista laskea taulukot W :n nollahypoteesijakaumalle. Koska N = N(N +)/2 ja kontrollijärjestyslukujen summa on W s = S + +S m = N(N +)/2 W r, niin P 0 (W r c) = P 0 (W s N(N +)/2 c). Riittää siis taulukoida pienemmän ryhmän järjestyslukusumman jakauma. Lyhyesti sanottuna Wilcoxonin järjestyslukusummatesti on sama kuin luvun. permutaatiotesti, kun mittaustulokset on korvattu järjestysluvuilla Koska saadaan odotusarvot N = N 2 = E(W r ) = n(n + ), E(W s ) = 2 (N + )N, 2 N(N + )(2N + ), 6 m(n + ), 2 ja varianssit mn(n + ) var(w r ) = var(w s ) =. 2 Järjestyslukusumman sijasta voidaan käyttää myös ns. Mann-Whitney -tunnuslukua W xy = niiden parien (x i, y j ) lukumäärä, joissa x i < y j, W yx = niiden parien (y j, x i ) lukumäärä, joissa y j < x i.

19 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 9 On helppo osoittaa, että kun sidoksia ei ole, pätee W xy = W r n(n + ) 2 W yx = W s m(m + ). 2 Luvun.6. asymptoottinen tulos voidaan kirjoittaa muotoon, että W r 2n(N + ) = 2 mn(n + ) 2 W xy mn 2 mn(m + n + ) noudattaa likimäärin N(0, )-jakaumaa nollahypoteesin vallitessa. Silloin kun sidoksia (yhta suuria arvoja) ei ole käytetään ns. keskijarjestyslukuja (engl. mid-rank). Esim. Kontrolli , Koe Keskijärjestysluvut ovat silloin Kontrolli , Koe Siis kahden pienimmäm arvon kohdalle tulee (+2)/2 =.5 ja seuraavien kolmen pienimmän arvon tilalle ( )/3 = 4. Odotusarvot E(W r ) ja E(W s ) pysyvät ennallaan, mutta varianssit muuttuvat var(w r ) = var(w s ) = mn(n + ) 2 mn q (z3 i z i), 2N(N ) missä q on eri suurien mittausarvojen lukumäärä, ja z i on i. pienimpien lukumäärä. Edellisessä esimerkissä q = 4, z = 2, z 2 = 3, z 3 =, z 4 =.

20 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 20 Mann-Whitney -tunnusluvut muutetaan vastavasti W xy = {niiden parien (x i, y j ) lukumäärä, joissa x i < y j }, + 2 { niiden parien lukumäärä, joissa x i = y j }, W yx = {niiden parien (y j, x i ) lukumäärä, joissa y j < x i }, + 2 { niiden parien lukumäärä, joissa x i = y j }. Mann-Whitney -tunnusluvuille saadaan myös mielenkintoinen tulkinta. Oletetaan, että yksilön i mittaluku on X i, kun hänet arvotaan kontrolliryhmään ja Y i, kun hänet arvotaan koeryhmään. Siis vain jompikumpi arvoista X i, Y i toteutuu. Kontrollitulokset x,..., x m ovat satunnaisotos arvoista X,..., X N, ja vastaavasti y,..., y n ovat satunnaisotos arvoista Y,..., Y N. Silloin P (x i < y j ) = N(N ) i = j =,j i I(X i < Y j ) = p +, joka on niiden parien suhteellinen osuus, joissa kontrolliarvo on pienempi kuin koearvo. Samoin saadaan P (x i > y j ) = p ja P (x i = y j )p 0, p + + p + p 0 =. Edelleen ( ) Wxy E = p + + mn 2 p 0, ( ) Wyx E = p + mn 2 p 0, Nollahypoteesia voidaan nyt kirjoittaa muotoon H 0 : p + = p ja kaksisuuntainen vastahypoteesi H A : p + p. Nämä tulkinnat saattavat on mukavia sellaisissa tilanteissa, missä additiivinen käsittelyvaikutus ei ole sopiva. Esimerkki. Psykologinen neuvonta. Nuorisorikollisuuden ehkäisemiseksi tehtiin koe jossa 80 poikaa arvottiin kahteen ryhmään, joista toinen sai normaalia neuvontaa (kontrolli) ja toinen erityisneuvontaa (käsittely). Lopuksi poikien sopeutuminen luokiteltiin neljään luokkaan: kehno, melko kehno, melko hyvä hyvä. Tulokset olivat

21 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 2 Kehno Melko kehno Melko hyvä Hyvä Summa Käsittely Kontrolli Summa Sarakesummat kertovat sidosten lukumäärän. Keskijärjestysluvut ovat 6.5, 20.5, 44 ja 70, ja W r = = 720. Odotusarvoksi saadaan E(W r ) = 620 ja keskihajonnaksi var(w r ) = Normaaliapproksimaatioon perustuva p-arvo on 0.6. Koska mittaukset ovat järjestysasteikolla, käsittelyvaikutusta voi kuvata em. kolmen todennäköisyyden kautta p (7 + 9) + 2 ( ) = 40 2 = 0.42, p = 40 2 = 0.28, p (5 + 7) + 9 ( ) = 40 2 = Mann-Whitney -tunnusluvusta saadaan käsittelyvaikutuksen estimaatti myös tilanteessa, jossa mittaukset ovat alunperin välimatka-asteikolla, ja käsittelyvaikutus oletetaan additiiviseksi ja vakioksi. Etsimme sellainen arvon, että testisuure W x,y laskettuna arvoista x,..., x m, y,..., y n ) osuu mahdollisimman lähelle odotusarvoa mn/2. Silloin täytyy keskiarvon luvuista I(x i < y j ) = I(y j x i > ) olla mahdollisimman lähellä puolikasta. Koska lukuja on kaikkiaan mn, haettu estimaatti on mediaani erotuksista = median i m, j n (y j x i ).

22 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT Vastinparimenettely Oletetaan luvun.2 tilanne, missä mittaluvut ovat pareja (x, y ),..., (x N, y N ). Erotukset d i = y i x i voidaan kirjoittaa muotoon sign (d i ) d i. Järjestyslukuihin perustuva vastine permutaatiotestille on korvata itseisarvot d i järjestysluvuillaan. Oletetaan aluksi, että kaikki nämä itseísarvot ovat eri suuria ja että kaikki d i 0. Positiivisiin erotuksiin d i > 0 liittyviä järjestyslukuja merkitään R,..., R n ja negatiivisiin erotuksiin d i < 0 liittyviä järjestyslukuja S,..., S m. Muodostetaan summa V r = R + + R n. Olettamuksista seuraa nyt, että V s = S + + S m = N(N + )/2 V r. (2.) Nollahypoteesi on jälleen, ettei käsittelyvaikutusta ole. Jos vastahypoteesi on, että käsittelyvaikutus on positiivinen, niin V r :n suuret arvot johtavat nollahypoteesin hylkäämiseen. Vastaavasti jos vastahypoteesi on, että käsittelyvaikutus on negatiivinen, niin V r :n pienet arvot johtavat nollahypoteesin hylkäämiseen. Kaksisuuntaista vaihtoehtoa vastaan sekä pienet että suuret arvot johtavat nollahypoteesin hylkäämiseen. Yhtä pitävästi tämänkanssa voi tarkastella erotusta V r V s = sign (d i )Rank ( d i ), (2.2) missä Rank ( d i ) on d i :n järjestysluku. Nollahypoteesin vallitessa jakauma voidaan taulukoida, täytyy vain käydä läpi kaikki 2 N arvoa ±r. r= Taulukoituna on kuitenkin yleensä testisuure V r. Nollahypoteesin vallitessa saadaan odotusarvot E(V r V s ) = 0, E(V r ) = E(V s ) = N(N + ). 4

23 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 23 ja varianssit [ks. kaava (2.)] N(N + )(2N + ) var(v r V s ) =, 6 N(N + )(2N + ) var(v r ) = var(v s ) =. 24 Luvun.6.2 perusteella nollahypoteesin vallitessa Z = V r 4N(N + ) = 24 N(N + )(2N + ) 6 V r V s N(N + )(2N + ) noudattaa likimäärin N(0, )-jakaumaa. Jos erotusten itseisarvojen joukossa on sidoksia, jakaumaa ei voi taulukoida, mutta pienillä N:n arvoilla luetella kaikki tapaukset. Nollasidosten käsittely vaatii erityishuomion. Oletetaan 7 erotusta 0, 0, 0,,, 2, 2 Keskijärjetysluvut erotusten itseisarvoille ovat 2, 2, 2, 4.5, 4.5, 6.5, 6.5. Positiivisia erotuksia vastaavien keskijärjestyslukujen summa on V r = = 7.5. V r :n kaikki mahdolliset arvot saadaan jakamalla etumerkit keskijärjestysluvuille 4.5, 4.5, 6.5, 6.5 kaikilla mahdollisilla tavoilla (2 4 = 6 kpl)) ja laskemalla positiiviset yhteen, Summat ovat 0, 4.5, 6.5, 9,, 3, 5.5, 7.5, 22. Niitä vastaavat todennäköisyydet ovat /6, 2/6, 2/6, /6, 4/6, /6, 2/6, 2/6, /6. Siis nollaerotukset poistetaan vasta järjestyslukujen laskemisen jälkeen.

24 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 24 Nollaerotusten kohtelua lukuunottamatta Wilcoxonin merkkinen järjestyslukutesti (engl. Wilcoxon signed-rank test) on itse asiassa permutaatiotesti, missä erotukset on korvattu erotusten itseisarvojen järjestysluvuilla. Odotusarvo ja varianssi nollahypoteesin valitessa ovat: E(V r ) = N(N + ) z 0(z 0 + ) 4 var(v r ) = N(N + )(2N + ) z 0(z 0 + )(2z 0 + ) q (zi 3 z i ), missä z 0 on nollaerotusten lukumäärä, ja muut z i :t kuten edellä järjetyslukusummatestin tapauksessa. Huom. Kaava (2.2) pitää paikkansa myös silloin, kun käytetään keskijärjestyslukuja. Siitä saadaan, että E(V r V s ) = 0 var(v r V s ) = sign (d i ) 2 Rank ( d i ) 2, so. varianssin kaavasta putoavat nollaerotuksia vastaavat keskijärjestysluvut pois. Seuraavaksi esitetään miten additiivinen käsittelyvaikutus voidaan estimoida. Tarkastellaan tapausta, että aineistossa ei ole sidoksia. Sitä varten kirjoitamme tunnusluvun V r muotoon V r = j= j I(d i + d j > 0). (2.3) Tämä kaava voidaan todistaa helposti kun huomataan, että d i + d j > 0 on yhtäpitävää sen kanssa, että itseisarvoltaan suurempi luvuista d i, d j on positiivinen (tässä voi olla myös i = j). Oletamme sitten hetken, että erotusten indeksointi on tehty niin, että d < d 2 < < d N.

25 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 25 Silloin j I(d i + d j > 0) = 0, jos d j < 0, = j, jos d j > 0. Siis kaavan (2.3) oikea puoli on positiivisia erotuksia vastaavien järjestyslukujen summa, mikä on V r :n määritelmä. Käsittelyvaikutuksen estimaatti saadaan taas samalla periaatteella kuin aikaisemminkin. Etsitään sellainen, että havaintoparit (x, y,..., x N, y N ) tuottavat testisuureelle arvon N(N + )/4, joka on odotusarvo nollahypoteesin vallitessa. Erotukset ovat muunnetulle aineistolle y i x i = d i, ja vastaava testisuure on V r ( ) = j= j I(d i + d j > 2 ). Koska summattavia on N + N(N )/2 = N(N + )/2, vaadittu odotusarvo N(N + )/4 saadaan kun valitaan ( ) di + d j = median i j 2 Tätä estimaattoria voi käyttää, vaikka aineistossa olisi sidoksia. 2.3 Järjestyslukujen pisteytys 2.3. Täydelleen satunnaistettu koe Järjestyslukujen sijasta käytettän joskus niistä johdettuja pistemääriä, so. luvut,..., N korvataan pistemäärillä a N (),..., a N (N). Testisuureena käytetään sitten summaa a N (R ) + + a N (R n ), missä R i :t ovat käsittelyryhmän järjestysluvut.

26 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 26 Normaalipistemäärät (engl. normal scores) saadaan, kun asetetaan a N (r) = E(Z (r) ), r =, 2,..., N, missä Z () < Z (2) < < Z (N) on järjestetty otos Z,..., Z N normaalijakaumasta N(0, ). Niitä on hankala laskea, joten tavallisesti käytetään asymptoottisesti yhtäpitäviä pistemääriä (van der Waerden -pistemäärät) a N (r) = Φ (r/(n + )), missä Φ on N(0, ):n kertymäfunktio. Mediaanitestit saadaan kun valitaan a N (r) = 0, kun r (N + )/2, =, kun r > (N + )/2. Silloin testi suure kertoo moniko mittaus käsittelyaineistossa on yhtä suuri tai suurempi kuin koko aineiston mediaani. Mediaanitestin voimakkuus on useimmiten vähäisemoi kuin Wilcoxonin testin. Kun alkuperäiset vasteet ovat esim. elinaikoja, voidaan käyttää ns. eksponetiaalisia pistemääriä a N (r) = E(Z (r) ), r =, 2,..., N, missä Z () < Z (2) < < Z (N) on järjestetty otos eksponentiaalisesta jakaumasta Exp(). Silloin saadaan kaava Vastiparimenettely a N (r) = N + N + + N r +. Yksi vaihtoehto Wilcoxonin testille on antaa pisteet a N (r) = E( Z (r) ), missä Z,..., Z N on otos N(0,)-jakaumasta ja Z () < < Z (N) itseisarvojen mukaan järjestetty otos. Approksimaatio saadaan kaavasta ( a N (r) = Φ r 2(N + ) + ). 2 Merkkitesti saadaan valitsemalla yksinkertaisesti a N (r) = kaikille r. Molemmissa tapauksissa testisuureena käytetään positiivisia erotuksia vastaavaa summaa an (R i ).

27 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT Useita käsittelyjä Oletetaan, luvun.3 tilanne: Kokeessa on useita käsittelyjä, ja koeyksilöt on arvottu käsittelyryhmiin. Nollahypoteesi on, että käsittelyillä ei ole eroa. Analogisesti luvun 2. tapaan mittaluvut korvataan järjestysluvuilla, jotka lasketaan koko aineistosta. Oletaan, että ryhmien koot ovat n i, i =,..., k, N = n + + n k. Mitta luvut ovat y ij, i =,..., k, j =,... n i, ja vastaavat järjestysluvut R ij. Testisuure voidaan määritellä kaavana missä K = 2 N(N + ) k R i. = n i ( n i R i. N + ) 2, 2 n i j= R ij, so. ryhmän i järjestyslukujen keskiarvo. Neliösumman kerroin saadaan myös kaavasta N(N + ) 2 = = N N k ) 2 ( i N + 2 n i ( R ij N + ) 2. 2 j= Voimme siis kirjoittaa myös k K = n ( ) i Ri. N+ 2 2 k ni ( ) N j= Rij N Kerroin on valittu siten, että nollahypoteesin vallitessa E(K) = k. Testi on ns. Kruskal-Wallis -testi. Testisuureen jakauma saadaan käymällä läpi kaikki kokonaislukujen, 2,..., N jaot k ryhmään, joiden koot ovat n,..., n k. Kun kaikki ryhmäkoot n i, ja min n i / max n i λ, λ > 0, niin K χ 2 (k ) likimäärin nollahypoteesin vallitessa.

28 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 28 Kun aineistossa on sidoksia, käytetään keskijärjestyslukuja. Silloin kaava (2.4) pätee automaattisesti, kun sijoitetaan R ij :n paikalle vastaavat keskijärjestysluku Rij. Eksplisiittinen kaava on N ( Rij N + ) 2 = 2 N(N + ) 2 missä q ja z i :t ovat kuten luvussa 2.. 2(N ) q (zi 3 z i ), Jos ed. testillä päädytään siihen, että käsittelyillä on eroa, ryhmiä voi testata pareittain esim. Wilcoxonin järjestyslukusummatestillä ja kertoa saadun p-arvon tehtyjen testien lukumäärällä k(k )/2. i=i 2.4. Dikotominen vaste Oletetaan, että vaste on kaksiluokkainen, esim. tai 2. Silloin aineisto muodostaa k 2 taulun. Oletetaan, että rivin i frekvenssit ovat A i, B i. Summat A i +B i = n i ovat ryhmäkokoja, ja sidosten määrät ovat i A i = z ja i B i = z 2, z +z 2 = N. Keskijärjestysluvuilla on vain kaksi erilaista arvoa: (z + )/2, z + (z 2 + )/2, ja R i. = ( z + z 2 + A i + B i z + B i n i 2 2 Sijoitetaan B i = n i A i ja z 2 = N z. Algebrallisten laskujen jälkeen saadaan Kruskal-Wallis -testisuureen arvoksi ( k ) N(N ) A 2 i K = z2. (2.4) z z 2 n i N Jos kaavassa N korvataan N:llä, saadaan tavanomainen χ 2 -riippumattomuustesti. ) Kaksi käsittelyä ja multinomivaste Tarkastellaan nyt tilannetta, missä meillä on kaksi käsittelyä, mutta vaste on kategorinen l. luokitteleva, esim. C, C 2,..., C k. Oletetaan, että kontrolliryhmässä m ja käsittelyryhmässä n yksilöä. Nollahypoteesin mukaan

29 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 29 käsittelyllä ei ole vaikutusta, joten silloin ajattelemme taas, että, luokkien C i lukumäärät z i, i =,..., k ovat jo etukäteen olemassa. Koejärjestelyn kautta ne vain tulevat satunnaisesti arvotuksi kahteen ryhmään. Lopputuloksena on, että kontrolliryhmään tulee A i kpl vasteita C i, ja koeryhmään tulee B i kpl vasteita C i, i A i = m, i B i = n. Formaalisti sama lopputulos syntyy, kun ajatellaan, että kontrolli ja käsittelytunnukset, esim. m kpl :iä ja n kpl 2:ia arvotaan satunnaisesti k luokkaan siten, että luokkaan i arvotaan z i kpl tunnuksia. Lopputuloksena on sitten, että luokassa i on A i kpl kontrollitunnuksia ja B i kpl koetunnuksia. Lyhyesti sanottuna ikään kuin teemme vasteluokista käsittelyja ja käsittelykontrolli jaosta vasteen. Analyysi menee sitten samalla tavalla kuin luvussa Satunnaistetut lohkot Oletetaan luvun.4 tilanne: Koeyksilöt on ryhmitelty homogeenisiin lohkoihin. Lohkon koko on k, joka on sama kuin käsittelyjen määrä. Käsittelyt arvotaan erikseen kunkin lohkon sisällä. Järjestysluvut annetaan erikseen lohkon sisällä, so. kukin lohko sisältää järjestysluvut, 2,..., k. Nollahypoteesi on jälleen, ettei käsittelyillä ole eroa. Oletetaan nyt, että lohkossa j käsittelyn i saaneen yksilön järjestysluku on R ij, i =,..., k, j =,..., N. Käsittelyn i asemaa mitta nyt keskiarvo R i. = R ij. N Kaikkien järjestyslukujen keskiarvo on R.. = 2 (k +), sillä jokaisessa lohkossa ovat luvut, 2,..., k. Nollahypoteesia voidaan testata nyt Friedmanin testisuureella Q = 2N k(k + ) k j= ( R i. 2 (k + ) ) 2.

30 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 30 Neliösumman kerroin on jälleen valittu niin, että χ 2 (k )-jakauma on hyvä approksimaatio, kun N. Kerroin saadaan myös kaavasta k ( R ij k + ) 2 N k 2 = N j= j= Q = k k ( i k + ) 2 = 2 k(k + ), 2 so. k(k + )/2 on lohkojen sisäisten varianssien keskiarvo. Voimme siis kirjoitaa myös N k ( Ri. 2 (k + )) 2 N N j= k k ( ) Rij k+ 2 (2.5) 2 Jos aineistossa on sidoksia, korvataan R ij :t keskijärjestysluvuilla R ij, jolloin kaava (2.5) pätee. Huom. vain lohkon sisäiset sidokset otetaan huomioon Kaksi käsittelyä Nyt meillä on vastinparitilanne. Kontrolli vaste on x j ja käsittelyvaste y j, j =,..., N. Oletetaan aluksi yksinkertaisuuden vuoksi, ettei sidoksia ole. Vastaavat järjestyslukujen keskiarvot ovat vastaavasti R. = + I(x j > y j ) N R 2. = + N j= I(y j > x j ). Selvästi R. + R 2. = 3, joten ( ( Q = 4N R N 2 = 4N I(d i > 0) 2) 2), missä d i = y i x i. Huom. j I(d i > 0) Bin(N, 2 ), mihin testi voidaan perustaa. Kysymyksessä on ns. merkkitesti. Jos aineistossa on nollaerotuksia z 0 kpl, poistetaan ne, ja silloin j I(d i > 0) Bin(N z 0, 2 ). j= j=

31 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT Cochranin ja McNemarin testit Oletetaan, että. vaste on kaksiluokkainen 0,, 2. j. lohkossa on L j ykköstä ja k L j nollaa, 3. käsittelyyn i liittyy B i ykköstä ja N B i nollaa. Nollaa vastaava keskijärjestysluku on j. lohkossa on 2 (k L j + ) ja ykköstä vastaava keskijärjestysluku on k L j (L j + ) = k 2 L j + 2. Erinäisten algebrallisten laskutoimitusten jälkeen testisuureen kaavaksi saadaan Q = k(k ) k (B i B) 2 k N j= L j. N j= L2 j Laskut voi tietysti tehdä myös kaavan (2.5) avulla. Nimittäjä on vakio permutaatioiden suhteen, vain osoittaja vaihtelee. Tätä testiä sanotaan Cochranin testiksi. McNemarin testi saadaan tästä erikoistapauksena, kun käsittelyjä on kaksi. Sitä on kuitenkin helpompi lähestyä luvun 2.5. kautta. Lohkot ovat nyt vastinpareja, ja mahdolliset parin (x i, y i ) arvot ovat (0, 0), (0, ), (, 0), (, ). Oletetaan, että niitä on järjestyksessä A, B, C, D kpl. Silloin luvun 2.5. testisuure I(d i > 0) = B, j= ja nollaerotusten lukumäärä on z 0 = A + D. Luvun 2.5. tulosten mukaisesti B Bin(N A D, 2 ). Koska N A D = B+C, tarvitsemme vain ne parit, jotka tuottavat eri vasteet. Silloin niiden osuus, joissa käsittely on "onnistunut", noudattaa binomijakaumaa nollahypoteesin vallitessa, B Bin(B + C, 2 ).

32 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT Oikaistut järjestysluvut Friedmanin testin testin voimakkuutta voi usein kasvattaa käyttämällä ns. oikaistuja järjestyslukuja. Oletetaan, että lohkot poikkeavat ennen kaikkea keskiarvoltaan. Voimme vähentää havainnoista lohkokeskiarvon, so. siirrtytään arvoihin ỹ ij = y ij ȳ.j, ȳ.j = k i Seuraavaksi annetaan järjestysluvut R ij = Rank (ỹ ij ) koko aineiston suhteen, so. jaetaan luvut,..., kn. Tämä on perusteltua, koska lohkot on tehty vertailukelpoisiksi. Sidosten sattuessa käytetään keskijärjestyslukuja. Tarvitsemme vielä keskiarvot R i. = R ij, N Testi suure on R.j = k R.. = kn Q = j= k R ij, j= k j= N ( k Ri. N N j= k k y ij. R ij = (kn + ). 2 ) 2 2 (kn + ) ( Rij kn+ 2 ) 2. Huom. Q:n nimittäjä on vakio permutaatioiden suhteen. Tarkka jakauma saadaan, kun käydään läpi kaikki k! permutaatiota kunkin lohkon sisällä toisistaan riippumatta, so. (k!) N permutaatiota kaikkiaan. Huom. Siis järjestysluvut koko aineiston suhteen, mutta permutaatiot lohkon sisällä.

33 2 JÄRJESTYSLUKUIHIN PERUSTUVAT MENETELMÄT 33 Voimme tietysti keskiarvokorjauksen sijasta käyttää mediaania tai trimmattua keskiarvoa tms. Voimme myös korjata skaalan suhteen, jos se näyttää tarpeelliselta, vrt. luku.4. Oleellista on, että korjaus on invariantti permutaatioiden suhteen. Jälleen, kun N, pätee nollahypoteesin vallitessa likimäärin Q χ 2 (k ).

34 3 POPULAATIO JA SATUNNAISOTOS 34 3 Populaatio ja satunnaisotos Tähän asti johtopäätöksemme ovat perustuneet pelkästään kokeen tekijän suorittamaan satunnaistamiseen. Seuraavaksi tarkastelemme populaatiomalleja niistä poimittuja satunnaisotoksia. Edellä kuvattujen satunnaistamismallien heikkous on siinä, että johtopäätökset koskevat vain niitä yksilöitä, jotka osallistuvat kokeeseen. Mutta esim. lääketutkimuksessa olemme tietysti kiinostuneita kaikista potentiaalisista lääkkeen käyttäjistä. Kaikkein luotettavin keino tällaisen yleistyksen tekemiseen perustuu siihen, koeyksilöt on poimittu satunnaisesti populaatiosta, josta olemme kiinostuneita esim. yksinkertaisella satunnaisotanalla. Silloin jokaisella N yksilön joukolla on sama todennäköisyys tulla poimituksi otokseen. Harkinnanvarainen koeyksilöiden poiminta on yleensä epäluotettavaa. Usein yksinkertaisen satunnaisotoksen poiminta on kuitenkin esim. suurista ihmispopulaatioista käytännöllisistä syistä vaikeaa: täytyy olla lista populaatiosta ja huolehtia, että poimitut todella tulevat otokseen. Toinen periaattellinen vaikeus on, että populaatiot muuttuvat ajassa, ja että olemme kiinnostuneita tulevaisuuden populaatiosta, jota ei vielä ole. Siis suotuisimmissakin tilanteissa harkintaa tarvitaan, kun halutaan yleistää otoksesta saatavat johtopäätökset muualle maailmaan ja toiseen aikaan. Populaatiolla jatkossa tarkoitetaan, ei niinkään yksilöiden muodostamaa joukkoa, vaan yksilöistä mittaamalla saatujen lukujen joukkoa. Niinpä tärkeitä käsitteitä ovat satunaismuuttujat ja niiden kertymäfunktiot. Esim. Oletetaan, että satunnaisesti poimitusta yksilöstä mitattu arvo (esim. verenpaine) x. Sen kertymäfunktio on todennäköisyys P (x x ) = F (x ). Poimitaan satunnaisesti toinen yksilö, joka edellisestä poiketen saa käsittelyn ja jonka mittaluku on y ja P (y y ) = G(y ). Nollahypoteesi, ettei käsittelyllä ole vaikutusta saa muodon F = G.

35 3 POPULAATIO JA SATUNNAISOTOS Kaksi käsittelyä tai ominaisuutta 3.. Mallit Tarkastellaan seuraavia malleja Malli. Satunnaistamismalli kahden käsittelyn vertaamiseksi. Koeyksilöt, N kpl, on annettu ja m yksilöä arvotaan käsittelyyn ja n yksilöä käsittelyyn 2. Toinen käsittelyista voi olla kontrolli. Tämä on lukujen. ja 2. tilanne. Malli 2. Populaatiomalli kahden käsittelyn vertaamiseksi. Koe yksilöt, N kpl, poimitaan yksinkertaisella satunnaisotannalla käsittelyjen potentiaalisten kohteiden populaatiosta. Käsittelyyn otetaan m yksilöä ja käsittelyyn 2 n yksilöä. Jako tehdään yksilöistä mitään tietämättä, esim. satunnaistamalla. Malli 3. Kahden ominaisuuden tai osapopulaation vertailu poimimalla otos kummastakin. Yksinkertaiset satunnaisotokset, kooltaan m ja n (m+ n = N), poimitaan molemmista osapopulaatioista. Malli 4. Kahden ominaisuuden tai osapopulaation vertailu poimimalla yksi otos yhdistetystä populaatiosta. Yksinkertainen satunnaisotos, N kpl, poimitaan yhdistetystä populaatiosta, jolloin saadaan satunnaisotokset, kooltaan m ja n, m + n = N osapopulaatioista. Otoskoot m, n ovat satunnaisia. Malli 5. Kahden mittausjoukon vertailu. Tehdään riippumattomat mittausasarjat kahdella menetelmällä tai kaksissa olosuhteissa. Käsitellään malleja 2 5. Otos- tai mittausarvoja merkitään nyt x,..., x m ja y,..., y n Näihin ryhmiin liittyviä kertymäfunktioita merkitään vastaavasti F :llä ja G:llä. Nollahypoteesit ovat, että käsittelyillä ei ole eroa, tai että osapopulaatoiden jakaumat ovat samat. Vastahypoteesit ovat että eroa on. Formaalisti H 0 : F = G, H A : F G.

36 3 POPULAATIO JA SATUNNAISOTOS 36 Nollahypoteesitilanteessa pätee siis, että x,..., x m, y,..., y n on satunnaisotos samasta jakaumasta. Kun nämä arvot on annettu, jokainen niiden permutaatio on yhtä todennäköinen. Tämän takia luvuissa. ja 2. esitetyt menetelmät p-arvojen laskemiseksi ovat nytkin käyttökelpoisia. Järjestyslukutestien osalta saamme tuloksen, että jos yhteinen kertymäfunktio F = G on jatkuva, sidosten ilmaantumisen todennäköisyys on 0, joten esim. Wilcoxonin kahden otoksen testi on täydelleen jakaumasta riippumaton. Populaatiomallien mukana tulee mahdolliseksi vertailla eri testejä voimakkuuslaskelmien avulla. Annetuilla otosmäärillä m ja n voimakkuuden laskeminen edellyttää useimmiten Monte Carlo -kokeita. Kun m, n, voimme tehdä analyyttisiä vertailuja Suurten otosten teoriaa Keskiarvoihin perustuva testi Oletetaan kertymäfunktiot F, G ja satunnaisotokset x,..., x m, y,..., y n kuten edellä. Tarkastellaan tilannetta, missä jakaumat poikkeavat vain sijaintinsa osalta G(y) = F (y ). Koetilateessa on käsittelyvaikutus. Jos > 0, niin P (y j > y) = G(y) = F (y ) > F (y) = P (x i > y), kun oletetaan, että F on aidosti kasvava. Siis käsittelyarvot ovat keskimäärin suurempia kuin kontrolliarvot. Helposti nähdään myös, että y j F. Kun oletetaan, että var(x i ) = τ 2 (samoin tietysti var(y j ) = τ 2 ), niin suurissa otoksissa (m, n ) ȳ x N[, τ 2 (/m + /n)]. (3.) Tarkastellaan yksinkertaisuuden vuoksi hypoteesiparia H 0 : = 0, H A : > 0. Suurissa otoksissa merkitsevyystason α testi hylkää H 0 :n, kun ȳ x > u α τ /m + /n, (3.2)

37 3 POPULAATIO JA SATUNNAISOTOS 37 missä u α = Φ ( α). Käytännössä τ on tuntematon ja joudutaan estimoimaan (ja ehkä käytetään t-jakaumaa eikä normaalijakaumaa) tai sitten lasketaan p-arvo permutoimalla (täydelleen luettelemalla tai Monte Carlo -simuloinnilla), mutta suurissa otosissa kaava (3.2) pitää silloinkin likimäärin paikkansa. Kaavoista (3.) ja (3.2) saadaan myös likimääräinen voimakkuus, sillä kun on todellinen arvo, niin hylkäämisen todennäköisyys on Π t ( ) P (ȳ x > u α τ /m + /n) ( ȳ x = P τ /m + /n > u α = Φ ( u α mn N τ ) τ /m + /n ) (3.3) Järjestyslukuihin perustuva testi Voidaan osoittaa, että Wilcoxonin järjestyslukutestin voimakkuus on likimäärin suurissa otoksissa ( mn ) Π W ( ) Φ u α N 2 f(t) 2 dt, (3.4) missä f(t) = F (t), so. tiheysfunktio. Trimmattuihin keskiarvoihin perustuva permutaatiotesti Suurissa otoksissa trimmattuihin keskiarvoihin perustuva testin voimakkuus on likimäärin ( ) mn Π q ( ) Φ u α, (3.5) N τ q

38 3 POPULAATIO JA SATUNNAISOTOS 38 missä 0 < q = r/n = s/m < /2 on trimmauksen suuruus ja ȳ q = x q = τq 2 = = n 2r m 2s ( 2q) 2 ( 2q) 2 n r j=r+ m s y (j) x (i) i=s+ { q q { ξq [F (t)] 2 dt + 2q[F ( q)] 2 } ξ q t 2 f(t) dt + 2qξ 2 q }, (3.6) missä ξ q = F ( q). Kaavassa on oletettu yksinkertaisuuden vuoksi, että F on symmetrinen origon suhteen, so. F (q) = F ( q) kaikilla 0 < q < (tai yhtä pitävästi F ( x) = F (x) kaikilla x). Vertailut Kiinnitetään nyt keskiarvotesteissä otoskoot m, n ja etsitään sellaiset otoskoot mc W, nc W sekä mc q, nc q, että näillä arvoilla Wilcoxonin testin ja trimmatttujen keskiarvojen testit tuottavat saman voimakkuuden kuin keskiarvotesti. Käänteisluvut /c W ja /c q antavat näiden kahden testin tehokkuuden keskiarvotestin suhteen. Saamme helposti, että ( ) 2 = 2τ 2 f(t) 2 dt c W = τ 2. c q τ 2 q Kaavasta (3.6) saadaan raja-arvo τq 2 [2f(0)] 2, kun q 2, joka antaa tehokkuuden, kun käytetään mediaania. Jos F on N(0, τ 2 )-jakauman kertymäfunktio, jolloin keskiarvotesti on optimaalinen, niin helppo lasku osoittaa, että f(t) 2 dt = 2τ π.

39 3 POPULAATIO JA SATUNNAISOTOS 39 Siis Wilcoxonin testin tehokkuus on tässä tapauksessa 3/π = eli varsin korkea. Trimmatun keskiarvon osalta saadaan, että τ 2 q = τ 2 ( ) 2uq ϕ(u ( 2q) 2 q ) + 2q + 2qu 2 q, missä u q = Φ ( q) kuten edelläkin ja ϕ on N(0,)-jakauman tiheysfunktio. Esim. q = 0. tuottaa tehokkuden Kun q /2, saadaan raja-arvona 2/π = 0.64, joka on tehokkus myös silloin kun käytetään estimaattina mediaania. 3.2 Useamman käsittelyn tai ominaisuuden vertailu populaatiomallissa Yleistys useamman käsittelyn populaatiomalliin ja useamman osapopulaation malliin tapahtuu analogisesti tämän luvun tapaan. 3.3 Vastinaparivertailu populaatiomallissa Luvuissa.2 ja 2.2 on kerrottu vastinaparimenettelystä satunnaistetussa kokeessa. Nyt esitetään vastaava populaatiomalli. Oletetaan, että N paria, (x, y ),..., (x N, y N ), poimitaan yksinkertaisella satunnaisotannalla parien populaatiosta. Pariin liittyvää 2-ulotteista kertymäfunktiota merkitään P (x i x, y i y ) = M(x, y ). Yksinkertaisuuden vuoksi sanotaan x-havaintoja kontrolleiksi ja y käsittelyhavainnoiksi. Asetetaan nollahypoteesi, ettei käsittelyllä ole vaikutusta. Sen matemaattinen muotoilu on, että parien (x i, y i ) ja (y i, x i ) jakaumat ovat samat, so. P (x i x, y i y ) = M(x, y ) = M(y, x ) = P (x i y, y i x ). (3.7) Oletamme edelleen, että jos käsittelyllä on vaikutusta, niin se ilmenee ennen kaikkea keskimääräisenä vasteen kasvuna tai vähenemisenä. Silloin on perusteltua siirtyä erotuksin d i = y i x i.

40 3 POPULAATIO JA SATUNNAISOTOS 40 Merkitään P (d i d ) = F (d ). Olettamuksesta (3.7) seuraa, että nollahypoteesin vallitessa satunnaismuuttujien d i ja d i jakaumat ovat samat, so. F (d ) = P (d i d ) = P ( d i d ) = P (d i d ) = F ( d ). Siis nollahypoteesin matemaattinen muoto on H 0 = F (d ) = F ( d ), kaikilla d. Tiheysfunktioiden avulla ilmaistuna nollahypoteesi on f(d ) = f( d ) kaikilla d. Testisuureeksi voidaan valita esim. keskiarvo d, trimmattu keskiarvo d q, Wilcoxonin testisuure sign (d i )Rank ( d i ), merkitestisuure sign (d i ) tms. Merkkitesti on yhtä pitävä mediaaniin perustuvan testin kanssa. Nollahypoteesin (3.3) vallitessa pätee ehdollisille jakaumille P (sign (d i ) = + d i ) = P (sign (d i ) = d i ) = 2. Tätä ominaisuutta käyttämällä voidaan laskea p-arvot permutaatiojakauman avulla täsmälleen samoin kuin satunnaistamismalleissa luvuissa.2 ja 2.2. Järjestyslukutestillä ja merkkitestillä on kuitenkin lisäksi se ominaisuus, että jos F on jatkuva jakauma, testit ovat täysin jakaumasta riippumattomia. Voimakkuuksille saadaan samantapaiset likiarvot kuin kahden riippumattoman otoksen tapauksessa: ( ) Π t ( ) Φ u α N τ ( Π W ( ) Φ u α N 2 Π q ( ) Φ (u α ) N τq Π sign ( ) Φ ( u α N ) 2f(0), ) f(t) 2 dt

41 3 POPULAATIO JA SATUNNAISOTOS 4 missä f(t) = F (t), erotusten d i tiheysfunktio nollahypoteesin tilanteessa. Tehokkuudet ovat samat kuin kahden riippumattoman otoksen tilanteessa. Edellä kuvatut testimenettelyt sopivat vieläkin yleisempään tilanteeseen. Voimme olettaa, että pari (x i, y i ) satunnaisesti poimittu populaatiosta, jonka kertymäfunktio on M i (x, y ) ja erotuksen y i x i kertymäfunktio on F i. Nollahypoteesiksi asetamme nyt H 0 : F i (d ) = F i ( d ) kaikilla arvoilla i. Merkkitesti on tässäkin tilanteessa täysin jakaumasta riippumaton. Vaikka tämä yleisyys näyttää hyvältä, joudumme taas pohtimaan yleistämisen ongelmaa uudelleen. Yleistys useamman käsittelyn tilanteeseen voidaan tehdä olettamalla, että lohkot on poimittu lohkojen populaatiosta. Kun käsittelyjä tai ominaisuuksia on k kpl, meidän otoksemme koostuu riippumattomista satunnaisvektoreista (x j, x 2j,..., x kj ), j =,..., N, joiden kertymäfunktio on M(x, x 2,..., x k) = P (x ij x, x 2j x 2,..., x kj x k). Nollahypoteesin mukaan käsittelyillä ei ole eroa. Tämä tarkoittaa, että kaikilla permutaatioilla (x π,j, x π2,j,..., x πk,j ) on sama jakauma. Matemaattisesti M(x, x 2,..., x k) = M(x π, x π2,..., x πk) kaikilla lukujen, 2,..., k permutaatioilla π, π2,..., πk.

Parametrittomat ja robustit menetelmät. Jukka Nyblom Jyväskylän yliopisto 2009

Parametrittomat ja robustit menetelmät. Jukka Nyblom Jyväskylän yliopisto 2009 Parametrittomat ja robustit menetelmät Jukka Nyblom Jyväskylän yliopisto 2009 1 Sisältö 1 Satunnaistamismalli ja permutaatiotestit 4 1.1 Täysin satunnaistettu koe, käsittely ja kontrolli 4 1.2 Vastinparivertailu,

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1 Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastollisia peruskäsitteitä ja Monte Carlo Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

10. laskuharjoituskierros, vko 14, ratkaisut

10. laskuharjoituskierros, vko 14, ratkaisut 10. laskuharjoituskierros, vko 14, ratkaisut D1. Eräässä kokeessa verrattiin kahta sademäärän mittaukseen käytettävää laitetta. Kummallakin laitteella mitattiin sademäärät 10 sadepäivän aikana. Mittaustulokset

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Mat Sovellettu todennäköisyyslasku A

Mat Sovellettu todennäköisyyslasku A TKK / Systeemianalyysin laboratorio Mat-.090 Sovellettu todennäköisyyslasku A Harjoitus 11 (vko 48/003) (Aihe: Tilastollisia testejä, Laininen luvut 4.9, 15.1-15.4, 15.7) Nordlund 1. Kemiallisen prosessin

Lisätiedot

Lohkoasetelmat. Kuusinen/Heliövaara 1

Lohkoasetelmat. Kuusinen/Heliövaara 1 Lohkoasetelmat Kuusinen/Heliövaara 1 Kiusatekijä Kaikissa kokeissa kokeen tuloksiin voi vaikuttaa vaihtelu, joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla on mahdollisesti vaikutusta vastemuuttujan

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analsin perusteet, kevät 007. luento: Kaksisuuntainen varianssianalsi Kai Virtanen Kaksisuuntaisen varianssianalsin perusasetelma Jaetaan perusjoukko rhmiin kahden tekän A ja B suhteen

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 17.11.2016/1 MTTTP5, luento 17.11.2016 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla likimain Jos X ~ Bin(n, p), niin X ~ N(np, np(1 p)), kun n suuri. 17.11.2016/2

Lisätiedot

riippumattomia ja noudattavat samaa jakaumaa.

riippumattomia ja noudattavat samaa jakaumaa. 12.11.2015/1 MTTTP5, luento 12.11.2015 Luku 4 Satunnaisotos, otossuure ja otosjakauma 4.1. Satunnaisotos X 1, X 2,, X n on satunnaisotos, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. Sanonta

Lisätiedot

2. TILASTOLLINEN TESTAAMINEN...

2. TILASTOLLINEN TESTAAMINEN... !" # 1. 1. JOHDANTO... 3 2. 2. TILASTOLLINEN TESTAAMINEN... 4 2.1. T-TESTI... 4 2.2. RANDOMISAATIOTESTI... 5 3. SIMULOINTI... 6 3.1. OTOSTEN POIMINTA... 6 3.2. TESTAUS... 7 3.3. TESTIEN TULOSTEN VERTAILU...

Lisätiedot

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut). KÄSITTEITÄ POPULAATIO Joukko, jota tutkitaan (äärellinen, ääretön). Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut). Näiden välillä ei aina tehdä eroa, kun puhutaan

Lisätiedot

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) Aalto-yliopisto 2017 Käytännön järjestelyt Luennot: Luennot maanantaisin (sali E) ja keskiviikkoisin (sali U4) klo 10-12 Luennoitsija: (lauri.viitasaari@aalto.fi)

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) Aalto-yliopisto 2016 Käytannön järjestelyt Luennot: Luennot ma 4.1. (sali E) ja ti 5.1 klo 10-12 (sali C) Luennot 11.1.-10.2. ke 10-12 ja ma 10-12

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Otanta Poisson- Jakaumien tunnusluvut Diskreetit jakaumat Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti Sosiaalitieteiden laitos Tilastotieteen jatkokurssi, kevät 20 7. laskuharjoitusten ratkaisuehdotukset. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Lisätiedot

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet Tilastotieteen jatkokurssi Sosiaalitieteiden laitos Harjoitus 5 (viikko 9) Ratkaisuehdotuksia (Laura Tuohilampi). Jatkoa HT 4.5:teen. Määrää E(X) ja D (X). E(X) = 5X p i x i =0.8 0+0.39 +0.4 +0.4 3+0.04

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1 Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus KE (2014) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset testit ja testisuureet Virheet

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto Metodifestivaali 28.5.2009 1 1 Mitä ihmettä on bootstrap? Webster: 1. a loop of leather or cloth sewn at the top rear, or sometimes on each side of a boot

Lisätiedot

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen MAT-5 Todennäköisyyslaskenta Tentti.. / Kimmo Vattulainen Vastaa jokainen tehtävä eri paperille. Funktiolaskin sallittu.. a) P A). ja P A B).6. Mitä on P A B), kun A ja B ovat riippumattomia b) Satunnaismuuttujan

Lisätiedot

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto Tutkimusaineistomme otantoja Hyödyt Ei tarvitse tutkia kaikkia Oikein tehty otanta mahdollistaa yleistämisen

Lisätiedot

031021P Tilastomatematiikka (5 op) viikko 5

031021P Tilastomatematiikka (5 op) viikko 5 031021P Tilastomatematiikka (5 op) viikko 5 Jukka Kemppainen Mathematics Division Hypoteesin testauksesta Tilastollisessa testauksessa on kyse havainnoista tapahtuvasta päätöksenteosta. Kokeellisen tutkimuksen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5 MS-A Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko Tilastollinen testaus Tilastollisten testaaminen Tilastollisen tutkimuksen kohteena olevasta perusjoukosta on esitetty jokin väite tai

Lisätiedot