Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Samankaltaiset tiedostot
Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Väliestimointi (jatkoa) Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Sovellettu todennäköisyyslaskenta B

11. laskuharjoituskierros, vko 15, ratkaisut

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Mat Tilastollisen analyysin perusteet, kevät 2007

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Mat Tilastollisen analyysin perusteet, kevät 2007

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

Tilastollisia peruskäsitteitä ja Monte Carlo

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Sovellettu todennäköisyyslaskenta B

Testit laatueroasteikollisille muuttujille

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

HAVAITUT JA ODOTETUT FREKVENSSIT

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Testejä suhdeasteikollisille muuttujille

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

S Laskennallinen systeemibiologia

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Mat Sovellettu todennäköisyyslasku A

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

10. laskuharjoituskierros, vko 14, ratkaisut

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testit järjestysasteikollisille muuttujille

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

031021P Tilastomatematiikka (5 op) viikko 5

2. TILASTOLLINEN TESTAAMINEN...

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Otoskoko 107 kpl. a) 27 b) 2654

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

1. Tilastollinen malli??

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Todennäköisyyden ominaisuuksia

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tutkimustiedonhallinnan peruskurssi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tutkimustiedonhallinnan peruskurssi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Mat Tilastollisen analyysin perusteet, kevät 2007

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

pisteet Frekvenssi frekvenssi Yhteensä

Tilastotieteen jatkokurssi syksy 2003 Välikoe

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

6. laskuharjoitusten vastaukset (viikot 10 11)

Teema 9: Tilastollinen merkitsevyystestaus

Estimointi. Otantajakauma

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Genetiikan perusteet 2009

Sovellettu todennäköisyyslaskenta B

52746 Geneettinen analyysi

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

Transkriptio:

Tilastollinen testaaminen tai Tilastollinen päättely Geneettinen analyysi

Tilastollisen testaamisen tarkoitus Tilastollisten testien avulla voidaan tutkia otantapopulaatiota (perusjoukkoa) koskevien väittämien tai käsitysten, hypoteesien, paikkansapitävyyttä. Esim. ovatko jonkin muuttujan keskiarvot kahdessa eri joukossa yhtä suuret? Vastaavatko genotyyppien lukusuhteet risteytysasetelman teoreettisia lukusuhteita? Tätä varten hankitaan otos: ensimmäisessä poimitaan otos kahdesta populaatiosta yksilöitä jälkimmäisessä esimerkissä tehdään risteytyskoe Tilastollisella testillä pyritään selvittämään, vastaako otos perusjoukon suhteen tehtyä hypoteesia. Toisaalta on myös mahdollista verrata kahta otosta toisiinsa. Testin tulos kertoo todennäköisyyden, jolla hypoteesi pitää paikkansa.

Tilastollisen testaamisen hypoteesit Testaukseen tarvitaan vertailtavia hypoteeseja. Hypoteesit kuvaavat vaihtoehtoisia päätelmiä, mitä me voimme tehdä aineistosta Kun verrataan esimerkissä muuttujan arvoa kahdessa joukossa hypoteesimme voisivat olla: H0: Muuttujan keskiarvot ovat samat kummassakin joukossa H1: Muuttujan keskiarvossa on (selvä) ero Hypoteesi H0 tavallaan kuvaa testistä riippuen tilanteita jossa Aineistossa ei ole signaalia. Ei ole mitään merkittävää poikkeamaa tavallisesta. Taustakohina (satunnaisvaihtelu) selittää saadut havainnot Hypoteesia H0 kutsutaan nollahypoteesiksi Hypoteesi H1 kuvaa tilanteita jossa: Aineistossa on signaali Aineistossa on merkittävä poikkeama tavallisesta Taustakohina tai satunnainen vaihtelu ei riitä selittämään tuloksia Hypoteesia H1 kutsutaan vastahypoteesiksi http://fi.wikipedia.org/wiki/tilastollisen_hypoteesin_testaus

Tilastollisen testaamisen hypoteesit Nollahypoteesi (merkitään H 0 ) kuvaa vakiintunutta käsitystä tai väittämää, josta ollaan valmiita luopumaan vasta, kun sitä vastaan saadaan kyllin vahvoja todisteita Esim. halutaan verrata, onko jollakin lääkeaineella vaikutusta. Tällöin verrataan keskenään koe- ja kontrolliryhmiä, ja nollahypoteesina on se, että eroa ei ole vastahypoteesi, H 1, kuvaa tilannetta jossa vakiintunut käsitys ei päde Edellisessä esimerkissä H 1 olisi: ryhmien välillä on eroa.

Tilastollisen testaamisen periaatteet Testaus voidaan tehdä vertailemalla kuinka hyvin H0 ja H1 selittävät havaitun aineiston Määritellään kumpikin malli Testataan kuinka hyvin ne selittävät havainnot Verrataan malleja toisiinsa Uskottavuusosamäärä (Likelihood ratio test) Bayesilainen testaus (Bayesian hypothesis testing) Testaus voidaan tehdä käyttäen vain nollahypoteesia H0 Määritellään vain H0 Testataan kuinka hyvin se selittää nähdyt havainnot Testaus p-arvolla Keskitymme jälkimmäiseen

Tilastollisen testaamisen periaatteet Jälkimmäisessä testauksessa tutkitaan, kuinka hyvin otos on sopusoinnussa nollahypoteesin kanssa. Tätä sopusointua mitataan testisuureen eli sopivan otoksesta lasketun tunnusluvun avulla. Tunnusluku voisi olla kahden ryhmän (sairaat ja kontrolliryhmä) mittauksen keskiarvojen erotus jaettuna ryhmien sisällä olevalla varianssilla Testisuureen arvoa verrataan testisuureen teoreettiseen (tai odotettuun) jakaumaan (nollahypoteesin vallitessa) Tämä jakauma kertoo siis testisuureen arvojen todennäköisyyden, mikäli nollahypoteesi on totta. Testaus voi perustua myös suoraan johonkin teoreettiseen jakaumaan Esimerkiksi binomijakauman avulla voitaisiin tutkia todennäköisyyttä että tutkitussa otoksessa on satunnaisesti 5 sairasta ja 10 tervettä kun taudin frekvenssi tiedetään

Varovaisuusperiaatteen mukaisesti vasta, jos testisuureen arvo poikkeaa teoreettisesta niin paljon, että sellaisia esiintyy vain harvoin pelkän satunnaisvaihtelun vaikutuksesta, uskalletaan nollahypoteesi hylätä. Tällöin siis otoksessa havaitut poikkeamat nollahypoteesista ovat niin suuria, että niitä ei voi pitää enää satunnaisuudesta johtuvina

Tilastollinen merkitsevyys Testisuureen nollahypoteesin mukaisen jakauman perusteella voidaan määrittää niin kutsuttu p-arvo. p-arvo kertoo sen osuuden nollahypoteesijakauman käyrän rajaamasta pinta-alasta, joka jää havaitusta testisuureen arvosta vielä äärevämmälle puolelle. p-arvo ilmaisee tuloksen tilastollisen merkitsevyyden tason, eli sen todennäköisyyden, että yhtä äärevä tai vielä äärevämpi tulos saataisiin, vaikka otos olisikin itse asiassa peräisin nollahypoteesin mukaisesta perusjoukosta.

Huom! Tilastollisella testillä ei voida koskaan aukottomasti osoittaa jonkin hypoteesin paikkansapitävyyttä, ainoastaan millä varmuudella se voidaan hylätä Huom! Tilastollinen merkitsevyys ja arkipäiväinen merkitsevyys eivät välttämättä ole synonyymisiä ilmaisuja Yleensä tilastollisesti merkitsevänä pidetään p- arvoa 0,05 eli tämän suuruiset tai sitä pienemmät p-arvot johtavat nollahypoteesin hylkäämiseen kyseessä on kuitenkin jossain määrin mielivaltainen arvo, joissakin tapauksissa voi olla syytä pitää vasta vielä pienempiä p-arvoja tilastollisesti merkitsevinä Usein suositellaan pienempää rajaa eli 0,01 Tilastollisesti ennalta merkitseväksi valittua p- arvon tasoa kutsutaan merkitsevyystasoksi.

Tilastollisessa testaamisessa voidaan tehdä kahden tyyppisiä virheitä: I-tyypin virhe = hylkäämisvirhe: hylätään H 0 vaikka H 0 on tosi. II-tyypin virhe = hyväksymisvirhe: hyväksytään H 0 vaikka H 1 on tosi. H 0 hyväksytty hylätty Tosi % I-tyypin virhe väärä II-tyypin virhe %

Jos nollahypoteesin mukaisesta perusjoukosta poimittaisiin toistuvasti riippumattomia otoksia ja niistä laskettaisiin testisuureen arvot, hylättäisiin nollahypoteesi keskimäärin merkitsevyystason antamassa osuudessa

Tilastollisia testejä Tilastollisia testejä on paljon kullakin on oma käyttötarkoituksensa Ei siis ole mitään yleispätevää testiä kaikkeen! Sopivan testin valinta riippuu havaintoaineiston ominaisuuksista, esim. Mitta-asteikosta (jatkuva vai diskreetti muuttuja?) Muuttujan jakaumasta Otosten riippuvuus vs. riippumattomuus Havainnot toisistaan riippumattomia?

2 -yhteensopivuustesti Biotieteissä testataan usein luokkien jakaumaa ja tutkitaan eroavatko luokkien jäsenten lukumäärät oletetusta (H0) Luokka voi olla esim. silmien väri Tällä kurssilla käytämme diskreettien jakaumien testaamiseen 2 -testejä A1A1 A1A2 A2A2 Havaittu 31 89 122 Huomaa että odotetut arvot eivät ole kokonaislukuja. Tämä selittyy myöhemmin. Odotettu 23,56 103,89 114,55

2 -yhteensopivuustesti Esimerkki 23: Populaatiosta on kerätty otos josta määritetään yksilöiden genotyypit. Halutaan selvittää, onko genotyyppijakauma ns. Hardy-Weinbergin tasapainossa. A1A1 A1A2 A2A2 summa Havaittu 31 89 122 242 Taustatietona: Hardy-Weinbergin-tasapainossa genotyyppifrekvenssien jakauma on p 2, 2pq, q 2, jossa p ja q ovat alleelien (A1 ja A2) frekvenssit.

Miltä genotyyppijakauman tulisi näyttää, mikäli aineisto on HW-tasapainossa? Otetaan tämä nollahypoteesiksi. Tarvitaan estimaatit alleelifrekvensseille: Voimme laskea alleelifrekvenssit aineiston avulla (eli estimoimme ne genotyyppiaineistostamme). Alleelin A1 frekvenssi: p 2 31 89 2 242 0,312 Alleelin A2 frekvenssi on siten: q=1-p=1-0,312=0,688

HW-tasapainossa aineistossa tulisi siten olla seuraavat määrät kutakin genotyyppiä: A1A1: p 2 N = 0,312 2 242 = 23,56 A1A2: 2pq N = 2 0,312 0,688 242 = 103,89 A2A2: q 2 N = 0,688 2 242 = 114,55 Verrataan havaintojamme odotettuihin frekvensseihin: A1A1 A1A2 A2A2 summa Havaittu 31 89 122 242 Odotettu 23,56 103,89 114,55 242,00

Kuinka hyvin otoksemme siis on sopusoinnussa nollahypoteesin kanssa? Sopusointua mitataan testisuureen avulla Tutkittaessa yksinkertaisten diskreettien jakaumien yhteensopivuutta on kätevää käyttää 2 - yhteensopivuustestiä Perusajatuksena on verrata luokittain havaittuja frekvenssejä (hav) odotettuihin frekvensseihin (od). Sen testisuure lasketaan seuraavasti: 2 k ( hav i od i 1 odi i ) 2

missä k on luokkien lukumäärä. Testisuureen arvoksi saadaan nyt siis 2 ( havi od i 1 odi ) 3 2 i (31 23,56) 23,56 2 (89 103,89) 103,89 2 (122 114,55) 114,55 2 4,97 Mitä tämä luku tarkoittaa?

Me tarvitsemme jakauman testisuureelle silloin aineistossa ei ole signaalia (nollahypoteesi) 2 -testisuureelle tällainen jakauma on 2 -jakauma 2 -jakaumaa varten meidän täytyy määrittää vapausaste Mikä on vapausaste?

Vapausasteet kuvaavat sitä kuinka monta vapaata muuttujaa monimutkikkaammassa mallissa on. Mitä muuttujia arvioidaan kun oletetaan signaali? Mitä muuttujia arvioidaan kun oletetaan nollahypoteesi? Periaatteessa yhteensopivuustestissä vapausasteita on yksi vähemmän kuin luokkien määrä, mutta mikäli joitakin parametreja joudutaan estimoimaan, ne vähennetään vapausasteiden määrästä.

Siis vapausasteet ovat luokkien lkm - 1 - odotettujen frekvenssien määräämiseksi estimoitujen parametrien lkm. Esimerkissämme df=3-1-1=1, eli luokkia on yhtä monta kuin genotyyppejä. Alleelifrekvenssi jouduttiin estimoimaan testattavana olevasta aineistosta jotta odotettu genotyyppijakauma saataisiin tietää, joten sen vuoksi vähennetään vielä 1. (Vain yksi parametri tuli estimoitua, koska toinen alleelifrekvenssi seuraa suoraan ensimmäisestä: q=1-p!) Jos kaikki testaamiseen tarvittava tieto saadaan suoraan hypoteesista (kuten esim. mendelismiesimerkissä), mitään parametreja ei tarvitse estimoida ja vapausasteiden määrä on sama kuin luokkien määrä miinus 1)

Taulukko antaa 2 -jakauman pinta-aloja eli todennäköisyyksiä pisteestä 2 p (kriittinen arvo) oikealle, merkitsevyystason p eri arvoilla ja eri vapausasteilla. Esim. jos df=1 niin pisteestä 3,841 oikealle jää todennäköisyys 0,05 eli P( 2 1>3,841)=0,05 Esimerkissämme testisuureen arvoksi tuli 4,97: todennäköisyys nollahypoteesin ollessa totta saada näin suuri tai vielä suurempi testisuureen arvo on siis pienempi kuin viisi prosenttia. Mikäli saatu testisuureen arvo ylittää valitun merkitsevyystason kriittisen arvon 2 p, on poikkeama nollahypoteesista tilastollisesti merkitsevä. Tällöin nollahypoteesi hylätään merkitsevyystasolla p. Esimerkin tapauksessa nollahypoteesi voidaan siis hylätä merkitsevyystasolla 0,05, eli esimerkin genotyypit eivät ole H-Wtasapainossa.

2 -jakauman kriittisiä arvoja joillakin merkitsevyystasoilla p ja vapausasteiden df arvoilla df 0,995 0,9500 0,100 0,050 0,025 0,010 0,005 1 0,000 0,004 2,706 3,842 5,024 6,635 7,879 2 0,010 0,103 4,605 5,992 7,378 9,210 10,597 3 0,072 0,352 6,251 7,815 9,348 11,345 12,838 4 0,207 0,711 7,779 9,488 11,143 13,277 14,860 5 0,412 1,146 9,236 11,071 12,833 15,086 16,750 6 0,676 1,635 10,645 12,592 14,449 16,812 18,548 7 0,989 2,167 12,017 14,067 16,013 18,475 20,278 8 1,344 2,733 13,362 15,507 17,535 20,090 21,955 9 1,735 3,325 14,684 16,919 19,023 21,666 23,589 10 2,156 3,940 15,987 18,307 20,483 23,209 25,188 11 2,603 4,575 17,275 19,675 21,920 24,725 26,757 12 3,074 5,226 18,549 21,026 23,337 26,217 28,300 13 3,565 5,892 19,812 22,362 24,736 27,688 29,819 14 4,075 6,571 21,064 23,685 26,119 29,141 31,319 15 4,601 7,261 22,307 24,996 27,488 30,578 32,801

2 -riippumattomuustesti Riippumattomuustestillä selvitetään, riippuvatko tarkasteltavat muuttujat toisistaan. Testisuure on sama kuin edellä, mutta käyttötarkoitus ja tarkasteltavat hypoteesit erilaisia. Geneettisen aineiston tapauksessa kyseeseen tulee vaikkapa populaatioiden alleelifrekvenssien vertailu: muodostetaan kaksiulotteinen empiirinen jakauma eli kontingenssitaulu muuttujien alleelityyppi ja populaatio välille: Esimerkki 24: Populaatio 1 Populaatio 2 Populaatio 3 alleeli A1 76 295 160 531 alleeli A2 62 215 132 409 138 510 292 940

H 0 : Muuttujat eivät riipu toisistaan (eli alleelin esiintymistodennäköisyys ei riipu populaatiosta vaan alleelifrekvenssi on sama kaikissa populaatioissa). Odotetut frekvenssit lasketaan nollahypoteesin mukaisesti: Kolmen populaation yhteinen alleelifrekvenssi alleelille A1 on 531/940 Silloin odotettu lukumäärä esim. populaatiossa 1 on alleelifr. populaation alleelien lkm = 531/940 138 78,0. Näin saadaan nyrkkisääntö kunkin solun odotetulle määrälle: i : s. rivisumma j : s. sarakesumma od ij kokonaissumma

Odotetut frekvenssit: Populaatio 1 Populaatio 2 Populaatio 3 alleeli A1 78,0 288,1 164,9 alleeli A2 60,0 221,9 127,1 Havaittuja solufrekvenssejä hav ij (rivi i, sarake j) verrataan vastaaviin odotettuihin solufrekvensseihin od ij kuten 2 -yhteensopivuustestissä. Luokkina ovat nyt taulukon solut.

2 ( hav ) 2 2 2 2 2 2 ij odij (76 78,0) (295 288,1) (160 164,9) (62 60,0) (215 221,9) (132 127,1) i, j od 78,0 288,1 164,9 60,0 221,9 127,1 ij 0,834 Mikäli havaituissa ja odotetuissa frekvensseissä on suuria poikkeamia, nämä eivät johdu sattumasta vaan muuttujien välisen riippumattomuushypoteesin virheellisyydestä. Vapausasteet voi laskea suoraan kaavasta df=(r-1)(s-1)***, missä r on rivien lkm ja s sarakkeiden lkm. Esimerkissä df=(2-1)(3-1)=2 Tässä tapauksessa p>0,10, joten H 0 jää voimaan

***Mistä sääntö tulee? Vapausasteiden laskemisessa voidaan käyttää yleistä periaatetta: df = vaihtoehtoisen hypoteesin vaatimien parametrien määrä nollahypoteesin vaatimien parametrien määrä. Nyt vaihtoehtoinen hypoteesi olettaa tekijöiden olevan toisistaan riippuvia, jolloin joudutaan estimoimaan kaikkien solujen lukumäärät erikseen eli tarvitaan s*r 1 parametria (koskapa viimeisen solun lukumäärä saadaan: N muut) Vastaavasti nollahypoteesissä oletetaan, että tekijät ovat toisistaan riippumattomia eli estimoidaan erikseen alleelija populaatiofrekvenssit, jolloin parametrien lukumäärä on (s-1) + (r-1). Näiden erotus on s*r 1 (s 1 + r 1) = s*r s r + 1 = (r-1)(s-1)

2 -testien käyttörajat: korkeintaan 20 % odotetuista frekvensseistä <5 jokainen odotettu frekvenssi >1 Mikäli nämä vaatimukset eivät voimassa, poikkeaa testisuureen jakauma liikaa asymptoottisesta 2 - jakaumasta. Tällöin testi aliarvioi havaittua merkitsevyystasoa eli johtaa liian herkkään toden nollahypoteesin hylkäämiseen (I-tyypin virhe). Tämä haitta voidaan usein kiertää yhdistelemällä luokkia sopivasti. (Yhdistely luonnollisesti vaikuttaa vapausasteiden määrään) Huom! 2 -testit aina absoluuttisilla lukumäärillä, ei suhteellisilla osuuksilla! Jos kummallakin tekijällä on vain kaksi luokkaa ja luokkien koot ovat pieniä, 2 -testi ei ole paras mahdollinen (asymptoottisuus-oletus). Tällöin voidaan käyttää Fisherin tarkkaa nelikenttätestiä.

Muutama käsite vielä: Testien sensitiivisyys ja spesifisyys Hyvien seulontatestien tulee olla paitsi halpoja myös tehokkaita löytämään juuri ne henkilöt, joilla on esim. riskigenotyyppi tai tauti. Testeissä on seuraavat tulosvaihtoehdot: Sairas Positiivinen tulos A B Negatiivinen tulos C D Normaali Testin sensitiivisyys: A/(A+C) on todennäköisyys, jolla sairas henkilö saa testissä positiivisen tuloksen eli hänet löydetään. Testin spesifisyys: D/(B+D) on todennäköisyys, jolla normaali (terve) henkilö saa negatiivisen tuloksen eli normaalia ei erheellisesti väitetä sairaaksi. Väärien positiivisten osuus: B/(A+B) on se osuus kaikista positiivisista testituloksista, joissa testattava henkilö onkin normaali ERITTÄIN TÄRKEÄÄ MM. GEENITESTEISSÄ!