Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto



Samankaltaiset tiedostot
Testejä suhdeasteikollisille muuttujille

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Väliestimointi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

S Laskennallinen systeemibiologia

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Testit järjestysasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Hypoteesin testaus Alkeet

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Sovellettu todennäköisyyslaskenta B

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Sovellettu todennäköisyyslaskenta B

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

5.7 Uskottavuusfunktioon perustuvia testejä II

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Todennäköisyyden ominaisuuksia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastolliset menetelmät: Tilastolliset testit

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Sovellettu todennäköisyyslaskenta B

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Geenikartoituksen käsitteet ja lähestymistavat

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

1. Tilastollinen malli??

11. laskuharjoituskierros, vko 15, ratkaisut

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Maximum likelihood-estimointi Alkeet

HAVAITUT JA ODOTETUT FREKVENSSIT

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

tilastotieteen kertaus

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1

Identifiointiprosessi

Sovellettu todennäköisyyslaskenta B

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

805306A Johdatus monimuuttujamenetelmiin, 5 op

ARVIOINTIPERIAATTEET

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Normaalijakaumasta johdettuja jakaumia

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

10. laskuharjoituskierros, vko 14, ratkaisut

Osa 2: Otokset, otosjakaumat ja estimointi

Genetiikan perusteet 2009

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

9. laskuharjoituskierros, vko 12-13, ratkaisut

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Mat Sovellettu todennäköisyyslasku A

2. TILASTOLLINEN TESTAAMINEN...

pitkittäisaineistoissa

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

pitkittäisaineistoissa

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Transkriptio:

Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät yhdessä Yksipisteanalyysi: käytetään yhtä markkeria kerrallaan Monipisteanalyysi: käytetään useita markkereita Kytkentäanalyysi havaitut rekombinaatiot perheaineisto Parametrinen - periytymismalli määrätty Geenikartoitusmenetelmät Assosiaatioanalyysi kytkentäepätasapaino Ei-parametrinen historialliset rekomb. - periytymismallia populaatioaineisto ei määrätty TT TT periytymisen epätasapainotesti Suurimman uskottavuuden menetelmä ML (maximum likelihood) Hyvin yleisesti käytetty lähestymistapa tilastollisissa estimointitehtävissä. Hypoteesien määrittely. Uskottavuusfunktion muodostaminen. Estimointi. Hypoteesien testaus 5. Tilastolliset johtopäätökset Uskottavuusfunktio: koko aineisto L = P(Y,M θ) = P(M)P(Y M,θ) = Σ G M P(M) P(G M M,θ)P(Y G M,θ) = Σ G M Σ GQ P(M) P(G M M,θ) P(G Q G M,θ) P(Y G Q,θ) = Σ G P(M) P(G M,θ)P(Y G,θ) (G=G M G Q ) missä Y Aineistossa esiintyvät fenotyypit M Markkeriaineisto G M - Markkereiden enotyyppejä G Q Sairauslokusten enotyyppejä θ - Rekombinaatiofraktion arvo (estimoitava) Uskottavuusfunktio: yksi ydinperhe P( ) ja P( M ) O O M L j = Σ P( ) P(y ) Σ M P( M )P(y M M ) Σ Oi P( Oi, M ) P(y Oi O ) P( ) ja P( M ) : vanhempien enotyyppitodennäköisyys (tauti- ja markkerilokuksissa) P( Oi, M ) : jälkeläisen i enotyyppitodennäköisyys P(y ) : penetranssi Perustajayksilön (founder) enotyypin todennäköisyys Samoin myös ns. sukuun avioituneille (marriedin) yksilölle Riippuu alleelifrekvensseistä (annetaan etukäteen) sairausalleelin frekvenssi markkerialleeleiden frekvenssit

ESIM: Äidin enotyyppi tuntematon?? populaatiofrekvenssit: P(alleeli )=., P()=.76 ja P()=. -> todennäköisyydet äidille P( M =)= *.*.=. P( M =)= *.76*.=.5 <- Äiti luultavasti P( Oi, M ) Lapsen enotyypin todennäköisyys, annettuna vanhempien enotyypit Genotyyppi sisältää sekä tautilokuksen että sitä ympäröivät markkerilokukset perustuu markkerien välisiin etäisyyksiin ja tautilokuksen paikkaan markkereihin nähden uskottavuusfunktion arvo riippuu näin rekombinaatiofraktiosta θ. ESIM: haplotyyppikonfiuraatiot? Vanhempien haplotyyppit tunnetaan -> Jälkeläisten mahdolliset haplotyyppikonfiuraatiot Tn enotyypille /: P( Oi =/ =/, M =/)=(-θ)(-θ) Tn enotyypille /: P( Oi =/ =/, M =/)= θ Jos etäisyys lokusten välillä on esim. cm -> P( Oi =/ =/, M =/)=.99 =.98 P( Oi =/ =/, M =/)=. =. Todennäköisyys P( y ) Penetranssifunktio (fenotyypin ja enotyypin suhde) Yksinkertaistettu oletus ominantti/resessiivinen fenokopiot / alentunut penetranssi P(sairas AA) =. P(terve AA) =. P(sairas Aa) =. P(terve Aa) =. P(sairas aa) =.9 P(terve aa) =. Annetaan etukäteen Riippumattomille perheille oheinen uskottavuusfunktio oli yhdelle ydinperheelle käytännössä perheissä useampi sukupolvi (sukupuu, pediree) toisistaan riippumattomien perheiden (sukupuiden) uskottavuusfunktiot yhdistetään L = Π L j tai lol = Σ lo L j Hypoteesin testaus Lasketaan uskottavuusfunktion arvot nolla- ja vaihtoehtoisen hypoteesin vallitessa. Esimerkiksi kaksipisteanalyysissä, jossa tarkastellaan kahta eri lokusta samaan aikaan. H : θ =.5 ominaisuuteen vaikuttava lokus ei ole kytkeytynyt tarkasteltavan lokuksen/kytkentäryhmän kanssa H A : θ.5 ominaisuuteen vaikuttava lokus on kytkeytynyt tarkasteltavan lokuksen/kytkentäryhmän kanssa

Hypoteesit kytkentäanalyysissä Hypoteesit H : θ =.5 ja H A : θ.5 Lasketaan uskottavuudet L =θ =.5) ja L A =θ.5) L A Etsitään maksimi uskottavuusfunktion arvo ja tätä vastaava rekombinaatiofraktio θ Hypoteesi testataan uskottavuusosamäärällä λ=ln(l A /L ) λ ~Chi(n/), vapausaste n vapaiden parametrien lkm Tästä saadaan LO (Loarithm of odds) arvo Z, jota käytetään uskottavuusosamäärän testisuureena (λ=.6z): θ = θ ') Z = LO( θ') = lo = lo θ = θ ') lo θ =.5) θ =.5) Merkitsevyystasoista P-arvo kuvaa todennäköisyyttä että nollahypoteesi hylätään, vaikka se on tosi. LO-scoren raja vastaa likimäärin yksittäisen testin p-arvoa.. Genominlaajuisessa eenikartoituksessa tehdään monta (toisistaan riippuvaa) tilastollista testiä. Em. rajaa soveltaen toisistaan riippumattoman testin kokonaismerkitsevyystaso olisi - (-.) =.9 <.5 Esimerkki ML-arvioinnista Yksi markkeri, dominantti sairausmalli (-> välttämättä tullut isän puolelta) Kaikki enotyypit tunnettuja,, LO( θ ') = lo θ = θ ') = θ = / ) Isän haplotyyppikombinaatiot ( P( ( P( ) ) Oi Oi P( P( Oi Oi, θ = θ ')), θ = / )),,,,,,, Lasten haplotyyppikombinaatiot, jos lokukset kytkeytymättömiä,,,,,,,,, = sairas ½ ½ = normaali -θ θ -θ θ -θ θ -θ θ lkm lo { { ½ [ ( θ ) ( θ ) ] ½ [ ( θ ) 7 ( θ )]}/(½) }.56.5 LO-score....5 Rekombinaatiofraktio

Monipisteanalyysi Usean pisteen analyysin hypoteesit: H : ominaisuuteen vaikuttava lokus ei ole kytkeytynyt markkerikarttaan (markkerien järjestys ja etäisyys tiedetään) H A : ominaisuuteen vaikuttava lokus sijaitsee tietyssä paikassa markkerikarttaa Testisuureen arvo Tulosten esittäminen monipisteanalyysissä M M M M M 5 M 6 M 7 M 8 Paikka kromosomissa, cm Ei-parametrinen kytkentäanalyysi Kytkentäanalyysi havaitut rekombinaatiot perheaineisto Parametrinen - periytymismalli määrätty Ei-parametrinen - periytymismallia ei määrätty TT Assosiaatioanalyysi kytkentäepätasapaino historialliset rekomb. populaatioaineisto Parametrisen ja ei-parametrisen kytkentäanalyysin ero Ei-parametrisessä kytkentäanalyysissä (non-parametric tai model free) periytymismallia ei eksplisiittisesti määritetä Tutkitaan assosiaatiota sen välillä, miten tietyt sukulaiset jakavat samanlaisen fenotyypin ja markkerialleelit keskenään. Keskeistä ei-parametrisessä kytkentäanalyysissä on samojen markkerialleelien jakaminen (allele sharin) eri sukulaisten kesken. Puhutaan jakamisesta IB (identityby-descent) ja IBS (identity-by-state). IB ja IBS Sama alleelitunnus kahdella yksilöllä yksilöt jakavat alleelin IBS (identical by state) Samaa esivanhempaisalkuperää oleva alleeli kahdella yksilöllä yksilöt jakavat alleelin IB (identical by descent) Genotyypeistä nähdään helposti IBS-jakaminen. IB-jakamisesta saadaan enemmän informaatiota. Sitä voidaan yrittää päätellä perherakenteen ja periytymisen avulla.,,,, Lapset jakavat -alleelin IBS. Lapset jakavat -alleelin myös IB.

,, Lapset jakavat jälleen -alleelin IBS. He eivät jaa sitä IB.,,,, Lapset jakavat -alleelin IBS. He jakavat -alleelin IB todennäköisyydellä 5%.,,,, Ei-parametrinen kytkentäanalyysi Yksinkertainen aineistoesimerkki ASP: yksinkertaisin ei-parametrinen testi ASP Affected sib pair (sairas sisaruspari) kaksi sairasta sisarta ja vanhemmat kerätään suuri joukko toisistaan riippumattomia perheitä (nelikkoja) ihannetapaus: markkerialleelit tiedetään kaikilta neljältä yksilöltä vanhemmat heterotsyootteja lasten alleelien alkuperä (onko peritty äidiltä vai isältä) voidaan selvittää Testaus ASP-testaus, χ -testi Kerätään paljon perheitä, joissa sairas sisaruspari ja määritetään IB-status kaikille sisaruspareille. Merkitään niiden sisarusparien, joissa IB-status on, lukumäärää n. Vastaavasti n ja n ovat havaittuja sellaisten sisarusparien lukumääriä, jotka jakavat tai alleelia IB. Verrataan lukumääriä odotettuun jakaumaan laskemalla χ -testisuureen arvo. ( ni ei ) ( n e ) ( n e ) ( n e) S = = e e e e i= i missä e =.5n, e =.5n ja e =.5n (Mendelistisyys) χ -testi vapausasteella onelmana homotsyoottivanhemmat paljon muunnelmia ja erilaisia toteutuksia 5

ASP-testaus, keskiarvotesti Keskiarvotesti mean test Testaan onko IB alleeliparien lukumäärä suurempi kuin puolet kaikista alleeleista Testisuure: (.5n n).5n S = n /8 n sisarusparien lukumäärä.5n - lausekkeen (.5n n ) odotusarvo n/8 lausekkeen (.5n n ) varianssi nollahypoteesin vallitessa S ~ N(,) (standardi normaalijakauma) ASP-testaus, esimerkki Isä Äiti Lapsi Lapsi P() P() P(),,,,,,,,,,,,,5,,,,5,,5,,,,,,5,,,5,5,5 5,5 5,5,,5,,5,,5,5,5,5,,5,,,,,,5,,5,5,5,,5,5 7 ASP-testaus, esimerkki Havaitut 7 9 Odotetut,5,5,5 9 (,5) χ =,5 (,5),5 (7,5),5 Verrataan χ -jakauman kertymäfunktioon ( vapausasteella): P=. =,5 Aineisto on liian pieni, jotta χ -testi olisi luotettava. ESPA (Extended Sib Pair Analysis) Lasketaan todennäköisyydet puuttuville enotyypeille Verrataan, montako alleelia on jaettu IB vs. montako ei ole. Jos jakamista ei voida määrittää, jätetään huomiotta. χ -testi vapausasteella ( N N) χ = N N ESPA: esimerkki Isä Äiti Lapsi Lapsi -?,,,,,,,,,,,,,5,,,,5,,5,,,,,,5,,,5,5,5 5,5 5,5,,5,,5,,5,5,5,5,,5,,,,,,5,,5,5,5,,5,5 7 6 5 on IB - ei IB? ei voi sanoa ESPA: esimerkki Mendelistisesti odotusarvoisesti pitäisi olla sama lukumäärä N ja N tapauksia -> (7 6) χ = = 5.6 7 6 Verrataan χ -jakauman kertymäfunktioon ( vapausasteella): P=.8 6

ASP-menetelmän laajennuksia Puuttuvien havaintojen informaatiohukkaa korvataan laskemalla todennäköisyydet eri IB-statuksille sukulaisuustietojen avulla. Otetaan huomioon sukupuun kaikki sairaat sukulaisparit. Tarkastellaan usean henkilön samanaikaista jakamista. Yhdistetään informaatiota useasta markkerista Genehunter ja Merlin 7