Tilastollinen päättely genominlaajuisissa assosiaatioanalyyseissä. Matti Pirinen

Samankaltaiset tiedostot
Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Matemaatikot ja tilastotieteilijät

Yleisten tautien ja ominaisuuksien genetiikka kansantautien perimä ja sen merkitys

S Laskennallinen systeemibiologia

Yleisten tautien ja ominaisuuksien genetiikka kansantautien perimä ja sen merkitys

Kemijoen Sihtuunan ja Rautuojan taimenten geneettinen analyysi Jarmo Koskiniemi, Helsingin yliopisto, maataloustieteiden osasto

Sovellettu todennäköisyyslaskenta B

Suomalainen genomitieto ja yksilöllistetty terveydenhuolto Olli Kallioniemi October 9, 2013

5.7 Uskottavuusfunktioon perustuvia testejä II

Voidaanko geenitiedolla lisätä kansanterveyttä?

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Kliininen arviointi ja kliininen tieto mikä riittää?

GEENIT JA KORONAARITAUDIN RISKI

Tilastollisia peruskäsitteitä ja Monte Carlo

1. Tilastollinen malli??

Mat Tilastollisen analyysin perusteet, kevät 2007

Geeneistä genomiin, mikä muuttuu? Juha Kere Karolinska Institutet, Stockholm

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Epigeneettinen säätely ja genomin leimautuminen. Tiina Immonen BLL Biokemia ja kehitysbiologia

Kipu. Oleg Kambur. Geneettisillä tekijöillä suuri merkitys Yksittäisiä geenejä on löydetty vain vähän COMT

Biopankit miksi ja millä ehdoilla?

Väliestimointi (jatkoa) Heliövaara 1

Biopankit ja Big Data terveydenhuollossa: onko open science magic bullet?

Mat Tilastollisen analyysin perusteet, kevät 2007

Miten väestötutkimuksista ja biopankeista saadaan tietoa yksilöllisestä sairausriskistä?

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Tutkimustiedonhallinnan peruskurssi

Molekyylipopulaatiogenetiikka

Testit järjestysasteikollisille muuttujille

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Epigeneettinen säätely ja genomin leimautuminen. Tiina Immonen Medicum, Biokemia ja kehitysbiologia

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Ihmisten erilaisuuden geneettinen perusta

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

KEESHONDIEN MONIMUOTOISUUSKARTOITUS

Laboratorioanalyysit, vertailunäytteet ja tilastolliset menetelmät

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Psyykkisten rakenteiden kehitys

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Populaatiosimulaattori. Petteri Hintsanen HIIT perustutkimusyksikkö Helsingin yliopisto

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

11. laskuharjoituskierros, vko 15, ratkaisut

805306A Johdatus monimuuttujamenetelmiin, 5 op

Biopankit ja Big Data terveydenhuollossa: onko open science magic bullet?

GEENIT SKITSOFRENIAN AIHEUTTAJANA. Tiina Paunio Dosentti Psykiatrian erikoislääkäri Skitsofreniaverkoston symposium Kuopio 11.9.

Perinnöllisyyden perusteita

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Testejä suhdeasteikollisille muuttujille

T Luonnollisten kielten tilastollinen käsittely

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

HAVAITUT JA ODOTETUT FREKVENSSIT

SEM1, työpaja 2 ( )

Nuorten ylipainon syitä jäljittämässä

Epävarmuuden hallinta bootstrap-menetelmillä

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Parametrin estimointi ja bootstrap-otanta

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Aineistokoko ja voima-analyysi

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

DNA sukututkimuksen tukena

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Kvantitatiivisen aineiston analyysi

Pia Soronen (FM, LK, väitellyt)

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

TAPAUS-VERROKKITUTKIMUS

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Yleistä tietoa kokeesta

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Otannasta ja mittaamisesta

Genetiikan perusteet 2009

SELVITTÄJÄN KOMPETENSSISTA

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Sovellettu todennäköisyyslaskenta B

Otoskoko 107 kpl. a) 27 b) 2654

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Geenitutkimusta: evoluutiosta kohti geenivarojen suojelua ja jalostusta

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Evoluutio. BI Elämä ja evoluutio Leena Kangas-Järviluoma

Transkriptio:

Tilastollinen päättely genominlaajuisissa assosiaatioanalyyseissä Matti Pirinen Suomen molekyylilääketieteen instituutti (FIMM) Helsingin Yliopisto 17.2.2015 Tilastollisen päättelyn kurssi Kumpula

Sisältö 1. Motivaatio 2. Esimerkki MS-taudista 3. Tilastotiede 4. Tutkimuksen nykytila

1. Motivaatio Genomi ja SNP Mikä on geneettinen assosiaatio? Miksi tämä on tärkeää?

Ihmisgenomi... G C G T T T A C G... DNA-sekvenssi Ihmisgenomi on 3x109 kirjaimen lineaarinen sekvenssi aakkostosta {A, C, G, T}

Single Nucleotide Polymorphism (SNP) Keskimäärin 1:300 genomin kohdasta on vaihtelua populaation tasolla. Näitä kohtia kutsutaan snipeiksi (SNP)

Single Nucleotide Polymorphism (SNP) Keskimäärin 1:300 genomin kohdasta on vaihtelua populaation tasolla. Yksilöiden genotyypit populaatiossa Genomit populaatiossa... G C G T T... 96%... G C T T T... 4% 0: GG ~ 92.1% 1: GT ~ 7.7 % 2: TT ~ 0.2 % SNP, alleelit: G / T, minor allele frequency (MAF) = 4%

PCSK9-geeni Kromosomissa 1, kohdassa 55.50 55.53 Mb Koodaa proteiinia 692 aminohappoa

SNP PCSK9:ssä Alleelit: G / T, MAF=4% (Suomessa) Paikka: Chr1, emäspari 55,505,647

SNP PCSK9:ssä Alleelit: G / T, MAF=4% (Suomessa) Paikka: Chr1, emäspari 55,505,647 Vaikutus: vaihtaa 46. AH:n Arginiinista Lysiiniin G Arginine T Leucine

SNP PCSK9:ssä Alleelit: G / T, MAF=4% (Suomessa) Paikka: Chr1, emäspari 55,505,647 Vaikutus: vaihtaa 46. AH:n Arginiinista Lysiiniin Katsotaan vaikuttaako tämä muutos (eli mutaatio) LDL-kolesterolitasoihin LDL-C on riskitekijä sydäntaudille

Mikä on geneettinen assosiaatio? Finn-Metabo-Seq project: 2099 suomalaista näytettä (08/2014) Boxploteissa (1) mediaani (paksu viiva), (2) interquartile range (laatikot) (3) 1.5 x interquartile range (pistejanat) (4) outliers (pisteet) Alleelin T kantajilla on pienempi LDL-C GG GT TT

Miksi geneettiset assosiaatiot ovat tärkeitä? Antaa vinkkejä sairauksiin ja ominaisuuksiin vaikuttavista biologisista mekanismeista Myöhemmin esimerkkejä MS-taudista ja skitsofreniasta Ideoita lääkkeiden kehitykseen PCSK9:n hiljentäminen alentaa LDL-C:tä? Raal et al. 2014, Lancet

Genominlaajuinen assosiaatiotutkimus (GWAS) Idea: Etsitään assosiaatioita käyttäen tiheää snippikarttaa (jopa 10 miljoonaa snippiä) Tuli mahdolliseksi ~2006 Teknologia (SNP-sirut, myöhemmin sekvenointi) Yhteistyö (genetiikka + lääketiede + laboratorio tekniikka + bioinformatiikka + tilastotiede)

Snippi-sirut (SNP arrays) Sisältää sekvenssin pätkiä miljoonille snipeille Hinta ~50-100 euroa/näyte Steven M. Carr www.mun.ca/biology/scarr/dna_chips.html

1. Motivaatio 2. Esimerkki MS-taudista

MS-taudin assosiaatiotutkimus ~1x10⁴ Sairasta Yksilöt ~1.7x10⁴ Kontrollia Genotyypit ~5x105 Single nucleotide polymorphisms (SNPs) 0 1 0 2 1 2 2 Kysymys Eroavatko sairaiden ja terveiden genotyyppijakaumat toisistaan joissakin kohdissa genomia?

Manhattan plot ~500,000 SNPs with MAF > 1% KIINNOSTAVAT SNIPIT KIINOSTAMATTOMAT SNIPIT

Nature Pystyakselilla snipin paikka genomissa Vaaka-akselilla assosiaation parvo (-log10) Yli 50 vakuuttavaa assosiaatiota MS-tautiin Immuunijärjestelmän geenit ovat yliedustettuina näiden assosiaatioiden joukossa; erityisesti T-helper cell differentiation pathway

1. Motivaatio 2. Esimerkki MS-taudista 3. Tilastotiedettä

Lineaarinen malli assosiaatiolle Sovitetaan suora 3 genotyypin kautta

Lineaarinen malli assosiaatiolle Sovitetaan suora 3 genotyypin kautta Suuri kulmakerroin = vahva assosiaatio (mitä ongelmia? ) Miksei Manhattan plotissa käytetä est(b) vaan p-arvoa?

Miksei kulmakerroin yksin riitä? Kaksi snipiä joilla kk ~1.0 (n=2000)

Miksei kulmakerroin yksin riitä? Epävarmuus kulmakertoimesta Vasen 1.0 (0.97... 1.03); Oikea 1.0 (-1.0... 3.0)

P-arvo Onko est(b) uskottava jos todellisuudessa b=0? P-arvo: Tn että nollahypoteesin vallitessa saadaan ainakin yhtä poikkeava estimaatti kuin on havaittu P=0.84: Ei näyttöä nollahypoteesin (H0) hylkäämiselle P=8e-5: Epätn H0:n vallitessa -> ehkä H0 ei vallitse

Karkea päättely tilastollisen merkitsevyyden perusteella NOLLASNIPIT VAIKUTTAVAT SNIPIT Valitaan P-arvo -raja eli merkitsevyystaso EI MERKITSEVÄ PALJON MERKITSEVÄ Hyvin vähän?? Kutsutaan snipiä tilastollisesti merkitseväksi jos p-arvo on tarpeeksi pieni Käytetään pientä merkitsevyystasoa jotta vääriä positiivisia ei tule juuri ollenkaan Toivotaan että löydetään joitain oikeita positiivisia

Genominlaajuinen merkitsevyystaso Genomissa noin ~106 riippumatonta aluetta Genomilla on blokkirakenne rekombinaatioprosessin vuoksi Tarvitaan erittäin pieni merkitsevyystaso suojaamaan vääriltä positiivisilta

Genominlaajuinen merkitsevyystaso Genomissa noin ~106 riippumatonta aluetta Genomilla on blokkirakenne rekombinaatioprosessin vuoksi Tarvitaan erittäin pieni merkitsevyystaso suojaamaan vääriltä positiivisilta Bonferronikorjatulla mt:lla = 0.05/106 = 5x10-8, keskimäärin, 1:20 GWASista raportoi ainakin yhden väärän positiivisen assosiaation (mutta muut 19 ei yhtään)

Genominlaajuinen merkitsevyystaso Entä jos dataa on vain yhdestä snipistä Voidaanko sille käyttää mt:a 0.05? Entä jos tiedetään että snipillä on selkeä efekti proteiinin rakenteeseen. Pitääkö edelleen käyttää samaa mt:a kuin snipille jolla ei epäillä olevan mitään funktionaalista seurausta?

Genominlaajuinen merkitsevyystaso Entä jos dataa on vain yhdestä snipistä Voidaanko sille käyttää mt:a 0.05? Entä jos tiedetään että snipillä on selkeä efekti proteiinin rakenteeseen. Pitääkö edelleen käyttää samaa mt:a kuin snipille jolla ei epäillä olevan mitään funktionaalista seurausta? Valintakorjaus testien lukumäärän mukaan EI ole yleispätevä sääntö konsistenttien mt:jen määrittämiseen Palataan tähän tilastollisen voiman jälkeen

Voima Voima = Tn että snip saavuttaa annetun merkitsevyystason Riippuu otoskoosta, alleelifrekvenssistä ja todellisen efektin suuruudesta

Voima Voima = Tn että snip saavuttaa annetun merkitsevyystason Riippuu otoskoosta, alleelifrekvenssistä ja todellisen efektin suuruudesta

Voima Voima = Tn että snip saavuttaa annetun merkitsevyystason Riippuu otoskoosta, alleelifrekvenssistä ja todellisen efektin suuruudesta

Voima Aiempi PCSK9:n mutaatio löytyy lähes varmasti meidän suomalaisesta datasta Voimalaskelmia tarvitaan tutkimuksen suunnitteluun Kertovat millaiset efektit olemme jo löytäneet ja millaisia emme ole voineet löytää

Voima Aiempi PCSK9:n mutaatio löytyy lähes varmasti meidän suomalaisesta datasta Mutta pysyisi lähes varmasti löytämättä keskieurooppalaisessa aineistossa jossa MAF=0.01 (vrt MAF=0.04 Suomessa)

Assosiaatiotestauksen voima Jatkuvalle vasteelle voima kasvaa monot. N f (1-f) b2 N = otoskoko f = harvinaismman alleelin suhteell. frekvenssi b = vaikutus ( kulmakerroin ) per 1 alleeli Case-control -asetelman voima kasvaa monot. N t (1-t) f (1-f) b 2 t = tapausten suhde otoksesta

Voiman ominaisuuksia Jos tietylle snipille pop1:ssä MAF=4% ja pop2:ssa MAF=1%, niin kuinka suuri otos pop2:sta tarvitaan saman voiman saamiseksi kuin mikä on otoksella n=2,000 pop1:stä? N f (1-f) b2

Voiman ominaisuuksia Jos tietylle snipille pop1:ssä MAF=4% ja pop2:ssa MAF=1%, niin kuinka suuri otos pop2:sta tarvitaan saman voiman saamiseksi kuin mikä on otoksella n=2,000 pop1:stä? N f (1-f) b2 N x 0.01 x (1-0.01) = 2000 x 0.04 x (1-0.04) N=7758

Merkitsevyydestä todellisen efektin todennäköisyyteen NOLLAEFEKTI TODELL. EFEKTI Merkitsevyystaso EIMERKIT. PALJON MERKIT. vähän?? T = todellinen efekti N = nollaefekti S = merkitsevä p-arvo

Merkitsevyydestä todellisen efektin todennäköisyyteen NOLLAEFEKTI TODELL. EFEKTI Merkitsevyystaso EIMERKIT. PALJON MERKIT. vähän?? T = todellinen efekti N = nollaefekti S = merkitsevä p-arvo

Merkitsevyydestä todellisen efektin todennäköisyyteen NOLLAEFEKTI TODELL. EFEKTI Merkitsevyystaso PALJON MERKIT. vähän?? Pieni mt tarvitaan siis koska assosiaation prioritn on pieni, EIKÄ sen vuoksi että tehdään paljon testejä EIMERKIT. T = todellinen efekti N = nollaefekti S = merkitsevä p-arvo Usein prioria ei ole helppo määrittää jolloin testien lkm voi toimia hyvin käytännössä, esim. replikaatio Merkitsevä tulos voimakkaasta tutkimuksesta on suuremmalla tn:llä todellinen efekti kuin vähemmän voimakkaasta tutkimuksesta!

P-arvo ei ole koko totuus Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000

P-arvo ei ole koko totuus Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000 Oletetaan että kolesteroliin vaikuttaa 100 snipiä jotka kaikki selittävät <1% kolesterolitasojen vaihtelusta

P-arvo ei ole koko totuus Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000 Oletetaan että kolesteroliin vaikuttaa 100 snipiä jotka kaikki selittävät <1% kolesterolitasojen vaihtelusta n E(väärät +) E(aidot +) P(aito +) 1000 0.05 10000 0.05 0.01 0.167 20 0.998

Asymptoottiset testit 1. Uskottavuusosamäärän testi (eli LR test) 2. Waldin testi 3. Raon testi (eli score test) http://www.ats.ucla.edu/stat/mult_pkg/faq/general/nested_tests.htm

Score test vs LR test Vaikka Raon testi ja uskottavuusosamäärän testi ovat samat asymptoottisesti, ne eivät aina ole lainkaan samat käytännön tilanteissa! Asymptotiikka ei päde harvinaisille varianteille 1200 migreenikkoa vs 2700 kontrollia Saksasta Kuva: Priit Palta

1. Motivaatio 2. Esimerkki MS-taudista 3. Tilastotiede 4. Tutkimuksen nykytila

Skitsofrenia (esimerkkinä GWAS-kehityksestä ) Mielen sairaus johon liittyy poikkeavaa käyttäytmistä ja ongelmia tunnistaa todellisuutta Puhkeaa nuorille aikuisille, 0.5%-1% populaatiosta Korkea periytyvyys, estimaatit jopa 80% Perheissä tehdyt kytkentäanalyysit eivät olleet menestyksellisiä 80- ja 90-luvuilla Tuskin olemassa vain muutamia Sf-geenejä jotka selittäisivät periytyvyyden

Int'l SZ Consortium, 2009, Nature 3,332 SZ-tapausta ja 3,587 kontrollia, 1M SNPs Tukea erittäin monitekijäiselle geneettiselle arkkitehtuurille Mutta ei yhtään SF-geeniä GWAS on tuomittu epäonnistumaan? From Mark Daly

PGC 2011 9,394 cases and 12,462 controls From Mark Daly

PGC 2014, Nature 34,000 SF-tapausta ja 45,600 kontrollia, 9.5M snipiä 108 erillistä aluetta p < 5e-8

Published Genome-Wide Associations through 12/2013 at p 5e-8 for 17 trait categories NHGRI GWA Catalog www.genome.gov/gwastudies www.ebi.ac.uk/fgpt/gwas/

Picture emerging from GWAS A lot of common variants with small effects Some are tagging rare variants

Picture emerging from GWAS A lot of common variants with small effects How many tagging rare variants? Many shared effects across traits Need joint analyses & phenotype refinement Psoriasis and Ankylosing spondylitis around IL23R

Picture emerging from GWAS A lot of common variants with small effects Many shared effects across traits How many tagging rare variants? Need joint analyses & phenotype refinement Much to do on the biological side Pathways From association to function

We also develop methods