Tilastollinen päättely genominlaajuisissa assosiaatioanalyyseissä. Matti Pirinen

Tilastollinen päättely genominlaajuisissa assosiaatioanalyyseissä Matti Pirinen Suomen molekyylilääketieteen instituutti (FIMM) Helsingin Yliopisto 17.2.2015 Tilastollisen päättelyn kurssi Kumpula

Sisältö 1. Motivaatio 2. Esimerkki MS-taudista 3. Tilastotiede 4. Tutkimuksen nykytila

1. Motivaatio Genomi ja SNP Mikä on geneettinen assosiaatio? Miksi tämä on tärkeää?

Ihmisgenomi... G C G T T T A C G... DNA-sekvenssi Ihmisgenomi on 3x109 kirjaimen lineaarinen sekvenssi aakkostosta {A, C, G, T}

Single Nucleotide Polymorphism (SNP) Keskimäärin 1:300 genomin kohdasta on vaihtelua populaation tasolla. Näitä kohtia kutsutaan snipeiksi (SNP)

Single Nucleotide Polymorphism (SNP) Keskimäärin 1:300 genomin kohdasta on vaihtelua populaation tasolla. Yksilöiden genotyypit populaatiossa Genomit populaatiossa... G C G T T... 96%... G C T T T... 4% 0: GG ~ 92.1% 1: GT ~ 7.7 % 2: TT ~ 0.2 % SNP, alleelit: G / T, minor allele frequency (MAF) = 4%

PCSK9-geeni Kromosomissa 1, kohdassa 55.50 55.53 Mb Koodaa proteiinia 692 aminohappoa

SNP PCSK9:ssä Alleelit: G / T, MAF=4% (Suomessa) Paikka: Chr1, emäspari 55,505,647

SNP PCSK9:ssä Alleelit: G / T, MAF=4% (Suomessa) Paikka: Chr1, emäspari 55,505,647 Vaikutus: vaihtaa 46. AH:n Arginiinista Lysiiniin G Arginine T Leucine

SNP PCSK9:ssä Alleelit: G / T, MAF=4% (Suomessa) Paikka: Chr1, emäspari 55,505,647 Vaikutus: vaihtaa 46. AH:n Arginiinista Lysiiniin Katsotaan vaikuttaako tämä muutos (eli mutaatio) LDL-kolesterolitasoihin LDL-C on riskitekijä sydäntaudille

Mikä on geneettinen assosiaatio? Finn-Metabo-Seq project: 2099 suomalaista näytettä (08/2014) Boxploteissa (1) mediaani (paksu viiva), (2) interquartile range (laatikot) (3) 1.5 x interquartile range (pistejanat) (4) outliers (pisteet) Alleelin T kantajilla on pienempi LDL-C GG GT TT

Miksi geneettiset assosiaatiot ovat tärkeitä? Antaa vinkkejä sairauksiin ja ominaisuuksiin vaikuttavista biologisista mekanismeista Myöhemmin esimerkkejä MS-taudista ja skitsofreniasta Ideoita lääkkeiden kehitykseen PCSK9:n hiljentäminen alentaa LDL-C:tä? Raal et al. 2014, Lancet

Genominlaajuinen assosiaatiotutkimus (GWAS) Idea: Etsitään assosiaatioita käyttäen tiheää snippikarttaa (jopa 10 miljoonaa snippiä) Tuli mahdolliseksi ~2006 Teknologia (SNP-sirut, myöhemmin sekvenointi) Yhteistyö (genetiikka + lääketiede + laboratorio tekniikka + bioinformatiikka + tilastotiede)

Snippi-sirut (SNP arrays) Sisältää sekvenssin pätkiä miljoonille snipeille Hinta ~50-100 euroa/näyte Steven M. Carr www.mun.ca/biology/scarr/dna_chips.html

1. Motivaatio 2. Esimerkki MS-taudista

MS-taudin assosiaatiotutkimus ~1x10⁴ Sairasta Yksilöt ~1.7x10⁴ Kontrollia Genotyypit ~5x105 Single nucleotide polymorphisms (SNPs) 0 1 0 2 1 2 2 Kysymys Eroavatko sairaiden ja terveiden genotyyppijakaumat toisistaan joissakin kohdissa genomia?

Manhattan plot ~500,000 SNPs with MAF > 1% KIINNOSTAVAT SNIPIT KIINOSTAMATTOMAT SNIPIT

Nature Pystyakselilla snipin paikka genomissa Vaaka-akselilla assosiaation parvo (-log10) Yli 50 vakuuttavaa assosiaatiota MS-tautiin Immuunijärjestelmän geenit ovat yliedustettuina näiden assosiaatioiden joukossa; erityisesti T-helper cell differentiation pathway

1. Motivaatio 2. Esimerkki MS-taudista 3. Tilastotiedettä

Lineaarinen malli assosiaatiolle Sovitetaan suora 3 genotyypin kautta

Lineaarinen malli assosiaatiolle Sovitetaan suora 3 genotyypin kautta Suuri kulmakerroin = vahva assosiaatio (mitä ongelmia? ) Miksei Manhattan plotissa käytetä est(b) vaan p-arvoa?

Miksei kulmakerroin yksin riitä? Kaksi snipiä joilla kk ~1.0 (n=2000)

Miksei kulmakerroin yksin riitä? Epävarmuus kulmakertoimesta Vasen 1.0 (0.97... 1.03); Oikea 1.0 (-1.0... 3.0)

P-arvo Onko est(b) uskottava jos todellisuudessa b=0? P-arvo: Tn että nollahypoteesin vallitessa saadaan ainakin yhtä poikkeava estimaatti kuin on havaittu P=0.84: Ei näyttöä nollahypoteesin (H0) hylkäämiselle P=8e-5: Epätn H0:n vallitessa -> ehkä H0 ei vallitse

Karkea päättely tilastollisen merkitsevyyden perusteella NOLLASNIPIT VAIKUTTAVAT SNIPIT Valitaan P-arvo -raja eli merkitsevyystaso EI MERKITSEVÄ PALJON MERKITSEVÄ Hyvin vähän?? Kutsutaan snipiä tilastollisesti merkitseväksi jos p-arvo on tarpeeksi pieni Käytetään pientä merkitsevyystasoa jotta vääriä positiivisia ei tule juuri ollenkaan Toivotaan että löydetään joitain oikeita positiivisia

Genominlaajuinen merkitsevyystaso Genomissa noin ~106 riippumatonta aluetta Genomilla on blokkirakenne rekombinaatioprosessin vuoksi Tarvitaan erittäin pieni merkitsevyystaso suojaamaan vääriltä positiivisilta

Genominlaajuinen merkitsevyystaso Genomissa noin ~106 riippumatonta aluetta Genomilla on blokkirakenne rekombinaatioprosessin vuoksi Tarvitaan erittäin pieni merkitsevyystaso suojaamaan vääriltä positiivisilta Bonferronikorjatulla mt:lla = 0.05/106 = 5x10-8, keskimäärin, 1:20 GWASista raportoi ainakin yhden väärän positiivisen assosiaation (mutta muut 19 ei yhtään)

Genominlaajuinen merkitsevyystaso Entä jos dataa on vain yhdestä snipistä Voidaanko sille käyttää mt:a 0.05? Entä jos tiedetään että snipillä on selkeä efekti proteiinin rakenteeseen. Pitääkö edelleen käyttää samaa mt:a kuin snipille jolla ei epäillä olevan mitään funktionaalista seurausta?

Genominlaajuinen merkitsevyystaso Entä jos dataa on vain yhdestä snipistä Voidaanko sille käyttää mt:a 0.05? Entä jos tiedetään että snipillä on selkeä efekti proteiinin rakenteeseen. Pitääkö edelleen käyttää samaa mt:a kuin snipille jolla ei epäillä olevan mitään funktionaalista seurausta? Valintakorjaus testien lukumäärän mukaan EI ole yleispätevä sääntö konsistenttien mt:jen määrittämiseen Palataan tähän tilastollisen voiman jälkeen

Voima Voima = Tn että snip saavuttaa annetun merkitsevyystason Riippuu otoskoosta, alleelifrekvenssistä ja todellisen efektin suuruudesta

Voima Aiempi PCSK9:n mutaatio löytyy lähes varmasti meidän suomalaisesta datasta Voimalaskelmia tarvitaan tutkimuksen suunnitteluun Kertovat millaiset efektit olemme jo löytäneet ja millaisia emme ole voineet löytää

Voima Aiempi PCSK9:n mutaatio löytyy lähes varmasti meidän suomalaisesta datasta Mutta pysyisi lähes varmasti löytämättä keskieurooppalaisessa aineistossa jossa MAF=0.01 (vrt MAF=0.04 Suomessa)

Assosiaatiotestauksen voima Jatkuvalle vasteelle voima kasvaa monot. N f (1-f) b2 N = otoskoko f = harvinaismman alleelin suhteell. frekvenssi b = vaikutus ( kulmakerroin ) per 1 alleeli Case-control -asetelman voima kasvaa monot. N t (1-t) f (1-f) b 2 t = tapausten suhde otoksesta

Voiman ominaisuuksia Jos tietylle snipille pop1:ssä MAF=4% ja pop2:ssa MAF=1%, niin kuinka suuri otos pop2:sta tarvitaan saman voiman saamiseksi kuin mikä on otoksella n=2,000 pop1:stä? N f (1-f) b2

Voiman ominaisuuksia Jos tietylle snipille pop1:ssä MAF=4% ja pop2:ssa MAF=1%, niin kuinka suuri otos pop2:sta tarvitaan saman voiman saamiseksi kuin mikä on otoksella n=2,000 pop1:stä? N f (1-f) b2 N x 0.01 x (1-0.01) = 2000 x 0.04 x (1-0.04) N=7758

Merkitsevyydestä todellisen efektin todennäköisyyteen NOLLAEFEKTI TODELL. EFEKTI Merkitsevyystaso EIMERKIT. PALJON MERKIT. vähän?? T = todellinen efekti N = nollaefekti S = merkitsevä p-arvo

Merkitsevyydestä todellisen efektin todennäköisyyteen NOLLAEFEKTI TODELL. EFEKTI Merkitsevyystaso PALJON MERKIT. vähän?? Pieni mt tarvitaan siis koska assosiaation prioritn on pieni, EIKÄ sen vuoksi että tehdään paljon testejä EIMERKIT. T = todellinen efekti N = nollaefekti S = merkitsevä p-arvo Usein prioria ei ole helppo määrittää jolloin testien lkm voi toimia hyvin käytännössä, esim. replikaatio Merkitsevä tulos voimakkaasta tutkimuksesta on suuremmalla tn:llä todellinen efekti kuin vähemmän voimakkaasta tutkimuksesta!

P-arvo ei ole koko totuus Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000

P-arvo ei ole koko totuus Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000 Oletetaan että kolesteroliin vaikuttaa 100 snipiä jotka kaikki selittävät <1% kolesterolitasojen vaihtelusta

P-arvo ei ole koko totuus Tarkastellaan kahta tutkimusta joiden otoskoot ovat n1=1,000 ja n2=10,000 Oletetaan että kolesteroliin vaikuttaa 100 snipiä jotka kaikki selittävät <1% kolesterolitasojen vaihtelusta n E(väärät +) E(aidot +) P(aito +) 1000 0.05 10000 0.05 0.01 0.167 20 0.998

Asymptoottiset testit 1. Uskottavuusosamäärän testi (eli LR test) 2. Waldin testi 3. Raon testi (eli score test) http://www.ats.ucla.edu/stat/mult_pkg/faq/general/nested_tests.htm

Score test vs LR test Vaikka Raon testi ja uskottavuusosamäärän testi ovat samat asymptoottisesti, ne eivät aina ole lainkaan samat käytännön tilanteissa! Asymptotiikka ei päde harvinaisille varianteille 1200 migreenikkoa vs 2700 kontrollia Saksasta Kuva: Priit Palta

1. Motivaatio 2. Esimerkki MS-taudista 3. Tilastotiede 4. Tutkimuksen nykytila

Skitsofrenia (esimerkkinä GWAS-kehityksestä ) Mielen sairaus johon liittyy poikkeavaa käyttäytmistä ja ongelmia tunnistaa todellisuutta Puhkeaa nuorille aikuisille, 0.5%-1% populaatiosta Korkea periytyvyys, estimaatit jopa 80% Perheissä tehdyt kytkentäanalyysit eivät olleet menestyksellisiä 80- ja 90-luvuilla Tuskin olemassa vain muutamia Sf-geenejä jotka selittäisivät periytyvyyden

Int'l SZ Consortium, 2009, Nature 3,332 SZ-tapausta ja 3,587 kontrollia, 1M SNPs Tukea erittäin monitekijäiselle geneettiselle arkkitehtuurille Mutta ei yhtään SF-geeniä GWAS on tuomittu epäonnistumaan? From Mark Daly

PGC 2011 9,394 cases and 12,462 controls From Mark Daly

PGC 2014, Nature 34,000 SF-tapausta ja 45,600 kontrollia, 9.5M snipiä 108 erillistä aluetta p < 5e-8

Published Genome-Wide Associations through 12/2013 at p 5e-8 for 17 trait categories NHGRI GWA Catalog www.genome.gov/gwastudies www.ebi.ac.uk/fgpt/gwas/

Picture emerging from GWAS A lot of common variants with small effects Some are tagging rare variants

Picture emerging from GWAS A lot of common variants with small effects How many tagging rare variants? Many shared effects across traits Need joint analyses & phenotype refinement Psoriasis and Ankylosing spondylitis around IL23R

Picture emerging from GWAS A lot of common variants with small effects Many shared effects across traits How many tagging rare variants? Need joint analyses & phenotype refinement Much to do on the biological side Pathways From association to function

We also develop methods