HMM ja geenien etsintä



Samankaltaiset tiedostot
Tietoa sähkökentästä tarvitaan useissa fysikaalisissa tilanteissa, esimerkiksi jos halutaan

4757 4h. MAGNEETTIKENTÄT

Genomin ilmentyminen Liisa Kauppi, Genomibiologian tutkimusohjelma

SMG-4200 Sähkömagneettisten järjestelmien lämmönsiirto Ehdotukset harjoituksen 3 ratkaisuiksi

9. laskuharjoituskierros, vko 12-13, ratkaisut

Yksinkertainen korkolasku

ENY-C2001 Termodynamiikka ja lämmönsiirto TERVETULOA!

Öljysäiliö maan alla

Taivaanmekaniikkaa Kahden kappaleen liikeyhtälö

Estimointi. Vilkkumaa / Kuusinen 1

K = Q C W = T C T H T C. c = 1 dq. f) Isokoorinen prosessi: prosessi joka suoritetaan vakiotilavuudessa

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

pitkittäisaineistoissa

Topologia Syksy 2010 Harjoitus 9

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Tilastollisia peruskäsitteitä ja Monte Carlo

LABORAATIOSELOSTUSTEN OHJE H. Honkanen

9. Tila-avaruusmallit

Otoskoko 107 kpl. a) 27 b) 2654

Sukunimi: Etunimi: Henkilötunnus:

Mallipohjainen klusterointi

Sovellettu todennäköisyyslaskenta B

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Lujuusopin jatkokurssi IV.1 IV. KUORIEN KALVOTEORIAA

FUNKTIONAALIANALYYSIN PERUSKURSSI Johdanto

Testejä suhdeasteikollisille muuttujille

,ܾ jaü on annettu niin voidaan hakea funktion

Bioteknologian tutkinto-ohjelma Valintakoe Tehtävä 3 Pisteet / 30

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Hypoteesin testaus Alkeet

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ylioppilastutkintolautakunta S t u d e n t e x a m e n s n ä m n d e n

Ylioppilastutkintolautakunta S t u d e n t e x a m e n s n ä m n d e n

Massaspektrometria. magneetti negat. varautuneet kiihdytys ja kohdistus

Peptidi ---- F K V R H A ---- A. Siirtäjä-RNA:n (trna:n) (3 ) AAG UUC CAC GCA GUG CGU (5 ) antikodonit

Kaikenlaisia sidoksia yhdisteissä: ioni-, kovalenttiset ja metallisidokset Fysiikan ja kemian perusteet ja pedagogiikka

KUPARIASPIRINAATIN VALMISTUS

Vinkkejä Gaussin lain käyttöön laskettaessa sähkökenttiä

Materiaalia, ohjeita, videoita sekä lisätietoja opettajille tarjottavasta koulutuksesta osoitteessa:

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

pitkittäisaineistoissa

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Liuottimien analytiikka. MUTKU-päivät 2016, Jarno Kalpala, ALS Finland Oy

Luku 14 Kuluttajan ylijäämä

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastotieteen jatkokurssi Sosiaalitieteiden laitos Harjoitus 9 (viikko 16) Ratkaisuehdotuksia (Laura Tuohilampi)

GMO analytiikka Annikki Welling Kemian tutkimusyksikkö Evira

vetyteknologia Polttokennon tyhjäkäyntijännite 1 DEE Risto Mikkonen

1. TILASTOLLINEN HAHMONTUNNISTUS

Mamk / Tekniikka ja liikenne / Sähkövoimatekniikka / Sarvelainen 2015 T8415SJ ENERGIATEKNIIKKA Laskuharjoitus

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

JÄTEHUOLLON ERIKOISTYÖ

Mittausjärjestelmän kalibrointi ja mittausepävarmuus

Osa 2: Otokset, otosjakaumat ja estimointi

Kryogeniikka ja lämmönsiirto. DEE Kryogeniikka Risto Mikkonen

Pikalajittelu: valitaan ns. pivot-alkio esim. pivot = oikeanpuoleisin

Uusia mahdollisuuksia FoundationOne

Tampereen yliopisto Tietokonegrafiikka 2013 Tietojenkäsittelytiede Harjoitus

Jatkuvat satunnaismuuttujat

Regressioanalyysi. Vilkkumaa / Kuusinen 1

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

!"## "$! % & $ $ " #$ " '( $&

SÄHKÖMAGNEETTINEN KYTKEYTYMINEN

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tehtävä 2. Selvitä, ovatko seuraavat kovalenttiset sidokset poolisia vai poolittomia. Jos sidos on poolinen, merkitse osittaisvaraukset näkyviin.

1 2 x2 + 1 dx. (2p) x + 2dx. Kummankin integraalin laskeminen oikein (vastaukset 12 ja 20 ) antaa erikseen (2p) (integraalifunktiot

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Maximum likelihood-estimointi Alkeet

Massaspektrometria. magneetti negat. varautuneet kiihdytys ja kohdistus

Regressioanalyysi. Kuusinen/Heliövaara 1

Matemaattisen analyysin tukikurssi

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Ilmastonmuutos ja ilmastomallit

MS-C2128 Ennustaminen ja aikasarja-analyysi ARMA esimerkkejä

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

HAPPO-EMÄSTITRAUS ANALYYSIMENETELMÄNÄ. Copyright Isto Jokinen

VASTAUS 1: Yhdistä oikein

1. Työn tavoitteet. 2. Teoria ELEKTRONIN OMINAISVARAUS

Liian taipuisa muovi

1.1 Funktion määritelmä

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

MTTTP5, luento Luottamusväli, määritelmä

Evoluutiovoimat. Mikä on mutaation, valinnan ja sattuman merkitys evoluutiossa?

Tutkimustiedonhallinnan peruskurssi

Matemaatikot ja tilastotieteilijät

Ohjeita opetukseen ja odotettavissa olevat tulokset

Sattuman matematiikkaa I

MATEMATIIKKA 5 VIIKKOTUNTIA

Pienten rakenteiden lämpöliikkeen mittaus ja mallinnus. S Mittaustekniikan Lisensiaattikurssi Tuomo Hyvönen

LCAO-menetelmä Tämä on lyhyt johdanto molekyylien laskentaan LCAO-menetelmällä.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Karteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21

Sähkökentät ja niiden laskeminen I

4 Kysyntä, tarjonta ja markkinatasapaino (Mankiw & Taylor, 2 nd ed., chs 4-5)

Transkriptio:

Kuten makovin mallien yhteydessä, niin HMM halutulla topologialla voidaan opettaa tunnistamaan geenejä. Ohessa eäs geenitunnistukseen käytetty topologia, joka tunnistaa ihmisen geenit (5 -> 3 ). Edellä oleva malli on itse asiassa ns. semihidden HMM, jossa siitymätodennäköisyydet tilasta itseensä on 0 ja tilasta poistuessaan malli tuottaa kokonaisen sekvenssijonon. Tuotetun sekvenssijonon pituus noudattaa jotain määiteltyä jakaumaa. Jokaiseen tilaan S liitetään satunnaismuuttuja L S joka koostuu jostakin 0,, osajoukosta. Jokaiselle L S :n havaitulle avolle l liitetään satunnaismuuttuja Y S,l joka koostuu kaikista l mittaisista sekvensseistä. ELI: Kun tilasta S poistutaan -> l määäytyy L S jakaumasta -> l ajaa jakauman Y S,l josta l pituinen sekvenssi geneoidaan. Lopullinen sekvenssi määäytyy kaikkien tilojen osasekvenssien avulla. Vitebi algoitmin muunnelmalla semihidden HMM:ää käytetään etsimään ne tilat, jotka todennäköisimmin on tuottanut annetun sekvenssijonon. Geenien etsintään HMM:n pitää sisältää sellaisia osia jotka ovat keskeisiä geenissä. Tässä mallissa: Integenic egion: Geenien välinen sekvenssijono Pomote: DNA-sekvenssin kohta, johon RNA-polymeaasi sitoutuu ennen tanskiption aloitusta. 70% pomootteeista sisältää TATA signaalin (8-34 emäksen päässä tanskiption aloituksesta), joka yllä mallissa, muuta pomootteeihin liittyviä asioita ei yllä pyitä mallintamaan. 5 UTR (untanslated egion): pomoottoia seuaava jakso, jota ei käytetä poteiinisynteesissä eli tanslaatiossa (cap-end = 8 emäksen jakso, TIE Tanslation initiation end, 8 emästä ennen ensimmäistä kodonia). 5 UTR jälkeen seuaavat eksonit ja intonit. Mallissa on joko yksi eksoni (SEG) tai useita eksoneita ja intoneja (intonit poistuu silmukoinnissa). 3 UTR: sekvenssiosa, joka jäljennetään, mutta ei osallistu poteiinisynteesiin. Poly-A: Jäljennyksen lopetus, 6 emästä, tyypillisesti AATAAA muotoa. Edellisen HMM:n jokainen tila on itse asiassa oma mallinsa. Buge et.al (997) käytti opetukseen.5 Mb:tä DNA sekvenssiä, jossa 380 geeniä (joista 4 yhden eksonin geenejä): yhteensä 49 eksonia, 54 intonia. Lisäksi aineistossa ihmisen 69 geeniä, joista käytettiin vain koodaavaa osuutta. Tila N: L N geometinen jakauma (odotusavona koko ihmisen genomin koko jaettuna geenien määällä). Sekvenssin muoto mallitetaan 5. ketaluvun Makovin mallilla, jonka paametit (307) estimoidaan opetusdatan avulla ei koodaavien sekvenssikohtien avulla. Mallia kutsutaan integenic null model:ksi. Samaa mallia käytetään tiloissa N, N ja 3 UTR. Tila TATA: Mallinnetaan 5 emäksen pofiilimatiisilla (emäksen todennäköisyys paikan funktiona). 70% ihmisen geeneistä on TATA osuus, malli pystyy tavittaessa ohittamaan TATA tilan. Tila N L N Tasajaukauma 8:sta 34:ään emäkseen. Tila cap-end Mallinnetaan 8 emäksen pofiilimatiisilla Tila N L N Geometinen jakauma, odotusavona 735 emästä. Tila TIE: Mallinnetaan 8 emäksen pofiilimatiisilla Tila 3 UTR: L 3 UTR Geometinen jakauma, odotusavona 450 emästä Tila Poly-A: Mallinnetaan 6 emäksen pofiilimatiisilla.

: opetus Eksonit ja intonit Tila SEG: Yhden eksonin geeni Kodonimallina epähomogeeninen 5. ketaluvun Makovin malli. Epähomogeenisuus: emäksen tn iippuu siitä missä kohtaa kodonia emäs on. Tilaa SEG vastaava sekvenssi alkaa kodonista ATG ja päättyy johonkin kolmeen seuaavaan kodoniin: TAA, TAG, TGA Sekvenssin pituus määäytyy opetusaineistosta saatavan pituusjakauman mukaan (empiiinen jakauma). Monieksoniset geenit eli tilat E I, I, E ja E T Eksonitiloja E I, E ja E T vastaavat sekvenssit pituudeltaan 3:n emäksen moniketoja. Pituuden jakauma määäytyy opetusaineiston mukaan (empiiinen jakauma). Eksonitiloja vastaavana kodonimallina 5. ketaluvun epähomogeeninen Makovin malli. Tila I Intoni kostuu kolmesta osasta: ) dono splice signal Intonin alku (6 ensimmäistä emästä). ) Intonin väliosa 3) Accepto splice signal - Intonin loppuosa (0 viimeistä emästä) Osien ja 3 mallina joko pofiilimatiisi tai 0. ketaluvun Makovin malli. Intonin väliosan mallina sama malli kuin tilassa N (integenic null model). Intonitilassa I voidaan myös mallintaan tilanne, jossa sama kodoni jakautuu kahden eksonin välille. Intonin pituus määäytyy geometisella jakaumalla. : siitymätn:t Siitymätodennäköisyydet: Useimmilla siitymillä todennäköisyys Poikkeuksena: N->TATA: Siitymätodennäköisyys 0.7 (70% geeneistä on TATA tila). N->N : Siitymätodennäköisyys 0.3 ( -0.7). TIE -> SEG: Määitellään opetusdatan avulla (eli kuinka paljon eksonisien geenien osuus). tilasta I -> : Todennäköisyydet määitellään opetusaineiston osuuksien mukaan. HMM käyttö: Annettuna tuntematon DNA sekvenssi, etsitään Vitebi algoitmilla todennäköisin tilajono, jonka peusteella päätellään onko geeni vai ei. Jos päädytään geenitulkintaan niin saadaan tietona tilajonon avulla millaisista osista geeni koostuu. Massaspektometiasta Massaspektometiaa on peinteisesti käytetty seosten yhdistepitoisuuksien analysointiin (juuet 900 luvun alussa) Viime vuosina löytänyt uusia sovellusalueita mm. poteomiikasta. Massaspektometi on laite, joka tuottaa näytteestä ioneja ja eottelee niitä massa-vaaus suhteen peusteella (mass-to-chage atio, m/z): Näyte ionisointi massa analyysi ionien detektointi/data analyysi Näytteet voivat olla kaasuja, nesteitä ja jopa kiinteitä. Näytteen ionisointiin useita eilaisia tekniikoita (mm. elektoni, kemiallinen). Ionisointi tuottaa vaattuja molekyylejä, jotka etenevät ( lentävät ) ionisointilähteestä paineettomassa tilassa ionidetektoiin. Tavittaessa ionisuihku voidaan kiihdyttää ja kohdistaa sähkö tai magneettikentällä. Ionidektoissa eotellaan eilaiset m/z suhteiset ionit. Kun kukin yhdiste ionisoituu sille ominaiselle tavalla (tuottaa tietyt ionit), saadaan kullekin yhdisteellä oma somenjälki m/z avulla -> kukin yhdiste tuottaa ominaisen m/z spektin (kuvaajan). Massaspektometilaite Ionisointi: elektonien avulla

Ionidetektoi Ionidetektoin avulla eotellaan m/z suhteen avulla ionit toisistaan. Massaspektilaitteen ionidekteoita useita eilaisia (! " " # $ %!& ' ( Yhdisteen massaspekti Massaspekti kuvaa yhdisteen m/z suhdetta histogammin avulla Spekti paljastaa analysoitavan yhdisteen ja yhdisteen pitoisuuden Esim: hiilidioksidin CO massaspeki (positiiviset ionit) Huomaa kuvassa kuinka ionisoinnissa CO molekyylit ovat hajonneet myös CO +, C + ja O + ioneiksi. CO ns. nominaalimassa on 44 DA DA = / osa hiili-:sta () * C+ yhden atomin massasta. Analysoitaessa tuntematonta seosta, ollaan kiinnostuneita mitä yhdisteitä seos sisältää MS:llä saatu seosspekti kostuu tällöin seoksessa olevien yhdisteiden spekteistä painotettuna kunkin yhdisteen pitoisuudella. Seosspektianalyysistä käytetään usein nimitystä dekonvoluutio. Takastellaan asiaa matemaattisesti: Yleisesti käytetään lineaaista seosyhdistemallia: y =, i w i u i + e, missä y = (y, y m ) T - mitattu seosspekti u i = (u i, u im ) T - yhdisteen efeenssispekti eli mitattu yhdiste jonka pitoisuus tunnetaan w i kunkin yhdisteen pitoisuus (i=,,n, eli n yhdistettä). e=(e,,e m ) T - oletettu mittausvihe y:ssä (yleensä oletaan e i ~ N(0,σ )) Lineaainen seosyhdistemalli y =, i w i u i + e kätevä esittää matiisimuodossa: y=uw+e missä U=(u,,u n ) eli U sisältää n efeenssispektia ja w=(w,,w n ) T eli näiden efeenssispektien pitoisuudet. Jos oletetaan e i ~ N(0,σ ) niin tällöin päädytään pienimmän neliösumman atkaisuun, jolloin saadaan yhdisteiden pitoisuuksiksi: w = ( U U ) T U T y Ratkaisu on yleensä hyvä siinä tapauksessa kun mitattavan seoksen yhdisteet tunnetaan. Käytännössä mitattu seos voi sisältää tuntemattomia yhdisteitä. Tällöin PNS neliösumman atkaisu tuottaa vääistyneen tuloksen. TKK/Laskennallisen tekniikan laboatoiossa kehitetty menetelmä kojaa tämän PNS atkaisun viheellisyyden. Lineaainen seosyhdistemalli y =, i w i u i + e kätevä esittää matiisimuodossa: y=uw+e missä U=(u,,u n ) eli U sisältää n efeenssispektia ja w=(w,,w n ) T eli näiden efeenssispektien pitoisuudet. Jos oletetaan e i ~ N(0,σ ) niin tällöin päädytään pienimmän neliösumman atkaisuun, jolloin saadaan yhdisteiden pitoisuuksiksi: w = ( U U ) T U T y Ratkaisu on yleensä hyvä siinä tapauksessa kun mitattavan seoksen yhdisteet tunnetaan. Käytännössä mitattu seos voi sisältää tuntemattomia yhdisteitä. Tällöin PNS neliösumman atkaisu tuottaa vääistyneen tuloksen. TKK/Laskennallisen tekniikan laboatoiossa kehitetty menetelmä kojaa tämän PNS atkaisun viheellisyyden. LÄHTÖKOHTA: Mitattu seosspekti on on painotettu lineaaisumma efeenssispekteistä ONGELMA: Miten valita efeenssispektit. Yksi tai useampi tuntematon yhdiste vääistää atkaisun. RATKAISU: Mallitetaan tuntemattomat yhdisteet mallin esiduaali eli vihefunktiona. Oletetaan että n tuntematonta yhdistettä U'=(u n+,,u n+n' ) pitoisuudella w'=(w n+,,w n+n' ) T. Tällöin lineaaispektimalliksi saadaan: y = Uw + U w + e, missä mallin osuus U w + e voidaan ajatella mallin y=uw viheeksi. Mekitään e = U w + e, jolloin malliksi saadaan y = Uw + e. ONGELMA: Mitä muotoa on e (oletettiin että e~n(0, σ ) ) 3

Koska vihe e sisältää gaussisen komponentin e ja U w temin, joka koostuu positiivisista komponenteista (pitoisuudet >0 ja efeenssispektien alkiot >0), niin tällöin e ei voida mitenkään olettaa olevan Gaussinen. Viheen e takka muoto iippuu U w temistä, jota toisaalta ei tunneta. Viheen e muodosta tiedetään U w positiivisuuden peusteella, että se aiheuttaa viheen e jakaumaan positiivisen hännän. Oheisessa kuvassa ilmenee tyypillinen jakaumamuoto viheelle e. Huomaa että jakauma e koostuu gaussisesta osuudesta N(0, σ ) ja positiivisesta hännästä. Edellä esiteltyä jakauman e muotoa voidaan mallintaa esimekiksi funktiolla (johdettu ns. Hube estimaattoista): h( e', p( e' ) = e K( missä x, x h( x, = σ x, x > σ σ ja nomalisointikeoin on K x x σ σ σ ( = e dx + e joka voidaan yksinketaistaa muotoon ( N(0, σ ) on ketymäjakauma): K = dx (,0, ) σ σ πσν σ + e Edellä mainittu jakauma p viheesiduaalijakaumia: pystyy esimekiksi mallintamaan seuaavia Tekemällä iid oletus viheen e komponenteille, voidaan haluttujen yhdisteiden pitoisuudet estimoida nyt suuemman uskottavuuden menetelmällä maksimoimalla oheinen uskottavuusfunktio: missä P ( y σ, w) = ŷ on estimoitu spekti: yˆ = Uwˆ m i= e K( h( yi yˆ i, missä ŵ on estimoidut pitoisuudet tunnetuille yhdisteille. Esim: 6 tapausta, oheisilla pitoisuuksilla, yksi yhdiste vuoollaan jätetään pois tuntamattomaksi yhdisteeksi. Compound Case Case Case 3 Tulokset kun kaikki yhdisteet mukana (neliösummavihe veattuna oikeaan pitoisuuteen). Method TEST CASE MTBE TAME Benzene Toluene Ethylbenzene 35-timethylbentzene 0.308 0.30 0.996 0.999 0.300 0.308 0.060 0.0599 0.999 0.060 0.030 0.0604 0.30 0.996 0.060 0.060 ML(P ) LS ML(P ME ) 3 0.047 0.4 0.0438 0.778 0.6783 0.509 0.0330 0.433 0.0385 Method 4 5 6 ML(P ) 0.0676 0.063 0.0660 LS 0.48 0.6806 0.568 ML(P ME ) 0.039 0.044 0.0577 Compound Case 4 Case 5 Case 6 MTBE TAME Benzene Toluene Ethylbenzene 35-timethylbentzene 0.308 0.30 0.0599 0.060 0.060 0.0604 0.060 0.996 0.999 0.300 0.307 0.060 0.996 0.060 4

Edellisestä esimekistä saadut tulokset: ( ML(P ME ) on M-estimaattoi) kun yksi yhdiste keallaan jätetään ajosta pois (yhteensä tulee siis 36 testiä). Massaspektometia Edellinen mallinnustehtävä osoitti että mallinnettaessa on aina ensiavoisen täkeää takastella seuaavia kolmea kohtaa: ) Mittausdataa ) Vasinaista mallia 3) Mallin liitettävää vihekomponenttia Vain yhdistämällä kaikki edellä olevat asiat päästään hyvään atkaisuun laskentamenetelmien avulla. Nomaalijakaumaolettamuskin (vastaa PNS atkaisua) on aina oltava peusteltavissa! Edellä kuvattu pitoisuusanalyysimenetelmä on toimiva kaikissa spektoskopiamenetelmissä, joissa lähtökohtana seosspektin lineaaisuus. 5