HMM ja geenien etsintä

Kuten makovin mallien yhteydessä, niin HMM halutulla topologialla voidaan opettaa tunnistamaan geenejä. Ohessa eäs geenitunnistukseen käytetty topologia, joka tunnistaa ihmisen geenit (5 -> 3 ). Edellä oleva malli on itse asiassa ns. semihidden HMM, jossa siitymätodennäköisyydet tilasta itseensä on 0 ja tilasta poistuessaan malli tuottaa kokonaisen sekvenssijonon. Tuotetun sekvenssijonon pituus noudattaa jotain määiteltyä jakaumaa. Jokaiseen tilaan S liitetään satunnaismuuttuja L S joka koostuu jostakin 0,, osajoukosta. Jokaiselle L S :n havaitulle avolle l liitetään satunnaismuuttuja Y S,l joka koostuu kaikista l mittaisista sekvensseistä. ELI: Kun tilasta S poistutaan -> l määäytyy L S jakaumasta -> l ajaa jakauman Y S,l josta l pituinen sekvenssi geneoidaan. Lopullinen sekvenssi määäytyy kaikkien tilojen osasekvenssien avulla. Vitebi algoitmin muunnelmalla semihidden HMM:ää käytetään etsimään ne tilat, jotka todennäköisimmin on tuottanut annetun sekvenssijonon. Geenien etsintään HMM:n pitää sisältää sellaisia osia jotka ovat keskeisiä geenissä. Tässä mallissa: Integenic egion: Geenien välinen sekvenssijono Pomote: DNA-sekvenssin kohta, johon RNA-polymeaasi sitoutuu ennen tanskiption aloitusta. 70% pomootteeista sisältää TATA signaalin (8-34 emäksen päässä tanskiption aloituksesta), joka yllä mallissa, muuta pomootteeihin liittyviä asioita ei yllä pyitä mallintamaan. 5 UTR (untanslated egion): pomoottoia seuaava jakso, jota ei käytetä poteiinisynteesissä eli tanslaatiossa (cap-end = 8 emäksen jakso, TIE Tanslation initiation end, 8 emästä ennen ensimmäistä kodonia). 5 UTR jälkeen seuaavat eksonit ja intonit. Mallissa on joko yksi eksoni (SEG) tai useita eksoneita ja intoneja (intonit poistuu silmukoinnissa). 3 UTR: sekvenssiosa, joka jäljennetään, mutta ei osallistu poteiinisynteesiin. Poly-A: Jäljennyksen lopetus, 6 emästä, tyypillisesti AATAAA muotoa. Edellisen HMM:n jokainen tila on itse asiassa oma mallinsa. Buge et.al (997) käytti opetukseen.5 Mb:tä DNA sekvenssiä, jossa 380 geeniä (joista 4 yhden eksonin geenejä): yhteensä 49 eksonia, 54 intonia. Lisäksi aineistossa ihmisen 69 geeniä, joista käytettiin vain koodaavaa osuutta. Tila N: L N geometinen jakauma (odotusavona koko ihmisen genomin koko jaettuna geenien määällä). Sekvenssin muoto mallitetaan 5. ketaluvun Makovin mallilla, jonka paametit (307) estimoidaan opetusdatan avulla ei koodaavien sekvenssikohtien avulla. Mallia kutsutaan integenic null model:ksi. Samaa mallia käytetään tiloissa N, N ja 3 UTR. Tila TATA: Mallinnetaan 5 emäksen pofiilimatiisilla (emäksen todennäköisyys paikan funktiona). 70% ihmisen geeneistä on TATA osuus, malli pystyy tavittaessa ohittamaan TATA tilan. Tila N L N Tasajaukauma 8:sta 34:ään emäkseen. Tila cap-end Mallinnetaan 8 emäksen pofiilimatiisilla Tila N L N Geometinen jakauma, odotusavona 735 emästä. Tila TIE: Mallinnetaan 8 emäksen pofiilimatiisilla Tila 3 UTR: L 3 UTR Geometinen jakauma, odotusavona 450 emästä Tila Poly-A: Mallinnetaan 6 emäksen pofiilimatiisilla.

: opetus Eksonit ja intonit Tila SEG: Yhden eksonin geeni Kodonimallina epähomogeeninen 5. ketaluvun Makovin malli. Epähomogeenisuus: emäksen tn iippuu siitä missä kohtaa kodonia emäs on. Tilaa SEG vastaava sekvenssi alkaa kodonista ATG ja päättyy johonkin kolmeen seuaavaan kodoniin: TAA, TAG, TGA Sekvenssin pituus määäytyy opetusaineistosta saatavan pituusjakauman mukaan (empiiinen jakauma). Monieksoniset geenit eli tilat E I, I, E ja E T Eksonitiloja E I, E ja E T vastaavat sekvenssit pituudeltaan 3:n emäksen moniketoja. Pituuden jakauma määäytyy opetusaineiston mukaan (empiiinen jakauma). Eksonitiloja vastaavana kodonimallina 5. ketaluvun epähomogeeninen Makovin malli. Tila I Intoni kostuu kolmesta osasta: ) dono splice signal Intonin alku (6 ensimmäistä emästä). ) Intonin väliosa 3) Accepto splice signal - Intonin loppuosa (0 viimeistä emästä) Osien ja 3 mallina joko pofiilimatiisi tai 0. ketaluvun Makovin malli. Intonin väliosan mallina sama malli kuin tilassa N (integenic null model). Intonitilassa I voidaan myös mallintaan tilanne, jossa sama kodoni jakautuu kahden eksonin välille. Intonin pituus määäytyy geometisella jakaumalla. : siitymätn:t Siitymätodennäköisyydet: Useimmilla siitymillä todennäköisyys Poikkeuksena: N->TATA: Siitymätodennäköisyys 0.7 (70% geeneistä on TATA tila). N->N : Siitymätodennäköisyys 0.3 ( -0.7). TIE -> SEG: Määitellään opetusdatan avulla (eli kuinka paljon eksonisien geenien osuus). tilasta I -> : Todennäköisyydet määitellään opetusaineiston osuuksien mukaan. HMM käyttö: Annettuna tuntematon DNA sekvenssi, etsitään Vitebi algoitmilla todennäköisin tilajono, jonka peusteella päätellään onko geeni vai ei. Jos päädytään geenitulkintaan niin saadaan tietona tilajonon avulla millaisista osista geeni koostuu. Massaspektometiasta Massaspektometiaa on peinteisesti käytetty seosten yhdistepitoisuuksien analysointiin (juuet 900 luvun alussa) Viime vuosina löytänyt uusia sovellusalueita mm. poteomiikasta. Massaspektometi on laite, joka tuottaa näytteestä ioneja ja eottelee niitä massa-vaaus suhteen peusteella (mass-to-chage atio, m/z): Näyte ionisointi massa analyysi ionien detektointi/data analyysi Näytteet voivat olla kaasuja, nesteitä ja jopa kiinteitä. Näytteen ionisointiin useita eilaisia tekniikoita (mm. elektoni, kemiallinen). Ionisointi tuottaa vaattuja molekyylejä, jotka etenevät ( lentävät ) ionisointilähteestä paineettomassa tilassa ionidetektoiin. Tavittaessa ionisuihku voidaan kiihdyttää ja kohdistaa sähkö tai magneettikentällä. Ionidektoissa eotellaan eilaiset m/z suhteiset ionit. Kun kukin yhdiste ionisoituu sille ominaiselle tavalla (tuottaa tietyt ionit), saadaan kullekin yhdisteellä oma somenjälki m/z avulla -> kukin yhdiste tuottaa ominaisen m/z spektin (kuvaajan). Massaspektometilaite Ionisointi: elektonien avulla

Ionidetektoi Ionidetektoin avulla eotellaan m/z suhteen avulla ionit toisistaan. Massaspektilaitteen ionidekteoita useita eilaisia (! " " # $ %!& ' ( Yhdisteen massaspekti Massaspekti kuvaa yhdisteen m/z suhdetta histogammin avulla Spekti paljastaa analysoitavan yhdisteen ja yhdisteen pitoisuuden Esim: hiilidioksidin CO massaspeki (positiiviset ionit) Huomaa kuvassa kuinka ionisoinnissa CO molekyylit ovat hajonneet myös CO +, C + ja O + ioneiksi. CO ns. nominaalimassa on 44 DA DA = / osa hiili-:sta () * C+ yhden atomin massasta. Analysoitaessa tuntematonta seosta, ollaan kiinnostuneita mitä yhdisteitä seos sisältää MS:llä saatu seosspekti kostuu tällöin seoksessa olevien yhdisteiden spekteistä painotettuna kunkin yhdisteen pitoisuudella. Seosspektianalyysistä käytetään usein nimitystä dekonvoluutio. Takastellaan asiaa matemaattisesti: Yleisesti käytetään lineaaista seosyhdistemallia: y =, i w i u i + e, missä y = (y, y m ) T - mitattu seosspekti u i = (u i, u im ) T - yhdisteen efeenssispekti eli mitattu yhdiste jonka pitoisuus tunnetaan w i kunkin yhdisteen pitoisuus (i=,,n, eli n yhdistettä). e=(e,,e m ) T - oletettu mittausvihe y:ssä (yleensä oletaan e i ~ N(0,σ )) Lineaainen seosyhdistemalli y =, i w i u i + e kätevä esittää matiisimuodossa: y=uw+e missä U=(u,,u n ) eli U sisältää n efeenssispektia ja w=(w,,w n ) T eli näiden efeenssispektien pitoisuudet. Jos oletetaan e i ~ N(0,σ ) niin tällöin päädytään pienimmän neliösumman atkaisuun, jolloin saadaan yhdisteiden pitoisuuksiksi: w = ( U U ) T U T y Ratkaisu on yleensä hyvä siinä tapauksessa kun mitattavan seoksen yhdisteet tunnetaan. Käytännössä mitattu seos voi sisältää tuntemattomia yhdisteitä. Tällöin PNS neliösumman atkaisu tuottaa vääistyneen tuloksen. TKK/Laskennallisen tekniikan laboatoiossa kehitetty menetelmä kojaa tämän PNS atkaisun viheellisyyden. Lineaainen seosyhdistemalli y =, i w i u i + e kätevä esittää matiisimuodossa: y=uw+e missä U=(u,,u n ) eli U sisältää n efeenssispektia ja w=(w,,w n ) T eli näiden efeenssispektien pitoisuudet. Jos oletetaan e i ~ N(0,σ ) niin tällöin päädytään pienimmän neliösumman atkaisuun, jolloin saadaan yhdisteiden pitoisuuksiksi: w = ( U U ) T U T y Ratkaisu on yleensä hyvä siinä tapauksessa kun mitattavan seoksen yhdisteet tunnetaan. Käytännössä mitattu seos voi sisältää tuntemattomia yhdisteitä. Tällöin PNS neliösumman atkaisu tuottaa vääistyneen tuloksen. TKK/Laskennallisen tekniikan laboatoiossa kehitetty menetelmä kojaa tämän PNS atkaisun viheellisyyden. LÄHTÖKOHTA: Mitattu seosspekti on on painotettu lineaaisumma efeenssispekteistä ONGELMA: Miten valita efeenssispektit. Yksi tai useampi tuntematon yhdiste vääistää atkaisun. RATKAISU: Mallitetaan tuntemattomat yhdisteet mallin esiduaali eli vihefunktiona. Oletetaan että n tuntematonta yhdistettä U'=(u n+,,u n+n' ) pitoisuudella w'=(w n+,,w n+n' ) T. Tällöin lineaaispektimalliksi saadaan: y = Uw + U w + e, missä mallin osuus U w + e voidaan ajatella mallin y=uw viheeksi. Mekitään e = U w + e, jolloin malliksi saadaan y = Uw + e. ONGELMA: Mitä muotoa on e (oletettiin että e~n(0, σ ) ) 3

Koska vihe e sisältää gaussisen komponentin e ja U w temin, joka koostuu positiivisista komponenteista (pitoisuudet >0 ja efeenssispektien alkiot >0), niin tällöin e ei voida mitenkään olettaa olevan Gaussinen. Viheen e takka muoto iippuu U w temistä, jota toisaalta ei tunneta. Viheen e muodosta tiedetään U w positiivisuuden peusteella, että se aiheuttaa viheen e jakaumaan positiivisen hännän. Oheisessa kuvassa ilmenee tyypillinen jakaumamuoto viheelle e. Huomaa että jakauma e koostuu gaussisesta osuudesta N(0, σ ) ja positiivisesta hännästä. Edellä esiteltyä jakauman e muotoa voidaan mallintaa esimekiksi funktiolla (johdettu ns. Hube estimaattoista): h( e', p( e' ) = e K( missä x, x h( x, = σ x, x > σ σ ja nomalisointikeoin on K x x σ σ σ ( = e dx + e joka voidaan yksinketaistaa muotoon ( N(0, σ ) on ketymäjakauma): K = dx (,0, ) σ σ πσν σ + e Edellä mainittu jakauma p viheesiduaalijakaumia: pystyy esimekiksi mallintamaan seuaavia Tekemällä iid oletus viheen e komponenteille, voidaan haluttujen yhdisteiden pitoisuudet estimoida nyt suuemman uskottavuuden menetelmällä maksimoimalla oheinen uskottavuusfunktio: missä P ( y σ, w) = ŷ on estimoitu spekti: yˆ = Uwˆ m i= e K( h( yi yˆ i, missä ŵ on estimoidut pitoisuudet tunnetuille yhdisteille. Esim: 6 tapausta, oheisilla pitoisuuksilla, yksi yhdiste vuoollaan jätetään pois tuntamattomaksi yhdisteeksi. Compound Case Case Case 3 Tulokset kun kaikki yhdisteet mukana (neliösummavihe veattuna oikeaan pitoisuuteen). Method TEST CASE MTBE TAME Benzene Toluene Ethylbenzene 35-timethylbentzene 0.308 0.30 0.996 0.999 0.300 0.308 0.060 0.0599 0.999 0.060 0.030 0.0604 0.30 0.996 0.060 0.060 ML(P ) LS ML(P ME ) 3 0.047 0.4 0.0438 0.778 0.6783 0.509 0.0330 0.433 0.0385 Method 4 5 6 ML(P ) 0.0676 0.063 0.0660 LS 0.48 0.6806 0.568 ML(P ME ) 0.039 0.044 0.0577 Compound Case 4 Case 5 Case 6 MTBE TAME Benzene Toluene Ethylbenzene 35-timethylbentzene 0.308 0.30 0.0599 0.060 0.060 0.0604 0.060 0.996 0.999 0.300 0.307 0.060 0.996 0.060 4

Edellisestä esimekistä saadut tulokset: ( ML(P ME ) on M-estimaattoi) kun yksi yhdiste keallaan jätetään ajosta pois (yhteensä tulee siis 36 testiä). Massaspektometia Edellinen mallinnustehtävä osoitti että mallinnettaessa on aina ensiavoisen täkeää takastella seuaavia kolmea kohtaa: ) Mittausdataa ) Vasinaista mallia 3) Mallin liitettävää vihekomponenttia Vain yhdistämällä kaikki edellä olevat asiat päästään hyvään atkaisuun laskentamenetelmien avulla. Nomaalijakaumaolettamuskin (vastaa PNS atkaisua) on aina oltava peusteltavissa! Edellä kuvattu pitoisuusanalyysimenetelmä on toimiva kaikissa spektoskopiamenetelmissä, joissa lähtökohtana seosspektin lineaaisuus. 5