S-4250 Laskeallie systeemibiologia Harjoitus Mittaustuloksea o saatu havaitoparia (x, y ),, (x, y ) Muuttuja y käyttäytymistä voidaa selittää muuttuja x avulla esimerkiksi yksikertaise lieaarise riippuvuude kautta Muodosta mitatulle ilmiölle malli sovittamalla suora y i θ x i + θ 2 pistejoukkoo Maximum Likelihood -meetelmällä (Malli o tällöi y i θ x i + θ 2 + ε i, jossa viimeie termi kattaa satuaise mittausvirhee) Oleta mittaustulokset riippumattomiksi ja ε i ormaalijakautueeksi: ε i N(0, σ 2 ) Aloitetaa määrittämällä yhdelle havaiolle y i likelihood, eli todeäköisyys havaita y i kohdassa x i aettua malli Koska kohta x i selittää havaio y i malli mukaisesti satuaista virhetermiä lukuuottamatta, vastaa arvo y i havaitsemise todeäköisyyttä residuaali e i y i θ x i θ 2 todeäköisyys Yhde pistee likelihood o siis p(y i x i ; θ) p(e i ) Mittausvirhe e i oletettii ormaalijakautueeksi odotusarvolla olla ja vakiovariassilla; ε i N(0, σ 2 ), jolloi kirjoittamalla ormaalijakauma auki saadaa yhde mittauspistee likelihood muotoo p(y i x i ; θ) p(e i ) exp { (y i θ x i θ 2 ) 2 } 2πσ 2σ 2 Ku oletetaa mittaukset riippumattomiksi, voidaa koko mittausdata likelihood kirjoittaa yksittäiste mittauspisteide likelihoodie tuloa p(y x; θ) exp { (y i θ x i θ 2 ) 2 } 2πσ 2σ 2 ( ) { } exp (y 2πσ 2σ 2 i θ x i θ 2 ) 2 Likelihood voidaa kirjoittaa pelkästää parametrie fuktioa: ( ) { } L(θ) exp (y 2πσ 2σ 2 i θ x i θ 2 ) 2
Parametrie θ Maximum Likelihood -estimaatit ovat sellaiset parametriarvot, jotka maksimoivat likelihoodi L(θ) arvo Etsitää siis likelihoodi maksimi Tässä tapauksessa maksimi löytyy helpoite ottamalla likelihoodista logaritmi ja etsimällä tämä maksimikohta (Logaritmi o mootoie fuktio, jote maksimi löytyy samasta kohtaa kui likelihoodilla) Käytäössä yleesä etsitää egatiivise log likelihoodi miimi, joka seki vastaa samaa asiaa Kirjoitetaa aluksi egatiivie log likelihood auki: l(θ) l L(θ) ( ( ) { l exp 2πσ 2σ 2 ( ) ( { l l exp 2πσ l( 2πσ ) + 2σ 2 }) (y i θ x i θ 2 ) 2 2σ 2 }) (y i θ x i θ 2 ) 2 (y i θ x i θ 2 ) 2 Viimeisestä muodosta havaitaa, että pieimmä arvosa lauseke saa ku jälkimmäise termi summa miimoituu Summalauseke o itseasiassa malli eliövirheide summa Tästä ähdää, että oletettaessa ormaalijakautueet mittausvirheet Maximum Likelihood -ratkaisu parametrie estimoiissa o sama kui pieimmä eliösumma (PNS) ratkaisu Miimi l(θ):lle löytyy tässä tapauksessa aalyyttisesti derivoimalla lauseke parametrie θ ja θ 2 suhtee, ja asettamalla derivaatat olliksi: l(θ) θ 2σ 2 (y 2 i θ x i θ 2 )( x i ) σ 2 (y i θ x i θ 2 )x i 0 l(θ) θ 2 2σ 2 (y 2 i θ x i θ 2 )( ) σ 2 (y i θ x i θ 2 ) 0 Tästä saadaa yhtälöt y i x i θ xi 2 θ 2 x i 0 y i θ joista saadaa ratkaistua suora parametrit θ ja θ 2 2 x i θ 2 0,
Haluttu ratkaisu o siis suora ŷ i θ x i + θ 2 parametreilla θ y ix i + x i y i x 2 i + ( x i ) 2 θ 2 y i θ x i 2 Moiulotteisessa tapauksessa tarkasteltava muuttuja y käyttäytymistä pyritää selittämää useide eri muuttujie x, x 2, x m avulla Lieaarimalli o tällöi y i a x i + a 2 x i2 + a m x im + ε i Mittauksessa o saatu havaitoa, ja selittäviä muuttujia o m kappaletta Muodosta matriisiyhtälö ja ratkaise siitä kertoimet a pieimmä eliösumma meetelmällä Kyseie ogelma voidaa kirjoittaa matriisimuodossa seuraavasti: y x x m a + y x x m a m Pieimmä eliösumma meetelmässä pyritää löytämää parametriarvot, jotka miimoivat malli ja mittaustuloste erotukse eliöllise arvo Ku mittauksia o kpl, saadaa eliövirheeksi E (y i a x i a 2 x i2 a m x im ) 2 Jos mallissa o mukaa vakiotermi, o se yleesä sisällytetty mukaa site, että x i, i Kute tehtävässä, derivoidaa eliösummalauseke ja asetetaa derivaatat olliksi Tästä seuraa m yhtälö lieaarie yhtälöryhmä, josta voidaa ratkaista kertoite arvot Derivaattalausekkeiksi (m kpl) saadaa E a j 2(y i a x i a m x im )( x ij ) 0, j m, joista saadaa edellee ε ε y i x ij (a x i + + a m x im )x ij, j m 3
Yhtälöt voidaa kirjoittaa matriisimuodossa, jolloi saadaa X T y X T Xa Tämä voidaa ratkaista ormaali matriisialgebra keioi; X T X o eliömatriisi, jolle löytyy kääteismatriisi, ku X o täysiasteie Ratkaisuksi saadaa a (X T X) X T y Pieimmä eliösumma kertoimet saadaa siis pseudoiverssi X + (X T X) X T avulla Jos oletetaa, että virhetermi o ormaalijakautuut, ovat ML-estimaatit lieaarimalli parametreille PNS-estimaatit, jotka puolestaa saadaa helposti pseudoiverssi avulla Moimutkaie moemuuttuja likelihood-termi maksimoiti yksikertaistuu siis yhde rivi matriisilaskuksi, jos ormaalisuusoletus pitää paikkasa 3 DNA-sekvessi malliuksessa käytetää astee Markov-mallia, joka siirtymätodeäköisyysmatriisi o P 0 08 005 005 035 0 0 045 03 02 02 03 06 0 025 005 (Matriisi rivejä ja sarakkeita vastaava emäsjärjestys o a, c, g, t) Etsi Markovi ketju statioaarie tila Merkitää statioaarista tilaa vektorilla ϕ Statioaarie tila toteuttaa ehdo ϕ T ϕ T P, eli [ ϕ ϕ 2 ϕ 3 ϕ 4 ] [ ϕ ϕ 2 ϕ 3 ϕ 4 ] P Muistetaa ehto ϕ + ϕ 2 + ϕ 3 + ϕ 4, 4
jolloi saadaa yhtälöryhmä 0ϕ + 035ϕ 2 + 03ϕ 3 + 06ϕ 4 ϕ 08ϕ + 0ϕ 2 + 02ϕ 3 + 0ϕ 4 ϕ 2 005ϕ + 0ϕ 2 + 02ϕ 3 + 025ϕ 4 ϕ 3 005ϕ + 045ϕ 2 + 03ϕ 3 + 005ϕ 4 ϕ 4 ϕ + ϕ 2 + ϕ 3 + ϕ 4 Ratkaistaa yhtälöryhmä, jolloi statioaariseksi tilaksi saadaa 038 ϕ 03357 0295 0266 5