Aukkoja sekvensseissä. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

Samankaltaiset tiedostot
Proteiinien kontaktiresidyjen ennustaminen. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

Teoreettisen fysiikan tulevaisuuden näkymiä

Matemaatikot ja tilastotieteilijät

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Lyhyen aikavälin hintakilpailu 2/2

Integrointialgoritmit molekyylidynamiikassa

MUOVIA MAIDOSTA. AVAINSANAT: Arkikemia Proteiinit Denaturoituminen Polymeerit Happamuus

Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

1. Tilastollinen malli??

Estimointi. Vilkkumaa / Kuusinen 1

KLASSISET TASAPAINOJOUKOT (AH 4.3, , 7.2) Yleisesti joukoista

tilastotieteen kertaus

BIOMOLEKYYLEJÄ. fruktoosi

Identifiointiprosessi

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Mitä elämä on? Astrobiologian luento Kirsi

Harjoitus 2: Matlab - Statistical Toolbox

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Syventävien opintojen seminaari

Väliestimointi (jatkoa) Heliövaara 1

riippumattomia ja noudattavat samaa jakaumaa.

DNA, RNA ja proteiinirakenteen ennustaminen

Osa 2: Otokset, otosjakaumat ja estimointi

Biomolekyylit ja biomeerit

Harjoitus 7: NCSS - Tilastollinen analyysi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

Dynaamiset regressiomallit

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Numeeriset menetelmät

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

hyvä osaaminen

f(x, y) = x 2 y 2 f(0, t) = t 2 < 0 < t 2 = f(t, 0) kaikilla t 0.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

PHYS-C0220 Termodynamiikka ja statistinen fysiikka Kevät 2016

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

PHYS-A3121 Termodynamiikka (ENG1) (5 op)

Laskennallinen data-analyysi II

Sovellettu todennäköisyyslaskenta B

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Vaikeavammaisen asiakkaan kanssa työskentely

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

1 Eksergia ja termodynaamiset potentiaalit

5.6.3 Matematiikan lyhyt oppimäärä

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

Yleisiä kommentteja kokeesta.

TASAPAINOJAKAUMAT KVANTTIMEKAANISISSA SYSTEEMEISSÄ (AH 5.4, 6.1, 6.4, 6.5) Mikrokanoninen joukko

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

pitkittäisaineistoissa

Harha mallin arvioinnissa

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Nesteen sisäinen kitka ja diffuusio

Projektin arvon aleneminen

Sekvenssien rinnastus. Rinnastus: helppoa tai vaikeaa

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

ABHELSINKI UNIVERSITY OF TECHNOLOGY

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

pitkittäisaineistoissa

TILASTOLLINEN OPPIMINEN

SONKAJÄRVEN LUKIO LUKUVUOSI OPPIKIRJAT. Kurssi Kirjan nimi Kust. ISBN

Sähkökaapelien palomallinnuksen uusia menetelmiä ja tuloksia

MS-C1340 Lineaarialgebra ja

Nollasummapelit ja bayesilaiset pelit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Numeeriset Menetelmät

MAOL ry on pedagoginen ainejärjestö, joka työskentelee matemaattisluonnontieteellisen. osaamisen puolesta suomalaisessa yhteiskunnassa.

12 Oligopoli ja monopolistinen kilpailu

Sovellettu todennäköisyyslaskenta B

Teoria tieteessä ja arkikielessä. Teoriat ja havainnot. Teorian käsitteitk. sitteitä. Looginen positivismi ja tieteen kielen kaksitasoteoria (1)

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

neuvonantajaa pk-yrityksiin. Kampanja neuvonantajien käytön lisäämiseksi

TÄS ON PROTSKUU! Missä yhteyksissä olet törmännyt sanaan proteiini tai valkuaisaine?

Sovellettu todennäköisyyslaskenta B

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Perinnöllisyystieteen perusteita III Perinnöllisyystieteen perusteita

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kehitä kokeilemalla. Invalidiliiton järjestöpäivät Lari Karreinen

Esimerkki: Tietoliikennekytkin

Kansallinen seminaari

Logistinen regressio, separoivat hypertasot

Sovellettu todennäköisyyslaskenta B

TILASTOLLISEN KVANTTIMEKANIIKAN PERUSTEITA (AH ) Mikrotilat (kertausta Kvanttimekaniikan kurssilta)

PHYS-C0220 Termodynamiikka ja statistinen fysiikka Kevät 2016

Moderni biolääketieteellinen optiikka X - Optinen mittaaminen sekä valmistusmenetelmät X X X

PariAsiaa luentosarjan teemat:

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Harjoitus 8: Monte-Carlo simulointi (Matlab)

Transkriptio:

Aukkoja sekvensseissä Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari 25.04.13

Terminologiaa Aminohappo = proteiinien rakennuspalikka, proteiinit rakentuvat 22:sta erilaisesta, 20 näistä normaaleja Aminohapporesidy = yksittäinen aminohappo (monomeeri) aminohappojen muodostamassa ketjussa (polymeerissä) Proteiini = biomolekyyli joka koostuu yhdestä tai useammasta aminohappoketjusta Kontaktiresidy = proteiinin 3D-rakenteessa toisen residyn kanssa kosketuksissa oleva residy 25.04.2013 Aukkoja sekvensseissä 2

Esitelmän rakenne Lyhyt kertaus kontaktiresidyjen ennustamisesta Suurimman entropian periaate auttaa mallin valinnassa Aukot sekvenssien rinnastuksissa, mitä niille tulisi/voisi tehdä? Yhteenveto Kuva: http://commons.wikimedia.org/wiki/file:sp ombe_pop2p_protein_structure_rainbow. 25.04.2013 Aukkoja sekvensseissä png 3

MSA 25.04.2013 Aukkoja sekvensseissä Kuva: http://upload.wikimedia.org/wikipedia/com 4 mons/7/79/rplp0_90_clustalw_aln.gif

Kontaktiresidyjen ennustaminen Kuva: arxiv:1211.1281, M.Ekeberg et. al. 25.04.2013 Aukkoja sekvensseissä 5

Kontaktiresidyt auttavat 3D-rakenteen ennustamisessa Proteiinien 3D-rakenteen ennustaminen on yksi tärkeimpiä bioinformatiikan ja teoreettisen kemian tavoitteita Laskostumisprosessin parempi ymmärtäminen, tieto 3D-rakenteesta ilman aminohappoketjun fyysistä valmistamista Sovelluskohteina mm. uusien lääkkeiden ja entsyymien kehittäminen Aminohappoketju kontaktiresidyt Monte Carlosimulaatio 3D-rakenne 25.04.2013 Aukkoja sekvensseissä 6

Suurimman entropian periaate Kilpailevista, yhtä selitysvoimaisista teorioista tulisi valita yksinkertaisempi (Occamin partaveitsi) Entropia mittaa todennäköisyysjakauman epävarmuuden määrää (Shannon 1948, Jaynes 1957) Entropian maksimoiminen antaa todennäköisyysjakauman, joka on yleisin mahdollinen annetuilla sidosehdoilla 25.04.2013 Aukkoja sekvensseissä 7

Oikean jakauman löytäminen on helppoa ja hauskaa! 1) Määritä sidosehdot 2) Maksimoi entropia sidosehtojen vallitessa (Lagrangen kertojien menetelmä 1 parametri per kertoja) 3) Ihastele jakaumaa, joka tekee vähiten oletuksia datasta 4) Ratkaise Lagrangen kertojat, eli mallin parametrit. Vaatii Z:n laskemista! (usein ei helppoa, aina ei myöskään hauskaa approksimatiiviset menetelmät) 25.04.2013 Aukkoja sekvensseissä 8

Pottsin malli Saadaan kun käytetään sidosehtoina aminohappojen esiintymistiheyksiä datassa σ on N:n pituinen sekvenssi ja jokainen σ i voi saada yhden 21:stä arvosta (21 aminohappoa, 1 aukko) 25.04.2013 Aukkoja sekvensseissä 9

Aukot eroavat aminohapoista Aminohapot ovat oikeasti olemassa, mutta aukot ovat rinnastusalgoritmin luomia keinotekoisia tiloja Pottsin malli käsittelee kaikkia 21 tilaa samalla tavalla! Esimerkiksi aukkojen pituuksien histogrammi poikkeaa selvästi muista aminohapoista 25.04.2013 Aukkoja sekvensseissä 10

25.04.2013 Aukkoja sekvensseissä 11

Erilaisia tapoja kohdella aukkoja Voidaan kokeilla erilaisia tapoja muuttaa mallia s.e se ottaa aukot paremmin huomioon Esim. arvotaan aukon paikalle satunnainen aminohappo, tai skaalataan tuloksia siten, että aukkojen väliset vuorovaikutukset heikentyvät On helppo löytää malleja, jotka ennustavat kontaktit huonommin! Teoreettinen motivaatio? 25.04.2013 Aukkoja sekvensseissä 12

Yksinkertaiset kokeilut eivät tuota tulosta 25.04.2013 Aukkoja sekvensseissä 13

Suurimman entropian periaate, revisited Asetetaan jakaumalle P(σ) lisää sidosehtoja, ja ratkaistaan jakauman muoto maksimoimalla entropia Uusien sidosehtojen lisääminen lisää malliin vähintään kolmen residyn välisiä vuorovaikutustermejä! Mitä enemmän sidosehtoja, sitä enemmän parametreja numeerisesti hankalampaa! 25.04.2013 Aukkoja sekvensseissä 14

Yhteenveto Suurimman entropian periaate on oikea tapa muodostaa mallin todennäköisyysjakauma, kun ei haluta tehdä ylimääräisiä oletuksia mallinnettavasta kohteesta Aukkojen käsitteleminen identtisesti aminohappojen kanssa on plmdca:n ilmeinen heikkous Suurimman entropian periaate mahdollistaa erilaisten sidosehtojen asettamisen nimenomaan aukoille 25.04.2013 Aukkoja sekvensseissä 15

Kiitos! Kiitokset myös: Erik Aurell, Martin Weigt, Alexander Mozeika, Rémi Lemoy, Onur Dijkmen, Magnus Ekeberg, Cecilia Lövkvist. Kuva: www.smbccomics.com/?id=2861 25.04.2013 Aukkoja sekvensseissä 16