Bioinformatiikan / laskennallisen biologian UKK. Recent news. Miksi bioinformatiikka on vaikeaa? Monenlaista bioinformatiikkaa

Samankaltaiset tiedostot
Laskennallisten tieteiden tutkijakoulu FICS. Ella Bingham, TKK

Myös opettajaksi aikova voi suorittaa LuK-tutkinnon, mutta sillä ei saa opettajan kelpoisuutta.

Bioinformatics in Laboratory of Computer and Information Science

T DATASTA TIETOON

Tietojenkäsittelytieteen tutkintovaatimukset

NBE-E4510 Special Assignment in Biophysics and Biomedical Engineering AND NBE-E4500 Special Assignment in Human. NBE-E4225 Cognitive Neuroscience

Tietojenkäsittelytieteen pääaine Pääaineinfo ke

Matematiikka ja tilastotiede. Orientoivat opinnot /

Kukin kurssi voi sisältyä vain yhteen alemman tai ylemmän perustutkinnon moduuliin.

Kukin kurssi voi sisältyä vain yhteen alemman tai ylemmän perustutkinnon moduuliin.

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Bioinformatiikan maisteriohjelman infotilaisuus Exactum D122

Computing Curricula raportin vertailu kolmeen suomalaiseen koulutusohjelmaan

Moderni biolääketieteellinen optiikka X - Optinen mittaaminen sekä valmistusmenetelmät X X X

Tieteen ja tutkimusalan opintoihin hyväksyttävät opintojaksot ovat (taulukossa A= aineopinnot, S=syventävät opinnot, J = jatko-opinnot):

Tekoäly ja tietoturva Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

TIETOJENKÄSITTELYTIEDE

Tfy Teoreettinen mekaniikka (5 op) Tfy Fysiikka IV alkuosa A ja Tfy Teoreettinen mekaniikka

Master's Programme in Life Science Technologies (LifeTech) Prof. Juho Rousu Director of the Life Science Technologies programme 3.1.

Lakkautetut vastavat opintojaksot: Mat Matematiikan peruskurssi P2-IV (5 op) Mat Sovellettu todennäköisyyslaskenta B (5 op)

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Moderni biolääketieteellinen optiikka X - Optinen mittaaminen sekä valmistusmenetelmät X X X

FM-opiskelijan opintopolku, perinnöllisyystiede, geneettisen bioinformatiikan erikoistumislinja (vastuuopettaja Päivi Onkamo)

Kurssin koodi ja nimi Ryhmä Päivä Aika Sali Viikot Henkilöt Course code and name Group Day Time Lecture room Weeks Course staff

Kurssin koodi ja nimi Ryhmä Päivä Aika Sali Viikot Henkilöt Course code and name Group Day Time Lecture Weeks Course staff

Page 1 of 9. Ryhmä/group: L = luento, lecture H = harjoitus, exercises A, ATK = atk-harjoitukset, computer exercises

Tietotekniikan opetus lukuvuonna Computer science course schedule in academic year Updated

Aalto-yliopiston perustieteiden korkeakoulu Versio 2 Teknillisen fysiikan ja matematiikan koulutusohjelma tbh

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

ICS. T-61 (Informaatiotekniikka)

Tilanne sekä MS-A0003/4* Matriisilaskenta 5 op

Oulun yliopiston tutkinto-ohjelmaportfolio 2017 alkaen

Tilastotiede ottaa aivoon

Tilastotiede ottaa aivoon

Bioinformatiikan maisteriohjelma

HOPS Henkilökohtainen opintosuunnitelma LuK -tutkintoon

TFM-osaston tuottamat vain sivuaineet lv

811312A Tietorakenteet ja algoritmit I Johdanto

Tutkintorakenteet: Luonnontieteiden ja metsätieteiden tiedekunta Kieli- ja viestintäopinnot

Poistuvat kurssit ja korvaavuudet (RRT ja YYT)

1 (5) Hyv. Vast. Kirj. Haken. Kok. Hyv. Vast. Kirj. Haken. Kok. Hyv. ott. Hakukohde. Kirj. Haken. Kok. osall. Kirj. osall. osall. ott.

Johnson, A Theoretician's Guide to the Experimental Analysis of Algorithms.


Tietojenkäsittelytieteiden koulutusohjelma. Tietojenkäsittelytieteiden laitos Department of Information Processing Science

Aalto-yliopiston perustieteiden korkeakoulu VERSIO 3 Teknillisen fysiikan ja matematiikan koulutusohjelma tbh

Tekoäly tänään , Vadim Kulikov (Helsingin Yliopisto)

Kokemuksia ja näkemyksiä teollisuusmatematiikan koulutuksen kehittämisestä

FYSIIKAN JA MATEMATIIKAN LAITOS, JOENSUU 1. vuosikurssi 2. vuosikurssi 3. vuosikurssi

Teknologinen muutos ja yliopistojen tulevaisuus. Tievie-seminaari Helsinki Antti Auer

Matematiikka tai tilastotiede sivuaineena

Lyhyesti uusista DI-ohjelmista Isohenkilökoulutus to Opintoasianpäällikkö Mari Knuuttila

OPINTOJAKSOJA KOSKEVAT MUUTOKSET/MATEMATIIKAN JA FYSIIKAN LAITOS/ LUKUVUOSI

Yhteistyöaineiden edustajan puheenvuoro

Tehostettu kisällioppiminen tietojenkäsittelytieteen ja matematiikan opetuksessa yliopistossa Thomas Vikberg

Bioinformatiikan kansainvälinen maisteriohjelma. Toteutussuunnitelma matemaattis-luonnontieteelliselle tiedekunnalle

Laskennallisten tieteiden tutkimusohjelman päättyvään hakuun valitut aiehakemukset

ti Tfy Termodynamiikka tentinvalvonta PHYS K215 Tfy Fysiologia Tfy Signal Processing in Biomedical Engineering

WAT? INTRO VESI- JA YMPÄRISTÖTEKNIIIKAN MAISTERIOHJELMAAN (MASTER S PROGRAMME IN WATER & ENVIRONMENTAL ENGINEERING)

Liite opintojohtosääntöön (päivitetty vastaamaan voimassa olevaa lainsäädäntöä ja yliopiston hallituksen päätöksiä)

ALGORITMIT & OPPIMINEN

Efficiency change over time

Osaamispassi ja erityisosaamistietokanta tulevaisuuden osaajille

CALL TO ACTION! Jos aamiaistilaisuudessa esillä olleet aiheet kiinnostavat syvemminkin niin klikkaa alta lisää ja pyydä käymään!

Tutkimusmenetelmät-kurssi, s-2004

Algoritmitutkimus: helppoja, vaikeita ja mahdottomia ongelmia

Tutkinnonuudistus ja uudet DI-ohjelmat / Teknillinen fysiikka ja matematiikka. Infotilaisuus

TSSH-HEnet : Kansainvälistyvä opetussuunnitelma. CASE4: International Master s Degree Programme in Information Technology

Vaihtoehtoiset opintojen suoritustavat ja vertaisarviointi opetuksen laadun takeina. Jarkko Toikkanen Tampereen yliopisto

Menetelmätieteiden opintokokonaisuudessa on kaikissa tapauksissa oltava vähintään 10 op matematiikkaa ja vähintään 10 op tilastotiedettä.

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

Teknillisen fysiikan ja matematiikan tutkintoohjelma, tekniikan kandidaatin tutkinnon pääaineet

Visualisointi informaatioverkostojen Opintoneuvoja Pekka Siika-aho (päivitys mm. Janne Käen visualisoinnin pohjalta)

Tutki ja kirjoita -kurssi, s-2005

näkökulma lähekkäisten vedenkokoumien nimeämiseen

Uusi teollinen biotekniikka ja biotalous. Prof. Merja Penttilä VTT

OPS-MUUTOSINFO

Laskennallisten tieteiden tutkimusohjelma. Jaakko Astola

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Tutkinnonuudistus ja uudet DI-ohjelmat Master s Programme in Information Networks

Arktinen keskus Johtokunta Timo Koivurova Kokous 2/2016 Paikka: Arktinen keskus, Thule-kokoushuone

Itä-Suomen yliopisto Tietojenkäsittelytiede

Vesivoimaketjun optimointi mehiläisalgoritmilla (Valmiin työn esittely)

Tekoäly lääkärin päätöksenteon tukena. Arho Virkki, DI, FT Lääketieteellisen matematiikan dosentti, TY Auria tietopalvelun johtaja, TYKS

Laitoskoulutus. Tietojenkäsittelytieteen laitos

Tämän luennon sisältö. Luku 1. Johdantoluento. Miksi tällainen kurssi? (2) Miksi tällainen kurssi? T Datasta tietoon, syksy 2011

Matematiikka ja tilastotiede. Orientoivat opinnot /

Tarvitseeko informaatioteknologia matematiikkaa?

T Digitaalinen signaalinkäsittely ja suodatus Tutkielma Signaalinkäsittely DNA-mikrosiruteknologiassa

T Informaatiotekniikan seminaari: Kombinatorinen Optimointi

Additions, deletions and changes to courses for the academic year Mitä vanhoja kursseja uusi korvaa / kommentit

Perinnöllinen informaatio ja geneettinen koodi.

Tilastollisen tutkimuksen vaiheet

Sovelletun fysiikan laitoksen tutkimus- ja yritysyhteistyö osana yhteiskäyttölaboratoriota

Tutkintovaatimukset suoraan DI-vaiheeseen valituille

Tilastotieteen rooli uuden tieteellisen tiedon tuottamisessa Mitä tilastotiede on?

Bioptima Oy. Yritysesittely Tommi Aho

Dataintensiivinen tutkimus ja osaamistarpeet tutkimuslaitoksissa

Pääainekohtaiset tutkintovaatimukset

Oulun yliopisto. Luonnontieteellinen koulutusala. Fysiikan tutkinto-ohjelma. Fysiikka, filosofian maisteri, 120 op. 1 of

Transkriptio:

Tietojenkäsittelytieteen Bioinformatiikan / laskennallisen biologian UKK Bioinformatiikkaa ja koneoppimista Samuel Kaski Tietojenkäsittelytieteen laitos Mitä se on? Modernien laskennallisten ja tilastollisten menetelmien soveltamista ja kehittämistä biologisten järjestelmien ja prosessien ymmärtämiseksi. Miksi se on tärkeää? Auttaa mm. näissä: Elämän ymmärtäminen ym. biologinen perustutkimus Lääketieteellinen diagnostiikka Lääkkeiden kehitys Miksi se on kiinnostavaa? Tarjolla on uudenlaisia ongelmia ja sovelluksia uudenlaisille menetelmille ja algoritmeille! Biology easily has 500 years of exciting problems to work on (Donald Knuth) Mitkä ovat sen haitat? Data-analyysistä sinänsä ei onneksi liene haittaa, mutta sen sovelluksista voi olla. Geenitutkimuksen eettiset implikaatiot pitää harkita tapauskohtaisesti! Miksi se on ajankohtaista? Paljastetaan seuraavalla sivulla. Missä voin oppia lisää? Bioinformatiikan ja laskennallisen biologian suuntautumisvaihtoehdossa Recent news 10 technologies that will change the world. Number 4: Bayesian machine learning, 10: personal genomics (Technology Review, 2004) Opportunities in bioinformatics once abounded for the self-taught and industrially minded, but employers are now turning towards the formally trained and academics (Nature, 2004) Bioinformatics attracts big guns (Nature Biotechnology, 2004) Stein gives bioinformatics ten years to live (O Reilly bioinformatics Technology conference, 2003) Monenlaista bioinformatiikkaa Miksi bioinformatiikka on vaikeaa? Tutkimuksen ja haastavan ongelmanratkaisun normaalien ongelmien lisäksi: Menetelmätieteet Bioinformatiikan menetelmäkehitys Biologisten Biologia ongelmien ratkaisu valmiilla menetelmillä Pitää hallita monta alaa 1

Hahmontunnistus Signaalinkäsittely Dataanalyysi Suurteholaskenta Koneoppiminen Tiedon louhinta Algoritmit Laskennan teoria Tilastotiede Bioinformatiikka Mallitus Informaation visualisointi Biologia, lääketiede Biomedikaaliset sovellukset Tietokannat Biokemia Miksi bioinformatiikka on vaikeaa? Tutkimuksen ja haastavan ongelmanratkaisun normaalien ongelmien lisäksi: Pitää hallita monta alaa Ongelmat usein aluksi huonosti määriteltyjä. Pitäisi ymmärtää tätä ilmiötä. Data-analyysin menetelmäkehityksen yleinen ongelma: Miten kehittää yleisiä menetelmiä ja ratkaista sovelluskohtaisia ongelmia samanaikaisesti? Tutkimussykli Monenlaista bioinformatiikkaa TKTL:ssä Laskennallinen käsite/malli Käsitteen/mallin analyysi Algoritmit Biologinen kysymys/ ilmiö Kokeellinen työ Tehokkaat laskenta-algoritmit Tiedon louhinta Bioinformatiikan menetelmäkehitys Koneoppiminen Biologisten Biologia ongelmien ratkaisu valmiilla menetelmillä Bioinformatiikan menetelmätutkimusta Tietojenkäsittelytieteen laitoksella Rakennebiologian ja systeemibiologian algoritmit (Ukkonen, Rousu) Geenipaikannuksen laskennalliset menetelmät (Toivonen, Mannila) Genomien struktuurin algoritmiset kysymykset (Mannila, Ukkonen, Salmenkivi) Geeniekspression data-analyysimenetelmät (Kaski) Muualla Helsingin yliopistossa: Matematiikan ja tilastotieteen laitos: Arjas, Gyllenberg Viikin Biokeskus: Holm Biomedicum Bioinformatics Unit: Saharinen, Suurin osa TKTL:n bioinformatiikkaryhmistä toimii laitoksen tutkimusyksiköissä: Akatemian Datasta tietoon-huippututkimusyksikkö Tietotekniikan tutkimuslaitos HIIT Ryhmillä on laajaa yhteistyötä sekä tieteiden välillä että tietojenkäsittelytieteessä, sekä kotimaassa että kansainvälisesti. 2

Tietojenkäsittelytieteen Esimerkki: Sekvenssien rinnastus -GCGC-ATGGATTGAGCGA TGCGCCATTGAT-GACC-A Algoritmiikkaa Tehtävä: Selvitä onko kahdessa sekvenssissä samankaltaisia osia, ja mittaa sekvenssien samankaltaisuus. Miksi? Rinnastus on perusoperaatio, jota tarvitaan monessa data-analyysitehtävässä, esim: tietokantahaut: etsitään tiettyjä toiminnallisia osia genomin rakenne: mitkä osat/geenit ovat samanlaisia eri eliöillä Algoritmi: Dynaaminen ohjelmointi Valitaan pisteytys/kustannukset: Sama symboli: +1 Eri symboli: -1 Puuttuva symboli: -2 Ongelmia: kompleksisuus on O(n 2 ) rajoittava: aina ei haluta rinnastaa koko sekvenssejä miten valita pisteytykset? A G C 0-2 -4-6 A -2 1-1 -3 A -4-1 0-2 A -6-3 -2-2 C -8-5 -4-1 AAAC A-GC On kehitetty paljon nopeutuskeinoja ja erityistilanteisiin sopivia algoritmeja, mm. lokaalien samakaltaisuuksien hakuun. Tarvitaan vankkaa näkemystä sekä tehokkaista algoritmeista että siitä, millaisia yksinkertaistuksia voi tehdä. Gene A Gene B Gene C Gene D Probe Assignment Probes Pools aactacgagcttagcggaga Kivioja et al., 2002 Experiment planning for a novel measurement method developed at VTT Biotechnology. The method uses DNA fragments called probes to measure the expression of genes Goal: Minimize the resources needed for the experiment. Algorithmic problem: Choose one probe for each gene and partition the chosen probes into minimal number of pools so that the probes in each pool have different lengths. Results: Negative: The problem is NP-hard. Positive: An algorithm that uses at most twice the optimal number of pools and works well in practice. Software for automatic planning of experiments. Kivioja et al., 2002 3

Tietojenkäsittelytieteen Uusilla mittausmenetelmillä suuria geeniaineistoja Biologian haaste Proteomiikka Taustatieto: geeniontologiat, artikkelitietokannat GENBANK-tietokannan kasvu Haaste Kuinka hyödyntää näitä aineistoja biologisessa ja lääketieteellisessä tutkimuksessa? Vastaus Täydentämällä hypoteesilähtöistä tutkimusta datalähtöisemmillä menetelmillä Venter at al., Nature Genetics 2003 DNA-sekvenssitietokannat Geeniekspressiotietokannat Tietojenkäsittelytieteen Tiedon louhintaa oppivilla menetelmillä Koneoppivaa bioinformatiikkaa Tiedon louhinnan tavoitteena on uusien, kiinnostavien ja hyödyllisten löydösten etsintä tietomassoista. Oppivat menetelmät: Datalähtöisiä menetelmiä; menetelmiä jotka oppivat datasta. 4

Monitieteistä tutkimusta Tietojenkäsittelytiede Tietojenkäsittelytieteen Tietomassat Koneoppiminen, louhinta Esimerkki: Retroviruksia ihmisen genomissa Biologia Lääketiede Tilastollinen mallittaminen Tilastotiede Genomissa on paljon enemmän retrovirusten jäämiä kuin geenejä Rakennetta virusnäytejoukossa HERV 45% LINE 8% 21% 13% 3% Eksogeeniset retrovirukset Eriksson et al., 2001 Voidaan esim. järjestää samankaltaiset lähekkäin Tuntematon ryhmä: 41:stä näytteestä vain yhden tyyppi tunnetaan. Ryhmä, joka ei sovi vanhaan jaotteluun. Ongelma: Mikä on tärkeää? Mikä löydöksissä on uutta, kiinnostavaa ja hyödyllistä? Mikä osa löydöksistä ei ole kohinaa: mittauskohinaa tai biologista kohinaa? Oja, Somervuo, Kaski, Kohonen, 2003 5

Kuinka päätellä mikä on relevanttia? Hiiriä ja ihmisiä Oletus: Useille aineistoille yhteinen on kiinnostavaa Proteomiikka DNA-sekvenssitietokannat Geeniekspressiotietokannat Taustatieto: geeniontologiat, artikkelitietokannat Riippuvuuksien louhinta: Etsitään geenien toiminnasta säännönmukaisuuksia ja poikkeuksia hiiren ja ihmisen välillä. Nikkilä, Sinkkonen, Lahti, Knuuttila, Roos, Kaski, 2004 Millaista on stressi? Mikä säätelee stressiä? Stresseille yhteinen aktiivisuus Stressitilanteet Geenit Erota yhteiset komponentit gcca:lla Tunnetut stressigeenit saadaan erotettua Säätelytekijöiden sitoutumisdataa Riippuvuuksien haku Etsitään luotettavia ryhmiä HAPPO KUUMUUS HSF1 Residuaali Nikkilä, Roos, Kaski, 2004 Stresseille yhteinen aktiivisuus Nikkilä, Roos, Kaski, 2004 Millaista tutkimus on käytännössä? Tietojenkäsittelytieteen Hyvin monentyyppistä riippuen suuntautumisesta: Yksin tai pienessä porukassa tehtävästä teoreettisesta työstä (esim. algoritmitutkimuksesta) Bioinformatiikan opetusta TKTL:ssä Ryhmässä biologien ja lääkärien kanssa kiinteässä yhteistyössä tehtävään ongelmanratkaisuun. Tyypillisesti erityyppiset vaiheet vuorottelevat. 6

Koulutusfilosofia Vankka menetelmätieteinen perusta + perustiedot biologiasta ja bioinformatiikasta + syventyminen johonkin menetelmäalueeseen + paljon valinnanvaraa + keskitytään periaatteisiin jotka eivät vanhene = laskentamenetelmien asiantuntijan tutkinto, joka on sopiva pohja hyvin monenlaisille tehtäville Painopisteen voi valita joustavasti bioinformatiikan ja laskennallisen data-analyysin välillä Bioinformatiikan opetus TKTL:ssä Bioinformatiikan perusteet, 3 ov Data analysis for gene expression, 3-5cu Geenisekvenssit. Tänä vuonna tarjolla ainakin Merkkijonomenetelmät (4ov) ja matematiikan ja tilastotieteen laitoksen kurssi Statistical methods in bioinformatics Computational systems biology, 3cu Bioinformatiikkaan liittyviä seminaareja ja erikoiskursseja Menetelmällisiä syventymisalueita Algoritmit: Algoritmien suunnittelu ja analyysi, 5ov Merkkijonomenetelmät, 4ov Kombinatorinen optimointi, 5ov Approximation algorithms, 4ov Tiedon louhinta ja laskennallinen data-analyysi Tutkimustiedonhallinnan peruskurssi, 3ov (jollei jo luettu cumussa) Tiedon louhinnan menetelmät, 3ov Special course on data mining, 3ov Algorithms for segmentation problems, 2ov Paikkatiedon hallinta ja analyysi, 3ov Linear algebra methods for data mining, 2ov Information visualization, 2ov Koneoppiminen Koneoppiminen, 4ov Tekoäly, 4ov Kolme käsitettä-sarja (tänä vuonna Informaatio) Kernel methods for pattern analysis, 2ov Classification, 4ov Informaatiojärjestelmät Tutkimustiedonhallinnan peruskurssi, 3ov (jollei jo luettu cumussa) Tietokannan mallinnus, 2ov Tietokantarakenteet ja algoritmit, 4ov Tietovarastot, 2ov Tiedonhakumenetelmät, 3ov Mitä isona? Laskentamenetelmien ja tiedonhallinnan erikoisasiantuntijoiksi tutkimuslaitoksiin ja yrityksiin Ala muuttuu koko ajan tarvitaan ihmisiä jotka määrittelevät alan ja työtehtävät tulevaisuudessa! Tietojenkäsittelytieteen Correlating promoters and expression Muita bioinformatiikkatöitä Palin et al., 2002 7

Lisätietoa Tietojenkäsittelytieteen laitos: http://www.cs.helsinki.fi Bioinformatiikan linja tietojenkäsittelytieteen laitoksella: http://www.cs.helsinki.fi/bioinformatiikka Helsingin yliopiston bioinformatiikkasivut: http://www.helsinki.fi/bioinfo 8