Scheduling of Genetic Analysis Workflows on Grid Environments (valmiin työn esittely) Arttu Voutilainen

Samankaltaiset tiedostot
Implementation of Selected Metaheuristics to the Travelling Salesman Problem (valmiin työn esittely)

Joonas Haapala Ohjaaja: DI Heikki Puustinen Valvoja: Prof. Kai Virtanen

Minimilatenssiongelman ratkaisualgoritmeja (valmiin työn esittely)

Search space traversal using metaheuristics

Optimization of Duties in Railway Traffic (valmiin työn esittely)

Tuotantoprosessin optimaalinen aikataulutus (valmiin työn esittely)

Polkuriippuvuus trade-off-painotuksessa (valmiin työn esittely)

Vesivoimaketjun optimointi mehiläisalgoritmilla (Valmiin työn esittely)

Peliteorian soveltaminen hajautettujen järjestelmien protokollasuunnittelussa (valmiin työn esittely)

Lentotiedustelutietoon perustuva tykistön tulenkäytön optimointi (valmiin työn esittely)

Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen

Monte Carlo -menetelmä optioiden hinnoittelussa (valmiin työn esittely)

Simulointimalli mellakkapoliisin resurssien kohdentamiseen (valmiin työn esittely)

Lineaaristen monitavoiteoptimointitehtävien ratkaiseminen Bensonin algoritmilla

Johnson, A Theoretician's Guide to the Experimental Analysis of Algorithms.

Lineaaristen monitavoiteoptimointitehtävien ratkaiseminen Bensonin algoritmilla

Lajittelumenetelmät ilmakehän kaukokartoituksen laadun tarkkailussa (valmiin työn esittely)

Työvuorosuunnittelun optimointi (valmiin työn esittely)

Trimmitysongelman LP-relaksaation ratkaiseminen sarakkeita generoivalla algoritmilla ja brute-force-menetelmällä

Kandidaatintyön esittely: Epätäydellisen preferenssi-informaation huomioon ottavien päätöksenteon tukimenetelmien vertailu

Kahden virtualisointiohjelmiston suorituskyvyn testaus (valmiin työn esittely)

Inferring Trichoderma reesei gene regulatory network

Puhelintukiasema-antennin säteilykuvion mittaus multikopterilla (Valmiin työn esittely)

Tiedonsiirron kokonaisoptimointi erilaisten tietoverkkojen yhteiskäytössä

Kirjallisuuskatsaus sisäpistemenetelmiin ja niiden soveltamiseen eri optimointiluokille (valmiin työn esittely)

Aihioiden priorisointi ja portfolioanalyysi ennakoinnissa (valmiin työn esittely)

monitavoitteisissa päätöspuissa (Valmiin työn esittely) Mio Parmi Ohjaaja: Prof. Kai Virtanen Valvoja: Prof.

Epätäydellisen preferenssi-informaation huomioon ottavien päätöksenteon tukimenetelmien vertailu (aihe-esittely)

Simulation model to compare opportunistic maintenance policies

Experiment on psychophysiological responses in an economic game (valmiin työn esittely) Juulia Happonen

Skedulerisimulaattorin implementointi fysiikkatöille ja sen matemaattinen validointi

Computing Curricula raportin vertailu kolmeen suomalaiseen koulutusohjelmaan

Kasvuyrityksen tuotekehitysportfolion optimointi (valmiin työn esittely)

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

Menetelmä Markowitzin mallin parametrien estimointiin (valmiin työn esittely)

Trichoderma reesein geenisäätelyverkoston ennustaminen Oskari Vinko

Stokastinen optimointi taktisessa toimitusketjujen riskienhallinnassa (valmiin työn esittely)

Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen

Lisäinformaation arvo monikriteerisessä projektiportfoliovalinnassa (valmiin työn esittely)

Vangin dilemma häiriöisessä ympäristössä Markov-prosessina (valmiin työn esittely) Lasse Lindqvist

TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010

Suojarakenteiden vaikutus maalin selviytymiseen epäsuoran tulen tai täsmäaseen iskussa

Lineaaristen monitavoiteoptimointitehtävien

Arkkitehtuurien tutkimus Outi Räihä. OHJ-3200 Ohjelmistoarkkitehtuurit. Darwin-projekti. Johdanto

D ereading WP Seminar 1, shortened Summary and some slides for Next Media Steering Group

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Skedulointi, kuormituksen tasaus, robotin navigaatio

Vedonlyöntistrategioiden simulointi ja evaluointi

Jussi Sainio. Kandidaattiseminaari helmikuuta 2010

TIETOJENKÄSITTELYTIEDE

Graafin 3-värittyvyyden tutkinta T Graafiteoria, projektityö (eksakti algoritmi), kevät 2005

Päätösanalyysi Teknologföreningenin kiinteistöuudistuksen tukena (valmiin työn esittely)

Kaksintaistelun approksimatiivinen mallintaminen (valmiin työn esittely)

Kuinka paljon dataa on tarpeeksi?

Optimaaliset riskinalentamisportfoliot vikapuuanalyysissä (valmiin työn esittely)

Älykäs erikoistuminen. Kristiina Heiniemi-Pulkkinen

T Johdatus käyttäjäkeskeiseen tuotekehitykseen. suunnitteluprosessissa. Käyttäjän huomiointi. Iteroitu versio paljon kirjoitusvirheitä

Käyttäjäkeskeinen suunnittelu

Yleisen PSCR-menetelmän toteutus ohjelmoitavalla näytönoh

Tietojenkäsittelytieteiden koulutusohjelma. Tietojenkäsittelytieteiden laitos Department of Information Processing Science

ENG3043.Kand Kandidaatintyö ja seminaari aloitusluento Tutkimussuunnitelman laatiminen

Virheraportoijien virhemäärien jakaumat virhetietokannassa

Tuotannon jatkuva optimointi muutostilanteissa

CUDA. Moniydinohjelmointi Mikko Honkonen

Flexbright Oy Embedded software/hardware engineer

Portfoliolähestymistapa CO2 - kiilapelin analysoinnissa (valmiin työn esittely) Tuomas Lahtinen

Kysyntäohjautuva joukkoliikenne ja dynaaminen matkansuunnittelu. Lauri Häme

Informaation leviäminen väkijoukossa matemaattinen mallinnus

Konsensusongelma hajautetuissa järjestelmissä

AS Automaation signaalinkäsittelymenetelmät. Tehtävä 1. Käynnistä fuzzy-toolboxi matlabin komentoikkunasta käskyllä fuzzy.

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

DIPLOMITYÖ ARI KORHONEN

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

Esimerkkejä vaativuusluokista

Portfoliopäätöksenteon vinoumat (valmiin työn esittely)

Verkko-optimointiin perustuva torjuntatasan laskenta mellakkapoliisin resurssien kohdentamisessa (valmiin työn esittely) Paavo Kivistö

WWW load balancing. Onni Lampi. Bachelor s thesis Espoo Thesis supervisor: Lehtori Kalle Ruttik. Thesis advisor:

GA & robot path planning. Janne Haapsaari AUTO Geneettiset algoritmit

Turvallisuudelle tärkeiden laitteiden koestusten merkitys vikojen havaitsemisessa (Valmis työ)

Ylikerroinstrategiat ja Poissonmallit vedonlyönnissä (aihe-esittely) Jussi Kolehmainen

Jalkapallovedonlyöntistrategioiden. evaluointi. Aleksi Avela Ohjaaja: Juho Roponen Valvoja: Ahti Salo

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Yleinen paikallinen vakautuva synkronointialgoritmi

EU DIGITAL EUROPE MITEN SAAMME NOPEUTETTUA TAVOITELTUA MUUTOSTA? CSC Markku Markkula COR RAPPORTEUR ON DIGITAL EUROPE

Tutkinnonuudistus ja uudet DI-ohjelmat / Teknillinen fysiikka ja matematiikka. Infotilaisuus

Tutki ja kirjoita -kurssi, s-2005

Kustannustehokkaat riskienhallintatoimenpiteet kuljetusverkostossa (Valmiin työn esittely)

Kiinalaisen postimiehen ongelma

SAMPO HANKKEEN ESITTELY LINKKI MATERIAALEIHIN INNOKYLÄSSÄ

OHJ-3010 Ohjelmistotuotannon perusteet. Ohjelmistoprojektin hallinta

Web-palvelut ja niihin kohdistuneiden poikkeavuuksien tunnistamisen. Harri Mäkelä

Ohjelmiston testaus ja laatu. Ohjelmistotekniikka elinkaarimallit

Ke Kemiantekniikan tietotekniikka Luento 3

Integrointialgoritmit molekyylidynamiikassa

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Tietojärjestelmä uusiksi? Toimijaverkostot, niiden haasteet ja ratkaisut

Teknologia-arkkitehtuurit. Valinta ja mallinnus

Sähkötekniikan tutkintoohjelma. DI-tutkinto ja uranäkymät

Cubature Integration Methods in Non-Linear Kalman Filtering and Smoothing (valmiin työn esittely)

Finnish Solar Revolution

Transkriptio:

Scheduling of Genetic Analysis Workflows on Grid Environments (valmiin työn esittely) Arttu Voutilainen 20.4.2015 Ohjaaja: FT Lauri Eronen (Biocomputing Platforms Ltd.) Valvoja: Prof. Harri Ehtamo Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta osin kaikki oikeudet pidätetään.

Tausta DNA:n kartoitus halpenee jatkuvasti Raakaa dataa saadaan todella paljon (1000 yksilön genomin sekvenointi: 16TB) Datan analysointi on laskennallisesti raskasta (BWA/GATK yhdellä suorittimella > 20 vuotta) Analysointi on mahdollista jakaa osiin, joita suoritetaan rinnakkain ja peräkkäin Täytyy valita suoritusjärjestys Aikataulutus (scheduling): M : W R t Tiedonsiirto resurssien välillä oleellista NP-täydellinen ongelma! Ratkaisuna erilaisia heuristiikkoja ja meta-heuristiikkoja (Min-Min, geneettinen algoritmi,..)

Tavoitteet Vertailla eri ajoitusmenetelmien (scheduler) sopivuutta annettuihin esimerkkitapauksiin Ajoitukseen kuluva aika (scheduling time) Aikataulun kokonaispituus (makespan) Valita ajoitusmenetelmä, jonka avulla työt voitaisiin suorittaa mahdollisimman tehokkaasti ja nopeasti Ei oteta huomioon QoS-rajoituksia Ei oteta kantaa työnkuvauksien suunnitteluun tai virheiden hallintaan Tarkastellaan vain yhden työnkulun ajoittamista Yksinkertaistuksia resurssienhallinnassa (rajattomat levyt, ei huomioida yhtäaikaisten siirtojen vaikutusta kaistaan,...)

Työnkulut Imputation Puuttuvien arvojen täydentäminen BWA/GATK Datan pelkistäminen eroavaisuuksiin

Suoritusympäristöt

Tulokset Eksakti ratkaisu Job Shop -ongelma, myös NP-täydellinen JSP samankaltainen kuin tämä, mutta huomattavasti yksinkertaisempi JSP ratkaistavissa eksaktisti vielä kun laajuus on 10x10 mutta 15x15 ei enää järkevästi BWA/GATK: 100 rinnakkaista työtä, jotka jakaantuvat 10-160 rinnakkaiseen työhon

Tulokset Kirjallisuuskatsaus Taksonomia: centralized with performance-driven scheduling strategy (Yu and Buyya [2005]) Algoritmit: Myopic, Min-Min, Max-Min, Suffrage, HEFT, Hybrid, GRASP, Geneettinen Algoritmi (Yu et al. [2008]) Myopic vs. HEFT vs. GA: HEFT antoi parhaat tulokset (Wieczorek et al. [2005]) Algoritmeissa paljon säädettävää: HEFT:n eri rankvaihtoehtojen välillä jopa 40% eroja (Zhao and Sakellariou [2003])

Tulokset Kirjallisuuskatsaus Lyhin valmistumisaika (LVT) Myopic: Valitse työ, aseta resurssille jolla pienin LVT Min-Min: Valitse työ jonka LVT pienin Max-Min: Valitse työ jonka LVT suurin Suffrage: Valitse työ jolla suurin ero LVT:n ja seuraavan valmistumisajan välillä HEFT: Arvota työt seuraajien ja vaatimusten perusteella Hybrid: Jaa arvotetut työt ryhmiin, joiden sisällä ei riippuvuuksia GRASP: Muodosta satunnaisia aikatauluja valitsemalla (työ,resurssi)-pareja jotka eivät ole liian huonoja ja pyri optimoimaan lopputulos, iteroi GA: Luo satunnaisia aikatauluja, iteroi geneettisiä operaattoreita

Tulokset Imputation: Aikataulut Vain BC Server (25.0d) BC Server + 8 nodea (10.6d) 16 nodea (10.5d) 16 erilaista nodea (7.6d)

Tulokset Imputation: Ajoaika Vain BC Server BC Server + 8 nodea 16 nodea 16 erilaista nodea

Tulokset BWA/GATK: Aikataulut Vain BC Server (232.1d) BC Server + 8 nodea (46.7d) 16 nodea (29.4d) 16 nodea satunnaistetuilla töillä (29.2d)

Tulokset BWA/GATK: Ajoaika Vain BC Server BC Server + 8 nodea 16 nodea 16 nodea satunnaistetuilla töillä

Tulokset Impute: Suorituskykytietojen vaikutus BC Server + 8 nodea 16 nodea

Johtopäätökset Sopivan menetelmän käyttö on tärkeää Lyhimmän ja pisimmän aikataulun ero jopa satoja prosentteja Ajoitusmenetelmien hyvyys riippuu työnkulusta ja ympäristöstä Imputella Max-Min parempi kuin Min-Min, BWA/GATK:lla toisin päin Suffrage huono yhdellä resurssilla, hyvä heterogeenisillä resursseilla Heuristiikat ovat nopeita Impute (~800 työtä): < 5s, BWA/GATK (~20 000): < 15min Metaheuristiikat ovat hitaita eivätkä tuo lisäarvoa Todennäköisesti osittain implementaatiosta johtuen HEFT (Heterogenous Earliest Finish Time) on nopein ja antaa parhaan (tai hyvin lähellä parasta olevan) tuloksen

Tietolähteet Ian Foster and Carl Kesselman. The Grid 2: Blueprint for a new computing infrastructure. Morgan Kaufmann, 2003. H. Topcuoglu, S. Hariri, and M. Wu. Performance-effective and low-complexity task scheduling for heterogeneous computing. Parallel and Distributed Systems, IEEE Transactions on, 13(3): 260--274, 2002. J. D. Ullman. Np-complete scheduling problems. Journal of Computer and System Sciences, vol. 10, pages 384--393, 1975. M. Wieczorek, R. Prodan, and T. Fahringer. Scheduling of scientific workflows in the askalon grid environment. ACM SIGMOD Record, 34(3): 56--62, 2005. J. Yu and R. Buyya. A taxonomy of scientific workflow systems for grid computing. Sigmod Record, 34(3): 44, 2005. J. Yu, R. Buyya, and K. Ramamohanarao. Workflow scheduling algorithms for grid computing. In Metaheuristics for scheduling in distributed computing environments, pages 173--214. Springer, 2008. H. Zhao and R. Sakellariou. An experimental investigation into the rank function of the heterogeneous earliest finish time scheduling algorithm. In Euro-Par 2003 Parallel Processing, pages 189 194. Springer, 2003.