Alkuperäismateriaalit:

Biotietokannat Alkuperäismateriaalit: Rainer Lehtonen Eija Korpelainen, CSC Science Support/Biosciences Theresa Attwood, University of Manchester WWW eri paikoista...

Mitä biotietokannat sisältävät? Mistä tunnistaa hyvän tietokannan? Nukleotidisekvenssitietokannat Proteiinisekvenssitietokannat Genomitietokannat Motiivi- eli tunnistetietokannat

Mitä biotietokannat sisältävät? Sekvenssejä Motiiveja Rakenteita Mutaatioita Ekspressiodataa Interaktioita Reaktioteitä (metabolic pathways) Transkriptiotekijöiden sitoutumiskohtia Julkaisut/kirjallisuus jne jne

Mitä tietokannoilla voi tehdä Hakea tietoa tutkittavasta Sekvenssistä Eliöstä Synteesireitistä / Biologisesta prosessista Vertailu laboratorion tutkimusaineiston ja julkisen aineiston välillä Geeniekspressioaineisto laboratoriosta vs. julkinen geeniekspressioaineisto Toteuttaa tutkimuksen jotka perustuu puhtaasti julkiseen tutkimusaineistoon ja niiden vertailuun

Millainen on hyvä tietokanta? LAATU KATTAVUUS Manuaalinen (= hidas) ei-päällekkäinen luotettava tietoa puuttuu Automaattinen (= nopea) päällekkäisyyttä virheitä ajan tasalla Yhteistä: ylläpitohenkilökunta tulevaisuuteen sitoutuminen hyvä kyselykäyttöliittymä

Miten löytää hyvä tietokanta? Kysy kollegalta Kirjallisuudesta WWW tietokantana Verkkosivuja jotka listaavat tietokantoja Nucleic Acids Research, Database Issue, Jan 1

http://www.oxfordjournals.org/nar/database/c/

NAR issue 2014 Aakkostettu lista: http://www.oxfordjournals.org/nar/database/a 1552 tietokantaa listattu Kategorioittain järjestetty tietokantalista: http://www.oxfordjournals.org/nar/database/c/ Nämä on-line -resurssit sisältävät tietokantojen kuvaukset (summary-linkit) sekä linkit kaikkiin tietokantoihin (database-linkit)!

Tietokantatyyppejä Nukleotidisekvenssitietokannat Genomi- - Pathways- - Geeniontologia- - Proteiinitietokannat Interaktio- - Tauti- -

Nyt käsitellään nukleotidisekvenssitietokantoja ja genomitietokantoja

Nukleotidisekvenssitietokannat DDBJ - DNA Data Bank of Japan EMBL Nucleotide Sequence Database GenBank Sisältävät kaikenlaisia ja kaikentasoisia sekvenssejä, mitä tutkijat niihin ovat tallentaneet! Paljon päällekkäisyyksiä, ei-päivitetyt annotaatiot Uusi julkaisu (release) muutaman kk välein, päivitykset (update) päivittäin Käyttäjän kannattaa muistaa, että varsinkin aivan uusista sekvensseistä tietoa löytyneekin vain päivityksestä, eli kannattaa muistaa hakea sekvenssiä molemmista paikoista Nämä ovat kattavia tietokantoja (usein) heikolla sekvenssien annotaatiolla

http://www.insdc.org/ International Sequence Database Collaboration European Bioinformatics Institute (EBI) SRS EMBL http://www.ebi.ac.uk/embl/ National Center for Biotechnology Information (NCBI), USA GenBank Entrez http://www.ncbi.nlm.nih.gov/ DDBJ getentry National Institute of Genetics (NIG), Japan http://www.ddbj.nig.ac.jp/searches-e.html Nämä tietokannat sisältävät saman tiedon!

Genbank Amerikkalaisen NCBI:n (National Center for Biotechnology Information) ylläpitämä nukleotidisekvenssien tietokanta Data tutkijoilta, sekvensointikeskuksista, patenteista ~166 milj. entryä, yht. ~153 mrd nukleotidia (tammikuussa 2013) Kasvaa eksponentiaalisesti Tietokannasta voidaan tehdä hakuja sekvensseillä Tätä käsiteltiin BLAST-työkalun yhteydessä Seuraavassa esittelen kuinka Genbankista haetaan tietoa avainsanojen avulla Kyseinen haku perustuu NCBI:n Entrez-hakukoneeseen Entrez:llä voi hakea tietoa muistakin lähteistä kuin Genbankista http://en.wikipedia.org/wiki/genbank

Genbank Kokeillaan: 1. Haetaan sekvenssejä geenin nimellä p53 2. Haetaan kaikki proteiinikinaasit jotka eivät ole tyrosiinikinaaseja Rajoitetaan jälkimmäinen haku ihmiseen Boolean logiikka (AND, OR, NOT) AND = kumpikin ehto täytyy toteutua (oletusehto) OR = toisen ehdoista täytyy toteutua NOT = ehto ei saa toteutua Protein kinase NOT tyrosine (AND sanaa ei tarvita) http://www.ncbi.nlm.nih.gov/nuccore/ Basic search http://www.ncbi.nlm.nih.gov/nuccore/advanced Advanced search

Genbank Advanced Search Valitse hakukenttä Kirjoita haku tähän Valitse lisää hakuehtoja

P53 hakutulos Huomaa monet osumat (RefSeqGene, Transcript variants )

Genbank Advanced Search Haku: Gene Name: protein kinase NOT tyrosine ; Organism: homo sapiens

Tuloksista Here more info on sequence These allow filtering of the results

Esimerkki Genbank- sekvenssistä http://www.ncbi.nlm.nih.gov/nuccore/ng_017013.2 Oheinen sekvenssi hyvin tunnettu!! Lisää tietoa löytyy menemällä sivulla alas.

EMBL-Bank (ENA) (http://www.ebi.ac.uk/ena/) EMBL:n Genbankia vastaava paikka (EMBL: European Molecular Biology Laboratory) Sisältää saman datan kuin Genbank Data tutkijoilta, sekvensointikeskuksista, patenteista 239,7 milj. entryä, yht. 397 mrd nukleotidia (tammikuussa 2011) Kasvaa eksponentiaalisesti (tilastoja http://www.ebi.ac.uk/ena/about/statistics) Release -versio 3 kk:n välein, update -versio päivittäin Viimeisimmän julkaisuversion (110) dokumentaatio: http://www.ebi.ac.uk/embl/documentation/release_notes/current/relnotes.html Tietojen korjausoikeus on sekvenssin tallentaneella tutkijalla User manual: http://www.ebi.ac.uk/embl/documentation/user_manual/usrman.html Kts. mm. ohjeet entryn lukemiseen, luku 3.3 ja vertaa näyte-entryn sisältöön Näyte-entry: http://www.ebi.ac.uk/cgi-bin/dbfetch?db=embl&id=trbg361&style=html

EMBL divisions (jaottelut) Taksonomiset ryhmät on jaoteltu divisioihin, joita kutakin vastaa kolmikirjaiminen lyhenne: ENV: Environmental Samples FUN: Fungi HUM: Human INV: Invertebrates MAM: Other Mammals MUS: Mus musculus PHG: Bacteriophage PLN: Plants PRO: Prokaryotes ROD: Rodents SYN: Synthetic TGN: Transgenic UNC: Unclassified VRL: Viruses VRT: Other Vertebrates Hyödynnä esim. sekvenssien välisissä vertailuissa!

Miksi jaottelut? Haun kohdistaminen kannattaa: Tulosjoukon käsittely helpottuu, merkittävät BLAST-osumat eivät huku taustakohinaan ja haku nopeutuu. Eri hakutavoissa opastaa: GENBANK: https://www.ncbi.nlm.nih.gov/guide/training-tutorials/ ENA: http://www.ebi.ac.uk/databases/service.html

Nukleotiditietopankit ongelmia: Datan päällekkäisyydet: sama sekvenssi viety pankkiin useaan kertaan eri tutkimusryhmien toimesta Virheelliset tai puutteelliset annotaatiot? Vektorikontaminaatio (oikean sekvenssin sijasta vektoria, jolla sekvenssi on kloonattu)? Sekvenssivirheet (EST, HTG jne)

Organisoidut sekvenssitietopankit Tietokannat jotka pyrkivät yhdistämään esim. saman geenin eri versiot yhdeksi tietueeksi Splice variants SNP Other variants RefSeq http://www.ncbi.nlm.nih.gov/refseq/ ENSEMBL http://www.ensembl.org/index.html UniProt (Proteiinitietokanta) http://www.uniprot.org/ Informaatio paremmin järjesteltyä. Pienempi kattavuus

RefSeq NCBI:n Reference Sequence project http://www.ncbi.nlm.nih.gov/refseq/ Kuraattorit valitsevat/kokoavat parhaan sekvenssin ja tarkistavat tiedot Release 51 (12.1.2012): sisältää 14,090,554 proteiinia 16,609:sta organismista. Aims to provide a comprehensive, integrated, non-redundant, wellannotated set of sequences, including genomic DNA, transcripts, and proteins. Perustuvat sekvenssitietopankkien (GenBank) kokoelmiin mutta kukin RefSeq on itsessään informaation synteesi, ei palanen perustutkimuksesta saatua raakadataa sellaisenaan RefSeqin sisällä EI ole päällekkäisyyttä. Vaihtoehtoiset splice muodot ovat mainittuina erikseen http://www.ncbi.nlm.nih.gov/books/nbk21091/pdf/ch18.pdf

Code MODEL INFERRED PREDICTED RefSeq status -koodien selitykset: Description The RefSeq record is provided by the NCBI Genome Annotation pipeline and is not subject to individual review or revision between annotation runs. The RefSeq record has been predicted by genome sequence analysis, but it is not yet supported by experimental evidence. The record may be partially supported by homology data. The RefSeq record has not yet been subject to individual review, and some aspect of the RefSeq record is predicted. PROVISIONAL The RefSeq record has not yet been subject to individual review. The initial sequence-to-gene association has been established by outside collaborators or NCBI staff. REVIEWED VALIDATED WGS The RefSeq record has been reviewed by NCBI staff or by a collaborator. The NCBI review process includes assessing available sequence data and the literature. Some RefSeq records may incorporate expanded sequence and annotation information. The RefSeq record has undergone an initial review to provide the preferred sequence standard. The record has not yet been subject to final review at which time additional functional information may be provided. The RefSeq record is provided to represent a collection of whole genome shotgun sequences. These records are not subject to individual review or revisions between genome updates.

LOCUS ANGPT1 4338 bp mrna linear PRI 15-JAN-2003 DEFINITION Homo sapiens angiopoietin 1 (ANGPT1), transcript variant 1, mrna. ACCESSION NM_001146 VERSION NM_001146.3 GI:21328452 KEYWORDS. SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 4338) AUTHORS Ruegg,C. and Pytela,R. TITLE Sequence of a human transcript expressed in T-lymphocytes and encoding a fibrinogen-like protein JOURNAL Gene 160 (2), 257-262 (1995) MEDLINE 95369700 PUBMED 7642106 COMMENT FEATURES REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from D13628.2, AL700429.1 and AW069541.1. On Jun 7, 2002 this sequence version replaced gi:20532339. Summary: Angiopoietins are proteins with important roles in vascular development and angiogenesis. All angiopoietins bind with similar affinity to an endothelial cell-specific tyrosine-protein kinase receptor. The protein encoded by this gene is a secreted glycoprotein that activates the receptor by inducing its tyrosine phosphorylation. It plays a critical role in mediating reciprocal interactions between the endothelium and surrounding matrix and mesenchyme. The protein also contributes to blood vessel maturation and stability, and may be involved in early development of the heart. Two transcript variants encoding different isoforms have been found for this gene. Transcript Variant: This variant (1) represents the longer transcript and encodes the longer isoform (a). COMPLETENESS: complete on the 3' end. Location/Qualifiers source 1..4338 /organism="homo sapiens" /db_xref="taxon:9606"

Genomitietokannat Onko koko genomi sama asia kuin kaikki geenipankkiin viedyt lajin sekvenssit yhdessä? EI! Tarvitaan myös annotaatio Genomitietokannat ovat integroituja tietolähteitä koottu genomi eri tavoin ennustetut geenit, tunnetut geenit, mrnat, proteiinit, ESTit

Genomitietokannat Jotkut genomitietokannoista keskittyvät yhteen malliorganismiin (hiiva, hiiri, rotta, lituruoho ) Nämä sisältävät usein hyvin laajan kirjon informaatiota kyseisestä organismista Toiset kokoavat informaatiota monesta lajista samaan paikkaan: Ensembl http://www.ensembl.org/index.html MapViewer http://www.ncbi.nlm.nih.gov/mapview/ UCSC Genome Browser http://genome-euro.ucsc.edu/cgibin/hggateway?redirect=auto&source=genome.ucsc.edu

Siksipä esimerkiksi... Ensembl-projekti

Mihin tätä tarvitaan? Eikö sekvenssi olekaan valmis...? Sekvenssiä parannellaan kaiken aikaa; uutta tietoa tulee sisään ja virheitä korjataan Elintärkeää pysyä kärryillä näistä muutoksista tarkasti jotta kokonaiskuva säilyy Tehtävä olisi manuaalisesti tehtynä miltei mahdoton. Automaattinen systeemi on nopeampi, halvempi ja tarkempi http://www.ensembl.org/info/website/tutorials/ensembl_introd uction.pdf

Ensembl sisältö? Ihmisen sekä monien muiden monisoluisten organismien genomiset DNA-sekvenssit, jotka ovat tällä hetkellä saatavissa julkisista lähteistä Kaikki Ensembleen DNA-sekvenssistä karakterisoidut piirteet yhdessä muodostavat ANNOTAATION. Annotaatio sisältää: geenit (1. kokeellisesti tunnistetut geenit 2. Ensembl:n ennustamat geenit) Muut mielenkiintoiset piirteet; SNP:t, toistojaksot, homologiat

Ensembl käyttää GenScan -softaa DNAsekvenssin annotointiin: ohjelma tunnistaa DNAalueet, jotka näyttävät geeneiltä Näitä geenikandidaatteja verrataan julkisesti saatavilla oleviin tunnettuihin geenisekvensseihin. Mikäli riittävästi yhtenevyyttä, saadaan lisätodisteita ennusteen todenperäisyydelle Nämä ennustetut geenit tallennetaan tietokantaan jolloin nekin ovat tiedonhaussa käytettävissä

www.ensembl.org/index.html Pari esimerkkihakua ENSEMBL:stä Etsitään tietty kohta ihmisen genomista Etsitään epidermal growth factor

click!

Monenlaisia näkymiä käytettävissä (vasemman puoleinen paneeli): Contigview, Cytoview, Geneview, Markerview, Transview, Proteinview... Selosteet eri featureille Detailed view:ssa: klikkaa hiirellä vasemmalla puolella näkyvää nimikettä (esim. UniGene, ncrna gene, Proteins...), ja saat näkyviin pop-up-ikkunan, jossa kerrotaan mitä termi tarkoittaa.

Haetaan seuraavaksi ENSEMBL:stä ihmisen sekvenssi epidermal growth factor Etsitään sitä koodaava genominen alue http://www.ensembl.org/index.html

Select species Write query here

Pick gene view Select this sequence from long list

Tietokannat tähän asti Tarjolla olevista tietokannoista informaatiota NAR-lehden tietokantanumerosta Nukleotiditietokannat (Genbank, ENA) sisältävät kaiken julkisen nukleotidisekvenssiaineiston Tietokannat kuten RefSeq ja ENSEMBL pyrkivät poistamaan päällekkäisyyttä ja organisoimaan informaatiota Genomitietokannat esittävät sekvenssit eliökohtaisesti näissä aineisto usein esitetään genomisekvenssiä vasten

Ylimäääräisiä seuraavassa

UCSC Genome Browser http://genome.ucsc.edu/

Monilla lajeilla on omia tietokantojaan http://cinxiabase.vmhost.psu.edu/ (täpläverkkoperhonen) http://flybase.org/ (banaanikärpänen) http://silkworm.genomics.org.cn/ (silkkiperhonen) https://www.vectorbase.org/ (malariasääsket) http://www.butterflygenome.org/ (Heliconius) http://beetlebase.org/ (Tribolium) http://www.informatics.jax.org/ (hiiri) http://www.yeastgenome.org/ (hiiva) http://www.arabidopsis.org/ (lituruoho)

Genotyyppi-fenotyyppi DB Was developed to archive and distribute the results of studies that have investigated the interaction of genotype and phenotype. http://www.ncbi.nlm.nih.gov/gap/ Ihmisgeneetikon suosikkeja: http://www.ncbi.nlm.nih.gov/omim A catalog of published genome-wide association studies: http://www.genome.gov/gwastudies/ Individual genome sequences: http://www.1000genomes.org/ Reference genotype db: http://hapmap.ncbi.nlm.nih.gov/

Muita esimerkkejä * ENCODE: Encyclopedia of DNA Elements (http://genome.ucsc.edu/encode/) * COSMIC: Catalogue of Somatic Mutations in Cancer (http://www.sanger.ac.uk/genetics/cgp/cosmic/) * ANNOVAR: Functional annotation of genetic variants (http://www.biobase-international.com/product/annovar) * HGMD: Human Gene Mutation Database (http://www.biobase-international.com/product/hgmd) * TRANSFAC: Transcription Factor Binding Sites (http://www.biobase-international.com/product/transcription-factor-binding-sites)

EBI Genomes Nucleotide Sequences Protein Sequences Macromolecular Structures Small Molecules Gene Expression Protein Expression Molecular Interactions http://www.ebi.ac.uk/ Reactions& Pathways Protein Families Enzymes Literature Taxonomy Ontologies