Tutkimusdatan keräys ja hallinta Teemu Kuulasmaa Bioinformaatikko Itä-Suomen yliopisto Sisätaudit 10.05.2011
Tiedonkeruujärjestelmä KYS Internet UEF
Mikä on tietokanta? Tietokanta on tietotekniikassa käytetty termi tietovarastolle Tällainen kohde voi olla esimerkiksi yrityksen keräämät tiedot asiakkaistaan... Tietokantojen koot voivat vaihdella suuresti, yhteen tiedostoon tallennetuista taulukoista hyvin suuriin tietokantoihin joissa on useita miljoonia tietueita Tietokantaan voidaan tallentaa eri formaateissa olevaa tietoa, esimerkiksi tekstiä, ääntä ja videokuvaa. [http://fi.wikipedia.org/wiki/tietokanta]
Mihin tietokantoja käytetään? Tietokantoja käytetään monissa sovelluksissa liki jokaisella sovellusalueella. Tietokantoja suositellaan suurien monen käyttäjän järjestelmien tiedon tallennusmekanismiksi silloin, kun tarvitaan koordinaatiota usean käyttäjän välillä. Jopa yksittäiselle käyttäjälle tietokanta voi olla sopiva ratkaisu ja monet sähköpostiohjelmat ja kalenterisovellukset perustuvat standardinmukaiseen tietokantateknologiaan. [http://fi.wikipedia.org/wiki/tietokanta]
Relaatiotietokannan rakenne OGTT Id (number) Glu_0 (number) Glu_30 (number) Glu_120 (number) Ins_0 (number) Ins_30 (number) Ins_120 (number) Person Id (number) Name (text) Hetu (text) Age (number) Address (text) Sex (number) Email (text) Phenotype Id (number) Weight (number) Height (number) Hip (number) Waist (number) Syst_bp (number) Diast_bp (number)
Structured Query Language (SQL) Structured Query Language (SQL) on IBM:n kehittämä standardoitu kyselykieli, jolla relaatiotietokantaan voi tehdä erilaisia hakuja, muutoksia ja lisäyksiä. Käytännössä kaikki relaatiotietokannat ymmärtävät SQL-kieltä. [http://fi.wikipedia.org/wiki/sql]
Tietokannan käyttöoikeudet SQL command (data) SELECT INSERT UPDATE DELETE SQL command (table) CREATE DROP ALTER SQL command (server) CREATE USER GRANT SHUTDOWN SUPER - Jokaiselle käyttäjälle voidaan luoda oma henkilökohtainen käyttäjätunnus - Käyttäjätunnuksille määritetään oikeudet tietokannan sisältämiin tietoihin - Oikeuksia voidaan antaa koko tietokantaan, yhteen tauluun tai vain valittuihin kenttiin. Esim: - sallitaan olemassa olevien tietueiden luku (SELECT) ja päivitys (UPDATE), mutta ei uusien tietueiden lisäystä (INSERT) tai poistoa (DELETE) - Sallitaan luotetulle käyttäjälle oikeudet luoda uusia käyttäjiä (CREATE USER) ja määrittää heille käyttöoikeuksia (GRANT)
Mitä tietokanta tarjoaa? - Keskitetyn tietovaraston - Monta yhtäaikaista käyttäjää - Työkaluja datan ja aineistojen käsittelyyn - Tehokkaat hakutoiminnot - Käyttäjien käyttöoikeusmäärittelyt - Tietoliikenteen salauksen - Keskitetyn ja helpon varmuuskopioinnin - Tiedon versiointi - Audit trail
Mitä tietokanta vaatii? - Toimintavarman ja turvallisen tietoverkon - Toimintavarman ja turvallisen palvelimen - Toimintavarman ja turvallisen varmuuskopioinnin ja kaikille näille vastuullisen käyttäjän ja ylläpitäjän
Mitä tietokantaan tallennetaan? - Vain primaarisia mittaustuloksia - pituus, paino, verenpaine jne - Vähän tai ei lainkaan laskennallisia muuttujia - BMI, WHR, erilaiset laskennalliset indexit, muuttujien yksikkö- ja logaritmimuunnokset jne - Käyttäjien käyttöoikeudet - Versioitu data - Audit Trail
Tietokanta tiedon keruu ja käyttö Tiedonkeruulomakkeet Rekisteriotannat Kliininen kemia Tietokanta - Henkilötunnus - Tutkimus ID Tilastolliset analyysit DNA-analytiikka Erilaiset käyttöliittymät tietokantaan
Tietokantakäyttöliittymät - Samaa tietokantaa voidaan käyttää monen eri käyttöliittymän kautta: - Ylläpito-ohjelmistot: tietokannan omat työkalut - Tilastolliset ohjelmat: SPSS, SAS, R, Excel - Raportointiohjelmat: MS Access, Crystal Report, Excel - Tiedonsyöttö, selaus ja muokkaus käyttöliittymät: MS Access, OpenOffice - Räätälöityjä käyttöliittymiä voidaan toteuttaa eritavoin: WWW, MS Access, FileMaker, OpenOffice.
MOM Metabolinen Oireyhtymä Miehillä - Akatemiaprofessori Markku Laakson tutkimus - Tutkimus toteutettiin KY:n kampuksella ja KYS:ssa vuosina: - baseline: 2005-2010 - follow-up: 2010- - Baseline-tutkimuksessa kävi 10197 miestä Kuopiosta ja sen ympäristökunnista - Follow-up käyntejä tällä hetkellä noin 1700
MOM Laitteistot Palvelin Työasemat Prosessori: Muisti: Kiintolevy: Verkko: Core 2 Duo @ 3GHz 8GB DDR2 500GB (RAID1) 1Gigabit Prosessori: Muisti: Kiintolevy: Verkko:
MOM Ohjelmistot Palvelin Linux * Työasemat Windows MySQL * Apache * OpenSSH * python * Samba * php * Microsoft Office (Access) MySQL-ODBC * MySQL-JDBC * putty * java* Visual Basic python * * = vapaan lähdekoodin ohjelma
Vapaan lähdekoodin ohjelmistot - Ohjelman vapaasti levitettävissä - Lähdekoodi vapaasti saatavissa - Johdettujen teosten luonti sallittu - Käyttötarkoitus ei rajoitettu - Kaikilla käyttäjillä samat oikeudet - Ohjelma ei voi asetta ehtoja muille ohjelmille Linux, MySQL, Firefox, OpenOffice, Gimp
MOM Budjetti ylimääräiset kustannukset Palvelin Työasemat Laitteisto: Ohjelmistot: Ylläpito/tuki: Työaika: ~1500 0 0??? Laitteisto: Ohjelmistot: Ylläpito/tuki: Työaika: 0 0 0???
MOM Tietoturva ja varmuuskopiointi - Kaikilla käyttäjillä omat käyttäjätunnukset ja rajatut käyttöoikeudet - Salatut yhteydet - Ohjelmistot ajan tasalla - Varmuuskopiointi joka yö - Varmuuskopioiden pakkaus - Varmuuskopioiden kryptaus - Varmuuskopioiden kopiot muille koneille - RAID1-levyjärjestelmä
MOM RAID1-levyjärjestelmä 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 Levy 1 Levy 2
MOM Tietokantakäyttöliittymä
MOM Tietokantakäyttöliittymä
MOM Tietokantakäyttöliittymä
MOM Tietokantakäyttöliittymä
MOM Tietokantakäyttöliittymä
MOM Tietokantakäyttöliittymä
MOM Tietokantakäyttöliittymä
MOM Tilastolliset analyysit - Tietokannasta saadaan tuotua (valikoidusti) dataa tilastollisiin ohjelmiin - vain tarpeelliset muuttujat - ei henkilötietoja - Tiedostojen luonti automatisoitu ja ajastettu - SPSS, plink (ped/map) - tiedostot automaattisesi tutkijoiden saatavilla verkkolevyillä - Useat ohjelmat osaavat suoraan keskustella tietokantojen kanssa (Excel, SPSS, SAS, R)
MOM Kokemuksia + Helpottaa työntekoa + Helpottaa projektin hallinta + Vähentää manuaalista työtä + Vähentää inhimillisiä virheitä + Sallii monta yhtäaikaista käyttäjää + Monet tehtävät automatisoitavissa + Joustava ja elää muuttuvien tarpeiden mukana - Vaatii panostusta ja resursseja
Yhteenveto Ei ole olemassa valmista yksittäistä tuotetta tai ratkaisua, joka kävisi kaikkiin käyttötarkoituksiin! Tutkimusdatan keräys- ja hallintajärjestelmät pitää suunnitella ja toteuttaa projekti- ja tapauskohtaisesti: projektin koko, käyttäjien määrä, datan määrä, paikallinen/hajautettu, käytössä olevat resurssit ja laitteet jne