CSC 40 vuotta Sähköinen tieto tieteen palveluksessa FT Pirjo-Leena Forsström Johtaja Pirjo-leena.forsstrom@csc.fi CSC Tieteen tietotekniikan keskus CSC Tieteen tietotekniikan keskus Oy CSC IT Center for Science Ltd.
Lähteitä C. Anderson, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete, Wired Magazine: 16.07. Retrieved from http://www.wired.com/science/discoveries/magazine/16-07/pb_theory Moving Large Volumes of Data Using Transportable Modules in Oracle Warehouse Builder Data Modeling, ETL, and Data Quality Guide 11g Release 2 (11.2) http://download.oracle.com/docs/cd/e14072_01/owb.112/e10935/trans_mod.htm G. Adomavicius, J. Bockstedt, A. Gupta and R. Kauffman, Understanding Patterns of Technology Evolution: An Ecosystem Perspective, in: System Sciences, 2006. HICSS '06. Proceedings of the 39th Annual Hawaii International Conference on, vol.8, pp. 189a, 04-07 Jan. 2006. V. Van den Eynden, L. Corti, M. Woollard, L. Bishop and L. Horton, Managing and Sharing Data: Best Practices for Researchers. UK Data Archive, University of Essex, May 2011 C. Thanos, Interoperability: A Holistic Approach, Manuscript, 2010. T. Hey, S. Tansley and K. Tolle (Eds.), The Fourth Paradigm: Data Intensive Scientific Discovery. Redmond, WA: Microsoft, 2009. National Science Board, Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century, National Science Foundation, 2005, Retrieved from http://www.nsf.gov/pubs/2005/nsb0540/ What is Data Archiving? [Definition] http://searchdatabackup.techtarget.com/definition/data-archiving P. Edwards, S. Jackson, G. Bowker and C. Knobel, Understanding Infrastructure: Dynamics,Tensions, and Design, Final Report of the Workshop on History & Theory of Infrastructure: Lessons for New Scientific Cyberinfrastructures, Jan. 2007. Retrieved from http://hdl.handle.net/2027.42/49353 NSF Cyberinfrastructure Vision for 21st Century Discovery, NSF Cyberinfrastructure Council, March 2007. Retrieved from http://www.nsf.gov/pubs/2007/nsf0728/index.jsp
Tieto ja yhteiskunta M metsästys- ja keräily-yhteiskunta M maatalousyhteiskunta M teollisuusyhteiskunta M tietoyhteiskunta Ennen: kirjoitustaito mahdollisti tiedon virran yksilöltä toiselle. NYT: koneluettavuus mahdollistaa tiedon virran järjestelmästä toiseen, ihmiseltä toiselle
Ajavat voimat Globaalin työnjaon muutos Teknologiset muutokset Technology does not drive change at all. Technology merely enables change. It is our collective cultural response to the options and opportunities presented by technology that drives the change Luonnonvarojen kestävä käyttö Institutionaalinen ongelma: keskiluokan työpaikkojen väheneminen
Muutosprosesseja Pääomien ja rahamarkkinoiden globalisoituminen: rahamarkkinoiden sääntelyn purku, kansainväliset pääomaliikkeet, yritysvaltaukset Markkinoiden ja kilpailustrategioiden globalisoituminen: liiketoimintojen maailmanlaajuinen integroituminen, globaalit yritysverkostot, strategiset liittoutumat Teknologian, tutkimus- ja kehitystyön sekä tiedonhankinnan globalisoituminen: informaatioteknologian kehitys, globaalit tietoverkot Elämäntyylien ja kulutustapojen globalisoituminen: elämäntapojen ja kulutustottumuksien samankaltaistuminen: median vaikutukset; kulttuuriteollisuus ja kulttuurihyödykkeet, kulttuurihyödykkeiden kansainvälisen kaupan sääntely Sääntelyn ja hallinnan uudet instrumentit: kansallisten parlamenttien ja hallitusten muuttuvat tehtävät; uusien globaalien ja alueellisten hallinnan välineiden synty ja kehitys; uudet poliittisen yhdentymisen muodot Ajattelun, havaitsemistapojen ja tietoisuuden globalisoituminen: sosiaaliset ja kulttuuriset prosessit, yksi yhteinen maailma ; globaalit alakulttuurit ja liikkeet; maailmankansalaisuus Ympäristöongelmien globalisoituminen: ilmastonmuutos, yläilmakehän otsonikato, biodiversiteetin väheneminen
Talouden vaikutus
Tutkimus tänään ja huomenna Tutkimus on kasvavassa määrin Moniskaalaista: datainfrastruktuuri mahdollistaa tiedon saumattoman käsittelyn monessa aika-, paikka-, systeemi- ja tiladimensiossa. Monitieteistä: innovatiivinen tutkimus on kiivainta tieteenalojen rajapinnoilla. Moniosaamista vaativaa: tutkimus tarvitsee eri osaajien työryhmiä. Monisektoraalista: tieteellinen yhteistyö on luontevaa yliopistojen, teollisuuden, tutkimuslaitosten, tieteellisten seurojen ja harrastajien kesken. Monirahoitteista: yllä oleva tuo mukanaan usean rahoituslähteen.
Mitä uutta sähköisessä tiedossa? Tuottamisen ja analyysin automaatio Läpitunkeva läsnäolo uudelleenkäyttö ja yhdistely Genomi Proteiin i Solu Alkio Banaanikärpänen Hiiri Kehitys, vanheneminen, sairaudet
Sensorit valvovat Koko Nopeus Määrä
Näkymättömän tekemistä näkyväksi The road to wisdom? Well, it's plain and simple to express: Err and err and err again but less and less and less. -Piet Hein
GALAXY Zoo Galaxy Zoo (Lintott et al. 2008) is a online project in which volunteers visually classify the morphologies of galaxies selected at random from the spectroscopic sample of the Sloan Digital Sky Survey (SDSS, York et al. (2000)) Data Release 6 (DR6). The public response to the launch of Galaxy Zoo in July 2007 was overwhelming, achieving over 36 million classifications within a few months and results that agree exceptionally well with those of professional astronomers (Lintott et al. 2008).
Mitä tiede edellä, sitä muut perässä
KOLME MUUTOSTA TUTKIMUSAINEISTOIHIN LIITTYEN - Tietoaineistojen määrä ja heterogeenisuus kasvaa massiivisesti - Teknisten ratkaisujen esiinmarssi: Grid, web, sensoridata, mallinnus ja simulaatiot, virtuaaliobservatoriot - Tarve datan tunnistukseen ja laadun varmistukseen, pysyvyyteen
Vaikuttavat voimat 1. Sosiaaliset 2. Hallinnolliset 3. Taloudelliset 4. Tekniset Jännitteet: - luova tuho - Kohtaaminen: IPR, public/private jne - Kansallinen versus kansainvälinen
Kohti tietoa
Tutkimustiedon infrastruktuuri
etutkijan ongelma Kokeet & Instrumentit Tietovarastot faktaa kysymyksiä Kirjallisuus faktaa? vastauksia Simulaatiot Datan koostaminen Petatavumäärien hallinta Yhteiset skeemat Rinnakkaiselo ja yhteistyö muiden tutkijoiden kanssa? Kyselyjen ja visualisoinnin työkalut? Tuki ja koulutus Miten organisoida? Suorituskyky Miten uudelleenorganisoida? Vastaukset kyselyihin riittävän nopeasti Erittäin suurten massojen analysointi ja hallinta
Tutkimustiedon infrastruktuurin täytyy tukea: - koko tutkimusprosessia - tietoaineistojen siirtoa tieteenalojen välillä - avoimen datan tuottoa - Työvuo-pohjaista toimintaa - julkaisujen ja tietoaineistojen linkitystä - tiedepolitiikan kehikkoa
Tutkimustiedon prosessi Lähde: JISC
Dataintensiivinen tiede - Kasvava datan ja lähteiden määrä - Datan ja kyselyjen kompleksisuus - Datan käsittelyn kompleksisuus - Datan suuri dynaamisuus - Datan suuri käyttötarve - Tutkijan ja datan monimutkainen vuorovaikutus - Datan suuri merkitys tuotantoketjun loppupäässä
Dataintensiivinen tiede Tärkeimmät haasteet: Eksponentiaalisesti kasvavien datajoukkojen hallinta ja käsittely Analyysisyklin huomattava nopeutus
Tallennusmäärien kasvu
etieteen ekosysteemi
etieteen ekosysteemikanavat 1. Moni/poikkitieteellisyyden mahdollistavat kanavat 2. Pitkäaikaissäilytyksen kanavat 3. Datan ja julkaisun yhdistämiskanava 4. Tutkimusyhteistyön kanava
Avoin tiede Siilot Tutkimuksen tuottamat tietoaineistot käytettävissä Avoin pääsy tutkimuksen tuottamiin julkaisuihin Mahdollisuus käyttää tutkimusmenetelmiä joilla aineisto tuotettu Avoin infrastruktuuri jatkokäyttöä varten Rahoituksen luomat siilot Tieteenalakohtaiset siilot
Ekosysteemipalvelut 1. Datan tunnistus 2. Datan löydettävyys 3. Datan palvelu/työkalukokoelma 4. Hakupalvelut 5. Integraatioympäristö 6. Jakamisympäristö 7. Linkkausympäristö 8. Ontologian/taksonomian hallinta 9. Siirrettävyyspalvelut (sekä datalle että palveluille/työvälineille) 10. Työvuoympäristö 11. Datapolitiikan hallintaympäristö
Haasteet 1. Teknologiset: a) Datan mallinnuksen haasteet b) Datan hallinnan haasteet c) Työkalujen haasteet 2. Organisatoriset 3. Systeemiset: a) Virtual reserach environments b) Science gateways c) Yhteentoimivuus, heterogeenisuuden ongelmat d) Välitysohjelmistot e) Infrastruktuuripalvelut 4. Uudet paradigmat 5. Policy -haasteet
Digitaalisen tiedon turvaaminen Pitkäaikaissäilyttäminen: Tiedon elinkelpoisuuden turvaaminen jatkuvalla muutoksella Jakelu ja uudelleenkäyttö: Tiedon hyödyntämisen mahdollistaminen ja edistäminen, tietotuotantoon jo tehtyjen investointien hyödyntäminen
Säilytysvaatimukset ovat täällä Email, Documents, Records 33
Tutkimuksen tietoaineistot -hanke
Suositukset Suositukset kattavat seuraavat kokonaisuudet: Kattava ja selkeä tietopolitiikka Toiminnan ohjaus ja koordinaation kehittäminen Tietoinfrastruktuurien kehittäminen Lainsäädännön kehittäminen Yhtenäisten käytäntöjen ja toimintakulttuurin kehittäminen
CSC pähkinänkuoressa Valtion omistama ja opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö Toiminta alkoi 1971 Univac-keskustietokoneen ylläpitäjänä Liitti Suomen internetiin 1988 Liikevaihto 25,7 milj. euroa vuonna 2010 Työntekijöitä noin 210 (henkilöstömäärä tasaisessa kasvussa) Toimitilat Espoon Keilaniemessä, lähellä Otaniemen kampusta sekä Kajaanissa.
Toiminnan päämäärät Tutkimuksen ja tuotekehityksen toimintaedellytysten parantaminen Kansainvälisesti kilpailukykyisten tieteen tietotekniikan palvelujen tuottaminen Kansallisten keskitettyjen palvelujen tarjoaminen, joita ei ole tarkoituksenmukaista toteuttaa hajautetusti Tieteen tietotekniikan pioneeritoiminta
CSC:n palvelut OKM:n toimialalle yleisesti Funet-palvelut Tieteen ja kulttuurin datapalvelut Tietohallintopalvelut, hankekoordinointi- ja konsultointipalvelut Koulutuspalvelut Korkeakoulujen tutkimusryhmille ja tutkijoille Laskentapalvelut Sovelluspalvelut Datan käsittely- ja tallennuspalvelut Koulutuspalvelut
CSC palvelee OKM:n toimialalla: Kansallisen Audiovisuaalisen Arkiston Radio- ja TV-Arkisto sekä Digivarasto Hiukkafysiikan LHC-törmäytindatan analyysi Kansalliskirjaston Nelli, ArMAS, Linnea palvelut Kansallisen Digitaalisen Kirjaston asiakasliittymän palveluinfrastruktuurin sekä tulevan (?) Pitkäaikaissäilytyksen Infrastruktuurin suunnittelu ja ylläpito Kansallisarkiston VAPA-palvelu Paikkatiedon tutkimusinfrastruktuuripalvelut
Kiitos!
Uusi maailma: tieto on yleishyödyke RESURSSIT: TYÖ, MATERIAALIT, ENERGIA, PÄÄOMA, TIETO
Digitaalisen maailmankaikkeuden kasvu jotta 10 24 tsetta 10 21 eksa 10 18 peta 10 15 tera 10 12 giga 10 9 mega 10 6 kilo 10 3 IDC iview, "The Digital Universe Decade Are You Ready?" May 2010, sponsored by EMC. The multimedia content can be viewed at http://www.emc.com/digital_universe
Tieto on yleishyödyke RESURSSIT: TYÖ, MATERIAALIT, ENERGIA, PÄÄOMA, TIETO Tiedon merkityksen korostuminen: Uuden tiedon tuottaminen, jakelu ja vaihto ovat entistäkin tärkeämpi elementti sekä globaaleissa että paikallisissa taloudellisissa järjestelmissä. Syntyy tietoyhteiskunta ja tietotalous, Informaatio on sekä raaka-aine että tuote. Tiedolla voidaan tuottaa tietoa ja tiedolla teknologiaa. Tiedon paradoksi: samalla kun tieto tulee yhä tärkeämmäksi tuotannontekijäksi, sen hinta laskee ja merkitys kilpailukyvylle pienenee, koska tieto on kaikkien saatavilla oleva yleishyödyke.
TIEDON KASVAVA MERKITYS Tietoyhteiskunta ja tietotalous innovaatiohakuinen RESURSSIT TYÖ, MATERIAALIT, ENERGIA, PÄÄOMA, TIETO Aikaparadoksi: uuden tiedon tuottaminen vie yhä enemmän aikaa ja se on validia yhä lyhyemmän aikaa TIETEELLINEN TIETO: TIETEEN UUDET KÄYTÄNNÖT PRIORITEETIT (kestävä kehitys, työllistyminen, kilpailukyky) TEKNOLOGIA (nopea hyödyntäminen, pysyvyys, rajapinnat) KRIITTINEN KOKO, KANSAINVÄLISYYS UUDET PARADIGMAT
TUTKIMUS MUUTOKSESSA Tiedon monimutkaisuus kasvaa syvempää tietoa kapeammalla alueella Yhä enemmän monitieteistä tutkimusta=> Monimutkaisempia ongelmia Tutkimusinfrastruktuurien kustannukset kasvavat räjähdysmäisesti => tarvitaan valtion/eu:n tukea ja panosta Tarvittava kriittinen massa suurempi kuin ennen => Verkostoituminen, sekä taloudellisesti että osaajien Talouden vahvempi vaikutus Uudet tutkimuskäytännöt: knowledge born in cyberspace, virtuaalilaboratoriot ja työympäristöt Tieteen globalisaatio tutkimusinfrastruktuurien kautta
YHTEINEN TIETOPOHJA, YHTEINEN KIELI Hallinnan tekniikoiden ja rationalisoinnin kehitys, todellisuuden käsitteellistäminen Hallinnan taidon päämäärä yhteisen vastuullisen hyvinvoinnin kasvattaminen
Ydinkysymykset: Miten selviämme valtavan tietovirran kanssa? Miten löydämme tarvitsemamme tiedon? Miten osaamme päättää mitä säilyttää, mitä tuhota? Miten turvaamme oleellisen tiedon säilymisen? NÄKÖKULMAT Me voimme kerätä ja tuottaa Voimmeko siirtää? (kaistanleveys ja yhteentoimivuus) Me voimme säilyttää (rahakysymys) Voimmeko käyttää? (rakenne ja metatieto, sisällön ymmärrys) Voimmeko jakaa? Voimmeko yhdistellä?
Tiedolla johtaminen YHTEINEN TIETOPOHJA, YHTEINEN KIELI Hallinnon tekniikoiden ja rationalisoinnin kehitys, todellisuuden käsitteellistäminen Hallinnan taidon päämäärä yhteisen vastuullisen hyvinvoinnin kasvattaminen
Loppulause
The ability to understand Nature and partially dominate it (technology) and of transmitting and improving acquired knowledge in a continuous feedback process is certainly among the most important achievement that made our species unique among all others in the planet. Luiz Miranda & Carlos Lima (2010). On trends and rhytms in scientific and technological knowledge analysis: a quatitative analysis. Genomi Proteii ni Solu Alkio Banaanikärpänen Hiiri Kehitys, vanheneminen, sairaudet
TIEDON KASVAVA MERKITYS Tietoyhteiskunta ja tietotalous innovaatiohakuinen RESURSSIT TYÖ, MATERIAALIT, ENERGIA, PÄÄOMA, TIETO Aikaparadoksi: uuden tiedon tuottaminen vie yhä enemmän aikaa ja se on validia yhä lyhyemmän aikaa TIETEELLINEN TIETO: TIETEEN UUDET KÄYTÄNNÖT PRIORITEETIT (kestävä kehitys, työllistyminen, kilpailukyky) TEKNOLOGIA (nopea hyödyntäminen, pysyvyys, rajapinnat) KRIITTINEN KOKO, KANSAINVÄLISYYS UUDET PARADIGMAT
TUTKIMUS MUUTOKSESSA Tiedon monimutkaisuus kasvaa syvempää tietoa kapeammalla alueella Yhä enemmän monitieteistä tutkimusta=> Monimutkaisempia ongelmia Tutkimusinfrastruktuurien kustannukset kasvavat räjähdysmäisesti => tarvitaan valtion/eu:n tukea ja panosta Tarvittava kriittinen massa suurempi kuin ennen => Verkostoituminen, sekä taloudellisesti että osaajien Talouden vahvempi vaikutus Uudet tutkimuskäytännöt: knowledge born in cyberspace, virtuaalilaboratoriot ja työympäristöt Tieteen globalisaatio tutkimusinfrastruktuurien kautta
YHTEINEN TIETOPOHJA, YHTEINEN KIELI Hallinnan tekniikoiden ja rationalisoinnin kehitys, todellisuuden käsitteellistäminen Hallinnan taidon päämäärä yhteisen vastuullisen hyvinvoinnin kasvattaminen
Ydinkysymykset: Miten selviämme valtavan tietovirran kanssa? Miten löydämme tarvitsemamme tiedon? Miten osaamme päättää mitä säilyttää, mitä tuhota? Miten turvaamme oleellisen tiedon säilymisen? NÄKÖKULMAT Me voimme kerätä ja tuottaa Voimmeko siirtää? (kaistanleveys ja yhteentoimivuus) Me voimme säilyttää (rahakysymys) Voimmeko käyttää? (rakenne ja metatieto, sisällön ymmärrys) Voimmeko jakaa? Voimmeko yhdistellä?
Digitaalisessa muodossa oleva tieto merkittävä tieteellinen, taloudellinen ja yhteiskunnallinen resurssi. =
Tutkimus tänään ja huomenna Tutkimus on kasvavassa määrin Moniskaalaista: datainfrastruktuuri mahdollistaa tiedon saumattoman käsittelyn monessa aika-, paikka-, systeemi- ja tiladimensiossa. Monitieteistä: innovatiivinen tutkimus on kiivainta tieteenalojen rajapinnoilla. Moniosaamista vaativaa: tutkimus tarvitsee eri osaajien työryhmiä. Monisektoraalista: tieteellinen yhteistyö on luontevaa yliopistojen, teollisuuden, tutkimuslaitosten, tieteellisten seurojen ja harrastajien kesken. Monirahoitteista: yllä oleva tuo mukanaan usean rahoituslähteen.
Tutkimuksen tietoaineistot -hanke
Suositukset Suositukset kattavat seuraavat kokonaisuudet: Kattava ja selkeä tietopolitiikka Toiminnan ohjaus ja koordinaation kehittäminen Tietoinfrastruktuurien kehittäminen Lainsäädännön kehittäminen Yhtenäisten käytäntöjen ja toimintakulttuurin kehittäminen
Mistä puhumme kun puhumme digitaalisesta tiedosta? Miten tieto tuotettu? Mitä varten tieto tuotettu? Koko Rakenne Elinikä
Tiedon elinkaari: Syntymä Nuoruus Kukoistus Vanhuus Datan synty Laadun kasvatus Avoin yhteiskäyttö Pitkäaikaistallennus
Report 2010: "The Digital Universe Decade Are You Ready?" May 2010, sponsored by EMC. The multimedia content can be viewed at http://www.emc.com/digital_universe 2009: 0.8 ZB: dvd-stack to Moon and back 2010: 1.2 ZB 2020: 35 ZB: half-way to Mars
Trendit Suuret datasetit olemassa, ratkaisut niiden hallintaan eivät Kansalliset infrastruktuurit eivät täytä tarpeita Jopa HPC-projektit tukehtumassa IO-asioihin Tietovarastoilta vaaditaan yhä älykkäämpiä palveluita => työvuot tarpeen Sociologiset trendit: Yhä suurempien uyhteisöjen dtakokoelmien synty (VO) Analyysit irrallaan datasta, eri ihmiset analysoivat kuin tuottavat Datan hajautuminen? Streaming-algoritmit Datalinjat työvuo-ajattelussa workflows Datadiffuusio