Miten hallitsemme digitaalista tietoa vuonna 2040 jos sitä on 33 miljoonaa kertaa nykyistä enemmän? tomi.dahlberg@abo.fi tai tomi.dahlberg@utu.fi +358 50 550 5718 Tomi Dahlberg
Puheenvuoron motivaattorit SC40 työryhmän 1 uudeksi työkohteeksi hyväksyttiin kevään 2015 plenaryssä Governence of data ja syyskuun kokouksessa valittiin editorit teknisen raportin (38505:1 ja 38505:2) kirjoittamiseksi Organisaatioissa tiedon hallinta ei ole yleensä kenenkään vastuulla Miksi tämän asiantilan muuttaminen on välttämätöntä 2
Millainen oli digitaalisen tiedon tilanne 15 vuotta sitten vuonna 2000? Maailmassa syntyvästä uudesta tiedosta suurempi osa oli edelleen analogista tietoa kuin digitaalista tietoa Paperia, filmiä, vinyyliä, ääninauhoja, kuvanauhoja Organisaatioissa digitaalinen tieto syntyi liiketoimintatapahtumien rekisteröimiseksi Tapahtumatiedot, raportit, muistiot, sisällöt sekä niihin kytketyt master, referenssi ja meta datat Tieto oli rakenteista 3
Tiedon digitalisointi ja tietoräjähdys 2000-2011 (IDC, Hilbert ja Lopez) Uuden digitaalisen tiedon määrä kasvoi 60 % vuosittain Vuosien 2002-2003 aikana digitaalisen tiedon määrä saavutti analogisen tiedon määrän Vuonna 2007 digitaalisen tiedon määrä oli kasvanut 96 %:iin kaikesta tuona vuonna syntyneestä uudesta tiedosta Vuonna 2011 digitaalisen tiedon osuus oli jatkanut kasvuaan ja osuus noussut 99 %:iin tuona vuonna syntyneestä uudesta tiedosta Vuonna 2007 digitaalista tietoa luotiin 0,276 zettabytea, vuonna 2011 tietoa luotiin 1,8 zettabyteä. Analogisen tiedon määrä on 0,019 zettabyteä Zettabyte = 2 70 tai 10 21 60 %:n kasvuvauhdilla ennuste vuodelle 2015 on 12 zettabyteä ja digitaalisen tiedon osuudelle 99,84 % 4
(IDC, Digital Universe Study, 2011) 1.8 zettabytes 1800 billion gigabytes (Hilbert & Lopez, 2011) 5
Byte Kuinka paljon dataa? Kilobyte (1024 Bytes 10 3, 2 10 ) Megabyte (1024 Kilobytes 10 6, 2 20 ) Gigabyte (1024 Megabytes 10 9, 2 30 ) Terabyte (1024 gigabytes 10 12, 2 40 ) Petabyte (1024 Terabytes 10 15, 2 50 ), ihmisen koko geneettinen koodi Exabyte (1012 Petabytes 10 18, 2 60 ) Zettabyte (1012 Exabytes 10 21, 2 70 ) 12 zettabyteä tarkoittaa, että ihmiskunta luo joka kuukausi yhtä paljon uutta digitaalista tietoa kuin ajanjaksona10.000 ennen ajanlaskun alusta vuoden 2003 loppuun 6
Kasvaako digitaalisen tiedon määrä 33 miljoonaa kertaa nykyistä suuremmaksi vuonna 2040? Mikäli digitaalisen tiedon määrä jatkaa 60 %:n vuotuista kasvua vuoteen 2040 digitaalisen tiedon määrä on lähes 127 000 kertaa nykyistä suurempi vuonna 2040 Ihmiskunta luo joka 3. minuutti saman määrän tietoa kuin aikojen alusta vuoden 2003 loppuun saakka. Digitaalisen tiedon kasvuvauhti on todennäköisesti merkittävästi nopeampi, 100 % vuodessa 60 %:n kasvun pohjana palvelintietokoneiden määrä, joita 1,034 miljardia (Internet Domain Survey, 07/2015) ja Internet käyttäjien määrä Luvusta puuttuvat sensorien tai muiden IoT laitteiden tuottaman digitaalisen tiedon määrä. Suomessa esimerkiksi 90 mrd:n puun sensoroimiseksi 100 %:n kasvuvauhdilla tiedon määrä kasvaa 33,5 miljoonaa -kertaiseksi Ihmiskunta luo 12 kertaa sekunnissa saman määrän tietoa kuin aikojen alusta vuoden 2003 loppuun saakka 7
Hallintaongelmana päättää siiitä mikä tieto säilytetään tallennuskapasiteetin ollessa riittämätön Vuonna 2007 syntyi tilanne, jossa käytettävissä oleva tallennuskapasiteetti ei enää riittänyt kaiken syntyvän digitaalisen tiedon tallentamiseen Tiedon tallennuskapasiteetti kasvaa 50 % vuodessa eli noin 25 000 kertaa nykyistä suuremmaksi vuonna 2040. Jos tiedon määrä kasvaa 60 % vauhtia pystymme tallentamaan noin 10 % syntyvästä tiedosta vuonna 2040 Jos tiedon määrä kasvaa 100 %:n vauhtia pystymme tallentamaan noin 0,5 promillea syntyvästä tiedosta vuonna 2040 8
Tallennuskapasiteetti loppui 2007 (IDC, 2011) 9
Haasteena ei ole pelkästään tiedon määrä vaan myös sen lähteiden ja muotojen muutos Governance of data framework (Dahlberg ja Nokkala 2015) 10
Hallintaongelmana tiedon laatu ja tiedon yhteen liittäminen (=federaatio) Datan määrän kasvaessa algoritminen päätöksenteko on lisääntynyt Entä jos algoritmi on väärin tai laskee väärin? Entä jos tiedon huono laatu johtaa väärin päätöksiin? Entä jos tiedon yhteen liittäminen johtaa huonoon tiedon laatuun? Miten liittää toisiinsa tietoa eri lähteistä kun Tiedon rakenne poikkeaa? Tiedon muoto poikkeaa? Tiedon granulariteetti poikkeaa? Muut tiedon ominaisuudet poikkeavat? 11
Ratkaisut tiedon hallintaongelmaan 1. Siirtyminen suljetuista avointen järjestelmien ympäristöön Organisaatiot eivät enää itse kehitä tietojärjestelmiä tai tunne niiden tietomalleja 1. Tiedon ontologisen luonteen ymmärtäminen Tieto ei ole yksikäsitteistä vaan kontekstista riippuvaa eli tiedolla voi olla yli ajan ja käyttötilanteiden monta erilaista tulkintaa Match and merge ajattelusta linkin muodostavien attribuuttien tunnistamiseen ja tulkitsevan metatiedon käyttö tiedon yhteen liittämiseen Lisätietoa 10.12. julkaistavasta artikkelistani The MDM Golden Record is Dead, Rest in Peace Welcome Interpreted Interoperable Attributes. Julkaisen sen myös ResearchGate.Netissä ennen vuoden loppua. 12
Kiitos mielenkiinnosta Kysymyksiä ja kommentteja Tomi.Dahlberg@abo.fi tai Tomi.Dahlberg@utu.fi +358 (0)50 550 5718