Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?



Samankaltaiset tiedostot
E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Tilastotiede ottaa aivoon

T DATASTA TIETOON

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Tilastotiede ottaa aivoon

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tarvitseeko informaatioteknologia matematiikkaa?

Tekoäly tänään , Vadim Kulikov (Helsingin Yliopisto)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Collector for ArcGIS. Ohje /

Tekoäly liiketoiminnassa. Tuomas Ritola CEO, selko.io

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

Tekoäly tukiäly. Eija Kalliala, Marjatta Ikkala

Työkalujen merkitys mittaamisessa

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Sulautetut järjestelmät

Koneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa

Tekoälykoulutus seniorimentoreille

Laskut käyvät hermoille

Viikko 1: Johdantoa Matti Kääriäinen

Tietojärjestelmätiede (TJT) / Tekninen viestintä (TEVI) linjavalintainfo

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

UUDET INNOVAATIOT. Professori Heikki Kälviäinen Koulutusohjelman johtaja Laitoksen johtaja

JOHDATUS TEKOÄLYYN TEEMU ROOS

Kynä ja kone keskustakampuksella. Kaikki siitä puhuvat, mutta mitä se on: digitaalisuus? Kynä ja kone: Menetelmät ja analyysit.

Johtuuko tämä ilmastonmuutoksesta? - kasvihuoneilmiön voimistuminen vaikutus sääolojen vaihteluun

R intensiivisesti. Erkki Räsänen Ecitec Oy

Digitaalinen portfolio oppimisen tukena (4op)

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

Teemu Kerola Interaktiivisen verkkomateriaalin tuotantoprosessi TKTL:llä (IVT)

OPPIMISKYVYKKYYS DIGITALISOITUVASSA MAAILMASSA

Teemu Kerola Interaktiivisen verkkomateriaalin tuotantoprosessi TKTL:llä (IVT)

CHERMUG-pelien käyttö opiskelijoiden keskuudessa vaihtoehtoisen tutkimustavan oppimiseksi

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

805306A Johdatus monimuuttujamenetelmiin, 5 op

pitkittäisaineistoissa

JUHTA ja VAHTI juhlatilaisuus, Tietojärjestelmien tulevaisuudesta tekoälyn kehityksen näkökulmasta. Timo Honkela.

Johdatus tekoälyn taustalla olevaan matematiikkaan

T Datasta tietoon, syksy 2011

mtiimit, mobiilinäytöt, -tentit, -työselosteet ja -viestintä

Tähtitieteen käytännön menetelmiä Kevät 2009

pitkittäisaineistoissa

ALGORITMIT & OPPIMINEN

Monimutkaisesta datasta yksinkertaiseen päätöksentekoon. SAP Finug, Emil Ackerman, Quva Oy

Kirjaston verkkopalvelun suunnittelu käyttäjäkeskeisesti. Päivi Ylitalo-Kallio Eduskunnan kirjasto (Metropolia Ammattikorkeakoulun kirjasto)

Multimodaalisuus oppijan tukena oppimateriaaleista eportfolioon

MIKKO-projekti ja mittausten automatisointi

Vinkkejä opettajalle

Tärkeimmät toiminnot. Kertausta ja uusia toimintoja Wordistä sekä tiedostonhallinnasta. Tärkeimmät toiminnot jatkuu...

Valttikortit 100 -ohjelman sanasto on peruskoulun opetussuunnitelman ytimestä.

Four Ferries Oy:n nopea kokeilu Helsingin kouluissa Helsingin koulujen nopeiden kokeilujen ohjelma II, kevätlukukausi 2019

Tutkiva Oppiminen Varhaiskasvatuksessa. Professori Lasse Lipponen PED0031, VARHAISPEDAGOGIIKKA

Seitsemän syytä semanttiseen webiin. Eero Hyvönen Aalto-yliopisto ja HY Semanttisen laskennan tutkimusryhmä (SeCo)

Semantic Web käytännön sovelluksissa. TkT Janne Saarela Profium Oy

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Automatisoinnilla tehokkuutta mittaamiseen

TTY Pori. Tieteen ja tutkimuksen kohtaamispaikka

Tiedonlouhinta ja sen mahdollisuudet

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Järjestelmäarkkitehtuuri (TK081702) Avoimet web-rajapinnat

Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto

DL SOFTWARE Uumajankatu 2 Umeågatan FIN VAASA/VASA FINLAND +358-(0) Fax +358-(0)

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tee-se-itse -tekoäly

Tassu Takala pääaineinfo

MedIndecs. NeuroMed - diagnoosipalvelu. Proudly presents: Valtakunnallinen jäynäkisa Konserni

Sähköinen matematiikan ja ohjelmoinnin opintopolku alakoulusta yliopistoon. Mikko Lujasmaa, Salon lukio Mikko-Jussi Laakso, Turun yliopisto

Digitalisaatio oppimisen maailmassa. Tommi Lehmusto Digital Advisor Microsoft Services

Viestinnän mentelmät I: sisällön erittely. Sisällönanalyysi/sisällön erittely. Sisällön erittely. Juha Herkman

EDUBOX opetusvideopalvelu

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

OPPIMISANALYTIIKKA OPPILAITOKSISSA (2018) DigiKilta-seminaari, Hämeenlinna LEENA VAINIO

Onnistuuko verkkokurssilla, häh?

Tietojenkäsittelytieteen pääaine Pääaineinfo ke

Tutkimaan oppimassa - Tutkivaa Oppimista varhaiskasvatuksessa

LC Profiler. - Oppimisympäristön keskeisiä piirteitä. Antti Peltonen, LC Prof Oy

TIEDONHAKU INTERNETISTÄ

ArcInfo WEB-POHJAINEN TYÖKALU HITSAUSPARAMETRIDATAN ANALYSOINTIIN

ArcInfo UUSI ULOTTUVUUS HITSAUSKOULUTUKSEEN

Tiedon arvottaminen osana arkistointia

805306A Johdatus monimuuttujamenetelmiin, 5 op

Nelli kaukopalvelutyössä

ELEC-C5210 Satunnaisprosessit tietoliikenteessä

MYYNTI- VALMENNUKSEN OSTAJAN OPAS MIISA HELENIUS - POINTVENUE

Sulautuvan opetuksen seminaari, Helsingin yliopisto, Saara Repo, HY, Avoin yliopisto Paavo Pylkkänen, Filosofian laitos, HY ja Skövden

Talousmatematiikka (3 op)

Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto

Malleja ja menetelmiä geometriseen tietokonenäköön

Datan analysointi ja visualisointi Teollisen internetin työpaja

Miksipä Benchmarking?

Ryhmäharjoitus II: Blogger. TIEY4 Tietotekniikkataidot, kevät 2017 Tehdään ryhmäharjoitustunnilla 16.3.

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Esimerkkejä vaativuusluokista

Transkriptio:

1 / 14 Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 31.10.2011

2 / 14 Tämän luennon sisältö 1 Datasta tietoon: mitä dataa? mitä tietoa? Data-analyysin ongelma Mallit ja oppiminen Esimerkkejä Case study: WEBSOM

3 / 14 Data-analyysin ongelma Tulevien vuosien valtava haaste on digitaalisessa muodossa talletetun datan kasvava määrä Arvioita: Yhdysvaltojen kongressin kirjasto Washingtonissa: 32 miljoonaa kirjaa ja lehteä, 3 miljoonaa äänitettä, 14.7 miljoonaa valokuvaa, 5.3 miljoonaa karttaa, 61 miljoonaa käsikirjoitusta. Kerätty 200 vuoden aikana. Nyt sama datamäärä kertyy levyille joka 15. minuutti (noin 100 kertaa vuorokaudessa). Tämä on 5 exatavua vuodessa. (Kertaus: Exatavu = 2 60 tavua = 1,152,921,504,606,846,976 tavua 1.15 10 18 (triljoona) tavua). Sama määrä tulisi, jos kaikki ihmispuhe kaikkina aikoina (n. 100.000 vuotta) koodattaisiin sanoiksi ja digitoitaisiin (R. Williams, CalTech).

4 / 14 Data-analyysin ongelma (2) Aiemmin talletettu data oli lähinnä tekstiä ja numerodataa (taloudellishallinnollinen IT), mutta nyt yhä enemmän ns. reaalimaailman dataa (digitaaliset kuvat, videot, äänet, puhe, mittaustiedot, bioinformatiikan tietopankit jne.) Lopulta mikä tahansa tieto josta voi olla hyötyä saattaa tulla digitaalisesti haettavaksi, esim. Webin kautta Tämä asettaa suuria haasteita tallennus- ja tietokantatekniikoille Eräs keskeinen kysymys: kuinka haluttu tieto (information, knowledge) löytyy? Tarvitaan jonkinlaisia älykkäitä datan analyysi-, louhinta- ja hakumenetelmiä.

5 / 14 Mallit ja oppiminen Peruslähtökohta data-analyysille on datan mallitus Malli tarjoaa tiivistetyn esitystavan (representaation) datalle Mallin perusteella on paljon helpompi tehdä päätelmiä kuin raakadatasta

6 / 14 Mallit ja oppiminen (2) Esimerkki: aikasarjan ennustaminen Kuva: (a) Yhdysvaltain asukasmäärä 1790-1990. Onko kasvu jatkunut? (b) Äänisignaalin aaltomuoto. Miten täytetään puuttuva kohta?

7 / 14 Mallit ja oppiminen (3) Toinen esimerkki: datan todennäköisyysjakauma Kuva: Datapisteet, histogrammi ja estimoitu jakauma. Fisherin kuuluisa datajoukko kolmesta liljalajista. Terälehden leveys mitattu 50 yksilöstä kolmesta lajista. Yksi laji erottuu, kaksi menee sekaisin. HUOM! näytteet ripoteltu y-akselin suunnassa.

8 / 14 Mallit ja oppiminen (4) Kolmas esimerkki: luokitus Kuva: Pituus- ja painohavainnot 15 ihmisestä. Laskettu luokitin, joka jakaa tason kahteen osaan (vain osa rajasta piirretty). Kun tunnetaan luokat, tiedetään, että luokitin tuottaa kahdessa tapauksessa virheellisen luokituksen.

9 / 14 Mallit ja oppiminen (5) Mistä malli sitten löytyy? Joskus voidaan käyttää olemassaolevaa tietoa (fysikaalisia luonnonlakeja, inhimillistä kokemusta, tms) Usein kuitenkin joudutaan käyttämään tilastollisia malleja, jotka muodostetaan suoraan datan perusteella (kuten edellisissä esimerkeissä) Kurssi datasta tietoon (ainakin alkuosa) käsittelee tilastollisia malleja ja niiden johtamista datajoukoista. Usein mallin automaattista muodostamista datajoukosta kutsutaan koneoppimiseksi

10 / 14 Mallit ja oppiminen (6) Kuva: Koneoppimista vs ihmisen oppiminen. Sana tulee ihmisen oppimisesta, joka myös pohjimmiltaan on mallien oppimista Datasta oppimisen menetelmät jakaantuvat kahteen pääluokkaan: ohjattu oppiminen ja ohjaamaton oppiminen

11 / 14 Mallit ja oppiminen (7) Ohjatussa (kone)oppimisessa annetaan joukko data-alkioita ja niitä vastaavia nimikkeitä joihin ne halutaan liittää: esimerkiksi äänipätkä ihmisen puhetta a-äänteen osalta ja kirjainsymboli a Tehtävä: muodosta malli joka liittää toisiinsa data-alkiot ja nimikkeet (automaattista puheentunnistusta varten) Vastaa ihmisellä opettajan johdolla tapahtuvaa oppimista Ohjaamattomassa (kone)oppimisessa annetaan vain joukko data-alkioita mutta ei mitään muuta; esimerkiksi iso määrä kaupan asiakkaistaan keräämiä tietoja Tehtävä: muodosta malli, joka yhdistää toisiinsa samoista tuotteista kiinnostuneet asiakkaat (täsmämainontaa varten) Vastaa ihmisellä itsekseen tapahtuvaa oppimista.

12 / 14 Esimerkkejä Kieliteknologia Konekääntäminen luonnollisten kielten välillä Puheen tunnistaminen (audiotietokannan automaattinen muuuntaminen tekstiksi; TV-lähetysten on-line tekstitys) Käyttöliittymät Puheentunnistus Käsinkirjoitettujen merkkien tunnistus Eleiden, ilmeiden, katseen suunnan tunnistus Käyttäjän profilointi Web-haku Googlen laajennukset; semanttinen verkko Oppiva semantiikka; ontologioiden tms. tiedon rakenteiden automaattinen muodostus Teknistieteellinen data

13 / 14 Esimerkkejä (2) Tietoliikenne (verkon kuormituksen ennustaminen; ympäristöään tarkkaileva kännykkä) Neuroinformatiikka (biolääketieteen mittaukset kuten EEG, MEG, fmri); ihmisen ja koneen väliset kehittyneet käyttöliittymät Bioinformatiikka: geenisekvenssit, DNA-sirudata Ympäristön tila, ilmasto Sensoriverkot Taloudellinen data Aikasarjojen (pörssikurssit, valuuttakurssit) ennustaminen Yritysten tilinpäätöstietojen analyysi Luottokorttien käytön seuranta Asiakkaiden ryhmittely ja käyttäytymisen ennustaminen (ostoskorianalyysi)... ja paljon paljon muuta!

14 / 14 Case study: WEBSOM WEBSOM (Web Self Organizing Map) on informaatiotekniikan laboratoriossa prof. Teuvo Kohosen johdolla kehitetty dokumenttien selaus- ja hakujärjestelmä Se perustuu SOM (Self Organizing Map) -neuroverkkoon Suurimmassa sovelluksessa tehtiin kartta 7 miljoonalle dokumentille, jotka ovat elektronisessa muodossa olevia patenttien tiivistelmiä WEBSOMin visuaalisen käyttöliitymän avulla voi helposti selailla tietyn alan patentteja. Demo: http://websom.hut.fi/websom/stt/doc/fin/