E. Oja ja H. Mannila Datasta Tietoon: Luku 2



Samankaltaiset tiedostot
Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

T DATASTA TIETOON

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Tilastotiede ottaa aivoon

Tekoäly liiketoiminnassa. Tuomas Ritola CEO, selko.io

Tekoäly tukiäly. Eija Kalliala, Marjatta Ikkala

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tekoälykoulutus seniorimentoreille

R intensiivisesti. Erkki Räsänen Ecitec Oy

Tarvitseeko informaatioteknologia matematiikkaa?

CHERMUG-pelien käyttö opiskelijoiden keskuudessa vaihtoehtoisen tutkimustavan oppimiseksi

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

mtiimit, mobiilinäytöt, -tentit, -työselosteet ja -viestintä

Tilastotiede ottaa aivoon

ALGORITMIT & OPPIMINEN

JOHDATUS TEKOÄLYYN TEEMU ROOS

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

OPPIMISKYVYKKYYS DIGITALISOITUVASSA MAAILMASSA

Multimodaalisuus oppijan tukena oppimateriaaleista eportfolioon

Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto

Työkalujen merkitys mittaamisessa

Tekoäly tänään , Vadim Kulikov (Helsingin Yliopisto)

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

JOHDATUS TEKOÄLYYN TEEMU ROOS

Kynä ja kone keskustakampuksella. Kaikki siitä puhuvat, mutta mitä se on: digitaalisuus? Kynä ja kone: Menetelmät ja analyysit.

Kirjaston verkkopalvelun suunnittelu käyttäjäkeskeisesti. Päivi Ylitalo-Kallio Eduskunnan kirjasto (Metropolia Ammattikorkeakoulun kirjasto)

Digitaalinen portfolio oppimisen tukena (4op)

Tiedonlouhinta ja sen mahdollisuudet

Vinkkejä opettajalle

Tällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Malleja ja menetelmiä geometriseen tietokonenäköön

Järjestelmäarkkitehtuuri (TK081702) Avoimet web-rajapinnat

Mediakulttuurit University of TAMPERE

Johdatus tekoälyn taustalla olevaan matematiikkaan

Tutkimusperustaisuus käytännön opetuksessa? Tapaus Sosiaalityön käytäntö 2. Taru Kekoni Ma. Yliopistonlehtori Itä-Suomen yliopisto

JUHTA ja VAHTI juhlatilaisuus, Tietojärjestelmien tulevaisuudesta tekoälyn kehityksen näkökulmasta. Timo Honkela.

Viikko 1: Johdantoa Matti Kääriäinen

Flipped classroom (2op) Käänteinen opetus/luokkahuone Lähipäivä

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Googlen palvelut synkronoinnin apuna. Kampin palvelukeskus Jukka Hanhinen, Urho Karjalainen, Rene Tigerstedt, Pirjo Salo

Automatisoinnilla tehokkuutta mittaamiseen

Kognitiivinen mallintaminen. Nelli Salminen

Opiskelijat vertaisopettajina: opetusvideoita ja sulautuvaa oppimista tiedonhankinnan kurssilla

Seitsemän syytä semanttiseen webiin. Eero Hyvönen Aalto-yliopisto ja HY Semanttisen laskennan tutkimusryhmä (SeCo)

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

DL SOFTWARE Uumajankatu 2 Umeågatan FIN VAASA/VASA FINLAND +358-(0) Fax +358-(0)

OPPIMISANALYTIIKKA OPPILAITOKSISSA (2018) DigiKilta-seminaari, Hämeenlinna LEENA VAINIO

Kriteeri 1: Oppija on aktiivinen ja ottaa vastuun oppimistuloksista (aktiivisuus)

Miksipä Benchmarking?

Tekoälykoulutus seniorimentoreille

Tee-se-itse -tekoäly

Digitalisaation vahvistaminen

Koneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa

Laskut käyvät hermoille

MIKKO-projekti ja mittausten automatisointi

Tekoäly muuttaa arvoketjuja

MedIndecs. NeuroMed - diagnoosipalvelu. Proudly presents: Valtakunnallinen jäynäkisa Konserni

LC Profiler. - Oppimisympäristön keskeisiä piirteitä. Antti Peltonen, LC Prof Oy

Tekoäly ja sen soveltaminen yrityksissä. Mika Rantonen

Tietojärjestelmätiede (TJT) / Tekninen viestintä (TEVI) linjavalintainfo

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

Teknologian pedagoginen käyttö eilen, tänään ja huomenna

Tietojenkäsittelytieteen pääaine Pääaineinfo ke

Opetuksen ja opiskelun tehokas ja laadukas havainnointi verkkooppimisympäristössä

Digitalisaatio oppimisen maailmassa. Tommi Lehmusto Digital Advisor Microsoft Services

Tassu Takala pääaineinfo

Miten tästä eteenpäin? FinnONTO 2.0:n jatkonäkymiä Semanttiset jokapaikan palvelut

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Sähköinen matematiikan ja ohjelmoinnin opintopolku alakoulusta yliopistoon. Mikko Lujasmaa, Salon lukio Mikko-Jussi Laakso, Turun yliopisto

TVT-kurssimoduulin mitat

Lyhyen videotyöpajan ohjelma (90 min)

MTTTS2 Pro gradu -tutkielma ja seminaari. Kevät 2014, 40op Jaakko Peltonen

Tutkimuksen alkuasetelmat

ONKI SKOS Sanastojen ja ontologioiden julkaiseminen ja käyttö Asiasanaston muuntaminen SKOS muotoon: case YSA

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Puheenkäsittelyn menetelmät

Rakenteisen oppimateriaalin tuottaminen verkossa esimerkki Rhaptos. Antti Auer Koordinaattori, HT Jyväskylän yliopisto Virtuaaliyliopistohanke

Liikkuvien työkoneiden etäseuranta

TK Palvelinympäristö

Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto

Tiedonhaku opiskelun osana CHEM Virpi Palmgren Tietoasiantuntija DI Oppimiskeskus beta

Modernit toimintatavat kunnossapidossa. Markku Tervo Jarkko Pirinen

Määräykset ja ohjeet 2010: 13. ISSN-L X ISSN (verkkojulkaisu)

Tekoäly ja data science mistä on kyse? Data Scientist Jukka Kärkimaa, Tilastokeskus

Online-oppiva ilmavalvontajärjestelmän suorituskykymalli

Sulautuvan opetuksen seminaari, Helsingin yliopisto, Saara Repo, HY, Avoin yliopisto Paavo Pylkkänen, Filosofian laitos, HY ja Skövden

Teknologian hyödyntäminen oppimisen ja kehittämisen tukena

HOIDA AIVOJASI. Minna Huotilainen. Helsingin yliopisto. Kasvatustieteen professori. 14/03/2019 1

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

AALTO PK-JOKO 79. Uuden sukupolven johtamisvalmennus

Toimintaympäristön muutoksesta. SSYK-hanke. PLP/Joensuu

LAAJENNETTU TYÖSSÄOPPIMINEN JA PBL-OPETUSSUUNNITELMA

ICT-info opiskelijoille. Syksy 2017

Big-data analytiikka-alusta osana markkinoinnin kokonaisratkaisua

Kognitiivinen mallintaminen Neuraalimallinnus, luento 1

Office 365 OneDrive Opiskelijan ohje 2017

Johdatus rakenteisiin dokumentteihin

Transkriptio:

2. DATASTA TIETOON: MITÄ DATAA; MITÄ TIETOA? 2.1. Data-analyysin ongelma Tulevien vuosien valtava haaste on digitaalisessa muodossa talletetun datan kasvava määrä Arvioita: Yhdysvaltojen kongressin kirjasto Washingtonissa: 29 miljoonaa kirjaa ja lehteä, 2.7 miljoonaa äänitettä, 12 miljoonaa valokuvaa, 4.8 miljoonaa karttaa, 57 miljoonaa käsikirjoitusta. Kerätty 200 vuoden aikana. Nyt sama datamäärä kertyy levyille joka 15. minuutti (noin 100 kertaa vuorokaudessa). Tämä on 5 exatavua vuodessa. (Kertaus: Exatavu = 2 60 tavua = 1,152,921,504,606,846,976 tavua 1.15 10 18 (triljoona) tavua). TKK, Informaatiotekniikan laboratorio 1

Sama määrä tulisi, jos kaikki ihmispuhe kaikkina aikoina (n. 100.000 vuotta) koodattaisiin sanoiksi ja digitoitaisiin (R. Williams, CalTech). Aiemmin talletettu data oli lähinnä tekstiä ja numerodataa (taloudellishallinnollinen IT), mutta nyt yhä enemmän ns. reaalimaailman dataa (digitaaliset kuvat, videot, äänet, puhe, mittaustiedot, bioinformatiikan tietopankit jne.) Lopulta mikä tahansa tieto josta voi olla hyötyä saattaa tulla digitaalisesti haettavaksi, esim. Webin kautta Tämä asettaa suuria haasteita tallennus- ja tietokantatekniikoille Eräs keskeinen kysymys: kuinka haluttu tieto (information, knowledge) löytyy? Tarvitaan jonkinlaisia älykkäitä datan analyysi-, louhinta- ja hakumenetelmiä. TKK, Informaatiotekniikan laboratorio 2

2.2. Mallit ja oppiminen Peruslähtökohta data-analyysille on datan mallitus Malli tarjoaa tiivistetyn esitystavan (representaation) datalle Mallin perusteella on paljon helpompi tehdä päätelmiä kuin raakadatasta Esimerkki: aikasarjan ennustaminen Toinen esimerkki: datan todennäköisyysjakauma Kolmas esimerkki: luokitus Mistä malli sitten löytyy? Joskus voidaan käyttää olemassaolevaa tietoa (fysikaalisia luonnonlakeja, inhimillistä kokemusta, tms) Usein kuitenkin joudutaan käyttämään tilastollisia malleja jotka TKK, Informaatiotekniikan laboratorio 3

muodostetaan suoraan datan perusteella (kuten edellisissä esimerkeissä) Kurssi datasta tietoon (ainakin alkuosa) käsittelee tilastollisia malleja ja niiden johtamista datajoukoista. Usein mallin automaattista muodostamista datajoukosta kutsutaan koneoppimiseksi (machine learning) Sana tulee ihmisen oppimisesta, joka myös pohjimmiltaan on mallien oppimista Datasta oppimisen menetelmät jakaantuvat kahteen pääluokkaan: ohjattu oppiminen ja ohjaamaton oppiminen Ohjatussa (kone)oppimisessa annetaan joukko data-alkioita ja niitä vastaavia nimikkeitä joihin ne halutaan liittää: esimerkiksi pätkä ihmisen puhetta ja kirjain a TKK, Informaatiotekniikan laboratorio 4

Tehtävä: muodosta malli joka liittää toisiinsa data-alkiot ja nimikkeet (automaattista puheentunnistusta verten) Vastaa ihmisellä opettajan johdolla tapahtuvaa oppimista. Ohjaamattomassa (kone)oppimisessa annetaan vain joukko data-alkioita mutta ei mitään muuta; esimerkiksi iso määrä kaupan asiakkaistaan keräämiä tietoja Tehtävä: muodosta malli, joka yhdistää toisiinsa samoista tuotteista kiinnostuneet asiakkaat (täsmämainontaa varten) Vastaa ihmisellä itsekseen tapahtuvaa oppimista. TKK, Informaatiotekniikan laboratorio 5

2.3. Esimerkkejä Kieliteknologia Konekääntäminen luonnollisten kielten välillä Puheen tunnistaminen (audiotietokannan automaattinen muuuntaminen tekstiksi; TV-lähetysten on-line tekstitys) Käyttöliittymät Puheentunnistus Käsinkirjoitettujen merkkien tunnistus Eleiden, ilmeiden, katseen suunnan tunnistus Käyttäjän profilointi Web-haku Googlen laajennukset; semanttinen verkko Oppiva semantiikka; ontologioiden tms. tiedon rakenteiden TKK, Informaatiotekniikan laboratorio 6

automaattinen muodostus Teknistieteellinen data Tietoliikenne (verkon kuormituksen ennustaminen; ympäristöään tarkkaileva kännykkä) Neuroinformatiikka (biolääketieteen mittaukset kuten EEG, MEG, fmri); ihmisen ja koneen väliset kehittyneet käyttöliittymät Bioinformatiikka: geenisekvenssit, DNA-sirudata Ympäristön tila, ilmasto Sensoriverkot Taloudellinen data Aikasarjojen (pörssikurssit, valuuttakurssit) ennustaminen Yritysten tilinpäätöstietojen analyysi Luottokorttien käytön seuranta TKK, Informaatiotekniikan laboratorio 7

Asiakkaiden ryhmittely ja käyttäytymisen ennustaminen (ostoskorianalyysi)... ja paljon paljon muuta! TKK, Informaatiotekniikan laboratorio 8

2.4. Case study: WEBSOM WEBSOM (Web Self Organizing Map) on informaatiotekniikan laboratoriossa prof. Teuvo Kohosen johdolla kehitetty dokumenttien selaus- ja hakujärjestelmä Se perustuu SOM (Self Organizing Map) -neuroverkkoon Suurimmassa sovelluksessa tehtiin kartta 7 miljoonalle dokumentille, jotka ovat elektronisessa muodossa olevia patenttien tiivistelmiä WEBSOMin visuaalisen käyttöliitymän avulla voi helposti selailla tietyn alan patentteja. Ks. demo. TKK, Informaatiotekniikan laboratorio 9