Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1

Koko: px
Aloita esitys sivulta:

Download "Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1"

Transkriptio

1 Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1

2 Kurssin kuvaus joko kandidaatti- tai maisteritason valinnainen kurssi Toteutus pääasiassa ongelmalähtöisesti (tiedonlouhintaprosessin harjoittelu oikealla datalla) Yleiskuva menetelmistä ja niiden valinnasta luennoilla (vain 4 vk) Perustaitojen harjoittelu laskuharjoituksissa (4 vk) Ei koetta, mutta edellyttää aktiivista työskentelyä kurssin aikana! (4op 108h) Tiedonlouhinta 2013/L1 p. 2

3 Esitiedot TKT-opiskelijat: Ohjelmointi-kurssit, TRA1 ja perus-linux-taidot Muiden alojen ihmiset: perustaidot tietokoneen käytöstä ja sopiva datajoukko harjoitustyöaiheeksi Täytä esitietokysely heti! (kurssisivulla) Luentoja saavat tulla kuuntelemaan muutkin (mutta harjoitusryhmiin ei ylimääräisiä) Tiedonlouhinta 2013/L1 p. 3

4 Kurssin arvostelu Harjoitustyöt 75% pisteistä (sis. esityksen arvion) Harjoituspisteet 25% pisteistä (mikroharjoituksista 3 läsnäolopistettä) Esitykset arvioidaan yhdessä Ryhmä saa ehdottaa, miten harjoitustyöpisteet jaetaan ryhmäläisten kesken Tiedonlouhinta 2013/L1 p. 4

5 Opettajat Wilhelmiina Hämäläinen (luennoija, Kuopion harjoitukset ja ohjaus) Kurssin ajan vastaanottoaika ti klo (Technopolis F007) tai sopimuksen mukaan Mikko Malinen (Joensuun harjoitukset ja ohjaus) Tiedonlouhinta 2013/L1 p. 5

6 Alustava ohjelma Viikko 15 Luento ma 8.4. Luento ti 9.4. Muu Viikko 16 Luento ma Luento ti Muu Kurssin esittely, johdatus tiedonlouhintaan Datan tyypit ja esiprosessointi. Harjoitustöiden jako ja ohjeistus. Mikroharjoitukset. Tapaamiset ohjaajan kanssa Tilastollisten riippuvuuksien haku Bayesläinen riippuvuuksien mallinnus Harjoitukset. Loput tapaamiset ohjaajan kanssa Tiedonlouhinta 2013/L1 p. 6

7 Viikko 17 Luento ma Luento ti Muu Viikko 18 Luento ma Luento to 2.5. Muu Luokittelusäännöistä ja luokittelijoista Klusterointi Harjoitukset Erikoisempien hahmojen haku (verkkodata, aikasarjadata) Oikean menetelmän valinta. Tulosten järkevyyden ja merkitsevyyden arviointi. Harjoitukset Tiedonlouhinta 2013/L1 p. 7

8 Viikko 19 Muu Viikko 20 Viikko 21 Luento ma Luento ti Muu Omatoimista työskentelyä. Tapaamiset ohjaajan kanssa Omatoimista työskentelyä. Loppuesitykset Loppuesitykset Loppuraporttien palautus Tiedonlouhinta 2013/L1 p. 8

9 Mitä on Tiedonlouhinta? Data mining (DM) ( data fishing, data snooping, information harvesting ) Knowledge discovery (from databases) (KDD) Intuitiivisesti Laskennallisesti epätriviaalia data-analyysia (uuden informaation etsimistä datasta) Tiedonlouhinta 2013/L1 p. 9

10 Määritelmiä A non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data. (Fayyad et al. 1996) Automatic or semi-automatic analysis of large quantities of data to extract previously unknown interesting patterns such as groups of data records, unusual records and dependencies. (wikipedia) Analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner. (Hand et al. luku 1) Tiedonlouhinta 2013/L1 p. 10

11 Data-analyysi raaka data informaatio raaka data=prosessoimattomia ja tulkitsemattomia faktoja, esim. mittausten tuloksia datalla itsessään ei mitään merkitystä informaatio=tietoa jolla on merkitys, tulkittua dataa informaation voi esittää myös rakenteellisena mallina suhteellisia termejä: yhden prosessin tuloksena saatu informaatio voi olla toiselle prosessille dataa Tiedonlouhinta 2013/L1 p. 11

12 Esimerkki: Data vs. informaatio Data: maanpinnan korkeus eri mittauspisteissä ympäri Suomea eri vuosina Informaatiota: Suomen korkein kohta on Haltilla suurin osa maasta on alankoa (alle 200m merenpinnasta) Suomen keskikorkeus on n. 154m Oulun Kemin alueella maa kohoaa n. 9 mm vuodessa maanpinnan korkeusmalli Tiedonlouhinta 2013/L1 p. 12

13 Data-analyysia harjoittavia tieteenaloja Tiedonlouhinnan lisäksi tilastotiede (erityisesti deskriptiivinen tilastotiede, eksploratiivinen data-analyysi) koneoppiminen (machine learning) (sis. hahmon tunnistuksen, pattern recognition) informaation eristäminen tekstistä (information extraction from text) (luonnollisen kielen prosessoinnin, tiedonhaun (information retrieval) ja DM:n välimaastossa) Tiedonlouhinta 2013/L1 p. 13

14 Tiedonlouhinta vs. tilastotiede? Tiedonlouhinnan juuret eksploratiivisessa data-analyysissa (exploratory data analysis): tavoite etsiä uusia piirteitä datasta laskennallisesti hankalaa! Tarve algoritmeille Tiedonlouhinta mahdollisti monimutkaisempien mallien etsinnän Keskeinen ero laskennallinen elementti tiedonlouhinta edellyttää epätriviaalia laskentaa eli kekseliäitä algoritmeja Käytännön eroja: tiedonlouhinnassa paljon suuremmat datajoukot tilastotieteessä tilastollisen merkitsevyyden arviointi keskeistä Tiedonlouhinta 2013/L1 p. 14

15 Tiedonlouhinta vs. koneoppiminen? Rajanveto vaikeaa! Joskus molemmat luetaan kattokäsitteen Knowledge discovery alle Koneoppimisen osa-alueet Ohjattu koneoppiminen (supervised ML): ennustava (prediktiivinen) mallinnus (esim. luokittelu) Ohjaamaton koneoppiminen (unsupervised ML): kuvaava (deskriptiivinen) mallinnus (esim. klusterointi) Tiedonlouhinnassa lähinnä deskriptiivistä mallinnusta Tiedonlouhinta 2013/L1 p. 15

16 Filosofinen ero Koneoppiminen Uskomus että data on jonkin mallin tuottamaa. Tavoite löytää datan parhaiten selittävä/kuvaava malli. Tiedonlouhinta: Data on ensisijaista. Sillä ei välttämättä ole mitään mallia tai vain lokaaleja hahmoja (osittaismalleja). Tavoite löytää kaikki kiinnostavat hahmot. Tiedonlouhinta 2013/L1 p. 16

17 Malli vs. hahmo (Hand et al luku 6) Malli (model) kattava, abstrakti esitys datasta globaali eli koskee kaikkia datapisteitä esim. Kaikki opiskelijat voidaan luokitella laiskoihin ja ahkeriin laskuharjoituspisteiden ja luentoaktiivisuuden perusteella. Hahmo (pattern) jotain datan osaa kuvaava piirre (paikallinen malli) lokaali eli koskee vain tiettyjä datapisteitä esim. Korkeat harjoituspisteet indikoivat hyvää arvosanaa. Tiedonlouhinta 2013/L1 p. 17

18 DM vs. ML: Käytännön eroja (yleistys) Koneoppimisessa monimutkaiset mallit huonommin skaalautuvat algoritmit pienemmät datajoukot (satoja tuhansia rivejä, kymmeniä muuttujia) data ja muuttujat valittu huolella mallinnustarkoitukseen Tiedonlouhinta 2013/L1 p. 18

19 Tiedonlouhinnassa suhteellisen yksinkertaiset hahmot tehokkaammat algoritmit suuret datajoukot (jopa miljoonia rivejä, satoja tuhansia muuttujia) data saatu usein jonkin toisen projektin sivutuotteena Tiedonlouhinta 2013/L1 p. 19

20 Yhteenveto: Tieteenalojen suhteet model > data complex models we know, what we want to learn MACHINE LEARNING DATA MINING data > model simple models or local patterns we don t know, what we are looking for STATISTICS we know, what we are looking for small amount of data Tiedonlouhinta 2013/L1 p. 20

21 Tiedonlouhintaprosessi Edellyttää yhteistyötä eri alojen ihmisten välillä! DATA Ongelman analysointi Tiedon louhinta Tulosten analysointi UUSI TIETO sovellusalan asiantuntijat ja louhija louhija sovellusalan asiantuntijat ja louhija Tiedonlouhinta 2013/L1 p. 21

22 Prosessin tyypilliset vaiheet 1. Ongelman määrittely datan ja taustateorian ymmärtäminen 2. Esiprosessointi datan siivous, piirteiden eristys ja valinta 3. Tiedonlouhinta (mallinnus/hahmojen haku) 4. Tulosten luotettavuuden arviointi 5. Tulosten havainnollinen esitys ja tulkinta Tiedonlouhinta 2013/L1 p. 22

23 1. Ongelman määrittely Datan ymmärtäminen: mitä muuttujat mittaavat/kuvaavat? Paljonko dataa on (suhteessa muuttujien määrään)? Millaisia hahmoja olisi kiintoisaa/hyödyllistä löytää? Mitä tiedetään ennestään? Taustateoriaan kannattaa louhijankin perehtyä! Vaikeus: Eri alojen ihmisten löydettävä yhteinen kieli (koeta puhua siten, että maallikkokin ymmärtää) Tiedonlouhinta 2013/L1 p. 23

24 2. Esiprosessointi Datan yhdistys (eri lähteistä) (voi vaatia normalisointia tms.) Alustava analysointi: muuttujien keskiarvot, keskihajonnat, jakaumat, korrelaatiot (tilastollisilla työkaluilla) Datan siivous: puuttuvien arvojen käsittely, virheiden tarkistus ja korjaus Uusien potentiaalisesti hyvien muuttujien johtaminen (esim. muuttujien yhdistys, diskretointi, normalisointi) Tiedonlouhinta 2013/L1 p. 24

25 2. Esiprosessointi (jatk.) Mallinnuksen kannalta hyvien muuttujien valinta Jos mahdollista, aluksi ei kannata karsia mitään, ennen kuin tiedetään, mitkä muuttujat tarpeettomia Jos laskennallisesti mahdotonta, luodaan vaihtoehtoisia datajoukkoja (samaa asiaa kuvaavat vaihtoehtoiset muuttujat eri joukkoihin) Muuttujien valintamenetelmät eivät koskaan takaa optimaalista tulosta! (NP-kova ongelma) Tiedonlouhinta 2013/L1 p. 25

26 3. Tiedonlouhinta Aina kannattaa aloittaa riippuvuusanalyysistä! muuttujien ja mallinnusmenetelmien valinta Yleensä deskriptiivinen mallinnus auttaa prediktiivisten mallien muodostuksessa esim. Deskr: Etsitään 100 merkitsevintä muuttujaan Diabetes liittyvää riippuvuussääntöä Pred: Etsitään (valikoidusta datasta) paras diabetesta ennustava malli Tyypillisiä mallinnusmenetelmiä riippuvuusanalyysi, klusterointi, luokittelu Tiedonlouhinta 2013/L1 p. 26

27 Tiedonlouhinta: Riippuvuusanalyysi Annettu joukko kategorisia muuttujia R= A 1,..., A k, etsi merkitsevimmät tilastolliset riippuvuussäännöt muotoa X C (X R, C R) esim. A 1, A 4 A 9 A 2 (A 1 ja A 4 lisäävät A 2 :n todennäköisyyttä) esim. geeni elintapa sairaus -datasta voi löytyä ApoE-e4, alkoholiakohtuudella Alzheimer Annettu joukko numeerisia muuttujia R= A 1,..., A k sekä C, muodosta lineaarinen malli joka ennustaa parhaiten C:tä Malli muotoa C=β 1 B 1 +β 2 B β m B m +α, missä B i R. Tiedonlouhinta 2013/L1 p. 27

28 Tiedonlouhinta: Klusterointi Jaa datapisteet samankaltaisten/lähekkäisten pisteiden muodostamiin ryhmiin eli klustereihin harj. pisteet Esim. opiskelijoiden klusterointi luennoille osallistumisen (kerrat) ja harjoituspisteiden perusteella luennot Tiedonlouhinta 2013/L1 p. 28

29 Tiedonlouhinta: Luokittelu Annettuna datapisteiden luokittelu (jako luokkiin), muodosta malli, joka määrittää pisteen luokan muiden muuttujien perusteella. esim. päätöspuu pelto- ja koivuhiiren erotukseen painon, vartalon ja hännän pituuden perusteella <20g paino >20g <8cm vartalon pituus >8cm peltohiiri >7cm hännän pituus <7cm peltohiiri koivuhiiri peltohiiri Tiedonlouhinta 2013/L1 p. 29

30 4. Tulosten luotettavuuden arviointi Ovatko löydetyt hahmot tai mallit järkeviä?? (Muista aina tarkistaa!) voi olla, ettei datasta oikeasti löydy mitään mallia mallinnusmenetelmä palauttaa silloin jonkin satunnaismallin Prediktiivisten mallien validointi helppoa: määritetään hyvyysmitta (tai virhemitta, esim. väärin luokiteltujen alkioiden osuus) malli opitaan opetusjoukosta (training set) ja sen virhettä tutkitaan testijoukossa opetus- ja testijoukkojen oltava edustavia! vaihtoehto ristiinvalidointi Tiedonlouhinta 2013/L1 p. 30

31 4. Tulosten luotettavuuden arviointi (jatk.) Deskriptiivisten mallien luotettavuuden arviointi vaikeampaa Tavoite: halutaan takuita, että löydetty hahmo ei johdu sattumasta Mielellään takuita myös siitä, että samanlainen hahmo pätee jatkossa, samasta samantapaisesta populaatiosta kerättävässä datassa välineenä hahmon tilastollisen merkitsevyyden arviointi Tiedonlouhinta 2013/L1 p. 31

32 5. Tulosten esitys ja tulkinta Tulokset kannattaa esittää mahdollisimman havainnollisesti (esim. graafisesti), jolloin oleellinen erottuu Alan asiantuntija keskeisessä roolissa! Löytyikö jotain uutta? Voiko tulosten pohjalta muodostaa uutta hypoteesia? Miten sitä voisi tutkia lisää? Johtaa useimmiten uuteen louhintakierrokseen: kokeillaan uusia muuttujia ja mahdollisesti uusia menetelmiä Kierrokset lopetetaan vasta, kun ollaan tyytyväisiä tai mitään uutta ei näytä enää löytyvän Tiedonlouhinta 2013/L1 p. 32

33 Täydellinen data-analyysi silti jokseenkin mahdotonta Miksi? Tiedonlouhinta 2013/L1 p. 33

34 Tarvitaanko tiedonlouhintaan tietojenkäsittelytieteilijää? Soveltava tiedonlouhinta: käytetään yleensä valmiita työkaluja Periaatteessa kuka tahansa oppii käyttämään (pitää vain tuntea perusteet mitä kannattaa tehdä ja miten) Valmiita helppokäyttöisiä työkaluja on, mutta ei uusimmista algoritmeista (ohjelmoija osaa toteuttaa algoritmin) Joskus ongelma vaatii ihan uutta menetelmää (uudenlaisen hahmon hakua) tarvitaan tiedonlouhinta-algoritmien suunnittelijaa ja ohjelmoijaa Tiedonlouhinta 2013/L1 p. 34

35 Tarvitaanko tietojenkäsittelytieteilijää? Esiprosessointivaiheessa tarvitaan yleensä ohjelmointitaitoja (uusien hyvien muuttujien muodostus on taidelaji!) Mutta: jos data on tosi siistiä, muuttujat hyviä ja työkalu kattava, voi louhinnasta selvitä osaamatta koodata riviäkään. Työelämässä tiedonlouhijoilla ja data-analyytikoilla on paljon kysyntää (ja kysyntä kasvaa)! Tiedonlouhinta 2013/L1 p. 35

36 Datan tyypittely Onko rakenteellista (structured)? Onko temporaalista vai staattista? Minkä tyyppisiä muuttujia? Tiedonlouhinta 2013/L2 p. 36

37 Rakenteellinen vs. rakenteeton data rakenteeton data on vain yksi merkkijono, ilman tunnistettavaa rakennetta esim. teksti, ääni, kuva rakenteellisen datan esitys noudattaa ennalta määriteltyä rakennetta tyypillisesti: data koostuu riveistä ja jokainen rivi luettelee tiettyjen muuttujien arvot ts. datarivi on joukko piirteitä eli muuttuja arvo-pareja Tiedonlouhinta 2013/L2 p. 37

38 Rakenteellinen vs. rakenteeton (jatk.) muun tyyppisiä rakenteellisia datoja kutsutaan toisinaan puolirakenteellisiksi (semistructured) esim. tekstitiedosto jonka kieliopillinen rakenne kuvattu tageilla (< sub j>kissa</sub j>< pred>söi</pred> < ob j>hiiren</ob j>) rakenteettomille datoille annetaan rakenne eristämällä piirteitä eli muodostamalla muuttujia ja määrittämällä niiden arvot tiedonlouhinnassa oletetaan yleensä, että data on rakenteellista jos ei ole, on ensin määritettävä rakenne Tiedonlouhinta 2013/L2 p. 38

39 Staattinen ja temporaalinen data staattinen: muuttujien arvot eivät muutu ajan kuluessa (tai mitattu vain kerran, tietyllä ajanhetkellä) temporaalinen (dynaaminen): muuttujan arvot riippuvat ajanhetkestä laitteiden lokidata (log data): aikaleima, tapahtuma, käyttäjä, ym. aikasarjadata (time series data): muuttujan arvo mitattu tasavälein, esim. lehmän x-,y- ja z-kiihtyvyydet 0.1s välein Tiedonlouhinta 2013/L2 p. 39

40 Staattinen ja temporaalinen (jatk.) aina ajankohdalla ei ole väliä! esim. lokista voi analysoida tapahtumia ajankohdasta piittaamatta tai ajankohdan voi esittää karkealla tasolla (aamu, päivä, ilta, yö) jos mittauksia vain parilla muutamalla ajanhetkellä, voi luoda uudet stattiset muuttujat (esim. painoennenkoetta, painokokeenjälkeen) yksilön tai järjestelmän dynamiikan mallinnus edellyttää temporaalisia malleja/hahmoja (ja paljon dataa!) Tiedonlouhinta 2013/L2 p. 40

41 Muuttujien perustyypit MUUTTUJA numeerinen kategorinen jatkuva diskreetti nominaalinen ordinaalinen pituus, paino pulssi, poikasten lkm metsätyyppi, eläinlaji maaperän kosteus (kuiva, tuore, kostea, märkä) Tiedonlouhinta 2013/L2 p. 41

42 Muuttujien perustyypit (jatk.) diskreetin muuttujan mahdollisia arvoja vain numeroituva määrä (esim. kokonaisluvut) ja tietyllä arvovälillä äärellinen määrä jatkuva muuttuja voi saada minkä tahansa arvon annetulta arvoväliltä (eli mahdollisia arvoja ylinumeroituva määrä) käytännössä esitetään kuitenkin jollain tarkkuudella (jolloin mahdollisia arvoja annetulla välillä on vain äärellinen määrä) Tiedonlouhinta 2013/L2 p. 42

43 Muuttujien perustyypit (jatk.) ordinaalimuuttujilla on järjestys, vaikka ei numeerista tulkintaa nominaalimuuttujien arvot vain nimiä, joilla ei numeerista tulkintaa tai järjestystä erikoistapaus binaarimuuttuja, jonka arvo 0 tai 1 (jokin ominaisuus pätee tai ei päde) ei silti numeerista tulkintaa! esim. muuttujat (attribuutit) sairas, naaras, muuntogeeninen Tiedonlouhinta 2013/L2 p. 43

44 Datan esiprosessointi Tärkeimmät tehtävät: 1. Datan puhdistus (Data cleaning): Virheiden, puuttuvien arvojen ym. käsittely 2. Piirteiden eristys (Feature extraction): Uusien muuttujien muodostus vanhoja muuntamalla ja yhdistämällä 3. Piirteiden valinta (Feature selection): Hyvien muuttujien valinta Tiedonlouhinta 2013/L2 p. 44

45 Datan puhdistus Tavoite tunnistaa ja eliminoida mahdollisimman hyvin virheet, puuttuvat arvot, duplikaatit, kohina ja outlierit (poikkeavat havainnot) Automaattisten mittauslaitteiden ongelma lähetyskatkot dataa voi puuttua tietyltä aikaväliltä tai sama datapala on lähetetty kahteen kertaan (duplikaatteja) Jos muuttujat ovat eri lähteistä (esim. askelmittarista lehmän aktiivisuus ja pötsin ph-mittarista ph ja lämpötila), voi puuttuvia arvoja olla vain joissain muuttujissa Tiedonlouhinta 2013/L2 p. 45

46 Datan puhdistus: Kohina ja virheet kohina (noise) = häiriöistä johtuva epätarkkuus/satunnaisvirheet muuttujien arvoissa esim. märehtimismittarin pitäisi äänittää lehmän suun ääniä, mutta taustan traktorin hurina tulee mukaan virheet johtuvat usein inhimillisistä syistä (huolimattomuus) tai laitevioista (laite ei toimi oikein) Tiedonlouhinta 2013/L2 p. 46

47 Datan puhdistus: Outlierit outlierit voivat paljastaa virheen (tai kiinnostavan poikkeavan tapahtuman!) usein outlierit selviävät vasta klusteroidessa (tai sotkevat klusteroinnin) muuttujien jakaumia kannattaa tutkia graafisesti! näkee helposti poikkeavat arvot joskus outlier ei kuitenkaan ole poikkeava minkään yksittäisen muuttujan suhteen, vaan ainoastaan muuttujien arvokombinaation suhteen Tiedonlouhinta 2013/L2 p. 47

48 Puhdistus: Virheiden ja puuttuvien arvojen korjaus Ensisijaisesti korjataan oikeilla arvoilla. Muuten jos paljon, kannattaa muuttuja ehkä karsia kokonaan jos jollain datarivillä paljon puuttuvia, rivi kannattaa poistaa voi korvata muuttujan keskiarvolla tai mediaanilla jos mallinnusmenetelmä sallii puuttuvat arvot, voi ne merkitä vain erikoissymbolilla (esim.?, n/a tai ohjelmassa FLT_MAX) Huom! Joskus puuttuvat arvot voivat myös paljastaa kiinnostavan hahmon! Tiedonlouhinta 2013/L2 p. 48

49 Puhdistus: Kohina ja outlierit Kohinaa voi pienentää pehmentämällä dataa (data smoothing) skaalaus, diskretointi ym. arvoaluetta pienentävät tekniikat piirteiden eristys mallia/sen parametreja valitessa muista: mediaani ei ole yhtä herkkä outlierien vaikutukselle kuin keskiarvo robustit mallinnusmenetelmät pienentävät sekä kohinan että outlierien vaikutusta Tiedonlouhinta 2013/L2 p. 49

50 Piirteiden eristys: Diskretointi Tärkeä menetelmä! (jatkuva) numeerinen muuttuja muunnetaan diskreetiksi numeeriseksi tai kategoriseksi muuttujaksi esim. lehmän painon diskretointi: <=400kg kevyt, kg normaali, >600kg painava binarisointi=diskretoinnin erikoistapaus, kun uusi muuttuja binaarinen esim. lämpötilan tilalle binäärinen pakkasta-muuttuja Huom! Myös kategorisia muuttujia voi binarisoida arvovälin voi jakaa tasakokoisiksi väleiksi, yhtä monta pistettä sisältäviksi tai määrittää osavälit sekventoimalla Tiedonlouhinta 2013/L2 p. 50

51 Diskretointi (jatk.) diskretointi eliminoi kohinaa ja muuta satunnaisvaihtelua (esim. yksilöllisiä eroja), jolloin mallit ja hahmot voivat erottua paremmin pelkästään numeerisestakin datasta kannattaa tutkia diskretoitua versiota! vähemmän kohinaa, selvemmät hahmot tehokkaammat algoritmit diskreetin datan hahmot auttavat myös numeerisen mallinnusmenetelmän valinnassa Tiedonlouhinta 2013/L2 p. 51

52 Piirteiden eristys: Skaalaus uusi muuttuja muotoa X=αY+β, missä Y vanha muuttuja normalisointi: kaikki muuttujat muunnetaan samaan skaalaan standardointi: X= Y mean(y) stdev(y) suositellaan jos datassa outliereita ja käytetään Euklidista metriikkaa (klusterointi, lineaariregressio) voi käyttää diskretoinnin esivaiheena (uudet muuttuja-arvot esim. poikkeuksellisen pieni, normaali, poikkeuksellisen suuri) Tiedonlouhinta 2013/L2 p. 52

53 Piirteiden eristys: Yleistys Vastaa diskretointia kategorisille muuttujille muunnetulla muuttujalla vähemmän arvoja nostetaan abstraktiotasoa, esim. yhdistetään laji-muuttujan arvot peltomyyrä, kenttämyyrä, lapinmyyrä ja idänkenttämyyrä uudeksi arvoksi kenttämyyrät Sekä diskretointi että yleistys tarpeen, jos dataa liian vähän suhteessa muuttujien lukumäärään/arvoalueiden kokoon! (muuten malli ylisovittuu) Tiedonlouhinta 2013/L2 p. 53

54 Piirteiden eristys: PCA ja ICA numeerisille muuttujille, kun paljon dataa uudet muuttujat vanhojen lineaarisia kombinaatioita PCA:ssa (principal component analysis) uudet muuttujat korreloimattomia ja ICA:ssa (independent component analysis) riippumattomia PCA edellyttää normaalijakautunutta dataa! Tiedonlouhinta 2013/L2 p. 54

55 Piirteiden valinta Annettuna muuttujajoukko R, mikä on mallinnuksen kannalta paras mahdollinen X R? tärkeää klusteroinnissa ja ennustavassa mallinnuksessa Kaikkia mahdollisia osajoukkoja X R on 2 k 1 kpl, kun R =k kaikkia ei voi tutkia! (NP-kova ongelma) käytettävä heuristisia menetelmiä testataan jokaisen muuttujan hyvyys erikseen muodostetaan X ahneella heuristiikalla Tiedonlouhinta 2013/L2 p. 55

56 Piirteiden valinta (jatkoa) joskus helppo tunnistaa epärelevantit muuttujat jos muuttuja on johdettu toisesta, ei molempia tarvita jos muuttujien jakaumat hyvin samanlaiset, voi ehkä yhdistää riippuvuusanalyysi kannattaa tehdä ilman valikointia, jos mahdollista Tiedonlouhinta 2013/L2 p. 56

57 Ekskursio 1: NP-kova ongelma (NP-hard problem) kertoo että ongelma on laskennallisesti *** vaikea! vähintään yhtä vaikea kuin aikavaativuusluokan NP (non-deterministic polynomial time) ongelmat todennäköisesti eksponentiaalinen aikavaativuus eli aika-askelten lukumäärä kasvaa eksponentiaalisesti syötteen koon funktiona esim. jos ohjelman pahin aikavaativuus f (k)=2 k aika-askelta, k = muuttujien lkm ja kukin askel 0.001s (riippuu datarivien lkm:stä). Jos k = 100, suoritus voi vaatia 400 triljoonaa ( ) vuotta! ( maailmanloppu jo 4 miljardin v. päästä) onneksi datat harvoin niin patologisia! (riippuu jakaumasta) Tiedonlouhinta 2013/L2 p. 57

58 Ekskursio 2: Visuaalinen muuttujan diskretointi Perusidea: Tutkitaan muuttujan histogrammia ja etsitään aukot 1. Valitse aluksi suuri osavälien (bins) lukumäärä, esim Muodosta histogrammi ja esitä graafisesti 3. Jos histogrammissa selviä kukkuloita ja välillä selviä aukkoja, voi aukkojen kohdalle asettaa diskretointirajan 4. Jos matala tasainen jakauma, vähennä osavälien lkm:ää 5. Jos korkea, mutta ei aukkoja tai edes laaksoja, kokeile lisätä osavälien lkm:ää Tiedonlouhinta 2013/L2 p. 58

59 Esimerkki: internet-käyttäjien lkm maailman valtioissa (per 100 as.) 100 bins esim. 3-jako: x<25, 25 x<58, x 58 Tiedonlouhinta 2013/L2 p. 59

60 Esimerkki: internet-käyttäjien lkm maailman valtioissa (per 100 as.) 50 bins Tiedonlouhinta 2013/L2 p. 60

61 Esimerkki: internet-käyttäjien lkm maailman valtioissa (per 100 as.) 20 bins Tiedonlouhinta 2013/L2 p. 61

62 Muodostus gnumericissa 1. Maalaa haluttu sarake (muuttuja) 2. Valitse Statistics Descriptive statistics Frequency tables Histogram 3. Aseta jakovälien lkm (Cutoffs-valikko) ja ruksaa histogram chart (Graphs & options -valikko). Sitten ok. 4. Tutki tuloslehteä (kuvan voi siirtää taulukkoesityksen päältä) 5. Histogrammin voi tallettaa kuvana (klikkaa hiiren oikealla napilla) Tiedonlouhinta 2013/L2 p. 62

63 Luento 3: 1 Yleiset mallinnusperiaatteet ja 2 Riippuvuusanalyysi 1. Ongelman määrittely datan ja taustateorian ymmärtäminen 2. Esiprosessointi datan siivous, piirteiden eristys ja valinta 3. Tiedonlouhinta (mallinnus/hahmojen haku) 4. Tulosten luotettavuuden arviointi 5. Tulosten havainnollinen esitys ja tulkinta Tiedonlouhinta 2013/L3 p. 63

64 Yleiset mallinnusperiaatteet data-avaruus = kaikki mahdolliset muuttujien arvokombinaatiot hakuavaruus = kaikki mahdolliset annetun formaatin mukaiset mallit/hahmot, jotka datasta voisi johtaa globaalisti ja lokaalisti optimaaliset hakualgoritmit = Ovatko löydetyt mallit/hahmot varmasti parhaita mahdollisia? ylisovittuminen Kuvaako malli liian hyvin syötedatan? Tiedonlouhinta 2013/L3 p. 64

65 Parhaan mallin haku datasta hakualgoritmi Kaikki mahdolliset formaatin mukaiset mallit Data avaruus Haku avaruus tietty datajoukko paras malli ko. syötedatasta Huom! Annetut muuttujat määräävät data-avaruuden. Tiedonlouhinta 2013/L3 p. 65

66 Data-avaruus Olk. muuttujat A 1,..., A k, joiden arvoalueet Dom(A 1 ),..., Dom(A k ). SilloinD=Dom(A 1 )... Dom(A k ) määrittää data-avaruuden. Datan dimensio k Jos kaikki muuttujat diskreettejä, voi kokoa luonnehtia solujen lukumäärällä: D = Dom(A 1 )... Dom(A k ). Nyt Dom(A i ) = {a i1,...,a im } =m Jos jatkuvia muuttujia, ei voi laskea solujen lkm:ää! Nyt Dom(A i ) = [a min, a max ] =a max a min (voi olla ) Tiedonlouhinta 2013/L3 p. 66

67 Esim. 3-ulotteisen diskreetin datan esitys Dom(B) =14 Dom(A) =12 Dom(C) =12 Koko = 2016 solua. Tiedonlouhinta 2013/L3 p. 67

68 Hakuavaruus Kattaa kaikki mahdolliset mallit, jotka mallinnusmenetelmän ja data-avaruuden mukaisia ja jotka voi löytää annetulla hakualgoritmilla Data-avaruus (annetut muuttujat ja niiden arvoalueet) määräävät, millaisia malleja voi löytää Samaan mallinnusmenetelmään ( mallinnusparadigmaan, esim. päätöspuut, neuroverkot, riippuvuussäänöt) voi liittyä erilaisia hakualgoritmeja! voivat löytää eri malleja Tiedonlouhinta 2013/L3 p. 68

69 Esimerkki: riippuvuussääntöjen hakuavaruus Binäärimuuttujat R={A 1,..., A k } ja etsitään säännöt muotoa X A, X R, A X. Hakuavaruus koostuu kaikista mahdollisista säännöistä eli 1. Tutkitaan kaikki mahdolliset R:n osajoukot Y, joiden koko vähintään 2 attribuuttia ( Y 2) R:n potenssijoukko (koko 2 k ) P(R)={, A 1, A 2,..., A k, A 1 A 2, A 1 A 3,..., A k 1 A k, A 1 A 2 A 3,...,..., A 1 A 2... A k } Ei tarvitse tutkia joukkoja,{a 1 },...,{A k }. Tiedonlouhinta 2013/L3 p. 69

70 Esimerkki (jatk.) 2 Jokaisesta osajoukosta Y muodostetaan kaikki mahdolliset säännöt Jos Y =l, voi muodostaa l sääntöä, Y\{A i } A i ( A i Y). Hakuavaruuden koko on siis k i=2 i ( k i) =O(k 2 k ) Tiedonlouhinta 2013/L3 p. 70

71 Hakuavaruus (jatk.) Jos binäärimuuttujat R={A 1,..., A k } ja luokkamuuttuja C. Millainen olisi kaikkien mahdollisten päätöspuiden joukko? Tiedonlouhinta 2013/L3 p. 71

72 Mallin hyvyysmitta Tarvitaan jokin hyvyysmitta M, joka kertoo mallin hyvyyden. esim. miten monta alkiota luokittelee oikein, miten vahva tai merkitsevä riippuvuus on, miten tiheä klusteri on tms. yleensä pyrkii heijastamaan myös sitä, miten hyvin malli yleistyy mallin muodostusdatan ulkopuolelle (ts. että hahmo pätee oikeasti tai malli toimii tulevaisuudessa) Jos malli paranee, kun M kasvaa, on M hyvyyden mukaan kasvava (esim. luokittelun accuracy,χ 2 -mitta) muuten taas hyvyyden mukaan vähenevä (esim. luokitteluvirhe, p-arvot) Tiedonlouhinta 2013/L3 p. 72

73 Hakuongelma: 2 variaatiota Annettu mallinnusmenetelmä, data ja hyvyysmitta M. 1. Luettelointiongelma (enumeration problem): Etsi kaikki riittävän hyvät mallit (annettu jokin M:n raja-arvo). 2. Optimointiongelma (optimization problem): Etsi K parasta mallia (ML:ssä yleensä K = 1) Loppujen lopuksi ei suurta eroa! Käyttäjä ei halua tulokseksi tuhansia (saati miljoonia) hahmoja! Keskitytään optimointiongelmaan Tiedonlouhinta 2013/L3 p. 73

74 Hakualgoritmin optimaalisuus? Globaalisti optimaalinen, jos palauttaa parhaat K mallia hakuavaruudesta Takuu: datasta ei mahdollista löytää näitä parempia annetun muotoisia malleja. Lokaalisti optimaalinen: Löydetyt mallit parhaita jossain hakuavaruuden osassa, mutta eivät välttämättä koko hakuavaruudessa. algoritmi ei tutki koko avaruutta, vaan valikoi tutkittavan alueen heuristisesti algoritmi voi juuttua lokaaliin optimiin Tiedonlouhinta 2013/L3 p. 74

75 Heuristiikka Intuitiivisesti: apumenetelmä tai periaate, jota soveltamalla ongelma ratkeaa nopeammin mutta tulokset silti melko hyviä/useimmiten hyviä. yleensä ovat alioptimaalisia (suboptimal) eli eivät takaa globaalia optimia (parhaan mallin löytymistä) Esim. ahne heuristiikka (greedy heuristic): Edetään haussa sillä hetkellä parhaalta näyttävään suuntaan. Tyypillistä ihmisille! Tyyliin Väsyttää ja masentaa, hirveästi rästitöitä, paras pitää lökeripäivä. (optimoi mielihyvää lyhyellä tähtäimellä) joskus heuristiikan virheellisyys merkitsee vain hidasta hakua, ei oikeiden tulosten hukkaamista (riippuu mihin heuristiikkaa käytetään) Tiedonlouhinta 2013/L3 p. 75

76 Esimerkki: Luokittelusääntöjen hakuavaruus Olk. R={A, B, C, D, E} ja luokka-attribuutti F. Hakuavaruus P(R) voidaan esittää luettelointipuuna (enumeration tree). A C D E C B E D E D D E B E D C D C D E E E E E E D E E E E E Tiedonlouhinta 2013/L3 p. 76

77 Parhaan säännön ahne haku Jos tasoittain haku ylhäältä alas ja ahne haku tuottaisi BDE F:n. Tutkisi vain 9 solmua 32:sta, mutta voi mennä metsään! A B C D E C B C D E C D E D E E D E E D E D E E E D E E E E E Tiedonlouhinta 2013/L3 p. 77

78 Varoituksen sana! Aina menetelmää/sen hakualgoritmia valitessasi Epäile alioptimaalista heuristiikkaa! Ota selvää, mikä heuristiikka on ja milloin se voi hukata parhaat mallit. Miten todennäköistä on, että saadaan huonoja tuloksia? Hälytyskellojen paras soida, jos kuulet sanan ahne heuristiikka (vaikka joskus harvoin turha hälytys) Ongelma: Menetelmien kehittäjät eivät mielellään kerro, ettei menetelmä ole globaalisti optimaalinen... Tiedonlouhinta 2013/L3 p. 78

79 Mallin ylisovittuminen (overfitting) Intuitiivisesti: Malli/hahmo h kuvaa mallinnettavan datan d liian yksityiskohtaisesti, mukaan lukien satunnaisvaihtelun, eikä siksi yleisty d:n ulkopuolelle. Täsmällisemmin: h ylisovittunut, jos h s.e. M(h, d)> M(h, d) mutta M true (h)< M true (h ), missä M true on mallin oikea hyvyys. Oikeaa hyvyyttä M true ei voi mitata! Koetettava arvioida heuristisesti. Oletus: M hyvyyden mukaan kasvava (jos ei, niin vaihda>ja<) Tiedonlouhinta 2013/L3 p. 79

80 Occamin partaveitsi periaate Tärkeä havainto: Ylisovittuminen edellyttää monimutkaista mallia. monimutkaisella mallilla voi kuvata yksityiskohdat tarkka kuvaus mutta harvoille (tai vain yhdelle) datajoukoille yksinkertaisella mallilla ei voi kuvata kaikkia yksityiskohtia kuvaa ylimalkaisemmin mutta useampia datajoukkoja ylisovittumista voi estää kontrolloimalla mallin monimutkaisuutta! = Occamin partaveitsi (Occam s Razor) periaate: (Yhtä hyvistä) malleista suosi yksinkertaisinta. tai rankaise monimutkaisuudesta Tiedonlouhinta 2013/L3 p. 80

Tiedonlouhinta (kl 2013) Kurssin kuvaus. Esitiedot. Kurssin arvostelu

Tiedonlouhinta (kl 2013) Kurssin kuvaus. Esitiedot. Kurssin arvostelu Tiedonlouhinta (kl 2013) Kurssin kuvaus 00 11 00 11 00 11 01 01 01 01 11000 111 11000 111 00 11 joko kandidaatti- tai maisteritason valinnainen kurssi Toteutus pääasiassa ongelmalähtöisesti (tiedonlouhintaprosessin

Lisätiedot

Tiedonlouhinta 2013/L3 p. 1. Data-avaruus. Olk. muuttujat A 1,...,A k, joiden arvoalueet. Dom(A 1 ),...,Dom(A k ). Silloin D = Dom(A 1 )...

Tiedonlouhinta 2013/L3 p. 1. Data-avaruus. Olk. muuttujat A 1,...,A k, joiden arvoalueet. Dom(A 1 ),...,Dom(A k ). Silloin D = Dom(A 1 )... Luento 3: 1 Yleiset mallinnusperiaatteet ja 2 Riippuvuusanalyysi Yleiset mallinnusperiaatteet 1. Ongelman määrittely datan ja taustateorian ymmärtäminen 2. siprosessointi datan siivous, piirteiden eristys

Lisätiedot

Ongelmien ja menetelmien tyypittelyä. Käyttötarkoituksia. Konsistentti ja epäkonsistentti data. Esimerkki: Deterministinen luokittelu

Ongelmien ja menetelmien tyypittelyä. Käyttötarkoituksia. Konsistentti ja epäkonsistentti data. Esimerkki: Deterministinen luokittelu Luento 5: Luokittelu Määritelmä Käyttötarkoitukset Ongelmien ja luokittelijoiden tyypittely auttaa valitsemaan oikean menetelmän Tärkeimmät menetelmät Päätöspuut ja luokittelusäännöt Bayes-luokittelijat

Lisätiedot

Riippuvuussäännöt. Luento 4. Riippuvuuden vahvuus: Tavallisimmat mitat. Muuttuja- vs. arvoperustainen tulkinta

Riippuvuussäännöt. Luento 4. Riippuvuuden vahvuus: Tavallisimmat mitat. Muuttuja- vs. arvoperustainen tulkinta Luento 4 Riippuvuussäännöt (tarkemmin) Riippuvuuksien haku numeerisesta datasta Ekskursiona Bayes-verkot Riippuvuussäännöt Muuttuja- ja arvoperustainen tulkinta Riippuvuuden vahvuuden ja merkityksellisyyden

Lisätiedot

Datan tyypittely. Rakenteellinen vs. rakenteeton data. Rakenteellinen vs. rakenteeton (jatk.) Staattinen ja temporaalinen data

Datan tyypittely. Rakenteellinen vs. rakenteeton data. Rakenteellinen vs. rakenteeton (jatk.) Staattinen ja temporaalinen data Datan tyypittely Onko rakenteellista (structured)? Onko temporaalista vai staattista? Minkä tyyppisiä muuttujia? Rakenteellinen vs. rakenteeton data rakenteeton data on vain yksi merkkijono, ilman tunnistettavaa

Lisätiedot

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.

Lisätiedot

Esimerkkejä vaativuusluokista

Esimerkkejä vaativuusluokista Esimerkkejä vaativuusluokista Seuraaville kalvoille on poimittu joitain esimerkkejä havainnollistamaan algoritmien aikavaativuusluokkia. Esimerkit on valittu melko mielivaltaisesti laitoksella tehtävään

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

I Data ja sen esiprosessointi

I Data ja sen esiprosessointi Tiedonlouhinta 2013 Kotikoe (palautuspäivä 24.6.2012) Tee tehtäviä kaikista osioista. (Kannattaa ehdottomasti tehdä kaikki tehtävät! Silloin harjoitustyökin sujuu helpommin.) Tehtävät arvostellaan ja mikäli

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ] Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0. T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen hannu.toivonen@cs.helsinki.fi 1 2 A 1 4 8 2 2 1 2 6 2 A 2 4 3 7 3 2 8 4 2 A 4 5 2 4 5 5 2 6 4 A 7 2 3 7 5 4 5 2 2 A 5 2 4 6

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

Tietorakenteet ja algoritmit - syksy 2015 1

Tietorakenteet ja algoritmit - syksy 2015 1 Tietorakenteet ja algoritmit - syksy 2015 1 Tietorakenteet ja algoritmit - syksy 2015 2 Tietorakenteet ja algoritmit Johdanto Ari Korhonen Tietorakenteet ja algoritmit - syksy 2015 1. JOHDANTO 1.1 Määritelmiä

Lisätiedot

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi Kurssin loppuosa Diskreettejä menetelmiä laajojen 0-1 datajoukkojen analyysiin Kattavat joukot ja niiden etsintä tasoittaisella algoritmilla Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa

Lisätiedot

Globaali optimonti haastaa lokaalit menetelmät: luotettavampia riippuvuuksia tehosta tinkimättä

Globaali optimonti haastaa lokaalit menetelmät: luotettavampia riippuvuuksia tehosta tinkimättä Tietojenkäsittelytiede 34 (Huhtikuu 2012) sivut 6 16 Toimittaja: Jorma Tarhio c kirjoittaja(t) Globaali optimonti haastaa lokaalit menetelmät: luotettavampia riippuvuuksia tehosta tinkimättä Wilhelmiina

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

Laskennallinen data-analyysi II

Laskennallinen data-analyysi II Laskennallinen data-analyysi II Ella Bingham, ella.bingham@cs.helsinki.fi Kevät 2008 Muuttujien valinta Kalvot perustuvat Saara Hyvösen kalvoihin 2007 Laskennallinen data-analyysi II, kevät 2008, Helsingin

Lisätiedot

Hahmon etsiminen syotteesta (johdatteleva esimerkki)

Hahmon etsiminen syotteesta (johdatteleva esimerkki) Hahmon etsiminen syotteesta (johdatteleva esimerkki) Unix-komennolla grep hahmo [ tiedosto ] voidaan etsia hahmon esiintymia tiedostosta (tai syotevirrasta): $ grep Kisaveikot SM-tulokset.txt $ ps aux

Lisätiedot

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Aineistoista 11.2.09 IK Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Muotoilussa kehittyneet menetelmät, lähinnä luotaimet Havainnointi:

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari Korhonen

Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari Korhonen Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari 1 1. JOHDANTO 1.1 Määritelmiä 1.2 Tietorakenteen ja algoritmin valinta 1.3 Algoritmit ja tiedon määrä 1.4 Tietorakenteet ja toiminnot 1.5 Esimerkki:

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö) Tiedonlouhinta rakenteisista dokumenteista (seminaarityö) Miika Nurminen (minurmin@jyu.fi) Jyväskylän yliopisto Tietotekniikan laitos Kalvot ja seminaarityö verkossa: http://users.jyu.fi/~minurmin/gradusem/

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

3. Laskennan vaativuusteoriaa

3. Laskennan vaativuusteoriaa 3. Laskennan vaativuusteoriaa tähän asti puhuttu siitä, mitä on mahdollista laskea äärellisessä ajassa siirrytään tarkastelemaan laskemista kohtuullisessa ajassa vaihtoehtoisesti voidaan laskenta-ajan

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012 Korrelaatiokerroin Hanna Heikkinen 23. toukokuuta 2012 Matemaattisten tieteiden laitos Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170

Lisätiedot

Logistinen regressio, separoivat hypertasot

Logistinen regressio, separoivat hypertasot Logistinen regressio, separoivat hypertasot Topi Sikanen Logistinen regressio Aineisto jakautunut K luokkaan K=2 tärkeä erikoistapaus Halutaan mallintaa luokkien vedonlyöntikertoimia (odds) havaintojen

Lisätiedot

TILASTOLLINEN OPPIMINEN

TILASTOLLINEN OPPIMINEN 301 TILASTOLLINEN OPPIMINEN Salmiakki- ja hedelmämakeisia on pakattu samanlaisiin käärepapereihin suurissa säkeissä, joissa on seuraavat sekoitussuhteet h 1 : 100% salmiakkia h 2 : 75% salmiakkia + 25%

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

naaraat < read.table('http://cs.joensuu.fi/pages/whamalai/dm13/naaraatvalikoitu.csv', head=t, sep=',')

naaraat < read.table('http://cs.joensuu.fi/pages/whamalai/dm13/naaraatvalikoitu.csv', head=t, sep=',') naaraat < read.table('http://cs.joensuu.fi/pages/whamalai/dm13/naaraatvalikoitu.csv', head=t, sep=',') printf < function(...) { print(sprintf(...)) c_by_method < NULL # Listataan ne muuttujaparit, joilla

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

1. TILASTOLLINEN HAHMONTUNNISTUS

1. TILASTOLLINEN HAHMONTUNNISTUS 1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Algoritmit 2. Luento 12 To Timo Männikkö

Algoritmit 2. Luento 12 To Timo Männikkö Algoritmit 2 Luento 12 To 3.5.2018 Timo Männikkö Luento 12 Geneettiset algoritmit Simuloitu jäähdytys Merkkijonon sovitus Horspoolin algoritmi Algoritmit 2 Kevät 2018 Luento 12 To 3.5.2018 2/35 Algoritmien

Lisätiedot

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana Tilastolliset ohjelmistot 805340A Pinja Pikkuhookana Sisältö 1 SPSS 1.1 Yleistä 1.2 Aineiston syöttäminen 1.3 Aineistoon tutustuminen 1.4 Kuvien piirtäminen 1.5 Kuvien muokkaaminen 1.6 Aineistojen muokkaaminen

Lisätiedot

Algoritmit 2. Luento 6 To Timo Männikkö

Algoritmit 2. Luento 6 To Timo Männikkö Algoritmit 2 Luento 6 To 28.3.2019 Timo Männikkö Luento 6 B-puun operaatiot Nelipuu Trie-rakenteet Standarditrie Pakattu trie Algoritmit 2 Kevät 2019 Luento 6 To 28.3.2019 2/30 B-puu 40 60 80 130 90 100

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.

Lisätiedot

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Teema 3: Tilastollisia kuvia ja tunnuslukuja Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Esimerkki otteluvoiton todennäköisyys A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Yksittäisessä pelissä A voittaa todennäköisyydellä p ja B todennäköisyydellä q =

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

Tietorakenteet, laskuharjoitus 7, ratkaisuja

Tietorakenteet, laskuharjoitus 7, ratkaisuja Tietorakenteet, laskuharjoitus, ratkaisuja. Seuraava kuvasarja näyttää B + -puun muutokset lisäysten jälkeen. Avaimet ja 5 mahtuvat lehtisolmuihin, joten niiden lisäys ei muuta puun rakennetta. Avain 9

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101,

Lisätiedot

Avainsanojen poimiminen Eeva Ahonen

Avainsanojen poimiminen Eeva Ahonen Avainsanojen poimiminen 5.10.2004 Eeva Ahonen Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle

Lisätiedot

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma

Lisätiedot

Algoritmit 1. Luento 1 Ti Timo Männikkö

Algoritmit 1. Luento 1 Ti Timo Männikkö Algoritmit 1 Luento 1 Ti 10.1.2017 Timo Männikkö Luento 1 Algoritmi Algoritmin toteutus Ongelman ratkaiseminen Algoritmin tehokkuus Algoritmin suoritusaika Algoritmin analysointi Algoritmit 1 Kevät 2017

Lisätiedot

Algoritmit 2. Luento 13 Ti Timo Männikkö

Algoritmit 2. Luento 13 Ti Timo Männikkö Algoritmit 2 Luento 13 Ti 30.4.2019 Timo Männikkö Luento 13 Simuloitu jäähdytys Merkkijonon sovitus Horspoolin algoritmi Ositus ja rekursio Rekursion toteutus Algoritmit 2 Kevät 2019 Luento 13 Ti 30.4.2019

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Satunnaismuuttujat ja todennäköisyysjakaumat Mitä tänään? Jos satunnaisilmiötä halutaan mallintaa matemaattisesti, on ilmiön tulosvaihtoehdot kuvattava numeerisessa muodossa. Tämä tapahtuu liittämällä

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisten kielten tilastollinen käsittely T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3

Lisätiedot

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset 815338A Ohjelmointikielten periaatteet 2015-2016. Harjoitus 2 vastaukset Harjoituksen aiheena on BNF-merkinnän käyttö ja yhteys rekursiivisesti etenevään jäsentäjään. Tehtävä 1. Mitkä ilmaukset seuraava

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

JOHDATUS TEKOÄLYYN LUENTO 4.

JOHDATUS TEKOÄLYYN LUENTO 4. 2009 CBS INTERACTIVE JOHDATUS TEKOÄLYYN LUENTO 4. TODENNÄKÖISYYSMALLINNUS II: BAYESIN KAAVA TEEMU ROOS Marvin Minsky Father of Artificial Intelligence, 1927 2016 PINGVIINI(tweety) :- true. Wulffmorgenthaler

Lisätiedot

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista 6 Epäyhtälöitä Epäyhtälöt ovat yksi matemaatikon voimakkaimmista työvälineistä. Yhtälö a = b kertoo sen, että kaksi ehkä näennäisesti erilaista asiaa ovat samoja. Epäyhtälö a b saattaa antaa keinon analysoida

Lisätiedot

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat Luento 2. Kieli merkitys ja logiikka 2: Helpot ja monimutkaiset Helpot ja monimutkaiset ongelmat Tehtävä: etsi säkillinen rahaa talosta, jossa on monta huonetta. Ratkaisu: täydellinen haku käy huoneet

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Klusterointiongelma. Luento 6: Klusterointi. Usein suotavia ominaisuuksia. Usein suotavia ominaisuuksia

Klusterointiongelma. Luento 6: Klusterointi. Usein suotavia ominaisuuksia. Usein suotavia ominaisuuksia Luento 6: Klusterointi Klusterointiongelma etäisyys-/erilaisuusfunktiot dimensionaalisuuden kirous (curse of dimensionality) Menetelmien pääluokat 1. Osittavat 2. Hierarkiset 3. Malliperustaiset (tiheysfunktioihin

Lisätiedot

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus Mitä jäi mieleen viime viikosta? Mitä mieltä olet tehtävistä, joissa GeoGebralla työskentely yhdistetään paperilla jaettaviin ohjeisiin

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30. FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.

Lisätiedot

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen

Lisätiedot

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Satunnaisalgoritmit Topi Paavilainen Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Helsinki, 23. helmikuuta 2014 1 Johdanto Satunnaisalgoritmit ovat algoritmeja, joiden

Lisätiedot

Tekoäly ja koneoppiminen metsävaratiedon apuna

Tekoäly ja koneoppiminen metsävaratiedon apuna Tekoäly ja koneoppiminen metsävaratiedon apuna Arbonaut Oy ja LUT University 26. marraskuuta 2018 Metsätieteen päivä 2018 Koneoppimisen kohteena ovat lukujen sijasta jakaumat Esimerkki 1 Koneoppimisessa

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat .9. Kaksiulotteiset satunnaismuuttujat MS-A Todennäköisslaskennan ja tilastotieteen peruskurssi Viikko Moniulotteiset satunnaismuuttujat sekä niiden jakaumat ja tunnusluvut; Moniulotteisia jakaumia Usein

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 16.11.2017/1 MTTTP5, luento 16.11.2017 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla ~,, ~,,. 16.11.2017/2 Esim. Tutkittiin uuden menetelmän käyttökelpoisuutta

Lisätiedot

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6) Mat-.3 Koesuunnittelu ja tilastolliset mallit kevät Keskipisteen lisääminen k -faktorikokeeseen (ks. Montgomery 9-6) Esim (Montg. ex. 9-, 6-): Tutkitaan kemiallisen prosessin saannon Y riippuvuutta faktoreista

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Tilastotiede ottaa aivoon

Tilastotiede ottaa aivoon Tilastotiede ottaa aivoon kuinka aivoja voidaan mallintaa todennäköisyyslaskennalla, ja mitä yllättävää hyötyä siitä voi olla Aapo Hyvärinen Laskennallisen data-analyysin professori Matematiikan ja tilastotieteen

Lisätiedot

Mat Lineaarinen ohjelmointi

Mat Lineaarinen ohjelmointi Mat-.34 Lineaarinen ohjelmointi 9..7 Luento Kokonaislukuoptimoinnin algoritmeja (kirja.-.) Lineaarinen ohjelmointi - Syksy 7 / Luentorunko Gomoryn leikkaava taso Branch & Bound Branch & Cut Muita menetelmiä

Lisätiedot

Algoritmit 2. Luento 13 Ti Timo Männikkö

Algoritmit 2. Luento 13 Ti Timo Männikkö Algoritmit 2 Luento 13 Ti 2.5.2017 Timo Männikkö Luento 13 Merkkijonon sovitus Horspoolin algoritmi Laskennallinen vaativuus Päätösongelmat Epädeterministinen algoritmi Vaativuusluokat NP-täydellisyys

Lisätiedot

Kombinatorinen optimointi

Kombinatorinen optimointi Kombinatorinen optimointi Sallittujen pisteiden lukumäärä on äärellinen Periaatteessa ratkaisu löydetään käymällä läpi kaikki pisteet Käytännössä lukumäärä on niin suuri, että tämä on mahdotonta Usein

Lisätiedot

Tilastotiede ottaa aivoon

Tilastotiede ottaa aivoon Tilastotiede ottaa aivoon kuinka aivoja voidaan mallintaa todennäköisyyslaskennalla, ja mitä yllättävää hyötyä siitä voi olla Aapo Hyvärinen Laskennallisen data-analyysin professori Matematiikan ja tilastotieteen

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Johdanto. Rough Sets. Peruskäsitteitä

Johdanto. Rough Sets. Peruskäsitteitä Johdanto Rough Sets "The central problem of our age is how to act decisively in the absence of certainty" B Russel, 1940 Rough sets on 1980-luvun alussa Puolassa (Z Pawlak) kehitetty epävarmuutta ja epämääräisyyttä

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä?

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä? Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä? 2013-2014 Lasse Lensu 2 Ongelma 2: Milloin ongelmat muuttuvat oikeasti hankaliksi? 2013-2014 Lasse Lensu 3 Ongelma 3: Miten hankalia ongelmia

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Oppijan saama palaute määrää oppimisen tyypin

Oppijan saama palaute määrää oppimisen tyypin 281 5. KONEOPPIMINEN Älykäs agentti voi joutua oppimaan mm. seuraavia seikkoja: Kuvaus nykytilan ehdoilta suoraan toiminnolle Maailman relevanttien ominaisuuksien päätteleminen havaintojonoista Maailman

Lisätiedot

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi Historiaa Bayesin kaavan hyödyntäminen BN-ohjelmistoja ollut ennenkin Tanskalaisten Hugin

Lisätiedot

Poikkeavuuksien havainnointi (palvelinlokeista)

Poikkeavuuksien havainnointi (palvelinlokeista) Poikkeavuuksien havainnointi (palvelinlokeista) TIES326 Tietoturva 2.11.2011 Antti Juvonen Sisältö IDS-järjestelmistä Datan kerääminen ja esiprosessointi Analysointi Esimerkki Lokidatan rakenne Esikäsittely,

Lisätiedot