Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1

Koko: px
Aloita esitys sivulta:

Download "Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1"

Transkriptio

1 Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1

2 Kurssin kuvaus joko kandidaatti- tai maisteritason valinnainen kurssi Toteutus pääasiassa ongelmalähtöisesti (tiedonlouhintaprosessin harjoittelu oikealla datalla) Yleiskuva menetelmistä ja niiden valinnasta luennoilla (vain 4 vk) Perustaitojen harjoittelu laskuharjoituksissa (4 vk) Ei koetta, mutta edellyttää aktiivista työskentelyä kurssin aikana! (4op 108h) Tiedonlouhinta 2013/L1 p. 2

3 Esitiedot TKT-opiskelijat: Ohjelmointi-kurssit, TRA1 ja perus-linux-taidot Muiden alojen ihmiset: perustaidot tietokoneen käytöstä ja sopiva datajoukko harjoitustyöaiheeksi Täytä esitietokysely heti! (kurssisivulla) Luentoja saavat tulla kuuntelemaan muutkin (mutta harjoitusryhmiin ei ylimääräisiä) Tiedonlouhinta 2013/L1 p. 3

4 Kurssin arvostelu Harjoitustyöt 75% pisteistä (sis. esityksen arvion) Harjoituspisteet 25% pisteistä (mikroharjoituksista 3 läsnäolopistettä) Esitykset arvioidaan yhdessä Ryhmä saa ehdottaa, miten harjoitustyöpisteet jaetaan ryhmäläisten kesken Tiedonlouhinta 2013/L1 p. 4

5 Opettajat Wilhelmiina Hämäläinen (luennoija, Kuopion harjoitukset ja ohjaus) Kurssin ajan vastaanottoaika ti klo (Technopolis F007) tai sopimuksen mukaan Mikko Malinen (Joensuun harjoitukset ja ohjaus) Tiedonlouhinta 2013/L1 p. 5

6 Alustava ohjelma Viikko 15 Luento ma 8.4. Luento ti 9.4. Muu Viikko 16 Luento ma Luento ti Muu Kurssin esittely, johdatus tiedonlouhintaan Datan tyypit ja esiprosessointi. Harjoitustöiden jako ja ohjeistus. Mikroharjoitukset. Tapaamiset ohjaajan kanssa Tilastollisten riippuvuuksien haku Bayesläinen riippuvuuksien mallinnus Harjoitukset. Loput tapaamiset ohjaajan kanssa Tiedonlouhinta 2013/L1 p. 6

7 Viikko 17 Luento ma Luento ti Muu Viikko 18 Luento ma Luento to 2.5. Muu Luokittelusäännöistä ja luokittelijoista Klusterointi Harjoitukset Erikoisempien hahmojen haku (verkkodata, aikasarjadata) Oikean menetelmän valinta. Tulosten järkevyyden ja merkitsevyyden arviointi. Harjoitukset Tiedonlouhinta 2013/L1 p. 7

8 Viikko 19 Muu Viikko 20 Viikko 21 Luento ma Luento ti Muu Omatoimista työskentelyä. Tapaamiset ohjaajan kanssa Omatoimista työskentelyä. Loppuesitykset Loppuesitykset Loppuraporttien palautus Tiedonlouhinta 2013/L1 p. 8

9 Mitä on Tiedonlouhinta? Data mining (DM) ( data fishing, data snooping, information harvesting ) Knowledge discovery (from databases) (KDD) Intuitiivisesti Laskennallisesti epätriviaalia data-analyysia (uuden informaation etsimistä datasta) Tiedonlouhinta 2013/L1 p. 9

10 Määritelmiä A non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data. (Fayyad et al. 1996) Automatic or semi-automatic analysis of large quantities of data to extract previously unknown interesting patterns such as groups of data records, unusual records and dependencies. (wikipedia) Analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner. (Hand et al. luku 1) Tiedonlouhinta 2013/L1 p. 10

11 Data-analyysi raaka data informaatio raaka data=prosessoimattomia ja tulkitsemattomia faktoja, esim. mittausten tuloksia datalla itsessään ei mitään merkitystä informaatio=tietoa jolla on merkitys, tulkittua dataa informaation voi esittää myös rakenteellisena mallina suhteellisia termejä: yhden prosessin tuloksena saatu informaatio voi olla toiselle prosessille dataa Tiedonlouhinta 2013/L1 p. 11

12 Esimerkki: Data vs. informaatio Data: maanpinnan korkeus eri mittauspisteissä ympäri Suomea eri vuosina Informaatiota: Suomen korkein kohta on Haltilla suurin osa maasta on alankoa (alle 200m merenpinnasta) Suomen keskikorkeus on n. 154m Oulun Kemin alueella maa kohoaa n. 9 mm vuodessa maanpinnan korkeusmalli Tiedonlouhinta 2013/L1 p. 12

13 Data-analyysia harjoittavia tieteenaloja Tiedonlouhinnan lisäksi tilastotiede (erityisesti deskriptiivinen tilastotiede, eksploratiivinen data-analyysi) koneoppiminen (machine learning) (sis. hahmon tunnistuksen, pattern recognition) informaation eristäminen tekstistä (information extraction from text) (luonnollisen kielen prosessoinnin, tiedonhaun (information retrieval) ja DM:n välimaastossa) Tiedonlouhinta 2013/L1 p. 13

14 Tiedonlouhinta vs. tilastotiede? Tiedonlouhinnan juuret eksploratiivisessa data-analyysissa (exploratory data analysis): tavoite etsiä uusia piirteitä datasta laskennallisesti hankalaa! Tarve algoritmeille Tiedonlouhinta mahdollisti monimutkaisempien mallien etsinnän Keskeinen ero laskennallinen elementti tiedonlouhinta edellyttää epätriviaalia laskentaa eli kekseliäitä algoritmeja Käytännön eroja: tiedonlouhinnassa paljon suuremmat datajoukot tilastotieteessä tilastollisen merkitsevyyden arviointi keskeistä Tiedonlouhinta 2013/L1 p. 14

15 Tiedonlouhinta vs. koneoppiminen? Rajanveto vaikeaa! Joskus molemmat luetaan kattokäsitteen Knowledge discovery alle Koneoppimisen osa-alueet Ohjattu koneoppiminen (supervised ML): ennustava (prediktiivinen) mallinnus (esim. luokittelu) Ohjaamaton koneoppiminen (unsupervised ML): kuvaava (deskriptiivinen) mallinnus (esim. klusterointi) Tiedonlouhinnassa lähinnä deskriptiivistä mallinnusta Tiedonlouhinta 2013/L1 p. 15

16 Filosofinen ero Koneoppiminen Uskomus että data on jonkin mallin tuottamaa. Tavoite löytää datan parhaiten selittävä/kuvaava malli. Tiedonlouhinta: Data on ensisijaista. Sillä ei välttämättä ole mitään mallia tai vain lokaaleja hahmoja (osittaismalleja). Tavoite löytää kaikki kiinnostavat hahmot. Tiedonlouhinta 2013/L1 p. 16

17 Malli vs. hahmo (Hand et al luku 6) Malli (model) kattava, abstrakti esitys datasta globaali eli koskee kaikkia datapisteitä esim. Kaikki opiskelijat voidaan luokitella laiskoihin ja ahkeriin laskuharjoituspisteiden ja luentoaktiivisuuden perusteella. Hahmo (pattern) jotain datan osaa kuvaava piirre (paikallinen malli) lokaali eli koskee vain tiettyjä datapisteitä esim. Korkeat harjoituspisteet indikoivat hyvää arvosanaa. Tiedonlouhinta 2013/L1 p. 17

18 DM vs. ML: Käytännön eroja (yleistys) Koneoppimisessa monimutkaiset mallit huonommin skaalautuvat algoritmit pienemmät datajoukot (satoja tuhansia rivejä, kymmeniä muuttujia) data ja muuttujat valittu huolella mallinnustarkoitukseen Tiedonlouhinta 2013/L1 p. 18

19 Tiedonlouhinnassa suhteellisen yksinkertaiset hahmot tehokkaammat algoritmit suuret datajoukot (jopa miljoonia rivejä, satoja tuhansia muuttujia) data saatu usein jonkin toisen projektin sivutuotteena Tiedonlouhinta 2013/L1 p. 19

20 Yhteenveto: Tieteenalojen suhteet model > data complex models we know, what we want to learn MACHINE LEARNING DATA MINING data > model simple models or local patterns we don t know, what we are looking for STATISTICS we know, what we are looking for small amount of data Tiedonlouhinta 2013/L1 p. 20

21 Tiedonlouhintaprosessi Edellyttää yhteistyötä eri alojen ihmisten välillä! DATA Ongelman analysointi Tiedon louhinta Tulosten analysointi UUSI TIETO sovellusalan asiantuntijat ja louhija louhija sovellusalan asiantuntijat ja louhija Tiedonlouhinta 2013/L1 p. 21

22 Prosessin tyypilliset vaiheet 1. Ongelman määrittely datan ja taustateorian ymmärtäminen 2. Esiprosessointi datan siivous, piirteiden eristys ja valinta 3. Tiedonlouhinta (mallinnus/hahmojen haku) 4. Tulosten luotettavuuden arviointi 5. Tulosten havainnollinen esitys ja tulkinta Tiedonlouhinta 2013/L1 p. 22

23 1. Ongelman määrittely Datan ymmärtäminen: mitä muuttujat mittaavat/kuvaavat? Paljonko dataa on (suhteessa muuttujien määrään)? Millaisia hahmoja olisi kiintoisaa/hyödyllistä löytää? Mitä tiedetään ennestään? Taustateoriaan kannattaa louhijankin perehtyä! Vaikeus: Eri alojen ihmisten löydettävä yhteinen kieli (koeta puhua siten, että maallikkokin ymmärtää) Tiedonlouhinta 2013/L1 p. 23

24 2. Esiprosessointi Datan yhdistys (eri lähteistä) (voi vaatia normalisointia tms.) Alustava analysointi: muuttujien keskiarvot, keskihajonnat, jakaumat, korrelaatiot (tilastollisilla työkaluilla) Datan siivous: puuttuvien arvojen käsittely, virheiden tarkistus ja korjaus Uusien potentiaalisesti hyvien muuttujien johtaminen (esim. muuttujien yhdistys, diskretointi, normalisointi) Tiedonlouhinta 2013/L1 p. 24

25 2. Esiprosessointi (jatk.) Mallinnuksen kannalta hyvien muuttujien valinta Jos mahdollista, aluksi ei kannata karsia mitään, ennen kuin tiedetään, mitkä muuttujat tarpeettomia Jos laskennallisesti mahdotonta, luodaan vaihtoehtoisia datajoukkoja (samaa asiaa kuvaavat vaihtoehtoiset muuttujat eri joukkoihin) Muuttujien valintamenetelmät eivät koskaan takaa optimaalista tulosta! (NP-kova ongelma) Tiedonlouhinta 2013/L1 p. 25

26 3. Tiedonlouhinta Aina kannattaa aloittaa riippuvuusanalyysistä! muuttujien ja mallinnusmenetelmien valinta Yleensä deskriptiivinen mallinnus auttaa prediktiivisten mallien muodostuksessa esim. Deskr: Etsitään 100 merkitsevintä muuttujaan Diabetes liittyvää riippuvuussääntöä Pred: Etsitään (valikoidusta datasta) paras diabetesta ennustava malli Tyypillisiä mallinnusmenetelmiä riippuvuusanalyysi, klusterointi, luokittelu Tiedonlouhinta 2013/L1 p. 26

27 Tiedonlouhinta: Riippuvuusanalyysi Annettu joukko kategorisia muuttujia R= A 1,..., A k, etsi merkitsevimmät tilastolliset riippuvuussäännöt muotoa X C (X R, C R) esim. A 1, A 4 A 9 A 2 (A 1 ja A 4 lisäävät A 2 :n todennäköisyyttä) esim. geeni elintapa sairaus -datasta voi löytyä ApoE-e4, alkoholiakohtuudella Alzheimer Annettu joukko numeerisia muuttujia R= A 1,..., A k sekä C, muodosta lineaarinen malli joka ennustaa parhaiten C:tä Malli muotoa C=β 1 B 1 +β 2 B β m B m +α, missä B i R. Tiedonlouhinta 2013/L1 p. 27

28 Tiedonlouhinta: Klusterointi Jaa datapisteet samankaltaisten/lähekkäisten pisteiden muodostamiin ryhmiin eli klustereihin harj. pisteet Esim. opiskelijoiden klusterointi luennoille osallistumisen (kerrat) ja harjoituspisteiden perusteella luennot Tiedonlouhinta 2013/L1 p. 28

29 Tiedonlouhinta: Luokittelu Annettuna datapisteiden luokittelu (jako luokkiin), muodosta malli, joka määrittää pisteen luokan muiden muuttujien perusteella. esim. päätöspuu pelto- ja koivuhiiren erotukseen painon, vartalon ja hännän pituuden perusteella <20g paino >20g <8cm vartalon pituus >8cm peltohiiri >7cm hännän pituus <7cm peltohiiri koivuhiiri peltohiiri Tiedonlouhinta 2013/L1 p. 29

30 4. Tulosten luotettavuuden arviointi Ovatko löydetyt hahmot tai mallit järkeviä?? (Muista aina tarkistaa!) voi olla, ettei datasta oikeasti löydy mitään mallia mallinnusmenetelmä palauttaa silloin jonkin satunnaismallin Prediktiivisten mallien validointi helppoa: määritetään hyvyysmitta (tai virhemitta, esim. väärin luokiteltujen alkioiden osuus) malli opitaan opetusjoukosta (training set) ja sen virhettä tutkitaan testijoukossa opetus- ja testijoukkojen oltava edustavia! vaihtoehto ristiinvalidointi Tiedonlouhinta 2013/L1 p. 30

31 4. Tulosten luotettavuuden arviointi (jatk.) Deskriptiivisten mallien luotettavuuden arviointi vaikeampaa Tavoite: halutaan takuita, että löydetty hahmo ei johdu sattumasta Mielellään takuita myös siitä, että samanlainen hahmo pätee jatkossa, samasta samantapaisesta populaatiosta kerättävässä datassa välineenä hahmon tilastollisen merkitsevyyden arviointi Tiedonlouhinta 2013/L1 p. 31

32 5. Tulosten esitys ja tulkinta Tulokset kannattaa esittää mahdollisimman havainnollisesti (esim. graafisesti), jolloin oleellinen erottuu Alan asiantuntija keskeisessä roolissa! Löytyikö jotain uutta? Voiko tulosten pohjalta muodostaa uutta hypoteesia? Miten sitä voisi tutkia lisää? Johtaa useimmiten uuteen louhintakierrokseen: kokeillaan uusia muuttujia ja mahdollisesti uusia menetelmiä Kierrokset lopetetaan vasta, kun ollaan tyytyväisiä tai mitään uutta ei näytä enää löytyvän Tiedonlouhinta 2013/L1 p. 32

33 Täydellinen data-analyysi silti jokseenkin mahdotonta Miksi? Tiedonlouhinta 2013/L1 p. 33

34 Tarvitaanko tiedonlouhintaan tietojenkäsittelytieteilijää? Soveltava tiedonlouhinta: käytetään yleensä valmiita työkaluja Periaatteessa kuka tahansa oppii käyttämään (pitää vain tuntea perusteet mitä kannattaa tehdä ja miten) Valmiita helppokäyttöisiä työkaluja on, mutta ei uusimmista algoritmeista (ohjelmoija osaa toteuttaa algoritmin) Joskus ongelma vaatii ihan uutta menetelmää (uudenlaisen hahmon hakua) tarvitaan tiedonlouhinta-algoritmien suunnittelijaa ja ohjelmoijaa Tiedonlouhinta 2013/L1 p. 34

35 Tarvitaanko tietojenkäsittelytieteilijää? Esiprosessointivaiheessa tarvitaan yleensä ohjelmointitaitoja (uusien hyvien muuttujien muodostus on taidelaji!) Mutta: jos data on tosi siistiä, muuttujat hyviä ja työkalu kattava, voi louhinnasta selvitä osaamatta koodata riviäkään. Työelämässä tiedonlouhijoilla ja data-analyytikoilla on paljon kysyntää (ja kysyntä kasvaa)! Tiedonlouhinta 2013/L1 p. 35

36 Datan tyypittely Onko rakenteellista (structured)? Onko temporaalista vai staattista? Minkä tyyppisiä muuttujia? Tiedonlouhinta 2013/L2 p. 36

37 Rakenteellinen vs. rakenteeton data rakenteeton data on vain yksi merkkijono, ilman tunnistettavaa rakennetta esim. teksti, ääni, kuva rakenteellisen datan esitys noudattaa ennalta määriteltyä rakennetta tyypillisesti: data koostuu riveistä ja jokainen rivi luettelee tiettyjen muuttujien arvot ts. datarivi on joukko piirteitä eli muuttuja arvo-pareja Tiedonlouhinta 2013/L2 p. 37

38 Rakenteellinen vs. rakenteeton (jatk.) muun tyyppisiä rakenteellisia datoja kutsutaan toisinaan puolirakenteellisiksi (semistructured) esim. tekstitiedosto jonka kieliopillinen rakenne kuvattu tageilla (< sub j>kissa</sub j>< pred>söi</pred> < ob j>hiiren</ob j>) rakenteettomille datoille annetaan rakenne eristämällä piirteitä eli muodostamalla muuttujia ja määrittämällä niiden arvot tiedonlouhinnassa oletetaan yleensä, että data on rakenteellista jos ei ole, on ensin määritettävä rakenne Tiedonlouhinta 2013/L2 p. 38

39 Staattinen ja temporaalinen data staattinen: muuttujien arvot eivät muutu ajan kuluessa (tai mitattu vain kerran, tietyllä ajanhetkellä) temporaalinen (dynaaminen): muuttujan arvot riippuvat ajanhetkestä laitteiden lokidata (log data): aikaleima, tapahtuma, käyttäjä, ym. aikasarjadata (time series data): muuttujan arvo mitattu tasavälein, esim. lehmän x-,y- ja z-kiihtyvyydet 0.1s välein Tiedonlouhinta 2013/L2 p. 39

40 Staattinen ja temporaalinen (jatk.) aina ajankohdalla ei ole väliä! esim. lokista voi analysoida tapahtumia ajankohdasta piittaamatta tai ajankohdan voi esittää karkealla tasolla (aamu, päivä, ilta, yö) jos mittauksia vain parilla muutamalla ajanhetkellä, voi luoda uudet stattiset muuttujat (esim. painoennenkoetta, painokokeenjälkeen) yksilön tai järjestelmän dynamiikan mallinnus edellyttää temporaalisia malleja/hahmoja (ja paljon dataa!) Tiedonlouhinta 2013/L2 p. 40

41 Muuttujien perustyypit MUUTTUJA numeerinen kategorinen jatkuva diskreetti nominaalinen ordinaalinen pituus, paino pulssi, poikasten lkm metsätyyppi, eläinlaji maaperän kosteus (kuiva, tuore, kostea, märkä) Tiedonlouhinta 2013/L2 p. 41

42 Muuttujien perustyypit (jatk.) diskreetin muuttujan mahdollisia arvoja vain numeroituva määrä (esim. kokonaisluvut) ja tietyllä arvovälillä äärellinen määrä jatkuva muuttuja voi saada minkä tahansa arvon annetulta arvoväliltä (eli mahdollisia arvoja ylinumeroituva määrä) käytännössä esitetään kuitenkin jollain tarkkuudella (jolloin mahdollisia arvoja annetulla välillä on vain äärellinen määrä) Tiedonlouhinta 2013/L2 p. 42

43 Muuttujien perustyypit (jatk.) ordinaalimuuttujilla on järjestys, vaikka ei numeerista tulkintaa nominaalimuuttujien arvot vain nimiä, joilla ei numeerista tulkintaa tai järjestystä erikoistapaus binaarimuuttuja, jonka arvo 0 tai 1 (jokin ominaisuus pätee tai ei päde) ei silti numeerista tulkintaa! esim. muuttujat (attribuutit) sairas, naaras, muuntogeeninen Tiedonlouhinta 2013/L2 p. 43

44 Datan esiprosessointi Tärkeimmät tehtävät: 1. Datan puhdistus (Data cleaning): Virheiden, puuttuvien arvojen ym. käsittely 2. Piirteiden eristys (Feature extraction): Uusien muuttujien muodostus vanhoja muuntamalla ja yhdistämällä 3. Piirteiden valinta (Feature selection): Hyvien muuttujien valinta Tiedonlouhinta 2013/L2 p. 44

45 Datan puhdistus Tavoite tunnistaa ja eliminoida mahdollisimman hyvin virheet, puuttuvat arvot, duplikaatit, kohina ja outlierit (poikkeavat havainnot) Automaattisten mittauslaitteiden ongelma lähetyskatkot dataa voi puuttua tietyltä aikaväliltä tai sama datapala on lähetetty kahteen kertaan (duplikaatteja) Jos muuttujat ovat eri lähteistä (esim. askelmittarista lehmän aktiivisuus ja pötsin ph-mittarista ph ja lämpötila), voi puuttuvia arvoja olla vain joissain muuttujissa Tiedonlouhinta 2013/L2 p. 45

46 Datan puhdistus: Kohina ja virheet kohina (noise) = häiriöistä johtuva epätarkkuus/satunnaisvirheet muuttujien arvoissa esim. märehtimismittarin pitäisi äänittää lehmän suun ääniä, mutta taustan traktorin hurina tulee mukaan virheet johtuvat usein inhimillisistä syistä (huolimattomuus) tai laitevioista (laite ei toimi oikein) Tiedonlouhinta 2013/L2 p. 46

47 Datan puhdistus: Outlierit outlierit voivat paljastaa virheen (tai kiinnostavan poikkeavan tapahtuman!) usein outlierit selviävät vasta klusteroidessa (tai sotkevat klusteroinnin) muuttujien jakaumia kannattaa tutkia graafisesti! näkee helposti poikkeavat arvot joskus outlier ei kuitenkaan ole poikkeava minkään yksittäisen muuttujan suhteen, vaan ainoastaan muuttujien arvokombinaation suhteen Tiedonlouhinta 2013/L2 p. 47

48 Puhdistus: Virheiden ja puuttuvien arvojen korjaus Ensisijaisesti korjataan oikeilla arvoilla. Muuten jos paljon, kannattaa muuttuja ehkä karsia kokonaan jos jollain datarivillä paljon puuttuvia, rivi kannattaa poistaa voi korvata muuttujan keskiarvolla tai mediaanilla jos mallinnusmenetelmä sallii puuttuvat arvot, voi ne merkitä vain erikoissymbolilla (esim.?, n/a tai ohjelmassa FLT_MAX) Huom! Joskus puuttuvat arvot voivat myös paljastaa kiinnostavan hahmon! Tiedonlouhinta 2013/L2 p. 48

49 Puhdistus: Kohina ja outlierit Kohinaa voi pienentää pehmentämällä dataa (data smoothing) skaalaus, diskretointi ym. arvoaluetta pienentävät tekniikat piirteiden eristys mallia/sen parametreja valitessa muista: mediaani ei ole yhtä herkkä outlierien vaikutukselle kuin keskiarvo robustit mallinnusmenetelmät pienentävät sekä kohinan että outlierien vaikutusta Tiedonlouhinta 2013/L2 p. 49

50 Piirteiden eristys: Diskretointi Tärkeä menetelmä! (jatkuva) numeerinen muuttuja muunnetaan diskreetiksi numeeriseksi tai kategoriseksi muuttujaksi esim. lehmän painon diskretointi: <=400kg kevyt, kg normaali, >600kg painava binarisointi=diskretoinnin erikoistapaus, kun uusi muuttuja binaarinen esim. lämpötilan tilalle binäärinen pakkasta-muuttuja Huom! Myös kategorisia muuttujia voi binarisoida arvovälin voi jakaa tasakokoisiksi väleiksi, yhtä monta pistettä sisältäviksi tai määrittää osavälit sekventoimalla Tiedonlouhinta 2013/L2 p. 50

51 Diskretointi (jatk.) diskretointi eliminoi kohinaa ja muuta satunnaisvaihtelua (esim. yksilöllisiä eroja), jolloin mallit ja hahmot voivat erottua paremmin pelkästään numeerisestakin datasta kannattaa tutkia diskretoitua versiota! vähemmän kohinaa, selvemmät hahmot tehokkaammat algoritmit diskreetin datan hahmot auttavat myös numeerisen mallinnusmenetelmän valinnassa Tiedonlouhinta 2013/L2 p. 51

52 Piirteiden eristys: Skaalaus uusi muuttuja muotoa X=αY+β, missä Y vanha muuttuja normalisointi: kaikki muuttujat muunnetaan samaan skaalaan standardointi: X= Y mean(y) stdev(y) suositellaan jos datassa outliereita ja käytetään Euklidista metriikkaa (klusterointi, lineaariregressio) voi käyttää diskretoinnin esivaiheena (uudet muuttuja-arvot esim. poikkeuksellisen pieni, normaali, poikkeuksellisen suuri) Tiedonlouhinta 2013/L2 p. 52

53 Piirteiden eristys: Yleistys Vastaa diskretointia kategorisille muuttujille muunnetulla muuttujalla vähemmän arvoja nostetaan abstraktiotasoa, esim. yhdistetään laji-muuttujan arvot peltomyyrä, kenttämyyrä, lapinmyyrä ja idänkenttämyyrä uudeksi arvoksi kenttämyyrät Sekä diskretointi että yleistys tarpeen, jos dataa liian vähän suhteessa muuttujien lukumäärään/arvoalueiden kokoon! (muuten malli ylisovittuu) Tiedonlouhinta 2013/L2 p. 53

54 Piirteiden eristys: PCA ja ICA numeerisille muuttujille, kun paljon dataa uudet muuttujat vanhojen lineaarisia kombinaatioita PCA:ssa (principal component analysis) uudet muuttujat korreloimattomia ja ICA:ssa (independent component analysis) riippumattomia PCA edellyttää normaalijakautunutta dataa! Tiedonlouhinta 2013/L2 p. 54

55 Piirteiden valinta Annettuna muuttujajoukko R, mikä on mallinnuksen kannalta paras mahdollinen X R? tärkeää klusteroinnissa ja ennustavassa mallinnuksessa Kaikkia mahdollisia osajoukkoja X R on 2 k 1 kpl, kun R =k kaikkia ei voi tutkia! (NP-kova ongelma) käytettävä heuristisia menetelmiä testataan jokaisen muuttujan hyvyys erikseen muodostetaan X ahneella heuristiikalla Tiedonlouhinta 2013/L2 p. 55

56 Piirteiden valinta (jatkoa) joskus helppo tunnistaa epärelevantit muuttujat jos muuttuja on johdettu toisesta, ei molempia tarvita jos muuttujien jakaumat hyvin samanlaiset, voi ehkä yhdistää riippuvuusanalyysi kannattaa tehdä ilman valikointia, jos mahdollista Tiedonlouhinta 2013/L2 p. 56

57 Ekskursio 1: NP-kova ongelma (NP-hard problem) kertoo että ongelma on laskennallisesti *** vaikea! vähintään yhtä vaikea kuin aikavaativuusluokan NP (non-deterministic polynomial time) ongelmat todennäköisesti eksponentiaalinen aikavaativuus eli aika-askelten lukumäärä kasvaa eksponentiaalisesti syötteen koon funktiona esim. jos ohjelman pahin aikavaativuus f (k)=2 k aika-askelta, k = muuttujien lkm ja kukin askel 0.001s (riippuu datarivien lkm:stä). Jos k = 100, suoritus voi vaatia 400 triljoonaa ( ) vuotta! ( maailmanloppu jo 4 miljardin v. päästä) onneksi datat harvoin niin patologisia! (riippuu jakaumasta) Tiedonlouhinta 2013/L2 p. 57

58 Ekskursio 2: Visuaalinen muuttujan diskretointi Perusidea: Tutkitaan muuttujan histogrammia ja etsitään aukot 1. Valitse aluksi suuri osavälien (bins) lukumäärä, esim Muodosta histogrammi ja esitä graafisesti 3. Jos histogrammissa selviä kukkuloita ja välillä selviä aukkoja, voi aukkojen kohdalle asettaa diskretointirajan 4. Jos matala tasainen jakauma, vähennä osavälien lkm:ää 5. Jos korkea, mutta ei aukkoja tai edes laaksoja, kokeile lisätä osavälien lkm:ää Tiedonlouhinta 2013/L2 p. 58

59 Esimerkki: internet-käyttäjien lkm maailman valtioissa (per 100 as.) 100 bins esim. 3-jako: x<25, 25 x<58, x 58 Tiedonlouhinta 2013/L2 p. 59

60 Esimerkki: internet-käyttäjien lkm maailman valtioissa (per 100 as.) 50 bins Tiedonlouhinta 2013/L2 p. 60

61 Esimerkki: internet-käyttäjien lkm maailman valtioissa (per 100 as.) 20 bins Tiedonlouhinta 2013/L2 p. 61

62 Muodostus gnumericissa 1. Maalaa haluttu sarake (muuttuja) 2. Valitse Statistics Descriptive statistics Frequency tables Histogram 3. Aseta jakovälien lkm (Cutoffs-valikko) ja ruksaa histogram chart (Graphs & options -valikko). Sitten ok. 4. Tutki tuloslehteä (kuvan voi siirtää taulukkoesityksen päältä) 5. Histogrammin voi tallettaa kuvana (klikkaa hiiren oikealla napilla) Tiedonlouhinta 2013/L2 p. 62

63 Luento 3: 1 Yleiset mallinnusperiaatteet ja 2 Riippuvuusanalyysi 1. Ongelman määrittely datan ja taustateorian ymmärtäminen 2. Esiprosessointi datan siivous, piirteiden eristys ja valinta 3. Tiedonlouhinta (mallinnus/hahmojen haku) 4. Tulosten luotettavuuden arviointi 5. Tulosten havainnollinen esitys ja tulkinta Tiedonlouhinta 2013/L3 p. 63

64 Yleiset mallinnusperiaatteet data-avaruus = kaikki mahdolliset muuttujien arvokombinaatiot hakuavaruus = kaikki mahdolliset annetun formaatin mukaiset mallit/hahmot, jotka datasta voisi johtaa globaalisti ja lokaalisti optimaaliset hakualgoritmit = Ovatko löydetyt mallit/hahmot varmasti parhaita mahdollisia? ylisovittuminen Kuvaako malli liian hyvin syötedatan? Tiedonlouhinta 2013/L3 p. 64

65 Parhaan mallin haku datasta hakualgoritmi Kaikki mahdolliset formaatin mukaiset mallit Data avaruus Haku avaruus tietty datajoukko paras malli ko. syötedatasta Huom! Annetut muuttujat määräävät data-avaruuden. Tiedonlouhinta 2013/L3 p. 65

66 Data-avaruus Olk. muuttujat A 1,..., A k, joiden arvoalueet Dom(A 1 ),..., Dom(A k ). SilloinD=Dom(A 1 )... Dom(A k ) määrittää data-avaruuden. Datan dimensio k Jos kaikki muuttujat diskreettejä, voi kokoa luonnehtia solujen lukumäärällä: D = Dom(A 1 )... Dom(A k ). Nyt Dom(A i ) = {a i1,...,a im } =m Jos jatkuvia muuttujia, ei voi laskea solujen lkm:ää! Nyt Dom(A i ) = [a min, a max ] =a max a min (voi olla ) Tiedonlouhinta 2013/L3 p. 66

67 Esim. 3-ulotteisen diskreetin datan esitys Dom(B) =14 Dom(A) =12 Dom(C) =12 Koko = 2016 solua. Tiedonlouhinta 2013/L3 p. 67

68 Hakuavaruus Kattaa kaikki mahdolliset mallit, jotka mallinnusmenetelmän ja data-avaruuden mukaisia ja jotka voi löytää annetulla hakualgoritmilla Data-avaruus (annetut muuttujat ja niiden arvoalueet) määräävät, millaisia malleja voi löytää Samaan mallinnusmenetelmään ( mallinnusparadigmaan, esim. päätöspuut, neuroverkot, riippuvuussäänöt) voi liittyä erilaisia hakualgoritmeja! voivat löytää eri malleja Tiedonlouhinta 2013/L3 p. 68

69 Esimerkki: riippuvuussääntöjen hakuavaruus Binäärimuuttujat R={A 1,..., A k } ja etsitään säännöt muotoa X A, X R, A X. Hakuavaruus koostuu kaikista mahdollisista säännöistä eli 1. Tutkitaan kaikki mahdolliset R:n osajoukot Y, joiden koko vähintään 2 attribuuttia ( Y 2) R:n potenssijoukko (koko 2 k ) P(R)={, A 1, A 2,..., A k, A 1 A 2, A 1 A 3,..., A k 1 A k, A 1 A 2 A 3,...,..., A 1 A 2... A k } Ei tarvitse tutkia joukkoja,{a 1 },...,{A k }. Tiedonlouhinta 2013/L3 p. 69

70 Esimerkki (jatk.) 2 Jokaisesta osajoukosta Y muodostetaan kaikki mahdolliset säännöt Jos Y =l, voi muodostaa l sääntöä, Y\{A i } A i ( A i Y). Hakuavaruuden koko on siis k i=2 i ( k i) =O(k 2 k ) Tiedonlouhinta 2013/L3 p. 70

71 Hakuavaruus (jatk.) Jos binäärimuuttujat R={A 1,..., A k } ja luokkamuuttuja C. Millainen olisi kaikkien mahdollisten päätöspuiden joukko? Tiedonlouhinta 2013/L3 p. 71

72 Mallin hyvyysmitta Tarvitaan jokin hyvyysmitta M, joka kertoo mallin hyvyyden. esim. miten monta alkiota luokittelee oikein, miten vahva tai merkitsevä riippuvuus on, miten tiheä klusteri on tms. yleensä pyrkii heijastamaan myös sitä, miten hyvin malli yleistyy mallin muodostusdatan ulkopuolelle (ts. että hahmo pätee oikeasti tai malli toimii tulevaisuudessa) Jos malli paranee, kun M kasvaa, on M hyvyyden mukaan kasvava (esim. luokittelun accuracy,χ 2 -mitta) muuten taas hyvyyden mukaan vähenevä (esim. luokitteluvirhe, p-arvot) Tiedonlouhinta 2013/L3 p. 72

73 Hakuongelma: 2 variaatiota Annettu mallinnusmenetelmä, data ja hyvyysmitta M. 1. Luettelointiongelma (enumeration problem): Etsi kaikki riittävän hyvät mallit (annettu jokin M:n raja-arvo). 2. Optimointiongelma (optimization problem): Etsi K parasta mallia (ML:ssä yleensä K = 1) Loppujen lopuksi ei suurta eroa! Käyttäjä ei halua tulokseksi tuhansia (saati miljoonia) hahmoja! Keskitytään optimointiongelmaan Tiedonlouhinta 2013/L3 p. 73

74 Hakualgoritmin optimaalisuus? Globaalisti optimaalinen, jos palauttaa parhaat K mallia hakuavaruudesta Takuu: datasta ei mahdollista löytää näitä parempia annetun muotoisia malleja. Lokaalisti optimaalinen: Löydetyt mallit parhaita jossain hakuavaruuden osassa, mutta eivät välttämättä koko hakuavaruudessa. algoritmi ei tutki koko avaruutta, vaan valikoi tutkittavan alueen heuristisesti algoritmi voi juuttua lokaaliin optimiin Tiedonlouhinta 2013/L3 p. 74

75 Heuristiikka Intuitiivisesti: apumenetelmä tai periaate, jota soveltamalla ongelma ratkeaa nopeammin mutta tulokset silti melko hyviä/useimmiten hyviä. yleensä ovat alioptimaalisia (suboptimal) eli eivät takaa globaalia optimia (parhaan mallin löytymistä) Esim. ahne heuristiikka (greedy heuristic): Edetään haussa sillä hetkellä parhaalta näyttävään suuntaan. Tyypillistä ihmisille! Tyyliin Väsyttää ja masentaa, hirveästi rästitöitä, paras pitää lökeripäivä. (optimoi mielihyvää lyhyellä tähtäimellä) joskus heuristiikan virheellisyys merkitsee vain hidasta hakua, ei oikeiden tulosten hukkaamista (riippuu mihin heuristiikkaa käytetään) Tiedonlouhinta 2013/L3 p. 75

76 Esimerkki: Luokittelusääntöjen hakuavaruus Olk. R={A, B, C, D, E} ja luokka-attribuutti F. Hakuavaruus P(R) voidaan esittää luettelointipuuna (enumeration tree). A C D E C B E D E D D E B E D C D C D E E E E E E D E E E E E Tiedonlouhinta 2013/L3 p. 76

77 Parhaan säännön ahne haku Jos tasoittain haku ylhäältä alas ja ahne haku tuottaisi BDE F:n. Tutkisi vain 9 solmua 32:sta, mutta voi mennä metsään! A B C D E C B C D E C D E D E E D E E D E D E E E D E E E E E Tiedonlouhinta 2013/L3 p. 77

78 Varoituksen sana! Aina menetelmää/sen hakualgoritmia valitessasi Epäile alioptimaalista heuristiikkaa! Ota selvää, mikä heuristiikka on ja milloin se voi hukata parhaat mallit. Miten todennäköistä on, että saadaan huonoja tuloksia? Hälytyskellojen paras soida, jos kuulet sanan ahne heuristiikka (vaikka joskus harvoin turha hälytys) Ongelma: Menetelmien kehittäjät eivät mielellään kerro, ettei menetelmä ole globaalisti optimaalinen... Tiedonlouhinta 2013/L3 p. 78

79 Mallin ylisovittuminen (overfitting) Intuitiivisesti: Malli/hahmo h kuvaa mallinnettavan datan d liian yksityiskohtaisesti, mukaan lukien satunnaisvaihtelun, eikä siksi yleisty d:n ulkopuolelle. Täsmällisemmin: h ylisovittunut, jos h s.e. M(h, d)> M(h, d) mutta M true (h)< M true (h ), missä M true on mallin oikea hyvyys. Oikeaa hyvyyttä M true ei voi mitata! Koetettava arvioida heuristisesti. Oletus: M hyvyyden mukaan kasvava (jos ei, niin vaihda>ja<) Tiedonlouhinta 2013/L3 p. 79

80 Occamin partaveitsi periaate Tärkeä havainto: Ylisovittuminen edellyttää monimutkaista mallia. monimutkaisella mallilla voi kuvata yksityiskohdat tarkka kuvaus mutta harvoille (tai vain yhdelle) datajoukoille yksinkertaisella mallilla ei voi kuvata kaikkia yksityiskohtia kuvaa ylimalkaisemmin mutta useampia datajoukkoja ylisovittumista voi estää kontrolloimalla mallin monimutkaisuutta! = Occamin partaveitsi (Occam s Razor) periaate: (Yhtä hyvistä) malleista suosi yksinkertaisinta. tai rankaise monimutkaisuudesta Tiedonlouhinta 2013/L3 p. 80

Tiedonlouhinta 2013/L3 p. 1. Data-avaruus. Olk. muuttujat A 1,...,A k, joiden arvoalueet. Dom(A 1 ),...,Dom(A k ). Silloin D = Dom(A 1 )...

Tiedonlouhinta 2013/L3 p. 1. Data-avaruus. Olk. muuttujat A 1,...,A k, joiden arvoalueet. Dom(A 1 ),...,Dom(A k ). Silloin D = Dom(A 1 )... Luento 3: 1 Yleiset mallinnusperiaatteet ja 2 Riippuvuusanalyysi Yleiset mallinnusperiaatteet 1. Ongelman määrittely datan ja taustateorian ymmärtäminen 2. siprosessointi datan siivous, piirteiden eristys

Lisätiedot

Ongelmien ja menetelmien tyypittelyä. Käyttötarkoituksia. Konsistentti ja epäkonsistentti data. Esimerkki: Deterministinen luokittelu

Ongelmien ja menetelmien tyypittelyä. Käyttötarkoituksia. Konsistentti ja epäkonsistentti data. Esimerkki: Deterministinen luokittelu Luento 5: Luokittelu Määritelmä Käyttötarkoitukset Ongelmien ja luokittelijoiden tyypittely auttaa valitsemaan oikean menetelmän Tärkeimmät menetelmät Päätöspuut ja luokittelusäännöt Bayes-luokittelijat

Lisätiedot

Riippuvuussäännöt. Luento 4. Riippuvuuden vahvuus: Tavallisimmat mitat. Muuttuja- vs. arvoperustainen tulkinta

Riippuvuussäännöt. Luento 4. Riippuvuuden vahvuus: Tavallisimmat mitat. Muuttuja- vs. arvoperustainen tulkinta Luento 4 Riippuvuussäännöt (tarkemmin) Riippuvuuksien haku numeerisesta datasta Ekskursiona Bayes-verkot Riippuvuussäännöt Muuttuja- ja arvoperustainen tulkinta Riippuvuuden vahvuuden ja merkityksellisyyden

Lisätiedot

Datan tyypittely. Rakenteellinen vs. rakenteeton data. Rakenteellinen vs. rakenteeton (jatk.) Staattinen ja temporaalinen data

Datan tyypittely. Rakenteellinen vs. rakenteeton data. Rakenteellinen vs. rakenteeton (jatk.) Staattinen ja temporaalinen data Datan tyypittely Onko rakenteellista (structured)? Onko temporaalista vai staattista? Minkä tyyppisiä muuttujia? Rakenteellinen vs. rakenteeton data rakenteeton data on vain yksi merkkijono, ilman tunnistettavaa

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Esimerkkejä vaativuusluokista

Esimerkkejä vaativuusluokista Esimerkkejä vaativuusluokista Seuraaville kalvoille on poimittu joitain esimerkkejä havainnollistamaan algoritmien aikavaativuusluokkia. Esimerkit on valittu melko mielivaltaisesti laitoksella tehtävään

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ] Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi Kurssin loppuosa Diskreettejä menetelmiä laajojen 0-1 datajoukkojen analyysiin Kattavat joukot ja niiden etsintä tasoittaisella algoritmilla Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa

Lisätiedot

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen hannu.toivonen@cs.helsinki.fi 1 2 A 1 4 8 2 2 1 2 6 2 A 2 4 3 7 3 2 8 4 2 A 4 5 2 4 5 5 2 6 4 A 7 2 3 7 5 4 5 2 2 A 5 2 4 6

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012 Korrelaatiokerroin Hanna Heikkinen 23. toukokuuta 2012 Matemaattisten tieteiden laitos Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset 815338A Ohjelmointikielten periaatteet 2015-2016. Harjoitus 2 vastaukset Harjoituksen aiheena on BNF-merkinnän käyttö ja yhteys rekursiivisesti etenevään jäsentäjään. Tehtävä 1. Mitkä ilmaukset seuraava

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Teema 3: Tilastollisia kuvia ja tunnuslukuja Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Algoritmit 1. Luento 1 Ti Timo Männikkö

Algoritmit 1. Luento 1 Ti Timo Männikkö Algoritmit 1 Luento 1 Ti 10.1.2017 Timo Männikkö Luento 1 Algoritmi Algoritmin toteutus Ongelman ratkaiseminen Algoritmin tehokkuus Algoritmin suoritusaika Algoritmin analysointi Algoritmit 1 Kevät 2017

Lisätiedot

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Esimerkki otteluvoiton todennäköisyys A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä. Yksittäisessä pelissä A voittaa todennäköisyydellä p ja B todennäköisyydellä q =

Lisätiedot

TILASTOLLINEN OPPIMINEN

TILASTOLLINEN OPPIMINEN 301 TILASTOLLINEN OPPIMINEN Salmiakki- ja hedelmämakeisia on pakattu samanlaisiin käärepapereihin suurissa säkeissä, joissa on seuraavat sekoitussuhteet h 1 : 100% salmiakkia h 2 : 75% salmiakkia + 25%

Lisätiedot

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3

Lisätiedot

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Satunnaisalgoritmit Topi Paavilainen Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Helsinki, 23. helmikuuta 2014 1 Johdanto Satunnaisalgoritmit ovat algoritmeja, joiden

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30. FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Satunnaismuuttujat ja todennäköisyysjakaumat Mitä tänään? Jos satunnaisilmiötä halutaan mallintaa matemaattisesti, on ilmiön tulosvaihtoehdot kuvattava numeerisessa muodossa. Tämä tapahtuu liittämällä

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Algebralliset tietotyypit ym. TIEA341 Funktio ohjelmointi 1 Syksy 2005

Algebralliset tietotyypit ym. TIEA341 Funktio ohjelmointi 1 Syksy 2005 Algebralliset tietotyypit ym. TIEA341 Funktio ohjelmointi 1 Syksy 2005 Tällä luennolla Algebralliset tietotyypit Hahmonsovitus (pattern matching) Primitiivirekursio Esimerkkinä binäärinen hakupuu Muistattehan...

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSOPAS. SPSS-opas TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35 Numeeriset menetelmät TIEA381 Luento 8 Kirsi Valjus Jyväskylän yliopisto Luento 8 () Numeeriset menetelmät 11.4.2013 1 / 35 Luennon 8 sisältö Interpolointi ja approksimointi Funktion approksimointi Tasainen

Lisätiedot

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat 1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden

Lisätiedot

Reaalilukuvälit, leikkaus ja unioni (1/2)

Reaalilukuvälit, leikkaus ja unioni (1/2) Luvut Luonnolliset luvut N = {0, 1, 2, 3,... } Kokonaisluvut Z = {..., 2, 1, 0, 1, 2,... } Rationaaliluvut (jaksolliset desimaaliluvut) Q = {m/n m, n Z, n 0} Irrationaaliluvut eli jaksottomat desimaaliluvut

Lisätiedot

Ohjelmoinnin peruskurssi Y1

Ohjelmoinnin peruskurssi Y1 Ohjelmoinnin peruskurssi Y1 CSE-A1111 30.9.2015 CSE-A1111 Ohjelmoinnin peruskurssi Y1 30.9.2015 1 / 27 Mahdollisuus antaa luentopalautetta Goblinissa vasemmassa reunassa olevassa valikossa on valinta Luentopalaute.

Lisätiedot

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Y ja

Y ja 1 Funktiot ja raja-arvot Y100 27.10.2008 ja 29.10.2008 Aki Hagelin aki.hagelin@helsinki.fi Department of Psychology / Cognitive Science University of Helsinki 2 Funktiot (Lue Häsä & Kortesharju sivut 4-9)

Lisätiedot

FUNKTIONAALIANALYYSIN PERUSKURSSI 1. 0. Johdanto

FUNKTIONAALIANALYYSIN PERUSKURSSI 1. 0. Johdanto FUNKTIONAALIANALYYSIN PERUSKURSSI 1. Johdanto Funktionaalianalyysissa tutkitaan muun muassa ääretönulotteisten vektoriavaruuksien, ja erityisesti täydellisten normiavaruuksien eli Banach avaruuksien ominaisuuksia.

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Oppijan saama palaute määrää oppimisen tyypin

Oppijan saama palaute määrää oppimisen tyypin 281 5. KONEOPPIMINEN Älykäs agentti voi joutua oppimaan mm. seuraavia seikkoja: Kuvaus nykytilan ehdoilta suoraan toiminnolle Maailman relevanttien ominaisuuksien päätteleminen havaintojonoista Maailman

Lisätiedot

Esimerkkiprojekti. Mallivastauksen löydät Wroxin www-sivuilta. Kenttä Tyyppi Max.pituus Rajoitukset/Kommentit

Esimerkkiprojekti. Mallivastauksen löydät Wroxin www-sivuilta. Kenttä Tyyppi Max.pituus Rajoitukset/Kommentit Liite E - Esimerkkiprojekti E Esimerkkiprojekti Olet lukenut koko kirjan. Olet sulattanut kaiken tekstin, Nyt on aika soveltaa oppimiasi uusia asioita pienen, mutta täydellisesti muotoiltuun, projektiin.

Lisätiedot

Harjoitus 6 ( )

Harjoitus 6 ( ) Harjoitus 6 (21.4.2015) Tehtävä 1 Määritelmän (ks. luentomoniste s. 109) mukaan yleisen, muotoa min f(x) s. t. g(x) 0 h(x) = 0 x X olevan optimointitehtävän Lagrangen duaali on missä max θ(u, v) s. t.

Lisätiedot

BM20A0900, Matematiikka KoTiB3

BM20A0900, Matematiikka KoTiB3 BM20A0900, Matematiikka KoTiB3 Luennot: Matti Alatalo Oppikirja: Kreyszig, E.: Advanced Engineering Mathematics, 8th Edition, John Wiley & Sons, 1999, luvut 1 4. 1 Sisältö Ensimmäisen kertaluvun differentiaaliyhtälöt

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään

Lisätiedot

Esimerkkejä polynomisista ja ei-polynomisista ongelmista

Esimerkkejä polynomisista ja ei-polynomisista ongelmista Esimerkkejä polynomisista ja ei-polynomisista ongelmista Ennen yleisempiä teoriatarkasteluja katsotaan joitain tyypillisiä esimerkkejä ongelmista ja niiden vaativuudesta kaikki nämä ongelmat ratkeavia

Lisätiedot

ALGORITMIT & OPPIMINEN

ALGORITMIT & OPPIMINEN ALGORITMIT & OPPIMINEN Mitä voidaan automatisoida? Mikko Koivisto Avoimet aineistot tulevat Tekijä: Lauri Vanhala yhdistä, kuvita, selitä, ennusta! Tekijä: Logica Mitä voidaan automatisoida? Algoritmi

Lisätiedot

1 Määrittelyjä ja aputuloksia

1 Määrittelyjä ja aputuloksia 1 Määrittelyjä ja aputuloksia 1.1 Supremum ja infimum Aluksi kerrataan pienimmän ylärajan (supremum) ja suurimman alarajan (infimum) perusominaisuuksia ja esitetään muutamia myöhemmissä todistuksissa tarvittavia

Lisätiedot

Laskuharjoitus 5. Mitkä ovat kuvan 1 kanavien kapasiteetit? Kuva 1: Kaksi kanavaa. p/(1 p) ) bittiä lähetystä kohti. Voidaan

Laskuharjoitus 5. Mitkä ovat kuvan 1 kanavien kapasiteetit? Kuva 1: Kaksi kanavaa. p/(1 p) ) bittiä lähetystä kohti. Voidaan Informaatioteoria ELEC-C7 5 Laskuharjoitus 5 Tehtävä 5.3 Mitkä ovat kuvan kanavien kapasiteetit?.3.7 a b Kuva : Kaksi kanavaa b Binäärisessä Z-kanavassa virhe tapahtuu todennäköisyydellä p ja virhe todennäköisyydellä.

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

S Laskennallinen systeemibiologia

S Laskennallinen systeemibiologia S-114.2510 Laskennallinen systeemibiologia 3. Harjoitus 1. Koska tilanne on Hardy-Weinbergin tasapainossa luonnonvalintaa lukuunottamatta, saadaan alleeleista muodostuvien eri tsygoottien genotyyppifrekvenssit

Lisätiedot

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti Luku 6 Dynaaminen ohjelmointi Dynaamisessa ohjelmoinnissa on ideana jakaa ongelman ratkaisu pienempiin osaongelmiin, jotka voidaan ratkaista toisistaan riippumattomasti. Jokaisen osaongelman ratkaisu tallennetaan

Lisätiedot

Harjoitus 6 ( )

Harjoitus 6 ( ) Harjoitus 6 (30.4.2014) Tehtävä 1 Määritelmän (ks. luentomoniste s. 109) mukaan yleisen, muotoa min f(x) s.t. g(x) 0 h(x) = 0 x X (1) olevan optimointitehtävän Lagrangen duaali on max θ(u,v) s.t. u 0,

Lisätiedot

T Syksy 2004 Logiikka tietotekniikassa: perusteet Laskuharjoitus 7 (opetusmoniste, kappaleet )

T Syksy 2004 Logiikka tietotekniikassa: perusteet Laskuharjoitus 7 (opetusmoniste, kappaleet ) T-79144 Syksy 2004 Logiikka tietotekniikassa: perusteet Laskuharjoitus 7 (opetusmoniste, kappaleet 11-22) 26 29102004 1 Ilmaise seuraavat lauseet predikaattilogiikalla: a) Jokin porteista on viallinen

Lisätiedot

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) Aalto-yliopisto 2016 Käytannön järjestelyt Luennot: Luennot ma 4.1. (sali E) ja ti 5.1 klo 10-12 (sali C) Luennot 11.1.-10.2. ke 10-12 ja ma 10-12

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 8 Väliarvolause Oletetaan, että funktio f on jatkuva jollain reaalilukuvälillä [a, b] ja derivoituva avoimella välillä (a, b). Funktion muutos tällä välillä on luonnollisesti

Lisätiedot

Klusterointiongelma. Luento 6: Klusterointi. Usein suotavia ominaisuuksia. Usein suotavia ominaisuuksia

Klusterointiongelma. Luento 6: Klusterointi. Usein suotavia ominaisuuksia. Usein suotavia ominaisuuksia Luento 6: Klusterointi Klusterointiongelma etäisyys-/erilaisuusfunktiot dimensionaalisuuden kirous (curse of dimensionality) Menetelmien pääluokat 1. Osittavat 2. Hierarkiset 3. Malliperustaiset (tiheysfunktioihin

Lisätiedot

Algoritmit 1. Luento 7 Ti Timo Männikkö

Algoritmit 1. Luento 7 Ti Timo Männikkö Algoritmit 1 Luento 7 Ti 31.1.2017 Timo Männikkö Luento 7 Järjestetty binääripuu Binääripuiden termejä Binääripuiden operaatiot Solmun haku, lisäys, poisto Algoritmit 1 Kevät 2017 Luento 7 Ti 31.1.2017

Lisätiedot

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin

Lisätiedot

Introduction to Machine Learning

Introduction to Machine Learning Introduction to Machine Learning Aki Koivu 27.10.2016 HUMAN HEALT H ENVIRONMENTAL HEALT H 2016 PerkinElmer Miten tietokone oppii ennustamaan tai tekemään päätöksiä? Historia tiivistettynä Machine Learning

Lisätiedot

Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen

Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen 08.09.2014 Ohjaaja: DI Mikko Harju Valvoja: Prof. Kai Virtanen Työn saa tallentaa ja julkistaa Aalto-yliopiston

Lisätiedot

Matematiikan johdantokurssi, syksy 2016 Harjoitus 11, ratkaisuista

Matematiikan johdantokurssi, syksy 2016 Harjoitus 11, ratkaisuista Matematiikan johdantokurssi, syksy 06 Harjoitus, ratkaisuista. Valitse seuraaville säännöille mahdollisimman laajat lähtöjoukot ja sopivat maalijoukot niin, että syntyy kahden muuttujan funktiot (ks. monisteen

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Kvantitatiiviset menetelmät

Kvantitatiiviset menetelmät Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat.

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat. Approbatur 3, demo 1, ratkaisut 1.1. A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat. Käydään kaikki vaihtoehdot läpi. Jos A on rehti, niin B on retku, koska muuten

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS KURSSIN PERUSTIEDOT VALINNAINEN AINEOPINTOTASOINEN KURSSI, 4 OP PERIODI 1: 6.9.2012-12.10.2012 (6 VIIKKOA) LUENNOT (B123, LINUS TORVALDS -AUDITORIO): TO 10-12, PE 12-14 LASKUHARJOITUKSET

Lisätiedot

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120 Tehtävä 1 : 1 Merkitään jatkossa kirjaimella H kaikkien solmujoukon V sellaisten verkkojen kokoelmaa, joissa on tasan kolme särmää. a) Jokainen verkko G H toteuttaa väitteen E(G) [V]. Toisaalta jokainen

Lisätiedot

7.4 Sormenjälkitekniikka

7.4 Sormenjälkitekniikka 7.4 Sormenjälkitekniikka Tarkastellaan ensimmäisenä esimerkkinä pitkien merkkijonojen vertailua. Ongelma: Ajatellaan, että kaksi n-bittistä (n 1) tiedostoa x ja y sijaitsee eri tietokoneilla. Halutaan

Lisätiedot

Otannasta ja mittaamisesta

Otannasta ja mittaamisesta Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

2. Aineiston kuvailua

2. Aineiston kuvailua 2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien

Lisätiedot

Til.yks. x y z

Til.yks. x y z Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)

Lisätiedot

815338A Ohjelmointikielten periaatteet Harjoitus 3 vastaukset

815338A Ohjelmointikielten periaatteet Harjoitus 3 vastaukset 815338A Ohjelmointikielten periaatteet 2015-2016. Harjoitus 3 vastaukset Harjoituksen aiheena ovat imperatiivisten kielten muuttujiin liittyvät kysymykset. Tehtävä 1. Määritä muuttujien max_num, lista,

Lisätiedot

Ohjelmistotekniikan menetelmät, luokkamallin laatiminen

Ohjelmistotekniikan menetelmät, luokkamallin laatiminen 582101 - Ohjelmistotekniikan menetelmät, luokkamallin laatiminen 1 Lähestymistapoja Kokonaisvaltainen lähestymistapa (top-down) etsitään kerralla koko kohdealuetta kuvaavaa mallia hankalaa, jos kohdealue

Lisätiedot

4.5 Kaksivaiheinen menetelmä simplex algoritmin alustukseen

4.5 Kaksivaiheinen menetelmä simplex algoritmin alustukseen 4.5 Kaksivaiheinen menetelmä simplex algoritmin alustukseen Käypä kantaratkaisu löytyy helposti, esimerkiksi tapauksessa Ax b, b 0 x 0 jolloin sen määräävät puutemuuttujat. Tällöin simplex-menetelmän alustus

Lisätiedot

Salausmenetelmät. Veikko Keränen, Jouko Teeriaho (RAMK, 2006)

Salausmenetelmät. Veikko Keränen, Jouko Teeriaho (RAMK, 2006) Salausmenetelmät Veikko Keränen, Jouko Teeriaho (RAMK, 2006) LUKUTEORIAA JA ALGORITMEJA 3. Kongruenssit à 3.1 Jakojäännös ja kongruenssi Määritelmä 3.1 Kaksi lukua a ja b ovat keskenään kongruentteja (tai

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

isomeerejä yhteensä yhdeksän kappaletta.

isomeerejä yhteensä yhdeksän kappaletta. Tehtävä 2 : 1 Esitetään aluksi eräitä havaintoja. Jokaisella n Z + symbolilla H (n) merkitään kaikkien niiden verkkojen joukkoa, jotka vastaavat jotakin tehtävänannon ehtojen mukaista alkaanin hiiliketjua

Lisätiedot

811120P Diskreetit rakenteet

811120P Diskreetit rakenteet 811120P Diskreetit rakenteet 2016-2017 4. Joukot, relaatiot ja funktiot Osa 2: Relaatiot 4.2 Relaatiot Relaatioilla mallinnetaan joukkojen alkioiden välisiä suhteita Joukkojen S ja T välinen binaarirelaatio

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1. T-61.281 Luonnollisen kielen tilastollinen käsittely astaukset 8, ti 16.3.2004, 8:30-10:00 Tilastolliset yhteydettömät kielioit, ersio 1.0 1. Jäsennysuun todennäköisyys lasketaan aloittelemalla se säännöstön

Lisätiedot

Algoritmit 1. Luento 13 Ti 23.2.2016. Timo Männikkö

Algoritmit 1. Luento 13 Ti 23.2.2016. Timo Männikkö Algoritmit 1 Luento 13 Ti 23.2.2016 Timo Männikkö Luento 13 Suunnittelumenetelmät Taulukointi Kapsäkkiongelma Ahne menetelmä Verkon lyhimmät polut Dijkstran menetelmä Verkon lyhin virittävä puu Kruskalin

Lisätiedot

Nimitys Symboli Merkitys Negaatio ei Konjuktio ja Disjunktio tai Implikaatio jos..., niin... Ekvivalenssi... jos ja vain jos...

Nimitys Symboli Merkitys Negaatio ei Konjuktio ja Disjunktio tai Implikaatio jos..., niin... Ekvivalenssi... jos ja vain jos... 2 Logiikkaa Tässä luvussa tutustutaan joihinkin logiikan käsitteisiin ja merkintöihin. Lisätietoja ja tarkennuksia löytyy esimerkiksi Jouko Väänäsen kirjasta Logiikka I 2.1 Loogiset konnektiivit Väitelauseen

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla? 6.10.2006 1. Keppi, jonka pituus on m, taitetaan kahtia täysin satunnaisesti valitusta kohdasta ja muodostetaan kolmio, jonka kateetteina ovat syntyneet palaset. Kolmion pinta-ala on satunnaismuuttuja.

Lisätiedot