Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1

Koko: px
Aloita esitys sivulta:

Download "Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1"

Transkriptio

1 Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1

2 Kurssin kuvaus joko kandidaatti- tai maisteritason valinnainen kurssi Toteutus pääasiassa ongelmalähtöisesti (tiedonlouhintaprosessin harjoittelu oikealla datalla) Yleiskuva menetelmistä ja niiden valinnasta luennoilla (vain 4 vk) Perustaitojen harjoittelu laskuharjoituksissa (4 vk) Ei koetta, mutta edellyttää aktiivista työskentelyä kurssin aikana! (4op 108h) Tiedonlouhinta 2013/L1 p. 2

3 Esitiedot TKT-opiskelijat: Ohjelmointi-kurssit, TRA1 ja perus-linux-taidot Muiden alojen ihmiset: perustaidot tietokoneen käytöstä ja sopiva datajoukko harjoitustyöaiheeksi Täytä esitietokysely heti! (kurssisivulla) Luentoja saavat tulla kuuntelemaan muutkin (mutta harjoitusryhmiin ei ylimääräisiä) Tiedonlouhinta 2013/L1 p. 3

4 Kurssin arvostelu Harjoitustyöt 75% pisteistä (sis. esityksen arvion) Harjoituspisteet 25% pisteistä (mikroharjoituksista 3 läsnäolopistettä) Esitykset arvioidaan yhdessä Ryhmä saa ehdottaa, miten harjoitustyöpisteet jaetaan ryhmäläisten kesken Tiedonlouhinta 2013/L1 p. 4

5 Opettajat Wilhelmiina Hämäläinen (luennoija, Kuopion harjoitukset ja ohjaus) Kurssin ajan vastaanottoaika ti klo (Technopolis F007) tai sopimuksen mukaan Mikko Malinen (Joensuun harjoitukset ja ohjaus) Tiedonlouhinta 2013/L1 p. 5

6 Alustava ohjelma Viikko 15 Luento ma 8.4. Luento ti 9.4. Muu Viikko 16 Luento ma Luento ti Muu Kurssin esittely, johdatus tiedonlouhintaan Datan tyypit ja esiprosessointi. Harjoitustöiden jako ja ohjeistus. Mikroharjoitukset. Tapaamiset ohjaajan kanssa Tilastollisten riippuvuuksien haku Bayesläinen riippuvuuksien mallinnus Harjoitukset. Loput tapaamiset ohjaajan kanssa Tiedonlouhinta 2013/L1 p. 6

7 Viikko 17 Luento ma Luento ti Muu Viikko 18 Luento ma Luento to 2.5. Muu Luokittelusäännöistä ja luokittelijoista Klusterointi Harjoitukset Erikoisempien hahmojen haku (verkkodata, aikasarjadata) Oikean menetelmän valinta. Tulosten järkevyyden ja merkitsevyyden arviointi. Harjoitukset Tiedonlouhinta 2013/L1 p. 7

8 Viikko 19 Muu Viikko 20 Viikko 21 Luento ma Luento ti Muu Omatoimista työskentelyä. Tapaamiset ohjaajan kanssa Omatoimista työskentelyä. Loppuesitykset Loppuesitykset Loppuraporttien palautus Tiedonlouhinta 2013/L1 p. 8

9 Mitä on Tiedonlouhinta? Data mining (DM) ( data fishing, data snooping, information harvesting ) Knowledge discovery (from databases) (KDD) Intuitiivisesti Laskennallisesti epätriviaalia data-analyysia (uuden informaation etsimistä datasta) Tiedonlouhinta 2013/L1 p. 9

10 Määritelmiä A non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data. (Fayyad et al. 1996) Automatic or semi-automatic analysis of large quantities of data to extract previously unknown interesting patterns such as groups of data records, unusual records and dependencies. (wikipedia) Analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner. (Hand et al. luku 1) Tiedonlouhinta 2013/L1 p. 10

11 Data-analyysi raaka data informaatio raaka data=prosessoimattomia ja tulkitsemattomia faktoja, esim. mittausten tuloksia datalla itsessään ei mitään merkitystä informaatio=tietoa jolla on merkitys, tulkittua dataa informaation voi esittää myös rakenteellisena mallina suhteellisia termejä: yhden prosessin tuloksena saatu informaatio voi olla toiselle prosessille dataa Tiedonlouhinta 2013/L1 p. 11

12 Esimerkki: Data vs. informaatio Data: maanpinnan korkeus eri mittauspisteissä ympäri Suomea eri vuosina Informaatiota: Suomen korkein kohta on Haltilla suurin osa maasta on alankoa (alle 200m merenpinnasta) Suomen keskikorkeus on n. 154m Oulun Kemin alueella maa kohoaa n. 9 mm vuodessa maanpinnan korkeusmalli Tiedonlouhinta 2013/L1 p. 12

13 Data-analyysia harjoittavia tieteenaloja Tiedonlouhinnan lisäksi tilastotiede (erityisesti deskriptiivinen tilastotiede, eksploratiivinen data-analyysi) koneoppiminen (machine learning) (sis. hahmon tunnistuksen, pattern recognition) informaation eristäminen tekstistä (information extraction from text) (luonnollisen kielen prosessoinnin, tiedonhaun (information retrieval) ja DM:n välimaastossa) Tiedonlouhinta 2013/L1 p. 13

14 Tiedonlouhinta vs. tilastotiede? Tiedonlouhinnan juuret eksploratiivisessa data-analyysissa (exploratory data analysis): tavoite etsiä uusia piirteitä datasta laskennallisesti hankalaa! Tarve algoritmeille Tiedonlouhinta mahdollisti monimutkaisempien mallien etsinnän Keskeinen ero laskennallinen elementti tiedonlouhinta edellyttää epätriviaalia laskentaa eli kekseliäitä algoritmeja Käytännön eroja: tiedonlouhinnassa paljon suuremmat datajoukot tilastotieteessä tilastollisen merkitsevyyden arviointi keskeistä Tiedonlouhinta 2013/L1 p. 14

15 Tiedonlouhinta vs. koneoppiminen? Rajanveto vaikeaa! Joskus molemmat luetaan kattokäsitteen Knowledge discovery alle Koneoppimisen osa-alueet Ohjattu koneoppiminen (supervised ML): ennustava (prediktiivinen) mallinnus (esim. luokittelu) Ohjaamaton koneoppiminen (unsupervised ML): kuvaava (deskriptiivinen) mallinnus (esim. klusterointi) Tiedonlouhinnassa lähinnä deskriptiivistä mallinnusta Tiedonlouhinta 2013/L1 p. 15

16 Filosofinen ero Koneoppiminen Uskomus että data on jonkin mallin tuottamaa. Tavoite löytää datan parhaiten selittävä/kuvaava malli. Tiedonlouhinta: Data on ensisijaista. Sillä ei välttämättä ole mitään mallia tai vain lokaaleja hahmoja (osittaismalleja). Tavoite löytää kaikki kiinnostavat hahmot. Tiedonlouhinta 2013/L1 p. 16

17 Malli vs. hahmo (Hand et al luku 6) Malli (model) kattava, abstrakti esitys datasta globaali eli koskee kaikkia datapisteitä esim. Kaikki opiskelijat voidaan luokitella laiskoihin ja ahkeriin laskuharjoituspisteiden ja luentoaktiivisuuden perusteella. Hahmo (pattern) jotain datan osaa kuvaava piirre (paikallinen malli) lokaali eli koskee vain tiettyjä datapisteitä esim. Korkeat harjoituspisteet indikoivat hyvää arvosanaa. Tiedonlouhinta 2013/L1 p. 17

18 DM vs. ML: Käytännön eroja (yleistys) Koneoppimisessa monimutkaiset mallit huonommin skaalautuvat algoritmit pienemmät datajoukot (satoja tuhansia rivejä, kymmeniä muuttujia) data ja muuttujat valittu huolella mallinnustarkoitukseen Tiedonlouhinta 2013/L1 p. 18

19 Tiedonlouhinnassa suhteellisen yksinkertaiset hahmot tehokkaammat algoritmit suuret datajoukot (jopa miljoonia rivejä, satoja tuhansia muuttujia) data saatu usein jonkin toisen projektin sivutuotteena Tiedonlouhinta 2013/L1 p. 19

20 Yhteenveto: Tieteenalojen suhteet model > data complex models we know, what we want to learn MACHINE LEARNING DATA MINING data > model simple models or local patterns we don t know, what we are looking for STATISTICS we know, what we are looking for small amount of data Tiedonlouhinta 2013/L1 p. 20

21 Tiedonlouhintaprosessi Edellyttää yhteistyötä eri alojen ihmisten välillä! DATA Ongelman analysointi Tiedon louhinta Tulosten analysointi UUSI TIETO sovellusalan asiantuntijat ja louhija louhija sovellusalan asiantuntijat ja louhija Tiedonlouhinta 2013/L1 p. 21

22 Prosessin tyypilliset vaiheet 1. Ongelman määrittely datan ja taustateorian ymmärtäminen 2. Esiprosessointi datan siivous, piirteiden eristys ja valinta 3. Tiedonlouhinta (mallinnus/hahmojen haku) 4. Tulosten luotettavuuden arviointi 5. Tulosten havainnollinen esitys ja tulkinta Tiedonlouhinta 2013/L1 p. 22

23 1. Ongelman määrittely Datan ymmärtäminen: mitä muuttujat mittaavat/kuvaavat? Paljonko dataa on (suhteessa muuttujien määrään)? Millaisia hahmoja olisi kiintoisaa/hyödyllistä löytää? Mitä tiedetään ennestään? Taustateoriaan kannattaa louhijankin perehtyä! Vaikeus: Eri alojen ihmisten löydettävä yhteinen kieli (koeta puhua siten, että maallikkokin ymmärtää) Tiedonlouhinta 2013/L1 p. 23

24 2. Esiprosessointi Datan yhdistys (eri lähteistä) (voi vaatia normalisointia tms.) Alustava analysointi: muuttujien keskiarvot, keskihajonnat, jakaumat, korrelaatiot (tilastollisilla työkaluilla) Datan siivous: puuttuvien arvojen käsittely, virheiden tarkistus ja korjaus Uusien potentiaalisesti hyvien muuttujien johtaminen (esim. muuttujien yhdistys, diskretointi, normalisointi) Tiedonlouhinta 2013/L1 p. 24

25 2. Esiprosessointi (jatk.) Mallinnuksen kannalta hyvien muuttujien valinta Jos mahdollista, aluksi ei kannata karsia mitään, ennen kuin tiedetään, mitkä muuttujat tarpeettomia Jos laskennallisesti mahdotonta, luodaan vaihtoehtoisia datajoukkoja (samaa asiaa kuvaavat vaihtoehtoiset muuttujat eri joukkoihin) Muuttujien valintamenetelmät eivät koskaan takaa optimaalista tulosta! (NP-kova ongelma) Tiedonlouhinta 2013/L1 p. 25

26 3. Tiedonlouhinta Aina kannattaa aloittaa riippuvuusanalyysistä! muuttujien ja mallinnusmenetelmien valinta Yleensä deskriptiivinen mallinnus auttaa prediktiivisten mallien muodostuksessa esim. Deskr: Etsitään 100 merkitsevintä muuttujaan Diabetes liittyvää riippuvuussääntöä Pred: Etsitään (valikoidusta datasta) paras diabetesta ennustava malli Tyypillisiä mallinnusmenetelmiä riippuvuusanalyysi, klusterointi, luokittelu Tiedonlouhinta 2013/L1 p. 26

27 Tiedonlouhinta: Riippuvuusanalyysi Annettu joukko kategorisia muuttujia R= A 1,..., A k, etsi merkitsevimmät tilastolliset riippuvuussäännöt muotoa X C (X R, C R) esim. A 1, A 4 A 9 A 2 (A 1 ja A 4 lisäävät A 2 :n todennäköisyyttä) esim. geeni elintapa sairaus -datasta voi löytyä ApoE-e4, alkoholiakohtuudella Alzheimer Annettu joukko numeerisia muuttujia R= A 1,..., A k sekä C, muodosta lineaarinen malli joka ennustaa parhaiten C:tä Malli muotoa C=β 1 B 1 +β 2 B β m B m +α, missä B i R. Tiedonlouhinta 2013/L1 p. 27

28 Tiedonlouhinta: Klusterointi Jaa datapisteet samankaltaisten/lähekkäisten pisteiden muodostamiin ryhmiin eli klustereihin harj. pisteet Esim. opiskelijoiden klusterointi luennoille osallistumisen (kerrat) ja harjoituspisteiden perusteella luennot Tiedonlouhinta 2013/L1 p. 28

29 Tiedonlouhinta: Luokittelu Annettuna datapisteiden luokittelu (jako luokkiin), muodosta malli, joka määrittää pisteen luokan muiden muuttujien perusteella. esim. päätöspuu pelto- ja koivuhiiren erotukseen painon, vartalon ja hännän pituuden perusteella <20g paino >20g <8cm vartalon pituus >8cm peltohiiri >7cm hännän pituus <7cm peltohiiri koivuhiiri peltohiiri Tiedonlouhinta 2013/L1 p. 29

30 4. Tulosten luotettavuuden arviointi Ovatko löydetyt hahmot tai mallit järkeviä?? (Muista aina tarkistaa!) voi olla, ettei datasta oikeasti löydy mitään mallia mallinnusmenetelmä palauttaa silloin jonkin satunnaismallin Prediktiivisten mallien validointi helppoa: määritetään hyvyysmitta (tai virhemitta, esim. väärin luokiteltujen alkioiden osuus) malli opitaan opetusjoukosta (training set) ja sen virhettä tutkitaan testijoukossa opetus- ja testijoukkojen oltava edustavia! vaihtoehto ristiinvalidointi Tiedonlouhinta 2013/L1 p. 30

31 4. Tulosten luotettavuuden arviointi (jatk.) Deskriptiivisten mallien luotettavuuden arviointi vaikeampaa Tavoite: halutaan takuita, että löydetty hahmo ei johdu sattumasta Mielellään takuita myös siitä, että samanlainen hahmo pätee jatkossa, samasta samantapaisesta populaatiosta kerättävässä datassa välineenä hahmon tilastollisen merkitsevyyden arviointi Tiedonlouhinta 2013/L1 p. 31

32 5. Tulosten esitys ja tulkinta Tulokset kannattaa esittää mahdollisimman havainnollisesti (esim. graafisesti), jolloin oleellinen erottuu Alan asiantuntija keskeisessä roolissa! Löytyikö jotain uutta? Voiko tulosten pohjalta muodostaa uutta hypoteesia? Miten sitä voisi tutkia lisää? Johtaa useimmiten uuteen louhintakierrokseen: kokeillaan uusia muuttujia ja mahdollisesti uusia menetelmiä Kierrokset lopetetaan vasta, kun ollaan tyytyväisiä tai mitään uutta ei näytä enää löytyvän Tiedonlouhinta 2013/L1 p. 32

33 Täydellinen data-analyysi silti jokseenkin mahdotonta Miksi? Tiedonlouhinta 2013/L1 p. 33

34 Tarvitaanko tiedonlouhintaan tietojenkäsittelytieteilijää? Soveltava tiedonlouhinta: käytetään yleensä valmiita työkaluja Periaatteessa kuka tahansa oppii käyttämään (pitää vain tuntea perusteet mitä kannattaa tehdä ja miten) Valmiita helppokäyttöisiä työkaluja on, mutta ei uusimmista algoritmeista (ohjelmoija osaa toteuttaa algoritmin) Joskus ongelma vaatii ihan uutta menetelmää (uudenlaisen hahmon hakua) tarvitaan tiedonlouhinta-algoritmien suunnittelijaa ja ohjelmoijaa Tiedonlouhinta 2013/L1 p. 34

35 Tarvitaanko tietojenkäsittelytieteilijää? Esiprosessointivaiheessa tarvitaan yleensä ohjelmointitaitoja (uusien hyvien muuttujien muodostus on taidelaji!) Mutta: jos data on tosi siistiä, muuttujat hyviä ja työkalu kattava, voi louhinnasta selvitä osaamatta koodata riviäkään. Työelämässä tiedonlouhijoilla ja data-analyytikoilla on paljon kysyntää (ja kysyntä kasvaa)! Tiedonlouhinta 2013/L1 p. 35

36 Datan tyypittely Onko rakenteellista (structured)? Onko temporaalista vai staattista? Minkä tyyppisiä muuttujia? Tiedonlouhinta 2013/L2 p. 36

37 Rakenteellinen vs. rakenteeton data rakenteeton data on vain yksi merkkijono, ilman tunnistettavaa rakennetta esim. teksti, ääni, kuva rakenteellisen datan esitys noudattaa ennalta määriteltyä rakennetta tyypillisesti: data koostuu riveistä ja jokainen rivi luettelee tiettyjen muuttujien arvot ts. datarivi on joukko piirteitä eli muuttuja arvo-pareja Tiedonlouhinta 2013/L2 p. 37

38 Rakenteellinen vs. rakenteeton (jatk.) muun tyyppisiä rakenteellisia datoja kutsutaan toisinaan puolirakenteellisiksi (semistructured) esim. tekstitiedosto jonka kieliopillinen rakenne kuvattu tageilla (< sub j>kissa</sub j>< pred>söi</pred> < ob j>hiiren</ob j>) rakenteettomille datoille annetaan rakenne eristämällä piirteitä eli muodostamalla muuttujia ja määrittämällä niiden arvot tiedonlouhinnassa oletetaan yleensä, että data on rakenteellista jos ei ole, on ensin määritettävä rakenne Tiedonlouhinta 2013/L2 p. 38

39 Staattinen ja temporaalinen data staattinen: muuttujien arvot eivät muutu ajan kuluessa (tai mitattu vain kerran, tietyllä ajanhetkellä) temporaalinen (dynaaminen): muuttujan arvot riippuvat ajanhetkestä laitteiden lokidata (log data): aikaleima, tapahtuma, käyttäjä, ym. aikasarjadata (time series data): muuttujan arvo mitattu tasavälein, esim. lehmän x-,y- ja z-kiihtyvyydet 0.1s välein Tiedonlouhinta 2013/L2 p. 39

40 Staattinen ja temporaalinen (jatk.) aina ajankohdalla ei ole väliä! esim. lokista voi analysoida tapahtumia ajankohdasta piittaamatta tai ajankohdan voi esittää karkealla tasolla (aamu, päivä, ilta, yö) jos mittauksia vain parilla muutamalla ajanhetkellä, voi luoda uudet stattiset muuttujat (esim. painoennenkoetta, painokokeenjälkeen) yksilön tai järjestelmän dynamiikan mallinnus edellyttää temporaalisia malleja/hahmoja (ja paljon dataa!) Tiedonlouhinta 2013/L2 p. 40

41 Muuttujien perustyypit MUUTTUJA numeerinen kategorinen jatkuva diskreetti nominaalinen ordinaalinen pituus, paino pulssi, poikasten lkm metsätyyppi, eläinlaji maaperän kosteus (kuiva, tuore, kostea, märkä) Tiedonlouhinta 2013/L2 p. 41

42 Muuttujien perustyypit (jatk.) diskreetin muuttujan mahdollisia arvoja vain numeroituva määrä (esim. kokonaisluvut) ja tietyllä arvovälillä äärellinen määrä jatkuva muuttuja voi saada minkä tahansa arvon annetulta arvoväliltä (eli mahdollisia arvoja ylinumeroituva määrä) käytännössä esitetään kuitenkin jollain tarkkuudella (jolloin mahdollisia arvoja annetulla välillä on vain äärellinen määrä) Tiedonlouhinta 2013/L2 p. 42

43 Muuttujien perustyypit (jatk.) ordinaalimuuttujilla on järjestys, vaikka ei numeerista tulkintaa nominaalimuuttujien arvot vain nimiä, joilla ei numeerista tulkintaa tai järjestystä erikoistapaus binaarimuuttuja, jonka arvo 0 tai 1 (jokin ominaisuus pätee tai ei päde) ei silti numeerista tulkintaa! esim. muuttujat (attribuutit) sairas, naaras, muuntogeeninen Tiedonlouhinta 2013/L2 p. 43

44 Datan esiprosessointi Tärkeimmät tehtävät: 1. Datan puhdistus (Data cleaning): Virheiden, puuttuvien arvojen ym. käsittely 2. Piirteiden eristys (Feature extraction): Uusien muuttujien muodostus vanhoja muuntamalla ja yhdistämällä 3. Piirteiden valinta (Feature selection): Hyvien muuttujien valinta Tiedonlouhinta 2013/L2 p. 44

45 Datan puhdistus Tavoite tunnistaa ja eliminoida mahdollisimman hyvin virheet, puuttuvat arvot, duplikaatit, kohina ja outlierit (poikkeavat havainnot) Automaattisten mittauslaitteiden ongelma lähetyskatkot dataa voi puuttua tietyltä aikaväliltä tai sama datapala on lähetetty kahteen kertaan (duplikaatteja) Jos muuttujat ovat eri lähteistä (esim. askelmittarista lehmän aktiivisuus ja pötsin ph-mittarista ph ja lämpötila), voi puuttuvia arvoja olla vain joissain muuttujissa Tiedonlouhinta 2013/L2 p. 45

46 Datan puhdistus: Kohina ja virheet kohina (noise) = häiriöistä johtuva epätarkkuus/satunnaisvirheet muuttujien arvoissa esim. märehtimismittarin pitäisi äänittää lehmän suun ääniä, mutta taustan traktorin hurina tulee mukaan virheet johtuvat usein inhimillisistä syistä (huolimattomuus) tai laitevioista (laite ei toimi oikein) Tiedonlouhinta 2013/L2 p. 46

47 Datan puhdistus: Outlierit outlierit voivat paljastaa virheen (tai kiinnostavan poikkeavan tapahtuman!) usein outlierit selviävät vasta klusteroidessa (tai sotkevat klusteroinnin) muuttujien jakaumia kannattaa tutkia graafisesti! näkee helposti poikkeavat arvot joskus outlier ei kuitenkaan ole poikkeava minkään yksittäisen muuttujan suhteen, vaan ainoastaan muuttujien arvokombinaation suhteen Tiedonlouhinta 2013/L2 p. 47

48 Puhdistus: Virheiden ja puuttuvien arvojen korjaus Ensisijaisesti korjataan oikeilla arvoilla. Muuten jos paljon, kannattaa muuttuja ehkä karsia kokonaan jos jollain datarivillä paljon puuttuvia, rivi kannattaa poistaa voi korvata muuttujan keskiarvolla tai mediaanilla jos mallinnusmenetelmä sallii puuttuvat arvot, voi ne merkitä vain erikoissymbolilla (esim.?, n/a tai ohjelmassa FLT_MAX) Huom! Joskus puuttuvat arvot voivat myös paljastaa kiinnostavan hahmon! Tiedonlouhinta 2013/L2 p. 48

49 Puhdistus: Kohina ja outlierit Kohinaa voi pienentää pehmentämällä dataa (data smoothing) skaalaus, diskretointi ym. arvoaluetta pienentävät tekniikat piirteiden eristys mallia/sen parametreja valitessa muista: mediaani ei ole yhtä herkkä outlierien vaikutukselle kuin keskiarvo robustit mallinnusmenetelmät pienentävät sekä kohinan että outlierien vaikutusta Tiedonlouhinta 2013/L2 p. 49

50 Piirteiden eristys: Diskretointi Tärkeä menetelmä! (jatkuva) numeerinen muuttuja muunnetaan diskreetiksi numeeriseksi tai kategoriseksi muuttujaksi esim. lehmän painon diskretointi: <=400kg kevyt, kg normaali, >600kg painava binarisointi=diskretoinnin erikoistapaus, kun uusi muuttuja binaarinen esim. lämpötilan tilalle binäärinen pakkasta-muuttuja Huom! Myös kategorisia muuttujia voi binarisoida arvovälin voi jakaa tasakokoisiksi väleiksi, yhtä monta pistettä sisältäviksi tai määrittää osavälit sekventoimalla Tiedonlouhinta 2013/L2 p. 50

51 Diskretointi (jatk.) diskretointi eliminoi kohinaa ja muuta satunnaisvaihtelua (esim. yksilöllisiä eroja), jolloin mallit ja hahmot voivat erottua paremmin pelkästään numeerisestakin datasta kannattaa tutkia diskretoitua versiota! vähemmän kohinaa, selvemmät hahmot tehokkaammat algoritmit diskreetin datan hahmot auttavat myös numeerisen mallinnusmenetelmän valinnassa Tiedonlouhinta 2013/L2 p. 51

52 Piirteiden eristys: Skaalaus uusi muuttuja muotoa X=αY+β, missä Y vanha muuttuja normalisointi: kaikki muuttujat muunnetaan samaan skaalaan standardointi: X= Y mean(y) stdev(y) suositellaan jos datassa outliereita ja käytetään Euklidista metriikkaa (klusterointi, lineaariregressio) voi käyttää diskretoinnin esivaiheena (uudet muuttuja-arvot esim. poikkeuksellisen pieni, normaali, poikkeuksellisen suuri) Tiedonlouhinta 2013/L2 p. 52

53 Piirteiden eristys: Yleistys Vastaa diskretointia kategorisille muuttujille muunnetulla muuttujalla vähemmän arvoja nostetaan abstraktiotasoa, esim. yhdistetään laji-muuttujan arvot peltomyyrä, kenttämyyrä, lapinmyyrä ja idänkenttämyyrä uudeksi arvoksi kenttämyyrät Sekä diskretointi että yleistys tarpeen, jos dataa liian vähän suhteessa muuttujien lukumäärään/arvoalueiden kokoon! (muuten malli ylisovittuu) Tiedonlouhinta 2013/L2 p. 53

54 Piirteiden eristys: PCA ja ICA numeerisille muuttujille, kun paljon dataa uudet muuttujat vanhojen lineaarisia kombinaatioita PCA:ssa (principal component analysis) uudet muuttujat korreloimattomia ja ICA:ssa (independent component analysis) riippumattomia PCA edellyttää normaalijakautunutta dataa! Tiedonlouhinta 2013/L2 p. 54

55 Piirteiden valinta Annettuna muuttujajoukko R, mikä on mallinnuksen kannalta paras mahdollinen X R? tärkeää klusteroinnissa ja ennustavassa mallinnuksessa Kaikkia mahdollisia osajoukkoja X R on 2 k 1 kpl, kun R =k kaikkia ei voi tutkia! (NP-kova ongelma) käytettävä heuristisia menetelmiä testataan jokaisen muuttujan hyvyys erikseen muodostetaan X ahneella heuristiikalla Tiedonlouhinta 2013/L2 p. 55

56 Piirteiden valinta (jatkoa) joskus helppo tunnistaa epärelevantit muuttujat jos muuttuja on johdettu toisesta, ei molempia tarvita jos muuttujien jakaumat hyvin samanlaiset, voi ehkä yhdistää riippuvuusanalyysi kannattaa tehdä ilman valikointia, jos mahdollista Tiedonlouhinta 2013/L2 p. 56

57 Ekskursio 1: NP-kova ongelma (NP-hard problem) kertoo että ongelma on laskennallisesti *** vaikea! vähintään yhtä vaikea kuin aikavaativuusluokan NP (non-deterministic polynomial time) ongelmat todennäköisesti eksponentiaalinen aikavaativuus eli aika-askelten lukumäärä kasvaa eksponentiaalisesti syötteen koon funktiona esim. jos ohjelman pahin aikavaativuus f (k)=2 k aika-askelta, k = muuttujien lkm ja kukin askel 0.001s (riippuu datarivien lkm:stä). Jos k = 100, suoritus voi vaatia 400 triljoonaa ( ) vuotta! ( maailmanloppu jo 4 miljardin v. päästä) onneksi datat harvoin niin patologisia! (riippuu jakaumasta) Tiedonlouhinta 2013/L2 p. 57

58 Ekskursio 2: Visuaalinen muuttujan diskretointi Perusidea: Tutkitaan muuttujan histogrammia ja etsitään aukot 1. Valitse aluksi suuri osavälien (bins) lukumäärä, esim Muodosta histogrammi ja esitä graafisesti 3. Jos histogrammissa selviä kukkuloita ja välillä selviä aukkoja, voi aukkojen kohdalle asettaa diskretointirajan 4. Jos matala tasainen jakauma, vähennä osavälien lkm:ää 5. Jos korkea, mutta ei aukkoja tai edes laaksoja, kokeile lisätä osavälien lkm:ää Tiedonlouhinta 2013/L2 p. 58

59 Esimerkki: internet-käyttäjien lkm maailman valtioissa (per 100 as.) 100 bins esim. 3-jako: x<25, 25 x<58, x 58 Tiedonlouhinta 2013/L2 p. 59

60 Esimerkki: internet-käyttäjien lkm maailman valtioissa (per 100 as.) 50 bins Tiedonlouhinta 2013/L2 p. 60

61 Esimerkki: internet-käyttäjien lkm maailman valtioissa (per 100 as.) 20 bins Tiedonlouhinta 2013/L2 p. 61

62 Muodostus gnumericissa 1. Maalaa haluttu sarake (muuttuja) 2. Valitse Statistics Descriptive statistics Frequency tables Histogram 3. Aseta jakovälien lkm (Cutoffs-valikko) ja ruksaa histogram chart (Graphs & options -valikko). Sitten ok. 4. Tutki tuloslehteä (kuvan voi siirtää taulukkoesityksen päältä) 5. Histogrammin voi tallettaa kuvana (klikkaa hiiren oikealla napilla) Tiedonlouhinta 2013/L2 p. 62

63 Luento 3: 1 Yleiset mallinnusperiaatteet ja 2 Riippuvuusanalyysi 1. Ongelman määrittely datan ja taustateorian ymmärtäminen 2. Esiprosessointi datan siivous, piirteiden eristys ja valinta 3. Tiedonlouhinta (mallinnus/hahmojen haku) 4. Tulosten luotettavuuden arviointi 5. Tulosten havainnollinen esitys ja tulkinta Tiedonlouhinta 2013/L3 p. 63

64 Yleiset mallinnusperiaatteet data-avaruus = kaikki mahdolliset muuttujien arvokombinaatiot hakuavaruus = kaikki mahdolliset annetun formaatin mukaiset mallit/hahmot, jotka datasta voisi johtaa globaalisti ja lokaalisti optimaaliset hakualgoritmit = Ovatko löydetyt mallit/hahmot varmasti parhaita mahdollisia? ylisovittuminen Kuvaako malli liian hyvin syötedatan? Tiedonlouhinta 2013/L3 p. 64

65 Parhaan mallin haku datasta hakualgoritmi Kaikki mahdolliset formaatin mukaiset mallit Data avaruus Haku avaruus tietty datajoukko paras malli ko. syötedatasta Huom! Annetut muuttujat määräävät data-avaruuden. Tiedonlouhinta 2013/L3 p. 65

66 Data-avaruus Olk. muuttujat A 1,..., A k, joiden arvoalueet Dom(A 1 ),..., Dom(A k ). SilloinD=Dom(A 1 )... Dom(A k ) määrittää data-avaruuden. Datan dimensio k Jos kaikki muuttujat diskreettejä, voi kokoa luonnehtia solujen lukumäärällä: D = Dom(A 1 )... Dom(A k ). Nyt Dom(A i ) = {a i1,...,a im } =m Jos jatkuvia muuttujia, ei voi laskea solujen lkm:ää! Nyt Dom(A i ) = [a min, a max ] =a max a min (voi olla ) Tiedonlouhinta 2013/L3 p. 66

67 Esim. 3-ulotteisen diskreetin datan esitys Dom(B) =14 Dom(A) =12 Dom(C) =12 Koko = 2016 solua. Tiedonlouhinta 2013/L3 p. 67

68 Hakuavaruus Kattaa kaikki mahdolliset mallit, jotka mallinnusmenetelmän ja data-avaruuden mukaisia ja jotka voi löytää annetulla hakualgoritmilla Data-avaruus (annetut muuttujat ja niiden arvoalueet) määräävät, millaisia malleja voi löytää Samaan mallinnusmenetelmään ( mallinnusparadigmaan, esim. päätöspuut, neuroverkot, riippuvuussäänöt) voi liittyä erilaisia hakualgoritmeja! voivat löytää eri malleja Tiedonlouhinta 2013/L3 p. 68

69 Esimerkki: riippuvuussääntöjen hakuavaruus Binäärimuuttujat R={A 1,..., A k } ja etsitään säännöt muotoa X A, X R, A X. Hakuavaruus koostuu kaikista mahdollisista säännöistä eli 1. Tutkitaan kaikki mahdolliset R:n osajoukot Y, joiden koko vähintään 2 attribuuttia ( Y 2) R:n potenssijoukko (koko 2 k ) P(R)={, A 1, A 2,..., A k, A 1 A 2, A 1 A 3,..., A k 1 A k, A 1 A 2 A 3,...,..., A 1 A 2... A k } Ei tarvitse tutkia joukkoja,{a 1 },...,{A k }. Tiedonlouhinta 2013/L3 p. 69

70 Esimerkki (jatk.) 2 Jokaisesta osajoukosta Y muodostetaan kaikki mahdolliset säännöt Jos Y =l, voi muodostaa l sääntöä, Y\{A i } A i ( A i Y). Hakuavaruuden koko on siis k i=2 i ( k i) =O(k 2 k ) Tiedonlouhinta 2013/L3 p. 70

71 Hakuavaruus (jatk.) Jos binäärimuuttujat R={A 1,..., A k } ja luokkamuuttuja C. Millainen olisi kaikkien mahdollisten päätöspuiden joukko? Tiedonlouhinta 2013/L3 p. 71

72 Mallin hyvyysmitta Tarvitaan jokin hyvyysmitta M, joka kertoo mallin hyvyyden. esim. miten monta alkiota luokittelee oikein, miten vahva tai merkitsevä riippuvuus on, miten tiheä klusteri on tms. yleensä pyrkii heijastamaan myös sitä, miten hyvin malli yleistyy mallin muodostusdatan ulkopuolelle (ts. että hahmo pätee oikeasti tai malli toimii tulevaisuudessa) Jos malli paranee, kun M kasvaa, on M hyvyyden mukaan kasvava (esim. luokittelun accuracy,χ 2 -mitta) muuten taas hyvyyden mukaan vähenevä (esim. luokitteluvirhe, p-arvot) Tiedonlouhinta 2013/L3 p. 72

73 Hakuongelma: 2 variaatiota Annettu mallinnusmenetelmä, data ja hyvyysmitta M. 1. Luettelointiongelma (enumeration problem): Etsi kaikki riittävän hyvät mallit (annettu jokin M:n raja-arvo). 2. Optimointiongelma (optimization problem): Etsi K parasta mallia (ML:ssä yleensä K = 1) Loppujen lopuksi ei suurta eroa! Käyttäjä ei halua tulokseksi tuhansia (saati miljoonia) hahmoja! Keskitytään optimointiongelmaan Tiedonlouhinta 2013/L3 p. 73

74 Hakualgoritmin optimaalisuus? Globaalisti optimaalinen, jos palauttaa parhaat K mallia hakuavaruudesta Takuu: datasta ei mahdollista löytää näitä parempia annetun muotoisia malleja. Lokaalisti optimaalinen: Löydetyt mallit parhaita jossain hakuavaruuden osassa, mutta eivät välttämättä koko hakuavaruudessa. algoritmi ei tutki koko avaruutta, vaan valikoi tutkittavan alueen heuristisesti algoritmi voi juuttua lokaaliin optimiin Tiedonlouhinta 2013/L3 p. 74

75 Heuristiikka Intuitiivisesti: apumenetelmä tai periaate, jota soveltamalla ongelma ratkeaa nopeammin mutta tulokset silti melko hyviä/useimmiten hyviä. yleensä ovat alioptimaalisia (suboptimal) eli eivät takaa globaalia optimia (parhaan mallin löytymistä) Esim. ahne heuristiikka (greedy heuristic): Edetään haussa sillä hetkellä parhaalta näyttävään suuntaan. Tyypillistä ihmisille! Tyyliin Väsyttää ja masentaa, hirveästi rästitöitä, paras pitää lökeripäivä. (optimoi mielihyvää lyhyellä tähtäimellä) joskus heuristiikan virheellisyys merkitsee vain hidasta hakua, ei oikeiden tulosten hukkaamista (riippuu mihin heuristiikkaa käytetään) Tiedonlouhinta 2013/L3 p. 75

76 Esimerkki: Luokittelusääntöjen hakuavaruus Olk. R={A, B, C, D, E} ja luokka-attribuutti F. Hakuavaruus P(R) voidaan esittää luettelointipuuna (enumeration tree). A C D E C B E D E D D E B E D C D C D E E E E E E D E E E E E Tiedonlouhinta 2013/L3 p. 76

77 Parhaan säännön ahne haku Jos tasoittain haku ylhäältä alas ja ahne haku tuottaisi BDE F:n. Tutkisi vain 9 solmua 32:sta, mutta voi mennä metsään! A B C D E C B C D E C D E D E E D E E D E D E E E D E E E E E Tiedonlouhinta 2013/L3 p. 77

78 Varoituksen sana! Aina menetelmää/sen hakualgoritmia valitessasi Epäile alioptimaalista heuristiikkaa! Ota selvää, mikä heuristiikka on ja milloin se voi hukata parhaat mallit. Miten todennäköistä on, että saadaan huonoja tuloksia? Hälytyskellojen paras soida, jos kuulet sanan ahne heuristiikka (vaikka joskus harvoin turha hälytys) Ongelma: Menetelmien kehittäjät eivät mielellään kerro, ettei menetelmä ole globaalisti optimaalinen... Tiedonlouhinta 2013/L3 p. 78

79 Mallin ylisovittuminen (overfitting) Intuitiivisesti: Malli/hahmo h kuvaa mallinnettavan datan d liian yksityiskohtaisesti, mukaan lukien satunnaisvaihtelun, eikä siksi yleisty d:n ulkopuolelle. Täsmällisemmin: h ylisovittunut, jos h s.e. M(h, d)> M(h, d) mutta M true (h)< M true (h ), missä M true on mallin oikea hyvyys. Oikeaa hyvyyttä M true ei voi mitata! Koetettava arvioida heuristisesti. Oletus: M hyvyyden mukaan kasvava (jos ei, niin vaihda>ja<) Tiedonlouhinta 2013/L3 p. 79

80 Occamin partaveitsi periaate Tärkeä havainto: Ylisovittuminen edellyttää monimutkaista mallia. monimutkaisella mallilla voi kuvata yksityiskohdat tarkka kuvaus mutta harvoille (tai vain yhdelle) datajoukoille yksinkertaisella mallilla ei voi kuvata kaikkia yksityiskohtia kuvaa ylimalkaisemmin mutta useampia datajoukkoja ylisovittumista voi estää kontrolloimalla mallin monimutkaisuutta! = Occamin partaveitsi (Occam s Razor) periaate: (Yhtä hyvistä) malleista suosi yksinkertaisinta. tai rankaise monimutkaisuudesta Tiedonlouhinta 2013/L3 p. 80

Tiedonlouhinta (kl 2013) Kurssin kuvaus. Esitiedot. Kurssin arvostelu

Tiedonlouhinta (kl 2013) Kurssin kuvaus. Esitiedot. Kurssin arvostelu Tiedonlouhinta (kl 2013) Kurssin kuvaus 00 11 00 11 00 11 01 01 01 01 11000 111 11000 111 00 11 joko kandidaatti- tai maisteritason valinnainen kurssi Toteutus pääasiassa ongelmalähtöisesti (tiedonlouhintaprosessin

Lisätiedot

Ongelmien ja menetelmien tyypittelyä. Käyttötarkoituksia. Konsistentti ja epäkonsistentti data. Esimerkki: Deterministinen luokittelu

Ongelmien ja menetelmien tyypittelyä. Käyttötarkoituksia. Konsistentti ja epäkonsistentti data. Esimerkki: Deterministinen luokittelu Luento 5: Luokittelu Määritelmä Käyttötarkoitukset Ongelmien ja luokittelijoiden tyypittely auttaa valitsemaan oikean menetelmän Tärkeimmät menetelmät Päätöspuut ja luokittelusäännöt Bayes-luokittelijat

Lisätiedot

Datan tyypittely. Rakenteellinen vs. rakenteeton data. Rakenteellinen vs. rakenteeton (jatk.) Staattinen ja temporaalinen data

Datan tyypittely. Rakenteellinen vs. rakenteeton data. Rakenteellinen vs. rakenteeton (jatk.) Staattinen ja temporaalinen data Datan tyypittely Onko rakenteellista (structured)? Onko temporaalista vai staattista? Minkä tyyppisiä muuttujia? Rakenteellinen vs. rakenteeton data rakenteeton data on vain yksi merkkijono, ilman tunnistettavaa

Lisätiedot

I Data ja sen esiprosessointi

I Data ja sen esiprosessointi Tiedonlouhinta 2013 Kotikoe (palautuspäivä 24.6.2012) Tee tehtäviä kaikista osioista. (Kannattaa ehdottomasti tehdä kaikki tehtävät! Silloin harjoitustyökin sujuu helpommin.) Tehtävät arvostellaan ja mikäli

Lisätiedot

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ] Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

Globaali optimonti haastaa lokaalit menetelmät: luotettavampia riippuvuuksia tehosta tinkimättä

Globaali optimonti haastaa lokaalit menetelmät: luotettavampia riippuvuuksia tehosta tinkimättä Tietojenkäsittelytiede 34 (Huhtikuu 2012) sivut 6 16 Toimittaja: Jorma Tarhio c kirjoittaja(t) Globaali optimonti haastaa lokaalit menetelmät: luotettavampia riippuvuuksia tehosta tinkimättä Wilhelmiina

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Tietorakenteet ja algoritmit - syksy 2015 1

Tietorakenteet ja algoritmit - syksy 2015 1 Tietorakenteet ja algoritmit - syksy 2015 1 Tietorakenteet ja algoritmit - syksy 2015 2 Tietorakenteet ja algoritmit Johdanto Ari Korhonen Tietorakenteet ja algoritmit - syksy 2015 1. JOHDANTO 1.1 Määritelmiä

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari Korhonen

Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari Korhonen Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari 1 1. JOHDANTO 1.1 Määritelmiä 1.2 Tietorakenteen ja algoritmin valinta 1.3 Algoritmit ja tiedon määrä 1.4 Tietorakenteet ja toiminnot 1.5 Esimerkki:

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.

Lisätiedot

naaraat < read.table('http://cs.joensuu.fi/pages/whamalai/dm13/naaraatvalikoitu.csv', head=t, sep=',')

naaraat < read.table('http://cs.joensuu.fi/pages/whamalai/dm13/naaraatvalikoitu.csv', head=t, sep=',') naaraat < read.table('http://cs.joensuu.fi/pages/whamalai/dm13/naaraatvalikoitu.csv', head=t, sep=',') printf < function(...) { print(sprintf(...)) c_by_method < NULL # Listataan ne muuttujaparit, joilla

Lisätiedot

Hahmon etsiminen syotteesta (johdatteleva esimerkki)

Hahmon etsiminen syotteesta (johdatteleva esimerkki) Hahmon etsiminen syotteesta (johdatteleva esimerkki) Unix-komennolla grep hahmo [ tiedosto ] voidaan etsia hahmon esiintymia tiedostosta (tai syotevirrasta): $ grep Kisaveikot SM-tulokset.txt $ ps aux

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Logistinen regressio, separoivat hypertasot

Logistinen regressio, separoivat hypertasot Logistinen regressio, separoivat hypertasot Topi Sikanen Logistinen regressio Aineisto jakautunut K luokkaan K=2 tärkeä erikoistapaus Halutaan mallintaa luokkien vedonlyöntikertoimia (odds) havaintojen

Lisätiedot

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Teema 3: Tilastollisia kuvia ja tunnuslukuja Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

Kombinatorinen optimointi

Kombinatorinen optimointi Kombinatorinen optimointi Sallittujen pisteiden lukumäärä on äärellinen Periaatteessa ratkaisu löydetään käymällä läpi kaikki pisteet Käytännössä lukumäärä on niin suuri, että tämä on mahdotonta Usein

Lisätiedot

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen

Lisätiedot

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana

Tilastolliset ohjelmistot 805340A. Pinja Pikkuhookana Tilastolliset ohjelmistot 805340A Pinja Pikkuhookana Sisältö 1 SPSS 1.1 Yleistä 1.2 Aineiston syöttäminen 1.3 Aineistoon tutustuminen 1.4 Kuvien piirtäminen 1.5 Kuvien muokkaaminen 1.6 Aineistojen muokkaaminen

Lisätiedot

Johdanto. Rough Sets. Peruskäsitteitä

Johdanto. Rough Sets. Peruskäsitteitä Johdanto Rough Sets "The central problem of our age is how to act decisively in the absence of certainty" B Russel, 1940 Rough sets on 1980-luvun alussa Puolassa (Z Pawlak) kehitetty epävarmuutta ja epämääräisyyttä

Lisätiedot

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi Historiaa Bayesin kaavan hyödyntäminen BN-ohjelmistoja ollut ennenkin Tanskalaisten Hugin

Lisätiedot

Rottien hyvinvointiin ja stressiin vaikuttavat tekijät

Rottien hyvinvointiin ja stressiin vaikuttavat tekijät Rottien hyvinvointiin ja stressiin vaikuttavat tekijät Tiedonlouhinnan harjoitustyö Juha Mehtonen jmehtone@student.uef.fi Joni Mönttinen jmontti@cs.joensuu.fi i YLEISKUVAUS AIHEESTA (JONI MÖNTTINEN) Tutkimuksen

Lisätiedot

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Aineistoista 11.2.09 IK Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Muotoilussa kehittyneet menetelmät, lähinnä luotaimet Havainnointi:

Lisätiedot

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3

Lisätiedot

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä?

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä? Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä? 2013-2014 Lasse Lensu 2 Ongelma 2: Milloin ongelmat muuttuvat oikeasti hankaliksi? 2013-2014 Lasse Lensu 3 Ongelma 3: Miten hankalia ongelmia

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan? Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan? 2012-2013 Lasse Lensu 2 Ihmisen, eläinten ja kasvien hyvinvoinnin kannalta nykyaikaiset mittaus-,

Lisätiedot

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten. Tilastollinen tietojenkäsittely / SPSS Harjoitus 1 VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten. 1. Avaa SPSS-ohjelma. Tarkoitus olisi muodostaa tämän sivun

Lisätiedot

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? 1 / 14 Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 31.10.2011 2 / 14 Tämän luennon sisältö

Lisätiedot

Assosiaatiosäännöt ja niiden etsintä datasta

Assosiaatiosäännöt ja niiden etsintä datasta Assosiaatiosäännöt ja niiden etsintä datasta Wilhelmiina Hämäläinen 6. helmikuuta 2007 1 Mitä on tiedon louhinta? Tiedonlouhinnan (Data mining) tavoitteena on löytää kiinnostavia hahmoja datasta. hahmo=osittaismalli

Lisätiedot

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSOPAS. SPSS-opas TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

YLEISKUVA - Kysymykset

YLEISKUVA - Kysymykset INSIGHT Käyttöopas YLEISKUVA - Kysymykset 1. Insight - analysointityökalun käytön mahdollistamiseksi täytyy kyselyn raportti avata Beta - raportointityökalulla 1. Klikkaa Insight välilehteä raportilla

Lisätiedot

7 Osa 7: Pidempiä esimerkkejä R:n käytöstä

7 Osa 7: Pidempiä esimerkkejä R:n käytöstä 7 Osa 7: Pidempiä esimerkkejä R:n käytöstä R:n pääasiallinen käyttö monelle on tilastollisten menetelmien suorittaminen. Käydään nyt läpi joitain esimerkkitilanteita, alkaen aineiston luvusta ja päättyen

Lisätiedot

Esimerkkejä polynomisista ja ei-polynomisista ongelmista

Esimerkkejä polynomisista ja ei-polynomisista ongelmista Esimerkkejä polynomisista ja ei-polynomisista ongelmista Ennen yleisempiä teoriatarkasteluja katsotaan joitain tyypillisiä esimerkkejä ongelmista ja niiden vaativuudesta kaikki nämä ongelmat ratkeavia

Lisätiedot

Aki Taanila AIKASARJAENNUSTAMINEN

Aki Taanila AIKASARJAENNUSTAMINEN Aki Taanila AIKASARJAENNUSTAMINEN 26.4.2011 SISÄLLYS JOHDANTO... 1 1 AIKASARJA ILMAN SYSTEMAATTISTA VAIHTELUA... 2 1.1 Liukuvan keskiarvon menetelmä... 2 1.2 Eksponentiaalinen tasoitus... 3 2 AIKASARJASSA

Lisätiedot

FUNKTIONAALIANALYYSIN PERUSKURSSI 1. 0. Johdanto

FUNKTIONAALIANALYYSIN PERUSKURSSI 1. 0. Johdanto FUNKTIONAALIANALYYSIN PERUSKURSSI 1. Johdanto Funktionaalianalyysissa tutkitaan muun muassa ääretönulotteisten vektoriavaruuksien, ja erityisesti täydellisten normiavaruuksien eli Banach avaruuksien ominaisuuksia.

Lisätiedot

Aikasarja-analyysiä taloudellisilla aineistoilla

Aikasarja-analyysiä taloudellisilla aineistoilla Aikasarja-analyysiä taloudellisilla aineistoilla Leena Kalliovirta, Luonnonvarakeskus Leena.kalliovirta@luke.fi Kurssi Tilastotiede tutuksi HY matematiikan ja tilastotieteen laitos 1 Leena Kalliovirta

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

Tilastotieteen jatkokurssi syksy 2003 Välikoe 2 11.12.2003

Tilastotieteen jatkokurssi syksy 2003 Välikoe 2 11.12.2003 Nimi Opiskelijanumero Tilastotieteen jatkokurssi syksy 2003 Välikoe 2 11.12.2003 Normaalisti jakautuneiden yhdistyksessä on useita tuhansia jäseniä. Yhdistyksen sääntöjen mukaan sääntöihin tehtävää muutosta

Lisätiedot

Reikä. Säätila. Hammassärky Osuma

Reikä. Säätila. Hammassärky Osuma 190 Nuolen X Y intuitiivinen merkitys on, että X vaikuttaa suoraan Y:hyn Verkon topologia solmut ja nuolet määräävät muuttujien ehdolliset riippumattomuudet Kun topologia on kiinnitetty, pitää vielä määrätä

Lisätiedot

Muuttujien riippumattomuus

Muuttujien riippumattomuus 199 Muuttujien riippumattomuus Jos esimerkkiin lisätään muuttuja Säätila, jolla on 4 mahdollista arvoa, on edellä ollut yhteisjakauman taulukko monistettava neljästi Koska hammasongelmat eivät vaikuta

Lisätiedot

Teema 4. Homomorfismeista Ihanne ja tekijärengas. Teema 4 1 / 32

Teema 4. Homomorfismeista Ihanne ja tekijärengas. Teema 4 1 / 32 1 / 32 Esimerkki 4A.1 Esimerkki 4A.2 Esimerkki 4B.1 Esimerkki 4B.2 Esimerkki 4B.3 Esimerkki 4C.1 Esimerkki 4C.2 Esimerkki 4C.3 2 / 32 Esimerkki 4A.1 Esimerkki 4A.1 Esimerkki 4A.2 Esimerkki 4B.1 Esimerkki

Lisätiedot

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä?

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä? Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä? 2012-2013 Lasse Lensu 2 Ongelma 2: Milloin ongelmat muuttuvat oikeasti hankaliksi? 2012-2013 Lasse Lensu 3 Ongelma 3: Miten hankalia ongelmia

Lisätiedot

Laskuharjoitus 9, tehtävä 6

Laskuharjoitus 9, tehtävä 6 Aalto-yliopiston perustieteiden korkeakoulu Jouni Pousi Systeemianalyysin laboratorio Mat-2.4129 Systeemien identifiointi Laskuharjoitus 9, tehtävä 6 Tämä ohje sisältää vaihtoehtoisen tavan laskuharjoituksen

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat: Yleistä Tilastoapu on Excelin sisällä toimiva apuohjelma, jonka avulla voit analysoida tilastoaineistoja. Tilastoapu toimii Excelin Windows-versioissa Excel 2007, Excel 2010 ja Excel 2013. Kun avaat Tilastoavun,

Lisätiedot

Esimerkkiprojekti. Mallivastauksen löydät Wroxin www-sivuilta. Kenttä Tyyppi Max.pituus Rajoitukset/Kommentit

Esimerkkiprojekti. Mallivastauksen löydät Wroxin www-sivuilta. Kenttä Tyyppi Max.pituus Rajoitukset/Kommentit Liite E - Esimerkkiprojekti E Esimerkkiprojekti Olet lukenut koko kirjan. Olet sulattanut kaiken tekstin, Nyt on aika soveltaa oppimiasi uusia asioita pienen, mutta täydellisesti muotoiltuun, projektiin.

Lisätiedot

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta Tuloperiaate Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta ja 1. vaiheessa valinta voidaan tehdä n 1 tavalla,. vaiheessa valinta voidaan tehdä n tavalla,

Lisätiedot

Ruokinta-automaattidatan analyysi

Ruokinta-automaattidatan analyysi Tiedonlouhinta (4 op) kevät 2013 Harjoitustyöseminaari 20.5.2013 Ruokinta-automaattidatan analyysi Jonne Heikkinen Sami Hyvönen Salla Ruuska Johdanto Eläintutkimuksessa (ja tuotannossa) hyödynnetään monenlaista

Lisätiedot

Algoritmit 1. Luento 13 Ti 23.2.2016. Timo Männikkö

Algoritmit 1. Luento 13 Ti 23.2.2016. Timo Männikkö Algoritmit 1 Luento 13 Ti 23.2.2016 Timo Männikkö Luento 13 Suunnittelumenetelmät Taulukointi Kapsäkkiongelma Ahne menetelmä Verkon lyhimmät polut Dijkstran menetelmä Verkon lyhin virittävä puu Kruskalin

Lisätiedot

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti Luku 6 Dynaaminen ohjelmointi Dynaamisessa ohjelmoinnissa on ideana jakaa ongelman ratkaisu pienempiin osaongelmiin, jotka voidaan ratkaista toisistaan riippumattomasti. Jokaisen osaongelman ratkaisu tallennetaan

Lisätiedot

Ohjelmoinnin peruskurssi Y1

Ohjelmoinnin peruskurssi Y1 Ohjelmoinnin peruskurssi Y1 CSE-A1111 30.9.2015 CSE-A1111 Ohjelmoinnin peruskurssi Y1 30.9.2015 1 / 27 Mahdollisuus antaa luentopalautetta Goblinissa vasemmassa reunassa olevassa valikossa on valinta Luentopalaute.

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Matematiikka B2 - Avoin yliopisto

Matematiikka B2 - Avoin yliopisto 6. elokuuta 2012 Opetusjärjestelyt Luennot 9:15-11:30 Harjoitukset 12:30-15:00 Tentti Kurssin sisältö (1/2) Matriisit Laskutoimitukset Lineaariset yhtälöryhmät Gaussin eliminointi Lineaarinen riippumattomuus

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Hiirten ja rottien sydännäytteistä tuotetun mikrosirudatan analysointi

Hiirten ja rottien sydännäytteistä tuotetun mikrosirudatan analysointi Hiirten ja rottien sydännäytteistä tuotetun mikrosirudatan analysointi Tiedonlouhinnan harjoitustyö 9.6.2013 Antti Kurronen Irene Pöllänen antti.kurronen@student.uef.fi 1 YLEISKUVAUS (ANTTI KURRONEN) Tutkimuksessa

Lisätiedot

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

811312A Tietorakenteet ja algoritmit 2015-2016. I Johdanto

811312A Tietorakenteet ja algoritmit 2015-2016. I Johdanto 811312A Tietorakenteet ja algoritmit 2015-2016 I Johdanto Sisältö 1. Algoritmeista ja tietorakenteista 2. Algoritmien analyysistä 811312A TRA, Johdanto 2 I.1. Algoritmeista ja tietorakenteista I.1.1. Algoritmien

Lisätiedot

SPSS OPAS. Metropolia Liiketalous

SPSS OPAS. Metropolia Liiketalous 1 Metropolia Liiketalous SPSS OPAS Aihe sivu 1. Ohjelman periaate 2 2. Aineistoikkuna 3 3. Frekvenssit 4 4. Muuttujien arvojen luokittelu 5 5. Tunnusluvut 6 6. Ristiintaulukointi 7 7. Hajontakaavio 8 8.Korrelaatio

Lisätiedot

Laskennan vaativuus ja NP-täydelliset ongelmat

Laskennan vaativuus ja NP-täydelliset ongelmat Laskennan vaativuus ja NP-täydelliset ongelmat TRAK-vierailuluento 13.4.2010 Petteri Kaski Tietojenkäsittelytieteen laitos Tietojenkäsittelytiede Tietojenkäsittelytiede tutkii 1. mitä tehtäviä voidaan

Lisätiedot

Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo 20.1.2012

Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo 20.1.2012 Puheentutkimuksen tilastoanalyysin perusteet 8. luento Pertti Palo 20.1.2012 Käytännön asioita Viimeisen seminaarin siirto: 2.3. 10-12 -> 2.3. 14-16. Miten seminaarin luentokuulustelun voi korvata? Harjoitustöiden

Lisätiedot

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. 1/11 4 MITTAAMINEN Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. Mittausvirhettä johtuen mittarin tarkkuudesta tai häiriötekijöistä Mittarin

Lisätiedot

Aki Taanila LINEAARINEN OPTIMOINTI

Aki Taanila LINEAARINEN OPTIMOINTI Aki Taanila LINEAARINEN OPTIMOINTI 26.4.2011 JOHDANTO Tässä monisteessa esitetään lineaarisen optimoinnin alkeet. Moniste sisältää tarvittavat Excel ohjeet. Viimeisin versio tästä monisteesta ja siihen

Lisätiedot

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen 03.11.2014

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen 03.11.2014 TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA LUKIJAN NÄKÖKULMA 2 TAUSTAKYSYMYKSIÄ 3 Mitä tutkimusmenetelmiä ja taitoja opiskelijoille tulisi opettaa koulutuksen eri vaiheissa?

Lisätiedot

Määrittelydokumentti

Määrittelydokumentti Määrittelydokumentti Aineopintojen harjoitustyö: Tietorakenteet ja algoritmit (alkukesä) Sami Korhonen 014021868 sami.korhonen@helsinki. Tietojenkäsittelytieteen laitos Helsingin yliopisto 23. kesäkuuta

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Mustat joutsenet pörssikaupassa

Mustat joutsenet pörssikaupassa Mustat joutsenet pörssikaupassa Kimmo Vehkalahti yliopistonlehtori, VTT soveltavan tilastotieteen dosentti Opettajien akatemian jäsen Yhteiskuntatilastotiede, Sosiaalitieteiden laitos Valtiotieteellinen

Lisätiedot

Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto

Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto Esimerkki Tarkastelemme ilmiötä I, joka on a) tiettyyn kauppaan tulee asiakkaita

Lisätiedot

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka Kemometriasta Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka Mistä puhutaan? Määritelmiä Määritys, rinnakkaismääritys Mittaustuloksen luotettavuus Kalibrointi Mittausten

Lisätiedot

VeRan laboratoriotietojen siirtoformaatti

VeRan laboratoriotietojen siirtoformaatti FCG Finnish Consulting Group Oy VERA TOIMINTAOHJEET Rev./pvm 1.03 Hyväksytty 30.4.2010 Sisältö Käyttö Vastuuhenkilö VeRan tiedonsiirtoformaatti Laboratoriot, jotka toimittavat tulokset suoraan VeRaan.

Lisätiedot

Topologia Syksy 2010 Harjoitus 9

Topologia Syksy 2010 Harjoitus 9 Topologia Syksy 2010 Harjoitus 9 (1) Avaruuden X osajoukko A on G δ -joukko, jos se on numeroituva leikkaus avoimista joukoista ja F σ -joukko, jos se on numeroituva yhdiste suljetuista joukoista. Osoita,

Lisätiedot

ELMAS 4 Laitteiden kriittisyysluokittelu 8.2.2012 1/10. Ramentor Oy ELMAS 4. Laitteiden kriittisyysluokittelu. Versio 1.0

ELMAS 4 Laitteiden kriittisyysluokittelu 8.2.2012 1/10. Ramentor Oy ELMAS 4. Laitteiden kriittisyysluokittelu. Versio 1.0 1/10 Ramentor Oy ELMAS 4 Laitteiden kriittisyysluokittelu Versio 1.0 2/10 SISÄLTÖ 1 Kuvaus... 3 2 Kriittisyysluokittelu ELMAS-ohjelmistolla... 4 2.1 Kohteen mallinnus... 4 2.2 Kriittisyystekijöiden painoarvojen

Lisätiedot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a 21

Lisätiedot

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Aikataulu ja suoritustapa (Katso MyCourses) Luennot

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

Lehmän poikimiskäyttäytymistä indikoivien piirteideneristys. Tiedonlouhinta 2013 Sari Kajava, Ville Kumpulainen, Nina Hänninen

Lehmän poikimiskäyttäytymistä indikoivien piirteideneristys. Tiedonlouhinta 2013 Sari Kajava, Ville Kumpulainen, Nina Hänninen Lehmän poikimiskäyttäytymistä indikoivien piirteideneristys kiihtyvyysdatasta Tiedonlouhinta 2013 Sari Kajava, Ville Kumpulainen, Nina Hänninen Sisältö Yleiskuva Alkuperäisen datan kuvaus Esiprosessointi

Lisätiedot

Algoritmit 1. Luento 10 Ke 11.2.2015. Timo Männikkö

Algoritmit 1. Luento 10 Ke 11.2.2015. Timo Männikkö Algoritmit 1 Luento 10 Ke 11.2.2015 Timo Männikkö Luento 10 Algoritminen ongelman ratkaisu Suunnittelumenetelmät Raaka voima Järjestäminen eli lajittelu Kuplalajittelu Väliinsijoituslajittelu Valintalajittelu

Lisätiedot

Relaation ominaisuuksia. Ominaisuuksia koskevia lauseita Sulkeumat. Joukossa X määritelty relaatio R on. (ir) irrefleksiivinen, jos x Rx kaikilla x X,

Relaation ominaisuuksia. Ominaisuuksia koskevia lauseita Sulkeumat. Joukossa X määritelty relaatio R on. (ir) irrefleksiivinen, jos x Rx kaikilla x X, Relaation Joukossa X määritelty relaatio R on (r) refleksiivinen, jos xrx kaikilla x X, (ir) irrefleksiivinen, jos x Rx kaikilla x X, Relaation Joukossa X määritelty relaatio R on (r) refleksiivinen, jos

Lisätiedot

Projektisuunnitelma ja johdanto AS-0.3200 Automaatio- ja systeemitekniikan projektityöt Paula Sirén

Projektisuunnitelma ja johdanto AS-0.3200 Automaatio- ja systeemitekniikan projektityöt Paula Sirén Projektisuunnitelma ja johdanto AS-0.3200 Automaatio- ja systeemitekniikan projektityöt Paula Sirén Sonifikaatio Menetelmä Sovelluksia Mahdollisuuksia Ongelmia Sonifikaatiosovellus: NIR-spektroskopia kariesmittauksissa

Lisätiedot

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten Todennäköisyys Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten tietoliikennejärjestelmien ymmärtämisessä

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

E. Oja ja H. Mannila Datasta Tietoon: Luku 2 2. DATASTA TIETOON: MITÄ DATAA; MITÄ TIETOA? 2.1. Data-analyysin ongelma Tulevien vuosien valtava haaste on digitaalisessa muodossa talletetun datan kasvava määrä Arvioita: Yhdysvaltojen kongressin kirjasto

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Algoritmit 1. Luento 14 Ke 25.2.2015. Timo Männikkö

Algoritmit 1. Luento 14 Ke 25.2.2015. Timo Männikkö Algoritmit 1 Luento 14 Ke 25.2.2015 Timo Männikkö Luento 14 Heuristiset menetelmät Heuristiikkoja kapsäkkiongelmalle Kauppamatkustajan ongelma Lähimmän naapurin menetelmä Kertaus ja tenttivinkit Algoritmit

Lisätiedot

S-114.2720 Havaitseminen ja toiminta

S-114.2720 Havaitseminen ja toiminta S-114.2720 Havaitseminen ja toiminta Heikki Hyyti 60451P Harjoitustyö 2 visuaalinen prosessointi Treismanin FIT Kuva 1. Kuvassa on Treismanin kokeen ensimmäinen osio, jossa piti etsiä vihreätä T kirjainta.

Lisätiedot

PRELIMINÄÄRIKOE PITKÄ MATEMATIIKKA 9.2.2011

PRELIMINÄÄRIKOE PITKÄ MATEMATIIKKA 9.2.2011 PRELIMINÄÄRIKOE PITKÄ MATEMATIIKKA 9..0 Kokeessa saa vastata enintään kymmeneen tehtävään.. Sievennä a) 9 x x 6x + 9, b) 5 9 009 a a, c) log 7 + lne 7. Muovailuvahasta tehty säännöllinen tetraedri muovataan

Lisätiedot

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin Mediaanisuodattimet Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että niiden ominaisuudet tunnetaan hyvin niiden analysointiin on olemassa vakiintuneita menetelmiä

Lisätiedot

Kuormat on yhdistettävä rakennesuunnittelussa riippuvasti

Kuormat on yhdistettävä rakennesuunnittelussa riippuvasti 16.5.2012/1(6)/tp Kuormat on yhdistettävä rakennesuunnittelussa riippuvasti Pysyvät kuormat ovat riippumattomia, mutta ne yhdistetään nykyisissä rakennesuunnittelunormeissa aina riippuvasti 1. Pysyvä ja

Lisätiedot

SEM1, työpaja 2 (12.10.2011)

SEM1, työpaja 2 (12.10.2011) SEM1, työpaja 2 (12.10.2011) Rakenneyhtälömallitus Mplus-ohjelmalla POLKUMALLIT Tarvittavat tiedostot voit ladata osoitteesta: http://users.utu.fi/eerlaa/mplus Esimerkki: Planned behavior Ajzen, I. (1985):

Lisätiedot

Valitse aineisto otsikoineen maalaamalla se hiirella ja kopioimalla (Esim. ctrl-c). Vaihtoehtoisesti, Lataa CSV-tiedosto

Valitse aineisto otsikoineen maalaamalla se hiirella ja kopioimalla (Esim. ctrl-c). Vaihtoehtoisesti, Lataa CSV-tiedosto Versio k15 Näin laadit ilmastodiagrammin Libre Officen taulukkolaskentaohjelmalla. Ohje on laadittu käyttäen Libre Officen versiota 4.2.2.1. Voit ladata ohjelmiston omalle koneellesi osoitteesta fi.libreoffice.org.

Lisätiedot

Lineaarinen rakennearvostelu ja rakenneindeksit. Jukka Pösö Faba Jalostus

Lineaarinen rakennearvostelu ja rakenneindeksit. Jukka Pösö Faba Jalostus Lineaarinen rakennearvostelu ja rakenneindeksit Jukka Pösö Faba Jalostus Lineaarinen rakennearvostelu arvostellaan rakennetta/liikkumista yksityiskohtaisesti esimerkkejä: korkeus jalka-asennot: vuohinen

Lisätiedot