805306A Johdatus monimuuttujamenetelmiin, 5 op

Samankaltaiset tiedostot
805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

805306A Johdatus monimuuttujamenetelmiin, 5 op

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

805306A Johdatus monimuuttujamenetelmiin, 5 op

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

805306A Johdatus monimuuttujamenetelmiin, 5 op

Johdatus tilastotieteeseen

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

TUTKIMUSOPAS. SPSS-opas

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Kandidaatintutkielman aineistonhankinta ja analyysi

Til.yks. x y z

T DATASTA TIETOON

805306A Johdatus monimuuttujamenetelmiin, 5 op

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas


Sovellettu todennäköisyyslaskenta B

Funktiot ja raja-arvo P, 5op

Sovellettu todennäköisyyslaskenta B

RISTIINTAULUKOINTI JA Χ 2 -TESTI

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Tietoturva. 0. Tietoa kurssista P 5 op. Oulun yliopisto Tietojenkäsittelytieteiden laitos Periodi / 2015

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Tervetuloa! Matematiikka tutuksi

MATHM Hypermedian jatko-opintoseminaari

802118P Lineaarialgebra I (4 op)

ABTEKNILLINEN KORKEAKOULU Tietoverkkolaboratorio

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Sovellettu todennäköisyyslaskenta B

Tilastotieteen aihehakemisto

Matematiikka ja tilastotiede

HAHMONTUNNISTUKSEN PERUSTEET

Tähtitieteen käytännön menetelmiä Kevät 2009

Viikko 1: Johdantoa Matti Kääriäinen

Kvantitatiiviset menetelmät

Mat Tilastollisen analyysin perusteet, kevät 2007

SYVENTÄVÄT OPINNOT KEVÄÄLLÄ 2018 Kaikille yhteiset pakolliset opintojaksot

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Kvantitatiiviset menetelmät

Mitä IHMEttä on MIXTURE -mallintaminen?

Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä..

Oppijan saama palaute määrää oppimisen tyypin


ALGORITMIT & OPPIMINEN

HAHMONTUNNISTUKSEN PERUSTEET

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

CLT255: Tulosten esittäminen ja niiden arviointi tilastomenetelmillä

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Mat Tilastollisen analyysin perusteet, kevät 2007

A = a b B = c d. d e f. g h i determinantti on det(c) = a(ei fh) b(di fg) + c(dh eg). Matriisin determinanttia voi merkitä myös pystyviivojen avulla:

Mustat joutsenet pörssikaupassa

Syksy 2015 Opintojaksot ja tentit

Harjoitus 9: Excel - Tilastollinen analyysi

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Matematiikka ja tilastotiede. Orientoivat opinnot /

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Yleistetyistä lineaarisista malleista

MONISTE 2 Kirjoittanut Elina Katainen

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Kevään 2013 alustava opetusohjelma

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Luento-osuusosuus. tilasto-ohjelmistoaohjelmistoa

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Matematiikka ja tilastotiede. Orientoivat opinnot /

- Ilmoittaudu OODI:n kautta ainakin luentojen kohdalle, jotta olet mukana opintotoimiston listoilla.

Määrällisen aineiston esittämistapoja. Aki Taanila

Johdatus matematiikkaan

1. Tilastollinen malli??

Tekoälykoulutus seniorimentoreille

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

Oma nimesi Tehtävä (5)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

AB TEKNILLINEN KORKEAKOULU

Harjoitus 2: Matlab - Statistical Toolbox

ABTEKNILLINEN KORKEAKOULU Tietoverkkolaboratorio

Tilastotiede ottaa aivoon

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

Sarjat ja integraalit, kevät 2015

031075P MATEMATIIKAN PERUSKURSSI II 5,0 op

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Johdatus tekoälyn taustalla olevaan matematiikkaan

Kurssiesite Lausekielinen ohjelmointi Syksy Jorma Laurikkala Tietojenkäsittelytieteet Informaatiotieteiden yksikkö Tampereen yliopisto

JOHDATUS TEKOÄLYYN TEEMU ROOS

Transkriptio:

monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos

Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101, poikkeus 7.11. AT115B) Torstaisin klo 14-16 (sali vaihtelee) Harjoitukset 5.11.18.12.-18 Ryhmä 1: maanantaisin klo 12-14 (MA336/MA337) Ryhmä 2: tiistaisin klo 12-14 (MA336/MA337) Kurssimateriaali Luentodiat James, G., Witten, D., Hastie, T., Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. Springer, New York; luvut 4 ja 10. http://www-bcf.usc.edu/~gareth/isl/ Harjoitusten kotitehtävät ja harjoitusten R-osuuden materiaali monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 2 / 28

Kotitehtävät tulevat kurssin kotisivuille Noppaan harjoitusta edeltävän viikon torstaina ja luentodiat luentoa edeltävänä päivänä. Kurssin kotisivut Nopassa: https://noppa.oulu.fi/noppa/kurssi/805306a/etusivu Loppukoepäivät tiistaina 8.1.2019 tiistaina 19.2.2019 monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 3 / 28

Johdatus monimuuttujamenetelmiin Monimuuttujamenetelmät ovat menetelmiä, joissa analyysissä on mukana yhtä aikaa useita muuttujia. Kurssilla käsitellään mm. seuraavia menetelmiä: Ohjattu oppiminen (supervised learning) K-lähimmän naapurin menetelmä Logistinen regressioanalyysi Erotteluanalyysi Ohjaamaton oppiminen (unsupervised learning) Pääkomponenttianalyysi Faktorianalyysi Ryhmittelyanalyysi monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 4 / 28

Analysoitava havaintomatriisi näyttää yleisessä muodossa tältä: x 11 x 12... x 1p x 21 x 22... x 2p........ x n1 x n2... x np, missä x ij = muuttujan X j havaittu arvo tilastoyksiköllä i (j = 1,..., p ja i = 1,..., n). Aineistossa on siis n havaintoa (riviä) ja p muuttujaa (saraketta): X1, X 2,..., X p Aineiston muuttujat voivat olla laatua ja/tai määrää mittaavia. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 5 / 28

Konkreettinen esimerkki analysoitavasta havaintomatriisista voisi näyttää puolestaan tältä: 57 52 41 47 57 male... general 68 59 53 63 61 female... vocation 44 33 54 58 31 male... general 63 44 47 53 56 male... vocation 47 52 57 53 61 male... academic 44 52 51 63 61 male... general............ 63 65 65 53 61 female... academic Yllä n = 200, X 1 = lukutestin pistemäärä, X 2 = kirjoitustestin pistemäärä, X 3 = matematiikkatestin pistemäärä,. X 11 = opiskelulinja. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 6 / 28

Aineiston muuttujista yksi voidaan valita selitettäksi muuttujaksi eli vasteeksi... 57 52 41 47 57 male... general 68 59 53 63 61 female... vocation 44 33 54 58 31 male... general 63 44 47 53 56 male... vocation 47 52 57 53 61 male... academic 44 52 51 63 61 male... general............ 63 65 65 53 61 female... academic...jonka jälkeen analyysin tavoitteena voi olla esimerkiksi vasteen arvojen selittäminen tai ennustaminen aineiston muilla muuttujilla eli selittäjillä. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 7 / 28

Aineiston muuttujista yksi voidaan valita selitettäksi muuttujaksi eli vasteeksi... 57 52 41 47 57 male... general 68 59 53 63 61 female... vocation 44 33 54 58 31 male... general 63 44 47 53 56 male... vocation 47 52 57 53 61 male... academic 44 52 51 63 61 male... general............ 63 65 65 53 61 female... academic...jonka jälkeen analyysin tavoitteena voi olla esimerkiksi vasteen arvojen selittäminen tai ennustaminen aineiston muilla muuttujilla eli selittäjillä havaintojen luokittelu oikeisiin luokkiinsa selittävien muuttujien avulla (jos vaste on laadullinen/luokiteltu muuttuja). Edellä esitellyt tavoitteet johtavat ns. ohjatun oppimisen menetelmiin. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 8 / 28

Ohjattu oppiminen Wikipedia: Ohjattu oppiminen on tekoälyyn liittyvä koneoppimisen menetelmä, jossa opetusaineiston avulla muodostetaan funktio, jolla luokiteltava aineisto voidaan luokitella. Opetusaineisto koostuu syötteistä ja tuloksista, jotka syötteistä tulisi seurata. Oppijan tulee opetusaineiston perusteella päätellä, millaisia tuloksia tuntemattomilla syötteillä tulisi saada. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 9 / 28

Aineistoa voidaan tarkastella myös siten, että erillistä vastemuuttujaa ei määritellä. Tällöin analyysin tavoitteena voi olla esimerkiksi aineiston kokonaisvaihtelun tiivistäminen korreloimattomiin komponentteihin etsiä aineistosta mahdollisia ryhmityksiä etsiä erottelu- tai luokittelusääntöä, jonka perusteella havainnot voitaisiin jakaa toisensa poissulkeviin joukkoihin. Edellä esitellyt tavoitteet johtavat ns. ohjaamattoman oppimisen menetelmiin. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 10 / 28

Ohjaamaton oppiminen Wikipedia: Ohjaamaton oppiminen on koneoppimisen menetelmä, jossa muodostetaan malli, joka sopii havaintoihin. Se eroaa ohjatusta oppimisesta siten, että luokkia ei tunneta ennalta. Luokiteltava aineisto jaetaan luokkiin siten, että kunkin luokan alkiot muistuttavat toisiaan enemmän kuin muiden luokkien alkioita. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 11 / 28

Ennen monimuuttujamenetelmien käyttöönottoa tutkijan kannattaa (ja pitää!) tutustua sovellusalansa teoriaan (esim. minkä muuttujien ajatellaan vaikuttavan vasteeseen, mitkä piirteet ovat tunnusomaisia tietylle ryhmälle jne.) tutustua aineistoonsa yksinkertaisten kuvailevien menetelmien avulla: graaset esitykset (ristiin)taulukointi tunnusluvut. Motto George Box: All models are wrong but some are useful. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 12 / 28

Eräitä graasia esitystapoja Lukutestin pistemäärä 30 40 50 60 70 Lukutestin pistemäärä Frekvenssi 30 40 50 60 70 80 0 10 20 30 40 30 40 50 60 70 Lukutestin pistemäärä 30 40 50 60 70 80 0.00 0.01 0.02 0.03 0.04 Lukutestin pistemäärä Tiheys monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 13 / 28

20 30 40 50 60 70 80 20 30 40 50 60 70 80 Luku ja kirjoitustestipistemäärien sirontakuvio Lukutestin pistemäärä Kirjoitustestin pistemäärä monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 14 / 28

gender 1.0 2.0 3.0 30 40 50 60 1.0 1.4 1.8 1.0 2.0 3.0 prog read 30 50 70 30 40 50 60 write 1.0 1.4 1.8 30 50 70 40 50 60 70 40 60 math Parittainen sirontakuviomatriisi monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 15 / 28

Matematiikkatestin sukupuolittainen pistekuvio male Sukupuoli female 40 50 60 70 Matematiikkatestin pistemäärä monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 16 / 28

lukutestin pistemäärät koulutusohjelmittain 70 Lukutestin pistemäärä 60 50 40 30 academic general vocation Koulutusohjelma monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 17 / 28

20 30 40 50 60 70 80 20 30 40 50 60 70 80 Luku ja kirjoitustestipistemäärien sirontakuvio sukupuolittain Lukutestin pistemäärä Kirjoitustestin pistemäärä Male Female monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 18 / 28

30 40 50 60 70 30 35 40 45 50 55 60 65 30 40 50 60 70 read write female male Given : gender Ehtokuvio monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 19 / 28

3 ulotteinen sirontakuvio 30 40 50 60 70 30 40 50 60 70 80 20 30 40 50 60 70 80 Kirjoittaminen Lukeminen Matematiikka monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 20 / 28

3 ulotteinen sirontakuvio 30 40 50 60 70 30 40 50 60 70 80 20 30 40 50 60 70 80 Kirjoittaminen Lukeminen Matematiikka Miehet Naiset monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 21 / 28

3 ulotteinen sirontakuvio 30 40 50 60 70 30 40 50 60 70 80 20 30 40 50 60 70 80 Kirjoittaminen Lukeminen Matematiikka Male Female monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 22 / 28

Mosaiikkikuvio private schtyp public male vocation general academic gender female vocation general academic prog monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 23 / 28

Tähtikuvio (aineiston ensimmäiset 28 havaintoa) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 science math write 25 26 27 28 socst read monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 24 / 28

Tilanteeseen sopivan kuviotyypin valintaan vaikuttaa mm. Kuvattavien muuttujien mitta-yksikkö (luokittelu-, järjestys-, välimatka- tai suhdeasteikko) ja jatkuvuusominaisuus (diskreetti/jatkuva) Kuvion muuttujien lukumäärä Havaintojen lukumäärä aineistossa Usean muuttujan yhteiskäyttäytymisen (p 3) selkeä graanen esittäminen on usein vaikeaa tai jopa mahdotonta. Graasia menetelmiä käydään läpi tarkemmin kurssin ensimmäisessä harjoituksessa. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 25 / 28

Aineistoon liittyviä yksiulotteisia tunnuslukuja monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 26 / 28

Aineistoon liittyvä ristiintaulukko monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 27 / 28

Aineistoon liittyviä parittaisia riippuvuustunnuslukuja monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 28 / 28