monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos
Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101, poikkeus 7.11. AT115B) Torstaisin klo 14-16 (sali vaihtelee) Harjoitukset 5.11.18.12.-18 Ryhmä 1: maanantaisin klo 12-14 (MA336/MA337) Ryhmä 2: tiistaisin klo 12-14 (MA336/MA337) Kurssimateriaali Luentodiat James, G., Witten, D., Hastie, T., Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. Springer, New York; luvut 4 ja 10. http://www-bcf.usc.edu/~gareth/isl/ Harjoitusten kotitehtävät ja harjoitusten R-osuuden materiaali monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 2 / 28
Kotitehtävät tulevat kurssin kotisivuille Noppaan harjoitusta edeltävän viikon torstaina ja luentodiat luentoa edeltävänä päivänä. Kurssin kotisivut Nopassa: https://noppa.oulu.fi/noppa/kurssi/805306a/etusivu Loppukoepäivät tiistaina 8.1.2019 tiistaina 19.2.2019 monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 3 / 28
Johdatus monimuuttujamenetelmiin Monimuuttujamenetelmät ovat menetelmiä, joissa analyysissä on mukana yhtä aikaa useita muuttujia. Kurssilla käsitellään mm. seuraavia menetelmiä: Ohjattu oppiminen (supervised learning) K-lähimmän naapurin menetelmä Logistinen regressioanalyysi Erotteluanalyysi Ohjaamaton oppiminen (unsupervised learning) Pääkomponenttianalyysi Faktorianalyysi Ryhmittelyanalyysi monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 4 / 28
Analysoitava havaintomatriisi näyttää yleisessä muodossa tältä: x 11 x 12... x 1p x 21 x 22... x 2p........ x n1 x n2... x np, missä x ij = muuttujan X j havaittu arvo tilastoyksiköllä i (j = 1,..., p ja i = 1,..., n). Aineistossa on siis n havaintoa (riviä) ja p muuttujaa (saraketta): X1, X 2,..., X p Aineiston muuttujat voivat olla laatua ja/tai määrää mittaavia. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 5 / 28
Konkreettinen esimerkki analysoitavasta havaintomatriisista voisi näyttää puolestaan tältä: 57 52 41 47 57 male... general 68 59 53 63 61 female... vocation 44 33 54 58 31 male... general 63 44 47 53 56 male... vocation 47 52 57 53 61 male... academic 44 52 51 63 61 male... general............ 63 65 65 53 61 female... academic Yllä n = 200, X 1 = lukutestin pistemäärä, X 2 = kirjoitustestin pistemäärä, X 3 = matematiikkatestin pistemäärä,. X 11 = opiskelulinja. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 6 / 28
Aineiston muuttujista yksi voidaan valita selitettäksi muuttujaksi eli vasteeksi... 57 52 41 47 57 male... general 68 59 53 63 61 female... vocation 44 33 54 58 31 male... general 63 44 47 53 56 male... vocation 47 52 57 53 61 male... academic 44 52 51 63 61 male... general............ 63 65 65 53 61 female... academic...jonka jälkeen analyysin tavoitteena voi olla esimerkiksi vasteen arvojen selittäminen tai ennustaminen aineiston muilla muuttujilla eli selittäjillä. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 7 / 28
Aineiston muuttujista yksi voidaan valita selitettäksi muuttujaksi eli vasteeksi... 57 52 41 47 57 male... general 68 59 53 63 61 female... vocation 44 33 54 58 31 male... general 63 44 47 53 56 male... vocation 47 52 57 53 61 male... academic 44 52 51 63 61 male... general............ 63 65 65 53 61 female... academic...jonka jälkeen analyysin tavoitteena voi olla esimerkiksi vasteen arvojen selittäminen tai ennustaminen aineiston muilla muuttujilla eli selittäjillä havaintojen luokittelu oikeisiin luokkiinsa selittävien muuttujien avulla (jos vaste on laadullinen/luokiteltu muuttuja). Edellä esitellyt tavoitteet johtavat ns. ohjatun oppimisen menetelmiin. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 8 / 28
Ohjattu oppiminen Wikipedia: Ohjattu oppiminen on tekoälyyn liittyvä koneoppimisen menetelmä, jossa opetusaineiston avulla muodostetaan funktio, jolla luokiteltava aineisto voidaan luokitella. Opetusaineisto koostuu syötteistä ja tuloksista, jotka syötteistä tulisi seurata. Oppijan tulee opetusaineiston perusteella päätellä, millaisia tuloksia tuntemattomilla syötteillä tulisi saada. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 9 / 28
Aineistoa voidaan tarkastella myös siten, että erillistä vastemuuttujaa ei määritellä. Tällöin analyysin tavoitteena voi olla esimerkiksi aineiston kokonaisvaihtelun tiivistäminen korreloimattomiin komponentteihin etsiä aineistosta mahdollisia ryhmityksiä etsiä erottelu- tai luokittelusääntöä, jonka perusteella havainnot voitaisiin jakaa toisensa poissulkeviin joukkoihin. Edellä esitellyt tavoitteet johtavat ns. ohjaamattoman oppimisen menetelmiin. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 10 / 28
Ohjaamaton oppiminen Wikipedia: Ohjaamaton oppiminen on koneoppimisen menetelmä, jossa muodostetaan malli, joka sopii havaintoihin. Se eroaa ohjatusta oppimisesta siten, että luokkia ei tunneta ennalta. Luokiteltava aineisto jaetaan luokkiin siten, että kunkin luokan alkiot muistuttavat toisiaan enemmän kuin muiden luokkien alkioita. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 11 / 28
Ennen monimuuttujamenetelmien käyttöönottoa tutkijan kannattaa (ja pitää!) tutustua sovellusalansa teoriaan (esim. minkä muuttujien ajatellaan vaikuttavan vasteeseen, mitkä piirteet ovat tunnusomaisia tietylle ryhmälle jne.) tutustua aineistoonsa yksinkertaisten kuvailevien menetelmien avulla: graaset esitykset (ristiin)taulukointi tunnusluvut. Motto George Box: All models are wrong but some are useful. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 12 / 28
Eräitä graasia esitystapoja Lukutestin pistemäärä 30 40 50 60 70 Lukutestin pistemäärä Frekvenssi 30 40 50 60 70 80 0 10 20 30 40 30 40 50 60 70 Lukutestin pistemäärä 30 40 50 60 70 80 0.00 0.01 0.02 0.03 0.04 Lukutestin pistemäärä Tiheys monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 13 / 28
20 30 40 50 60 70 80 20 30 40 50 60 70 80 Luku ja kirjoitustestipistemäärien sirontakuvio Lukutestin pistemäärä Kirjoitustestin pistemäärä monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 14 / 28
gender 1.0 2.0 3.0 30 40 50 60 1.0 1.4 1.8 1.0 2.0 3.0 prog read 30 50 70 30 40 50 60 write 1.0 1.4 1.8 30 50 70 40 50 60 70 40 60 math Parittainen sirontakuviomatriisi monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 15 / 28
Matematiikkatestin sukupuolittainen pistekuvio male Sukupuoli female 40 50 60 70 Matematiikkatestin pistemäärä monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 16 / 28
lukutestin pistemäärät koulutusohjelmittain 70 Lukutestin pistemäärä 60 50 40 30 academic general vocation Koulutusohjelma monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 17 / 28
20 30 40 50 60 70 80 20 30 40 50 60 70 80 Luku ja kirjoitustestipistemäärien sirontakuvio sukupuolittain Lukutestin pistemäärä Kirjoitustestin pistemäärä Male Female monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 18 / 28
30 40 50 60 70 30 35 40 45 50 55 60 65 30 40 50 60 70 read write female male Given : gender Ehtokuvio monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 19 / 28
3 ulotteinen sirontakuvio 30 40 50 60 70 30 40 50 60 70 80 20 30 40 50 60 70 80 Kirjoittaminen Lukeminen Matematiikka monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 20 / 28
3 ulotteinen sirontakuvio 30 40 50 60 70 30 40 50 60 70 80 20 30 40 50 60 70 80 Kirjoittaminen Lukeminen Matematiikka Miehet Naiset monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 21 / 28
3 ulotteinen sirontakuvio 30 40 50 60 70 30 40 50 60 70 80 20 30 40 50 60 70 80 Kirjoittaminen Lukeminen Matematiikka Male Female monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 22 / 28
Mosaiikkikuvio private schtyp public male vocation general academic gender female vocation general academic prog monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 23 / 28
Tähtikuvio (aineiston ensimmäiset 28 havaintoa) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 science math write 25 26 27 28 socst read monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 24 / 28
Tilanteeseen sopivan kuviotyypin valintaan vaikuttaa mm. Kuvattavien muuttujien mitta-yksikkö (luokittelu-, järjestys-, välimatka- tai suhdeasteikko) ja jatkuvuusominaisuus (diskreetti/jatkuva) Kuvion muuttujien lukumäärä Havaintojen lukumäärä aineistossa Usean muuttujan yhteiskäyttäytymisen (p 3) selkeä graanen esittäminen on usein vaikeaa tai jopa mahdotonta. Graasia menetelmiä käydään läpi tarkemmin kurssin ensimmäisessä harjoituksessa. monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 25 / 28
Aineistoon liittyviä yksiulotteisia tunnuslukuja monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 26 / 28
Aineistoon liittyvä ristiintaulukko monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 27 / 28
Aineistoon liittyviä parittaisia riippuvuustunnuslukuja monimuuttujamenetelmiin, 5 op 29. lokakuuta 2018 28 / 28