MATHM Hypermedian jatko-opintoseminaari

Samankaltaiset tiedostot
805306A Johdatus monimuuttujamenetelmiin, 5 op

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

805306A Johdatus monimuuttujamenetelmiin, 5 op

Ominaisarvot ja ominaisvektorit 140 / 170

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

805306A Johdatus monimuuttujamenetelmiin, 5 op

Yleistetyistä lineaarisista malleista

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Usean selittävän muuttujan regressioanalyysi

Regressioanalyysi. Kuusinen/Heliövaara 1

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

HAVAITUT JA ODOTETUT FREKVENSSIT

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Harjoitus 7: NCSS - Tilastollinen analyysi

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

pitkittäisaineistoissa

Kandidaatintutkielman aineistonhankinta ja analyysi

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Lauri Tarkkonen: Erottelu analyysi

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tilastotieteen aihehakemisto

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Ortogonaalisen kannan etsiminen

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Diskriminanttianalyysi I

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

2. Teoriaharjoitukset

TUTKIMUSOPAS. SPSS-opas

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Kvantitatiiviset menetelmät

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

805306A Johdatus monimuuttujamenetelmiin, 5 op

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

4.2 Useampi selittävä muuttuja (kertausta)

Til.yks. x y z

Ominaisvektoreiden lineaarinen riippumattomuus

Insinöörimatematiikka D

Mat Tilastollisen analyysin perusteet, kevät 2007

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Insinöörimatematiikan opiskelijoiden menestyksen ja opiskeluorientaatioiden analysointi erotteluanalyysillä ja GUHA-tiedonlouhintamenetelmällä

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

TESTINVALINTATEHTÄVIEN VASTAUKSET

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

6. laskuharjoitusten vastaukset (viikot 10 11)

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)

Ominaisarvo-hajoitelma ja diagonalisointi

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

RISTIINTAULUKOINTI JA Χ 2 -TESTI

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

5 OMINAISARVOT JA OMINAISVEKTORIT

2. TILASTOLLINEN TESTAAMINEN...

Harjoitukset 4 : Paneelidata (Palautus )

Harjoitus 9: Excel - Tilastollinen analyysi

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Lohkoasetelmat. Heliövaara 1

Ratkaisuehdotukset LH 3 / alkuvko 45

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Mat Tilastollisen analyysin perusteet, kevät 2007

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Esimerkki: Tietoliikennekytkin

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

805306A Johdatus monimuuttujamenetelmiin, 5 op

Osa 2: Otokset, otosjakaumat ja estimointi

Sovellettu todennäköisyyslaskenta B

Tehtäväsarja I Seuraavat tehtävät liittyvät kurssimateriaalin lukuun 7 eli vapauden käsitteeseen ja homogeenisiin

1 Rajoittamaton optimointi

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Oppimistavoitematriisi

Ominaisarvo ja ominaisvektori

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

pitkittäisaineistoissa

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

Sovellettu todennäköisyyslaskenta B

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Transkriptio:

Erotteluanalyysi 24.3.2006 Miika Huikkola MATHM-67500 Hypermedian jatko-opintoseminaari Olemme käsitelleet tähän mennessä seuraavia tilastollisia menetelmiä ja datan analyysimenelmiä Regressioanalyysi Varianssianalyysi (ANOVA) Klusterianalyysi (Pääkomponenttianalyysi) (Faktorianalyysi) Neuroverkot 1

Erotteluanalyysin päämääränä on löytää tunnettuja ryhmiä mahdollisimman hyvin erotteleva erottelusääntö Jos esimerkiksi havaitsemme, että jatkoopiskelijoilla on yleisemmin sandaalit jalassa ja tukka sekaisin kuin ei-jatko-opiskelijoilla, voimme muodostaa erottelusäännön henkilön kenkien ja tukan sekaisuuden perusteella Yllä mainitussa esimerkissä ennen erottelusäännön muodostamista tunnetut ryhmät ovat jatko-opiskelijat ja ei-jatko-opiskelijat Kertauksen vuoksi: Erotteluanalyysin päämääränä on löytää tunnettuja ryhmiä mahdollisimman hyvin erotteleva erottelusääntö Toinen esimerkki erottelusäännöstä voisi olla Kuva: Osmo Kaleva, Tilastolliset monimuuttujamenetelmät, Opintomoniste Kuvassa ryhmien jakautumaa kuvataan tasa-arvokäyrillä Erottelusääntö voidaan laatia kuvassa näkyvän kaltaisen käyrän avulla 2

Lineaarinen erotteluanalyysi Tavallisesti erotteluanalyysistä puhuttaessa tarkoitetaan lineaarista erotteluanalyysiä. Lineaarisella erotteluanalyysillä ymmärrämme, että erottelusäännöt perustuvat lineaarisiin funktioihin Oheisessa esimerkissä erotellaan ylipainoisia normaalipainoisista pituuden ja kengännumeron perusteella (data on kuvitteellinen, kengännumero oletettu jatkuvaksi muuttujaksi) Erotteluanalyysin määritelmiä Diskreettiä muuttujaa, jonka perusteella ryhmiin jaottelu tehdään, kutsutaan kriteerimuuttujaksi. Muita erotteluanalyysissä mukana olevia muuttujia kutsutaan riippumattomiksi muuttujiksi tai selittäviksi muuttujiksi. Datan ajatellaan teorian kannalta muodostuvan seuraavasti. Havainnot jaoteltu ryhmiin Ryhmien välisen vaihtelun momenttimatriisi Ryhmän r sisäisen vaihtelun momenttimatriisi Ryhmät koostuvat havainnoista Ryhmien sisäisen vaihtelun momenttimatriisi 3

Lineaarisessa erotteluanalyysissä ajatellaan, että paras erottelu saavutetaan vektorilla, jolle havaintojen projektioiden jakaumat toteuttavat seuraavan Ryhmien välisen vaihtelun suhde ryhmien sisäiseen vaihteluun on mahdollisimman suuri Matemaattisesti probleema saa seuraavan muotoilun Probleeman ratkaisut saadaan matriisin W -1 B normeerattuina ominaisvektoreina Lineaarisessa tapauksessa erottelusääntö voidaan muodostaa erottelufunktion avulla. Erottelufunktio on muotoa Erottelufunktiota voidaan käyttää myöhemmin luokitteluun eli voidaan yrittää ennustaa uuden havainnon kuulumista johonkin ryhmään. Luokittelutarkoitukseen on helpointa käyttää ohjelmistojen antamaa luokittelufunktiota, jonka perusteella havainto luokitellaan siihen ryhmään, jossa luokittelufunktio saa suurimman arvonsa. Luokittelufunktio on muotoa 4

Hyvin usein erotteluanalyysiä kuitenkin käytetään aineiston kuvailuun. Kuvailun tarve syntyy helposti esimerkiksi ihmistieteissä. Kuvailevan erotteluanalyysin käyttäminen voidaan toteuttaa tulkitsemalla erottelufunktioita tai luokittelufunktioita. Monet lähteet suosittelevat erottelufunktioiden tulkitsemista ja nimeämistä rakennematriisin avulla. Rakennematriisi kertoo kunkin muuttujan ryhmien sisäisen (pooled withingroup correlations) korrelaation kuhunkin erottelufunktioon. Tutkimalla arvoja, joita erottelufunktiot saavat eri ryhmien keskipisteissä (centroid), voidaan erottelufunktioiden luonne ymmärtää. Erotteluanalyysin oletukset Erotteluanalyysin käyttöä saattaa rajoittaa sen vaatimat oletukset. Listataan näistä muutamia: Teoria olettaa kunkin ryhmän kovarianssimatriisit samoiksi Riippumattomat muuttujat ovat jatkuvia jollain reaaliakselin välillä Kriteerimuuttuja on diskreetti muuttuja Ryhmien koot ovat suunnilleen samoja Residuaalit ovat satunnaisesti jakautuneet Riippumattomat muuttujat eivät multikollineaarisia Aineistossa ei outliereita. Vaikuttavat voimakkaasti erottelufunktioihin. Logistinen regressioanalyysi on korvannut monessa tarkoituksessa erotteluanalyysin johtuen lähinnä sen lievemmistä oletusvaatimuksista 5

Erotteluanalyysiin liittyviä lukuja Wilksin lambda Testisuure kertoo, eroavatko ryhmät toisistaan yleensä. Tämän jälkeen pudotetaan aina yksi erottelufunktio pois ja testataan, erottelevatko jäljelle jääneet erottelufunktiot ryhmiä toisistaan. Boxin M Jos ryhmät ovat normaalijakautuneita, voidaan niiden kovarianssimatriisien yhtäsuuruutta testata Boxin M-testisuureella. Ominaisarvot Kuhunkin erottelufunktioon liittyvä ominaisarvo (erottelufunktiothan muodostettiin matriisin W -1 B ominaisvektoreista) kertoo erottelufunktion tärkeydestä erotteluun. Kanoninen korrelaatio Kertoo kunkin erottelufunktion korrelaation erottelupistemäärään. Kertoo tavallaan erottelufunktion laadusta. Selitetyn varianssin osuus kriteerimuuttujassa. Case 1 Naimisissa olevien naisopettajien työvalinta, Wendy Lee Gramm, The Review of Economics and Statistics, Vol. 55, No. 4 (Aug., 1973), 341-348. Tutkimuksessa tutkittiin naisopettajien itse haluamaansa työtilannetta erotteluanalyysillä. Data kerättiin vuonna 1970 400:lta naisopettajalta. Tutkimuksessa haluttiin löytää tekijöitä (muuttujia), jotka parhaiten erottelevat naisten haluamaa työtilannetta. Kriteerimuuttujana toimi naisen haluama työtilanne, joka saattoi olla työtön, osa-aikainen työntekijä tai kokoaikainen työntekijä. Riippumattomina muuttujina toimivat Aviomiehen palkka, naisen kokoaikapalkka, naisen osa-aikapalkka, talouden varallisuus, talouden ikä, I-V lapsen ikä Tavoitteena löytää luokittelusääntö, jonka perusteella naisopettajat voidaan luokitella johonkin kolmesta ryhmästä Tämän lisäksi saadaan tietoa muuttujista, jotka ovat tärkeimpiä luokittelussa 6

Artikkelissa käytetään kahta tapaa etsiä luokittelusääntöä: toista kutsutaan uskottavuusmenetelmäksi (likelihood method) ja toista juurimenetelmäksi (root method): keskitymme tässä uskottavuusmenetelmään. Uskottavuusmenetelmässä käytetään luokittelufunktioita. Luokittelufunktioiden kertoimet voidaan tulkita helposti: suuri (positiivinen) kerroin tietyllä muuttujalla tietyssä luokittelufunktiossa kertoo, että tämä muuttuja vaikuttaa paljon ryhmään kuulumiseen. Suuret negatiiviset kertoimet tarkoittavat, että yksilöillä, joilla tämä muuttuja saa korkeita arvoja tulevat vähemmän todennäköisesti luokiteltua vastaavaan ryhmään. Luokittelufunktion kertoimet näyttivät seuraavilta Wendy Lee Gramm, The Review of Economics and Statistics, Vol. 55, No. 4 (Aug., 1973), 341-348. 7

Jos miehen palkka kasvaa, niin uskottavuus sille että nainen on työtön kasvaa eniten (suurin kerroin) Jos talouden ikä kasvaa, niin nainen todennäköisemmin työskentelee vähemmän Jos ensimmäinen lapsi on vanhempi, niin nainen tulee uskottavammin luokitelluksi kokoaikaiseksi työntekijäksi Tutkimuksen yhteenveto Saatiin analysoitua tekijöitä, jotka vaikuttavat naisten haluamaan työllisyystilanteeseen Tulokset osoittavat, että aviomiehen palkka, naisen palkka ja ensimmäisen lapsen ikä ovat erityiset tärkeitä kun erotellaan eri työllisyysryhmiä. 8

Case 2 Täydennyskoulutusohjelmien mahdollisten ongelmakohtien löytäminen, B.F. Kiker & W.P. Liles: The Journal of Human Resources, Vol 7, No 4 (Autumn 1972), 548-554. Tutkimus tehtiin, kun vuosina 1965 ja 1966 huomattiin, että tietyssä täydennyskoulutusohjelmassa vain 63% henkilöistä suoritti ohjelman ja 18% suorittaneista jäivät työttömiksi. Tutkimuksen tavoitteena oli löytää erottelufunktiot, joita käyttämällä tulevia koulutusohjelmaan hakeutujia voidaan luokitella eri ryhmiin (esimerkiksi valmistuvat ja keskeyttäjät) Tavoitteena tunnistaa riskialttiit yksilöt siten, että oikeanlaisen neuvomisen, ohjaamisen ja sijoittamisen avulla yksilöt saadaan suorittamaan ohjelma. Tutkimuksessa löydettiin erottelufunktiot erottelemaan seuraavia ryhmiä toisistaan Valmistuneet ja ei-valmistuneet* Valmistuneet ja keskeyttäneet työllistyneet ja työllistymättömät keskeyttäneet ja aloittamattomat Tutkimuksessa siis tehtiin neljä kappaletta kahden ryhmän erotteluanalyysiä Riippumattomina muuttujina toimivat ikä, sukupuoli, koulutus, siviilisääty, huollettavien lukumäärä, ykköspalkansaaja, viikkopalkka edellisessä työssä, työkuukaudet päätoimessa, kuukaudet työttömänä ennen koulutusta 9

Eri erottelufunktioiden kertoimet näyttivät seuraavilta Valmistuneen yleinen profiili voidaan päätellä niistä muuttujista, joiden keskiarvot eroavat toisistaan tilastollisesti merkitsevästi. Ensimmäistä saraketta vastaavaa erottelufunktiota tulkitsemalla nähdään, että yksilöllä on suurempi todennäköisyys olla valmistunut, jos hänellä on seuraavat ominaisuudet 1) Nainen 2) tulot alle keskitason edellisessä työssä 3) keskimääräistä enemmän huollettavia 4) keskimääräistä vanhempi 5) ollut työttömänä alle viisi viikkoa 6) ollut päätoimisena työntekijänä keskimääräistä vähemmän aikaa 7) ykköspalkansaaja 8) keskimääräistä paremmin koulutettu 9) naimisissa 10

Valmistuneen työttömän yleinen profiili 1) Keskimääräistä vähemmän koulutusta 2) Työttömänä yli viisi viikkoa ennen koulutusta 3) Keskimääräistä pienemmät viikkoansiot edellisessä työssä 4) Ollut keskimääräistä enemmän päätoimisessa työssä 5) Nainen 6) Ei naimisissa. Case 3 Tyypillinen SPSS tulostus Miika Huikkola: Diplomityö. 2005. 11

Esimerkki rakennematriisista Erottelufunktioiden arvot eri ryhmien keskiarvopisteissä (centroid) 12

Kirjallisuutta Johnson & Wichern: Applied Multivariate Statistical Analysis. Prentice Hall. 2002. 767 sivua. Huberty: Applied Discriminant analysis. John Wiley & Sons. 1994. 466 sivua. Klecka, William R.: Discriminant Analysis. Sage Publications Inc. 1980. 13