805306A Johdatus monimuuttujamenetelmiin, 5 op

Samankaltaiset tiedostot
Regressioanalyysi. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

Regressioanalyysi. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Otannasta ja mittaamisesta

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

S Laskennallinen systeemibiologia

Johdatus regressioanalyysiin. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

pitkittäisaineistoissa

ABHELSINKI UNIVERSITY OF TECHNOLOGY

pitkittäisaineistoissa

Harjoitus 9: Excel - Tilastollinen analyysi

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Dynaamiset regressiomallit

Estimointi. Vilkkumaa / Kuusinen 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Tilastollinen aineisto Luottamusväli

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Väliestimointi (jatkoa) Heliövaara 1

Soveltuvan menetelmän valinta. Kvantitatiiviset menetelmät. Faktorianalyysi. Faktorianalyysi. Faktorianalyysin perusidea.

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016)

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Maximum likelihood-estimointi Alkeet

Lohkoasetelmat. Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

2. a) Kenkä= *Nro *SP *Ikä *Siv * Pituus *Paino * Hius *Koulu *SL+12.

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Yleistetyistä lineaarisista malleista

Lohkoasetelmat. Kuusinen/Heliövaara 1

1. TILASTOLLINEN HAHMONTUNNISTUS

4.0.2 Kuinka hyvä ennuste on?

Inversio-ongelmien laskennallinen peruskurssi Luento 7 8

Vektorien virittämä aliavaruus

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Laskennallinen data-analyysi II

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Ominaisarvo ja ominaisvektori

Sovellettu todennäköisyyslaskenta B

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

Suomenkielisen PRF:n ulottuvuudet työvoimatoimiston aineistossa sekä faktorirakenteiden invarianssi sukupuolen suhteen

Johdatus regressioanalyysiin

1. Tilastollinen malli??

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mat Tilastollisen analyysin perusteet, kevät 2007

Mallipohjainen klusterointi

riippumattomia ja noudattavat samaa jakaumaa.

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Testejä suhdeasteikollisille muuttujille

Ellei tutkijalla ole käsitystä mittauksensa validiteetista ja reliabiliteetista, ei johtopäätöksillä

Vastaanottokäyntien määrän selittäminen kouluterveydenhuollossa

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

3. Teoriaharjoitukset

Sovellettu todennäköisyyslaskenta B

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

5.7 Uskottavuusfunktioon perustuvia testejä II

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Likimääräisratkaisut ja regularisaatio

Todennäköisyyden ominaisuuksia

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

7. Olemassaolo ja yksikäsitteisyys Galois n kunta GF(q) = F q, jossa on q alkiota, määriteltiin jäännösluokkarenkaaksi

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

2. Teoriaharjoitukset

3.6 Su-estimaattorien asymptotiikka

Harha mallin arvioinnissa

Parametrin estimointi ja bootstrap-otanta

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

805306A Johdatus monimuuttujamenetelmiin, 5 op

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

Paikkatiedon käsittely 11. Suuren mittakaavan

Transkriptio:

monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos

Faktorianalyysi (Factor analysis) Faktorianalyysi jaetaan perinteisesti kahteen osaan Eksploratiiviseen (explorative factor analysis) faktorianalyysiin Tavoitteena on löytää aineistosta rajattu määrä latentteja (eli piileviä) taustamuuttujia, joita kutsutaan faktoreiksi Konrmatoriseen (conformative factor analysis) faktorianalyysiin Tavoitteena on testata ja varmentaa aiemmin löydetyn faktorirakenteen sopivuus aineistoon Tällöin analyysin lähtökontana on teoriaan perustuva oletus aineiston faktorirakenteesta Jos latentteja taustamuuttujia ei pystytä tunnistamaan ja nimeämään kuvaavasti, jatkoanalyyseissä kannattaa pysyä alkuperäisissä muuttujissa Pääkomponenttianalyysi on luontevampi vaihtoehto, jos analyysin ainoa tavoite on havaintoaineiston muuttujien sisältämän tiedon tiivistäminen vähäisempään määrään muuttujia monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 2 / 19

I Pääkomponenttianalyysin perusidea oli seuraava: X1 PC1 X2, missä X3 PC2 Xp PCp Z1 = φ11 X1 + φ21 X2 + + φp1 Xp Z2 = φ12 X1 + φ22 X2 + + φp2 Xp Zp = φ1p X1 + φ2p X2 + + φpp Xp monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 3 / 19

I Faktorianalyysin perusidea on seuraava: Mitatut muuttujat e1 X1 e2 X2 e3 X3 Piilomuuttujat eli faktorit, joita ei voi suoraan mitata F1 F2 ep, missä Xp Fm X1 = φ11 F1 + φ12 F2 + + φ1m Fm + ε1 X2 = φ21 F1 + φ22 X2 + + φ2m Fm + ε2 Xp = φp1 F1 + φp2 F2 + + φpr Fm + εp monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 4 / 19

Mitatut muuttujat Faktorit X1 F1 X2 X3 F2 X4 F3 I Faktori voi olla joko I Yhteisfaktori (F1 ), joka selittää kaikkien mallissa olevien muuttujien vaihtelua I Ryhmäfaktori (F2 ), joka selittää tietyn muuttujajoukon vaihtelua I Spesi faktori (F3 ), joka selittää ainoastaan yhden muuttujan vaihtelua monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 5 / 19

Esimerkki Eräässä sadalta aikuiselta suomalaiselta kerätyssä aineistossa muuttujien (11 kpl) korrelaatiomatriisi oli seuraava: Lähde: Lauri Nummenmaa: Käyttäytymistieteiden tilastolliset menetelmät (2004) I Aineistossa on kahdentyyppisiä muuttujia: k1 k6 ja s1 s5 I Millaisessa riippuvuussuhteessa muuttujat ovat toisiinsa nähden? monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 6 / 19

Miksi aineiston muuttujat kimppuuntuvat riippuvuusrakenteensa osalta kahteen ryhmään? Aineiston muuttujat liittyvät erään älykkyystestin osatestien pistemääriin Muuttujat k1k6 ovat kielellisen älykkyyden osatestejä Muuttujat s1s5 ovat suoritusälykkyyden osatestejä Wechslerin älykkyysteoria olettaa, että älykkyyttä on karkeasti ottaen kahta eri tyyppiä: kielellistä ja suoritusälykkyyttä Tarkasteltava aineisto koostuu ns WAIS-R-älykkyystestin pistemääristä Kyseinen testi perustuu edellä mainittuun älykkyysteoriaan ja siinä on kuusi kielellistä älykkyyttä mittaavaa osatestiä (kielellinen osio) ja viisi suorituskykyä mittaavaa osatestiä (suoritusosio) monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 7 / 19

Aineiston taustalla on siis seuraava ajatus: Lähde: Lauri Nummenmaa: Käyttäytymistieteiden tilastolliset menetelmät (2004) Tutkittavan ilmiön taustalla ajatellaan olevan kaksi latenttia muuttujaa eli faktoria Näitä ryhmäfaktoreita ei voida mitata suoraan, mutta ne vaikuttavat osaltaan 11 mitattavissa olevan muuttujan käyttäytymiseen monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 8 / 19

Faktorianalyysimalli Oletetaan, että aineistoon mitattujen muuttujien X 1, X 2,, X p käyttäytymistä voidaan selittää m piilomuuttujalla eli (yhteis)- faktorilla F 1, F 2,, F m ja p ominaisfaktorilla U 1, U 2,, U p siten, että X 1 µ 1 = λ 11 F 1 + λ 12 F 2 + + λ 1m F m + U 1 X 2 µ 2 = λ 21 F 1 + λ 22 F 2 + + λ 2m F m + U 2 X p µ p = λ p1 F 1 + λ p2 F 2 + + λ pm F m + U p Kerrointa λ ij kutsutaan i muuttujan X i lataukseksi j faktorille F j ja kyseisistä kertoimista muodostuvaa (p m) -matriisia nimitetään latausmatriisiksi (i = 1,, p ja j = 1,, m) monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 9 / 19

Edellä esitetty faktorianalyysimalli voidaan kirjoittaa lyhyesti matriisimerkinnöillä muodossa X 1 µ 1 λ 11 λ 12 λ 1m F 1 U 1 X 2 µ 2 = λ 21 λ 22 λ 2m F 2 + U 2 X p µ p λ p1 λ p2 λ pm F m U p X µ = ΛF + U, missä X = selitettävien muuttujien matriisi µ = selitettävien muuttujien odotusarvomatriisi Λ = faktorien latausmatriisi F = faktorimatriisi U = jäännöstermien (eli ominaisfaktorien) matriisi monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 10 / 19

Faktorianalyysissä oletetaan yleensä, että: 1) X = (X 1,, X p ) noudattaa multinormaalijakaumaa, ts X N p (µ, Σ) 2) F N m (0, Φ), missä φ jj = 1, j = 1,, m 3) U N p (0, Ψ), missä Ψ = diag{ψ 1, ψ 2,, ψ p } 4) Ominaisfaktorit U ovat riippumattomia faktoreista F Oletuksista seuraa kovarianssimatriisille Σ rakenne Σ = ΛΦΛ T + Ψ Kyseistä yhtälö sanotaan faktorianalyysin perusyhtälöksi monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 11 / 19

Näennäisestä yksinkertaisuudesta huolimatta faktorianalyysi on usein tulkinnallisesti vaikea menetelmä Voidaan osoittaa, että mikä tahansa korrelaatiomatriisi voidaan kuvata äärettömän monen erilaisen faktoriratkaisun avulla Optimaalista ratkaisua haettaessa yleensä pyritään siihen, että latausmatriisi Λ olisi niin yksinkertainen kuin mahdollista Tällöin faktoriratkaisulle asetetaan seuraavia ehtoja Faktorien tulee selittää aineiston kokonaisvaihtelusta mahdollisimman paljon Faktoreita tulisi olla mahdollisimman vähän Malliin pitäisi tulla mahdollisimman paljon itseisarvoltaan pieniä ja suuria latauksia, kun taas itseisarvoltaan keskisuuria latauksia tulisi olla mahdollisimman vähän Faktoreille pitäisi saada mahdollisimman mielekkäät tulkinnat monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 12 / 19

Koska faktorianalyysi on laskennallisesti melko monimutkainen menetelmä, se asettaa analysoitavalle aineistolle kohtalaisen tiukkoja vaatimuksia Analysoitavan aineiston tulisi olla kohtuullisen suuri (, koska estimoitavia parametreja on paljon) Viitteellisiä vaatimuksia: Havaintoyksiköitä tulisi olla vähintään kaksi kertaa enemmän kuin analysoitavia muuttujia Havaintoyksiköitä tulisi olla vähintään 20 kertaa niin paljon kuin muodostettavia faktoreita Muuttujien välisten riippuvuuksien tulisi olla lineaarisia (tai tietyissä erikoistapauksissa vähintään monotonisia) Muuttujien tulisi olla multinormaalijakautuneita (joskus faktorianalyysi suoritetaan myös silloin, kun normaalijakaumaoletus ei täyty) monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 13 / 19

Faktorien selittämä osuus muuttujien varianssista Ns ortogonaalisen faktorimallin tapauksessa (vrt pääkomponenttianalyysi) faktorien selittämä osuus muuttujien varianssista saadaan määriteltyä helposti Koska X i µ i = λ i1 F 1 + λ i2 F 2 + + λ im F m + U i, missä i = 1,, p, pätee, että Var(X i ) = λ 2 i1 + λ 2 i2 + + λ 2 im + ψ i = h 2 i + ψ i Summaa hi 2 = λ 2 + i1 λ2 + + i2 λ2 im sanotaan muuttujan X i kommunaliteetiksi Kommunaliteetti kertoo sen osan muuttujan vaihtelusta, joka voidaan selittää faktoreilla (silloin, kun käytetään standardoituja muuttujia) monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 14 / 19

Faktorien ominaisarvot Latausmatriisin j sarakeneliösumma p λ 2 ij eli faktorin j ominaisarvo (eigenvalue) kuvaa, kuinka paljon faktori j pystyy selittämään aineiston kokonaisvaihtelusta i=1 Mitä suurempi faktorin ominaisarvo on sitä merkityksellisempi kyseinen faktori on mallissa Kun faktorien ominaisarvot jaetaan muuttujien lukumäärällä, saadaan ns selitysosuudet, jotka kertovat kuinka monta prosenttia ko faktorit selittävät aineiston kokonaisvaihtelusta Summaamalla selitysosuudet yhteen, saadaan tieto siitä, kuinka paljon käytetty faktorimalli kokonaisuudessaan selittää aineiston kokonaisvaihtelusta monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 15 / 19

Faktorianalyysin vaiheet 1) Aineiston kerääminen ja valmistelu Aineistoon liittyviä vaatimuksia on esitelty jo edellä 2) Faktorimallin suunnitteleminen Millainen teoria tutkittavan ilmiön taustalla on? Montako faktoria tulisi muodostaa? Mitkä muuttujat latautuvat teorian mukaan millekin faktorille? 3) Faktoreiden ekstraktointi Määritellään malliin tulevat faktorit ja estimoidaan niihin liittyvät muuttujien lataukset λ ij 4) Faktoreiden kierrot eli rotaatiot Rotatoinnilla pyritään saamaan faktoriratkaisulle tulkinnallisesti mielekkäämpi muoto Faktoriratkaisua pyritään muuttamaan siten, että yksittäisen muuttujan lataukset yhteen faktoriin maksimoidaan ja vastaavasti lataukset muihin faktoreihin pyritään minimoimaan monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 16 / 19

Faktorianalyysin vaiheet Rotatointi ei muuta faktorien yhteenlaskettua selitysosuutta Rotaatiomenetelmät voidaan jakaa kahteen päätyyppiin: Suorakulmaisiin (orthogonal), jolloin oletetaan, että faktorit ovat toisistaan riippumattomia Vinokulmaisiin (oblique), jolloin faktoreiden välinen riippuvuus sallitaan 5) Mallin tulkinta ja mahdollinen muuttaminen Hyvän faktoriratkaisun tulisi olla: Teoreettisesti mielekäs Selittää aineiston kokonaisvaihtelusta mahdollisimman paljon pienellä määrällä faktoreita Latausmatriisin tulisi olla rakenteeltaan yksinkertainen monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 17 / 19

Lyhyesti latausten estimoinnista Latausmatriisin latausten estimointi voidaan tehdä useilla eri tavoilla Esimerkiksi SPSS-tilasto-ohjelma sisällyttää pääkomponttianalyysin yhdeksi faktorianalyysiin liittyväksi menetelmäksi Tällöin latauksia estimoitaessa pyrittiin maksimoimaan pääkomponenttien (faktoreiden) varianssit Maximum Likelihood (ML)-menetelmä Estimoi lataukset siten, että niiden tuottaman korrelaatiomatriisin havaitseminen populaatiossa on mahdollisimman todennäköistä Yleensä suositeltavin menetelmä, jos havaintoja on riittävästi Principal Axis Factoring (PAF) eli pääakselifaktorointimenetelmä Muistuttaa pääkomponenttianalyysiä sillä erotuksella, että korrelaatiomatriisin diagonaalialkiot korvataan kommunaliteetin estimaateillaan monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 18 / 19

Toimii yleensä melko luotettavasti, jos aineiston muuttujat ovat normaalijakautuneet ja kommunaliteettien estimaatit ovat hyvät Unweighted Least Squares (ULS) eli painottamattomien neliösummien menetelmä Pyrkii siihen, että jäännöstermien matriisiin tulisi mahdollisimman pieniä arvoja Harkittava vaihtoehto, jos havaintoja on vähän Generalized Least Squares (GLS) eli yleistettyjen neliösummien menetelmä Kuten edellinen, mutta eniten toisten muuttujien kanssa korreloivat muuttujat saavat suurimman painon Ei ole kovinkaan herkkä menetelmä normaalisuusjakaumaoletuksen rikkomiselle monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 19 / 19