monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos
Faktorianalyysi (Factor analysis) Faktorianalyysi jaetaan perinteisesti kahteen osaan Eksploratiiviseen (explorative factor analysis) faktorianalyysiin Tavoitteena on löytää aineistosta rajattu määrä latentteja (eli piileviä) taustamuuttujia, joita kutsutaan faktoreiksi Konrmatoriseen (conformative factor analysis) faktorianalyysiin Tavoitteena on testata ja varmentaa aiemmin löydetyn faktorirakenteen sopivuus aineistoon Tällöin analyysin lähtökontana on teoriaan perustuva oletus aineiston faktorirakenteesta Jos latentteja taustamuuttujia ei pystytä tunnistamaan ja nimeämään kuvaavasti, jatkoanalyyseissä kannattaa pysyä alkuperäisissä muuttujissa Pääkomponenttianalyysi on luontevampi vaihtoehto, jos analyysin ainoa tavoite on havaintoaineiston muuttujien sisältämän tiedon tiivistäminen vähäisempään määrään muuttujia monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 2 / 19
I Pääkomponenttianalyysin perusidea oli seuraava: X1 PC1 X2, missä X3 PC2 Xp PCp Z1 = φ11 X1 + φ21 X2 + + φp1 Xp Z2 = φ12 X1 + φ22 X2 + + φp2 Xp Zp = φ1p X1 + φ2p X2 + + φpp Xp monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 3 / 19
I Faktorianalyysin perusidea on seuraava: Mitatut muuttujat e1 X1 e2 X2 e3 X3 Piilomuuttujat eli faktorit, joita ei voi suoraan mitata F1 F2 ep, missä Xp Fm X1 = φ11 F1 + φ12 F2 + + φ1m Fm + ε1 X2 = φ21 F1 + φ22 X2 + + φ2m Fm + ε2 Xp = φp1 F1 + φp2 F2 + + φpr Fm + εp monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 4 / 19
Mitatut muuttujat Faktorit X1 F1 X2 X3 F2 X4 F3 I Faktori voi olla joko I Yhteisfaktori (F1 ), joka selittää kaikkien mallissa olevien muuttujien vaihtelua I Ryhmäfaktori (F2 ), joka selittää tietyn muuttujajoukon vaihtelua I Spesi faktori (F3 ), joka selittää ainoastaan yhden muuttujan vaihtelua monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 5 / 19
Esimerkki Eräässä sadalta aikuiselta suomalaiselta kerätyssä aineistossa muuttujien (11 kpl) korrelaatiomatriisi oli seuraava: Lähde: Lauri Nummenmaa: Käyttäytymistieteiden tilastolliset menetelmät (2004) I Aineistossa on kahdentyyppisiä muuttujia: k1 k6 ja s1 s5 I Millaisessa riippuvuussuhteessa muuttujat ovat toisiinsa nähden? monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 6 / 19
Miksi aineiston muuttujat kimppuuntuvat riippuvuusrakenteensa osalta kahteen ryhmään? Aineiston muuttujat liittyvät erään älykkyystestin osatestien pistemääriin Muuttujat k1k6 ovat kielellisen älykkyyden osatestejä Muuttujat s1s5 ovat suoritusälykkyyden osatestejä Wechslerin älykkyysteoria olettaa, että älykkyyttä on karkeasti ottaen kahta eri tyyppiä: kielellistä ja suoritusälykkyyttä Tarkasteltava aineisto koostuu ns WAIS-R-älykkyystestin pistemääristä Kyseinen testi perustuu edellä mainittuun älykkyysteoriaan ja siinä on kuusi kielellistä älykkyyttä mittaavaa osatestiä (kielellinen osio) ja viisi suorituskykyä mittaavaa osatestiä (suoritusosio) monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 7 / 19
Aineiston taustalla on siis seuraava ajatus: Lähde: Lauri Nummenmaa: Käyttäytymistieteiden tilastolliset menetelmät (2004) Tutkittavan ilmiön taustalla ajatellaan olevan kaksi latenttia muuttujaa eli faktoria Näitä ryhmäfaktoreita ei voida mitata suoraan, mutta ne vaikuttavat osaltaan 11 mitattavissa olevan muuttujan käyttäytymiseen monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 8 / 19
Faktorianalyysimalli Oletetaan, että aineistoon mitattujen muuttujien X 1, X 2,, X p käyttäytymistä voidaan selittää m piilomuuttujalla eli (yhteis)- faktorilla F 1, F 2,, F m ja p ominaisfaktorilla U 1, U 2,, U p siten, että X 1 µ 1 = λ 11 F 1 + λ 12 F 2 + + λ 1m F m + U 1 X 2 µ 2 = λ 21 F 1 + λ 22 F 2 + + λ 2m F m + U 2 X p µ p = λ p1 F 1 + λ p2 F 2 + + λ pm F m + U p Kerrointa λ ij kutsutaan i muuttujan X i lataukseksi j faktorille F j ja kyseisistä kertoimista muodostuvaa (p m) -matriisia nimitetään latausmatriisiksi (i = 1,, p ja j = 1,, m) monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 9 / 19
Edellä esitetty faktorianalyysimalli voidaan kirjoittaa lyhyesti matriisimerkinnöillä muodossa X 1 µ 1 λ 11 λ 12 λ 1m F 1 U 1 X 2 µ 2 = λ 21 λ 22 λ 2m F 2 + U 2 X p µ p λ p1 λ p2 λ pm F m U p X µ = ΛF + U, missä X = selitettävien muuttujien matriisi µ = selitettävien muuttujien odotusarvomatriisi Λ = faktorien latausmatriisi F = faktorimatriisi U = jäännöstermien (eli ominaisfaktorien) matriisi monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 10 / 19
Faktorianalyysissä oletetaan yleensä, että: 1) X = (X 1,, X p ) noudattaa multinormaalijakaumaa, ts X N p (µ, Σ) 2) F N m (0, Φ), missä φ jj = 1, j = 1,, m 3) U N p (0, Ψ), missä Ψ = diag{ψ 1, ψ 2,, ψ p } 4) Ominaisfaktorit U ovat riippumattomia faktoreista F Oletuksista seuraa kovarianssimatriisille Σ rakenne Σ = ΛΦΛ T + Ψ Kyseistä yhtälö sanotaan faktorianalyysin perusyhtälöksi monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 11 / 19
Näennäisestä yksinkertaisuudesta huolimatta faktorianalyysi on usein tulkinnallisesti vaikea menetelmä Voidaan osoittaa, että mikä tahansa korrelaatiomatriisi voidaan kuvata äärettömän monen erilaisen faktoriratkaisun avulla Optimaalista ratkaisua haettaessa yleensä pyritään siihen, että latausmatriisi Λ olisi niin yksinkertainen kuin mahdollista Tällöin faktoriratkaisulle asetetaan seuraavia ehtoja Faktorien tulee selittää aineiston kokonaisvaihtelusta mahdollisimman paljon Faktoreita tulisi olla mahdollisimman vähän Malliin pitäisi tulla mahdollisimman paljon itseisarvoltaan pieniä ja suuria latauksia, kun taas itseisarvoltaan keskisuuria latauksia tulisi olla mahdollisimman vähän Faktoreille pitäisi saada mahdollisimman mielekkäät tulkinnat monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 12 / 19
Koska faktorianalyysi on laskennallisesti melko monimutkainen menetelmä, se asettaa analysoitavalle aineistolle kohtalaisen tiukkoja vaatimuksia Analysoitavan aineiston tulisi olla kohtuullisen suuri (, koska estimoitavia parametreja on paljon) Viitteellisiä vaatimuksia: Havaintoyksiköitä tulisi olla vähintään kaksi kertaa enemmän kuin analysoitavia muuttujia Havaintoyksiköitä tulisi olla vähintään 20 kertaa niin paljon kuin muodostettavia faktoreita Muuttujien välisten riippuvuuksien tulisi olla lineaarisia (tai tietyissä erikoistapauksissa vähintään monotonisia) Muuttujien tulisi olla multinormaalijakautuneita (joskus faktorianalyysi suoritetaan myös silloin, kun normaalijakaumaoletus ei täyty) monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 13 / 19
Faktorien selittämä osuus muuttujien varianssista Ns ortogonaalisen faktorimallin tapauksessa (vrt pääkomponenttianalyysi) faktorien selittämä osuus muuttujien varianssista saadaan määriteltyä helposti Koska X i µ i = λ i1 F 1 + λ i2 F 2 + + λ im F m + U i, missä i = 1,, p, pätee, että Var(X i ) = λ 2 i1 + λ 2 i2 + + λ 2 im + ψ i = h 2 i + ψ i Summaa hi 2 = λ 2 + i1 λ2 + + i2 λ2 im sanotaan muuttujan X i kommunaliteetiksi Kommunaliteetti kertoo sen osan muuttujan vaihtelusta, joka voidaan selittää faktoreilla (silloin, kun käytetään standardoituja muuttujia) monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 14 / 19
Faktorien ominaisarvot Latausmatriisin j sarakeneliösumma p λ 2 ij eli faktorin j ominaisarvo (eigenvalue) kuvaa, kuinka paljon faktori j pystyy selittämään aineiston kokonaisvaihtelusta i=1 Mitä suurempi faktorin ominaisarvo on sitä merkityksellisempi kyseinen faktori on mallissa Kun faktorien ominaisarvot jaetaan muuttujien lukumäärällä, saadaan ns selitysosuudet, jotka kertovat kuinka monta prosenttia ko faktorit selittävät aineiston kokonaisvaihtelusta Summaamalla selitysosuudet yhteen, saadaan tieto siitä, kuinka paljon käytetty faktorimalli kokonaisuudessaan selittää aineiston kokonaisvaihtelusta monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 15 / 19
Faktorianalyysin vaiheet 1) Aineiston kerääminen ja valmistelu Aineistoon liittyviä vaatimuksia on esitelty jo edellä 2) Faktorimallin suunnitteleminen Millainen teoria tutkittavan ilmiön taustalla on? Montako faktoria tulisi muodostaa? Mitkä muuttujat latautuvat teorian mukaan millekin faktorille? 3) Faktoreiden ekstraktointi Määritellään malliin tulevat faktorit ja estimoidaan niihin liittyvät muuttujien lataukset λ ij 4) Faktoreiden kierrot eli rotaatiot Rotatoinnilla pyritään saamaan faktoriratkaisulle tulkinnallisesti mielekkäämpi muoto Faktoriratkaisua pyritään muuttamaan siten, että yksittäisen muuttujan lataukset yhteen faktoriin maksimoidaan ja vastaavasti lataukset muihin faktoreihin pyritään minimoimaan monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 16 / 19
Faktorianalyysin vaiheet Rotatointi ei muuta faktorien yhteenlaskettua selitysosuutta Rotaatiomenetelmät voidaan jakaa kahteen päätyyppiin: Suorakulmaisiin (orthogonal), jolloin oletetaan, että faktorit ovat toisistaan riippumattomia Vinokulmaisiin (oblique), jolloin faktoreiden välinen riippuvuus sallitaan 5) Mallin tulkinta ja mahdollinen muuttaminen Hyvän faktoriratkaisun tulisi olla: Teoreettisesti mielekäs Selittää aineiston kokonaisvaihtelusta mahdollisimman paljon pienellä määrällä faktoreita Latausmatriisin tulisi olla rakenteeltaan yksinkertainen monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 17 / 19
Lyhyesti latausten estimoinnista Latausmatriisin latausten estimointi voidaan tehdä useilla eri tavoilla Esimerkiksi SPSS-tilasto-ohjelma sisällyttää pääkomponttianalyysin yhdeksi faktorianalyysiin liittyväksi menetelmäksi Tällöin latauksia estimoitaessa pyrittiin maksimoimaan pääkomponenttien (faktoreiden) varianssit Maximum Likelihood (ML)-menetelmä Estimoi lataukset siten, että niiden tuottaman korrelaatiomatriisin havaitseminen populaatiossa on mahdollisimman todennäköistä Yleensä suositeltavin menetelmä, jos havaintoja on riittävästi Principal Axis Factoring (PAF) eli pääakselifaktorointimenetelmä Muistuttaa pääkomponenttianalyysiä sillä erotuksella, että korrelaatiomatriisin diagonaalialkiot korvataan kommunaliteetin estimaateillaan monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 18 / 19
Toimii yleensä melko luotettavasti, jos aineiston muuttujat ovat normaalijakautuneet ja kommunaliteettien estimaatit ovat hyvät Unweighted Least Squares (ULS) eli painottamattomien neliösummien menetelmä Pyrkii siihen, että jäännöstermien matriisiin tulisi mahdollisimman pieniä arvoja Harkittava vaihtoehto, jos havaintoja on vähän Generalized Least Squares (GLS) eli yleistettyjen neliösummien menetelmä Kuten edellinen, mutta eniten toisten muuttujien kanssa korreloivat muuttujat saavat suurimman painon Ei ole kovinkaan herkkä menetelmä normaalisuusjakaumaoletuksen rikkomiselle monimuuttujamenetelmiin, 5 op 11 joulukuuta 2018 19 / 19