805306A Johdatus monimuuttujamenetelmiin, 5 op

monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos

Pääkomponenttianalyysi (PCA, Principle component analysis) Tarkastellaan n havaintoyksikön havaintoaineistoa, joka pitää sisällään muuttujat X 1, X 2,..., X p. Vastemuuttujaa Y ei ole. Tarkoituksena on muuntaa alkuperäiset muuttujat X 1, X 2,..., X p korreloimattomiksi uusiksi muuttujiksi, jotka ovat muuttujien X 1, X 2,..., X p lineaarikombinaatioita. Näitä uusia muuttujia kutsutaan pääkomponenteiksi Ensimmäinen pääkomponentti selittää mahdollisimman suuren osan alkuperäistäisten muuttujien (eli aineiston) vaihtelusta Toinen pääkomponentti selittää mahdollisimman paljon 1. pääkomponentilta selittämättä jääneestä aineiston vaihtelusta Kolmas pääkomponentti selittää mahdollisimman paljon 1. ja 2. pääkomponentilta selittämättä jääneestä aineiston vaihtelusta, jne. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 2 / 28

Pääkomponentit määritellään siten, että ne ovat korreloimattomia keskenään Pääkomponentteja voidaan muodostaa enintään m p kappaletta Menetelmässä analysoidaan itsea asiassa aineiston kovarianssi-/korrelaatiomatriisia (ja sen riippuvuusrakennetta) Menetelmän yhtenä keskeisenä tavoitteena on tiivistää useiden muuttujien informaatio muutamaan keskeiseen pääkomponenttiin Pääkomponenttien analysointi voi auttaa havaitsemaan riippuvuussuhteita, jotka eivät muuten tulisi näkyviin k ensimmäistä pääkomponenttia voidaan käyttää jatkoanalyyseissä (esim. usean selittäjän regressioanalyysissä) monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 3 / 28

Pääkomponenttianalyysin edellytykset ja huomioitavia seikkoja: Mitään varsinaisia jakaumaoletuksia ei ole, mutta muuttujien X 1, X 2,..., X n multinormaalijakauteneisuus tuo analyysiin lisää tulkinnallisuutta ja hyvyyttä Koska laskenta perustuu kovarianssi-/korrelaatiomatriisiin, muuttujien riippuvuuksien tulisi olla lineaarisia Kovarianssimatriisiin perustuvassa analyysissä (analyysissä mukana alkuperäiset muuttujat) muuttujien skaalaus vaikuttaa tuloksiin Korrelaatiomatriisiin perustuvassa analyysissä (analyysissä käytetään standardoituja muuttujia) yllä mainittua skaalausvaikutusta ei ole Ensimmäinen pääkomponentti on suora, joka kulkee mahdollisimman läheltä kaikkia havaintopisteitä Loput pääkomponentit ovat em. suoran kanssa ortogonaalisia monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 4 / 28

Pääkomponenttianalyysin perusidea: Ensimmäinen pääkomponentti on muotoa Toinen pääkomponentti on muotoa Z 1 = φ 11 X 1 + φ 21 X 2 Z 2 = φ 12 X 1 + φ 22 X 2 monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 5 / 28

K lähimmän naapurin menetelmän yhteydessä tarkasteltiin pientä kurjenmiekka-aineistoa, josta piirretyt sirontakuviot alkuperäisillä ja keskistetyillä muuttujilla (Petal.Length ja Petal.Width) on esitetty alla: 3.0 3 2.5 2 Petal.Width 2.0 1.5 1.0 Keskistetty Petal.Width 1 0 1 0.5 0.0 2 3 1 2 3 4 5 6 7 Petal.Length 3 2 1 0 1 2 3 Keskistetty Petal.Length Aineisto on siis kaksiulotteinen, mutta missä suunnassa vaihtelua on eniten? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 6 / 28

Pääkomponenttianalyysin perusidea: etsitään ensimmäisenä se suunta, 1. pääkomponentti, jossa vaihtelua on eniten. 3 2 Keskistetty Petal.Width 1 0 1 2 3 3 2 1 0 1 2 3 Keskistetty Petal.Length Katso visuaalinen demo 1. pääkomponentin oikean suunnan etsimisestä: https://stats.stackexchange.com/questions/2691/ making-sense-of-principal-component-analysis-eigenvectors-eigenvalues monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 7 / 28

Seuraavaksi etsitään se suunta, 2. pääkomponentti, jossa 1. pääkomponentin selittämän vaihtelun jälkeen jäävää aineiston vaihtelua on eniten. 1. ja 2. pääkomponentin tulee olla toisistaan riippumattomia. 3 2 Keskistetty Petal.Width 1 0 1 2 3 3 2 1 0 1 2 3 Keskistetty Petal.Length monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 8 / 28

2. pääkomponentti 3 2 1 0 1 2 3 3 2 1 0 1 2 3 1. pääkomponentti 3 2 1 0 1 2 3 1. pääkomponentti 3 2 1 0 1 2 3 2. pääkomponentti Voisiko aineiston vaihtelun esittää kahden alkuperäisen muuttujan sijasta pelkästään 1. pääkomponentin avulla menettämättä oleellista informaatiota? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 9 / 28

Usean muuttujan (p 2) tilanteessa pääkomponenttianalyysi toimii ulottuvuuksien (dimensions) vähentämismenetelmänä, joka mahdollistaa useiden muuttujien (p kpl) vaihtelun tiivistämisen vähäisempään määrään uusia muuttujia (pääkomponentteja), jotka ovat toisistaan riippumattomia yksinkertaisten graasten menetelmien mielekkään käyttämisen havaintoaineiston piirteiden kuvaamisessa poikkeavien havaintojen (oudokit) löytämisen aineistosta ns. päävaikutuksen eliminoinnin: jos joku muuttujista on hallitseva pääselittäjä, sen vaikutus halutaan mahdollisesti eliminoida, jotta muut potentiaaliset selittäjät saadaan esiin monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 10 / 28

Tarkastellaan teorian esittämisen lomassa R:n mukana tulevaa USArrests-aineistoa, joka sisältää tiedot seuraavista muuttujista USAn 50 osavaltioista vuodelta 1973: Assault Pahoinpitelypidätysten lukumäärä (per 100 000 henkilöä) Murder Murhapidätysten lukumäärä (per 100 000 henkilöä) Rape Raiskauspidätysten lukumäärä (per 100 000 henkilöä) UrbanPop Osavaltion kaupungistumisaste (%) Murder 50 150 250 10 20 30 40 5 10 15 50 150 250 Assault UrbanPop 30 50 70 90 5 10 15 10 20 30 40 30 50 70 90 Rape monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 11 / 28

Aineistoon liittyvät kovarianssi- ja korrelaatiomatriisit ovat seuraavat: Voisiko tässä aineistossa esiintyvän vaihtelun tiivistää vähäisempään määrään muuttujia ilman, että oleellista informaatiota häviää? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 12 / 28

Pääkomponenttien määrittely Havaintoaineisto sisältää n havaintoyksikön mittaustiedot muuttujista X 1, X 2,..., X p. 1. pääkomponentti Z 1 määritellään sellaisena alkuperäisten muuttujien X 1, X 2,..., X p lineaarikombinaationa Z 1 = φ 11 X 1 + φ 21 X 2 +... + φ p1 X p, (1) jonka varianssi on suurin. Kertoimia φ11, φ 21,..., φ p1 sanotaan 1. pääkomponenttiin liittyviksi latauksiksi (loadings) ja niiltä edellytetään, että p φ 2 j1 = 1. j=1 Yhdessä ne muodostavat latausvektorin φ 1 = (φ 11, φ 21,..., φ p1 ) T monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 13 / 28

Kertoimien laskemista varten muuttujat X1, X 2,..., X p keskistetään keskiarvoonsa, jonka jälkeen 1. pääkomponentin latausvektorin φ 1 tehtävänä on maksimoida lauseke 2 max 1 n p p φ 11,..., φ p1 φ j1 x ij n, missä φ 2 j1 = 1 i=1 j=1 Pääkomponentin lataukset φ11, φ 21,..., φ p1 voidaan ratkaista ns. ominaisarvohajotelman avulla ja latausten voi ajatella määrittelevän p-ulotteiseen avaruuteen sen suunnan, jossa aineisto vaihtelee eniten. Yksittäisiin havaintoyksiköihin i (i = 1,..., n) liittyviä pääkomponentin arvoja z i1 = φ 11 x i1 + φ 21 x i2 +... + φ p1 x ip sanotaan pistemääriksi (score). j=1 monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 14 / 28

Ensimmäisen pääkomponentin määrittelyn jälkeen toinen pääkomponentti Z 2 määritellään sellaisena alkuperäisten muuttujien X 1, X 2,..., X p lineaarikombinaationa, jolla on suurin varianssi sellaisten alkuperäisten muuttujien lineaarikombinaatioiden joukossa, jotka ovat korreloimattomia ensimmäisen pääkomponentin kanssa: Z 2 = φ 12 X 1 + φ 22 X 2 +... + φ p2 X p, missä p φ 2 j2 = 1 j=1 ja cov(z 1, Z 2 ) = 0 (2) Kertoimet φ12, φ 22,..., φ p2 muodostavat nyt 2. pääkomponenttiin liittyvän latausvektorin φ 2. Z 1 :n ja Z 2 :n korreloimattomuus tarkoittaa käytännössä sitä, että ne ovat kohtisuorassa toisiinsa nähden (vrt. edellinen esimerkki). monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 15 / 28

Useampiulotteisen (p > 2) havaintoaineiston tilanteessa seuraavat pääkomponentit määritellään samoilla periaatteilla kuin edellä esitetyt kaksi ensimmäistä pääkomponenttia. Esimerkiksi 3. pääkomponentti Z3 määritellään siten, että p Z 3 = φ 13 X 1 + φ 23 X 2 +... + φ p3 X p, missä φ 2 j3 = 1 j=1 ja lisäksi cov(z 1, Z 3 ) = 0 ja cov(z 2, Z 3 ) = 0 Kertoimet φ13, φ 23,..., φ p3 muodostavat nyt 3. pääkomponenttiin liittyvän latausvektorin φ 3. Kaikkiaan pääkomponentteja voidaan muodostaa p kappaletta. Pääkomponenttien muodostamisen jälkeen havaintoaineistoa voidaan kuvailla esimerkiksi parittaisten sirontakuvioiden sijasta kahden pääkomponentin välisillä sirontakuvioilla. (3) monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 16 / 28

Esimerkki Suoritetaan seuraavaksi USArrests-aineistolle pääkomponenttianalyysi, joka saadaan tehtyä R:llä funktiolla prcomp(). Ensimmäisen pääkomponentin latausvektori φ1 on siis ( 0.5359, 0.5832, 0.2782, 0.5434) T ja itseisarvoltaan suurimmat lataukset liittyvät pidätysmuuttujiin Murder, Assault ja Rape. Toisessa pääkomponentissa itsestään selvästi suurimman latauksen saa puolestaan kaupungistumismuuttuja UrbanPop. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 17 / 28

Aineiston ensimmäinen osavaltio on Alabama, jonka havaintoarvot muuttujilla ovat: Murder= 13.2, Assault= 236, UrbanPop= 58 ja Rape= 21.2. Havaittuja arvoja vastaavat standardoidut arvot ovat 1.2426, 0.7828, -0.5209 ja -0.00342. Alabaman pistemäärä 1. pääkomponentille on siten 1.2426 ( 0.5359)+0.7828 ( 0.5832) 0.5209 ( 0.2782) 0.00342 0.5434 0.9757. Vastaavasti Alabaman 2. pääkomponentin pistemääräksi on 1.2426 0.4182 + 0.7828 0.1880 0.5209 ( 0.8728) 0.00342 0.1673 1.122 Aineiston kaikkien osavaltioiden kahden ensimmäisen pääkomponentin väliset pistemäärät voidaan nyt esittää esimerkiksi sirontakuviona (esitetty seuraavalla kalvolla). monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 18 / 28

2. pääkomponentin pistemäärä 3 2 1 0 1 2 3 Mississippi North Carolina South Carolina West Virginia Georgia Vermont Alaska Alabama Arkansas Kentucky Louisiana Tennessee South Dakota Maryland Montana North Dak Wyoming Maine Idaho Florida New Mexico Virginia New Hampshire Michigan Indiana Iowa Missouri Delaware Oklahoma Kansas Nebraska Texas Oregon Pennsylvania Arizona Illinois Minnesota Wisconsin Nevada New York Ohio Colorado Washington Connecticut New Jersey California Massachusetts Rhode Utah Hawaii Island 3 2 1 0 1 2 3 1. pääkomponentin pistemäärä Huom.: Yllä olevassa kuvassa kuvattujen muuttujien välinen korrelaatiokerroin on nolla. Kuinka suuri osa aineiston kokonaisvaihtelusta voidaan esittää kahden ensimmäisen pääkomponentin avulla? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 19 / 28

Edellä esitettyä sirontakuviota voidaan täydentää esittämällä kunkin muuttujan X 1,..., X p pääkomponentteihin 1. ja 2. liittyvät lataukset nuolina, jolloin saadaan muodostettua ns. biplot. 0.5 0.0 0.5 PC2 3 2 1 0 1 2 3 Mississippi North Carolina South Carolina Murder West Virginia Georgia Vermont Alaska Alabama Arkansas Kentucky Louisiana Tennessee South Dakota Assault Maryland Montana North Dak Wyoming Maine Idaho Florida New Mexico Virginia New Hampshire Michigan Indiana Iowa Missouri Delaware Oklahoma Kansas Nebraska Texas Rape OregonPennsylvania Arizona Illinois Minnesota Wisconsin Nevada New York Ohio Colorado Washington Connecticut New Jersey California Massachusetts Rhode Utah Hawaii Island UrbanPop 0.5 0.0 0.5 3 2 1 0 1 2 3 PC1 monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 20 / 28

Ensimmäisen komponentin pistemäärään rikosmuuttujilla Murder, Assault ja Rape lataus on likimain yhtä suuri ja etumerkiltään sama, kun taas kaupungistumismuuttujan UrbanPop vaikutus pistemäärään on vähäisempi. 1. pääkomponentti voitaisiin nimetä siten esimerkiksi yleisrikollisuutta kuvaavaksi muuttujaksi. Toisen komponentin pistemäärään muodostumista hallitsee puolestaan selvästi suurimman latauksen omaava Assault -muuttuja. Voisiko ko. pääkomponentin siis nimetä karkeasti kaupungistumisastetta kuvailevaksi komponentiksi? Sirontakuviosta nähdään mm. se, että Florida on saanut 1. pääkomponentin pistemääräksi pienen arvon. Kyseinen arvo kertoo nyt siitä, että Floridassa on tehty vuonna 1973 selvästi keskimääräistä enemmän rikoksia. Toisella pääkomponentilla Floridan pistemäärä on likimain nolla, joten Floridan kaupungistumisaste on ollut vuonna 1973 suurin piirtein keskimääräinen kaikkien USAn osavaltioiden joukossa. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 21 / 28

Havaintoaineiston (keskiarvoihinsa keskistettyjen muuttujien) kokonaisvarianssi määritellään siten, että se on p Var(X j ) = j=1 p j=1 1 n n xij 2, (4) i=1 josta m. pääkomponentin selittämä varianssi on n zim 2 = 1 n i=1 n p φ jm x ij i=1 j=1 2 (5) monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 22 / 28

Kaavojen (4) ja (5) perusteella m. pääkomponentin selittämä osuus (PVE, proportion of variance explained) aineiston kokonaisvaihtelusta on siten ( ) 2 n p φ jm x ij j=1 p n i=1 xij 2 j=1 i=1 Kun halutaan tietää M ensimmäisen pääkomponentin selittämä osuus aineiston kokonaisvaihtelusta, kyseisten pääkomponenttien PVE-luvut summataan yhteen Havaintoaineistosta voidaan muodostaa yhteensä min(n 1, p) pääkomponenttia, joiden PVE-lukujen summa on yksi monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 23 / 28

R:llä tietoa pääkomponenttien keskihajonnoista ja niiden merkityksestä kokonaisvaihtelun selittäjinä on mahdollista tulostaa mm. summary()-funktiolla. USArrests-aineiston pääkomponenttianalyysistä saadaan seuraava tulostus: Kahden ensimmäisen pääkomponentin avulla voidaan siis selittää noin 86.8 % aineiston vaihtelusta ja 1. pääkomponentti selittää yksinään noin 62 %. Edellä esitetyn taulukon informaatio voidaan esittää eri tavoilla myös graasesti (katso seuraava dia). monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 24 / 28

1.0 1.0 Pääkomponentin selittämä osuus kokonaisvaihtelusta (PVE) 0.8 0.6 0.4 0.2 Kumulatiivinen PVE 0.8 0.6 0.4 0.2 Variances 2.0 1.5 1.0 0.5 0.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 0.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 0.0 1 2 3 4 Pääkomponentti Pääkomponentti Pääkomponentti Vasemmanpuoleisin kuva on nimeltään scree plot. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 25 / 28

Vaikka n p havaintomatriisista voidaan muodostaa kaikkiaan min(n 1, p) pääkomponenttia, kaikista pääkomponenteista ei olla yleensä kiinnostuneita, sillä pääkomponenttianalyysin yksi keskeinen tavoite on havaintoaineiston informaation tiivistäminen. Kuinka montaa pääkomponenttia aineiston jatkoanalyyseissä tulisi käyttää? Kysymykseen ei ole yksikäsitteistä vastausta, mutta valinnan voi tehdä esim. seuraavien suositusten avulla: Etsitään scree plotista mutka, jonka jälkeen pääkomponenttien selittämän kokonaisvaihtelun määrä ei enää laske paljon Otetaan jatkoanalyysiin mukaan vain ne pääkomponentit, joiden varianssi on ykköstä suurempi avulla voidaan selittää riittävän paljon (esimerkiksi 85 %) aineiston kokonaisvaihtelusta sisällölle voidaan antaa mielekäs tulkinta. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 26 / 28

Analyysissa käytettävien muuttujien skaalaamisesta Edellä käsitellyssä esimerkissä pääkomponentti suoritettiin R-ohjelman komennolla prc1 <- prcomp(usarrests, scale=true) Komennossa käytetty lisämääre scale=true määrittelee sen, että havaintoaineiston muuttujat normeerataan ennen pääkomponenttianalyysin tekemistä. Normeerauksen jälkeen muuttujien keskiarvo on nolla ja keskihajonta on yksi. Normeerauksella on vaikutusta havaintoaineiston kovarianssimatriisiin, mutta ei korrelaatiomatriisiin. Itse asiassa normeeratun havaintoaineiston kovarianssimatriisi vastaa korrelaatiomatriisia. Millaisia tuloksia saisimme, jos normeerausta ei tehdä? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 27 / 28

USArrest-aineiston muuttujien varianssit ovat: Muuttuja varianssi Assault 6945.2 Murder 19.0 Rape 87.72 UrbanPop 209.5 Muuttujan Assault varianssi on selvästi suurin. Tämän takia on itsestään selvää, että jos pääkomponenttianalyysi tehdään pelkästään keskiarvoonsa keskistetyillä muuttujilla, ensimmäisen pääkomponentin selvästi suurin lataus tulee muuttujalle Assault. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 28 / 28