805306A Johdatus monimuuttujamenetelmiin, 5 op

Samankaltaiset tiedostot
USA-Australia combo, lähtö elokuussa ei mahdollinen

TKMS7a-f/LRS20a-f/MAS2/KVS2/TMS82a-f/JOM/TJM/YRM Monimuuttujamenetelmien soveltaminen taloustieteissä. Tentti

Bloomington. Average IPEDS Net Price: Peer Comparison

Crop Progress. Cotton Setting Bolls Selected States [These 15 States planted 99% of the 2012 cotton acreage] Cotton Bolls Opening Selected States

Crop Progress. Cotton Bolls Opening Selected States [These 15 States planted 99% of the 2010 cotton acreage]

805306A Johdatus monimuuttujamenetelmiin, 5 op

Idaho Cooper Champneys Shots on center Utah Troy Flanigan Shots on center

805306A Johdatus monimuuttujamenetelmiin, 5 op

L i i kev aihto p a ra n i k a i k illa m a r k k i n a -alueilla h u olimatta n e g a t i ivisesta v a l u u t t a vaikutuksesta

NITTY-GRITTY (THROUGH GAMES OF March 6, 2018 ) Men's Basketball. Road Record. Conf. Record

NITTY-GRITTY (THROUGH GAMES OF March 7, 2018 ) Men's Basketball. Road Record. Conf. Record

NITTY-GRITTY (THROUGH GAMES OF February 25, 2018 ) Men's Basketball. Road Record. Conf. Record

NITTY-GRITTY (THROUGH GAMES OF February 11, 2018 ) Men's Basketball. Road Record. Conf. Record

NITTY-GRITTY (THROUGH GAMES OF December 15, 2017 ) Men's Basketball. Road Record. Conf. Record

NITTY-GRITTY (THROUGH GAMES OF February 20, 2018 ) Men's Basketball. Road Record. Conf. Record

NITTY-GRITTY (THROUGH GAMES OF January 29, 2018 ) Men's Basketball. Road Record. Conf. Record

NITTY-GRITTY (THROUGH GAMES OF December 6, 2017 ) Men's Basketball. Road Record. Conf. Record

NITTY-GRITTY (THROUGH GAMES OF December 4, 2017 ) Men's Basketball. Road Record. Conf. Record

805306A Johdatus monimuuttujamenetelmiin, 5 op

NITTY-GRITTY (THROUGH GAMES OF January 5, 2019 ) Men's Basketball. Conf. Record. Non-Conf. Record

NITTY-GRITTY (THROUGH GAMES OF January 7, 2019 ) Men's Basketball. Conf. Record. Non-Conf. Record

MAAILMA JA KANNABIKSEN LAILLISUUS MISSÄ VOIT POLTELLA RAUHASSA JA MISSÄ SE ON RANGAISTAVAA?

2012 Ordinations. Name

2018 Bridge Builder Award Winners 2017 Bridge Builder Award Winners 2016 Bridge Builder Award Winners 2015 Bridge Builder Award Winners

ALUMNI LIFETIME MEMBERS July 23, 2013

805306A Johdatus monimuuttujamenetelmiin, 5 op

NESBITT AUTO TRANSPORT TOWING PRICES

Budjettisäännöt, julkisen talouden tasapaino ja finanssipolitiikka kokemuksia Yhdysvaltain osavaltioista

Women s Soccer Attendance Records Home Attendance Leaders... 2 Annual Home Attendance Champions... 4 Game Attendance Records...

order of the golden heart recipients

LEADER VAI MANAGERI VAI MOLEMPIA?

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

** = electronic timing

805306A Johdatus monimuuttujamenetelmiin, 5 op

Event 21 Women 100 Yard Breaststroke 70 and Up 70+ Nat Sr G: 1: /7/2015 Daniela Barnea 75+ Nat Sr G: 1: /2/2009 Ann M Hirsch

LIST OF NAADA AWARD WINNERS

Yhdysvaltain presidentit ja hallitusten The United States Presidents and Government In Finnish

Harjoitus 9: Excel - Tilastollinen analyysi

Regressioanalyysi. Kuusinen/Heliövaara 1

First Name Last Name City State Joseph K Chapmanvile West Virginia Stephanie L Cutler Bay Florida Lisa S Weston Florida Molly U Willow River

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Yleistetyistä lineaarisista malleista

Parent/Teen Division. Place Scholarship Teen State USBC #

First Name: Last Name: City: State: Sandy S Simpsonville South Carolina Jeff J Winchester Oregon Susan S Cedarhurst New York Jan J Pickerington Ohio

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

2019 USA Yoga Nationals (137 athletes) , , 50+ Men 18, 50+ Women Men 20, Women 64

riippumattomia ja noudattavat samaa jakaumaa.

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

SUOMEN LOS ANGELESIN PÄÄKONSULAATIN JULKINEN VALMIUSSUUNNITELMA

State FIPSt County Alabama Baldwin Alabama Cherokee Alabama Coffee Alabama Colbert Alabama Escambia Alabama 01061

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

805306A Johdatus monimuuttujamenetelmiin, 5 op

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

2014 VOLUNTEER AWARDS 2013 VOLUNTEER AWARDS 2012 VOLUNTEER AWARDS 2011 VOLUNTEER AWARDS 2010 VOLUNTEER AWARDS 2009 VOLUNTEER AWARDS

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Moniulotteisia todennäköisyysjakaumia

Johdatus regressioanalyysiin. Heliövaara 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

National 4-H Meat Judging Contest National 4H Contest: Overall Oct 16, 2018 Rank Name # Team Name Total Score 1 CALEB KUNDE 10-1 Texas REID

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

HAVAITUT JA ODOTETUT FREKVENSSIT

Mat Tilastollisen analyysin perusteet, kevät 2007

Laskennallinen data-analyysi II

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

YHDYSVALTOIHIN. Lähde vaihto-oppilaaksi. Lukuvuosi Lukukausi. Suomen Youth For Understanding ry

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Matemaattinen Analyysi, k2012, L1

Harjoitus 3 ( )

Hereford Judging Contest Peewee: Overall Jul 09, 2019 Rank Name # Team Name Total Score 1 LAUREN ADKERSON 15- Mississippi DANIEL RICHARDSON 8-

Kvantitatiiviset menetelmät

ABHELSINKI UNIVERSITY OF TECHNOLOGY

WORLD RANK UNIVERSITY COUNTRY SIZE VISIBILITY RICH FILES SCHOLAR

Mat Sovellettu todennäköisyyslasku A

Kandidaatintutkielman aineistonhankinta ja analyysi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Numeeriset menetelmät

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Dynaamiset regressiomallit

Simplex-algoritmi. T Informaatiotekniikan seminaari , Susanna Moisala

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Talousmatematiikan perusteet: Luento 8. Vektoreista ja matriiseista Vektorien peruslaskutoimitukset Lineaarinen riippumattomuus Vektorien sisätulo

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

A = a b B = c d. d e f. g h i determinantti on det(c) = a(ei fh) b(di fg) + c(dh eg). Matriisin determinanttia voi merkitä myös pystyviivojen avulla:

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Lineaariavaruudet. Span. Sisätulo. Normi. Matriisinormit. Matriisinormit. aiheita. Aiheet. Reaalinen lineaariavaruus. Span. Sisätulo.

Paikkatiedon käsittely 11. Suuren mittakaavan

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Women of the Moose Chapter Analysts Coordinators and Chapter Analysts

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Moving On Men s Basketball

Ominaisarvo-hajoitelma ja diagonalisointi

Transkriptio:

monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos

Pääkomponenttianalyysi (PCA, Principle component analysis) Tarkastellaan n havaintoyksikön havaintoaineistoa, joka pitää sisällään muuttujat X 1, X 2,..., X p. Vastemuuttujaa Y ei ole. Tarkoituksena on muuntaa alkuperäiset muuttujat X 1, X 2,..., X p korreloimattomiksi uusiksi muuttujiksi, jotka ovat muuttujien X 1, X 2,..., X p lineaarikombinaatioita. Näitä uusia muuttujia kutsutaan pääkomponenteiksi Ensimmäinen pääkomponentti selittää mahdollisimman suuren osan alkuperäistäisten muuttujien (eli aineiston) vaihtelusta Toinen pääkomponentti selittää mahdollisimman paljon 1. pääkomponentilta selittämättä jääneestä aineiston vaihtelusta Kolmas pääkomponentti selittää mahdollisimman paljon 1. ja 2. pääkomponentilta selittämättä jääneestä aineiston vaihtelusta, jne. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 2 / 28

Pääkomponentit määritellään siten, että ne ovat korreloimattomia keskenään Pääkomponentteja voidaan muodostaa enintään m p kappaletta Menetelmässä analysoidaan itsea asiassa aineiston kovarianssi-/korrelaatiomatriisia (ja sen riippuvuusrakennetta) Menetelmän yhtenä keskeisenä tavoitteena on tiivistää useiden muuttujien informaatio muutamaan keskeiseen pääkomponenttiin Pääkomponenttien analysointi voi auttaa havaitsemaan riippuvuussuhteita, jotka eivät muuten tulisi näkyviin k ensimmäistä pääkomponenttia voidaan käyttää jatkoanalyyseissä (esim. usean selittäjän regressioanalyysissä) monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 3 / 28

Pääkomponenttianalyysin edellytykset ja huomioitavia seikkoja: Mitään varsinaisia jakaumaoletuksia ei ole, mutta muuttujien X 1, X 2,..., X n multinormaalijakauteneisuus tuo analyysiin lisää tulkinnallisuutta ja hyvyyttä Koska laskenta perustuu kovarianssi-/korrelaatiomatriisiin, muuttujien riippuvuuksien tulisi olla lineaarisia Kovarianssimatriisiin perustuvassa analyysissä (analyysissä mukana alkuperäiset muuttujat) muuttujien skaalaus vaikuttaa tuloksiin Korrelaatiomatriisiin perustuvassa analyysissä (analyysissä käytetään standardoituja muuttujia) yllä mainittua skaalausvaikutusta ei ole Ensimmäinen pääkomponentti on suora, joka kulkee mahdollisimman läheltä kaikkia havaintopisteitä Loput pääkomponentit ovat em. suoran kanssa ortogonaalisia monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 4 / 28

Pääkomponenttianalyysin perusidea: Ensimmäinen pääkomponentti on muotoa Toinen pääkomponentti on muotoa Z 1 = φ 11 X 1 + φ 21 X 2 Z 2 = φ 12 X 1 + φ 22 X 2 monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 5 / 28

K lähimmän naapurin menetelmän yhteydessä tarkasteltiin pientä kurjenmiekka-aineistoa, josta piirretyt sirontakuviot alkuperäisillä ja keskistetyillä muuttujilla (Petal.Length ja Petal.Width) on esitetty alla: 3.0 3 2.5 2 Petal.Width 2.0 1.5 1.0 Keskistetty Petal.Width 1 0 1 0.5 0.0 2 3 1 2 3 4 5 6 7 Petal.Length 3 2 1 0 1 2 3 Keskistetty Petal.Length Aineisto on siis kaksiulotteinen, mutta missä suunnassa vaihtelua on eniten? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 6 / 28

Pääkomponenttianalyysin perusidea: etsitään ensimmäisenä se suunta, 1. pääkomponentti, jossa vaihtelua on eniten. 3 2 Keskistetty Petal.Width 1 0 1 2 3 3 2 1 0 1 2 3 Keskistetty Petal.Length Katso visuaalinen demo 1. pääkomponentin oikean suunnan etsimisestä: https://stats.stackexchange.com/questions/2691/ making-sense-of-principal-component-analysis-eigenvectors-eigenvalues monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 7 / 28

Seuraavaksi etsitään se suunta, 2. pääkomponentti, jossa 1. pääkomponentin selittämän vaihtelun jälkeen jäävää aineiston vaihtelua on eniten. 1. ja 2. pääkomponentin tulee olla toisistaan riippumattomia. 3 2 Keskistetty Petal.Width 1 0 1 2 3 3 2 1 0 1 2 3 Keskistetty Petal.Length monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 8 / 28

2. pääkomponentti 3 2 1 0 1 2 3 3 2 1 0 1 2 3 1. pääkomponentti 3 2 1 0 1 2 3 1. pääkomponentti 3 2 1 0 1 2 3 2. pääkomponentti Voisiko aineiston vaihtelun esittää kahden alkuperäisen muuttujan sijasta pelkästään 1. pääkomponentin avulla menettämättä oleellista informaatiota? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 9 / 28

Usean muuttujan (p 2) tilanteessa pääkomponenttianalyysi toimii ulottuvuuksien (dimensions) vähentämismenetelmänä, joka mahdollistaa useiden muuttujien (p kpl) vaihtelun tiivistämisen vähäisempään määrään uusia muuttujia (pääkomponentteja), jotka ovat toisistaan riippumattomia yksinkertaisten graasten menetelmien mielekkään käyttämisen havaintoaineiston piirteiden kuvaamisessa poikkeavien havaintojen (oudokit) löytämisen aineistosta ns. päävaikutuksen eliminoinnin: jos joku muuttujista on hallitseva pääselittäjä, sen vaikutus halutaan mahdollisesti eliminoida, jotta muut potentiaaliset selittäjät saadaan esiin monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 10 / 28

Tarkastellaan teorian esittämisen lomassa R:n mukana tulevaa USArrests-aineistoa, joka sisältää tiedot seuraavista muuttujista USAn 50 osavaltioista vuodelta 1973: Assault Pahoinpitelypidätysten lukumäärä (per 100 000 henkilöä) Murder Murhapidätysten lukumäärä (per 100 000 henkilöä) Rape Raiskauspidätysten lukumäärä (per 100 000 henkilöä) UrbanPop Osavaltion kaupungistumisaste (%) Murder 50 150 250 10 20 30 40 5 10 15 50 150 250 Assault UrbanPop 30 50 70 90 5 10 15 10 20 30 40 30 50 70 90 Rape monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 11 / 28

Aineistoon liittyvät kovarianssi- ja korrelaatiomatriisit ovat seuraavat: Voisiko tässä aineistossa esiintyvän vaihtelun tiivistää vähäisempään määrään muuttujia ilman, että oleellista informaatiota häviää? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 12 / 28

Pääkomponenttien määrittely Havaintoaineisto sisältää n havaintoyksikön mittaustiedot muuttujista X 1, X 2,..., X p. 1. pääkomponentti Z 1 määritellään sellaisena alkuperäisten muuttujien X 1, X 2,..., X p lineaarikombinaationa Z 1 = φ 11 X 1 + φ 21 X 2 +... + φ p1 X p, (1) jonka varianssi on suurin. Kertoimia φ11, φ 21,..., φ p1 sanotaan 1. pääkomponenttiin liittyviksi latauksiksi (loadings) ja niiltä edellytetään, että p φ 2 j1 = 1. j=1 Yhdessä ne muodostavat latausvektorin φ 1 = (φ 11, φ 21,..., φ p1 ) T monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 13 / 28

Kertoimien laskemista varten muuttujat X1, X 2,..., X p keskistetään keskiarvoonsa, jonka jälkeen 1. pääkomponentin latausvektorin φ 1 tehtävänä on maksimoida lauseke 2 max 1 n p p φ 11,..., φ p1 φ j1 x ij n, missä φ 2 j1 = 1 i=1 j=1 Pääkomponentin lataukset φ11, φ 21,..., φ p1 voidaan ratkaista ns. ominaisarvohajotelman avulla ja latausten voi ajatella määrittelevän p-ulotteiseen avaruuteen sen suunnan, jossa aineisto vaihtelee eniten. Yksittäisiin havaintoyksiköihin i (i = 1,..., n) liittyviä pääkomponentin arvoja z i1 = φ 11 x i1 + φ 21 x i2 +... + φ p1 x ip sanotaan pistemääriksi (score). j=1 monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 14 / 28

Ensimmäisen pääkomponentin määrittelyn jälkeen toinen pääkomponentti Z 2 määritellään sellaisena alkuperäisten muuttujien X 1, X 2,..., X p lineaarikombinaationa, jolla on suurin varianssi sellaisten alkuperäisten muuttujien lineaarikombinaatioiden joukossa, jotka ovat korreloimattomia ensimmäisen pääkomponentin kanssa: Z 2 = φ 12 X 1 + φ 22 X 2 +... + φ p2 X p, missä p φ 2 j2 = 1 j=1 ja cov(z 1, Z 2 ) = 0 (2) Kertoimet φ12, φ 22,..., φ p2 muodostavat nyt 2. pääkomponenttiin liittyvän latausvektorin φ 2. Z 1 :n ja Z 2 :n korreloimattomuus tarkoittaa käytännössä sitä, että ne ovat kohtisuorassa toisiinsa nähden (vrt. edellinen esimerkki). monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 15 / 28

Useampiulotteisen (p > 2) havaintoaineiston tilanteessa seuraavat pääkomponentit määritellään samoilla periaatteilla kuin edellä esitetyt kaksi ensimmäistä pääkomponenttia. Esimerkiksi 3. pääkomponentti Z3 määritellään siten, että p Z 3 = φ 13 X 1 + φ 23 X 2 +... + φ p3 X p, missä φ 2 j3 = 1 j=1 ja lisäksi cov(z 1, Z 3 ) = 0 ja cov(z 2, Z 3 ) = 0 Kertoimet φ13, φ 23,..., φ p3 muodostavat nyt 3. pääkomponenttiin liittyvän latausvektorin φ 3. Kaikkiaan pääkomponentteja voidaan muodostaa p kappaletta. Pääkomponenttien muodostamisen jälkeen havaintoaineistoa voidaan kuvailla esimerkiksi parittaisten sirontakuvioiden sijasta kahden pääkomponentin välisillä sirontakuvioilla. (3) monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 16 / 28

Esimerkki Suoritetaan seuraavaksi USArrests-aineistolle pääkomponenttianalyysi, joka saadaan tehtyä R:llä funktiolla prcomp(). Ensimmäisen pääkomponentin latausvektori φ1 on siis ( 0.5359, 0.5832, 0.2782, 0.5434) T ja itseisarvoltaan suurimmat lataukset liittyvät pidätysmuuttujiin Murder, Assault ja Rape. Toisessa pääkomponentissa itsestään selvästi suurimman latauksen saa puolestaan kaupungistumismuuttuja UrbanPop. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 17 / 28

Aineiston ensimmäinen osavaltio on Alabama, jonka havaintoarvot muuttujilla ovat: Murder= 13.2, Assault= 236, UrbanPop= 58 ja Rape= 21.2. Havaittuja arvoja vastaavat standardoidut arvot ovat 1.2426, 0.7828, -0.5209 ja -0.00342. Alabaman pistemäärä 1. pääkomponentille on siten 1.2426 ( 0.5359)+0.7828 ( 0.5832) 0.5209 ( 0.2782) 0.00342 0.5434 0.9757. Vastaavasti Alabaman 2. pääkomponentin pistemääräksi on 1.2426 0.4182 + 0.7828 0.1880 0.5209 ( 0.8728) 0.00342 0.1673 1.122 Aineiston kaikkien osavaltioiden kahden ensimmäisen pääkomponentin väliset pistemäärät voidaan nyt esittää esimerkiksi sirontakuviona (esitetty seuraavalla kalvolla). monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 18 / 28

2. pääkomponentin pistemäärä 3 2 1 0 1 2 3 Mississippi North Carolina South Carolina West Virginia Georgia Vermont Alaska Alabama Arkansas Kentucky Louisiana Tennessee South Dakota Maryland Montana North Dak Wyoming Maine Idaho Florida New Mexico Virginia New Hampshire Michigan Indiana Iowa Missouri Delaware Oklahoma Kansas Nebraska Texas Oregon Pennsylvania Arizona Illinois Minnesota Wisconsin Nevada New York Ohio Colorado Washington Connecticut New Jersey California Massachusetts Rhode Utah Hawaii Island 3 2 1 0 1 2 3 1. pääkomponentin pistemäärä Huom.: Yllä olevassa kuvassa kuvattujen muuttujien välinen korrelaatiokerroin on nolla. Kuinka suuri osa aineiston kokonaisvaihtelusta voidaan esittää kahden ensimmäisen pääkomponentin avulla? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 19 / 28

Edellä esitettyä sirontakuviota voidaan täydentää esittämällä kunkin muuttujan X 1,..., X p pääkomponentteihin 1. ja 2. liittyvät lataukset nuolina, jolloin saadaan muodostettua ns. biplot. 0.5 0.0 0.5 PC2 3 2 1 0 1 2 3 Mississippi North Carolina South Carolina Murder West Virginia Georgia Vermont Alaska Alabama Arkansas Kentucky Louisiana Tennessee South Dakota Assault Maryland Montana North Dak Wyoming Maine Idaho Florida New Mexico Virginia New Hampshire Michigan Indiana Iowa Missouri Delaware Oklahoma Kansas Nebraska Texas Rape OregonPennsylvania Arizona Illinois Minnesota Wisconsin Nevada New York Ohio Colorado Washington Connecticut New Jersey California Massachusetts Rhode Utah Hawaii Island UrbanPop 0.5 0.0 0.5 3 2 1 0 1 2 3 PC1 monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 20 / 28

Ensimmäisen komponentin pistemäärään rikosmuuttujilla Murder, Assault ja Rape lataus on likimain yhtä suuri ja etumerkiltään sama, kun taas kaupungistumismuuttujan UrbanPop vaikutus pistemäärään on vähäisempi. 1. pääkomponentti voitaisiin nimetä siten esimerkiksi yleisrikollisuutta kuvaavaksi muuttujaksi. Toisen komponentin pistemäärään muodostumista hallitsee puolestaan selvästi suurimman latauksen omaava Assault -muuttuja. Voisiko ko. pääkomponentin siis nimetä karkeasti kaupungistumisastetta kuvailevaksi komponentiksi? Sirontakuviosta nähdään mm. se, että Florida on saanut 1. pääkomponentin pistemääräksi pienen arvon. Kyseinen arvo kertoo nyt siitä, että Floridassa on tehty vuonna 1973 selvästi keskimääräistä enemmän rikoksia. Toisella pääkomponentilla Floridan pistemäärä on likimain nolla, joten Floridan kaupungistumisaste on ollut vuonna 1973 suurin piirtein keskimääräinen kaikkien USAn osavaltioiden joukossa. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 21 / 28

Havaintoaineiston (keskiarvoihinsa keskistettyjen muuttujien) kokonaisvarianssi määritellään siten, että se on p Var(X j ) = j=1 p j=1 1 n n xij 2, (4) i=1 josta m. pääkomponentin selittämä varianssi on n zim 2 = 1 n i=1 n p φ jm x ij i=1 j=1 2 (5) monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 22 / 28

Kaavojen (4) ja (5) perusteella m. pääkomponentin selittämä osuus (PVE, proportion of variance explained) aineiston kokonaisvaihtelusta on siten ( ) 2 n p φ jm x ij j=1 p n i=1 xij 2 j=1 i=1 Kun halutaan tietää M ensimmäisen pääkomponentin selittämä osuus aineiston kokonaisvaihtelusta, kyseisten pääkomponenttien PVE-luvut summataan yhteen Havaintoaineistosta voidaan muodostaa yhteensä min(n 1, p) pääkomponenttia, joiden PVE-lukujen summa on yksi monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 23 / 28

R:llä tietoa pääkomponenttien keskihajonnoista ja niiden merkityksestä kokonaisvaihtelun selittäjinä on mahdollista tulostaa mm. summary()-funktiolla. USArrests-aineiston pääkomponenttianalyysistä saadaan seuraava tulostus: Kahden ensimmäisen pääkomponentin avulla voidaan siis selittää noin 86.8 % aineiston vaihtelusta ja 1. pääkomponentti selittää yksinään noin 62 %. Edellä esitetyn taulukon informaatio voidaan esittää eri tavoilla myös graasesti (katso seuraava dia). monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 24 / 28

1.0 1.0 Pääkomponentin selittämä osuus kokonaisvaihtelusta (PVE) 0.8 0.6 0.4 0.2 Kumulatiivinen PVE 0.8 0.6 0.4 0.2 Variances 2.0 1.5 1.0 0.5 0.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 0.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 0.0 1 2 3 4 Pääkomponentti Pääkomponentti Pääkomponentti Vasemmanpuoleisin kuva on nimeltään scree plot. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 25 / 28

Vaikka n p havaintomatriisista voidaan muodostaa kaikkiaan min(n 1, p) pääkomponenttia, kaikista pääkomponenteista ei olla yleensä kiinnostuneita, sillä pääkomponenttianalyysin yksi keskeinen tavoite on havaintoaineiston informaation tiivistäminen. Kuinka montaa pääkomponenttia aineiston jatkoanalyyseissä tulisi käyttää? Kysymykseen ei ole yksikäsitteistä vastausta, mutta valinnan voi tehdä esim. seuraavien suositusten avulla: Etsitään scree plotista mutka, jonka jälkeen pääkomponenttien selittämän kokonaisvaihtelun määrä ei enää laske paljon Otetaan jatkoanalyysiin mukaan vain ne pääkomponentit, joiden varianssi on ykköstä suurempi avulla voidaan selittää riittävän paljon (esimerkiksi 85 %) aineiston kokonaisvaihtelusta sisällölle voidaan antaa mielekäs tulkinta. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 26 / 28

Analyysissa käytettävien muuttujien skaalaamisesta Edellä käsitellyssä esimerkissä pääkomponentti suoritettiin R-ohjelman komennolla prc1 <- prcomp(usarrests, scale=true) Komennossa käytetty lisämääre scale=true määrittelee sen, että havaintoaineiston muuttujat normeerataan ennen pääkomponenttianalyysin tekemistä. Normeerauksen jälkeen muuttujien keskiarvo on nolla ja keskihajonta on yksi. Normeerauksella on vaikutusta havaintoaineiston kovarianssimatriisiin, mutta ei korrelaatiomatriisiin. Itse asiassa normeeratun havaintoaineiston kovarianssimatriisi vastaa korrelaatiomatriisia. Millaisia tuloksia saisimme, jos normeerausta ei tehdä? monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 27 / 28

USArrest-aineiston muuttujien varianssit ovat: Muuttuja varianssi Assault 6945.2 Murder 19.0 Rape 87.72 UrbanPop 209.5 Muuttujan Assault varianssi on selvästi suurin. Tämän takia on itsestään selvää, että jos pääkomponenttianalyysi tehdään pelkästään keskiarvoonsa keskistetyillä muuttujilla, ensimmäisen pääkomponentin selvästi suurin lataus tulee muuttujalle Assault. monimuuttujamenetelmiin, 5 op 28. marraskuuta 2018 28 / 28