Tämän luennon sisältö. Luku 4. Vektoridatan tiivistäminen. Datamatriisi (2) Datamatriisi. T Datasta tietoon, syksy 2011

Samankaltaiset tiedostot
Luku 4. Vektoridatan tiivistäminen

perusjoukosta (esim. tietyn kokoisten digitaalikuvien joukko).

Luku 1. Johdantoluento

Laskennallinen data-analyysi II

Ratkaisuehdotukset LH 7 / vko 47

Ominaisvektoreiden lineaarinen riippumattomuus

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

T Datasta tietoon, syksy 2011

1 Ominaisarvot ja ominaisvektorit

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

Talousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu

6 MATRIISIN DIAGONALISOINTI

Matemaattinen Analyysi / kertaus

Sovellusohjelmointi Matlab-ympäristössä: Vertaisverkon koneiden klusterointi

5 Ominaisarvot ja ominaisvektorit

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

MS-A0004/A0006 Matriisilaskenta

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Laskennallinen data-analyysi II

Lineaarikuvauksen R n R m matriisi

Ortogonaalisen kannan etsiminen

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Lineaariavaruudet. Span. Sisätulo. Normi. Matriisinormit. Matriisinormit. aiheita. Aiheet. Reaalinen lineaariavaruus. Span. Sisätulo.

(1.1) Ae j = a k,j e k.

Insinöörimatematiikka D

Lineaarikuvausten. Lineaarikuvaus. Lineaarikuvauksia. Ydin. Matriisin ydin. aiheita. Aiheet. Lineaarikuvaus. Lineaarikuvauksen matriisi

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Ratkaisuehdotukset LH 3 / alkuvko 45

Ortogonaaliset matriisit, määritelmä 1

Insinöörimatematiikka D

MS-C1340 Lineaarialgebra ja

Inversio-ongelmien laskennallinen peruskurssi Luento 4

1 Matriisit ja lineaariset yhtälöryhmät

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Sisätuloavaruudet. 4. lokakuuta 2006

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

Moniulotteisia todennäköisyysjakaumia

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

Ratkaisuehdotukset LH 8 / vko 47

802320A LINEAARIALGEBRA OSA II

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

Insinöörimatematiikka D

Matriisihajotelmat. MS-A0007 Matriisilaskenta. 5.1 Diagonalisointi. 5.1 Diagonalisointi

Osoita, että täsmälleen yksi vektoriavaruuden ehto ei ole voimassa.

Determinantti 1 / 30

Matematiikka B2 - Avoin yliopisto

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0).

Insinöörimatematiikka D

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Matemaattinen Analyysi, k2012, L1

Kanta ja Kannan-vaihto

Lineaarialgebra ja matriisilaskenta I, HY Kurssikoe Ratkaisuehdotus. 1. (35 pistettä)

r > y x z x = z y + y x z y + y x = r y x + y x = r

1 Sisätulo- ja normiavaruudet

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

Tyyppi metalli puu lasi työ I II III

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

Insinöörimatematiikka D

Insinöörimatematiikka D

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

Talousmatematiikan perusteet: Luento 8. Vektoreista ja matriiseista Vektorien peruslaskutoimitukset Lineaarinen riippumattomuus Vektorien sisätulo

1 Kannat ja kannanvaihto

Ominaisarvo-hajoitelma ja diagonalisointi

Matriisit, L20. Laskutoimitukset. Matriisikaavoja. Aiheet. Määritelmiä ja merkintöjä. Laskutoimitukset. Matriisikaavoja. Matriisin transpoosi

Matematiikka B2 - TUDI

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Yhteenlaskun ja skalaarilla kertomisen ominaisuuksia

3.2.2 Tikhonovin regularisaatio

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

JAKSO 2 KANTA JA KOORDINAATIT

3.1 Lineaarikuvaukset. MS-A0004/A0006 Matriisilaskenta. 3.1 Lineaarikuvaukset. 3.1 Lineaarikuvaukset

Tehtäväsarja I Kerrataan lineaarikuvauksiin liittyviä todistuksia ja lineaarikuvauksen muodostamista. Sarjaan liittyvät Stack-tehtävät: 1 ja 2.

Vektoreiden virittämä aliavaruus

Talousmatematiikan perusteet: Luento 10. Lineaarikuvaus Matriisin aste Determinantti Käänteismatriisi

Kuva 1: Funktion f tasa-arvokäyriä. Ratkaisu. Suurin kasvunopeus on gradientin suuntaan. 6x 0,2

Lineaarialgebra II, MATH.1240 Matti laaksonen, Lassi Lilleberg

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 2 / vko 45

Ortogonaaliprojektio äärellisulotteiselle aliavaruudelle

Ominaisarvoon 4 liittyvät ominaisvektorit ovat yhtälön Ax = 4x eli yhtälöryhmän x 1 + 2x 2 + x 3 = 4x 1 3x 2 + x 3 = 4x 2 5x 2 x 3 = 4x 3.

Päättelyn voisi aloittaa myös edellisen loppupuolelta ja näyttää kuten alkupuolella, että välttämättä dim W < R 1 R 1

Luento 8: Epälineaarinen optimointi

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

1 Rajoittamaton optimointi

Harjoitusten 5 vastaukset

Likimääräisratkaisut ja regularisaatio

Derivaatta: funktion approksimaatio lineaarikuvauksella.

Liittomatriisi. Liittomatriisi. Määritelmä 16 Olkoon A 2 M(n, n). Matriisin A liittomatriisi on cof A 2 M(n, n), missä. 1) i+j det A ij.

Määritelmä Olkoon T i L (V i, W i ), 1 i m. Yksikäsitteisen lineaarikuvauksen h L (V 1 V 2 V m, W 1 W 2 W m )

Matriisit, L20. Laskutoimitukset. Matriisikaavoja. Aiheet. Määritelmiä ja merkintöjä. Laskutoimitukset. Matriisikaavoja. Matriisin transpoosi

Oletetaan ensin, että tangenttitaso on olemassa. Nyt pinnalla S on koordinaattiesitys ψ, jolle pätee että kaikilla x V U

Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41

sitä vastaava Cliffordin algebran kannan alkio. Merkitään I = e 1 e 2 e n

1 Avaruuksien ja lineaarikuvausten suora summa

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Määritelmä 1. Olkoot V ja W lineaariavaruuksia kunnan K yli. Kuvaus L : V. Termejä: Lineaarikuvaus, Lineaarinen kuvaus.

Transkriptio:

Tämän luennon sisältö Luku 4. Vektoridatan tiivistäminen T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 1 Datamatriisi Pääkomponenttianalyysi (PCA) PCA-esimerkkejä: ominaiskasvot DSS-menetelmä 7.11.2011 1 / 35 2 / 35 Datamatriisi Datamatriisi (2) Palautetaan mieleen datamatriisi X: X = x11 x12 x13 x1n x21 x 22 x31 x d1 n vektoria (havaintoa) Usein matriisin sarakkeilla (vektoreilla x(t), t = 1,..., n) ei ole mitään määrättyä järjestystä vaan ne ovat vain otos jostakin perusjoukosta (esim. tietyn kokoisten digitaalikuvien joukko). x dn d vektorielementtia (dimensio) Joskus vektoreilla x on kuitenkin selkeä ajallinen järjestys; ks. DSS-menetelmä luvun lopussa. Usein vaikeus on vektoreiden suuri dimensio (esim. tekstidokumenttien sanahistogrammit: dimensio voi olla 50.000; digitaalinen kuva rivi riviltä skannattuna: dimensio on rivit sarakkeet) Kuitenkin vektorialkioiden välillä on voimakkaita riippuvuuksia (esim. kuvan vierekkäiset pisteet) 3 / 35 4 / 35

Datamatriisi (3) Datamatriisi (4) Kuva: Matlabin kameramies ja yksityiskohta. Huomaa luonnollisen kuvan rakenne: vierekkäisillä pikseleillä on yleensä lähes sama arvo (tasainen pinta) eli ne korreloivat. Menetelmiä: pääkomponenttianalyysi, joka poistaa korrelaatiot (2. kertaluvun tilastolliset riippuvuudet); riippumattomien komponenttien analyysi, joka pyrkii poistamaan kaikki riippuvuudet. Nämä riippuvuudet poistamalla päästään alentamaan dimensiota voimakkaasti. 5 / 35 6 / 35 Pääkomponenttianalyysi (PCA) Pääkomponenttianalyysi (PCA) (2) Pääkomponenttianalyysi (Principal Component Analysis, PCA; eli Hotelling-muunnos eli Karhunen-Loève -muunnos) on klassinen tekniikka datan ja signaalien analyysisssä PCA poistaa korrelaatiot vektorialkioiden välillä ja samalla löytää kierron vektoriavaruudessa siten että uusilla (kierretyillä) koordinaateilla on maksimaalisen suuret varianssit (energiat). Tietyillä ehdoilla PCA löytää tilastollisesti riippumattomat komponentit (jos data normaalijakautunutta). Katsotaan seuraavassa matemaattisesti miten tämä tehdään. Lähtökohtana ovat datamatriisin sarakkeet: vektorit x joilla on d alkiota. Datamatriisi sisältää otoksen x(1),..., x(n) näitä vektoreita. Tyypillisesti x:n alkiot voivat siis olla piirrearvoja, kuvapikseleiden harmaatasoja, histogrammiarvoja tms. kuten edellisissä luvuissa on esitetty Pääkomponenttimuunnoksessa vektorit x nollakeskiarvoistetaan ensin vähentämällä keskiarvo: x x E{x} 7 / 35 8 / 35

Pääkomponenttianalyysi (PCA) (3) Pääkomponenttianalyysi (PCA) (4) Tässä merkintä E{x} tarkoittaa keskiarvoa: käytännössä se lasketaan seuraavasti: E{x} = 1 n n x(i) Oletetaan seuraavassa että tämä on tehty ja vektorit x ovat siis nollakeskiarvoisia. Sitten x muunnetaan lineaarimuunnoksella toiseksi vektoriksi y jossa on m alkiota, m d, niin että korrelaatioista johtuva redundanssi poistuu. Samalla kertaa x:n uusille koordinaattiakseleille otettujen projektioiden varianssit maksimoituvat Kuva: Vektorijakauman (kuvattu ellipsillä) pääakselit kahdessa dimensiossa: e 1 ja e 2. Keskiarvo on m. Ominaisarvot λ 1 ja λ 2 antavat varianssit pääakselien suunnassa 9 / 35 10 / 35 Pääkomponenttianalyysi (PCA) (5) Pääkomponenttianalyysi (PCA) Matemaattinen johtaminen maksimivarianssikriteerillä Ensimmäinen akseli e 1 kuvassa 2 (pääkomponentin suunta) vastaa suurinta varianssia, toinen on suurin varianssi ensimmäistä vasten kohtisuorassa suunnassa jne. Viimeisillä pääkomponenteilla on jo niin pieni varianssi, että ne voidaan kokonaan jättää pois. Tähän perustuu vektoreiden tiivistäminen (dimension alentaminen). Esimerkki 3D-, 2D- ja 1D-datasta 11 / 35 Matemaattisesti: ajatellaan lineaarikombinaatiota y 1 = d w k1 x k = w T 1 x k=1 vektorin x alkioista x 1,..., x n (projektiota suunnalle w 1 ) Summa y 1 on nimeltään x:n ensimmäinen pääkomponentti, jos y 1 :n varianssi E{y 2 1 } on mahdollisimman suuri. Taas varianssi voidaan käytännössä laskea summana yli otoksen x(i). Vektori w 1 on vastaava pääkomponenttivektori. Jotta E{y1 2 } ei kasvaisi äärettömän suureksi, täytyy vektorin w 1 pituutta jotenkin rajoittaa. Kätevin rajoite on että sen normi on vakio, käytännössä 1 12 / 35

Pääkomponenttianalyysi (PCA) (2) Matemaattinen johtaminen maksimivarianssikriteerillä Siten PCA-kriteeri on seuraava: maksimoi J PCA 1 (w 1 ) = E{y 2 1 } = E{(wT 1 x)2 } = w T 1 E{xxT }w 1 = w T 1 C xw 1 missä w 1 = 1 Matriisi C x = E{xx T } on d d ja nimeltään x:n kovarianssimatriisi Se lasketaan käytännössä nolla-keskiarvoistetusta datamatriisista X kaavalla C x = 1 n XXT Ratkaisu on w 1 = e 1 missä e 1 on C x :n ominaisvektori vastaten suurinta ominaisarvoa λ 1. Miksi? 13 / 35 Pääkomponenttianalyysi (PCA) (3) Matemaattinen johtaminen maksimivarianssikriteerillä Katsotaan tätä harjoitustehtävänä, mutta eräs peruste on seuraava: w T 1 C xw 1 on vektoreiden w 1 ja C x w 1 sisätulo, joka on samalla niiden pituuksien (euklidisten normien) tulo kertaa niiden välisen kulman kosini. (Muista sisätulon määritelmä!) Sovittiin että w 1 = 1 joten jää kulman kosini kertaa C x w 1. Kosini maksimoituu kun kulma on nolla, mutta silloin pätee C x w 1 = λw 1 missä λ on jokin skalaarivakio. Tämä on matriisin C x ominaisarvoyhtälö jonka ratkaisuina ovat sen d ominaisvektoria. Mikä niistä pitää valita? Silloin myös pätee C x w 1 = λ joten λ:n pitäisi olla mahdollisimman suuri. Valitaan siis suurinta ominaisarvoa vastaava ominaisvektori pääkomponenttivektoriksi w 1. 14 / 35 Pääkomponenttianalyysi (PCA) (4) Matemaattinen johtaminen maksimivarianssikriteerillä Pääkomponenttianalyysi (PCA) Johtaminen pienimmän neliösumman virheeseen (MSE) perustuen Maksimivarianssikriteeri max E{y 2 k } = E{(wT k x)2 } voidaan yleistää m:lle pääkomponentille kun lisätään rajoitusehdot: joko tai E{y m y k } = 0, k < m (1) w T i w j = δ ij Ratkaisuna on että k:s pääkomponentti on y k = e T k x, k = 1,..., n Toinen tapa määritellä PCA on vektoreiden x pienimmän neliösumman virhe (MSE) kun ne esitetään PCA-kehitelmässä jossa on mukana m termiä Merkitään joukkoa ortogonaalisia vektoreita w 1,..., w m MSE-kriteeri: J PCA m MSE = E{ x (w T i x)w i 2 } (2) 15 / 35 16 / 35

Pääkomponenttianalyysi (PCA) (2) Johtaminen pienimmän neliösumman virheeseen (MSE) perustuen On helppo näyttää että voimme kirjoittaa J PCA MSE = E{ x 2 } E{ = trace(c x ) (w T i x) 2 } (3) w T i C x w i (4) Voidaan osoittaa että kriteerin (4) minimi ortogonaalisuusehdon vallitessa on m:n ensimmäisen ominaisvektorin e 1,..., e m muodostama kanta PCA-kehitelmä tietylle vektorille x on silloin Pääkomponenttianalyysi (PCA) (3) Johtaminen pienimmän neliösumman virheeseen (MSE) perustuen Pienimmän MSE-virheen arvo on silloin J PCA MSE = n i=m+1 λ i (6) Tämä on niiden pienimpien ominaisarvojen summa, jotka vastaavat poisjätettyjä ominaisvektoreita e m+1,..., e n Tästä voi myös laskea kuinka monta pääkomponenttia täytyy ottaa mukaan kehitelmään (5) jotta päästään haluttuun kompressioon. x = (e T i x)e i (5) 17 / 35 18 / 35 Esimerkki: ominaiskasvot Esimerkki: ominaiskasvot (2) Eräs suosittu pääkomponenttianalyysin (PCA) sovellus on ns. ominaiskasvot (eigenfaces) Siinä kerätään joukko kasvokuvia, yleensä normeerattuja niin että kasvonpiirteet ovat suunnilleen samassa paikassa kuva-alueessa Kuvat skannataan vektoreiksi vaakariveittäin Nämä vektorit ovat nyt datamatriisin X sarakkeita. Lasketaan ominaisvektorit, jotka voidaan visualisoida ominaiskasvoina Kuva: Ominaiskasvoja Näitä voi käyttää kuvien tunnistamiseen projisoimalla kuvat mataladimensoiseen (2- tai 3-dim.) pääkomponenttiavaruuteen; saman henkilön eri kuvat osuvat siellä lähekkäin. Esimerkki projektiosta T2-harjoituksissa 19 / 35 20 / 35

Esimerkki: ominaiskasvot (3) Esimerkki: käsinkirjoitetut merkit Tiivistettyä esitystä voi hyödyntää myös datan pakkaamisessa Tietokoneharjoitusten T2 esimerkki ominaiskasvoista Seuraava esimerkki näyttää, kuinka datan rekonstruktio paranee kun yhä enemmän pääkomponentteja otetaan mukaan kehitelmään (5) Vasemmanpuoleisessa sarakkeessa on käsinkirjoitettuja numeroita digitoituna 32 32 kuvamatriisiin Seuraavassa sarakkeessa on niiden keskiarvovektori, joka siis vähennetään ennen PCA-analyysiä Vektorien x dimensio on siis 1024 Kuva näyttää rekonstruktion PCA:lla kun 1, 2, 5, 16, 32, ja 64 pääkomponettia on mukana kehitelmässä. 21 / 35 22 / 35 Esimerkki: käsinkirjoitetut merkit (2) Esimerkki: ilmastodata Kuva: Käsinkirjoitettuja merkkejä. Vasemmalta alkuperäinen, keskiarvo, rekonstruktiot käyttäen 1, 2, 5, 16, 32 ja 64 pääkomponenttia. Otetaan toinen esimerkki: ilmastodatan ns. kokeelliset ortogonaalifunktiot (Experimental Orthogonal Functions, EOF) Ilmastodata (säädata) tarkoittaa säännöllisin välein (tunneittain, päivittäin jne.) mitattuja lämpötiloja, ilmanpaineita, sademääriä jne. usealla paikkakunnalla Amerikkalainen järjestö NCAR (National Center for Atmospheric Research, Kansallinen ilmakehätutkimuksen keskus) julkaisee Webissä tällaisia mittaustietoja pitkältä ajanjaksolta ja koko maapallon peittävältä mittaushilalta (jossa puuttuvat arvot esim. keskellä valtameriä on käytännössä laskettu tietyillä kaavoilla). 23 / 35 24 / 35

Esimerkki: ilmastodata (2) Me käytimme heidän dataansa jossa ajanjakso on 1948 2004, mittaukset päivittäisiä, ja hila 2.5 asteen välein maapallon pinnalla Näistä voi tehdä datamatriisin X jossa vaakadimensio on aika (56 x 365 päivää = 20.440 päivää) ja pystydimensio on paikka (73 x 144 = 10.512 mittauspistettä). Matriisin koko siis 10.512 x 20.440. Säätieteilijät haluaisivat hajottaa (keskiarvoistetun) datamatriisin summaksi X = E{X} + w i y T i jossa sarakevektoreilla w i on paikkadimensio ja rivivektoreilla y i on aikadimensio Esimerkki: ilmastodata (3) Tämän voi kätevästi tehdä PCA:lla: huomaa että PCA-kehitelmä kaavasta (5) antaa koko datamatriisille X E{X} = e i e T i (X E{X}) ja tässä sarakevektoreilla e i on paikkadimensio, rivivektoreilla e T i (X E{X}) on aikadimensio. Ominaisvektoreita e i, kun ne kuvataan graafisesti karttapinnalla, sanotaan kokeellisiksi ortogonaalifunktioiksi (EOF). Oheinen kuva näyttää 3 ensimmäistä funktiota ja vastaavat aikakäyrät ilmanpainedatalle. (Ne on laskettu vain ajalle 1957 2000). 25 / 35 26 / 35 Esimerkki: ilmastodata DSS-menetelmä: halutunlaisten aikakomponenttien etsiminen (DSS = denoising source separation) Selostetaan seuraavassa lyhyesti kuinka yo. menetelmää voi parantaa jos tiedetään minkälaisia aikakomponentteja halutaan Useat sääilmiöt ovat jaksollisia, esim. vuoden, 2 vuoden jne. jaksoja Tämä voidaan ottaa huomioon yhdistämällä PCA ja aikasuodatus Tehdään ensin säämittausmatriisille X pääkomponenttianalyysi kuten edellä selostetaan Esimerkki: ilmastodata (2) DSS-menetelmä: halutunlaisten aikakomponenttien etsiminen Skaalataan sitten aikakäyrät e T i (X E{X}) niin, että niiden varianssi (keskimääräinen energia) on yksi; käytännössä skaalaustekijä on 1/ nλ i missä λ i on ominaisvektoria e i vastaava ominaisarvo Nimittäin E{e T i (X E{X})(X E{X}) T e i } = ne T i C x e i = nλ i Suodatetaan nyt skaalatut aikakäyrät taajuussuotimella jolla on haluttu taajuusominaisuus ja tehdään vielä toisen kerran pääkomponenttianalyysi Ensimmäinen pääkomponentti vastaa käyrää jolla suodatettuna on suurin varianssi (energia), ja jossa siis on eniten haluttuja taajuuksia. 27 / 35 28 / 35

Esimerkki: ilmastodata (3) DSS-menetelmä: halutunlaisten aikakomponenttien etsiminen Yhteenveto Näin löytyy hyvin El Niño -ilmiö; ks. kuvat. Ilmastodatasta saadaan näin paljastettua uutta tietoa Tämä saattaa olla uusi aluevaltaus ilmastomittausten analyysissä Ensimmäinen julkaisu (Ilin, Valpola, Oja) kesällä 2005 (Ilin, Valpola, Oja 2005) Tässä luvussa esiteltiin pääkomponenttianalyysimenetelmä (PCA) datan dekorrelointiin ja koordinaatiston kiertoon maksimivarianssin suuntaan johdettiin ensimmäisen pääkomponenttivektorin suunta käytettiin PCA:ta lukuisissa tapauksissa mm. ominaiskasvojen (eigenfaces) tapauksessa 29 / 35 30 / 35 Liite: Kuvia esitykseen, luku 4 Ominaiskasvoja Liite: Kuvia esitykseen, luku 4 Kasvokuvien projektio 2D-tasolle Kuva: T2-harjoitusten datasetti: 92 kasvokuvaa resoluutiolla 19 19 = 361. Vasemmalla alkuperäiset kuvat. Keskellä ominaisvektorit eli ominaiskasvot. Oikealla palautetut kasvokuvat 12 ominaiskasvon perusteella. Alkuperäisessä datassa siis 92 361 lukuarvoa, kun taas pakkausta ja purkua varten tarvitaan 12 ominaiskasvoa ja 12D-projektiopisteet 12 (361 + 92). Kuva: T2-harjoituksen esimerkki: (a) 92 alkuperäistä kasvokuvaa ja (b) niiden 2D-projektiot. Samasta henkilöstä otettujen valokuvien 2D-projektiopisteet ovat lähellä toisiaan. Takaisin kalvoihin Takaisin kalvoihin 31 / 35 32 / 35

Liite: Kuvia esitykseen, luku 4 PCA - koordinaattiakselien kierto Arsi Harjun 3D-kuula ja geometrinen tulkinta Liite: Kuvia esitykseen, luku 4 PCA - koordinaattiakselien kierto Frantz Krugerin 2D-kiekko ja geometrinen tulkinta Kuva: Ylärivi: Arsi Harjun gaussinen kuula eri kulmista katsottuna. Alhaalla kuula PCA:n jälkeen. Ominaisarvot λ 1, λ 2, λ 3 melko samansuuruiset: yhtä satunnaista kaikissa suunnissa. 3D 2D 1D Kuva: Ylärivi: Frantz Krugerin gaussinen kiekko eri kulmista katsottuna. Alhaalla kiekko PCA:n jälkeen. PCA3:n suuntaan ominaisarvo λ 3 lähellä nollaa. 3D 2D 1D 33 / 35 34 / 35 Liite: Kuvia esitykseen, luku 4 PCA - koordinaattiakselien kierto Tero Pitkämäen 1D-keihäs ja geometrinen tulkinta Kuva: Ylärivi: Tero Pitkämäen gaussinen keihäs. Alhaalla keihäs PCA:n jälkeen PCA1:n suuntaisesti, jolloin vain ominaisarvo λ 1 on merkittävä. Dimension pudotus 3D 1D. 3D 2D 1D Takaisin 35 / 35