Luku 4. Vektoridatan tiivistäminen

Samankaltaiset tiedostot
Tämän luennon sisältö. Luku 4. Vektoridatan tiivistäminen. Datamatriisi (2) Datamatriisi. T Datasta tietoon, syksy 2011

perusjoukosta (esim. tietyn kokoisten digitaalikuvien joukko).

Laskennallinen data-analyysi II

Luku 1. Johdantoluento

Ratkaisuehdotukset LH 7 / vko 47

Ominaisvektoreiden lineaarinen riippumattomuus

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

1 Ominaisarvot ja ominaisvektorit

T Datasta tietoon, syksy 2011

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

Talousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu

6 MATRIISIN DIAGONALISOINTI

Matemaattinen Analyysi / kertaus

MS-A0004/A0006 Matriisilaskenta

5 Ominaisarvot ja ominaisvektorit

Sovellusohjelmointi Matlab-ympäristössä: Vertaisverkon koneiden klusterointi

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

MS-C1340 Lineaarialgebra ja

Lineaarikuvauksen R n R m matriisi

Ortogonaalisen kannan etsiminen

Lineaariavaruudet. Span. Sisätulo. Normi. Matriisinormit. Matriisinormit. aiheita. Aiheet. Reaalinen lineaariavaruus. Span. Sisätulo.

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

(1.1) Ae j = a k,j e k.

Lineaarikuvausten. Lineaarikuvaus. Lineaarikuvauksia. Ydin. Matriisin ydin. aiheita. Aiheet. Lineaarikuvaus. Lineaarikuvauksen matriisi

Insinöörimatematiikka D

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Matriisihajotelmat. MS-A0007 Matriisilaskenta. 5.1 Diagonalisointi. 5.1 Diagonalisointi

Ratkaisuehdotukset LH 3 / alkuvko 45

Ortogonaaliset matriisit, määritelmä 1

Insinöörimatematiikka D

Laskennallinen data-analyysi II

Inversio-ongelmien laskennallinen peruskurssi Luento 4

1 Matriisit ja lineaariset yhtälöryhmät

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Sisätuloavaruudet. 4. lokakuuta 2006

Osoita, että täsmälleen yksi vektoriavaruuden ehto ei ole voimassa.

Matematiikka B2 - Avoin yliopisto

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

Moniulotteisia todennäköisyysjakaumia

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

802320A LINEAARIALGEBRA OSA II

Ratkaisuehdotukset LH 8 / vko 47

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

Insinöörimatematiikka D

Insinöörimatematiikka D

Determinantti 1 / 30

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0).

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Matemaattinen Analyysi, k2012, L1

Kanta ja Kannan-vaihto

Lineaarialgebra ja matriisilaskenta I, HY Kurssikoe Ratkaisuehdotus. 1. (35 pistettä)

r > y x z x = z y + y x z y + y x = r y x + y x = r

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

1 Sisätulo- ja normiavaruudet

Insinöörimatematiikka D

3.1 Lineaarikuvaukset. MS-A0004/A0006 Matriisilaskenta. 3.1 Lineaarikuvaukset. 3.1 Lineaarikuvaukset

Tyyppi metalli puu lasi työ I II III

Tehtäväsarja I Kerrataan lineaarikuvauksiin liittyviä todistuksia ja lineaarikuvauksen muodostamista. Sarjaan liittyvät Stack-tehtävät: 1 ja 2.

Insinöörimatematiikka D

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

Talousmatematiikan perusteet: Luento 8. Vektoreista ja matriiseista Vektorien peruslaskutoimitukset Lineaarinen riippumattomuus Vektorien sisätulo

1 Kannat ja kannanvaihto

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

Ominaisarvo-hajoitelma ja diagonalisointi

Matriisit, L20. Laskutoimitukset. Matriisikaavoja. Aiheet. Määritelmiä ja merkintöjä. Laskutoimitukset. Matriisikaavoja. Matriisin transpoosi

Matematiikka B2 - TUDI

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Yhteenlaskun ja skalaarilla kertomisen ominaisuuksia

3.2.2 Tikhonovin regularisaatio

Harjoitusten 5 vastaukset

JAKSO 2 KANTA JA KOORDINAATIT

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Vektoreiden virittämä aliavaruus

Kuva 1: Funktion f tasa-arvokäyriä. Ratkaisu. Suurin kasvunopeus on gradientin suuntaan. 6x 0,2

Talousmatematiikan perusteet: Luento 10. Lineaarikuvaus Matriisin aste Determinantti Käänteismatriisi

Lineaarialgebra II, MATH.1240 Matti laaksonen, Lassi Lilleberg

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

Ortogonaaliprojektio äärellisulotteiselle aliavaruudelle

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 2 / vko 45

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Antti Rasila. Kevät Matematiikan ja systeemianalyysin laitos Aalto-yliopisto. Antti Rasila (Aalto-yliopisto) MS-A0204 Kevät / 16

Ominaisarvoon 4 liittyvät ominaisvektorit ovat yhtälön Ax = 4x eli yhtälöryhmän x 1 + 2x 2 + x 3 = 4x 1 3x 2 + x 3 = 4x 2 5x 2 x 3 = 4x 3.

Päättelyn voisi aloittaa myös edellisen loppupuolelta ja näyttää kuten alkupuolella, että välttämättä dim W < R 1 R 1

Lineaarialgebra ja differentiaaliyhtälöt Laskuharjoitus 1 / vko 44

1 Rajoittamaton optimointi

MS-C1340 Lineaarialgebra ja

Luento 8: Epälineaarinen optimointi

Derivaatta: funktion approksimaatio lineaarikuvauksella.

Likimääräisratkaisut ja regularisaatio

Liittomatriisi. Liittomatriisi. Määritelmä 16 Olkoon A 2 M(n, n). Matriisin A liittomatriisi on cof A 2 M(n, n), missä. 1) i+j det A ij.

ja B = 2 1 a) A + B, b) AB, c) BA, d) A 2, e) A T, f) A T B, g) 3A (e) A =

MS-A0205/MS-A0206 Differentiaali- ja integraalilaskenta 2 Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

Määritelmä Olkoon T i L (V i, W i ), 1 i m. Yksikäsitteisen lineaarikuvauksen h L (V 1 V 2 V m, W 1 W 2 W m )

Matriisit, L20. Laskutoimitukset. Matriisikaavoja. Aiheet. Määritelmiä ja merkintöjä. Laskutoimitukset. Matriisikaavoja. Matriisin transpoosi

Transkriptio:

1 / 35 Luku 4. Vektoridatan tiivistäminen T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 7.11.2011

2 / 35 Tämän luennon sisältö 1 Vektoridatan tiivistäminen ja dekorrelointi Datamatriisi Pääkomponenttianalyysi (PCA) PCA-esimerkkejä: ominaiskasvot DSS-menetelmä

3 / 35 Datamatriisi Palautetaan mieleen datamatriisi X: n vektoria (havaintoa) X = x11 x12 x13 x1n x21 x 22 x31 x d1 x dn d vektorielementtia (dimensio) Usein matriisin sarakkeilla (vektoreilla x(t), t = 1,..., n) ei ole mitään määrättyä järjestystä vaan ne ovat vain otos jostakin perusjoukosta (esim. tietyn kokoisten digitaalikuvien joukko).

4 / 35 Datamatriisi (2) Joskus vektoreilla x on kuitenkin selkeä ajallinen järjestys; ks. DSS-menetelmä luvun lopussa. Usein vaikeus on vektoreiden suuri dimensio (esim. tekstidokumenttien sanahistogrammit: dimensio voi olla 50.000; digitaalinen kuva rivi riviltä skannattuna: dimensio on rivit sarakkeet) Kuitenkin vektorialkioiden välillä on voimakkaita riippuvuuksia (esim. kuvan vierekkäiset pisteet)

5 / 35 Datamatriisi (3) Kuva: Matlabin kameramies ja yksityiskohta. Huomaa luonnollisen kuvan rakenne: vierekkäisillä pikseleillä on yleensä lähes sama arvo (tasainen pinta) eli ne korreloivat. Nämä riippuvuudet poistamalla päästään alentamaan dimensiota voimakkaasti.

6 / 35 Datamatriisi (4) Menetelmiä: pääkomponenttianalyysi, joka poistaa korrelaatiot (2. kertaluvun tilastolliset riippuvuudet); riippumattomien komponenttien analyysi, joka pyrkii poistamaan kaikki riippuvuudet.

7 / 35 Pääkomponenttianalyysi (PCA) Pääkomponenttianalyysi (Principal Component Analysis, PCA; eli Hotelling-muunnos eli Karhunen-Loève -muunnos) on klassinen tekniikka datan ja signaalien analyysisssä PCA poistaa korrelaatiot vektorialkioiden välillä ja samalla löytää kierron vektoriavaruudessa siten että uusilla (kierretyillä) koordinaateilla on maksimaalisen suuret varianssit (energiat). Tietyillä ehdoilla PCA löytää tilastollisesti riippumattomat komponentit (jos data normaalijakautunutta). Katsotaan seuraavassa matemaattisesti miten tämä tehdään.

8 / 35 Pääkomponenttianalyysi (PCA) (2) Lähtökohtana ovat datamatriisin sarakkeet: vektorit x joilla on d alkiota. Datamatriisi sisältää otoksen x(1),..., x(n) näitä vektoreita. Tyypillisesti x:n alkiot voivat siis olla piirrearvoja, kuvapikseleiden harmaatasoja, histogrammiarvoja tms. kuten edellisissä luvuissa on esitetty Pääkomponenttimuunnoksessa vektorit x nollakeskiarvoistetaan ensin vähentämällä keskiarvo: x x E{x}

9 / 35 Pääkomponenttianalyysi (PCA) (3) Tässä merkintä E{x} tarkoittaa keskiarvoa: käytännössä se lasketaan seuraavasti: E{x} = 1 n n x(i) i=1 Oletetaan seuraavassa että tämä on tehty ja vektorit x ovat siis nollakeskiarvoisia. Sitten x muunnetaan lineaarimuunnoksella toiseksi vektoriksi y jossa on m alkiota, m d, niin että korrelaatioista johtuva redundanssi poistuu. Samalla kertaa x:n uusille koordinaattiakseleille otettujen projektioiden varianssit maksimoituvat

10 / 35 Pääkomponenttianalyysi (PCA) (4) Kuva: Vektorijakauman (kuvattu ellipsillä) pääakselit kahdessa dimensiossa: e 1 ja e 2. Keskiarvo on m. Ominaisarvot λ 1 ja λ 2 antavat varianssit pääakselien suunnassa

11 / 35 Pääkomponenttianalyysi (PCA) (5) Ensimmäinen akseli e 1 kuvassa 2 (pääkomponentin suunta) vastaa suurinta varianssia, toinen on suurin varianssi ensimmäistä vasten kohtisuorassa suunnassa jne. Viimeisillä pääkomponenteilla on jo niin pieni varianssi, että ne voidaan kokonaan jättää pois. Tähän perustuu vektoreiden tiivistäminen (dimension alentaminen). Esimerkki 3D-, 2D- ja 1D-datasta

Pääkomponenttianalyysi (PCA) Matemaattinen johtaminen maksimivarianssikriteerillä Matemaattisesti: ajatellaan lineaarikombinaatiota d y 1 = w k1 x k = w T 1 x k=1 vektorin x alkioista x 1,..., x n (projektiota suunnalle w 1 ) Summa y 1 on nimeltään x:n ensimmäinen pääkomponentti, jos y 1 :n varianssi E{y 2 1 } on mahdollisimman suuri. Taas varianssi voidaan käytännössä laskea summana yli otoksen x(i). Vektori w 1 on vastaava pääkomponenttivektori. Jotta E{y1 2 } ei kasvaisi äärettömän suureksi, täytyy vektorin w 1 pituutta jotenkin rajoittaa. Kätevin rajoite on että sen normi on vakio, käytännössä 1 12 / 35

13 / 35 Pääkomponenttianalyysi (PCA) (2) Matemaattinen johtaminen maksimivarianssikriteerillä Siten PCA-kriteeri on seuraava: maksimoi J PCA 1 (w 1 ) = E{y 2 1 } = E{(wT 1 x)2 } = w T 1 E{xxT }w 1 = w T 1 C xw 1 missä w 1 = 1 Matriisi C x = E{xx T } on d d ja nimeltään x:n kovarianssimatriisi Se lasketaan käytännössä nolla-keskiarvoistetusta datamatriisista X kaavalla C x = 1 n XXT Ratkaisu on w 1 = e 1 missä e 1 on C x :n ominaisvektori vastaten suurinta ominaisarvoa λ 1. Miksi?

14 / 35 Pääkomponenttianalyysi (PCA) (3) Matemaattinen johtaminen maksimivarianssikriteerillä Katsotaan tätä harjoitustehtävänä, mutta eräs peruste on seuraava: w T 1 C xw 1 on vektoreiden w 1 ja C x w 1 sisätulo, joka on samalla niiden pituuksien (euklidisten normien) tulo kertaa niiden välisen kulman kosini. (Muista sisätulon määritelmä!) Sovittiin että w 1 = 1 joten jää kulman kosini kertaa C x w 1. Kosini maksimoituu kun kulma on nolla, mutta silloin pätee C x w 1 = λw 1 missä λ on jokin skalaarivakio. Tämä on matriisin C x ominaisarvoyhtälö jonka ratkaisuina ovat sen d ominaisvektoria. Mikä niistä pitää valita? Silloin myös pätee C x w 1 = λ joten λ:n pitäisi olla mahdollisimman suuri. Valitaan siis suurinta ominaisarvoa vastaava ominaisvektori pääkomponenttivektoriksi w 1.

15 / 35 Pääkomponenttianalyysi (PCA) (4) Matemaattinen johtaminen maksimivarianssikriteerillä Maksimivarianssikriteeri max E{y 2 k } = E{(wT k x)2 } voidaan yleistää m:lle pääkomponentille kun lisätään rajoitusehdot: joko tai E{y m y k } = 0, k < m (1) w T i w j = δ ij Ratkaisuna on että k:s pääkomponentti on y k = e T k x, k = 1,..., n

16 / 35 Pääkomponenttianalyysi (PCA) Johtaminen pienimmän neliösumman virheeseen (MSE) perustuen Toinen tapa määritellä PCA on vektoreiden x pienimmän neliösumman virhe (MSE) kun ne esitetään PCA-kehitelmässä jossa on mukana m termiä Merkitään joukkoa ortogonaalisia vektoreita w 1,..., w m MSE-kriteeri: J PCA m MSE = E{ x (w T i x)w i 2 } (2) i=1

Pääkomponenttianalyysi (PCA) (2) Johtaminen pienimmän neliösumman virheeseen (MSE) perustuen On helppo näyttää että voimme kirjoittaa J PCA MSE = E{ x 2 } E{ = trace(c x ) m (w T i x) 2 } (3) i=1 m w T i C x w i (4) i=1 Voidaan osoittaa että kriteerin (4) minimi ortogonaalisuusehdon vallitessa on m:n ensimmäisen ominaisvektorin e 1,..., e m muodostama kanta PCA-kehitelmä tietylle vektorille x on silloin x = m (e T i x)e i (5) i=1 17 / 35

Pääkomponenttianalyysi (PCA) (3) Johtaminen pienimmän neliösumman virheeseen (MSE) perustuen Pienimmän MSE-virheen arvo on silloin J PCA MSE = n i=m+1 λ i (6) Tämä on niiden pienimpien ominaisarvojen summa, jotka vastaavat poisjätettyjä ominaisvektoreita e m+1,..., e n Tästä voi myös laskea kuinka monta pääkomponenttia täytyy ottaa mukaan kehitelmään (5) jotta päästään haluttuun kompressioon. 18 / 35

19 / 35 Esimerkki: ominaiskasvot Eräs suosittu pääkomponenttianalyysin (PCA) sovellus on ns. ominaiskasvot (eigenfaces) Siinä kerätään joukko kasvokuvia, yleensä normeerattuja niin että kasvonpiirteet ovat suunnilleen samassa paikassa kuva-alueessa Kuvat skannataan vektoreiksi vaakariveittäin Nämä vektorit ovat nyt datamatriisin X sarakkeita. Lasketaan ominaisvektorit, jotka voidaan visualisoida ominaiskasvoina

20 / 35 Esimerkki: ominaiskasvot (2) Kuva: Ominaiskasvoja Näitä voi käyttää kuvien tunnistamiseen projisoimalla kuvat mataladimensoiseen (2- tai 3-dim.) pääkomponenttiavaruuteen; saman henkilön eri kuvat osuvat siellä lähekkäin. Esimerkki projektiosta T2-harjoituksissa

21 / 35 Esimerkki: ominaiskasvot (3) Tiivistettyä esitystä voi hyödyntää myös datan pakkaamisessa Tietokoneharjoitusten T2 esimerkki ominaiskasvoista

22 / 35 Esimerkki: käsinkirjoitetut merkit Seuraava esimerkki näyttää, kuinka datan rekonstruktio paranee kun yhä enemmän pääkomponentteja otetaan mukaan kehitelmään (5) Vasemmanpuoleisessa sarakkeessa on käsinkirjoitettuja numeroita digitoituna 32 32 kuvamatriisiin Seuraavassa sarakkeessa on niiden keskiarvovektori, joka siis vähennetään ennen PCA-analyysiä Vektorien x dimensio on siis 1024 Kuva näyttää rekonstruktion PCA:lla kun 1, 2, 5, 16, 32, ja 64 pääkomponettia on mukana kehitelmässä.

23 / 35 Esimerkki: käsinkirjoitetut merkit (2) Kuva: Käsinkirjoitettuja merkkejä. Vasemmalta alkuperäinen, keskiarvo, rekonstruktiot käyttäen 1, 2, 5, 16, 32 ja 64 pääkomponenttia.

24 / 35 Esimerkki: ilmastodata Otetaan toinen esimerkki: ilmastodatan ns. kokeelliset ortogonaalifunktiot (Experimental Orthogonal Functions, EOF) Ilmastodata (säädata) tarkoittaa säännöllisin välein (tunneittain, päivittäin jne.) mitattuja lämpötiloja, ilmanpaineita, sademääriä jne. usealla paikkakunnalla Amerikkalainen järjestö NCAR (National Center for Atmospheric Research, Kansallinen ilmakehätutkimuksen keskus) julkaisee Webissä tällaisia mittaustietoja pitkältä ajanjaksolta ja koko maapallon peittävältä mittaushilalta (jossa puuttuvat arvot esim. keskellä valtameriä on käytännössä laskettu tietyillä kaavoilla).

25 / 35 Esimerkki: ilmastodata (2) Me käytimme heidän dataansa jossa ajanjakso on 1948 2004, mittaukset päivittäisiä, ja hila 2.5 asteen välein maapallon pinnalla Näistä voi tehdä datamatriisin X jossa vaakadimensio on aika (56 x 365 päivää = 20.440 päivää) ja pystydimensio on paikka (73 x 144 = 10.512 mittauspistettä). Matriisin koko siis 10.512 x 20.440. Säätieteilijät haluaisivat hajottaa (keskiarvoistetun) datamatriisin summaksi X = E{X} + m w i y T i i=1 jossa sarakevektoreilla w i on paikkadimensio ja rivivektoreilla y i on aikadimensio

26 / 35 Esimerkki: ilmastodata (3) Tämän voi kätevästi tehdä PCA:lla: huomaa että PCA-kehitelmä kaavasta (5) antaa koko datamatriisille X E{X} = m e i e T i (X E{X}) i=1 ja tässä sarakevektoreilla e i on paikkadimensio, rivivektoreilla e T i (X E{X}) on aikadimensio. Ominaisvektoreita e i, kun ne kuvataan graafisesti karttapinnalla, sanotaan kokeellisiksi ortogonaalifunktioiksi (EOF). Oheinen kuva näyttää 3 ensimmäistä funktiota ja vastaavat aikakäyrät ilmanpainedatalle. (Ne on laskettu vain ajalle 1957 2000).

27 / 35 Esimerkki: ilmastodata DSS-menetelmä: halutunlaisten aikakomponenttien etsiminen (DSS = denoising source separation) Selostetaan seuraavassa lyhyesti kuinka yo. menetelmää voi parantaa jos tiedetään minkälaisia aikakomponentteja halutaan Useat sääilmiöt ovat jaksollisia, esim. vuoden, 2 vuoden jne. jaksoja Tämä voidaan ottaa huomioon yhdistämällä PCA ja aikasuodatus Tehdään ensin säämittausmatriisille X pääkomponenttianalyysi kuten edellä selostetaan

28 / 35 Esimerkki: ilmastodata (2) DSS-menetelmä: halutunlaisten aikakomponenttien etsiminen Skaalataan sitten aikakäyrät e T i (X E{X}) niin, että niiden varianssi (keskimääräinen energia) on yksi; käytännössä skaalaustekijä on 1/ nλ i missä λ i on ominaisvektoria e i vastaava ominaisarvo Nimittäin E{e T i (X E{X})(X E{X}) T e i } = ne T i C x e i = nλ i Suodatetaan nyt skaalatut aikakäyrät taajuussuotimella jolla on haluttu taajuusominaisuus ja tehdään vielä toisen kerran pääkomponenttianalyysi Ensimmäinen pääkomponentti vastaa käyrää jolla suodatettuna on suurin varianssi (energia), ja jossa siis on eniten haluttuja taajuuksia.

29 / 35 Esimerkki: ilmastodata (3) DSS-menetelmä: halutunlaisten aikakomponenttien etsiminen Näin löytyy hyvin El Niño -ilmiö; ks. kuvat. Ilmastodatasta saadaan näin paljastettua uutta tietoa Tämä saattaa olla uusi aluevaltaus ilmastomittausten analyysissä Ensimmäinen julkaisu (Ilin, Valpola, Oja) kesällä 2005 (Ilin, Valpola, Oja 2005)

30 / 35 Yhteenveto Tässä luvussa esiteltiin pääkomponenttianalyysimenetelmä (PCA) datan dekorrelointiin ja koordinaatiston kiertoon maksimivarianssin suuntaan johdettiin ensimmäisen pääkomponenttivektorin suunta käytettiin PCA:ta lukuisissa tapauksissa mm. ominaiskasvojen (eigenfaces) tapauksessa

Liite: Kuvia esitykseen, luku 4 31 / 35 Ominaiskasvoja Kuva: T2-harjoitusten datasetti: 92 kasvokuvaa resoluutiolla 19 19 = 361. Vasemmalla alkuperäiset kuvat. Keskellä ominaisvektorit eli ominaiskasvot. Oikealla palautetut kasvokuvat 12 ominaiskasvon perusteella. Alkuperäisessä datassa siis 92 361 lukuarvoa, kun taas pakkausta ja purkua varten tarvitaan 12 ominaiskasvoa ja 12D-projektiopisteet 12 (361 + 92). Takaisin kalvoihin

Liite: Kuvia esitykseen, luku 4 32 / 35 Kasvokuvien projektio 2D-tasolle Kuva: T2-harjoituksen esimerkki: (a) 92 alkuperäistä kasvokuvaa ja (b) niiden 2D-projektiot. Samasta henkilöstä otettujen valokuvien 2D-projektiopisteet ovat lähellä toisiaan. Takaisin kalvoihin

Liite: Kuvia esitykseen, luku 4 33 / 35 PCA - koordinaattiakselien kierto Arsi Harjun 3D-kuula ja geometrinen tulkinta Kuva: Ylärivi: Arsi Harjun gaussinen kuula eri kulmista katsottuna. Alhaalla kuula PCA:n jälkeen. Ominaisarvot λ 1, λ 2, λ 3 melko samansuuruiset: yhtä satunnaista kaikissa suunnissa. 3D 2D 1D

Liite: Kuvia esitykseen, luku 4 34 / 35 PCA - koordinaattiakselien kierto Frantz Krugerin 2D-kiekko ja geometrinen tulkinta Kuva: Ylärivi: Frantz Krugerin gaussinen kiekko eri kulmista katsottuna. Alhaalla kiekko PCA:n jälkeen. PCA3:n suuntaan ominaisarvo λ 3 lähellä nollaa. 3D 2D 1D

Liite: Kuvia esitykseen, luku 4 35 / 35 PCA - koordinaattiakselien kierto Tero Pitkämäen 1D-keihäs ja geometrinen tulkinta Kuva: Ylärivi: Tero Pitkämäen gaussinen keihäs. Alhaalla keihäs PCA:n jälkeen PCA1:n suuntaisesti, jolloin vain ominaisarvo λ 1 on merkittävä. Dimension pudotus 3D 1D. 3D 2D 1D Takaisin