, 3.7, 3.9. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Samankaltaiset tiedostot
Diskreetin matematiikan perusteet Laskuharjoitus 4 / vko 40

Diskreetin matematiikan perusteet Esimerkkiratkaisut 5 / vko 12

Diskriminanttianalyysi I

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Luku 6 Kysyntä. > 0, eli kysyntä kasvaa, niin x 1. < 0, eli kysyntä laskee, niin x 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

(0 desimaalia, 2 merkitsevää numeroa).

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Osa 2: Otokset, otosjakaumat ja estimointi

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

IIZE3010 Elektroniikan perusteet Harjoitustyö 2

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Ratkaisuehdotukset LH 7 / vko 47

Estimointi. Vilkkumaa / Kuusinen 1

Inversio-ongelmien laskennallinen peruskurssi Luento 7 8

Harha mallin arvioinnissa

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

1 Määrittelyjä ja aputuloksia

Numeeriset menetelmät

4.0.2 Kuinka hyvä ennuste on?

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Dynaamiset regressiomallit

tilastotieteen kertaus

Todennäköisyyden ominaisuuksia

Diskreetin matematiikan perusteet Malliratkaisut 2 / vko 38

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Logistinen regressio, separoivat hypertasot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

MS-A0305 Differentiaali- ja integraalilaskenta 3 Luento 10: Stokesin lause

AS Automaation signaalinkäsittelymenetelmät. Laskuharjoitus 8. Ackermannin algoritmi Sumea säätö

Likimääräisratkaisut ja regularisaatio

ACKERMANNIN ALGORITMI. Olkoon järjestelmä. x(k+1) = Ax(k) + Bu(k)

Johdatus regressioanalyysiin. Heliövaara 1

TEKNILLINEN KORKEAKOULU Systeemianalyysin laboratorio. Mat Systeemien Identifiointi. 4. harjoitus

Algoritmit 1. Luento 10 Ke Timo Männikkö

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

MS-A0107 Differentiaali- ja integraalilaskenta 1 (CHEM)

(ks. kuva) ja sen jälkeen x:n ja y:n suhteen yli xy-tasossa olevan alueen projektion G:

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus regressioanalyysiin

Mat Sovelletun matematiikan erikoistyö. Osakesalkun markkinariskin mallinnus pääkomponenttianalyysillä

Sarjoja ja analyyttisiä funktioita

2. Uskottavuus ja informaatio

Maximum likelihood-estimointi Alkeet

Diskreettiaikainen dynaaminen optimointi

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Ratkaisu: a) Kahden joukon yhdisteseen poimitaan kaikki alkiot jotka ovat jommassakummassa joukossa (eikä mitään muuta).

Kokonaislukuoptimointi

6. Tietokoneharjoitukset

9. laskuharjoituskierros, vko 12-13, ratkaisut

Ratkaisuehdotukset LH 8 / vko 47

Numeeriset menetelmät

Luento 12: Duaalitehtävä. Tarkennuksia Lagrangen kertoimen tulkintaan. Hajautettu optimointi.

MS-C1340 Lineaarialgebra ja

x = ( θ θ ia y = ( ) x.

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Diskreetin Matematiikan Paja Tehtäviä viikolle 2. ( ) Jeremias Berg

δ : (Q {q acc, q rej }) (Γ k {, }) Q (Γ k {, }) {L, R}.

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

a) Huippukiihtyvyys luetaan kuvaajalta, n. 0,3 sekunnin kohdalla kiihtyvyys on a = 22,1 m/s 2 joka m 22,1

Aalto-yliopiston perustieteiden korkeakoulu Matematiikan ja systeemianalyysin laitos

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 9: Muuttujanvaihto taso- ja avaruusintegraaleissa

MS-C1340 Lineaarialgebra ja

x 2 + y 2 = 2z y 2 + z 2 = 2x z 2 + x 2 = 2y a + n 1 n a a + 1 a +. On myös helppo tarkastaa, että ratkaisut toteuttavat yhtälön.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

1. Tilastollinen malli??

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

3.2.2 Tikhonovin regularisaatio

2.5 Liikeyhtälö F 3 F 1 F 2

Hydrologia. Munakan W-asema Kyrönjoella

Sovellettu todennäköisyyslaskenta B

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Moniulotteiset satunnaismuuttujat ja jakaumat

Matriisilaskenta, LH4, 2004, ratkaisut 1. Hae seuraavien R 4 :n aliavaruuksien dimensiot, jotka sisältävät vain

Identifiointiprosessi

Ito-prosessit. Määritelmä Geometrinen Brownin liike Keskiarvoon palautuvat prosessit Iton lemma. S ysteemianalyysin. Laboratorio

Diskreetin matematiikan perusteet Laskuharjoitus 2 / vko 9

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Transkriptio:

Lineaarikobinaatioenetelät 3.5-3.7, 3.7, 3.9

Sisältö Pääkoponenttianalyysi (PCR) Osittaisneliösua (PLS) Useiden vasteiden tarkastelu Laskennallisia näkökulia

Havaintouuttujien uunnokset Lähtökohtana useat korreloivat uuttujat Muodostetaan lineaarikobinaatioita alkuperäisistä uuttujista Esi. 3x + x 1 + 2x3 5 Käytetään näitä regressioanalyysissa alkuperäisten uuttujien paikalla Menetelät eroavat toisistaan sen suhteen, iten lineaarikobinaatiot uodostetaan 5

Pääkoponenttianalyysi (PCR) Pääkoponenttianalyysin tavoitteena on löytää onidiensioisesta datasta ne koponentit, joiden avulla sen keskeisiät piirteet voidaan esittää ilan, että erkittävää inforaatiota enee hukkaan Wikipedia Onnistuneessa analyysissa uuttujien äärä on alkuperäistä lukuäärää pienepi

Pääkoponenttien äärittäinen Etsitään havaintouuttujien x, K 1, x p sellainen lineaarikobinaatio, joka sisältää ahdollisian suuren osan uuttujien vaihtelusta Tehtävänä siis etsiä sellainen X:n lineaarikobinaatio, jonka varianssi on suurin 1. pääkoponentti v 1 ( p 1)

Pääkoponenttien äärittäinen Etsitään havaintouuttujien x, K 1, x p sellainen lineaarikobinaatio, joka a) ei korreloi 1. pääkoponentin kanssa ja b) sisältää ahdollisian suuren osan uuttujien x, K 1,x p vaihtelusta 2. pääkoponentti v 2

Pääkoponenttien äärittäinen Muuttujien x, K 1, x p kaikki tällaiset lineaarikobinaatiot saadaan jatkaalla 2. pääkoponentin äärittäisessä käytettyä enetelää Näillä lineaarikobinaatioilla oinaisuudet: Varianssi suurin ahdollinen Korreloiaton aikaisein ääriteltyjen lineaarikobinaatioiden kanssa

Pääkoponenttianalyysi (PCR) Lineaarikobinaatiot pääkoponentteja: z = Xv, v, v = 1 = 1, K, M z :t ortogonaalisia (so. z,z n = 0, n): M ( = 1 pcr yˆ ˆ M ) = y1+ θz, ˆ θ = z, y / z, z z :t lineaarikobinaatioita x j :stä: M ˆ pcr β = θˆ ( M ) = 1 v M p

Pääkoponenttianalyysi (PCR) Pääkoponentit riippuvat uuttujien skaalauksesta Yleensä uuttujat standardisoidaan M = p: pieniän neliösuan estiaatit M < p: redusoitu regressio Pääkoponettianalyysissa hylätään p-m oinaisarvoltaan pienintä koponenttia

PCR: Regressiokertoiia redusoidaan

Osittaisneliösua (PLS) Hyödynnetään lineaarikobinaatioiden uodostaisessa yös y (X:n lisäksi) Oletetaan, että x j :t standardisoitu Lasketaan ensin kaikille uuttujille niiden (yksiulotteinen) vaikutus y:n suhteen ˆ ϕ = ˆ1 j = x, y Konstruoidaan lineaarikobinaatio j = z x 1 1 ˆϕ j j j

Algoriti PLS:n äärittäiseen 1. Standardisoidaan x j kaikille j ja asetetaan 2. Toistetaan kaikille = 1, 2,..., p a) b) c) d) z ˆ θ yˆ = = ( ) j z ˆ ϕ = yˆ j, y ( 1) ( ) ( 1) x j = x j x / ( 1) j z, z + ˆ θ z (0) y ˆ = y1, x = x, issä (0) j ) ˆ ϕ j = j j ( 1 x, y [ ] ( 1) z, x / z, z z, j = 1,2,K p Ortogonalisoidaan x j (-1) :t z :n suhteen: j

PLS:n ratkaiseisesta Hyödyntää y:tä uunnosten konstruoinnissa Ratkaisupolut epälineaarisia y:n funktioita PLS hakee uunnokset, joilla on a) suuri varianssi ja b) suuri korrelaatio (vasteen) y kanssa Sitä vastoin PCR kytköksissä ainoastaan suureen varianssiin

PCR:n ja PLS:n ratkaiseisesta PCR:ssä v on ratkaisu tehtävään ax α Var( Xα ) = Var( z T s. t. α = 1, α Sv = 0, l = 1, K PLS:ssä ϕˆ on ratkaisu tehtävään ax α Corr 2 l ( y, Xα ) Var( Xα ) S on kovarianssiatriisi x j :stä ) 1 T s. t. α = 1, α S ˆ ϕ = 0, l = 1, K 1 l

Huoioita PLS:stä PLS käyttäytyy kuten harjanneregressio ja PCR Jos uuttujat X ovat ortogonaalisia, niin PLS löytää pieniän neliösuan ensiäisen askeleen (=1) jälkeen Toisin sanoen ˆ ϕ j = 0, kun > 1

Menetelien vertailua (esierkki) Tarkastellaan esitettyjä eneteliä kahden uuttujan esierkin avulla: Muuttujat X 1 ja X 2 korreloivat kertoiella ρ Todelliset regressiokertoiet ovat β 1 = 4 β 2 = 2 Tarkastellaan korrelaatiokertoiia ρ = ±0.5 Miten regressiokertoiet vaihtelevat eri vaiheissa?

Menetelien vertailua (esierkki)

Menetelien vertailua (esierkki)

Menetelien vertailua (esierkki) Harjanne ja lasso enetelissä säätöparaetrit vaihtelevat jatkuvalla välillä Osajoukon valinta, PLS ja PCR hakeutuvat kahdella diskreetillä askeleella PNS ratkaisuun Harjanne, PLS ja PCR käyttäytyvät kutakuinkin saalla tavalla Lasso on harjanteen ja osajoukon välissä

Useiden vasteiden tarkastelu Esitettyjä eneteliä voidaan soveltaa joko a) kullekin vasteelle erikseen tai b) yhtäaikaisesti kaikkiin vasteisiin Tarkastellaan kahta eri vastetta: Y k = f ( X ) + ε Y = f ( X ) + ε Saat rakenteelliset osat f(x) k Vasteiden Y k ja Y l havainnot on hyödyllistä yhdistää, kun tarkoituksena on estioida f l l

Kanoninen korrelaatioanalyysi (CCA) Kuten PCR:ssa, CCA:ssa haetaan havaintouuttujille korreloiattoat lineaarikobinaatiot Xv Lisäksi vasteille haetaan vastaavat kobinaatiot Yu aksioialla korrelaatiota Corr 2 ( Yu, Xv ) Ensiäinen pari kanonisia uuttujia

Kanoninen korrelaatioanalyysi (CCA) Toinen pari kanonisia uuttujia haetaan vastaavasti, utta lisätään vaatius, että se ei korreloi ensiäisen parin kanssa Tällä tavoin jatketaan kunne aksiiäärä in(k,p) kanonisia pareja on löydetty

Laskennallisia näkökulia PNS sovite ääritetään yleensä X:n QR hajotelan tai X T X:n Choleskyn hajotelan avulla N havaintoa ja p oinaisuutta: QR: Np 2 operaatiota Cholesky: p 3 +Np 2 /2 operaatiota Hajotelien tehokkuus riippuu N:n ja p:n suhteellisista suuruuksista

Kysyyksiä?

Kotitehtävä 6 Oheisessa havaintoaineistossa uuttujat X 1 ja X 2 korreloivat kertoiella ρ=0.5 Todelliset regressiokertoiet ovat β 1 = 3 ja β 2 = 1 Etsi nää β:t käyttäen pääkoponenttianalyysia (PCR) (esitä välivaiheet) Data löytyy excel tiedostosta y x1 x2 1-3.56-1.49 0.89 2-4.32-1.16-0.85 3-3.42-0.83-0.94 4-2.97-0.50-1.49 5-1.09-0.17-0.60 6 1.30 0.17 0.80 7 0.77 0.50-0.72 8 3.30 0.83 0.82 9 4.42 1.16 0.95 10 5.58 1.49 1.12 AVERAGE 0.00 0.00 0.00 STDEV 3.61 1.00 1.00