Lineaarikobinaatioenetelät 3.5-3.7, 3.7, 3.9
Sisältö Pääkoponenttianalyysi (PCR) Osittaisneliösua (PLS) Useiden vasteiden tarkastelu Laskennallisia näkökulia
Havaintouuttujien uunnokset Lähtökohtana useat korreloivat uuttujat Muodostetaan lineaarikobinaatioita alkuperäisistä uuttujista Esi. 3x + x 1 + 2x3 5 Käytetään näitä regressioanalyysissa alkuperäisten uuttujien paikalla Menetelät eroavat toisistaan sen suhteen, iten lineaarikobinaatiot uodostetaan 5
Pääkoponenttianalyysi (PCR) Pääkoponenttianalyysin tavoitteena on löytää onidiensioisesta datasta ne koponentit, joiden avulla sen keskeisiät piirteet voidaan esittää ilan, että erkittävää inforaatiota enee hukkaan Wikipedia Onnistuneessa analyysissa uuttujien äärä on alkuperäistä lukuäärää pienepi
Pääkoponenttien äärittäinen Etsitään havaintouuttujien x, K 1, x p sellainen lineaarikobinaatio, joka sisältää ahdollisian suuren osan uuttujien vaihtelusta Tehtävänä siis etsiä sellainen X:n lineaarikobinaatio, jonka varianssi on suurin 1. pääkoponentti v 1 ( p 1)
Pääkoponenttien äärittäinen Etsitään havaintouuttujien x, K 1, x p sellainen lineaarikobinaatio, joka a) ei korreloi 1. pääkoponentin kanssa ja b) sisältää ahdollisian suuren osan uuttujien x, K 1,x p vaihtelusta 2. pääkoponentti v 2
Pääkoponenttien äärittäinen Muuttujien x, K 1, x p kaikki tällaiset lineaarikobinaatiot saadaan jatkaalla 2. pääkoponentin äärittäisessä käytettyä enetelää Näillä lineaarikobinaatioilla oinaisuudet: Varianssi suurin ahdollinen Korreloiaton aikaisein ääriteltyjen lineaarikobinaatioiden kanssa
Pääkoponenttianalyysi (PCR) Lineaarikobinaatiot pääkoponentteja: z = Xv, v, v = 1 = 1, K, M z :t ortogonaalisia (so. z,z n = 0, n): M ( = 1 pcr yˆ ˆ M ) = y1+ θz, ˆ θ = z, y / z, z z :t lineaarikobinaatioita x j :stä: M ˆ pcr β = θˆ ( M ) = 1 v M p
Pääkoponenttianalyysi (PCR) Pääkoponentit riippuvat uuttujien skaalauksesta Yleensä uuttujat standardisoidaan M = p: pieniän neliösuan estiaatit M < p: redusoitu regressio Pääkoponettianalyysissa hylätään p-m oinaisarvoltaan pienintä koponenttia
PCR: Regressiokertoiia redusoidaan
Osittaisneliösua (PLS) Hyödynnetään lineaarikobinaatioiden uodostaisessa yös y (X:n lisäksi) Oletetaan, että x j :t standardisoitu Lasketaan ensin kaikille uuttujille niiden (yksiulotteinen) vaikutus y:n suhteen ˆ ϕ = ˆ1 j = x, y Konstruoidaan lineaarikobinaatio j = z x 1 1 ˆϕ j j j
Algoriti PLS:n äärittäiseen 1. Standardisoidaan x j kaikille j ja asetetaan 2. Toistetaan kaikille = 1, 2,..., p a) b) c) d) z ˆ θ yˆ = = ( ) j z ˆ ϕ = yˆ j, y ( 1) ( ) ( 1) x j = x j x / ( 1) j z, z + ˆ θ z (0) y ˆ = y1, x = x, issä (0) j ) ˆ ϕ j = j j ( 1 x, y [ ] ( 1) z, x / z, z z, j = 1,2,K p Ortogonalisoidaan x j (-1) :t z :n suhteen: j
PLS:n ratkaiseisesta Hyödyntää y:tä uunnosten konstruoinnissa Ratkaisupolut epälineaarisia y:n funktioita PLS hakee uunnokset, joilla on a) suuri varianssi ja b) suuri korrelaatio (vasteen) y kanssa Sitä vastoin PCR kytköksissä ainoastaan suureen varianssiin
PCR:n ja PLS:n ratkaiseisesta PCR:ssä v on ratkaisu tehtävään ax α Var( Xα ) = Var( z T s. t. α = 1, α Sv = 0, l = 1, K PLS:ssä ϕˆ on ratkaisu tehtävään ax α Corr 2 l ( y, Xα ) Var( Xα ) S on kovarianssiatriisi x j :stä ) 1 T s. t. α = 1, α S ˆ ϕ = 0, l = 1, K 1 l
Huoioita PLS:stä PLS käyttäytyy kuten harjanneregressio ja PCR Jos uuttujat X ovat ortogonaalisia, niin PLS löytää pieniän neliösuan ensiäisen askeleen (=1) jälkeen Toisin sanoen ˆ ϕ j = 0, kun > 1
Menetelien vertailua (esierkki) Tarkastellaan esitettyjä eneteliä kahden uuttujan esierkin avulla: Muuttujat X 1 ja X 2 korreloivat kertoiella ρ Todelliset regressiokertoiet ovat β 1 = 4 β 2 = 2 Tarkastellaan korrelaatiokertoiia ρ = ±0.5 Miten regressiokertoiet vaihtelevat eri vaiheissa?
Menetelien vertailua (esierkki)
Menetelien vertailua (esierkki)
Menetelien vertailua (esierkki) Harjanne ja lasso enetelissä säätöparaetrit vaihtelevat jatkuvalla välillä Osajoukon valinta, PLS ja PCR hakeutuvat kahdella diskreetillä askeleella PNS ratkaisuun Harjanne, PLS ja PCR käyttäytyvät kutakuinkin saalla tavalla Lasso on harjanteen ja osajoukon välissä
Useiden vasteiden tarkastelu Esitettyjä eneteliä voidaan soveltaa joko a) kullekin vasteelle erikseen tai b) yhtäaikaisesti kaikkiin vasteisiin Tarkastellaan kahta eri vastetta: Y k = f ( X ) + ε Y = f ( X ) + ε Saat rakenteelliset osat f(x) k Vasteiden Y k ja Y l havainnot on hyödyllistä yhdistää, kun tarkoituksena on estioida f l l
Kanoninen korrelaatioanalyysi (CCA) Kuten PCR:ssa, CCA:ssa haetaan havaintouuttujille korreloiattoat lineaarikobinaatiot Xv Lisäksi vasteille haetaan vastaavat kobinaatiot Yu aksioialla korrelaatiota Corr 2 ( Yu, Xv ) Ensiäinen pari kanonisia uuttujia
Kanoninen korrelaatioanalyysi (CCA) Toinen pari kanonisia uuttujia haetaan vastaavasti, utta lisätään vaatius, että se ei korreloi ensiäisen parin kanssa Tällä tavoin jatketaan kunne aksiiäärä in(k,p) kanonisia pareja on löydetty
Laskennallisia näkökulia PNS sovite ääritetään yleensä X:n QR hajotelan tai X T X:n Choleskyn hajotelan avulla N havaintoa ja p oinaisuutta: QR: Np 2 operaatiota Cholesky: p 3 +Np 2 /2 operaatiota Hajotelien tehokkuus riippuu N:n ja p:n suhteellisista suuruuksista
Kysyyksiä?
Kotitehtävä 6 Oheisessa havaintoaineistossa uuttujat X 1 ja X 2 korreloivat kertoiella ρ=0.5 Todelliset regressiokertoiet ovat β 1 = 3 ja β 2 = 1 Etsi nää β:t käyttäen pääkoponenttianalyysia (PCR) (esitä välivaiheet) Data löytyy excel tiedostosta y x1 x2 1-3.56-1.49 0.89 2-4.32-1.16-0.85 3-3.42-0.83-0.94 4-2.97-0.50-1.49 5-1.09-0.17-0.60 6 1.30 0.17 0.80 7 0.77 0.50-0.72 8 3.30 0.83 0.82 9 4.42 1.16 0.95 10 5.58 1.49 1.12 AVERAGE 0.00 0.00 0.00 STDEV 3.61 1.00 1.00