3.2.2 Tikhonovin regularisaatio

3 Tikhonovin regularisaatio Olkoon x 0 R n tuntematon, M R m n teoriamatriisi ja y Mx + ε R m (316 annettu data Häiriöherkässä ongelmassa pienimmän neliösumman miniminormiratkaisu x M + y Q N (M x + M + ε voi sisältää suuria epätarkkuuksia M + ε Eräs tapa parantaa ongelman häiriönsietoa on etsiä likimääräisratkaisuja, joilla y M x on "pieni"(pns-tyyppinen ehto, mutta normi x ei ole liian "suuri"(kompensoi häiriön vaikutusta ratkaisuun Tikhonovin regularisaatiossa (eng Tikhonov s regularization, tilastotieteessä myös Ridge regression ongelman y Mx + ε likimääräisratkaisuksi x α otetaan Tikhonovin funktionaalin minimoija eli L α (x : Mx y + α x, (317 x α argmin x R n Mx y + α x Luku α > 0 on vakio, jota nimitetään regularisaatioparametriksi (eng regularization parameter Huomautus 15 Tikhonovin funktionaali eroaa pienimmän neliösumman funktionaalista penalisaatiolla (eng penalization α x Penalisaation tarkoitus on auttaa hylkäämään ne vektorit x, jotka sisältävät hyvin suuria epätarkkuuksia Tikhonovin funktionaalin termit ovat normien neliöitä Seuraava lause osoittaa, että tämä on erittäin hyödyllinen valinta Lause antaa tavan etsiä Tikhonovin funktionaalin minimoija ratkaisemalla matriisiyhtälö Lause 13 Olkoon α > 0 Minimointiongelmalla M x α y + α x α min x R n Mx y + α x on yksikäsitteinen ratkaisu x α Ratkaisu x α on myös yhtälön yksikäsitteinen ratkaisu (M T M + αi x α M T y Todistus Kirjoitetaan Tikhonovin funktionaali muodossa ( ( Mx y + α x M αi y x 0 joka johtaa pienimmän neliösumman minimointiin Voimme käyttää Lausetta 8, jonka nojalla Tikhonovin funktionaalin minimoija on olemassa ja toteuttaa yhtälön ( T ( ( T ( αi M αi M M x αi y 0, 64

eli (M T M + αi x α M T y Tämän yhtälön ratkaisu on yksikäsitteinen Lauseen 9 nojalla, sillä matriisin sisältää vain nollavektorin, sillä jos 0 ( M αi x ( Mx αx x 0 ( M αi ydin Huomautus 16 Yllä näytettiin, että Tikhonovin regularisaatio vastaa yhtälön ( ( αi M y x 0 pienimmän neliösumman ratkaisua Esimerkki 7 Tarkastellaan edellisen luvun Esimerkin 13 matriisia 11 10 14 M 1 11 13, 14 13 66 jonka ehtoluku 10 5 Olkoon y Mx 0 + ε R 3 annettu data Tarkastellaan tilannetta, jossa tuntematon x 0 (0, 0, 1 ja ε (01, 01, 01 Silloin Totesimme Esimerkissä 13, että Mx 0 ( 14 13 66 T y Mx 0 + ε ( 141 131 659 T M 1 (Mx 0 + ε x 0 + ( 168 3 10 184 3 10 6 10 T Ratkaistaan ongelma Tikhonovin regularisaatiolla Lasketaan ensin 11 10 14 M T M 1 11 13 14 13 66 11 10 14 461 44 96 1 11 13 44 390 861 14 13 66 96 861 471 T Valitaan α 001 ja lasketaan x α (M T M + αi 1 M T y 46101 44 96 44 39001 861 96 861 47101 0003 0006 Wow! 1001 11 1 14 141 10 14 13 131 14 13 66 659 1 65

Regularisaatioparametrin vallinta Lähdetään selvittelemään kuinka parametri α vaikuttaa ratkaisuun Voimme aluksi kysyä mitä ratkaisulle x α tapahtuu, jos α 0 tai α Tällöin meidän tulee laskea rajaarvot lim (M T M + αi 1 M T y ja lim (M T M + αi 1 M T y, α 0+ α jos ne ovat olemassa Oletetaan yksinkertaisuuden vuoksi, että nolla ei ole matriisin M T M ominaisarvo Silloin käänteismatriisi (M T M 1 on olemassa ja voimme ryhtyä tutkimaan erotusta x α x (M T M + αi 1 M T y (M T M 1 M T y Kahden käänteismatriisin erotus voidaan kirjoittaa muodossa Erityisesti Silloin B 1 C 1 B 1 (I BC 1 B 1 (C BC 1 (M T M + αi 1 (M T M 1 (M T M + αi 1 (αi(m T M 1 (M T M + αi 1 M T y (M T M 1 M T y (M T M + αi 1 α (M T M 1 M T y Muistetaan, että (M T M + αi 1 on matriisin (M T M + αi pienimmän ominaisarvon λ min käänteisluku Olkoon u min pienintä ominaisarvoa vastaava ominaisvektori, jolle u min 1 Voimme arvioida pienintä ominaisarvoa seuraavasti: λ min ((M T M + αiu min, u min ((M T M + αiu min, u min (M T Mu min, u min λ min (M T M Tällöin saadaan arvio (M T M + αi 1 M T y (M T M 1 M T y λ min (M T M 1 α (M T M 1 M T y, mistä voimme päätellä, että lim x α (M T M + αi 1 M T y (M T M 1 M T y (318 α 0+ Yleisemmässä tapauksessa pätee itse asiassa, että Samalla tekniikalla nähdään, että mistä seuraa, että lim x α (M T M + αi 1 M T y M + y (319 α 0+ (M T M + αi 1 M T y α 1 (1/αM T M + I 1 M T y α 1 λ min (I 1 M T y lim x α (M T M + αi 1 M T y 0 (30 α Suurilla regularisaatioparametrin α arvoilla approksimatiivinen ratkaisu lähestyy nollavektoria Pienillä regularisaatioparametrin α arvoilla approksimatiivinen ratkaisu lähestyy pienimmän neliösumman menetelmän ratkaisua Parametrin α valintaan voidaan käyttää seuraavaa 66

Määritelmä 14 Olkoon y Mx 0 + ε annettu data, missä ε e Morozovin diskrepanssiperiaatteen (eng Morozov s dicrepancy principle mukaan regularisointiparametri α valitaan siten, että M x α y e, mikäli tämä valinta on mahdollinen Morozovin diskrepanssiperiaatteen ideana on, että pyritään välttämään tilanne, jossa likimääräisratkaisu taipuu mukailemaan virhetermin ε käytöstä eikä todellista tarkkaa dataa Mx 0 Tavoitteenahan on, että x α olisi hyvin lähellä tuntematonta vektoria x 0, jolloin M x α y (M x α Mx 0 ε ε Esimerkki 8 M Tarkastellaan vektoriarvoista funktiota ( 1 0, annettu data y Mx 0 1 0 + ε (, 1 ja ε 1 10 [0, α M x α M(M T M + αi 1 M T y ( 1 + α 0 1 ( 0 1 + α 1 Morozovin diskrepanssiperiaatteen mukaan pyritään löytämään sellainen α, että e M x α y 1 ( ( 1+α 10 1 1 1+α ( ( 1 5α 1 + α + 1 + α 1 1 + α 1 α 10 5 1 005 ( x α005 1 + 005, 1 1 + 005 (190, 095 ( 1+α 1 1+α Milloin Morozovin diskrepanssiperiaatetta on mahdollista käyttää? Olkoon matriisilla M R m n singulaariarvohajotelma M UDV T, missä U ja V ovat ortogonaalisia matriiseja ja D ij 0 jos i j Määrätään yhtälön y Mx 0 + ε approksimatiivinen ratkaisu Tikhonovin regularisaatiolla kun α > 0 Likimääräisratkaisuksi saadaan missä matriisin x α (M T M + αi 1 M T y (M T M + αi V D T U T UDV T + αi V D T DV T + αv V T V (D T D + αiv T ominaisarvot D ii + α (tai α ovat suurempia tai yhtä suuria kuin α Singulaariarvohajotelman avulla saamme x α (V (D T D + αiv T 1 V D T U T y V (D T D + αi 1 D T U T y 67

Tällöin saa muodon M x α UDV T V (D T D + αi 1 D T U T y UD(D T D + αi 1 D T U T y (M x α i Vektorin M x α y normin neliö on f(α : M x α y m min(m,n jmin(m,n+1 m k1 U ij (U T y j + D jj D jj + αu kjy k min(m,n ( α T Djj + α(u y j Tutkitaan funktion f arvojoukkoa Voimme laskea funktion f derivaatan lausekkeesta f (α min(m,n min(m,n min(m,n ( d α T dα Djj + α(u y j ( ( α T Djj + α(u y j αd jj (Djj + (U T y α3 j 0 1 D jj + α α (D jj + α (U T y j Erityisesti jos y 0 on f (α > 0, jolloin f on aidosti kasvava! Yhtälön (30 nojalla ja yhtälön (319 nojalla lim f(α lim M(M T M + αi 1 M T y y y α α lim f(α α 0+ MM+ y y Lause 15 Q R(M y Kun ε e, niin Morozovin diskrepanssiperiaatetta voidaan käyttää jos Q R(M y e y (31 Tikhonov-regularisoidun ratkaisun tarkkuus Olkoon M R m n ja y Mx 0 + ε annettu data Tikhonovin regularisaatiolla saadun ratkaisun x α tarkkuus x 0 x α x 0 (M T M + α 1 M T Mx 0 (M T M + α 1 M T ε riippuu kahdesta eri tavoin α:n funktiona käyttäytyvästä vektoriarvoisesta funktiosta G 1 (α (I (M T M + α 1 M T Mx 0 ja G (α (M T M + α 1 M T ε 68

Yhtälöistä (318-(30 tiedetään, että lim G 1(α (I M + Mx 0 (hyvä arvo α 0 lim G (α M + ε (huono arvo α 0 lim G 1(α x 0 (huono arvo α lim G (α 0 (hyvä arvo α Tikhonov-regularisoitu ratkaisu on immuuni niille häiriön komponenteille, jotka kuuluvat aliavaruuteen R(M Tikhonov-regularisoitu ratkaisuun vaikuttavat häriön ne komponentit jotka kuuluvat aliavaruuteen R(M Mitä suurempi regularisaatioparametri α on, sitä pienempi on häiriön vaikutus regularisoituun ratkaisuun, mutta samalla penalisaatio vääristää ratkaisua voimakkaammin Penalisaatio vääristää ratkaisua, vaikka datassa ei olisi häiriötä Yleistyksiä Yleisemmin Tikhonovin regularisaatiolla tarkoitetaan minimointiongelmaa x α argmin x R n Mx y + Bx missä B B n n on tavallisesti jokin sellainen matriisi, jonka singulaariarvot ovat (aidosti! positiivisia Vektori Bx kuvaa jotakin tuntemattoman ei-toivottua ominaisuutta Esimerkki 9 1 0 0 0 0 0 1 1 0 0 0 0 B 0 1 1 0 0 0 α 0 0 1 1 0 0 0 0 0 1 1 0 0 0 0 0 1 1 rankaisee vierekkäisten pisteiden erotuksia Tämä pakottaa likimääräisratkaisua "sileämmäksi" 33 L1-regularisaatio Regularisaatiossa voidaan käyttää myös normeja, jotka eivät liity sisätuloihin Esimerkiksi x α argmin Mx y + α x R n 69 n x i, i1