missä µ = c φ ja C j,k = Γj k) = σ 2 φj k φ 2. ARMAp, q)-prosessin tapauksessa maksimikohdan määrääminen on moniulotteinen epälineaarinen optimointiongelma. Käytännösssä optimointi tehdään numeerisesti käyttämällä tunnettuja menetelmiä Newton-Raphson, steepest descent, conjugate-gradient,...) Haastavuutta lisää kovarianssimatriisin monimutkainen riippuvuus parametreista. Usein likelihood-funktio pyritään kirjoittamaan yksinkertaisemmassa muodossa, jotta vältyttäisiin kovarianssimatriisin determinantin ja käänteismatriisin laskemiselta. Esimerkki 5.6 AR)-prosessin uskottavuusfunktio). Määrätään satunnaismuuttujan X t ehdollinen tntf, kun X t = x t tunnetaan. Lausekkeesta X t = µ + φx t µ) + ε t }{{} keskenään riippumattomia nähdään, että tämä ehdollinen jakauma on täsmälleen satunnaismuuttujan µ + φx t µ) + ε t jakauma, jonka tntf fx t x t ) = Satunnaisvektorin X t, X t ) yhteistntf on 2πσ 2 exp 2σ 2 x t µ φx t µ)) 2. fx t, x t ) = fx t )fx t x t ), missä X t Nµ, σ 2 φ 2 ). Vastaavasti satunnaisvektorin X,..., X n ) yhteistntf on fx, x 2,..., x n ) = fx )fx 2 x )fx 3 x 2 ) fx n x n ), jolloin likelihood-funktio on Lc, φ, σ) = exp ) φ2 a 2π) n σ 2n ) 2σ 2 µ) 2 φ 2 exp a 2σ 2 t µ φa t µ) ) 2 }{{} X ta t ) ) Likelihood-funktion lausekkeessa esiintyy satunnaismuuttujan X t ennuste X t, joka on laadittu arvon X t pohjalta. Likelihood-funktion arvon määrää tällöin erotus X t X t. 40
Funktioilla f ja logf) on maksimi samassa kohtaa. Logaritmin ottaminen likelihoodfunktiosta vähentää epälineaarisuuksia ja auttaa keskittymään oleellisiin piirteisiin. Sijoitetaan yhtälöön µ =. Log-likelihood-funktio on c φ log Lc, φ, σ) = vakio n logσ)+ 2 log φ2 ) φ2 2σ 2 a c ) 2 φ 2σ 2 Säännöllisen funktion maksimikohta on aina kriittinen piste eli se toteuttaa yhtälön Erityisesti 0, 0, 0) = log Lc, φ, σ) log L = c, φ, σ), log L c φ c, φ, σ), log L ) c, φ, σ). σ 0 = log L σ c, φ, σ) = n σ + σ 3 Maksimikohta kuuluu joukkoon S = {c, φ, σ) : σ 2 = n φ 2 ) a c ) 2 + φ φ 2 )a c φ )2 + a t c φa t )) 2 ) a t c φa t )) 2. a t c φa t ) )}. 2 Toisin sanoen riittää etsiä maksimikohtaa joukossa S kahden vapaan parametrin φ ja c avulla. Esimerkki 5.7. Olkoon X t = µ + ε t + θε t. Kun ε t N0, σ 2 ), niin satunnaisvektorin X,..., X n ) jakauma on Gaussinen. Kun θ <, jakauman odotusarvo on E[X k ] = µ ja kovarianssimatriisi on C jk = E[X j µ)x k µ)] = Γj k) = σ 2 + θ 2 )δ j,k + θδ, j k kaikilla j, k =,..., n. Kovarianssimatriisi on tridiagonaalinen eli + θ 2 ) θ 0 0 0 0 θ + θ 2 ) θ 0 0 0 C = 0 θ + θ 2 ) θ 0 0............ 0 0 0 θ + θ 2 ) Tridiagonaalimatriiseille löytyy hajotelma, C = LΓL T, missä L on alakolmiomatriisi, jota voidaan käyttää tarkan likelihood-funktion muokkaamisessa. Käy ilmi, että likelihoodfunktio Lµ, θ, σ) = 2π) n n exp ) a k= r2 2r 2 k Xa,..., a k )) 2 k k missä r 2 k = E[X k X k ) 2 ] on estimaattorin X := L X µ) pienimmän neliösumman virhe. 4
5..3 Ehdollinen ML-menetelmä Kun ML-estimaatti lasketaan numeerisella optimoinnilla, likelihood-funktiosta, nimitetään saatua ML-estimaattia tarkaksi ML-estimaatiksi. Huomaa, että nimityksestä huolimatta numeerisesti suoritettu optimointi aiheuttaa tuloksiin epätarkkuutta!) On mahdollista myös käsitellä oikean likelihood-funktion sijaan muokattua likelihood-funktiota. Esimerkissä 5.6 todettiin että AR)-prosessin tapauksessa fx,..., x n ) = fx )fx 2 x )... fx n x n ) Kun ehdollistetaan arvolla X = x, saadaan fx,..., x n x ) = fx,..., x n ) fx ) Ns. ehdollinen likelihood-funktio on ja ehdollinen ML-estimaatti on = fx 2 x )... fx n x n ). Lc, φ, σ; X = a ) = fa 2,..., a n a ; c, φ, σ). ĉ, φ, σ) = argmaxfa,..., a n a ; c, φ, σ) c,φ,σ Mikäli n on suuri, niin suurin osa havaintovektorin elementeistä on vain heikosti korreloitunut pisteen X kanssa, jolloin ehdollistamisen ei pitäisi vakavasti vääristää likelihood-funktiota. Efektiivisesti ehdollistaminen muuttaa X :n jakauman epäaidoksi tn-jakaumaksi fx ) =. Ehdollistamisen ansiosta likelihood-funktio yksinkertaistuu huomattavasti: ) Lc, φ, σ X = a ) = 2π) n σ exp a n 2σ 2 t c φa t ) 2 Kriittisessä pisteessä erityisesti osittaisderivaatta muuttujan σ suhteen häviää. Vaaditaan siis jolloin 0 = log Lc, φ, σ; X = a ), 5..2) σ σ 2 = a t c φa t ) 2. 5..3) Sijoittamalla σ = σc, φ) yhtällöstä 5..3) yhtälöön 5..2) saadaan ) n Lc, φ, σc, φ) X = a ) = a t c φa t ) 2 exp ). 2π) n 2 42
Maksimikohta ĉ, φ) on funktion c, φ) a t c φa t ) 2 minimikohta. Ongelma palautuu ns. pienimmän neliösumman ratkaisuun: [ ] argmin a t c φa t ) 2 = argmin c 2 a M c,φ c,φ φ missä matriisi M = M 2 n on a a 2 M =.. ja vektori a = a 2, a 3,..., a n ). a n Minimikohta ĉ, φ) löytyy 4 yhtälön [ĉ ] M T M) = M φ T a ratkaisuna: [ ]... M T a a 3 = a a 2... a n. = a 2 a n [ n k=2 a ] k n k=2 a ka k ja a [ ]... M T a 2 [ n n M = a a 2... a n.. = n k= a k a n Ehdollinen ML-estimaatti on [ĉ ] = φ n ) n k= a2 k ) n k= a k) 2 Lineaarinen PNS-ratkaisu k= a k n k= a2 k [ n k= a2 k n k= a ] [ n k n k= a k=2 a ] k n k n k=2 a ka k Pienimmän neliösumman PNS) menetelmä eng. least squares method, LS) on approksimatiivinen ratkaisumenetelmä yhtälöille. Lineaaristen yhtälöryhmien tapauksessa PNS on varsin elegantti. Kun matriisi A R m n ja vektori y R m tunnetaan, niin mikä on ] 4 katso seuraava kappale! x = argmin x R n y Ax 2. 43
Huomautus 5... Jos A on neliömatriisi ja deta) 0, niin selvästi x = A y on minimikohta. Entä kun A ei ole neliömatriisi tai y ei kuulu matriisin A kuvajoukkoon? Esimerkiksi 0 [ ] = x x 3 2 Näytetään, että pienimmän neliösumman ratkaisu, toisin sanoen minimikohta, löytyy aina. Tätä varten kerrataan seuraavat käsitteet matriiseille A R m n. Lineaarisen kuvauksen ydin Lineaarisen kuvauksen kuvajoukko KerA) = {x R n : Ax = 0} RA){y R m : y = Ax jollakin x R n } Lineaarisen aliavaruuden L R n ortokomplementti L = {z R n : x z = 0}. Merkitään selvyyden vuoksi pistetuloa suluilla: x z = Osoitetaan ensin seuraava aputulos. x i z i = x, z). k= Lemma 5.3. Matriisille M R m n pätee RM T ) = Ker M) eli R n = RM T ) Ker M). Todistus. Olkoon x RM T ) Jokaisella z R m pätee 0 = M T z, x) = z, Mx) vain jos Mx = 0 eli x KerM). Siis RM T ) Ker M). Toisaalta, jos x KerM), niin M T z, x) = z, Mx) = 0 jokaisella z R m, joten x RM T ). Siis Ker M) RM T ). Lause 5.3. Olkoon A R m n ja y R m. Minimointiongelmalla on täsmälleen samat ratkaisut kuin yhtälöllä ˆx = argmin x R n Ax y 2 A T Aˆx = A T y. 44
Todistus. Lasketaan ensin sisätulo fx) = Ax y 2 = Ax y, Ax y) = Ax, Ax) y, Ax) Ax, y) + y, y) = A T Ax, x) 2A T y, x) + y, y). Funktionaalin f minimi, jos sellainen on, löytyy kriittisestä pisteestä. Lasketaan gradientin nollakohdat fx) = Ax y 2 = 2A T Ax 2A T y = 0. 5..4) Olkoon ˆx gradientin nollakohta eli A T Aˆx = A T y. Tämä on minimikohta, sillä fx) = Ax ˆx) + Aˆx y 2 = Ax ˆx) 2 + 2Ax ˆx), Aˆx y) + Aˆx y 2 = Ax ˆx) 2 + 2x ˆx, A T Aˆx A T y) + Aˆx y 2 = Ax ˆx) 2 + Aˆx y 2. Korollaari 5.. Olkoon A R m n ja y R m. Minimointiongelmalla ˆx = argmin x R n Ax y 2 on olemassa ratkaisu ˆx. Ratkaisu on yksikäsitteinen vain jos Ker A) = {0}. Todistus. Lauseen 5.3 nojalla minimointiongelma on ekivalentti yhtälön A T Aˆx = A T y kanssa. Tutkitaan yhtälön A T Ax = A T y yksikäsitteistä ratkeavuutta. Injektiivisyys: Selvästi Ker A Ker A T A). Lisäksi x Ker A T A) eli A T Ax = 0 jos ja vain jos 0 = A T Ax, z) = Ax, Az) jokaisella z R n. Erityisesti kun z = x, saadaan Ax = 0 eli x Ker A. Toisin sanoen Ker A T A) Ker A). Siis Ker A T A) = Ker A), jolloin A T A on injektio jos ja vain jos A on injektio. Näytetään, että A T y RA T A) Valitsemalla M = A sekä M = A T A lemmassa 5.3, saamme RA T ) = Ker A) = KerA T A) = RA T A). Täten yhtälöllä A T Ax = A T y on vähintään yksi ratkaisu ja ratkaisu on yksikäsitteinen vain jos KerA) = {0}. Esimerkki 5.8. Olkoon y =,, 3) ja 0 A = 0 Määrätään pienimmän neliösumman ratkaisu yhtälölle y = Ax + e. Lasketaan ) 0 ) 0 A T A = 0 2 = 0 2 45
ja A T y = 0 Saamme yhtälön ) ) 2 ˆx = 2 ˆx 2 jonka ratkaisu on ˆx, ˆx 2 ) = 4, 4 ). Tällöin 3 3 A x == ) = 3 4 3 4 3 8 3 ) 4, 4 ) 5. 4 Esimerkki 5.9 MA)-prosessin ehdollinen likelihood). Tarkastellaan seuraavaksi MA)-prosessin X t = µ + ε t + θε t. parametrien µ, θ, σ estimointia, kun havaintovektorista X,..., X n ) on saatu näyte a,..., a n ). JOS tiedetään LISÄKSI, että satunnaismuuttujan ε otos on annettu, esimerkiksi ε = 0, niin MA-yhtälöstä seuraa, että otosten arvot ovat Taulukko 5.: Valkoisen kohinan arvot X = a ε = 0 X 2 = a 2 ε 2 = X 2 µ θε = a 2 µ X 3 = a 3 ε 3 = X 3 µ θε 2 = a 3 µ θa 2 µ).. X n = a n ε n = a n µ) θa n µ) + θ 2 a n 2 µ) 2 +... + ) n θ n a µ) n + ) n ε Vastaavasti satunnaismuuttujat ε t ovat satunnaismuuttujien X t, X t,..., X ja ε funktioita. Silloin fx t x t,..., x, ε ) = exp ) 2πσ 2 2σ x 2 t µ θε t ) 2.. Ehdollistamalla rekursiivisesti nähdään, että ehdollinen likelihood-funktio on n Lµ, c, σ 2 ; ε = 0) = fa,..., a n ε ) = exp 2πσ 2 2σ a 2 k µ θ ε }{{ k } k=2 ε k ) 2 missä ε k on taulukossa 5. esitetty parametrien µ, θ ja näytteiden a,..., a n funktioina. 46,
5.2 Mallin asteen valinta Mitä parametreja p, q) tulisi käyttää mallin estimoinnissa? AIC Akaike information criterium): Lasketaan eri malleille luku I AIC = 2 log LΦ; p, q) + 2p + q + ) ja valitaan malli, jolla luku I AIC on pienin. SBIC Schwartzin bayesilainen informaatiokriteeri): Lasketaan eri malleille luku I SBIC = 2 log LΦ; p, q) + p + q + ) logn) ja valitaan malli, jolla on pienin I SBIC -luku. Informaatiokriteerien toiminta perustuu ns. Kullback-Leiblerin informaatioon, joka mittaa kahden jakauman välistä eroa. Olkoon X t stationäärinen prosessi ja olkoon g havaintovektorin X,..., X n ) todellinen tntf, jota emme tunne. Olkoon f X:n estimoitu tntf. Esimerkki 5.0. Estimoitu tntf on voitu saada esim. seuraavalla tavalla. Asetetaan ARMAp, q)-malli havaintovektorille eli X t = c + φ X t + + φ p X t p + ε t + θ ε t + + θ q ε t q, ε t N0, σ 2 ) 2. ML-menetelmällä saadaan estimoitua mallin parametrit ĉ, φ,..., φ p, θ..., θ q, σ) Estimoitu ARMA-malli havaintovektorille on X t = ĉ + φ X t + + φ p X t p + ε t + θ ε t + + θ q ε t q, ε t N0, σ 2 ). 3. Estimoidusta ARMA-mallista lasketaan havaintovektorin komponentin X teoreettinen odotusarvo µ = E[X t ] ja teoreettinen autokovarianssi Γτ) = E[X t µ)x t τ µ)]. 4. Odotusarvon µ ja autokovarianssin Γ avulla muodostetaan Gaussinen tntf f. Kullback-Leiblerin informaatio on Ig f) = gx) loggx))dx R n gx) logfx))dx. R n Koska g on X :n tntf, niin Ig f) = gx) logfx)/gx))dx = E[logfX)/gx))]. R n 47
Jensenin epäyhtälön nojalla Ig f) = E[logfX)/gX))] log E[fX)/gX)] = log gx)fx)/gx)dx R n = log fx)dx log = 0. R n Kullback-Leiblerin informaation on aina ei-negatiivinen. Lisäksi se on nolla silloin ja vain silloin kun f g. Tavoitteena olisi Ig f) = 0, jotta malli olisi täsmälleen oikea. Arvatenkaan emme pääse täsmälleen oikeaan malliin estimoinnilla, mutta voimme pyrkiä mahdollisimman lähelle: pyritään valitsemaamalli ja siten valitsemaan f), jolla Ig f) on mahdollisimman pieni! Nyt Ig f) = gx) loggx)) R }{{} n ei riipu f:stä Näytteiden avulla 5 voitaisiin approksimoida dx gx) logfx))d = E[logfX M) ))] R m gx) logfx))dx. R } n {{} minimoidaan tätä! m logfx m) )), 5.2.5) mikäli voitaisiin toistaa havaintovektorin ottoa useasti. Nyt pidetään funktiota logfx)) estimaattorina odotusarvolle. Akaike lisäsi Kullback-Leibler informaatioon ylimääräisen termin, sillä k= n logfx k )) k= ei ole odotusarvon 5.2.5) harhaton estimaattori. Korjaustermi poistaa harhaa. Pienille n:n arvoille on olemassa parempia korjaustermejä harhan poistamiseen. 5.3 Mallidiagnostiikka ARMA-prosessin parametrit ĉ, φ,..., φ p, θ,..., θ q, σ) on saatu estimoitua. Onko estimoitu malli hyvä?. Empiiriseen pohjaan tukeutuvat epäformaalit tarkistusmenetelmät: Mallin autokorrelaation ja havaintovektorin otosautokorrelaation vertailu Residuaalien eli jäännöstermien kuvaajien tutkiminen 5 suurten lukujen lain erikoisversio riippuvien satunnaismuuttujien tapauksessa 48
Ylisovittaminen mallia pidetään hyvänä. 2. Formaalit tilastollisen testauksen tarkistusmenetelmät: Box-Ljung-testi Malli on niin hyvä kuin teoria kertoo sen olevan. 5.3. Residuaalien tarkastelu Estimoidun mallin X t = ĉ + φ X t + + φ p X t p + ε t + θ ε t + + θ q ε t q avulla voidaan laatia yhden askeleen lineaarinen pienimmän neliösumman ennuste X t arvolle X t, kun tunnetaan X t, X t 2,..., X. Havaitun arvon X t = a t ja ennusteen X t = X t a,..., a t ) välinen erotus ε t := a t X t on nimeltään residuaali. Esimerkiksi AR)-prosessille ε t := a t ĉ φa t. Määritelmä 5.4. Standardoitu residaali on missä Rt) = a t X t a,..., a t ) rt), rt) = E[X t X t ) 2 ]. Tyypillisesti piirretään residuaalien otosautokorrelaation kuvaaja. Residuaalien autokorrelaation tulisi muistuttaa valkoisen kohinan autokorrelaatiota. Ylisovittaminen Ylisovittamisen tarkoitus on varmentaa, että estimoitu ARMAp, q)-malli säilyy samana, vaikka dataan yritettäisiin sovittaa monimutkaisempaa mallia. Estimoidaan myös ARMAp +, q)- ja ARMA-p, q + )-mallien parametrit. Jos uudet estimoidut parametrit ovat lähellä entisiä ja uusien parametrien residuaalivarianssi ei sanottavasti alita vanhan mallin residuaalivarianssia, niin mallia pidetään riittävän hyvänä. Jos vanhojen ja uusien parametrien välillä on huomattava ero, on estimoitujen parametrien käyttö riskaabelia. Jos uudet korkeamman kertaluvun parametrit ovat suurehkoja, niin vanha malli saattaa vaikuttaa riittämättömältä. 6 6...kuitenkin mallin käyttötarkoitus ratkaisee. 49
5.3.2 Box-Ljung-testisuure Yksittäisten residuaalin otosautokorrelaation arvojen ρ R k) sijaan voidaan tarkastella yhtä lukua: m Q = n ρ R k) 2. Tämä ei ole vielä Box-Ljung-testisuure!) k=0 Koska n ρ R k) tulisi noudattaa mallin mukaan likipitäen normaalijakautuneen valkoisen kohinan jakaumaa, 7 niin Q on vastaavasti lähes χ 2 -jakautunut vapausasteella m. Asetetaan hypoteesi H : Residuaali on valkoista kohinaa Suuri Q:n arvo on epätodennäköinen, kun hypoteesi H on totta. Hypoteesi H hylätään tasolla α, mikäli missä P χ 2 m) < χ 2 αm)) = α. Q > χ 2 αm) Paremmin χ 2 -jakaumaa approksimoi Box-Ljung testisuure: Q BL = nn + 2) m k= ρ R k) 2 n k 7 Ei-triviaalia näyttää: tilastotieteen stokastiikkaan vivahtavaa osa-aluetta Theorem 7.2.2. kirjassa Brockwell, Peter J., Davis, Richard A.: Time Series: Theory and Methods ) 50