Määritelmä 4.3. Estimaattoria X(Y ) nimitetään lineaariseksi projektioksi, jos X on lineaarinen kuvaus ja E[(X X(Y )) Y] 0 }{{} virhetermi Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio. Todistus. Estimoidaan satunnaismuuttujaa X satunnaisvektorin Y (Y,..., Y n ) avulla Näytetään, että kaikista lineaarisista estimaattoreista {g(y) β Y : β R n } lineaarinen projektio α Y antaa pienimmän keskineliövirheen Suoralla laskulla nähdään, että E[ X β Y 2 ]. E[ X β Y 2 ] E[ (X α Y) + (α β) Y 2 ] E[ X α Y 2 ] + 2E[(X α Y)(α β) Y] + E[ (α β) Y 2 ] E[ X α Y 2 ] + 2 (α β) E[(X α Y)Y] + E[ (α β) Y 2 ]. }{{}}{{}}{{} ei riipu β:sta 0 0minimi, kun βα Huomautus 4.3.. Koska lineaaristen kuvausten joukko on suppeampi kuin kaikkien (Borel-mitallisten) kuvausten joukko, niin E[ X E[X Y ] 2 ] E[ X P (Y ) 2 ]. Lemma 4.. Olkoon X α 0 + α Y linearrinen projektio, missä α (α,..., α n ) R n ja Y on n-ulotteinen satunnaisvektori. Silloin kertoimet α 0,..., α n toteuttavat yhtälön EY ] E[Y 2 ] E[Y n ] E[Y ] E[Y] 2 EY Y 2 ] E[Y Y n ] α 0 E[X] E[Y 2 ] E[Y 2 Y ] E[Y2] 2... E[Y 2 Y n ] α.......... E[XY ].. E[Y n ] E[Y n Y ]...... E[Yn] 2 α n E[XY n ] Todistus. Merkitään Z (, Y,..., Y n ). Projektion kertoimet α k määräytyvät yhtälöstä joka voidaan kirjoitta matriisiyhtälönä. 0 E[(X α Z)Z] E[XZ] E[(X α Z)Z] E[XZ k ] E[Z j Z k ]α j, j 3
Esimerkki 4.3. Tarkastellaan AR()-prosessia X t c + φx t + ε t Valitaan Y X t ja lasketaan estimaattorin X t α 0 + α X t kertoimet Lemman 4. avulla. Matriisiyhtälö on [ α0 α ] [ ] [ ] E[Xt ] E[Xt ] E[X t ] E[Xt ] 2 E[X t X t ] [ ] c [ c φ ( σ 2 φ 2 φ σ 2 + c2 φ 2 ( φ) 2 ) [( c φ σ 2 φ φ 2 + ) σ 2 + c2 φ 2 ( φ) 2 c2 ( φ) 2 c φ c φ ] ] [ c φ σ 2 φ φ 2 + c2 ( φ) 2 Lineaarinen pienimmän neliökeskivirheen estimaattori on silloin muotoa X t c + φx t, joka on samaa muotoa kuin MMSE-estimaattori riippumattoman valkoisen kohinan tapauksessa. Erityisesti X on harhaton. Kun valkoisen kohinan ε t komponenttien riippumattomuus korvataan korreloimattomuudella käytetään lineaarisia projektioita. Sivuutamme seuraavan lauseen todistuksen. Lause 4.3. Yllä johdetut ARMA(p,0)-prosessien MMSE-estimaattorit (4.2.5) ja (4.2.6) ovat harhattomia lineaarisia pienimmän keskineliövirheen ennusteita. ] [ ] c φ 4.4 Tapaus: Äärellinen historia Edellä nähtiin, että AR(p)-prosessin seuraavat arvot on yksinkertaista ennustaa äärellisen monen arvon perusteella, kunhan riittävän monta arvoa tunnetaan. Sen sijaan yllä johdetut MA- tai ARMA-prosessin ennusteet vaativat äärettömän pitkän historian tuntemisen. Oletetaan, että tunnetaan vain prosessin äärellinen historia Y t : (X t, X t,..., X t M ). ja pyritään ennustamaan arvoa X t+s, missä s. Ennusteeksi voidaan ottaa lineaarinen pienimmän keskineliövirheen estimaatti X t+ α 0 + α Y t. Kertoimet α 0 ja α R M+ määrätään Lemman 4. avulla. 32
Heikosti stationäärisen ARMA-prosessin tapauksessa ennusteen odotusarvo on E[α 0 + α Y t ] α 0 + µ missä µ on prosessin X t odotusarvo. α k, Ennusteella on pienin keskineliövirhe kaikkien lineaaristen ennusteiden joukossa. Keskineliövirheen suuruus on E[ X t+s α 0 α Y t 2 ] E[ X t+s µ + µ α 0 α Y t 2 ] 2E[(X t+s µ)(µ α 0 µ α k α Y t + µ α k )] k k k +Γ(0) + E[(µ α 0 α Y t ) 2 ] Γ(0) + (µ α 0 µ α k ) 2 2E[(X t+s µ)(α Y t m)] k +E[(α Y t m) 2 ] Γ(0) α (Γ(s), Γ(s ),..., Γ(s n)) +(µ α 0 µ α k ) 2. k 33
5. Aikasarjan estimointi Esimerkki 5.. Uusien kalojen lukumäärä vesistössä muodostaa aikasarjan X t. rec 0 20 40 60 80 00 950 960 970 980 Aika t Kuva 5.: Näyte aikasarjasta X t (uusien kalojen lukumäärä vesistössä) Aikasarjan ennustamiseen tarvitaan aikasarjamalli. Mikä aikasarjamalli on kyseessä? Lähdetään estimoimaan heikosti stationäärisen aikasarjan parametrejä. ARMA-mallin kertoimia Valkoisen kohinan ε t varianssia σ 2. ARMA-mallin astetta X t c + φx t + ε t + θ ε t.??? ARMA(p, q).? Aikasarjan havaintovektorista (X,..., X n ) on annettu näyte X a,..., X n a n. Aikasarjojen estimointimenetelmiä ovat edelleen aktiivisia tutkimusaiheita ja alalla tapahtuu jatkuvaa kehitystä. Tällä kurssilla opitaan eräitä klassisia estimointimenetelmiä. 5. ML-menetelmä ML tulee sanoista Maximum Likelihood estimation. 34
Estimoidaan ARMA(p, q)-mallin parametreja Φ : (c, φ,..., φ n, θ,..., θ n, σ). ML-menetelmässä on tiivistetysti kyse todennäköisyystiheysfunktion maksimoimisesta otospisteissä. Määritelmä 5.. Olkoon X t ARMA(p, q)-prosessi, jonka parametrit ovat Φ (c, φ,..., φ p, θ,..., θ q, σ). Kun prosessista on tehty havainto (X,..., X n ) a R n, niin funktiota L(Φ) f(a; Φ), missä f(x; Φ) on satunnaisvektorin (X,..., X n ) tntf, sanotaan likelihood-funktioksi (tai uskottavuusfunktioksi). Havaintoon a pohjautuva parametrien ML-estimaatti eli suurimman uskottavuuden estimaatti on Φ argmaxf(a; Φ) Φ (Merkintä argmax g tarkoittaa funktion g maksimikohtaa, esim. x 0 ; EI siis maksimin arvoa g(x 0 )). 5.. Kertaus multinormaalijakaumista Määritelmä 5.2. Sanotaan, että satunnaisvektorilla Z (Z,..., Z n ) on multinormaalijakauma eli Gaussinen jakauma, jos sen komponenttien lineaarinen yhdiste k a kz k on normaalijakautunut kaikilla a (a,..., a n ) R n. Palautetaan mieleen, että m E[Z], jos ja vain jos m k E[Z k ] jokaisella k,..., m. Kovarianssimatriisi C ij E[(Z i m i )(Z j m j )], i, j,..., n. Lemma 5.. Olkoon Z (Z,..., Z n ) Gaussinen satunnaisvektori. Tällöin satunnaisvektorilla Z on odotusarvo ja kovarianssimatriisi Todistus. Jokaisella a (a,..., a n ) pistetulo a Z on normaalijakautunut. Erityisesti, kun a k δ k,j on a Z Z j normaalijakautunut. Tällöin E[Z j ] m j on olemassa. Lisäksi Cauchy-Schwartzin epäyhtälön nojalla E[ (Z k m k )(Z j m j ) ] E[(Z k m k ) 2 ] 2 E[(Zj m j ) 2 ] 2 <. Täten kovarianssimatriisi on myös olemassa. Määritelmä 5.3. Merkintä Z N(m, C) tarkoittaa, että satunnaisvektorilla Z on multinormaalijakauma ja sen odotusarvo on m ja kovarianssimatriisi on C. 35
Palautetaan mieleen, että satunnaisvektorin (X,..., X n ) todennäköisyystiheysfunktio f : R n [0, ) on usean muuttujan ei-negatiivinen funktio, jonka integraali f(x)dx. R n Moniulotteisia integraaleja voi merkitä monella eri tapaa; R n f(x,..., x n )dx dx n f(x, y)dxdy f(x, y, z)dxdydz. Näistä ensimmäinen on paras korkeaulotteisissa tapauksissa. Esimerkki 5.2. Kaikilla n-ulotteisilla Gaussisilla satunnaisvektoreilla ei ole todennäköisyystiheysfunktiota avaruudessa R n. Esimerkiksi jos satunnaismuuttuja X N(0, ), niin Gaussisella satunnaisvektorilla Z (X, X) ei ole todennäköisyystiheysfunktiota avaruudessa R 2, sillä sen arvot ovat suoralla S {(x, x 2 ) R 2 : x x 2 }. ja R 2 I S dx 0. Tällaisilla satunnaisvektoreilla sanotaan olevan degeneroitunut jakauma. Lemma 5.2. Gaussisen satunnaisvektorin komponentit ovat riippumattomia jos ja vain jos ne ovat korreloimattomia. Todistus. Riittää tarkastella tapaus m 0. Käytetään riippumattomuuden näyttämiseen karakteristista funktiota: Satunnaismuuttujat Z,..., Z n ovat riippumattomia jos ja vain jos n E[e iα Z ] E[e iα kz k ] (5..) k jokaisella α (α,..., α n ) R n. Sekä α Z että Z k ovat normaalisti jakautuneita ja α Z N(0, α T Cα). Tällöin yhtälön (5..) vasen puoli on E[e iα Z ] e 2 αt Cα ja oikea puoli on e 2 n k C kkα 2 k. Lause 5.. Satunnaivektorilla Z (Z,..., Z n ) N(m, C) on tiheysfunktio f : R n [0, ) jos ja vain jos sen kovarianssimatriisi C on positiivisesti definiitti 2. Esitä kaksiulotteinen integrointialue suoran ylä- ja alapuolen yhdisteenä 2 eli kaikki ominaisarvot ovat positiivisia. 36
Todistus. Oletetaan, että Cx 0 jollakin yksikkövektorialla x R n 3. Tällöin E[((Z m) x) 2 ] x j x k C jk x T Cx 0. j,k Satunnaisvektori Z komponentti yksikkövektorin x suuntaan on silloin aina vakio ja satunnaisvektorin Z arvot kuuluvat avaruuden R n hypertasoon. Koska hypertaso on euklidisen avaruuden nollajoukko, ei satunnaisvektorilla Z voi olla todennäköisyystiheysfunktiota. Oletetaan sitten, että matriisin C kaikki ominaisarvot ovat positiivisia. Matriisin ominaisarvohajotelman C UΓU T avulla voidaan määritellä matriisin neliöjuuri C 2 UΓ 2 U T. Määrätään satunnaisvektorin C 2 (Z m) odotusarvo ja kovarianssimatriisi: E[ (C 2 )jk (Z m) k ] 0 ja E[ k (C 2 )jk (Z m) k (C 2 )j k (Z m) k ] (C 2 )jk C kk (C 2 )j k δ j,j. k k k,k Täten vektori (C 2 )(Z m) on korreloimaton ja normaalijakautunut. Sen tntf on Lemman 5.2 nojalla g(z) ( 2π) exp( z 2 n 2 k). Satunnaismuuttujan Z tntf saadaan muuttujanvaihdolla x C 2 z + m. Lause 5.2. Satunnaisvektori Z (Z,..., Z n ) N(m, C), missä C on positiivisesti definiitti, jos ja vain jos satunnaisvektorin Z tntf on f(x) ( (2π)n det(c) exp ) 2 (x m)t C (x m), x R n Todistus. Muuttujanvaihdolla, kuten edellä olevassa lauseessa 5.. Esimerkki 5.3. Olkoon Z (Z, Z 2 ), missä Z ja Z 2 ovat riippumattomia normaalijakautuneita satunnaismuuttujia. Kahden riippumattomien normaalijakautuneen satunnaismuuttujan Z N(0, σ) 2 ja Z 2 N(0, σ2) 2 yhteistntf on niiden tntf:n tulo f(x, x 2 ) ( 2πσ 2 exp ( 3 Miksi C ei voi olla negatiivisesti definiitti? x 2 2σ 2 k ) ) ( exp 2πσ 2 ( x 2 2σ 2 2 ) ) ( ( 2π) 2 exp σσ 2 2 2 2 x2 σ 2 ) 2 x2 2σ2 2 ( ( ( 2π) 2 σ2 0 0 σ ) 2 2 exp [ ] σ 2 [x 2 [ ] ) x 2 ] 0 x 0 σ2 2 x 2 37
z Esimerkki 5.4. Olkoon m (0, 3) ja jolloin C [ ], 2 C det(c) Adj(C) [ ] 2. Silloin satunnaisvektorin (Z, Z 2 ) N(m, C) tntf on f(x, x 2 ) ( 2π exp [ ] [ ]) 2 2 [x x x 2 3] x 2 3 ( 2π exp [ ]) 2 [x 2x x x 2 3] 2 + 3 x + x 2 3 ( 2π exp ) 2 (2x2 2x x 2 + x 2 2 6x 2 + 9) Kuva 5.2: Multinormaalijakauma f(x, x 2 ) Kaksiulotteinen normaalijakauma 0.5 0.0 0.05 0.00 6 4 2 x 0 2 4 6 2 0 2 4 x2 6 8 5..2 Likelihood-funktio Asetetaan havaintovektorille (X,..., X n ) ARMA(p, q)-malli X t c + φ X t + + φ p X t p + ε t + θ ε t + + θ q ε t q X t φ X t φ p X t p, 38
missä polynomien φ(z) φ z φ p z p (stationäärisyys) ja θ(z) θ z θ q z q (käännettävyys) kaikki nollakohdat ovat yksikköympyrän ulkopuolella. Tarkastellaan vain Gaussista tapausta: Oletetaan, että valkoinen kohina ε t N(0, σ 2 ). Voidaan näyttää, että prosessi X t on tällöin Gaussinen siinä mielessä, että satunnaisvektoreilla (X t,..., X tn ) on multinormaalijakauma kaikilla indekseillä t,..., t n ja n N. Erityisesti havaintovektorilla (X,..., X n ) on multinormaalijakauama Havaintovektorin (X,..., X n ) N(m, C) tntf on f(x) ( (2π)n C exp ) 2 (x m)t C (x m). Odotusarvo m (m,..., m n ), missä m k E[X k ] c φ φ p ja kovarianssimatriisin C määrää autokovarianssifunktio C kj Γ(k j), k, j,..., n. Kovarianssimatriisi ja odotusarvo riippuvat parametrien Φ (c, φ,..., φ n, θ,..., θ n, σ) arvoista. Kirjoitetaan siksi C C(Φ) ja m m(φ) ja f(x; Φ) ( (2π)n C(Φ) exp ) 2 (x m(φ)t C(Φ) (x m(φ)). Esimerkki 5.5 (AR()-prosessin likelihood-funktio). Tarkastellaan AR()-prosessia X t c + φx t + ε t µ + φ(x t µ) + ε t, missä φ < ja ε t N(0, σ 2 ). Prosessista X t on tehty havainto X a, X 2 a 2... X n a n. 39
Esimerkiksi a (a, a 2, a 3, a 4, a 5 ) ( 3, 2,, 2, 6). Tällöin likelihood-funktio on L(c, φ, σ) f(a,..., a n ; c, φ, σ) (2π)n det(c(c, φ, σ)) missä µ exp ( 2 ) (a k µ k (c, φ, σ))(c(c, φ, σ) ) kj (a j µ j (c, φ, σ), k,j c φ ja C j,k Γ(j k) σ 2 φj k φ 2. ARMA(p, q)-prosessin tapauksessa maksimikohdan määrääminen on moniulotteinen optimointiongelma. Käytännösssä optimointi tehdään numeerisesti käyttämällä tunnettuja menetelmiä (Newton-Raphson, steepest descent, conjugate-gradient,...) Haastavuutta lisää kovarianssimatriisin monimutkainen riippuvuus parametreista. Usein likelihood-funktio pyritään kirjoittamaan yksinkertaisemmassa muodossa, jotta vältyttäisiin kovarianssimatriisin determinantin ja käänteismatriisin laskemiselta. Esimerkki 5.6 (AR()-prosessin uskottavuusfunktio). Määrätään satunnaismuuttujan X t ehdollinen tntf, kun X t x t tunnetaan. Lausekkeesta X t µ + φ(x t µ) + ε t }{{} keskenään riippumattomia nähdään, että se on satunnaismuuttujan µ + φ(x t µ) + ε t jakauma, jonka tntf f(x t x t ) Satunnaisvektorin (X t, X t ) yhteistntf on exp( 2πσ 2 2σ (x 2 t µ φ(x t µ)) 2. f(x t, x t ) f(x t )f(x t x t ), missä X t N(µ, σ 2 φ 2 ). Vastaavasti satunnaisvektorin (X,..., X n ) yhteistntf on f(x, x 2,..., x n ) f(x )f(x 2 x )f(x 3 x 2 ) f(x n x n ), jolloin likeihood-funktio on L(c, φ, σ) exp ( ) φ2 (a (2π) n σ 2n ( ) 2σ 2 µ) 2 φ 2 exp (a 2σ 2 t µ φ(a t µ) ) 2. }{{} t2 X t(a t ) ) 40
Likelihood-funktion lausekkeessa esiintyy satunnaismuuttujan X t ennuste X t, joka on laadittu arvon X t pohjalta. Likelihood-funktion arvon määrää tällöin erotus X t X t. 4
Kun ML-estimaatti lasketaan numeerisella optimoinnilla likelihood-funktiosta, nimitetään saatua ML-estimaattia tarkaksi ML-estimaatiksi. On mahdollista myös käsitellä approksimatiivista likelihood-funktiota. 42