Funktioiden estimointi

Samankaltaiset tiedostot
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

S Laskennallinen systeemibiologia

RATKAISUT x 2 3 = x 2 + 2x + 1, eli 2x 2 2x 4 = 0, joka on yhtäpitävä yhtälön x 2 x 2 = 0. Toisen asteen yhtälön ratkaisukaavalla saadaan

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

LIITTEET Liite A Stirlingin kaavan tarkkuudesta...2. Liite B Lagrangen kertoimet...3

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

Osa 2: Otokset, otosjakaumat ja estimointi

Tehtäviä neliöiden ei-negatiivisuudesta

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

8. laskuharjoituskierros, vko 11, ratkaisut

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

6.1 Riippumattomat satunnaismuuttujat

EX1 EX 2 EX =

Johda jakauman momenttiemäfunktio ja sen avulla jakauman odotusarvo ja varianssi.

4.3 Signaalin autokorrelaatio

1. Valitaan tilanteeseen sopiva stokastinen malli. 2. Sovitetaan malli havaittuun dataan (estimoidaan mallin parametrit).

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Osa 2: Otokset, otosjakaumat ja estimointi

MATEMATIIKAN JA TILASTOTIETEEN LAITOS

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

( ) k 1 = a b. b 1) Binomikertoimen määritelmän mukaan yhtälön vasen puoli kertoo kuinka monta erilaista b-osajoukkoa on a-joukolla.

MATP153 Approbatur 1B Harjoitus 1, ratkaisut Maanantai

Äärettämän sarjan (tai vain sarjan) sanotaan suppenevan eli konvergoivan, jos raja-arvo lims

Matematiikan tukikurssi

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

Otantajakauman käyttö päättelyssä

1. osa, ks. Solmu 2/ Kahden positiivisen luvun harmoninen, geometrinen, aritmeettinen ja + 1 u v 2 1

1 Eksponenttifunktion määritelmä

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

xe y = ye x e y + xe y y = y e x + e x y xe y y y e x = ye x e y y (xe y e x ) = ye x e y y = yex e y xe y e x = x 3 + x 2 16x + 64 = D(x)

T Datasta tietoon, syksy 2005 Laskuharjoitus 8.12., ratkaisuja Jouni Seppänen

Tilastolliset luottamusvälit

Matematiikan tukikurssi

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 6A Ratkaisuehdotuksia.

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

4 KORKEAMMAN KERTALUVUN LINEAARISET DIFFERENTIAALIYHTÄLÖT. Kertaluvun n lineaarinen differentiaaliyhtälö ns. standardimuodossa on

Analyysi A. Harjoitustehtäviä lukuun 1 / kevät 2018

Tehtävä 1. Voidaanko seuraavat luvut esittää kahden neliön summina? Jos voidaan, niin kuinka monella eri tavalla? (i) n = 145 (ii) n = 770.

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Konvergenssikäsitteet ja raja arvolauseet

3.6 Su-estimaattorien asymptotiikka

****************************************************************** ****************************************************************** 7 Esim.

4.0.2 Kuinka hyvä ennuste on?

Insinöörimatematiikka IA

Osa 2: Otokset, otosjakaumat ja estimointi

Yhden selittäjän lineaarinen regressiomalli

Kertaa tarvittaessa induktiota ja rekursiota koskevia tietoja.

Epäyhtälöoppia matematiikkaolympialaisten tehtäviin

IV. TASAINEN SUPPENEMINEN. f(x) = lim. jokaista ε > 0 ja x A kohti n ε,x N s.e. n n

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

Johdatus todennäköisyyslaskentaan Konvergenssikäsitteet ja raja-arvolauseet. TKK (c) Ilkka Mellin (2004) 1

2 u = 0. j=1. x 2 j=1. Siis funktio v saavuttaa suurimman arvonsa jossakin alueen Ω pisteessä x. Pisteessä x = x on 2 v. (x ) 0.

MATA172 Sami Yrjänheikki Harjoitus Totta vai Tarua? Lyhyt perustelu tai vastaesimerkki!

Algebra I Matematiikan ja tilastotieteen laitos Ratkaisuehdotuksia harjoituksiin 5 (6 sivua)

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

Ehdollinen todennäköisyys

Matematiikan ja tilastotieteen laitos Reaalianalyysi I Harjoitus Malliratkaisut (Sauli Lindberg)

811312A Tietorakenteet ja algoritmit , Harjoitus 1 ratkaisu

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

10 Kertolaskusääntö. Kahta tapahtumaa tai satunnaisilmiötä sanotaan riippumattomiksi, jos toisen tulos ei millään tavalla vaikuta toiseen.

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Satunnaismuuttujien muunnokset ja niiden jakaumat. Satunnaismuuttujien muunnokset ja niiden jakaumat

Luento 6 Luotettavuus Koherentit järjestelmät

Solmu 3/ toteutuu kaikilla u,v I ja λ ]0,1[. Se on aidosti konveksi, jos. f ( λu+(1 λ)v ) < λf(u)+(1 λ)f(v) (2)

BM20A Integraalimuunnokset Harjoitus 8

Maximum likelihood-estimointi Alkeet

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

3 x < < 3 x < < x < < x < 9 2.

Matematiikan tukikurssi

Sovellettu todennäköisyyslaskenta B

Luento 7 Luotettavuus Koherentit järjestelmät

3 10 ei ole rationaaliluku.

Tilastolliset menetelmät: Tilastolliset testit

Seuraavat peruslauseet 1-8 voidaan helposti todistaa integraalin määritelmästä. Integroimisjoukko R oletetaan rajoitetuksi Jordanmitalliseksi

Tilastollinen todennäköisyys

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Mat Sovellettu todennäköisyyslaskenta B 5. harjoitukset / Ratkaisut Aiheet: Jatkuvia jakaumia Avainsanat: Jatkuvia jakaumia

Estimointi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

Stokastiikan perusteet Harjoitukset 1 (Todennäköisyysavaruus, -mitta ja -funktio)

j = I A = 108 A m 2. (1) u kg m m 3, (2) v =

( θa,n ;Y n (ˆθn θ 0 ), a=1,...,d, J n

n = 100 x = %:n luottamusväli µ:lle Vastaus:

Matematiikan tukikurssi. Kertausta 1. välikokeeseen. Tehtävät

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Moniulotteisia todennäköisyysjakaumia

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

2 avulla. Derivaatta on nolla, kun. g( 3) = ( 3) 2 ( 3) 5 ( 3) + 6 ( 3) = 72 > 0. x =

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Sekalaiset tehtävät, 11. syyskuuta 2005, sivu 1 / 13. Tehtäviä

Transkriptio:

Fuktioide estimoiti Lasse Holmström Matemaattiste tieteide laitos Oulu yliopisto Kevät 204 0.35 0.3 0.25 0.2 0.5 0. 0.05 0 5 4 3 2 0 2 3 4 5

Sisällys Esimerkkejä fuktio estimoiista. Tiheysfuktio................................2 Regressio.................................. 5.3 Tehospektri................................ 7.4 Hasardifuktio.............................. 4.5 Hahmotuistus............................. 7 2 Parametrie ja parametrito fuktio estimoiti 25 2. Perusasioita................................ 25 2.2 Crameri-Rao alaraja.......................... 27 2.3 Suurimma uskottavuude estimoiti.................. 29 2.4 Parametrie fuktio estimoiti.................... 33 2.4. Tiheysfuktio........................... 33 2.4.2 Regressiofuktio......................... 37 2.5 Kohti parametritota fuktio estimoitia............... 40 3 Parametrito tiheysfuktio estimoiti 46 3. Pakollie harha............................. 46 3.2 Ydiestimoiti.............................. 50 3.3 Virhekriteerejä.............................. 56 3.3. Pisteittäie virhe........................ 56 3.3.2 Globaali virhe........................... 57 3.4 L 2 -virhe.................................. 58 3.5 Miimax-virhe............................... 69 3.6 Optimaalie ydi............................ 77 i

3.7 Korkeamma kertaluvu ytimet..................... 80 3.8 Silotusparametri valita......................... 83 3.8. Nopeita ja yksikertaisia meetelmiä.............. 84 3.8.2 Kehittyeempiä meetelmiä................... 85 3.9 Adaptiivie ydiestimoiti....................... 94 3.0 Reuat................................... 96 3. Ydiestimoiti avaruudessa R d...................... 02 3.. Dimesiokirous.......................... 02 3..2 Ydiestimaattori......................... 05 3.2 Eräitä muita meetelmiä......................... 4 3.2. Lähiaapuriestimaattori..................... 4 3.2.2 Otogoaalisarjaestimaattori................... 5 3.2.3 Sakotettu uskottavuus...................... 9 4 Parametrito regressio 2 4. Malli.................................... 2 4.2 Ydiregressio Nadaraya-Watsoi meetelmä............ 23 4.3 Kiiteä asetelma............................. 24 4.4 Satuaie asetelma........................... 33 4.5 Eräitä muita ydiregressiomeetelmiä.................. 34 4.6 Lokaali regressio.............................. 35 4.7 Silotusparametri valita......................... 37 4.8 Luottamusvälit.............................. 38 4.9 Silottava splii.............................. 40 4.0 Ratkaisu olemassaolo ja yksikäsitteisyys................ 43 4. Yhteys ydiregressioo.......................... 50 4.2 Silotusparametri määräämie..................... 5 4.3 Ortogoaalisarjakehitelmät........................ 52 ii

Luku Esimerkkejä fuktio estimoiista. Tiheysfuktio Olkoo X (reaaliarvoie) satuaismuuttuja. Oletetaa, että X: jakaumalla o tiheysfuktio f : R [0, [, P(X B) = B f(x)dx, (.) (vrt. Kuva.). y y = f(x) P(X B) B x Kuva.: Satuaismuuttuja X tiheysfuktio f.

Olkoo X,..., X satuaisotos X: jakaumasta. Tehtävä: Estimoi f:ää otokse X,..., X avulla. Ratkaisua saadaa estimaattori ˆf(x; X,..., X ), x R. Merkitää tätä lyhyesti ˆf(x). Periteisesti yleisi estimoititapa o käyttää histogrammia. Tiheysfuktio estimoiti o avai moe ogelma ratkaisuu: aieisto havaiollistamie, visualisoiti moodie paikallistamie (yksi, mota?) ryhmittelyaalyysi (egl. clusterig) simuloiti hahmotuistus je. Esimerkki. Tarkastellaa Buffalo kaupugi (New York, USA) vuotuista lumisademäärää vuosia 90-972. Satuaismuuttujaa X o vuode aikaa sataut lumi tuumia. Otos ( = 63) koostuu seuraavista mitatuista arvoista [8]: 26.4 82.4 78. 5. 90.9 76.2 04.5 87.4 0.5 25.0 69.3 53.5 39.8 63.6 46.7 72.9 79.6 83.6 80.7 60.3 79.0 74.4 49.6 54.7 7.8 49. 03.9 5.6 82.4 83.6 77.8 79.3 89.6 85.5 58.0 20.7 0.5 65.4 39.9 40. 88.7 7.4 83.0 55.9 89.9 84.8 05.2 3.7 24.7 4.5 5.6 02.4 0.4 89.8 7.5 70.9 98.3 55.5 66. 78.4 20.5 97.0 0.0 Kuvassa.2 o tästä aieistosta muodostettu histogrammi ja kuvassa.3 kaksi muuta tiheysfuktio estimaattia, jotka o muodostettu käyttäe s. ydimeetelmää (luku 3.2). Estimoititavoista riippue tiheysfuktio moodie (lokaalie maksimie) lukumäärälle saadaa erilaisia arvioita. 2

0.025 0.02 Tiheysfuktioestimaati arvo 0.05 0.0 0.005 0 20 40 60 80 00 20 40 Buffalo vuotuie lumimäärä Kuva.2: Histogrammi Buffalo kaupugi vuotuisesta lumisademäärästä (tuumissa) Otospisteide arvot o merkitty vaaka-akselille pieillä ympyröillä. 3

0.025 0.02 Tiheysfuktioestimaati arvo 0.05 0.0 0.005 0 0 50 00 50 Buffalo vuotuie lumimäärä Kuva.3: Buffalo kaupugi vuotuise lumisademäärä (tuumissa) tiheysfuktio kaksi eri estimaattia (yhteäie viiva ja katkoviiva). Otospisteide arvot o merkitty vaaka-akselille pieillä ympyröillä. 4

y y = m(x) Y i ε i x X i Kuva.4: Regressiotehtävä. Kuvassa Y o selitettävä muuttuja ja X o selittävä muuttuja..2 Regressio Olkoot X ja Y satuaismuuttujia ja olkoo (X, Y ),..., (X, Y ) satuaisotos (X, Y ): jakaumasta. Esimerkkiä voisi olla vaikka X i = hekilö i paio, Y i = hekilö i pituus. Mallitetaa X: ja Y : riippuvuutta toisistaa kaavalla Y i = m(x i ) + ε i. Tässä m : R R o (regressio)fuktio ja ε i mallittaa satuaisvirhettä (esim. mittausvirhe tai puuttuva iformaatio). Tilaetta o havaiollistettu kuvassa.4. Tehtävä: Estimoi m:ää otokse (X, Y ),..., (X, Y ) avulla. Ratkaisua kostruoidaa estimaattori ˆm(x; (X, Y )..., (X, Y )), x R, tai lyhyesti ˆm(x). Regressiota voidaa käyttää moelaisii tehtävii: aieisto havaiollistamie muuttujie väliste riipuvuuksie tutkimie 5

eustamie je. Joskus arvot X i eivät ole satuaisia vaa ealta valittuja kiiteitä lukuja. Esimerkki.2 Kahdeksa miehe paio ja pituus o aettu talukossa.. Paio Pituus 62 72 70 78 59 70 85 8 80 80 75 75 62 69 89 88 Taulukko.: Kahdeksa miehe paio (kg) ja pituus (cm). Kuvassa.5 o tähä aieistoo sovitettu suora, joka äyttääki kuvaava paio ja pituude keskimääräistä riippuvuutta melko hyvi. Esimerkki.3 Moottoripyöräilijä kypäriä testattii simuloiduilla törmäyskokeilla (esim. [5]). Kuvassa.6 o esitetty ajaja pää kiihtyvyys törmäyshetkestä kuluee aja fuktioa = 33 mittauspistee avulla. Kuvassa.7 o tähä aieistoo sovitettu eri asteisia polyomeja regressiofuktio estimaateiksi. Polyomit ovat selvästiki liia jäykkiä fuktioita hyvä sovittee saamiseksi. Kuvassa.8 o käytetty s. lokaalia lieaarista regressiota (luku 4.6) jolloi tulos o paljo parempi. Esimerkki.4 Eglaissa o tutkittu perua kulutukse riippuvuutta perhee tuloista [7]. Kuvassa.9 o esitetty kerätty aieisto 4094 perhee osalta vuodelta 973. Yksiköiä o käytetty keskiarvo moikertoja ( = keskiarvo) ja mukaa o otettu vai perheet, joissa peruaa o ylipäätäsä kulutettu ja joide tulot ja kulutus ovat korkeitaa kolmikertaiset keskiarvoo ähde. Kuvaa o piirretty 6

90 85 Pituus (cm) 80 75 70 65 55 60 65 70 75 80 85 90 95 Paio (kg) Kuva.5: Kahdeksa miehe paio ja pituus ja tähä aieistoo sovitettu suora. sekä lieaarie että Nadaraya-Watsoi meetelmällä (4.2) saatava regressiofuktio estimaatti. Huomaa kuika epäuskottava kuva lieaarie estimaatti ataa peruakulutukse riippuvuudesta tuloista. Nadararya-Watsoi meetelmä ataa selvästi luotevamma tulokse: kulutukse kasvu tasaatuu tiety tulotaso jälkee ja itseasiassa väheee korkeimmissa tuloluokissa..3 Tehospektri Tarkastellaa aikasarjaa (X t ) t Z missä ideksijoukkoa ovat kokoaisluvut, Z = {0,,, 2, 2,... } ja meillä o ajassa eteevä joo havaitoja..., X 2, X, X 0, X, X 2,.... Tässä kuki X t o satuaismuuttuja. Oletetaa, että aikasarja o (heikosti) statioaarie ja keskiarvoltaa 0: EX t = 0 kaikilla t, 7

00 50 Pää kiihtyvyys (g) 0 50 00 50 0 0 20 30 40 50 60 Aika törmäyksestä (ms) Kuva.6: Simuloiduissa törmäyksissä mitattu moottoripyöräilijä pää kiihtyvyys törmäyksestä kuluee aja fuktioa. 8

00 00 Pää kiihtyvyys (g) 50 0 50 00 Pää kiihtyvyys (g) 50 0 50 00 50 0 20 40 60 (a) 50 0 20 40 60 (b) 00 00 Pää kiihtyvyys (g) 50 0 50 00 Pää kiihtyvyys (g) 50 0 50 00 50 0 20 40 60 (c) 50 0 20 40 60 (d) Kuva.7: Regressiofuktio estimoiti polyomilla kuva.6 aieistosta: esimmäise astee polyomi (a), toise astee polyomi (b), kolmae astee polyomi (c) ja eljäe astee polyomi (d). 9

00 50 Pää kiihtyvyys (g) 0 50 00 50 0 0 20 30 40 50 60 Aika törmäyksestä (ms) Kuva.8: Regressiofuktio estimoiti lokaalilla lieaarisella regressiolla kuva.6 aieistosta. 0

3 2.5 Perua kulutus 2.5 0.5 0 0 0.5.5 2 2.5 3 Tulot Kuva.9: Perua kulutukse riippuvuus perhee tulotasosta (Eglati 973). Tiedot o kerätty = 4094 perheeltä ja yksikköiä o käytetty keskiarvo moikertoja. Kuvaa o piirretty sekä lieaarie että Nadaraya-Watsoi meetelmällä saatava regressiofuktio estimaatti.

X t t Kuva.0: Aikasarja (X t ) t Z. γ(u) = EX t X t+u, u Z, ei riipu t:stä. Yllä E merkitsee odotusarvoa ja (γ(u)) u Z o aikasarja (X t ) t Z autokovariassijoo. Aikasarjoja o moelaisia: taloudelliset aikasarjat säähavaiot erilaiset mittaussigaalit tekisissä sovelluksissa Probleema: Oko aikasarjassa periodisuutta, piileviä syklisiä kompoetteja? Oletetaa, että u= γ(u) <. Määritellää aikasarja (X t ) t Z tehospektri f : R R kaavalla f(λ) = 2π u= γ(u)e iλu, λ R. Kyseessä o siis itseasiassa autokovariassijoo (γ(u)) u Z Fourier-muuos. Voidaa osoittaa, että (i) f o 2π-jaksollie. 2

f(λ) λ π λ λ + λ π Kuva.: Tehospektri tulkita. (ii) f(λ) 0 kaikilla λ. (iii) f o symmetrie, eli f(λ) = f( λ) kaikilla λ. (iv) f(λ) λ taajuskaistaa [λ, λ + λ] vastaava teho aikasarjassa (X t ) t Z (vrt. kuva.). Idea: f: lokaali maksimi vastaa aikasarja (X t ) t Z periodista kompoettia. Käytäössä pystymme kuiteki havaitsemaa vai äärellise pituise aikasarja. Tehtävä: Estimoi f:ää äärellise havaitojoo X,..., X avulla. Estimoidaa esi γ(u):ta, ˆγ(u) = u (/) t= X t X t+u, u = 0,..., 0, u ˆγ( u), u < 0. Sitte otetaa f: estimaattoriksi periodogrammi ˆf(λ) = 2π u= iλu HT ˆγ(u)e = 2π 3 t= 2 X t e iλt.

(Tässä samoi kui jatkossa merkitä HT = tarkoittaa, että yhtäsuuruus todistetaa harjoitustehtävää). Nyt voidaa osoittaa, että E ˆf(λ) f(λ), ku ja λ 0 (mod 2π). Ikävä kyllä kuiteki E[ ˆf(λ) f(λ)] 2 0 ku, jote ˆf(λ) heilahtelee f(λ): ympäristössä suurillaki : arvoilla vaikka se arvo keskimääri oki f(λ). Tilae saadaa korjattua silottamalla periodogrammia lähekkäisiä arvoja keskiarvoistamalla. Historiallisesti tämä periodogrammii liittyvä estimoitiogelma motivoi myös todeäköisyystiheysfuktio estimoitimeetelmie kehittämistä. Esimerkki.5 Kuvassa.2 o esitetty keskimääräie vuotuie aurigopilkkuje määrä vuosia 770-988 (lähteeä H. Tog: No-liear time series: a dyamical systems approach, 99, Oxford Uiversity Press). Kuvassa.3 o logaritmisella asteikolla tästä aieistosta laskettu periodogrammi ja se silotettu versio. Symmetrisyyde ja jaksollisuude vuoksi periodogrammit o piirretty vai välillä [0, π]. Huomaa voimakas maksimi oi taajuudella 0.6, joka vastaa alkuperäisessä aikasarjassa periodia 2π/0.6 0.5 vuotta..4 Hasardifuktio Hasardifuktio käsitettä (egl. hazard fuctio) käytetää mm. luotettavuude valvoassa ja eliaika-aalyysissä. Laitteide luotettavuude yhteydessä käytetää myös imitystä vikaatumisitesiteetti. Olkoo T tarkasteltava kohtee, esimerkiksi laittee tai hekilö, toimita tai eliaika (vrt. kuva.4). Olkoo T :llä tiheysfuktio f ja merkitää se kertymäfuktiota F :llä, F (t) = 0 t f(τ)dτ. Hasardifuktio määritellää yt kaavalla H(t) = f(t) F (t), t 0. 4

200 80 60 Aurigopilkkuje määrä 40 20 00 80 60 40 20 0 700 750 800 850 900 950 2000 Vuosi Kuva.2: Aurigopilkkuje keskimääräie vuotuie määrä vuosia 770-988. 5

4 4 3.5 3.5 3 3 log 0 (periodogrammi) 2.5 2.5 0.5 0 log 0 (silotettu periodogrammi) 2.5 2.5 0.5 0 0.5 0.5 0 2 3 Taajuus λ 0 2 3 Taajuus λ Kuva.3: Kuva.2 aieistosta laskettu periodogrammi (vasemmalla) ja se silotettu versio (oikealla). 0 T vikaatumie/kuolema t Kuva.4: Laittee/hekilö toimita/eliaika T. 6

Huomataa, että H(t) t = f(t) t F (t) P(vikaatumie välillä [t, t + t] ehjä hetkee t asti). Ku käytettävissä o satuaisotos T,..., T, voidaa tiheysfuktiolle f muodostaa estimaattori ˆf (vrt. tämä luvu osa.). Site saadaa estimaattori ˆF (t) = 0 t ˆf(τ)dτ mistä edellee Ĥ(t) =.5 Hahmotuistus ˆf(t) ˆF (t), t 0. Olkoo X jostai kohteesta tehty havaito; hahmotuistuksessa tämä o itseasiassa tavallisesti paremmiki tulkittavissa satuaisvektoria kui reaaliarvoisea satuaismuuttujaa. Esimerkkejä ovat digitaalie kuva (esim. koeäkö) puhespektri (puheetuistus) EEG käyrä (potilaa tila seurata) Probleema: Mistä luokasta havaito o peräisi? Edelliste esimerkkie kohdalla tämä voisi tarkoittaa esimerkiksi seuraavia ksysymyksiä. Mikä esie o kuvassa? Mikä foeemi? Mikä o potilaa tila? 7

q p y R pq x R d umero Kuva.5: Käsikirjoitetu umero tuistus. 8

Esimerkki.6 Kuva.5 esittää yksikertaistetussa muodossa erää mahdollise lähestymistava käsikirjoitettuje umeroide automaattiseksi tuistamiseksi. Numerosta otetaa esi p q digitaalie kuva y. Sitte kuva esikäsitellää ja se sisältämä iformaatio tiivistetää piirrevektoriksi x, joka dimesio d o tyypillisesti paljo alempi kui y: dimesio pq. Piirrevektori x luokitellaa viimei johoki luokista 0,,..., 9 käyttäe jotai päätössäätöä. Kuvassa.6 o esimerkki eräästä todellisesta aieistosta. Aluperi 024-ulotteiset (32 32 digitaalie kuva), käsikirjoitettuja umeroita 0 ja esittävie vektoreide sisältämä iformaatio tiivistettii kaksiulotteisii piirrevektoreihi. Varsi hyvä päätössäätö äide kahde umero erottamiseksi toisistaa saadaa jakamalla taso kahtee osaa kuvaa piirrety suora avulla. Virheitä toki tehdää mutta äi yleesä oki, sillä eri luokkia vastaavie piirrevektoreide paikat eivät useikaa satu pistevieraisii joukkoihi. Esimerkki.7 Aivoje toimitaa voidaa mitata moella eri tavoilla. Periteise EEG: rialle o viime aikoia oussut esimerkiksi MRI-kuvaus. Suomessa o kehitetty myös pää ulkopuolelta aivoista mitattuu mageettikettää perustuvaa MEG meetelmää (MagetoEcePhalograhy). Mittauslaitteistossa käytetää äärimmäise herkkiä SQUID sesoreita (Supercoductig QUatum Iteferece Device) hyvi heikkoje mageettikettie muutoksie havaitsemiseksi (ks. kuva.7). Eräässä kokeessa koehekilö tuli reagoida paiamalla oikeassa tai vasemmassa kädessä olevaa paioappia kuullessaa joko korkea (000 Hz) tai matala (500 Hz) ääe kuulokkeista. Yhdessä mittaussessiossa korkeita ja matalia ääiä tuotettii kumpiaki satuaisessa järjestykssä. 00 kappaletta. Tehtävää oli kostruoida hahmotuistusjärjestelmä, joka MEG-mittauste avulla luokittelee api paiallukset kahtee luokkaa (oikea/vase). Kokee tarkoituksea oli testata alustavasti mahdollisuutta käyttää MEG laitteistoa aivotoimia diagosoitii kliiisissä tutkimuksissa. Kuvassa.8a o esitetty kaksi esimerkkiä kummaki luoka esikäsitellyistä mittaussigaaleista, jotka o saatu yhdestä kaikkiaa seitsemästä kaavasta. Käytetty mittausjakso vastaa api paialluksesta alkautta 50 ms pituista ajajaksoa ja yksittäisessä sigaalissa o 60 2.5 millisekui välei mittattua arvoa. Lopullisea tehtävää o luokitella äitä 60-ulotteisia piirrevektoreita. Mittaussigaaleissa 9

20 5 0 0 5 0 5 0 20 5 0 5 0 5 0 5 20 25 Kuva.6: Kaksiulotteisia piirrevektoreita, jotka o muodostettu käsikirjoitetuista umeroista 0 (ympyrät) ja (ristit). Kummastaki umerosta o 300 esimerkkiä. Kuvaa o myös piirretty suora, joka erottaa ämä kaksi luokkaa hyvi. 20

Kuva.7: Kaaviokuva aivotoimia mittauksesta MEG-laitteistolla. 2

o paljo kohiaa, joka ei tosi johdu iikää itse mittalaitteesta kui itse mitattava ilmiö (api paiallus peukalolla) kaalta epäoleelliste aivoprosessie aiheuttamista mageettiketä vaihteluista. Keskiarvoistamalla suuri joukko mittaussigaaleja ähdää, että kahde luoka välillä kuiteki o selvä ero (kuva.8b). Eri meetelmiä testattaessa päästii parhaimmillaa 3% virhetodeäköisyytee yksittäisiä sigaaleja luokiteltaessa. Oletetaa yksikertaisuude vuoksi, että meillä o kaksi mahdollista luokkaa, ja 2. Useamma luoka tapaus voidaa käsitellä vastaavasti. Havaitoa ja siihe liittyvää luokkaiformaatiota mallitetaa parilla (X, J), missä X = d-ulotteie satuaisvektori, hahmo, J = X: luokka ( tai 2). Probleema: Ku X havaitaa, o arvattava vastaava J! Tehtävälle kostruoidaa ratkaisu muodostamalla luokiti g : R d {, 2} ja asettamalla (ks. kuva.9) g(x) = X luokitellaa luokkaa, g(x) = 2 X luokitellaa luokkaa 2. Oletetaa, että o aettu opetusdata, eli joukko luokiteltuja hahmoja (X, J ),..., (X, J ). Tehtävä: Estimoi luokiti ĝ, joka o hyvä siiä mielessä, että se luokittelee myöhemmi tehtävät havaiot mahdollisimma oikei. Oletetaa, että (i) X J = f, X J = 2 f 2, eli X: jakauma luokassa i määrää tiheysfuktio f i. (ii) P(J = ) = P(J = 2), eli luokilla ja 2 o yhtäsuuret prioritodeäköisyydet. 22

0 5 0 5 0 0 50 00 50 (a) 4 2 0 2 4 0 50 00 50 (b) Kuva.8: Kuvassa a o kaksi sigaalia oikea (yhteäie viiva) ja kaksi sigaalia vasemma (katkoviiva) käde apipaialluksista mitatuista MEG sigaaleista. Kuvassa b o keskiarvoistettu 94 oikea käde ja 92 vasemma käde sigaalia. Vaakaakselilla o aika millisekuteia api paialluksesta. 23

R d g () g (2) päätösalueet Kuva.9: Luokittelija g euklidisessa avaruudessa. Voidaa osoittaa, että tällöi paras mahdollie luokiti (tekee vähite virheitä) saadaa määrittelemällä g(x) = argmax f i (X) =,2, kuf (X) > f 2 (X) 2, kuf (X) f 2 (X). Nyt, jos ˆf i o opetusdataa perustuva f i : estimaattori, i =, 2, ii tätä optimaalista luokitita voidaa estimoida määrittelemällä ĝ(x) = argmax,2 ˆf i (X). 24

Luku 2 Parametrie ja parametrito fuktio estimoiti 2. Perusasioita Olkoo (Ω, A, P) todeäköisyyskettä. Siis A o Ω: sigma-algebra (tapahtumie joukko) ja ku A A, o P(A) tapahtuma A todeäköisyys. Olkoo X : Ω R satuaismuuttuja. Siis, X o mitallie eli kaikilla Boreli joukoilla B R. X (B) = {ω Ω X(ω) B} A Määritellää X: odotusarvo EX ja variassi Var(X) kaavoilla EX = XdP, Var(X) = E(X EX) 2. Ω Jotta ämä suureet olisivat hyvi määriteltyjä, oletetaa odotusarvo tapauksessa, että X o itegroituva ja variassi tapauksessa, että X 2 o itegroituva. Olkoo sitte X: jakaumalla tiheysfuktio f (kaava (.)); merkitsemme tällöi X f. Silloi EX = Olkoo edellee a R. Silloi pätee xf(x)dx, Var(X) = (x EX) 2 f(x)dx. E(X a) 2 = E[(X EX) + (EX a)] 2 = Var(X) + (EX a) 2. (2.) 25

Olkoo sitte Θ R d ja olkoo jokaisella θ Θ aettu tiheysfuktio f( ; θ) : R [0, [. Merkitää äi saatavaa θ:lla parametroitua tiheysfuktioperhettä F = {f( ; θ) θ Θ}. (2.2) Esimerkki 2. Otetaa parametrijoukoksi Θ = R ]0, [ ja asetetaa f(x; θ) = 2πθ2 e 2 x θ θ2 2, x R, θ = (θ, θ 2 ). Tavallisesti merkitää θ = µ, θ 2 = σ 2. Kyseessä o tieteki ormaalijakauma N(µ, σ 2 ) tiheysfuktio. Merkitsemme tiheysfuktiolle joskus f( ; (µ, σ 2 )) N(µ, σ 2 ). Jos X:llä o jakauma N(µ, σ 2 ), merkitsemme myös X N(µ, σ 2 ). Tuetusti µ ja σ 2 ovat X: odotusarvo ja variassi. Tarkastellaa jotai parametrista perhettä (2.2) ja olkoo X f( ; θ) jollai θ Θ, jota emme tue. Oletetaa, että meillä o kuiteki käytössä i.i.d. otos X,..., X f( ; θ), eli satuaismuuttujat X i ovat riippumattomia ja samoi jakautueita tiheysfuktiolla f( ; θ) (i.i.d. = idepedet ad idetically distributed). Parametrivektoria θ estimoidaa sopiva estimaattori ˆθ = t (X,..., X ) avulla. Tässä t : R Θ o (Borel) mitallie fuktio ja tavalliste todeäköisyyslaskea merkitäsopimuste mukaisesti estimaattori o siis kuvaus ˆθ : Ω Θ, ˆθ (ω) = t (X (ω),..., X (ω)), ω Ω, itseasiassa satuaismuuttuja. Esimerkki 2.2 Olkoo X N(θ, ) eli X: tiheysfuktio o f(x; θ) = 2π e 2 (x θ)2, x R. Koska θ o X: odotusarvo, o satuaisotoksee X,..., X perustuva θ: luoteva estimaattori ˆθ = (/) X i. Tässä siis t (x,..., x ) = (/) x i, (x,..., x ) R. Huomautus 2.3 Käytäössä havaitaa vai lukujoukko x,..., x eli X (ω),..., X (ω) jollai kiiteällä ω Ω. Saomme, että t (x,..., x ) o θ: estimaatti. Usei merkitää kuiteki (epätäsmällisesti) ˆθ = t (x,..., x ). 26

2.2 Crameri-Rao alaraja Tarkastellaa -ulotteista tilaetta, Θ R, F = {f( ; θ) θ Θ}. Olkoo X,..., X f( ; θ) i.i.d. otos ja ˆθ = t (X,..., X ) θ: estimaattori. Olemme kiiostueita estimaattori ˆθ eliöllisestä virheestä E θ (ˆθ θ) 2, missä odotusarvo lasketaa satuaisvektori (X,..., X ) jakauma suhtee ja merkiällä E θ halutaa korostaa sitä, että muuttujilla X i o tiheysfuktioa f( ; θ): E θ (ˆθ θ) 2 = [t (x,..., x ) θ] 2 f(x ; θ) f(x ; θ)dx dx. Huomaa, että (X,..., X ): tiheysfuktio o tulo satuaismuuttujie X i tiheysfuktioista, koska oletamme riippumattomuude. Kaava (2.) perusteella E θ (ˆθ θ) 2 = (E θ ˆθ θ) 2 + Var θ (ˆθ ). Tässä E θ ˆθ θ o estimaattori harha ja käytämme sille merkitää Bias θ (ˆθ ). Voimassa o siis seuraava harha-variassi hajoitelma: E θ (ˆθ θ) 2 = Bias 2 θ(ˆθ ) + Var θ (ˆθ ). (2.3) Olkoo S joukko. Merkitsemme S: karakteristista fuktiota S (x) = ku x S, 0 ku x S. Olkoo Θ =]a, b[ avoi väli ja asetetaa seuraavat sääöllisyysehdot ku θ Θ. (i) Joukko S = {x R f(x; θ) > 0} ei riipu θ:sta. (ii) f( ; θ)/ θ o itegroituva ja (iii) d dθ S f(x; θ)dx = d t (x,..., x ) dθ S = S t (x,..., x ) θ S f(x; θ) dx. θ f(x i ; θ)dx dx f(x i ; θ)dx dx. (Erityisesti merkittyje itegraalie tulee olla olemassa.) 27

(iv) 0 < E θ log f(x i ; θ) θ 2 <, missä log tarkoittaa luoollista logaritmia. Huomautus 2.4 Tarkkaa ottae ehdossa (iv) oleva satuaismuuttuja Y = log f(x ; θ)/ θ ei ole määritelty ku X S, koska tällöi f(x ; θ) = 0 kaikilla θ. Sovimme, että Y = 0, ku X S. Odotusarvo laskemise kaalta tällä uudellee määrittelyllä ei ole merkitystä, koska johtue jouko S määritelmästä, tapahtuma X S todeäköisyys o tietysti olla. Merkitää b(θ) = Bias θ (ˆθ ) = E θ ˆθ θ, θ Θ. Lause 2.5 (Crameri-Rao alaraja) Jos em. ehdot (i) - (iv) ovat voimassa, pätee kaikilla θ Θ epäyhtälö E θ (ˆθ θ) 2 [ + b (θ)] 2 E θ log f(x ;θ) θ 2. (2.4) Todistus: Satuaisvektorilla (X,..., X ) o tiheysfuktio (x,..., x ) f(x i ; θ). Site θ + b(θ) = E θ ˆθ = S t (x,..., x ) f(x i ; θ)dx x. Derivoimalla θ: suhtee ja käyttäe ehtoa (iii) saadaa tästä + b (θ) = t (x,..., x ) S θ = t (x,..., x ) S f(x i ; θ) f(x i ; θ)dx dx (2.5) f(x i ; θ) θ f(x i ; θ)dx x. Olkoo S c = R \ S jouko S komplemetti. Huomautukse 2.4 mukaisesti määrittelemme satuaismuuttuja Y i, i =,...,, kaavalla Y i = log[f(x i; θ) + S c(x i )] θ = f(x i ; θ) + S c(x i ) f(x i; θ). θ 28

Silloi Y i = 0, ku X i S ja E θ Y i = S f(x; θ) f(x; θ) f(x; θ)dx = d θ dθ S f(x; θ)dx = d dθ = 0, missä toie yhtäsuuruus seuraa ehdosta (ii). Olkoo sitte Z = Y i, jolloi E θ Z = E θ Y i = 0 ja E θ [(ˆθ θ)z] = E θ (ˆθ Z) = S t (x,..., x ) = + b (θ), f(x i ; θ) f(x i ; θ) θ f(x i ; θ)dx x missä esimmäie yhtäsuuruus seuraa siitä, että E θ Z = 0 ja viimeie yhtäsuuruus seuraa kaavasta (2.5). Schwarzi epäyhtälöstä saadaa yt Tässä + b (θ) = E θ [(ˆθ θ)z] E θ (ˆθ θ) 2 E θ Z 2. (2.6) E θ Z 2 = Var θ (Z) = Var θ (Y ) = E θ Y 2 = E θ log f(x ; θ) θ 2, missä esimmäie yhtäsuuruus seuraa siitä, että E θ Z = 0, toie siitä, että Y i t ovat riippumattomia ja samoi jakautueita ja kolmas siitä, että E θ Y = 0. Korottamalla yt (2.6) puolittai toisee ja jakamalla E θ Z 2 :lla saadaa väite. Huomautus 2.6 Yleesä + b (θ) 0. Erityisesti äi o ku ˆθ o harhato, eli E θ ˆθ = θ, ku θ Θ, jolloi b(θ) = 0, θ Θ. Lause 2.5 saoo, että tehdyillä oletuksilla paras mahdollie eliöllise virhee suppeemisopeus o /. Kute seuraavasta kohdasta ilmeee, paljo käytetty suurimma uskottavuude estimaattori itse asiassa saavuttaa tämä opeude. 2.3 Suurimma uskottavuude estimoiti Tarkastellaa edellee -ulotteise parametriavaruude Θ R tilaetta ja tiheysfuktioperhettä F = {f( ; θ) θ Θ}. Olkoo θ 0 Θ kiiteä ja X,..., X f( ; θ 0 ) i.i.d. otos. Fuktio L( ; X,..., X ) : Θ [0, [, 29

L(θ; X,..., X ) = f(x i ; θ), θ Θ, o s. uskottavuusfuktio. Joskus merkitää lyhyesti L(θ; X,..., X ) = L(θ). Suurimma uskottavuude ( su ) estimoiissa otetaa θ 0 : estimaatiksi L: (joki) maksimoija ˆθ joukossa Θ. Ajatuksea o, että ˆθ maksimoi otokse X,..., X todeäköisyyde. Usei itseasissa maksimoidaa log L ratkaisemalla ˆθ uskottavuusyhtälöstä log L(θ; X,..., X ) θ θ=ˆθ = 0. (2.7) Esimerkki 2.7 Tarkastellaa ormaalijakaumia N(θ, ), θ R, eli F koostuu tiheysfuktioista f(x; θ) = 2π e 2 (x θ)2, x R. Olkoo θ 0 R ja X,..., X f( ; θ 0 ) i.i.d. otos. Tällöi L(θ; X,..., X ) = 2π e 2 (X i θ) 2 = 2π e 2 (X i θ) 2 ja log L(θ) = 2 log 2π 2 (X i θ) 2. Saamme log L(θ) θ = (X i θ) = X i θ, joka häviää ku θ = ˆθ = (/) X i. Selvästi ˆθ o uskottavuusfuktio maksimoija. Site odotusarvo θ 0 su-estimaattori o otoskeskiarvo (= otokse keskiarvo). Jatketaa vielä edellise esimerki tarkastelua. Estimaattorilla ˆθ o seuraavat omiaisuudet. 30

(A) Vahva suurte lukuje lai ojalla ˆθ θ 0 m.v. (= melkei varmasti, todeäköisyydellä ). (B) ˆθ N(θ 0, /), jote (ˆθ θ 0 ) N(0, ). Tutkitaa Crameri-Rao alaraja tiukkuutta estimaattorille ˆθ. Ehdo (i) joukko S = {x f(x; θ) > 0} = R ei riipu θ:sta ja E θ log f(x ; θ) θ = E θ θ 2 2 log 2π 2 (X θ) 2 = E θ [(X θ) 2 ] = Var θ (X ) =, jote ehto (iv) o voimassa. Myös (ii) pätee ja ˆθ toteuttaa (iii):. Lisäksi kohda (B) ojalla ˆθ o harhato, E θ ˆθ = θ (vrt. (B) yllä). Olkoo θ mikä tahasa toie harhato θ: estimaattori, joka toteuttaa lausee 2.5 ehdot. Silloi erityisesti (2.4): osoittaja saa arvo, jote Crameri-Rao epäyhtälö saa muodo E θ ( θ θ) 2. Mutta estimaattorille ˆθ itseasiassa pätee (vrt. (B)), E θ (ˆθ θ) 2 = Var θ (ˆθ ) =, jote suurimma uskottavuude estimaattori ˆθ 2 itseasiassa saavuttaa Crameri- Rao alaraja ja o siis siiä mielessä optimaalie harhato estimaattori, että sillä o piei variassi. Tekemällä tiheysfuktioperheestä F tietyt sääöllisyysoletukset saadaa suestimaattori optimaalisuutta koskeva yleisempi tulos. Olkoo Θ =]a, b[ jällee väli ja oletetaa, että seuraavat ehdot ovat voimassa. (i) Kaikilla θ Θ o olemassa derivaatat k log f(x; θ)/ θ k, k =, 2, 3, x R. (ii) Kaikilla θ 0 Θ o olemassa δ > 0 ja fuktiot g k : R [0, [, k =, 2, 3, s.e. kaikilla θ ]θ 0 δ, θ 0 + δ[ pätee k f(x; θ) θ g k k (x), k =, 2, 3, x R 3

ja g k (x)dx <, k =, 2, E θ [g 3 (X)] <. (iii) Kaikilla θ Θ, 0 < E θ log f(x ; θ) θ 2 <. Lause 2.8 Olkoot (i), (ii) ja (iii) voimassa. Olkoo θ 0 Θ ja X, X 2,... f( ; θ 0 ) joo riippumattomia ja samoi jakautueita satuaismuuttujia. Silloi, todeäköisyydellä, uskottavuusyhtälöllä (2.7) o otoksee X,..., X perustuva ratkaisu ˆθ, N, s.e. (A) ˆθ θ 0 m.v. ku, (B) c (ˆθ θ 0 ) N(0, ) (jakaumakovergessi) ku, missä Todistus: c = E θ0 log f(x ; θ 0 ) θ Ks. Serflig: Approximatio theorems of mathematical statistics, Wiley 980, ss. 45-48. Palautetaa mielee, mitä kohda (B) jakaumakovergressilla tarkoitetaa. Olkoo Φ jakauma N(0, ) kertymäfuktio, Φ(x) = 2π x e 2 t2 dt. Jos silloi F o satuaismuuttuja c (ˆθ θ 0 ) kertymäfuktio, tarkoittaa (B) sitä, että lim F (x) = Φ(x) kaikilla x. Site suurella otoskoolla (eli suurella ) estimaattori ˆθ jakauma o likimai N(θ 0, /(c 2 )) (ks. kuva 2.). Site E θ0 (ˆθ θ 0 ) 2 /(c 2 ) eli Crameri-Rao epäyhtälö alaraja harhattomalle estimaattorille likimai saavutetaa. Suurimma uskottavuude estimaatori o tässä mielessä asymptoottisesti optimaalie. Huomautus 2.9 Usei pätee itseasiassa E θ0 (ˆθ θ 0 ) 2 lim /(c 2 ) 32 =, 2.

c ˆθ θ 0 Kuva 2.: Estimaattori ˆθ jakauma ku otoskoko o suuri. jolloi Crameri-Rao alaraja todella saavutetaa asymptoottisesti. Eräs riittävä ehto tälle o, että sup E θ0 (ˆθ θ 0 ) 2+ε < jollai ε > 0 (ks. Serflig, ss. 3-4). Vastaavat ehdot voidaa ataa korkeammilleki mometeille jolloi saadaa lim E θ 0 k c (ˆθ θ 0 ) = mk, missä m k o jakauma N(0, ) k:s absoluuttie mometti. 2.4 Parametrie fuktio estimoiti Olkoot (a ) ja (b ) reaalilukujooja. Käytämme jatkossa seuraavia merkitöjä: a = o(b ) lim (a /b ) = 0, a = O(b ) lim sup a /b <, a b lim (a /b ) =. Joissai kaavoissa esiityvä termi o(/) esimerkiksi tarkoittaa jooa (a ), jolla a = o(/) je. 2.4. Tiheysfuktio Olkoo f tutemato tiheysfuktio, jota haluamme estimoida i.i.d. otokse X,..., X f avulla. Parametrie estimoiti tapahtuu seuraavasti. (i) Valitaa parametrie tiheysfuktioide perhe F = {f( ; θ) θ Θ}. 33

(ii) Oletetaa, että f = f( ; θ 0 ) jollai θ 0 Θ. (iii) Estimoidaa θ 0 jollai sopivalla estimaattorilla ˆθ = t (X,..., X ). (iv) Otetaa f: estimaattoriksi ˆf = f( ; ˆθ ). Esimerkki 2.0 Esimerkissä 2.7 oli X,..., X N(θ 0, ) ja su-estimaattoriksi saatii otoskeskiarvo ˆθ = (/) X i. Tällöi siis asetamme ˆf (x) = 2π e 2 (x X i) 2, x R. Sääöllisissä tapauksissa o eliöllie estimoitivirhe yleesä luokkaa / mikä ähdää seuraavasti. Taylori kehitelmä ataa f(x; ˆθ ) f(x; θ 0 ) = f(x; θ 0) (ˆθ θ 0 ) + 2 f(x; θ ) (ˆθ θ 2 θ 2 θ 0 ) 2, missä (satuaismuuttuja) θ o ˆθ : ja θ 0 : välissä. Saamme tästä [f(x; ˆθ ) f(x; θ 0 )] 2 = f(x; θ 0 ) θ + f(x; θ 0) 2 f(x; θ ) (ˆθ θ θ 2 θ 0 ) 3 + 4 2 (ˆθ θ 0 ) 2 (2.8) 2 f(x; θ ) θ 2 2 (ˆθ θ 0 ) 4. Nyt esimerkiksi su-estimaattorille ˆθ pätee, että c (ˆθ θ 0 ): jakauma kovergoi otoskoo kasvaessa kohti jakaumaa N(0, ) ja sopivilla oletuksilla (ks. Huomatutus 2.9) saadaa jolloi lim E θ 0 k c (ˆθ θ 0 ) = mk > 0, k = 2, 3, 4, E θ0 ˆθ θ 0 k m k, k = 2, 3, 4. c k k/2 Tästä saadaa edellee pisteittäiselle keskimääräiselle eliövirheelle MSE[ ˆf (x)] (MSE = Mea Squared Error) kaava MSE[ ˆf (x)] = MSE[f(x; ˆθ )] E θ0 [f(x; ˆθ ) f(x; θ 0 )] 2 f(x; θ 0 2 ) = θ C + O( 2 ) f(x; θ 0 ) 3/2 θ C, 34

missä C o vakio. Sopivilla sääöllisyysoletuksilla voidaa MSE[ ˆf (x)] edellee itegroida, jolloi saadaa itegroitu keskimääräie eliövirhe MISE[ ˆf ], MISE[ ˆf ] = MSE[ ˆf (x)]dx C 2, missä 2 f(x; θ 0 ) C 2 = C dx > 0. θ Site itegroitu eliövirhe o samaa luokkaa / kui yksittäise parametri eliöllie estimoitivirhe. Esimerkki 2. Tarkastellaa jällee ormaalijakaumie tiheysfuktioide perhettä f(x; θ) = 2π e 2 (x θ)2, x R, ja olkoo X,..., X f( ; θ 0 ), ˆθ = (/) X i. Tällöi f(x; θ 0 ) θ = 2π e 2 (x θ 0) 2 (x θ 0 ) = (x θ 0 )f(x; θ 0 ), ja 2 f(x; θ 0 ) = f(x; θ θ 2 0 ) + (x θ 0 ) 2 f(x; θ 0 ) = [(x θ 0 ) 2 ]f(x; θ 0 ). Sijoittamalla kehitelmää (2.8) saadaa [f(x; ˆθ ) f(x; θ 0 )] 2 = (x θ 0 ) 2 f(x; θ 0 ) 2 (ˆθ θ 0 ) 2 +(x θ 0 )f(x; θ 0 )[(x θ ) 2 ]f(x; θ )(ˆθ θ 0 ) 3 + 4 [(x θ ) 2 ] 2 f(x; θ ) 2 (ˆθ θ 0 ) 4 (x θ 0 ) 2 f(x; θ 0 ) 2 (ˆθ θ 0 ) 2 + R (x; θ 0, θ )(ˆθ θ 0 ) 3 + R 2 (x; θ )(ˆθ θ 0 ) 4, missä (ˆθ θ 0 ) 3 : ja (ˆθ θ 0 ) 4 : kertoimia o merkitty R :llä ja R 2 :lla. Sijoittamalla y = x θ 0 saadaa (x θ 0 ) 2 f(x; θ 0 ) 2 dx = y 2 f(y; 0) 2 dy = 2π y 2 e y2 dy = 4 π. 35

Edellee, Schwarzi epäyhtälöstä ja sijoituksilla y = x θ 0, z = x θ saadaa R (x; θ 0, θ )dx R (x; θ 0, θ ) dx = (x θ 0 ) 2 f(x; θ 0 ) 2 dx [(x θ ) 2 ] 2 f(x; θ ) 2 dx y 2 f(y; 0) 2 dy [z 2 ] 2 f(z; 0) 2 dz C <. Lisäksi sijoituksella y = x θ saadaa Site R 2 (x; θ )dx = 4 [y 2 ] 2 f(y; 0) 2 dy C 2 <. (2.9) missä MISE[ ˆf ] = E θ0 E θ0 [f(x; ˆθ ) f(x; θ 0 )] 2 dx = E θ0 [f(x; ˆθ ) f(x; θ 0 )] 2 dx = 4 π E θ 0 (ˆθ θ 0 ) 2 + E θ0 +E θ0 E θ0 R 2 (x; θ )dx(ˆθ θ 0 ) 4, R (x; θ 0, θ )dx(ˆθ θ 0 ) 3 R (x; θ 0, θ )dx(ˆθ θ 0 ) 3 R (x; θ 0, θ ) dx ˆθ θ 0 3 C E θ0 ˆθ θ 0 3 ja (2.9): perusteella E θ0 R 2 (x; θ )dx(ˆθ θ 0 ) 4 = C 2 E θ0 (ˆθ θ 0 ) 4. Nyt ˆθ = (/) X i N(θ 0, /), jote E θ0 (ˆθ θ 0 ) 2 =, E θ0 ˆθ θ 0 3 = E θ0 (ˆθ θ 0 ) 4 = 3 2, 4 2π 3/2, 36

missä kaksi jälkimmäistä yhtälöä todetaa helpoilla laskuilla. Site saamme lopulta, että MISE[ ˆf ] 4 π. 2.4.2 Regressiofuktio Olkoot X ja Y satuaismuuttujia. Haluamme estimoida Y : regressiofuktiota m X: suhtee eli fuktiota m(x) = E(Y X = x) = yf Y X (y x)dy (vrt. HT). Voimme mallittaa X: ja Y : välistä riippuvuutta regressiofuktio avulla esimerkiksi olettamalla että Y = m(x) + ε, (2.0) missä ε N(0, σ 2 ) o riippumato X:stä. Oletetaa sitte, että meillä o käytössä i.i.d. otos (X, Y ),..., (X, Y ) pari (X, Y ) yhteisjakaumasta. Parametrie regressiofuktio estimoiti tapahtuu tällöi seuraavasti. (i) Valitaa parametrie fuktioperhe F = {m( ; θ) θ Θ}, missä Θ R d. (ii) Oletetaa, että m = m( ; θ 0 ) eräällä θ 0 Θ. (iii) Estimoidaa θ 0 jollai sopivalla estimaattorilla ˆθ = t ((X, Y ),..., (X, Y )). (iv) Otetaa m: estimaattoriksi ˆm = m( ; ˆθ ). Esimerkki 2.2 Eräitä mahdollisia fuktioperheitä ovat esimerkiksi m(x; θ) = ax + b, x R, missä θ = (a, b) R 2, m(x; θ) = ax b, x > 0, missä θ = (a, b) R 2, m(x; θ) = a cos bx + c si dx, x R, missä θ = (a, b, c, d) R 4. 37

y (x i, Y i ) x x = x i x = Kuva 2.2: Lieaarie regressiotehtävä välillä [, ]. Huomautus 2.3 Joskus X ei ole stokastie, jolloi estimoiti perustuu otoksee (x, Y ),..., (x, Y ), missä x,..., x R ovat kiiteitä. Seuraava esimerkki o tällaisesta tilateesta. Esimerkki 2.4 (Lieaarie regressio) Tarkastellaa fuktioperhettä m(x; θ) = ax + b, x [, ], θ = (a, b) R 2. Olkoot x i = + 2(i )/( ), i =,...,, väli [, ] tasavälie jako ja (x, Y ),..., (x, Y ) i.i.d. otos. Oletamme, että regressiofuktio o suora m( ; θ 0 ), θ 0 = (a 0, b 0 ), ja pyrimme estimoimaa parametrit a 0 ja b 0 mallissa Y i = a 0 x i + b 0 + ε i, i =,...,, missä satuaismuuttujat ε i ovat riippumattomat, ε i N(0, σ 2 ), i =,...,, ja σ > 0 oletetaa tuetuksi (ks. kuva 2.2). Nyt Y,..., Y ovat riippumattomia ja Y i N(a 0 x i + b 0, σ 2 ), i =,...,. 38

Käytetää suurimma uskottavuude estimoitia ja maksimoidaa uskottavuus Pitää siis miimoida L(a, b) = L(a, b; Y,..., Y ) = e 2 ( Y i ax i b ) σ 2 2πσ λ(a, b) = = 2πσ e 2σ 2 (Y i ax i b) 2. (Y i ax i b) 2, (a, b) R 2. Toisi saoe, o miimoitava eliölliste virheide summa, eli ratkaistava pieimmä eliösumma tehtävä. Nyt x i = 0, jote λ a = 2 λ b = 2 (Y i ax i b)( x i ) = 2{ (Y i ax i b)( ) = 2{ x i Y i + a Y i + b}. Asettamalla λ/ a = 0 ja λ/ b = 0 saadaa ratkaisu (â, ˆb ), â = x i Y i x 2 i, ˆb = O helppo ähdä, että ˆθ = (â, ˆb ) o todella fuktio λ miimikohta ja ˆθ o site suurimma uskottavuude estimaattori. Käyttäe hyväksi sitä, että E θ0 Y i = a 0 x i +b 0 ja x i = 0, ähdää helposti, että E θ0 â = a 0 E θ0ˆb = b 0, Itseasiassa â N(a 0, σ 2 / Y i. Var θ0 (â ) = σ 2 / x 2 i Var θ0 (ˆb ) = σ 2 /. x 2 i ), ˆb N(b 0, σ 2 /), kute helposti ähdää. Edellee, pieellä laskulla havaitaa, että x 2 i = + 2(i ) 2 39 x 2 i }, = 4 3 ( ) + 2 + 2 3( ),

jote σ 2 x 2 i = 4 3 σ 2 ( ) + 2 + 2 3( ) Neliöllie virhe pisteessä x [, ] o yt MSE[ ˆm (x)] = E θ0 [m(x; ˆθ ) m(x; θ 0 )] 2 = E θ0 [â x + ˆb (a 0 x + b 0 )] 2 = E θ0 [(â a 0 )x + (ˆb b 0 )] 2 = 3σ2 4 + o( ). = x 2 E θ0 (â a 0 ) 2 + 2xE θ0 [(â a 0 )(ˆb b 0 )] + E θ0 (ˆb b 0 ) 2 = x 2 Var θ0 (â ) + 2xCov θ0 (â, ˆb ) + Var θ0 (ˆb ). Helposti ähdää (HT), että Cov θ0 (â, ˆb ) = 0. Site MSE[ ˆm ] = x 2 3σ 2 4 + o( ) + σ2 σ2 ( + 3 4 x2 ). Estimoitivirhe o siis tässä parametrisessa meetelmässä jällee luokkaa /. 2.5 Kohti parametritota fuktio estimoitia Tarkastellaa joukossa D R määriteltyjä fuktioita f : D R. esimerkiksi D = R tai D = [0, ]. Olkoo Tyypillisesti L 2 (D) = {f [f(x)] 2 dx < }, D missä D tarkoittaa Lebesgue itegraalia. Olkoo (ϕ k) k N ortoormaali kata fuktioavaruudessa L 2 (D). Siis ϕ k L 2 (D), k N, D ϕ k (x)ϕ l (x)dx =, k = l, 0, k l, ja jokaisella f L 2 (D) o yksikäsitteie esitys muodossa f = k= a k ϕ k, a k R, k N. Esimerkki 2.5 Olkoo D = [0, ]. Tällöi voidaa osoittaa, että fuktiot 40

ϕ k (x) =, k =, 2 cos(2πlx), k = 2l, 2 si(2πlx), k = 2l + x R, l N, muodostavat ortoormaali kaa avaruudessa L 2 ([0, ]). Huomautus 2.6 Jos melkei kaikkialla (Lebesgue mita mielessä) yhtyvät fuktiot samaistetaa, o avaruus L 2 (D) itseasiassa s. Hilberti avaruus. Tämä tarkoittaa sitä, että L 2 (D) o vektoriavaruus, jossa o määritelty sisätulo ja tämä sisätulo määräämä metrie avaruus o täydellie. Sisätuloa o < f, g >= D fg ja jos (ϕ k ) k N o ortoormaali kata ja f L 2 (D) o esitetty muodossa f = k= a k ϕ k, keroimet a k saadaa laskettua kaavasta a k =< ϕ k, f >= D ϕ k (x)f(x)dx, k N. Edellee, sarja suppeemie kehitelmässä f = k= a k ϕ k siis itse asiassa tarkoittaa, että lim D k= a k ϕ k (x) f(x) 2 dx = 0. Olkoo sitte m N kiiteä, Θ = R m, ja θ = (a,..., a m ) Θ. Merkitää f(x; θ) = m k= a k ϕ k (x), x D, ja määritellää parametrie fuktioperhe F = {f( ; θ) θ Θ} L 2 (D). Olkoo f L 2 (D) joku satuaismuuttuja tiheysfuktio ja oletetaa, että f F, eli f = f( ; θ 0 ) eräällä θ 0 = (a 0,..., a m0 ) Θ, f = m k= Olkoo X,..., X f i.i.d. otos. Koska a k0 ϕ k. a k0 = D ϕ k (x)f(x)dx = E θ0 ϕ k (X ), 4

saadaa a k0 :lle luoteva estimaattori â k = ϕ k (X i ) ja tästä f:lle estimaattori ˆf = f( ; ˆθ ), ˆθ = (â,..., â m ), ˆf = Helposti ähdää, että â k o harhato: m k= â k ϕ k. (2.) E θ0 â k = E θ 0 ϕ k (X ) = D ϕ k (x)f(x)dx = a k0. Site myös ˆf o harhato, E θ0 ˆf = m k= (E θ0 â k )ϕ k = m k= a k0 ϕ k = f. Mitataa estimaattori ˆf virhettä itegroidulla eliöllisellä virheellä, Saamme, ( ˆf f) 2 = D MISE[ ˆf ] = E θ0 D( ˆf f) 2. = = = D m D k,l= m k,l= m k= k=(â k a k0 )ϕ k m (â k a k0 )(â l a l0 )ϕ k ϕ l (â k a k0 )(â l a l0 ) (â k a k0 ) 2, missä viimeisessä yhtäsuuruudessa käytettii kaa (ϕ k ) k N Site Edellee, MISE[ ˆf ] = E θ0 m k= (â k a k0 ) 2 = Var θ0 (â k ) = Var θ0 m k= 2 D E θ0 (â k a k0 ) 2 = ϕ k ϕ l ortoormaalisuutta. m k= ϕ k (X i ) = Var θ 0 [ϕ k (X )]. 42 Var θ0 (â k ).

Tästä seuraa, että MISE[ ˆf ] = c m, c m = missä c m <, kuha vaa kaikilla k pätee m k= Var θ0 [ϕ k (X )], E θ0 [ϕ k (X ) 2 ] = [ϕ k (x)] 2 f(x)dx <. D Estimaattori ˆf virhe o siis tavaomaise parametrise estimaattori luokkaa /. Olkoo sitte Θ = {(a k ) k N k= a 2 k < } ääretöulotteie parametriavaruus. Voidaa osoittaa, että kaikilla θ = (a k ) k N Θ sarja f( ; θ) = k= a k ϕ k suppeee avaruude L 2 (D) mielessä (vrt. Huomautus 2.6). Site F = {f( ; θ) θ Θ} L 2 (D). Toisaalta, kaikilla f L 2 (D) o olemassa θ = (a k ) k N Θ s.e. f = k= a k ϕ k. Site (L 2 -mielessä), F = L 2 (D). Olkoo yt f L 2 (D) tiheysfuktio, f = f( ; θ 0 ), θ 0 = (a k0 ) k N Θ. Fuktio f estimoiti otokse X,..., X f perusteella o yt parametritota, koska se ei perustu äärellisulotteise parametrivektori estimoitii. Oleellisesti ottae yt θ 0 = f ja avaruus Θ, josta θ 0 :aa haetaa o ääretöulotteie. Käytämme aikaisempaa estimaattoria (2.) ja kehitelmä f = k= a k0 ϕ k perusteella saamme MISE[ ˆf ] = E θ0 ( ˆf f) 2 D = E θ0 D = E θ0 = c m + m k= m k= (â k a k0 )ϕ k (â k a k0 ) 2 + a 2 k0, k=m+ k=m+ a 2 k0 k=m+ a k0 ϕ k 2 missä c m = m k= Var θ0 [ϕ k (X )]. Jos siis halutaa, että lim MISE[ ˆf ] = 0, tulisi ilmeisesti (i) m, ku (jotta k=m+ a 2 k 0), 43

(ii) c m / 0. Vaikka kohda (i) mukaa m: täytyy kasvaa rajatta otoskoo mukaa, kohta (ii) kuiteki edellyttää, että kasvu ei saa olla liia opeaa. Ogelmaa o äi olle valita joo (m ) N site, että m, c m 0, ku. Lopullie estimattori o sitte ˆf = m k= â k ϕ k. Osoittautuu, että meetelle yllä esitetyllä tavalla päästää tyypillisesti virheesee MISE[ ˆf ] c, δ missä 0 < δ < ja c > 0 o joki vakio. Virhe o siis kovergessiopeudeltaa huoompi kui parametrise estimoii tapauksessa. O kuiteki huomattava, että parametrise meetelmä tehokkuus (vauhti /) perustuu siihe oletuksee, että f F, eli että f = f( ; θ 0 ) jollai θ 0 Θ. Vai piee määrä eri fuktiomuotoja sisältävä perhee F tapauksessa (matalaulotteie Θ) tämä voi olla erittäi rajoittava oletus. Kahde tilastotietee suure ime, R. Fisheri ja K. Pearsoi oppiriita 900-luvu alkupuolella liittyi juuri tähä seikkaa (ks. esimerkiksi [0]). Fisher kiersi ogelma esittämällä, että sopiva parametrise perhee F valitsemie o soveltaja asia ( specificatio ), parametrivektori θ 0 estimoimie o tilastotieteilijä asia ( estimatio ). Resepti ei kuitekaa välttämättä toimi käytäössä. Se toimii erityise huoosti moissa ykyaja data-aalyysitehtävissä, jossa tarkasteltavat jakaumat voivat olla raketeeltaa hyvi moimutkaisia. Myös erittäi yksikertaisia varoittavia esimerkkejä o helppo kostruoida. 44

y = f(x; θ) y y = f(x) x Kuva 2.3: Estimoitava kaksihuippuie tiheysfuktio (yhteäie viiva) ja käytettävissä oleva fuktioperhee tyypillie jäse (katkoviiva). Esimerkki 2.7 Olkoo Θ = R ]0, [, θ = (µ, σ 2 ), f(x, θ) = 2πσ e 2( x µ σ ) 2, x R. Olkoo estimoitava tiheys f = (/2)f( ; ( 2, )) + (/2)f( ; (2, )) (ks. kuva 2.3). Nyt selvästi E R [f( ; ˆθ ) f] 2 0 riippumatta estimaattorista ˆθ : Ω Θ! 45

Luku 3 Parametrito tiheysfuktio estimoiti 3. Pakollie harha Olkoo F {f f : R [0, [ tiheysfuktio} joki tiheysfuktioide joukko. Oletetaa, että satuaismuuttuja jakaumalla o tiheysfuktio f F ja että X,..., X f o i.i.d. otos. Saamme f:lle estimaattori valitsemalla sopiva (Boreli) fuktio t : R + R ja asettamalla ˆf (x) = t (x, X,..., X ), x R. Aalogisesti parametri estimoii kassa saomme, että ˆf o harhato, jos E f ˆf (x) = f(x), x R, kaikilla f F. Tässä merkitä E f tarkoittaa, että odotusarvo lasketaa satuaismuuttujie X,..., X yhteisjakauma suhtee, ku X i f kaikilla i. Harhattoma estimaattori saattaa löytää, ku perhe F o riittävä piei. Esimerkki 3. Jos f( ; (µ, σ 2 )) N(µ, σ 2 ) ja F o ormaalijakauma tiheysfuktioide perhe {f( ; (µ, σ 2 )) (µ, σ 2 ) R ]0, [}, ii harhato estimaattori löytyy (ks. esim. [], Exercise 7.4). Fuktio estimaattori harhattomuus o luoteva kysymys itse asiassa vai jatkuville fuktiolle. Nimittäi, jos f = g lukuu ottamatta yhtä pistettä (tai itseasiassa 46

mitä tahasa ollamittaista joukkoa), o mille tahasa estimaattorille t (, X,..., X ) voimassa E f t (x, X,..., X ) = E g t (x, X,..., X ) kaikilla x R. Jos siis t (, X,..., X ) o harhato, tulee olla f(x) = g(x) kaikilla x R, mikä o ristiriita. Jatkuvat fuktiot f ja g eivät voi poiketa toisistaa vai yhdessä pisteessä (tai ollamittaisessa joukossa). Nyt kuiteki M. Roseblatt osoitti v. 956, että perhee F = {f f : R [0, [ o jatkuva tiheysfuktio} (3.) tapauksessa ei löydykää yhtää harhatota estimaattoria! Todistamme tämä seuraavassa lauseessa. Roseblatti tulos oli aikoiaa paha pettymys. Parametrisessa estimoiissa oltii totuttu hakemaa optimaalisia harhattomia estimaattoreita ja yt ilmei, että parametrito estimoiti oki harhaista. Toisaalta ykyää jopa parametrisessa estimoiissa toisiaa käytetää harhaisia estimaattoreita (esim. s. harjaeregressio) ja harha määrää käytetää optimoitavaa säätöparametria. Parametrittomassa estimoiissa harha o hita, joka maksetaa joustavuudesta, eli isosta F:stä. Lause 3.2 Olkoo F kaikkie jatkuvie tiheysfuktiode perhe (3.). Jos x R ja N, ii kaikilla (Boreli) fuktioilla t : R + R, o olemassa f F s.e., jos X,..., X f o i.i.d. otos, ii E f t (x, X,..., X ) f(x). Todistus: Tehdää vastaoletus: o olemassa x R, N ja fuktio t s.e. E f t (x, X,..., X ) = f(x) kaikilla f F. (3.2) Oletetaa esi, että 2. Valitaa kiiteä f F. Silloi kaikilla g F, λ [0, ], o [λf + ( λ)g] = λ f + ( λ) R R jote λf + ( λ)g F. Site (3.2): ojalla R g = λ + ( λ) =, λf(x) + ( λ)g(x) = E λf+( λ)g t (x, X,..., X ) = = r=0 t (x, x,..., x ) λ r ( λ) r b r (f, g), 47 [λf(x i ) + ( λ)g(x i )]dx dx (3.3)

missä b r (f, g) = i < <i r t (x, x,..., x ) r k= r f(x ik ) g(x jl )dx dx, l= i < < i r, j < < j r, ja Merkitää {i,..., i r } {j,..., j r } = {,..., }. t,{i,...,i r}(x, x j,..., x j r ) = t (x, x,..., x ) r k= f(x ik )dx i dx ir. (Moiulotteisia itegraaleja koskeva Fubii lausee mukaa fuktio t,{i,...,i r} o määritelty aiaki m.k. (so. melkei kaikkialla ) ja se voidaa tarvittaessa laajetaa koko R r+ : (Boreli) fuktioksi.) Ku r = 0, ylläoleva kaava tulkitaa site, r että summa i < <i r ja tulo k= f(x ik ) puuttuvat. Vaihtamalla itegroimisjärjestystä (sallittu samaise Fubii lausee ojalla) saadaa b r (f, g) = = i < <i r i < <i r E g [t,{i,...,i r}(x, X,..., X r )]. r t,{i,...,i r}(x, x j,..., x j r ) g(x jl )dx j dx j r l= Kaava (3.3) oikea puoli o muotoa i=0 a i λ i, missä λ : kerroi o a = r=0 ( ) r b r (f, g). Toisaalta (3.3): vase puoli o esimmäistä astetta λ: suhtee. Koska oletimme, että 2, tulee siis olla a = 0, mikä voidaa kirjoittaa muotoo ( ) b 0 (f, g) + r= ( ) r b r (f, g) = 0 eli b 0 (f, g) = r= ( ) r+ b r (f, g). 48

Mutta käyttäe b r (f, g): ja t,{i,...,i r}(x, x j,..., x j r ): määritelmiä voidaa tämä yhtälö kirjoittaa myös muodossa E g [t (x, X,..., X )] = r= = E g ( ) r+ r= i < <i r E g [t,{i,...,i r}(x, X,..., X r )] ( ) r+ E g [t (x, X,..., X )], i < <i r t,{i,...,i r}(x, X,..., X r ) missä viimeisessä vaiheessa huomattii, että satuaismuuttuja, josta arvoarvo E g lasketaa ei riipu X :stä ja o siksi eräs otoksee X,..., X perustuva estimaattori. Vastaoletukse ojalla yhtälö vase puoli o g(x), jote olemme löytäeet kokoisee otoksee perustuva estimaattori, jolle pätee E g [t (x, X,..., X ) = g(x) kaikilla g F. Suorittamalla iduktio alaspäi löydämme lopulta fuktio t s.e. mikä voidaa kirjoittaa myös muodossa E g t (x, X ) = g(x) kaikilla g F, t (x, u)g(u)du = g(x) kaikilla g F. (3.4) Tarkastelemalla sopivia tiheysfuktioita g osoitamme, että tämä johtaa ristiriitaa. Olkoo g k N(x, /k 2 ), k N, eli g k (u) = Selvästi g k F, jote yhtälö (3.4) ojalla eli k t (x, u) e k2 2 (u x)2 du = 2π k 2π e k2 2 (u x)2, u R. k 2π, kaikilla k N, t (x, u)e k2 2 (u x)2 du =, kaikilla k N. (3.5) Olkoo h k yhtälö (3.5) vasemma puole itegroitava fuktio, 49

u x Kuva 3.: Fuktio u e k2 2 (u x)2 fuktio likimai 0 ku u x. kuvaajia eri k: arvoilla. Ku k o suuri, o Silloi pätee (vrt. kuva 3.), h k (u) = t (x, u)e k2 2 (u x)2, u R, k N. lim h k(u) = k 0, u x t (x, x), u = x. Lisäksi h k (u) h (u) kaikilla u R ja h (u) du < (koska odotusarvo E g [t (x, X )] o olemassa). Lebesgue domioidu kovergessi lausee ojalla yhtälöstä (3.5) seuraa yt = lim k h k (u)du = lim h k(u)du = 0, k jote vastaoletuksesta o päädytty ristiriitaa. 3.2 Ydiestimoiti Esitämme aluksi heuristise johdo ydiestimaattorille. Olkoo X satuaismuuttuja, joka jakaumalla o tiheysfuktio f. Olkoo F vastaava kertymäfuktio, F (x) = P(X x) = x f(t)dt. 50

ˆF (x) x X i Kuva 3.2: Empiirie kertymäfuktio Siis F (x) = f(x) (kaikilla x, jos f o jatkuva). Jos X,..., X f o i.i.d. otos, saadaa F :lle luoteva estimaattori määrittelemällä ˆF (x) = #{i X i x, i =,..., } = ],x] (X i ), missä käytämme äärellise jouko S alkioide lukumäärälle merkitää #S. Estimaattori ˆF o s. empiirie kertymäfuktio (kuva 3.2). Olkoo h > 0 piei positiivie luku. Silloi f(x) = F (x) 2 F (x + h) F (x) h + = [F (x + h) F (x h)] 2h 2h [ ˆF (x + h) ˆF (x h)] F (x) F (x h) h = 2h [#{i X i x + h} #{i X i x h}] = 2h #{i x h < X i x + h} ˆf (x; h). Näi määritelty estimaattori ˆf ( ; h) o tiheysfuktio f aiivi estimaattori. Määritellää sitte K = (/2) [,[, eli 5

ˆf (x; h) h X X 2 X 3 x 2h 2h 2h Kuva 3.3: Tiheysfuktio aiivi estimaattori. K(x) = /2, x <, 0, muulloi. Silloi K(x)dx = (3.6) ja ˆf (x; h) = 2h # = 2h # = 2h = h K i < X i x h i x X i h [,[ x X i h x X i h <. (3.7) Kaavaa (3.7) voi lukea site, että ˆf (x; h) saadaa asettamalla jokaisee otospisteesee X i positiivisella luvulla h ja otoskoolla skaalattu K, eli (/(h))k((x X i )/h), ja summaamalla sitte yli ostospisteide (kuva 3.3). Estimaattori arvo ˆf (x; h) o sitä suurempi mitä tiheämmässä ostospisteitä X i o x: ympäristössä. Ydiestimaattori saadaa yt yksikertaisesti korvaamalla K = (/2) [,[ kaavassa (3.7) yleisemmällä fuktiolla K, joka kuiteki toteuttaa ehdo (3.6). 52

0.35 0.3 0.25 0.2 0.5 0. 0.05 0 5 4 3 2 0 2 3 4 5 Kuva 3.4: Tiheysfuktio ydiestimoiti Gaussi yditä käyttäe. Otospisteide (5 kappaletta) paikkoja vaaka-akselilla o merkitty pieillä ympyröillä. Estimaatti saadaa ytimie summaa ja o piirretty paksummalla viivalla. Määritelmä 3.3 Olkoo f : R [0, [ tiheysfuktio ja X,..., X f i.i.d. otos. Olkoo K : R R fuktio, jolle K(x)dx = ja h > 0. Silloi fuktio f ydiestimaattori o ˆf (x; h) = ˆf (x, X,..., X ; h) = h K x X i. h Saomme, että K o ydi ja h silotusparametri. Kuvassa 3.4 o esimerkki ydiestimaatista, jossa ytimeä o stadardi ormaalijakauma N(0, ) tiheysfuktio, jota tässä yhteydessä tavallisesti kutsutaa Gaussi ytimeksi. Merkitää K h (x) = h K x, x R. h Silloi 53

K h (x) K h (x) K h (x) x x x h = h << h >> Kuva 3.5: Ytime skaalaamie silotusparametrilla h. ˆf (x; h) = K h (x X i ). Suorittamalla itegroiissa muuttuja vaihto y = (x X i )/h, dx = hdy, havaitaa, että K h (x X i )dx = h K x X i dx = K(y)dy =. h Tästä seuraa, että ˆf (x; h)dx =. Jos lisäksi K(x) 0 kaikilla x R, havaitaa, että ˆf ( ; h) o itseasiassa tiheysfuktio, ku otos X,..., X o kiiitetty. Silotusparametri h suuruude vaikutus skaalattuu ytimee K h o esitetty kuvassa 3.5. Kuvassa 3.6 puolestaa äytetää silotusparametri suuruude vaikutus koko estimaati ˆf ( ; h) muotoo. Nähdää, että h: pieetämie tuo esii yksittäiste otospisteide vaikutukse, jolloi estimaatista tulee hyvi rosoie ja se sisältää useita paikallisia ääriarvoja, joita todellisessa estimoitavassa tiheydessä ei välttämättä laikaa ole. Toisaalta, ku h valitaa suureksi, tulee estimaatista hyvi sileä ja siitä häviävät kaikki mahdollisesti kiiostavatki yksityiskohdat. Perusogelma ydiestimaati käytössä oki oikea suuruise silotusparametri valita. 54

0.4 0.35 0.3 0.25 0.2 0.5 0. 0.05 0 5 4 3 2 0 2 3 4 5 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 5 4 3 2 0 2 3 4 5 0.35 0.3 0.25 0.2 0.5 0. 0.05 0 5 4 3 2 0 2 3 4 5 Kuva 3.6: Silotusparametri h suuruude vaikutus tiheysfuktio ydiestimaattii (paksu viiva). Liia piei h (keskimmäie kuva) johtaa rosoisee estimaattii ja liia suuri h (ali kuva) puolestaa liia sileää estimaattii. Otospisteet (jakaumasta N(0, )) ovat kaikissa kuvissa samat ja e o merkitty pieillä ympyröillä vaaka-akselille. 55

3.3 Virhekriteerejä Olkoo ˆf tiheysfuktio f joki estimaattori (ei siis välttämättä ydiestimaattori). Estimaattori tekemää virhettä voidaa mitata joko yksittäisessä pisteessä tai globaalisti koko R:ssä. 3.3. Pisteittäie virhe Olkoo x R kiiteä. Tällöi voidaa määritellä esimerkiksi seuraavat luoetevat virhekriteerit: absoluuttie virhe keskimääräie absoluuttie virhe ˆf (x) f(x) E ˆf (x) f(x). Absoluuttie virhe o satuaismuuttuja ku taas keskimääräie absoluuttie virhe vai ei-egatiivie luku. Odotusarvo lasketaa tietysti otokse X,..., X f jakauma suhtee ja merkitsemme jatkossaki yksikertaisuude vuoksi odotusarvoa usei vai symbolilla E tarkemma merkiä E f sijaa ja samoi variassille Var tarkemma Var f sijaa. Keksimääräie absoluuttie virhe voidaa yleistää valitsemalla p > 0 ja ottamalla kriteeriksi E ˆf (x) f(x) p. (3.8) Erityise suosittu erikoistapaus o p = 2, jolla saadaa keskimääräie eliöllie virhe MSE[ ˆf (x)] = E[ ˆf (x) f(x)] 2. Tähä liittye määritellää edellee pisteessä x laskettu harha ja variassi Bias[ ˆf (x)] = E ˆf (x) f(x), Var[ ˆf (x)] = E[ ˆf (x) E ˆf (x)] 2. Silloi (vrt. harjoitustehtävä.2) MSE[ ˆf (x)] = Bias 2 [ ˆf (x)] + Var[ ˆf (x)]. 56

3.3.2 Globaali virhe Yksi mahdollie globaali virhekriteeri o tieteki sup x ˆf (x) f(x). Todellisuudessa suositumpi ja helpommi aalysoitava kriteeri saadaa itegroimalla. Olkoo p < ja määritellää (mitalliste) fuktioide g : R R avaruus L p = L p (R) = {g g(x) p dx < }. Huomautus 3.4 Voidaa osoittaa, että jos avaruudessa L p samaistetaa melkei kaikkialla yhtyvät fuktiot g, ii kaava g p = ( g(x) p dx) /p määrittelee ormi ja sytyvä ormiavaruus (L p, ) o täydellie, eli s. Baachi avaruus. Luoollie virhekriteeri saadaa yt itegroimalla (3.8), E ˆf (x) f(x) p dx = E ˆf (x) f(x) p = E ˆf f p p. Esimmäisessä yhtälössä odotusarvo ja itegroii järjestykse saa vaihtaa Fubii lausee ojalla (odotusarvo voidaa kirjoittaa itegraalia käyttäe otokse X,..., X tiheysfuktiota). O huomattava, että jos esimerkiksi ˆf o ydiestimaattori ja f, K L p, ii silloi aia E ˆf f p p <. Tavallisimmi valitaa p = tai p = 2. Tapauksessa p = 2 saadaa kriteeriksi keskimääräie itegroitu eliöllie virhe, MISE[ ˆf ] = E [ ˆf (x) f(x)] 2 dx = Bias 2 [ ˆf (x)]dx + Var[ ˆf (x)]dx. (3.9) Tapaukse p = käsittely o matemaattisesti melko hakalaa eikä siksi ole ollut kovi suosittua ala kirjallisuudessa (ks. kuiteki [] ja [2]). Myös muita fuktioide välise etäisyyde mittoja voitaisii käyttää. Yksi mahdollisuus o Kullbacki-Leibleri luku tai etäisyys (silloi ku se o määritelty), K(f, ˆf ) = f(x) log f(x) ˆf (x) dx. Voidaa osoittaa, että K(f, ˆf ) 0 aia. Tämä virhekriteeri itse asiassa liittyy läheisesti suurimma uskottavuude estimoitii mikä ähdää seuraavasti. Kullbacki- Leibleri etäisyys K(f, g) o piei ku g o sellaie, että K(f, g) o suuri, eli 57