Luku 7. Parametrien estimointi. 7.1 Parametriset jakaumat. Lasse Leskelä Aalto-yliopisto 29. marraskuuta 2017

Samankaltaiset tiedostot
1. Valitaan tilanteeseen sopiva stokastinen malli. 2. Sovitetaan malli havaittuun dataan (estimoidaan mallin parametrit).

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset luottamusvälit

((12345A, 5, 1, 5), (98759K, 1, 5, 2), (33312K, 4, 4, 3), (23453B, 4, 4, 3), (21453U, 3, 3, 3)),

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

S Laskennallinen systeemibiologia

Osa 2: Otokset, otosjakaumat ja estimointi

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Johda jakauman momenttiemäfunktio ja sen avulla jakauman odotusarvo ja varianssi.

6.1 Riippumattomat satunnaismuuttujat

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

EX1 EX 2 EX =

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

8. laskuharjoituskierros, vko 11, ratkaisut

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

Satunnaismuuttujien muunnokset ja niiden jakaumat. Satunnaismuuttujien muunnokset ja niiden jakaumat

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 12345A K K B U 3 3 3

Yhden selittäjän lineaarinen regressiomalli

4. Todennäköisyyslaskennan kertausta

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimaattori, Estimointi, Mediaani, Moodi, Odotusarvo, Parametri, Posteriorijakauma, Tunnusluku

LIITTEET Liite A Stirlingin kaavan tarkkuudesta...2. Liite B Lagrangen kertoimet...3

Mat Sovellettu todennäköisyyslaskenta B 5. harjoitukset / Ratkaisut Aiheet: Jatkuvia jakaumia Avainsanat: Jatkuvia jakaumia

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 2

Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Konvergenssikäsitteet ja raja arvolauseet

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimaattori, Estimointi, Mediaani, Moodi, Odotusarvo, Parametri, Posteriorijakauma, Tunnusluku

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset menetelmät

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Harjoitukset 1 : Tilastokertaus

Johdatus todennäköisyyslaskentaan Konvergenssikäsitteet ja raja-arvolauseet. TKK (c) Ilkka Mellin (2004) 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Satunnaismuuttujien summa ja keskiarvo

Satunnaismuuttujien summa ja keskiarvo

Bayesläiset tilastolliset mallit

RATKAISUT x 2 3 = x 2 + 2x + 1, eli 2x 2 2x 4 = 0, joka on yhtäpitävä yhtälön x 2 x 2 = 0. Toisen asteen yhtälön ratkaisukaavalla saadaan

Sovellettu todennäköisyyslaskenta B

Algebra I Matematiikan ja tilastotieteen laitos Ratkaisuehdotuksia harjoituksiin 5 (6 sivua)

Todennäköisyyden ominaisuuksia

Keskihajonta ja korrelaatio

Mat Sovellettu todennäköisyyslasku A

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

2. Uskottavuus ja informaatio

8.3. Yleinen lineaarinen malli ja yleistetty pienimmän neliösumman menetelmä

Satunnaismuuttujan odotusarvo ja laskusäännöt

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Otantajakauman käyttö päättelyssä

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

T Datasta tietoon, syksy 2005 Laskuharjoitus 8.12., ratkaisuja Jouni Seppänen

Mat Sovellettu todennäköisyyslasku A. Diskreetit jakaumat Jatkuvat jakaumat. Avainsanat:

Luento 6 Luotettavuus Koherentit järjestelmät

11.1 Nollahypoteesi, vastahypoteesi ja p-arvo

Luento 7 Luotettavuus Koherentit järjestelmät

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

Yhden selittäjän lineaarinen regressiomalli: Lisätiedot. Yhden selittäjän lineaarinen regressiomalli

Satunnaismuuttujan odotusarvo ja laskusäännöt

Johdatus regressioanalyysiin. Johdatus regressioanalyysiin. Johdatus regressioanalyysiin: Mitä opimme? 2/3

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

Stokastiikan perusteet Harjoitukset 1 (Todennäköisyysavaruus, -mitta ja -funktio)

2-suuntainen vaihtoehtoinen hypoteesi

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

9. laskuharjoituskierros, vko 12-13, ratkaisut

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

Parametrien oppiminen

n = 100 x = %:n luottamusväli µ:lle Vastaus:

= E(Y 2 ) 1 n. = var(y 2 ) = E(Y 4 ) (E(Y 2 )) 2. Materiaalin esimerkin b) nojalla log-uskottavuusfunktio on l(θ; y) = n(y θ)2

2-suuntainen vaihtoehtoinen hypoteesi

KURSSIN TILASTOMATEMATIIKKA KAAVOJA

4 KORKEAMMAN KERTALUVUN LINEAARISET DIFFERENTIAALIYHTÄLÖT. Kertaluvun n lineaarinen differentiaaliyhtälö ns. standardimuodossa on

Tilastolliset menetelmät: Tilastolliset testit

Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin yliopisto Harjoitus 3, ratkaisuehdotuksia

Kurssin alkuosan sisältö. Tilastotieteen jatkokurssi. Kurssin loppuosan sisältö. 1. Todennäköisyyslaskenta. Heikki Hyhkö. 1. Todennäköisyyslaskenta

MATP153 Approbatur 1B Harjoitus 1, ratkaisut Maanantai

Liite B. Suomi englanti-sanasto

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

Teoria. Tilastotietojen keruu

Transkriptio:

Luku 7 Parametrie estimoiti Lasse Leskelä Aalto-yliopisto 29. marraskuuta 2017 7.1 Parametriset jakaumat Tarkastellaa tutematota datalähdettä, joka tuottaa toisistaa stokastisesti riippumattomia ja tiheysfuktio f(x) mukaa jakautueita satuaislukuja. Yleesä tiheysfuktiota ei tueta, mutta toisiaa tiheysfuktio raketeellie muoto voidaa kuiteki päätellä kotekstista. Esimerkiksi biaarise datalähtee tiheysfuktio tuetaa yhtä parametria vaille, kute allaoleva esimerkki vahvistaa. Esimerkki 7.1 (Biaarie datalähde). Biaariselle {0, 1}-arvoisia satuaislukuja tuottavalle datalähteelle pätee f(x) = 0 aia ku x 0 tai x 1. Koska diskreeti jakauma tiheysfuktio arvot summautuvat ykköseksi, voidaa tästä päätellä että f(0) = 1 f(1). Tiheysfuktio voidaa siis kirjoittaa muodossa 1 p, x = 0, f(x) = p, x = 1, 0, muute, missä p = f(1) o arvo 1 todeäköisyys. Ylläoleva tiheysfuktio määrittämä jakauma o Beroulli-jakauma parametria p. Yllä tehdy päättely mukaa siis jokaie {0, 1}-arvoie datalähde oudattaa Beroulli-jakaumaa. Taulukkoo 7.1 o listattu tärkeimpiä yhde muuttuja jakaumia, joissa parametrie lukumäärä o yksi tai kaksi. Ku datalähtee tiheysfuktio tuetaa tiettyjä parametreja vaille ja datalähteestä o havaittu arvot x 1, x 2,..., x, jää tehtäväksi määrittää tutemattomie parametrie arvot. Ku havaittuja arvoja o rajallie määrä, o parametrie tarkka määrittämie mahdotota. Tällöi paras, mitä voidaa tehdä, o muodostaa tutemattomille paramet- 87

Malli Parametrit Arvojoukko Tiheysfuktio Beroullijakauma p {0, 1} f p (x) = (1 p) 1 x p x Biomijakauma, p {0, 1,..., } f,p (x) = ( ) x (1 p) x p x Ekspoettijakauma λ (0, ) f λ (x) = λe λx Jatkuva tasajakauma a, b [a, b] f a,b (x) = 1 b a Normaalijakauma µ, σ (, ) f µ,σ (x) = 1 (x µ)2 e 2σ 2 2πσ 2 Taulukko 7.1: Yhde muuttuja parametrisia jakaumia. riarvoille valistuut arvaus. Systemaattisia meetelmiä valistueide arvauste muodostamiseksi kutsutaa parametrie estimoiiksi. 7.2 Suurimma uskottavuude estimoiti Tarkastellaa datalähdettä, josta o havaittu lukuarvot x 1,..., x, ja joka jakauma tiheysfuktio oletetaa parametria θ vaille tuetuksi. Ku halutaa muodostaa valistuut arvaus tutemattoma parametri θ arvolle, voidaa vertailla mite tiheysfuktio f(x 1,..., x θ) käyttäytyy parametri eri arvoilla. Tässä kohtaa o muodostettu uusi äkökulma tiheysfuktio olemuksee. Nimittäi lukuarvot x 1,..., x ovat yt tuettuja ja parametri θ o tutemato. Näi tulkittua tiheysfuktiota kutsutaa parametri θ uskottavuusfuktioksi (egl. likelihood fuctio) ja sitä merkitää L(θ) = f(x 1,..., x θ). Mitä suurempi ylläoleva uskottavuusfuktio arvo o, sitä eemmä o aihetta uskoa, että havaitut lukuarvot x 1,..., x ovat peräisi parametri θ mukaisesta datalähteestä. Silloi ku datalähtee tuottamat satuaismuuttujat voidaa olettaa toisistaa riippumattomiksi, voidaa uskottavuusfuktio kirjoittaa muodossa L(θ) = f(x 1 θ) f(x θ). (7.1) Luoollie tapa tutemattoma parametri estimoimiseksi o etsiä parametri, jolle uskottavuusfuktio arvo o suuri mahdollie. Näi saatu luku θ o parametri θ suurimma uskottavuude estimaatti havaitu datajouko (x 1,..., x ) suhtee. Esimerkki 7.2 (Hirmumyrskyt). Eräälle trooppiselle saarelle o 2000-luvulla iskeyt hirmumyrsky vuosia 2000, 2009, 2011 ja 2017. Saarelle saapuvie hirmumyrskyje väliaikoja (vuosia) mallietaa käyttämällä lukujouko {1, 2,... } geometrista jakaumaa tiheysfuktioa f(x θ) = (1 θ) x 1 θ. 88

Määritä parametri θ suurimma uskottavuude estimaatti ja eusta se avulla, millä todeäköisyydellä saarelle iskee seuraava hirmumyrsky viimeistää vuoa 2020. Parametri θ uskottavuusfuktio havaittuje väliaikoje x 1 = 9, x 2 = 2 ja x 3 = 6 suhtee o L(θ) = f(9 θ)f(2 θ)f(6 θ) = (1 θ) 9 1 θ (1 θ) 2 1 θ (1 θ) 6 1 θ = (1 θ) 14 θ 3. Koska L(θ) o derivoituva, löytyy uskottavuusfuktio maksimi derivaata ollakohdasta tai jommastakummasta väli [0, 1] päätepisteestä. Uskottavuusfuktio derivaatta o L (θ) = 14(1 θ) 13 ( 1)θ 3 + (1 θ) 14 3θ 2 = θ 2 (1 θ) 13 (3 17θ), ja derivaata ollakohdat ovat θ = 0, θ = 1 ja θ = 3. Näistä viimeie maksimoi uskottavuusfuktio arvo, jote suurimma uskottavuude estimaatti 17 o θ = 3. Ku seuraava hirmumyrsky saapumisaikaa merkitää satuaismuuttujalla X, o todeäköisyys että seuraava hirmumyrsky iskee viimeistää 17 vuoa 2020 P(X 3) = 3 f(x θ) = θ + (1 θ)θ + (1 θ) 2 θ. x=1 Sijoittamalla tähä θ = 3 saadaa eusteeksi P(X 3) 0.44. 17 Uskottavuusfuktio L(θ) maksimoiti o usei helpompaa logaritmise muuokse avulla. Parametri θ logaritmie uskottavuusfuktio määritellää kaavalla l(θ) = log L(θ), missä log tarkoittaa luoollista logaritmia. Koska logaritmi o aidosti kasvava fuktio, saavuttaa L(θ) maksimisa samoissa pisteissä, joissa l(θ) saavuttaa oma maksimisa. 7.3 Biaarimalli estimoiti Tarkastellaa datalähdettä, joka tuottaa toisistaa riippumattomia {0, 1}-arvoisia satuaislukuja. Esimerki 7.1 mukaa satuaisluvut oudattavat Beroullijakaumaa parametria p = f(1) ja tiheysfuktioa 1 p, x = 0, f(x p) = p, x = 1, 0, muute. 89

Seuraava tulos kertoo, mite suurimma uskottavuude estimaatti lasketaa biaarimallille. Suurimma uskottavuude estimoii äkökulmasta ei ole väliä, mite ollat ja ykköset ovat sijoittueet datajoukossa (x 1,..., x ), vaa riittää tietää ykköste suhteellie osuus. Fakta 7.3. Biaariselle {0, 1}-arvoiselle datalähteelle parametri p = f(1) suurimma uskottavuude estimaatti datajouko x = (x 1,..., x ) suhtee o ykköste osuus datajoukossa eli p = 1 x i. Todistus. Beroullijakauma tiheysfuktio voidaa kirjoittaa kompaktissa muodossa f(x p) = (1 p) 1 x p x, joka avulla biaarimalli uskottavuusfuktio havaitu datajouko (x 1,..., x ) suhtee saadaa muotoo L(p) = f(x 1 p) f(x p) = (1 p) 1 x i p x i. Tätä vastaava logaritmie uskottavuusfuktio voidaa sievetää muotoo l(p) = ((1 x i ) log(1 p) + x i log(p)) = (1 m(x)) log(1 p) + m(x) log(p), missä m(x) = 1 x i o ykköste suhteellie osuus havaitussa datajoukossa ja samalla kyseise datajouko keskiarvo. Derivoimalla l (p) = (1 m(x))(1 p) 1 ( 1) + m(x)p 1 ja ratkaisemalla yhtälö l (p) = 0 havaitaa että derivaata ollakohta o p = m(x). Derivoimalla toise kerra voidaa tarkistaa, että l (p) 0. Näi olle p = m(x) o suurimma uskottavuude estimaatti. Esimerkki 7.4 (Vialliset kompoetit). Tuotatolijalla valmistetaa kompoetteja meetelmällä, joka seurauksea yksittäie kompoetti o viallie todeäköisyydellä p, muista riippumattomasti. Ku tarkastettii 200 kompoeti erä, havaittii 22 viallista. Määritä suurimma uskottavuude estimaatti tutemattoma parametri p arvolle. Koska kompoetit ovat viallisia toisistaa riippumattomasti, vastaa datalähde biaarimallia, jossa 0= ehjä ja 1= viallie. Fakta 7.3 mukaa parametri p = f(1) suurimma uskottavuude estimaatti o ykköste osuus havaitussa datajoukossa eli p = 22 = 11%. Suurimma uskottavuude estimaatti 200 vialliste kompoettie osuudelle koko tuotaossa o siis sama kui vialliste kompoettie osuus tarkastetussa erässä. 90

Esimerkki 7.5 (Mielipidemittaus). Erää valtio ääioikeutetuista valittii satuaisotaalla = 2000 hekilöä ja heiltä kysyttii, aikovatko ääestää ykyistä presidettiä seuraavissa presidetivaaleissa (0= ei, 1= kyllä ). Vastaeista 774 vastasi kyllä. Estimoi kaatusosuus p koko populaatiossa soveltamalla biaarimalli suurimma uskottavuude meetelmää. Mikäli 2000 hekilö satuaisotata tehdää ilma palautusta N ääioikeutetu populaatiosta, jossa ykyise presideti kaatusosuus o p (tutemato), o todeäköisyys havaita 774 kyllä -äätä L(p) = ( Np )( N Np 774 2000 774 ( N 2000 ) ). Ylläolevaa ylläolevaa uskottavuusfuktiota o mahdotota maksimoida p: suhtee tutematta N: arvoa. Koska tässä tilateessa populaatio koko N o kuiteki paljo suurempi kui satuaisotokse koko 2000, oudattaa mielipidemittausta vastaava datalähde likimai biaarimallia parametria p. Tällöi fakta 7.3 mukaa saadaa parametri p suurimma uskottavuude estimaatiksi p = 774 2000 = 38.7%. Suurimma uskottavuude estimaatti kaatusosuudelle kaikkie ääioikeutettuje populaatiossa o siis sama kui kaatusosuus mielipidemittauksessa. 7.4 Normaalimalli estimoiti Normaalijakauma tiheysfuktio f µ,σ (x) = 1 (x µ)2 e 2σ 2 2πσ 2 o parametreja µ ja σ vaille tuettu. Ku parametreja o kaksi, voidaa parametrit koodata vektoriksi θ = (θ 1, θ 2 ), jolloi uskottavuusfuktiosta tulee kahde muuttuja fuktio L(θ) = L(θ 1, θ 2 ). Fakta 7.6. Normaalijakauma parametrie µ ja σ suurimma uskottavuude estimaatit datajoukolle (x 1,..., x ) ovat datajouko keskiarvo ja empiirie keskihajota µ = 1 x i ja σ = ( 1 ) 1/2 (x i µ ) 2. (7.2) Todistus. Havaittua datajoukkoa (x 1,..., x ) vastaava uskottavuusfuktio o kahde muuttuja fuktio L(µ, σ) = 1 (x 2πσ 2 e i µ) 2 2σ 2 = (2π) /2 σ e (x i µ) 2 2σ 2. 91

Ottamalla ylläoleva yhtälö molemmilta puolilta logaritmit saadaa logaritmiseksi uskottavuusfuktioksi l(µ, σ) = 2 log(2π) log σ (x i µ) 2. 2σ 2 Logaritmise uskottavuusfuktio derivaatat parametrie µ ja σ suhtee ovat d dµ l(µ, σ) = 1 (x σ 2 i µ), d dσ l(µ, σ) = σ + 1 σ 3 (x i µ) 2. Asettamalla ylläolevat derivaatat olliksi ja ratkaisemalla äistä yhtälöistä parametrit µ ja σ, saadaa derivaattoje ollakohdiksi yhtälö (7.2) mukaiset µ ja σ. Lukupari (µ, σ ) o aioa parametrikombiaatio, jolle uskottavuusfuktio molemmat derivaatat ovat ollia. Toise kertaluvu derivaattoja tarkastelemalla voidaa varmistaa, että L(µ, σ ) o uskottavuusfuktio globaali maksimi. 7.5 Kaksiulotteise lieaarise malli estimoiti Lieaarie regressio o yleie tilastollie lähestymistapa, jossa moiulotteise datajouko tiety muuttuja käyttäytymistä pyritää eustamaa tai selittämää lieaarisella mallilla muista datajouko muuttujista. Keskeie perustapaus o kaksiulotteie datajoukko (x 1, y 1 ),..., (x, y ). Näihi havaitoihi halutaa sovittaa suora y = αx + β, joka avulla o tarkoitus eustaa y-muuttuja arvoja x-muuttuja fuktioa. Yksi tapa mitata suora sovitukse hyvyyttä o keskieliövirhe (egl. mea squared error) MSE = 1 (y i αx i β) 2. (7.3) Keskieliövirhe voidaa myös kirjoittaa muodossa 1 (y i ŷ i ) 2, missä ŷ i = αx i + β o suora avulla laskettu y-muuttuja euste pisteessä x i. Tällöi paras sovitus saadaa valitsemalla suora, joka kulmakerroi α ja vakiotermi β ovat sellaiset, että ylläoleva keskieliövirhe o piei mahdollie. Tätä sovitustapaa kutsutaa pieimmä eliösumma meetelmäksi ja määritettyä suoraa regressiosuoraksi. Fakta 7.7. Keskieliövirhee äkökulmasta paras suora saadaa valitsemalla suora kulmakerroi α ja vakiotermi β kaavoilla 1 α = sd e(x) cor(x, y), sd e (y) β = m(y) α m(x), 1 Kulmakertoime α kaavassa ei ole väliä, käyttääkö empiiristä keskihajotaa vai otoskeskihajotaa, sillä -kertoimet kumoavat toisesa osamäärässä sde(x) sd = sds(x) e(y) sd. s(y) 92

missä m(x), m(y) ja sd e (x), sd e (y) ovat datajouko x- ja y-muuttujie keskiarvot ja keskihajoat, ja cor(x, y) iide välie korrelaatio. Alla o esitetty kolme kaksiulotteista sada alkio datajoukkoa sekä iihi sovitetut regressiosuorat. Varoitus: Pieimmä eliösumma meetelmä sovittaa suora sellaisiiki kaksiulotteisii datajoukkoihi, joissa mikäälaista lieaarista riippuvuutta ei ole havaittavissa. 20 20 20 10 10 10 0 0 0 10 10 10 20 20 10 0 10 20 20 20 10 0 10 20 20 20 10 0 10 20 Fakta 7.7 todistus. Keskieliövirhettä o kätevä aalysoida soveltamalla kaksiulotteise datajouko empiirise jakauma todeäköisyystulkitaa. Jos (X, Y ) o satuaie lukupari, joka o arvottu tasaise satuaisesti havaitusta datajoukosta, ii kaava (6.6) mukaa Avaamalla eliölauseke muotoo MSE = E(Y αx β) 2. (Y αx β) 2 = Y 2 + α 2 X 2 + β 2 2αXY 2βY + 2αβX ja käyttämällä odotusarvo lieaarisuutta ähdää, että MSE = EY 2 + α 2 E(X 2 ) + β 2 2αE(XY ) 2βE(Y ) + 2αβE(X). Ylläoleva lausekkee derivaatta parametri β suhtee o Ratkaisemalla d MSE = 0 saadaa dβ d MSE = 2β 2E(Y ) + 2αE(X). dβ β = E(Y ) αe(x). Tätä yhtälöä soveltamalla saadaa keskieliövirhee derivaataksi parametri α suhtee d dα MSE = αe(x2 ) E(XY ) + βe(x) = αe(x 2 ) E(XY ) + (E(Y ) αe(x))e(x) = α Var(X) Cov(X, Y ). 93

Ratkaisemalla d MSE = 0 saadaa tästä korrelaatio määritelmä mukaa dα α = Cov(X, Y ) Var(X) = Cor(X, Y ) SD(X) SD(Y ) = SD(Y ) Cor(X, Y ). SD(X) 2 SD(X) Väite seuraa tästä, sillä fakta 6.2 mukaa E(X) = m(x), E(Y ) = m(y), SD(X) = sd e (x) ja SD(Y ) = sd e (y) sekä fakta 6.2 mukaa Cor(X, Y ) = cor(x, y). Yllä esitetty lieaarise malli sovitusmeetelmä voidaa tulkita myös suurimma uskottavuude estimaattoria stokastiselle mallille, jossa datalähde tuottaa satuaisluvut (Y 1,..., Y ) muotoa Y i = αx i + β + σz i, (7.4) missä toisistaa riippumattomat satuaismuuttujat Z 1,..., Z oudattavat ormitettua ormaalijakaumaa ja luvut x 1,..., x sekä parametri σ > 0 ovat tuettuja. Tämä o kahde muuttuja lieaarie ormaalimalli. Näillä oletuksilla satuaismuuttujie Y 1,..., Y yhteisjakauma tiheysfuktio o f(y 1,..., y x 1,..., x, α, β, σ) = (2πσ) 1/2 e (y i α βx i ) 2 2σ 2. Ku lukuarvot x 1,..., x ja parametri σ sekä havaiot y 1,..., y oletetaa tuetuiksi, voidaa ylläoleva tiheysfuktio tulkita tutemattomie parametrie α ja β uskottavuusfuktioa L(α, β), joka logaritmie uskottavuusfuktio muodossa l(α, β) = 2 log(2πσ) 1 2σ 2 (y i α βx i ) 2. Ylläoleva lauseke voidaa kirjoittaa keskieliövirhee (7.3) avulla muodossa l(α, β) = 2 log(2πσ) 2σ 2 MSE, josta ähdää että uskottavuusfuktio maksimoituu täsmällee silloi, ku keskieliövirhe miimoituu. Näi olle lieaarise ormaalimalli (7.4) parametrie α ja β suurimma uskottavuude estimaattorit ovat samat kui faktassa 7.7. 7.6 Estimaattoreide omiaisuuksia Tarkastellaa datalähdettä, joka tuottamat satuaismuuttujat X 1, X 2,... oudattavat jakaumaa f(x θ), missä parametri θ o tutemato. Parametri θ: 94

estimaatti o havaitu datajouko x = (x 1,..., x ) pohjalta laskettu arvaus ˆθ = g(x) parametri θ arvoksi. estimaattori o fuktio (x 1,..., x ) g(x 1,..., x ), joka kuvaa datajouko estimaatiksi 2. Tutemattoma parametri estimaattoriksi voidaa periaatteessa valita mikä tahasa fuktio g(x). Ituitiivisesti o kuiteki selvää, että jotkut estimaattorit ovat parempia kui toiset. Estimaattori hyvyyttä voidaa luoehtia aalysoimalla, mite se käyttäytyisi saadessaa syötteeksee riippumattomia satuaislukuja X 1, X 2,... malli mukaisesta jakaumasta f(x θ). Estimaattori g(x 1,..., x ) o tarketuva (egl. cosistet), jos tapahtuma g(x 1,..., X ) = θ ± ɛ todeäköisyys lähestyy ykköstä suurilla : arvoilla, oli ɛ > 0 mite piei hyväsä. Tarketuvuus siis tarkoittaa, estimaattori tuottaa suurella todeäköisyydellä lähellä todellista parametria olevia arvoja, silloi ku käytössä o paljo dataa. Estimaattori g(x 1,..., x ) o harhato (egl. ubiased), jos Eg(X 1,..., X ) = θ. Harhattomuus tarkoittaa, että jos samasta datalähteestä laskettaisii suuri määrä estimaatteja g(x 1,..., X ), ii estimaattie keskiarvo olisi lähellä oikeaa parametria. Esimerkki 7.8 (Biaarimalli). Biaarimalli satuaismuuttujat oudattavat Beroulli-jakaumaa parametria p = f(1) ja suurimma uskottavuude estimaattori o (fakta 7.3) havaitu datajouko keskiarvo m(x 1,..., x ) = 1 x i. Jos X 1, X 2,... ovat biaarimalli mukaisia toisistaa riippumattomia satuaislukuja, ii E(X i ) = p ja odotusarvo lieaarisuude perusteella ( ) 1 Em(X 1,..., X ) = E X i = 1 E(X i ) = p. Lisäksi suurte lukuje lai perusteella (fakta 3.3) tapahtuma 1 X i = p ± ɛ todeäköisyys o lähellä ykköstä suurilla : arvoilla. Näi olle m(x 1,..., x ) o tarketuva ja harhato estimaattori biaarimalli parametrille p. 2 Estimaattoriksi kutsutaa usei myös satuaismuuttujaa g(x) = g(x 1,..., X ), joka o laskettu jakaumasta f(x θ) geeroituje satuaislukuje (X 1,..., X ) muuoksea. 95

Esimerkki 7.9 (Normaalimalli odotusarvo). Normaalimalli odotusarvoparametri µ suurimma uskottavuude estimaattori (fakta 7.6) o havaitu datajouko keskiarvo m(x 1,..., x ) = 1 x i. Samoi perustei kui esimerkissä 7.8 ähdää, että m(x 1,..., x ) o tarketuva ja harhato estimaattori ormaalimalli odotusarvoparametrille µ. Esimerkki 7.10 (Normaalimalli keskihajota ja variassi). Normaalimalli keskihajotaparametri σ suurimma uskottavuude estimaattori (fakta 7.6) o datajouko empiirie keskihajota sd e (x) = ( 1 ) 1/2 (x i m(x)) 2. Suurte lukuje lai (fakta 3.3) avulla voidaa perustella, että empiirie keskihajota sd e (x) o tarketuva estimaattori ormaalimalli keskihajotaparametrille σ. Myös otoskeskihajota sd s (x) o tarketuva, sillä empiirise keskihajoa ja otoskeskihajoa välie muutokerroi (6.9) lähestyy ykköstä suurilla : arvoilla. Keskihajotoje laskukaavoissa esiityvä epälieaarise eliöjuurioperaatio johdosta sd e (x) ja sd s (x) eivät kuitekaa ole parametri σ estimaattoreia harhattomia. Tästä syystä varsiki klassisessa frekvetistisessä tilastotieteessä o ollut tapaa etsiä harhatota estimaattoria variassiparametrille σ 2. Variassiparametri suurimma uskottavuude estimaattori havaitu datajouko empiirie variassi var e (x) = sd e (x) 2. Tämäki estimaattori o lievästi harhaie, sillä avaamalla allaoleva eliölauseke o mahdollista päätellä, että E sd 2 e(x 1,..., X ) = E ( 1 ) (X i m(x 1,..., X )) 2 = = 1 σ2. Datajouko otosvariassi var s (x) = sd s (x) 2 o se sijaa harhato, sillä muutokaava (6.9) mukaa E sd 2 s(x 1,..., X ) = 1 E sd2 e(x 1,..., X ) = 1 1 σ2 = σ 2. 7.7 Saastoa Alla tässä luvussa esiityyttä saastoa eglaiksi kääettyä. Moet tähä aihepiirii liittyvät termit eivät kuitekaa ole täysi vakiitueita kummassakaa kielessä. 96

suomi estimaatti estimaattori harha harhato keskieliövirhe lieaarie regressio logaritmie uskottavuusfuktio parametrie jakauma pieimmä eliösumma meetelmä regressio regressiosuora suurimma uskottavuude estimaatti tarketuva uskottavuus eglati estimate estimator bias ubiased mea squared error liear regressio logarithmic likelihood fuctio parametric distributio least squares method regressio regressio lie maximum likelihood estimate cosistet likelihood 97

Hakemisto alakvartiili, 81 Bayesi kaava, 17, 104 Beroulli-jakauma, 63, 87 betajakauma, 108 biomijakauma, 63 biomikerroi, 20 bitti, 47 Chebyshevi epäyhtälö, 54 datajoukko, 76 datakehikko, 76 ekspoettijakauma, 28 empiirie kovariassi, 82 etropia, 47 ergodie, 50 erotus, 11 esiityvyysharha, 17 estimaattori, 94 harhato estimaattori, 94 hylkäysalue, 127 hyperparametri, 110 idikaattorifuktio, 29 järjestystuusluku, 81 jakauma, 24 diskreetti, 26 empiirie, 77, 79 jatkuva, 26 kertoma, 20 kertymäfuktio, 25 keskiarvo, 80 keskihajota jakauma, 52 satuaismuuttuja, 52 keskieliövirhe, 92 kombiatoriikka, 18 komplemetti, 11 korrelaatio yhteisjakauma, 56 kovariassi yhteisjakauma, 55 kvatiilifuktio, 81 kvartiili, 81 leikkaus, 11 lieaarie regressio, 92 lukumäärä listat, 19 osajoukot, 20 lukumäärä, järjestykset, 20 mediaai, 81 merkitsevyystaso, 124 mitallie fuktio, 37 joukko, 21 mometti, 46 moodi, 80 multiomijakauma, 133 muuttuja, 76 ollahypoteesi, 121 ormaalijakauma ormitettu, 69 osajoukko, 10 ositus, 10 osituskaava, 16 otoskovariassi, 82 p-arvo, 122 perusjoukko, 9 pieimmä eliösumma meetelmä, 92 136

pistemassafuktio, 26 pistetodeäköisyysfuktio, 26 Poisso-jakauma, 27, 74 posteriorijakauma, 104 priorijakauma, 104 prosetiili, 81 regressio, 92 regressiosuora, 92 reuajakauma diskreetti, 32 jatkuva, 32 reuatiheysfuktio diskreetti, 32 jatkuva, 32 riippumattomat satuaismuuttujat, 33 tapahtumat, 14 satuaismuuttuja, 23 diskreetti, 26 sigma-algebra, 21 suppeemie stokastie, 41 suurimma uskottavuude estimaatti, 88 suurte lukuje laki, 41 vahva, 50 tulosäätö, 14 todeäköisyysfuktio, 26 todeäköisyysväli, 118 toteuma, 9 tulojoukko, 11 tyhjä joukko, 11 uskottavuusfuktio, 88, 104 logaritmie, 89 variassi jakauma, 52 satuaismuuttuja, 52 vastahypoteesi, 121 yhdiste, 11 yhteisjakauma, 28 diskreetti, 30 jatkuva, 30 tiheysfuktio, 30 yläkvartiili, 81 tapahtuma, 9 poissulkevat, 10 tasajakauma diskreetti, 27 jatkuva, 27 tiheysfuktio, 26 empiirie, 77 tilastollie merkitsevyys, 122 tilastollie testi, 121 todeäköisyys aksiooma, 12 ehdollie, 14 frekvessitulkita, 43 jakauma, 12 mitta, 12 mootoisuus, 12 summasäätö, 12 137

Kirjallisuutta [JP04] Jea Jacod ad Philip Protter. Probability Essetials. Spriger, secod editio, 2004. [Kal02] Olav Kalleberg. Foudatios of Moder Probability. Spriger, secod editio, 2002. [Wil91] David Williams. Probability with Martigales. Cambridge Uiversity Press, 1991. 138