1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977
Tilastollinen malli?? Numeerinen aineisto y = (y 1,..., y n ) R n. Ennen havaintojen tekoa aineiston arvot ovat epävarmoja (mittausvirheiden, populaation luonnollisen vaihtelun tms. syyn takia). Ajatus: aineisto on jokin sv:n Y havaittu reaalisatio Y(ω act ) = y. Tilastollinen malli: mahdollisten aineiston tuottavien sv:ien Y jakaumien P Y joukko Mallin muodostamiseen käytetään todennäköisyyslaskentaa. Tilastollinen päättely: aineiston y pohjalta on tehtävä johtopäätöksiä siitä jakaumasta P Y mitä sv Y noudattaa.
1.2.1 Keskeinen esimerkki (rikkinäiset lamput v1) Tehdas on valmistanut suuren määrän hehkulamppuja, ja halutaan tutkia, kuinka suuri osa niistä on rikkinäisiä Poimitaan kokoa n oleva otos lamppuja ja määritellään y i = 1{ i:s lamppu on rikki } Tässä aineisto on y = (y 1,..., y n ) Olkoon θ = K/N, rikkinäisten lamppujen suhde kaikkiin, joten 0 θ 1. Päätellään seuraavaksi, että vastaava sv Y = (Y 1,..., Y n ) noudattaa (likimain) jakaumaa kun k = k(y) = y 1 + + y n. f Y (y; θ) = θ k (1 θ) n k
1.1.2 Parametrinen malli ja parametrinen päättely Huomattiin, että edellä tilastollisen mallin jakaumien kuvailuun riitti yhden parametrin θ selittäminen yptnf/ytf:lla on parametria θ = (θ 1,..., θ d ) vaille tunnettu muoto f Y (y; θ) (eli jos θ tiedetään, myös sv:n Y jakauma tiedetään) Tälläista mallia kutsutaan parametriseksi malliksi. Mahdolliset parametriarvot muodostavat parametriavaruuden eli joukon Ω R d Parametrin θ arvo on tuntematon, ja tavoitteena on siis tehdä päätelmiä parametrista θ aineiston y perusteella.
1.2.1 Keskeinen esimerkki jatkuu (rikkinäiset lamput v1) Esimerkissä d = 1, θ = θ ja parametriavaruus Ω = [0, 1] käytännön syistä voitaisiin ajatella Ω = (0, 1).
Parametrinen tilastollinen malli kurssilla Tilastollisen mallin määräämiseen tarvitsemme jatkossa seuraavat osaset, jotka aina määräämme seuraavat osaset: Parametriavaruus Ω R d. Aineistoa y = (y 1,..., y n ) vastaavan sv:n Y = (Y 1,..., Y n ) jakauma y f Y (y; θ) kullakin θ Ω. Usein viittamme malliin vain mainitsemalla tiheydet f Y. Päättelyä varten tarvitsemme lisäksi aineiston y.
1.2.2 Keskeinen esimerkki (laitteiden kestoiät, uudelleen parametrisointi) Halutaan selvittää, mikä on erään toisen tehtaan valmistamien tietyntyyppisten sähkölaitteiden keskimääräinen kestoikä. Poimitaan jälleen kokoa n oleva otos ja mitataan kunkin otosyksikön kestoikä Aineisto y = (y 1,..., y n ), missä y i > 0 on laitteen i kestoikä. Voidaan ajatella, että Y 1,..., Y n sekä Y i Exp(λ). Parametriavaruudeksi voimme valita Ω = (0, ) ja voimme päätellä että f Y (y; λ) = λ n exp( λny), missä y = (y 1 + + y n )/n on otoksen laitteiden kestoikien keskiarvo.
1.2.2 Keskeinen esimerkki (laitteiden kestoiät, uudelleen parametrisointi) Koska EY i = 1/λ, niin voisimme käyttää myös parametria µ = 1/λ. Tällöin parametriavaruudeksi voimme valita Ω = (0, ) ja vastaava f Y (y; µ) = f Y(y; 1/λ) = µ n exp( ny/µ), Tilastolliset mallit f Y ja f Y ovat selvästi tilastollisesti samat. Tätä sanotaan uudelleenparametrisoinniksi.
1.2.3 Keskeinen esimerkki (normaalihavainnot) Yksi perustavimmista tilastollisista malleista on riippumaton otos normaalijakaumasta N(µ, σ 2 ). Tällöin parametri θ = (µ, σ 2 ), parametriavaruus on R (0, ) Sv:n Y = (Y 1,..., Y n ) tiheys on ( f Y (y; θ) = (2πσ 2 ) n/2 exp 1 2σ 2 n (y i µ) 2) i=1
1.3 Parametrisen päättelyn tavoitteet Seuraavia käsitellään kurssilla tarkemmin Piste-estimointi Luottamusvälit ja -joukot Hypoteesien testaaminen
Piste-estimointi aineiston avulla etsitään sellainen parametriavaruuden piste, joka on jossain mielessä hyvä tai jopa paras arvio eli estimaatti tuntemattomalle parametrille θ menetelmiä tällaisten löytämiseen, esim. suurimman uskottavuuden menetelmä kriteerejä estimaattien hyvyydelle
Luottamusvälit ja -joukot (Luku 6) Etsitään parametriavaruuden Ω osajoukkoja, joissa tuntematon θ on suurella varmuudella. Kun Ω R, puhutaan luottamusväleistä ja väliestimoinnista.
Hypoteesien testaaminen (Luku 5) Kysymys: onko aineisto sopusoinnussa annetun nollahypoteesin θ Ω 0 kanssa? vai tukeeko se ennemminkin vastahypoteesia θ Ω 1 kun tavallisesti Ω = Ω 0 Ω 1 ja Ω 0 Ω 1 =? Esimerkki: Nollahypoteesi: kolikko on reilu voisi vastata Ω 0 = { 1 2 } ja vastahypoteesi Ω 1 = [0, 1] \ Ω 0.
1.2.4 Keskeinen esimerkki (lineaarinen regressiomalli) Tutkija haluaa selvittää erään metallisen työkalun lujuuden riippuvuutta siitä lämpötilasta, jossa työkalu on valmistettu Hän tuottaa n työkalua eri lämpötiloissa x 1,..., x n (selittävät muuttujat) Ja mittaa vastaavat lujuudet y = (y 1,..., y n ) Rakenneoletus: vastemuuttujat EY i = α + βx i Jakaumaoletus 1: satunnaisvaihtelun varianssi vakio (mutta tuntematon), Y i N(EY i, σ 2 ), Jakaumaoletus 2: Y 1,... Y n.
1.2.4 Keskeinen esimerkki (lineaarinen regressiomalli) Parametri θ = (α, β, σ 2 ). Parametriavaruus Ω = R R (0, ) Tilastollisen mallin kuvaa tiheys ( f Y (y; α, β, σ 2 ) = (2πσ 2 ) n/2 exp 1 2σ 2 n (y i α βx i ) 2) i=1 Mielenkiinto yleensä parametreissa α ja β, kun taas σ 2 ns. kiusaparametri. Huomaamme, että selittäviin muuttujiin x i emme tässä liittäneet satunnaisvaihtelua (ei edes osa aineistoa). Joskus selittävät muuttujat sisältävät myös satunnaisvaihtelua.
1.3 Parametrisen päättelyn tavoitteet Seuraavia ei juuri käsitellä tällä kurssilla Ennustaminen Mallin sopivuus ja riittävyyden arviointi
Ennustaminen mallista f Y (y; θ) on havaittu aineisto y Oletetaan, että sm:n Z jakauma riippuu parametrista θ Ennustamisessa Z:n arvoa pyritään päättelemään aineiston y avulla. Esimerkki: y = säähavainnot tähän päivään asti. Oletetaan, että ilmasto noudattaa tilastollista mallia, ja tämän perusteella pyritään ennustamaan huomisen sää Z.
Mallin sopivuus ja riittävyyden arviointi onko kyseinen malli riittävän hyvä tai lainkaan sopiva kuvaamaan aineistoa Esimerkiksi, jos teemme lineaarisen rakenneoletuksen, on varmistuttava että selittävän ja vastemuuttujan välinen riippuvuus on todella keskimäärin lineaarista Säästäväisyysperiaate: yksinkertaisemman, mutta lähes yhtä hyvä malli käyttö on suositeltavaa
Bayesiläisestä ja frekventistisestä päättelystä Kurssilla käsitellään lähinnä frekventistisen päättelyn menetelmiä ja käsitteitä Ns. klassisessa eli frekventistisessä tilastotieteessä parametrivektoria θ Ω pidetään tuntemattomana vakiona, josta tiedetään vain, missä parametriavaruudessa sen arvot voivat olla. Tiheyteen y f Y (y; θ) ei liitetä tulkintaa ehdollisena jakaumana, koska parametrivektorille ei ole olemassa mitään todennäköisyysjakaumaa.
Bayesiläisestä ja frekventistisestä päättelystä Bayes-päättelyssä parametrivektoria pidetään satunnaisvektorin Θ arvona eli nyt parametrivektoriin liitetään aina tn-tulkinta Tällöin tilastollisen mallina pidetään sv:n Y ehdollista jakaumaa ehdolla Θ = θ eli voimme ajatella f Y (y; θ) = f Y Θ (y θ) Lisäksi bayesiläisessä päättelyssä tarvitsemme vielä priorijakauman sv:lle Θ.
Bayesiläisestä ja frekventistisestä päättelystä Parametrin tn-tulkintaa ja priorijakaumaa vaille tilastollisen mallin kuvaavan tiheyden määrääminen on analogista molemmissa paradigmoissa Päättelyyn liittyviin kysymyksiin eri paradigmoissa palaamme myöhemmin