1. Tilastollinen malli??

Samankaltaiset tiedostot
2. Uskottavuus ja informaatio

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Väliestimointi (jatkoa) Heliövaara 1

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

5.7 Uskottavuusfunktioon perustuvia testejä II

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Osa 2: Otokset, otosjakaumat ja estimointi

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Todennäköisyyden ominaisuuksia

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Dynaamiset regressiomallit

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

3.6 Su-estimaattorien asymptotiikka

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Mallipohjainen klusterointi

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

4.0.2 Kuinka hyvä ennuste on?

031021P Tilastomatematiikka (5 op) viikko 5

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

2. Uskottavuus ja informaatio

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Sovellettu todennäköisyyslaskenta B

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

5 Hypoteesien testaaminen

Regressioanalyysi. Kuusinen/Heliövaara 1

5 Hypoteesien testaaminen

Testejä suhdeasteikollisille muuttujille

Pelaisitko seuraavaa peliä?

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

pitkittäisaineistoissa

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Sovellettu todennäköisyyslaskenta B

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

9. laskuharjoituskierros, vko 12-13, ratkaisut

Uskottavuusperusteisten luottamusvälien korjaaminen bootstrap-menetelmällä Pro gradu -esitelmä

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

pitkittäisaineistoissa

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Testit laatueroasteikollisille muuttujille

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen aineisto Luottamusväli

Teema 8: Parametrien estimointi ja luottamusvälit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Uskottavuuden ominaisuuksia

pisteet Frekvenssi frekvenssi Yhteensä

6.1.2 Luottamusjoukon määritelmä

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Korrelaatiokertoinen määrittely 165

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

805306A Johdatus monimuuttujamenetelmiin, 5 op

Transkriptio:

1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977

Tilastollinen malli?? Numeerinen aineisto y = (y 1,..., y n ) R n. Ennen havaintojen tekoa aineiston arvot ovat epävarmoja (mittausvirheiden, populaation luonnollisen vaihtelun tms. syyn takia). Ajatus: aineisto on jokin sv:n Y havaittu reaalisatio Y(ω act ) = y. Tilastollinen malli: mahdollisten aineiston tuottavien sv:ien Y jakaumien P Y joukko Mallin muodostamiseen käytetään todennäköisyyslaskentaa. Tilastollinen päättely: aineiston y pohjalta on tehtävä johtopäätöksiä siitä jakaumasta P Y mitä sv Y noudattaa.

1.2.1 Keskeinen esimerkki (rikkinäiset lamput v1) Tehdas on valmistanut suuren määrän hehkulamppuja, ja halutaan tutkia, kuinka suuri osa niistä on rikkinäisiä Poimitaan kokoa n oleva otos lamppuja ja määritellään y i = 1{ i:s lamppu on rikki } Tässä aineisto on y = (y 1,..., y n ) Olkoon θ = K/N, rikkinäisten lamppujen suhde kaikkiin, joten 0 θ 1. Päätellään seuraavaksi, että vastaava sv Y = (Y 1,..., Y n ) noudattaa (likimain) jakaumaa kun k = k(y) = y 1 + + y n. f Y (y; θ) = θ k (1 θ) n k

1.1.2 Parametrinen malli ja parametrinen päättely Huomattiin, että edellä tilastollisen mallin jakaumien kuvailuun riitti yhden parametrin θ selittäminen yptnf/ytf:lla on parametria θ = (θ 1,..., θ d ) vaille tunnettu muoto f Y (y; θ) (eli jos θ tiedetään, myös sv:n Y jakauma tiedetään) Tälläista mallia kutsutaan parametriseksi malliksi. Mahdolliset parametriarvot muodostavat parametriavaruuden eli joukon Ω R d Parametrin θ arvo on tuntematon, ja tavoitteena on siis tehdä päätelmiä parametrista θ aineiston y perusteella.

1.2.1 Keskeinen esimerkki jatkuu (rikkinäiset lamput v1) Esimerkissä d = 1, θ = θ ja parametriavaruus Ω = [0, 1] käytännön syistä voitaisiin ajatella Ω = (0, 1).

Parametrinen tilastollinen malli kurssilla Tilastollisen mallin määräämiseen tarvitsemme jatkossa seuraavat osaset, jotka aina määräämme seuraavat osaset: Parametriavaruus Ω R d. Aineistoa y = (y 1,..., y n ) vastaavan sv:n Y = (Y 1,..., Y n ) jakauma y f Y (y; θ) kullakin θ Ω. Usein viittamme malliin vain mainitsemalla tiheydet f Y. Päättelyä varten tarvitsemme lisäksi aineiston y.

1.2.2 Keskeinen esimerkki (laitteiden kestoiät, uudelleen parametrisointi) Halutaan selvittää, mikä on erään toisen tehtaan valmistamien tietyntyyppisten sähkölaitteiden keskimääräinen kestoikä. Poimitaan jälleen kokoa n oleva otos ja mitataan kunkin otosyksikön kestoikä Aineisto y = (y 1,..., y n ), missä y i > 0 on laitteen i kestoikä. Voidaan ajatella, että Y 1,..., Y n sekä Y i Exp(λ). Parametriavaruudeksi voimme valita Ω = (0, ) ja voimme päätellä että f Y (y; λ) = λ n exp( λny), missä y = (y 1 + + y n )/n on otoksen laitteiden kestoikien keskiarvo.

1.2.2 Keskeinen esimerkki (laitteiden kestoiät, uudelleen parametrisointi) Koska EY i = 1/λ, niin voisimme käyttää myös parametria µ = 1/λ. Tällöin parametriavaruudeksi voimme valita Ω = (0, ) ja vastaava f Y (y; µ) = f Y(y; 1/λ) = µ n exp( ny/µ), Tilastolliset mallit f Y ja f Y ovat selvästi tilastollisesti samat. Tätä sanotaan uudelleenparametrisoinniksi.

1.2.3 Keskeinen esimerkki (normaalihavainnot) Yksi perustavimmista tilastollisista malleista on riippumaton otos normaalijakaumasta N(µ, σ 2 ). Tällöin parametri θ = (µ, σ 2 ), parametriavaruus on R (0, ) Sv:n Y = (Y 1,..., Y n ) tiheys on ( f Y (y; θ) = (2πσ 2 ) n/2 exp 1 2σ 2 n (y i µ) 2) i=1

1.3 Parametrisen päättelyn tavoitteet Seuraavia käsitellään kurssilla tarkemmin Piste-estimointi Luottamusvälit ja -joukot Hypoteesien testaaminen

Piste-estimointi aineiston avulla etsitään sellainen parametriavaruuden piste, joka on jossain mielessä hyvä tai jopa paras arvio eli estimaatti tuntemattomalle parametrille θ menetelmiä tällaisten löytämiseen, esim. suurimman uskottavuuden menetelmä kriteerejä estimaattien hyvyydelle

Luottamusvälit ja -joukot (Luku 6) Etsitään parametriavaruuden Ω osajoukkoja, joissa tuntematon θ on suurella varmuudella. Kun Ω R, puhutaan luottamusväleistä ja väliestimoinnista.

Hypoteesien testaaminen (Luku 5) Kysymys: onko aineisto sopusoinnussa annetun nollahypoteesin θ Ω 0 kanssa? vai tukeeko se ennemminkin vastahypoteesia θ Ω 1 kun tavallisesti Ω = Ω 0 Ω 1 ja Ω 0 Ω 1 =? Esimerkki: Nollahypoteesi: kolikko on reilu voisi vastata Ω 0 = { 1 2 } ja vastahypoteesi Ω 1 = [0, 1] \ Ω 0.

1.2.4 Keskeinen esimerkki (lineaarinen regressiomalli) Tutkija haluaa selvittää erään metallisen työkalun lujuuden riippuvuutta siitä lämpötilasta, jossa työkalu on valmistettu Hän tuottaa n työkalua eri lämpötiloissa x 1,..., x n (selittävät muuttujat) Ja mittaa vastaavat lujuudet y = (y 1,..., y n ) Rakenneoletus: vastemuuttujat EY i = α + βx i Jakaumaoletus 1: satunnaisvaihtelun varianssi vakio (mutta tuntematon), Y i N(EY i, σ 2 ), Jakaumaoletus 2: Y 1,... Y n.

1.2.4 Keskeinen esimerkki (lineaarinen regressiomalli) Parametri θ = (α, β, σ 2 ). Parametriavaruus Ω = R R (0, ) Tilastollisen mallin kuvaa tiheys ( f Y (y; α, β, σ 2 ) = (2πσ 2 ) n/2 exp 1 2σ 2 n (y i α βx i ) 2) i=1 Mielenkiinto yleensä parametreissa α ja β, kun taas σ 2 ns. kiusaparametri. Huomaamme, että selittäviin muuttujiin x i emme tässä liittäneet satunnaisvaihtelua (ei edes osa aineistoa). Joskus selittävät muuttujat sisältävät myös satunnaisvaihtelua.

1.3 Parametrisen päättelyn tavoitteet Seuraavia ei juuri käsitellä tällä kurssilla Ennustaminen Mallin sopivuus ja riittävyyden arviointi

Ennustaminen mallista f Y (y; θ) on havaittu aineisto y Oletetaan, että sm:n Z jakauma riippuu parametrista θ Ennustamisessa Z:n arvoa pyritään päättelemään aineiston y avulla. Esimerkki: y = säähavainnot tähän päivään asti. Oletetaan, että ilmasto noudattaa tilastollista mallia, ja tämän perusteella pyritään ennustamaan huomisen sää Z.

Mallin sopivuus ja riittävyyden arviointi onko kyseinen malli riittävän hyvä tai lainkaan sopiva kuvaamaan aineistoa Esimerkiksi, jos teemme lineaarisen rakenneoletuksen, on varmistuttava että selittävän ja vastemuuttujan välinen riippuvuus on todella keskimäärin lineaarista Säästäväisyysperiaate: yksinkertaisemman, mutta lähes yhtä hyvä malli käyttö on suositeltavaa

Bayesiläisestä ja frekventistisestä päättelystä Kurssilla käsitellään lähinnä frekventistisen päättelyn menetelmiä ja käsitteitä Ns. klassisessa eli frekventistisessä tilastotieteessä parametrivektoria θ Ω pidetään tuntemattomana vakiona, josta tiedetään vain, missä parametriavaruudessa sen arvot voivat olla. Tiheyteen y f Y (y; θ) ei liitetä tulkintaa ehdollisena jakaumana, koska parametrivektorille ei ole olemassa mitään todennäköisyysjakaumaa.

Bayesiläisestä ja frekventistisestä päättelystä Bayes-päättelyssä parametrivektoria pidetään satunnaisvektorin Θ arvona eli nyt parametrivektoriin liitetään aina tn-tulkinta Tällöin tilastollisen mallina pidetään sv:n Y ehdollista jakaumaa ehdolla Θ = θ eli voimme ajatella f Y (y; θ) = f Y Θ (y θ) Lisäksi bayesiläisessä päättelyssä tarvitsemme vielä priorijakauman sv:lle Θ.

Bayesiläisestä ja frekventistisestä päättelystä Parametrin tn-tulkintaa ja priorijakaumaa vaille tilastollisen mallin kuvaavan tiheyden määrääminen on analogista molemmissa paradigmoissa Päättelyyn liittyviin kysymyksiin eri paradigmoissa palaamme myöhemmin