Tilastollinen päättely, 10 op, 4 ov

Samankaltaiset tiedostot
P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

Maximum likelihood-estimointi Alkeet

Tilastollinen aineisto Luottamusväli

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

1. Tilastollinen malli??

2. Uskottavuus ja informaatio

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Osa 2: Otokset, otosjakaumat ja estimointi

Bayesläiset tilastolliset mallit

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Multinomijakauman ja Dirichlet-jakauman käytöstä bayesilaisessa päättelyssä

4.0.2 Kuinka hyvä ennuste on?

Tilastotieteen aihehakemisto

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät Ratkaisuehdotuksia

3.6 Su-estimaattorien asymptotiikka

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Harjoitus 2: Matlab - Statistical Toolbox

Sovellettu todennäköisyyslaskenta B

9. laskuharjoituskierros, vko 12-13, ratkaisut

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Sovellettu todennäköisyyslaskenta B

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyden ominaisuuksia

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Uskottavuuden ominaisuuksia

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Parametrin estimointi ja bootstrap-otanta

Moniulotteisia todennäköisyysjakaumia

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayesiläinen tilastollinen vaihtelu

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Mallipohjainen klusterointi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Satunnaismuuttujien muunnokset ja niiden jakaumat

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

TILASTOLLINEN OPPIMINEN

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

ABHELSINKI UNIVERSITY OF TECHNOLOGY

1. TILASTOLLINEN HAHMONTUNNISTUS

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen päättelyn perusteet

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Jatkuvia jakaumia

Sovellettu todennäköisyyslaskenta B

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä

Sovellettu todennäköisyyslaskenta B

Teema 8: Parametrien estimointi ja luottamusvälit

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

Parametrien estimointi sovellettuna Pandora-instrumentin mittauksiin

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Johdatus tilastolliseen päättelyyn. Petri Koistinen Matematiikan ja tilastotieteen laitos Helsingin yliopisto

JOHDATUS TEKOÄLYYN TEEMU ROOS

Pelaisitko seuraavaa peliä?

5.7 Uskottavuusfunktioon perustuvia testejä II

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4

Sovellettu todennäköisyyslaskenta B

Transkriptio:

Tilastollinen päättely, 0 op, 4 ov Arto Luoma Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede 3304 TAMPEREEN YLIOPISTO Syksy 2006 Kirjallisuutta Garthwaite, Jolliffe, Jones Statistical Inference, Second Edition, Prentice Hall, 2002 Rohatgi, Statistical Inference, Prentice Hall, 2002 Casella, Berger, Statistical Inference, Brooks/Cole, 2002 Williams, Weighing the Odds, a Course in Probability and Statistics, Cambridge University Press, 200 Ross, Introduction to Probability Models, Academic Press, 2002 Davison, Statistical Models, Cambridge University Press, 2003

Kurssin sisältö Ensimmäinen jakso. bayesiläisen päättelyn perusteet (priorijakauma, uskottavuusfunktio, posteriorijakauma, Bayes-estimaattori) 2. konjugaattinen priorijakauma, epäinformatiivinen priorijakauma, 3. bayesiläiset luottamusvälit, bayesiläinen hypoteesien testaus 4. johdatus epäparametrisiin menetelmiin (permutaatiotestit, järjestyslukutestit) 5. laskentaintensiiviset menetelmät (bootstrap, linkkuveitsimenetelmä) Toinen jakso 6. johdatus Markovin ketjuihin 7. laskentaintensiiviset menetelmät (Gibbsin poimija, Metropolis-algoritmi) 8. tilastollinen mallinvalinta (ristiinvalidointi, informaatiokriteerit) 2

Bayesiläinen tilastotiede. Perusteita Bayesin kaava Bayesiläinen tilastotiede perustuu Bayesin kaavan käyttöön. Oletetaan, että tapahtumat A, A 2,..., A k osittavat otosavaruuden Ω, (ts. Ω = A A 2... A k, A i A j =, kun i j), ja B on jokin otosavaruuden tapahtuma, jolle Pr(B) > 0. Tällöin Bayesin kaava on Pr(A j B) = Pr(A j ) Pr(B A j ) kj= Pr(A j ) Pr(B A j ). Bayesin kaavalla voidaan kääntää ehdollisia todennäköisyyksiä. Jos nimittäin tunnetaan osatapahtumien A j todennäköisyydet ja tapahtuman B ehdolliset todennäköisyydet Pr(B A j ), j =,..., k, kaavan avulla voidaan laskea osatapahtumien A j ehdolliset todennäköisyydet Pr(A j B). Bayesiläisessä kielenkäytössä tapahtumien A j todennäköisyyksiä Pr(A j )kutsutaan prioritodennäköisyyksiksi ja ehdollisia todennäköisyyksiä Pr(A j B) posterioritodennäköisyyksiksi. Tapahtuman A j posterioritodennäköisyys voidaan ilmoittaa sen jälkeen, kun tiedetään, onko B tapahtunut. Esim. Diagnostiset testit Olkoon γ jonkin sairauden esiintyvyys ja θ osoitinmuuttuja, joka ilmoittaa, onko yksittäisellä henkilöllä kyseinen sairaus (θ =, jos sairas, ja θ = 0, jos terve). Diagnostinen testi antaa tuloksen Y, jonka jakauman kertymäfunktio on F (y), jos henkilöllä on sairaus, ja F 0 (y), jos ei ole. Yleisin testityyppi on sellainen, jossa henkilö ilmoitetaan sairastuneeksi, jos Y > y 0, missä y 0 on aikaisempien tutkimusten perusteella kiinnitetty raja. Nyt voidaan laskea Bayesin kaavan avulla sairauden todennäköisyys, jos raja y 0 ylittyy: Pr(θ = Y > y 0 ) = = Pr(θ = ) Pr(Y > y 0 θ = ) Pr(θ = ) Pr(Y > y 0 θ = ) + Pr(θ = 0) Pr(Y > y 0 θ = 0) γ[ F (y 0 )] γ[ F (y 0 )] + ( γ)[ F 0 (y 0 )]. Tämä todennäköisyys on testin positiivinen ennustearvo, F 0 (y 0 ) on testin spesifisyys (tn. että terve henkilö ilmoitetaan terveeksi) ja F (y 0 ) testin herkkyys (sensitivity, tn. että sairas ilmoitetaan sairaaksi). Yleensä testi 3

pyritään suunnittelemaan niin, että sekä herkkyys, että spesifisyys ovat mahdollisimman korkeita. Priori- ja posteriorijakauma Yleisemmässä tapauksessa parametrilla θ voi olla useita arvoja ja niiden prioritodennäköisyyksiä voidaan kuvata priorijakauman todennäköisyysfunktiolla tai jatkuvassa tapauksessa priorijakauman tiheysfunktiolla π(θ). Tämä kuvaa tutkijan ennakkokäsitystä eri parametriarvojen todennäköisyyksistä. (Huomaa ero klassiseen tilastotieteeseen, jossa parametrit ovat tuntemattomia mutta kiinteitä eli epäsatunnaisia). Siis bayesiläisessä tilastotieteessä parametrejäkin käsitellään satunnaismuuttujina. Kun on käytössä havaintoaineisto y, parametria koskevaa ennakkokäsitystä voidaan tarkentaa. Bayesin kaavan avulla voidaan laskea parametrien arvoille posterioritodennäköisyydet, jotka ovat siis ehdollisia todennäköisyyksiä, kun havaintoaineisto on annettu. Jos parametri θ voi saada arvot,..., k, ja näillä on proritodennäköisyydet π,.., π k, posterioritodennäköisyydet ilmoittaa posteriorijakauman todennäköisyysfunktio Pr(θ = j y) = π jf(y θ = j) ki=, j =,..., k. () π i f(y θ = i) Kun parametri θ on jatkuva-arvoinen, voidaan ilmoittaa posteriorijakauman tiheysfunktio π(θ y) = π(θ)f(y θ), (2) p(θ)f(y θ)dθ missä siis π(θ) on priorijakauman tiheysfunktio ja f(y θ) on havaintojen yhteisjakauman tiheysfunktio eli uskottavuusfunktio. Esim. Lääkkeen markkinaosuus Lääketehdas aikoo markkinoida uuden lääkkeen happovaivoihin ja haluaa selvittää kyseisen lääkkeen potentiaalisen markkinaosuuden θ. Tutkimuksessa haastatellaan n:ää henkilöä ja heistä Y sanoo aikovansa ostaa lääkettä. Ei-bayesiläisen analyysin mukaan θ [0, ] ja Y noudattaa binomijakaumaa parametrein n ja θ. Aiemman perusteella tiedämme, että ˆθ = Y/n on erinomainen θ:n estimaattori. Se on θ:n suurimman uskottavuuden estimaattori, harhaton, minimivarianssinen, tarkentuva ja asymptoottisesti normaalinen. Bayesiläisen lähestymistavan mukaisesti pyritään hankkimaan etukäteen tiedossa olevaa θ:aa koskevaa informaatiota. Tässä tapauksessa voidaan käyttää hyväksi aiemmin markkinoitujen vastaavantyyppisten lääkkeiden tarjoa- 4

maa markkinainformaatiota. Jos niiden valloittamien markkinaosuuksien arvot vaihtelevat välillä 0.05 0.5 ja oletamme arvot mainitulla välillä tasajakutuneeksi, niin θ:n priorijakauman tiheysfunktio on tällöin π(θ) = { /(0.5 0.05) = 0, 0.05 θ 0.5 0, muualla. Tällöin havainnon Y ja parametrin θ yhteisjakauman tiheysfunktio on ( ) n u(y, θ) = π(θ)f(y θ) = 0 θ y ( θ) n y, y kun y = 0,,..., n, θ [0.05, 0.5], ja havainnon y reunajakauman todennäköisyysfunktio ( ) n 0.5 g(y) = 0 θ y ( θ) n y dθ. y 0.05 Siis θ:n posteriorijakaumaksi saadaan π(θ y) = θ y ( θ) n y 0.5 0.05 θy ( θ) n y dθ. Esim. Rakkularuostesieni Yhdysvaltain luoteisosien ja Kanadan tunnetuin mäntylaji on valkomänty. Se on altis rakkularuostesairaudelle, joka aiheuttaa ruostesientä ja haavaumia kuoreen. Nämä haavaumat laajenevat ja aiheuttavat pienten oksien ja taimien kuolemia. Metsänhoitaja haluaa estimoida hehtaaria kohti sairastuneiden puiden lukumäärän keskiarvon. Sairastuneiden puiden lukumäärää hehtaarilla voidaan pitää Poissonjakautuneena satunnaismuutujana parametrinä λ. Koska parametri λ vaihtelee eri alueilla, pidetään sitä eksponenttijakaumaa noudattavana satunnaismuuttujana λ odotusarvona θ, joten π(λ) = { θ e λ/θ, jos λ > 0 0, muualla. Tutkimusta varten valitaan n:ltä erilaiselta hehtaarin alueelta n:n alkion otos. Tällöin 5

i= y i e nλ u(y,..., y n, λ) = θ e λ/θ λ n ni= y i! ja g(y,..., y n ) = θ n i= y i! 0 ( n ) = Γ y i + i= e λ(n+/θ) λ n i= y i dλ (n + /θ) n i= y i+ θ n i= y i!, missä edellä oleva integraali on laskettu ottamalla huomioon, että se on gammaintegraali parametrein α = n i= y i + ja β = n + /θ. Posteriorijakaumaksi λ:lle saamme nyt siis π(λ y,..., y n ) = (n + /θ) n i= y i+ Γ ( n λ n i= y i e λ(n+/θ), i= y i + ) joka on gammajakauman tiheysfunktio parametrein α = n i= y i + β = (nθ + )/θ. ja 6