Tilastollisen tietojenkäsittelyn jatkokurssi TILTA23 Satunnaislukujen generoiminen Jarkko Isotalo

Samankaltaiset tiedostot
Datan käsittely R-ohjelmistolla

Sovellettu todennäköisyyslaskenta B

Todennäköisyyden ominaisuuksia

Estimointi. Vilkkumaa / Kuusinen 1

Osa 2: Otokset, otosjakaumat ja estimointi

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

Generointi yksinkertaisista diskreeteistä jakaumista

Väliestimointi (jatkoa) Heliövaara 1

Maximum likelihood-estimointi Alkeet

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollinen aineisto Luottamusväli

Sovellettu todennäköisyyslaskenta B

Satunnaislukujen generointi

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Satunnaismuuttujien muunnokset ja niiden jakaumat

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

9. laskuharjoituskierros, vko 12-13, ratkaisut

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

4.0.2 Kuinka hyvä ennuste on?

1. Tilastollinen malli??

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Regressioanalyysi. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Harjoitus 7: NCSS - Tilastollinen analyysi

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

Harjoitus 2: Matlab - Statistical Toolbox

Harha mallin arvioinnissa

2. Keskiarvojen vartailua

10 Moniulotteinen normaalijakauma

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Uskottavuuden ominaisuuksia

0 kun x < 0, 1/3 kun 0 x < 1/4, 7/11 kun 1/4 x < 6/7, 1 kun x 1, 1 kun x 6/7,

Teema 8: Parametrien estimointi ja luottamusvälit

5.7 Uskottavuusfunktioon perustuvia testejä II

Yleistetyn lineaarisen mallin perusteita

Normaalijakaumasta johdettuja jakaumia

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Testit laatueroasteikollisille muuttujille

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

2. Uskottavuus ja informaatio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Tilastollinen päättely, 10 op, 4 ov

The Metropolis-Hastings Algorithm

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Moniulotteiset satunnaismuuttujat ja jakaumat

031021P Tilastomatematiikka (5 op) viikko 4

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

8.1 Ehdolliset jakaumat

Tilastollisia peruskäsitteitä ja Monte Carlo

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Todennäköisyysjakaumia

3.6 Su-estimaattorien asymptotiikka

Uskottavuusperusteisten luottamusvälien korjaaminen bootstrap-menetelmällä Pro gradu -esitelmä

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Transkriptio:

Tilastollisen tietojenkäsittelyn jatkokurssi TILTA23 Satunnaislukujen generoiminen Jarkko Isotalo - 2011 Johdanto Laskennallisessa tilastotieteessä tutkitaan usein tarkasteltavaa satunnaisilmiötä simuloinnin avulla. Jotta tarkasteltavan satunnaisilmiön todellisuutta pystyttäisiin jäljittelemään, tarvitaan menetelmiä kuinka tuottaa havaittuja toteutuneita arvoja tarkasteltavasta satunnaisilmiöstä. Satunnaislukujen generoimiselle tarkoitetaan sellaista toimintaa, missä keinotekoisesti tuotetaan n kappaletta toteutuneita arvoja x 1, x 2,..., x n tarkasteltavasta satunnaismuuttujasta X. Satunnaismuuttuja X noudattaa aina jotakin todennäköisyysjakaumaa. Merkitään X:n kertymäfunktiota P (X x) = F X (x):llä ja tiheysfunktiota (pistetodennäköisyysfunktiota) f X (x):llä. Satunnaismuuttuja X noudattaa kertymäfunktion F X määrittelemää jakaumaa: X F X (x) = x f X (t) dt. Satunnaislukujen generoinnin kannalta kaikista tärkein todennäköisyysjakauma on [0, 1] välillä määritelty jatkuva tasajakauma. Jos satunnaismuuttuja U noudattaa tasajakaumaa U T as(0, 1), niin silloin sen tiheys- ja kertymäfunktio ovat muotoa f U (u) = 1 ja F U (u) = u, u [0, 1]. Tasajakauman merkitys satunnaislukujen generoimisessa johtuu seuraavasta tuloksesta. Lause 1. Olkoon satunnaismuuttujalla X kertymäfunktio F X (x) ja määritellään kertymäfunktion F X yleistetty käänteisfunktio F X seuraavasti: F X (u) = inf{x : F X(x) u, u [0, 1]}. Jos satunnaismuuttuja U noudattaa jatkuvaa tasajakaumaa U T as(0, 1), niin silloin satunnaismuuttuja F X (U) noudattaa kertymäfunktion F X määrittelemää jakaumaa. Todistus. Kaikille u [0, 1] ja x F X ([0, 1]) on voimassa F X (F X(x)) x, u F X (F X (u)). Täten joukoille on voimassa {(u, x) : F X (u) x} = {(u, x) : u F X(x)}, ja siten P (F X (U) x) = P (U F X(x)) = F U (F X (x)) = F X (x).

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 2 Edellä esitetyn tuloksen perusteella saadaan yleinen menetelmä, kuinka tuottaa n kappaletta arvoja x = (x 1, x 2,..., x n ) satunnaismuuttujan X jakaumasta F X. Ensiksi siis tuotetaan n kappaletta toteutuneita arvoja u = (u 1, u 2,..., u n ) tasajakaumasta U T as(0, 1) ja sitten tehdään muutos x = F X (u) eli x 1 F X x 2 (u 1). = F X (u 2).. F X (u n) x n Käytännössä yleistetyn käänteisfunktion F X muodostaminen voi olla hyvin vaikeaa ja siten käytännössä satunnaislukujen generointi kannattaa perustuu muihin menetelmiin kuin yleistetyn käänteisfunktion käyttöön. Edellä oleva esitys kuitenkin antaa käsityksen siitä, että tasajakaumalla on satunnaismuuttujien tuottamisessa erityinen rooli. Satunnaislukujen generoiminen R-ohjelmistolla R-ohjelmistossa on yleisimmille todennäköisyysjakaumille valmiit funktiot kuinka generoida kyseisestä jakaumasta arvoja. Alla olevassa taulukossa on listattu käytetyimpien jakaumien kertymäfunktiot ja generointifunktiot. Jakauma F x Generaattori Parametrit Tasajakauma punif runif min, max Normaalijakauma pnorm rnorm mean, sd Studentin t-jakauma pt rt df F-jakauma pf rf df1,df2 χ 2 -jakauma pchisq rchisq df Beta-jakauma pbeta rbeta shape1, shape2 Gamma-jakauma pgamma rgamma shape, rate tai scale Binomijakauma pbinom rbinom size, prob Negatiivinen binomijakauma pnbinom rnbinom size, prob Poissonin jakauma ppois rpois lambda Tehtävä 1. Generoi satunnaismuuttujasta Y 100 alkion satunnaisotos kun oletetaan, että Y muodostuu funktiosta Y = αx β e σε, missä α, β, X, σ ja ε ovat kaikki toisistaan riippumattomia satunnaismuuttujia ja noudattavat jakaumia α N(2, 1/2), β 1 Beta(2, 2), X N(3, 1), σ Gamma(2, 1), ε N(0, 1).

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 3 Estimoi myös pienimmän neliösumman menetelmällä satunnaismuuttujien α ja β odotusarvoja. Käänteistransformaatiomenetelmä Edellä ei käsitelty, kuinka R-ohjelmisto käytännössä tuottaa eri todennäköisyysjakaumien tilanteessa satunnaislukuja. Riippuen jakaumasta menetelmä vaihtelee ja usein menetelmä on myös hyvin monimutkainen, jotta satunnaislukuja saataisiin generoitua mahdollisimman tehokkaasti. Seuraavaksi katsotaan käytännön menetelmiä, joiden avulla satunnaislukuja voidaan generoida. Ensimmäisenä tarkastellaan käänteistransformaatiomenetelmää. Käänteistransformaatiomenetelmä perustuu lauseeseen 1. tilanteessa, missä satunnaismuuttujan X kertymäfunktiolla F X on olemassa käänteisfunktio F 1 X : F 1 X (F X(x)) = x, F X (F 1 X (u)) = u, u [0, 1]. Käänteistransformaatiomenetelmän algoritmi on täten seuraava: Algoritmi 1. 1. Johdetaan kertymäfunktion F X käänteisfunktion F 1 X (u) kaava. 2. Generoidaan luku u jakaumasta U T as(0, 1). 3. Lasketaan x = F 1 X (u). Tehtävä 2. Satunnaismuuttujan X kertymäfunktio on muotoa F X (x) = 1 1 + e (x µ)/β. Generoi 100 havainnon satunnaisotos X:n jakaumasta käänteistransformaatiomenetelmän avulla, kun µ = 1 ja β = 2.

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 4 Käänteistransformaatiomenetelmä, diskreetti jakauma Diskreetin jakauman tilanteessa satunnaislukuja voidaan generoida seuraavan algoritmin mukaan. Käänteistransformaatiomenetelmää kutsutaan diskreetin jakauman tilanteessa myös taulukkomenetelmäksi. Algoritmi 2. 1. Järjestetään satunnaismuuttujan X tulosvaihtoehdot nousevaan järjestykseen x (1), x (2),..., x (i),..., x (p) niin, että on voimassa F X (x (i 1) ) F X (x (i) ). 2. Generoidaan luku u jakaumasta U T as(0, 1). 3. Valitaan x (i), jolle voimassa F X (x (i 1) ) < u F X (x (i) ). Tehtävä 3. Oletetaan, että satunnaismuuttuja X noudattaa binomijakaumaa X Bin(5, 3/4). Generoi 100 havainnon satunnaisotos X:n jakaumasta käyttämällä käänteistransformaatiomenetelmää (taulukkomenetelmää).

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 5 Hyväksymis-hylkäysmenetelmä Mikäli satunnaismuuttujan X kertymäfunktion F X käänteisfunktiota F 1 X tai yleistettyä käänteisfunktiota F X on mahdotonta muodostaa, niin silloin hyväksymis-hylkäysmenetelmän avulla voidaan kuitenkin tuottaa satunnaislukuja X:n jakaumasta. Hyväksymishylkäysmenetelmässä pyritään ensiksi löytämään jokin sellainen satunnaismuuttuja Y, jonka jakaumasta osataan muilla menetelmillä generoida satunnaislukuja. Merkitään satunnaismuuttujan Y tiheysfunktiota f Y (y):llä. Mikäli on olemassa jokin sellainen vakio c, että f X (y) cf Y (y), niin silloin voidaan käyttää satunnaismuuttujan Y jakaumaa hyväksi, jotta saadaan generoitua satunnaislukuja X:n jakaumasta. Hyväksymishylkäysmenetelmän algoritmi on seuraavanlainen. Algoritmi 3a. Olkoon c sellainen realiluku, jolle on voimassa f X (y) cf Y (y), y. 1. Generoidaan y jakaumasta, jonka tiheysfunktio on f Y (y). 2. Generoidaan u jakaumasta U T as(0, cf Y (y)). 3. Jos u f X (y), niin asetetaan x = y, muuten palataan kohtaan 1. Algoritmia 3a. vastaa myös seuraava algoritmi: Algoritmi 3b. 1. Generoidaan y jakaumasta, jonka tiheysfunktio on f Y (y). 2. Generoidaan u jakaumasta U T as(0, 1). 3. Jos u f X(y) cf Y, niin asetetaan x = y, muuten palataan kohtaan 1. (y) Hyväksymis-hylkäysmenetelmä toimii, koska hyväksytyn satunnaismuuttujan Y U f X(Y ) cf Y (Y ) jakauma on sama kuin X:n jakauma: ( ) ( P Y x U f ) X(Y ) P Y x, U f X(Y ) cf Y (Y ) = ( ) cf Y (Y ) P U f X(Y ) cf Y (Y ) x fx (y)/cf Y (y) duf 0 Y (y)dy = fx (y)/cf Y (y) duf 0 Y (y)dy = x f X (y) cf Y (y) f Y (y)dy f X (y) f cf Y (y) Y (y)dy x = f x X(y)dy f X(y)dy = f X(y)dy = P (X x). 1

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 6 Tehtävä 4. Satunnaismuuttujan X tiheysfunktio on muotoa f X (x) = xe x2 2, x 0. Generoi 100 havainnon satunnaisotos X:n jakaumasta hyväksymis- ja hylkäysmenetelmän avulla käyttäen χ 2 (3)-jakaumaa instrumenttijakaumana. Muunnokset Useita tunnettuja satunnaismuuttujia saadaan muodostettua muunnoksena toisista satunnaismuuttujista. Saman muunnoksen avulla voidaan sitten generoida havaintoja tarkasteltavasta satunnaismuuttujasta. Alla on listattu joitakin yleisesti käytettyjä ja tunnettuja muunnoksia. Box-Muller muunnos: Olkoon U 1 ja U 2 riippumattomia satunnaismuuttujia, jotka noudattavat tasajakaumaa U 1 T as(0, 1) ja U 2 T as(0, 1). Tällöin satunnaismuuttujat X 1 = 2 log(u 1 ) cos(2πu 2 ), X 2 = 2 log(u 2 ) sin(2πu 1 ) ovat toisistaan riippumattomia ja noudattavat standardoitua normaalijakaumaa: X 1 N(0, 1) ja X 2 N(0, 1). Normaalijakauman lineaarinen muunnos. Noudattakoon satunnaismuuttuja Z standardoitua normaalijakaumaa Z N(0, 1). Tällöin satunnaismuuttuja X = µ + σz noudattaa normaalijakaumaa X N(µ, σ 2 ). Normaalijakauman neliömuunnos. Noudattakoon riippumattomat satunnaismuuttujat Z 1, Z 2,..., Z p standardoitua normaalijakaumaa Z i N(0, 1). Tällöin satunnaismuuttuja X = Z 2 1 + Z 2 2 + + Z 2 p noudattaa χ 2 -jakaumaa X χ 2 (p) vapausastein df = p.

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 7 Normaali- ja χ 2 -jakauman suhde. Jos Z N(0, 1) ja X χ 2 (p) ovat riippumattomia, niin silloin suhde T = Z X/p noudattaa Studentin t-jakaumaa T t(p) vapausastein df = p. χ 2 -jakaumien suhde. Jos Y χ 2 (q) ja X χ 2 (p) ovat riippumattomia, niin silloin suhde W = Y/q X/p noudattaa F -jakaumaa W F (q, p) vapausastein df 1 = q ja df 2 = p. Gammajakaumien suhde: Jos Y Gamma(a, 1) ja X Gamma(b, 1) ovat riippumattomia, niin silloin suhde W = Y X + Y noudattaa betajakaumaa W Beta(a, b). Tehtävä 5. Generoi 100 havainnon satunnaisotos Studentin t-jakaumasta vapausastein df = 10.

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 8 Jakaumien sekoitukset Satunnaismuuttuja Y noudattaa diskreettiä sekoitusjakaumaa, jos Y :n kertymäfunktio F Y on muotoa k F Y (y) = θ i F Xi (x i ), i=1 missä F X1, F X2,..., F Xk ovat satunnaismuuttujien X 1, X 2,..., X k kertymäfunktioita, ja vakiolle θ i > 0 on voimassa k i=1 θ i = 1. Vakioita θ i kutsutaan sekoitustodennäköisyyksiksi. Satunnaismuuttuja Y noudattaa jatkuvaa sekoitusjakaumaa, jos Y :n kertymäfunktio on muotoa F Y F Y (y) = F Y X=x (y)f X (x) dx. Tehtävä 6. Generoi 200 alkion satunnaisotos satunnaismuuttuja Y :n jakaumasta kun oletetaan, että Y :n kertymäfunktio muodostuu sekajakaumasta missä F Y = θ 1 F X1 + θ 2 F X2 + θ 3 F X3 + θ 4 F X4, X 1 N(1, 1), P (θ = θ 1 ) = 0.1, X 2 N(4, 2), P (θ = θ 2 ) = 0.4, X 3 N(8, 2), P (θ = θ 3 ) = 0.4, X 4 N(11, 1), P (θ = θ 4 ) = 0.1.

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 9 Moniulotteinen normaalijakauma Satunnaisvektori x = (X 1, X 2,..., X d ) noudattaa d-ulotteista normaalijakaumaa, jos satunnaisvektorin x yhteistiheysfunktio on muotoa ( 1 f x (x) = exp 1 ) (2π) d/2 Σ 1/2 2 (x µ) Σ 1 (x µ), x R d. Satunnaisvektorin x noudattaessa moniulotteista normaalijakaumaa käytetään merkintää x N(µ, Σ), missä µ 1 σ1 2 σ 12... σ 1d µ 2 µ =., Σ = σ21 2 σ2 2... σ 2d. µ d σd1 2 σ d2... σd 2 ovat jakauman määrittävät odotusarvovektori ja kovarianssimatriisi. Kovarianssimatriisin Σ diagonaalilla on satunnaismuuttujien X i varianssit V ar(x i ) = σ 2 i ja off-diagonaalilla satunnaismuuttujien X i ja X j väliset kovarianssit Cov(X i, X j ) = σ ij. Seuraavassa on listattu joitakin moniulotteisen normaalijakauman ominaisuuksia. Lineaarinen muunnos: Jos x N(µ, Σ), niin y = Ax + b noudattaa jakaumaa y N(Aµ + b, AΣA ). Yksittäisen satunnaismuuttujan jakauma: Jos x N(µ, Σ), niin X i N(µ i, σ 2 i ). Standardoitujen satunnaismuuttujien jakauma: Jos Z 1, Z 2,..., Z d ovat riippumattomia satunnaismuuttujia, joista jokainen noudattaa standardoitua normaalijakaumaa Z i N(0, 1), niin silloin satunnaisvektori z = (Z 1, Z 2,..., Z d ) noudattaa moniulotteista normaalijakaumaa z N(0, I), missä 1 0... 0 0 1... 0 I =.. 0 0... 1 Generointimuunnos: Olkoon z N(0, I) ja olkoon kovarianssimatriisilla Σ matriisihajotelma Σ = CC. Silloin x = µ + Cz noudattaa jakaumaa x N(µ, Σ). Ehdollinen jakauma: Tarkastellaan ositettua satunnaisvektoria x = (x 1, x 2). Jos x N(µ, Σ), eli ( ) (( ) ( )) x1 µ1 Σ11 Σ N, 12, x 2 µ 2 Σ 21 Σ 22 niin silloin ehdollinen satunnaisvektori x 2 x 1 noudattaa moniulotteista normaalijakaumaa x 2 x 1 N(µ 2 + Σ 21 Σ 1 11 (x 1 µ 1 ), Σ 22 Σ 21 Σ 1 11 Σ 12 )

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 10 Satunnaislukujen generoiminen d-ulotteisen normaalijakauman x N(µ, Σ) tilanteessa perustuu seuraavaan algoritmiin. Algoritmi 4. 1. Generoidaan d kappaletta satunnaislukuja z i standardoidusta normaalijakaumasta N(0, 1) ja muodostetaan luvuista vektori z = (z 1, z 2,... z d ). 2. Muodostetaan kovarianssimatriisille matriisihajotelma Σ = CC esimerkiksi ominaisarvohajotelman tai Choleskin hajotelman avulla. 3. Tehdään muunnos x = µ + Cz. Kovarianssimatriisin Σ ominaisarvohajoitelma saadaan tehtyä R-ohjelmistossa eigen() funktiolla. Funktio palauttaa ominaisarvovektorit T = (t 1 : t 2 : : t d ) ja ominaisarvot λ = (λ 1, λ 2,..., λ d ). Matriisihajotelmassa Σ = CC tarvittava matriisi C saadaan nyt ominaisarvohajotelman tilanteessa muodostettua joko kaavalla C = T diag(λ) 1/2 tai kaavalla C = T diag(λ) 1/2 T. Cholenskin hajotelma saadaan tehtyä R:ssä puolestaan funktiolla chol(), mikä palauttaa ylädiagonaalimatriisin niin että C = chol(σ). Tehtävä 7. Generoi 200 alkion satunnaisotos kolmeulotteisesta normaalijakaumasta x N(µ, Σ), missä µ = (3, 5, 2) 1 0.9 0.9 2 Σ = 0.9 1 0.9. 0.9 2 0.9 1

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 11 Wishart ja Hotellingin T 2 jakaumat Noudattakoon satunnaisvektorit x i normaalijakaumaa x i N(0, Σ), i = 1, 2,..., n. Olkoon x 1 x 2 X =. n d satunnaismatriisi. Tällöin matriisi W = X X = noudattaa Wishart jakaumaa vapausastein n: x n n x i x i i=1 W W (n, Σ). Kovarianssimatriisia Σ voidaan kutsua Wishart jakaumassa jakauman skaalamatriisiksi. Tehokkain tapa muodostaa Wishart jakautuneita matriiseja W W (n, Σ) on käyttää seuraavaa algoritmia. Algoritmi 5. 1. Muodostetaan alakolmiomatriisi T = (t ij ) siten, että generoidaan alakolmiomatriisin elementit seuraavasti: (a) t ii χ 2 (n i 1), i = 1,..., d. (b) t ij N(0, 1), i > j. 2. Muodostetaan Choleskin hajotelma Σ = CC. 3. Muodostetaan matriisi W = CTT C. Tehtävä 8. Olkoon W W (50, Σ), missä 1 0.9 0.9 2 Σ = 0.9 1 0.9. 0.9 2 0.9 1 Tutki simuloinnein suhteen W Σ jakaumaa.

kevät 2011 Satunnaislukujen generoiminen TILTA23 - Jarkko Isotalo 12 Olkoon satunnaisvektori y N(0, Σ) ja satunnaismatriisi W W (n, Σ) riippumattomia toisistaan. Tällöin neliömuodon T 2 = ny W 1 y sanotaan noudattavan Hotellingin T 2 jakaumaa vapausastein d ja n. Hotellingin T 2 jakauma on yhteydessä F -jakaumaa seuraavasti: F = T 2 n n d + 1 F d,n d+1. d Tehtävä 9. Testaa aineistosta Animals hypoteesia H 0 : E(body) = 5000, E(brain) = 300.

Tilastollisen tietojenkäsittelyn jatkokurssi TILTA23 Monte Carlo integrointi Jarkko Isotalo - 2011 Monte Carlo integrointi Olkoon ongelmana laskea integraalin θ = b a g(x)dx arvo. Jos ajatellaankin, että integraalissa x on satunnaismuuttuja, joka noudattaa tasajakaumaa x T as(a, b) eli f x (x) = 1 b a, niin yllä oleva integraali on yhtä kuin θ = b a g(x)dx = 1 f x (x) b a b g(x)f x (x)dx 1 = (b a) g(x) a b a dx = (b a) E(g(x)). Odotusarvoa E(g(x)) voidaan nyt numeerisesti estimoida generoimalla ensiksi n kappaleen satunnaisotos x 1, x 2,..., x n tasajakaumasta T as(a, b) ja laskemalla sitten satunnaisotoksen avulla otoskeskiarvo E(g(x)) = g(x) = 1 n n g(x i ). Täten integraalin θ = b g(x)dx numeeriseksi estimaatiksi saadaan a i=1 ˆθ = (b a)g(x i ). Algoritmi 1. Monte Carlo estimaattori integraalille θ = b g(x)dx lasketaan seuraavasti: a 1. Generoidaan x 1, x 2,..., x n tasajakaumasta x T as(a, b). 2. Lasketaan g(x) = 1 n n i=1 g(x i). 3. Lasketaan ˆθ = (b a)g(x). Tehtävä 1. Laske Monte Carlo estimaatti integraalille θ = 1 0 [cos(50x) + sin(20x)] 2 dx.

kevät 2011 Monte Carlo integrointi TILTA23 - Jarkko Isotalo 2 Yleisemmin ongelmana on integraalin θ = A g(x)f x (x)dx arvon laskeminen, missä f x (x) on satunnaisvektorin x tiheysfunktio niin, että A f x(x)dx = 1. Tällöin odotusarvoa θ = E(g(x)) voidaan nyt numeerisesti estimoida generoimalla ensiksi n kappaleen satunnaisotos x 1, x 2,..., x n satunnaisvektorin x jakaumasta ja laskemalla sitten satunnaisotoksen avulla estimaatti ˆθ = E(g(x)) = g(x) = 1 n n g(x i ). Estimaattori ˆθ konvergoituu todennäköisyydellä 1 arvoon θ = E(g(x)) kun n. Algoritmi 2. Monte Carlo estimaattori integraalille θ = g(x)f x (x)dx lasketaan seuraavasti: A i=1 1. Generoidaan x 1, x 2,..., x n jakaumasta x F x (x). 2. Lasketaan ˆθ = g(x) = 1 n n i=1 g(x i). Tehtävä 2. Noudattakoon satunnaisvektori x = (x 1, x 2 ) normaalijakaumaa x N(µ, Σ), missä µ = ( ) 3, Σ = 1 ( ) 1 0.8. 0.8 1 Estimoi odotusarvoa E( x 1 x 2 ).

kevät 2011 Monte Carlo integrointi TILTA23 - Jarkko Isotalo 3 Monte Carlo integroinnin yksi sovellustilanne on satunnaismuuttujan X kertymäfunktion θ = F X (x) = x f X (t)dt arvon numeerinen estimointi. Kertymäfunktion F X (x) numeerinen estimaatti saadaan muodostettua seuraavan algoritmin avulla. Algoritmi 3. Monte Carlo estimaattori kertymäfunktiolle lasketaan seuraavasti: θ = F X (x) = x f X (t)dt 1. Generoidaan x 1, x 2,..., x n jakaumasta X F X (x). 2. Lasketaan jokaiselle x i indikaattorifunktion arvo { 1, x i x; g(x i ) = I(x i x) = 0, x i > x. 3. Lasketaan ˆθ = F X (x) = 1 n n i=1 g(x i) = 1 n n i=1 I(x i x). Kertymäfunktion F X (x) estimoinnin tilanteessa satunnaismuuttuja Y i = g(x i ) = I(X i x) noudattaa jokaisen X i :n tilanteessa Bernoullin jakaumaa Y i Ber(π), missä onnistumisen todennäköisyydelle π on voimassa π = P (X i x) = F Xi (x) = P (X x) = F X (x). Täten estimaattorille ˆθ = F X (x) on voimassa E(ˆθ) = E( F X (x)) = 1 n n E[I(X i x)] = 1 n i=1 n P (X i x) = P (X x) = F X (x). i=1 Tehtävä 3. Estimoi Monte Carlo menetelmällä satunnaismuuttuja X:n kertymäfunktion F X (x) = x arvo x:n arvoilla x = 1, 1.5, 2, 2.5, 3, 3.5, 4. 0 te t2 2 dt, x 0.

kevät 2011 Monte Carlo integrointi TILTA23 - Jarkko Isotalo 4 Integraalin θ = A g(x)f x (x)dx estimaattorin ˆθ = 1 n n i=1 g(x i) varianssi on yhtä kuin V ar(ˆθ) = V ar(g(x)). n Varianssin V ar(g(x)) estimaattina voidaan käyttää yhtälöä V ar(g(x)) = 1 n n [g(x i ) g(x)] 2. i=1 Täten estimaattorin ˆθ = 1 n n i=1 g(x i) varianssin estimaatti on muotoa V ar(ˆθ) = V ar(g(x)) n = n i=1 [g(x i) g(x)] 2 n 2. Keskeisen raja-arvolauseen mukaan, suhde ˆθ E(ˆθ) V ar(ˆθ) noudattaa asymptoottisesti standardoitua normaalijakaumaa N(0, 1) kun n. Koska asymptoottisesti E(ˆθ) = θ, niin parametrille voidaan muodostaa asymptoottinen 100(1 α)% luottamusväliestimaatti välin ] [ˆθ z α/2 V ar(ˆθ), ˆθ + z α/2 V ar(ˆθ) avulla, missä P (Z > z α/2 ) = α/2 kun Z N(0, 1). Tehtävä 4. Muodosta 95% luottamusväliestimaatti integraalille θ = 1 0 [cos(50x) + sin(20x)] 2 dx.

kevät 2011 Monte Carlo integrointi TILTA23 - Jarkko Isotalo 5 Varianssin pienennys Integraalin θ = A g(x)f x (x)dx estimaattorin ˆθ = 1 n n i=1 g(x i) varianssi on yhtä kuin V ar(ˆθ) = V ar(g(x)). n Täten estimaattorin ˆθ varianssi on sitä pienempi mitä suurempi generoitujen satunnaisvektoreiden x i lukumäärä n. Tarkastellaan seuraavaksi menetelmiä, millä estimaattorin ˆθ varianssia voidaan pienentää annetulla n:n arvolla. Negatiivisesti korreloituneet satunnaismuuttujat Olkoon satunnaismuuttujat V ja W riippumattomia toisistaan. Tällöin ( ) V + W V ar = 1 (V ar(v ) + V ar(w )). 2 4 Mikäli V ja W riippuvaisia, niin ( ) V + W V ar = 1 (V ar(v ) + V ar(w ) + 2Cov(V, W )). 2 4 Mikäli satunnaismuuttujat V ja W ovat negatiivisesti korreloituneet, niin silloin varianssi V ar ( ) V +W 2 on pienempi kuin riippumattomuuden tilanteessa. Noudattakoon m-ulotteiset satunnaisvektorin u elementit (u j ) tasajakaumaa u j T as(0, 1). Tällöin 1 u j noudattaa myös tasajakaumaa, mutta nyt u j ja 1 u j ovat negatiivisesti korreloituneet. Generoitaessa satunnaisvektorin x = (x 1, x 2,..., x m ) arvot satunnaismuuttujan X:n jakaumasta, niin käänteistransformaatiomenetelmän tilanteessa satunnaisvektoreiden x = F 1 X (u), x = F 1 X (1 u) jakaumat ovat samat. Tällöin myös otosfunktiot Y = g(x), Y = g(x ) noudattavat samaa jakaumaa. Mikäli funktio g on monotoninen (g on monotoninen jos on voimassa, että kun v j < w j, niin g(v) < g(w)), niin silloin Y = g(x) ja Y = g(x ) ovat negatiivisesti korreloituneet.

kevät 2011 Monte Carlo integrointi TILTA23 - Jarkko Isotalo 6 Satunnaismuuttujien Y = g(x) ja Y = g(x ) negatiivisesti korreloituneisuutta voidaan käyttää nyt hyväksi muodostettaessa minimivarianssista estimaattoria θ:lle. Estimaattorin θ = 1 n (g(x 1) + g(x 1 ) + g(x 2 ) + g(x 2 ) + + g(x n/2 ) + g(x n/2 )) = 2 n n/2 ( ) g(xi ) + g(x i ) i=1 2 varianssi on pienempi annetulla n:n arvolla kuin estimaattorin ˆθ = 1 n n g(x i ). i=1 Tehtävä 5. Muodosta integraalille θ = estimaatti θ. 1 0 [cos(50x) + sin(20x)] 2 dx

kevät 2011 Monte Carlo integrointi TILTA23 - Jarkko Isotalo 7 Painotuspoiminta Tarkastellaan integraalia θ = A g(x)f x (x)dx. Integraali θ voidaan kirjoittaa muodossa θ = g(x) f x(x) φ x (x) φ x(x)dx. Jos φ x (x) on alueella A määritelty tiheysfunktio, niin silloin ( θ = E g(x) f ) x(x). φ x (x) Integraalin θ Monte Carlo estimaatiksi saadaan A ˆθ = g(x) f x(x) φ x (x) = 1 n n i=1 g(x i ) f x(x i ) φ x (x i ), missä x 1, x 2,..., x n ovat otoksia jakaumasta x φ x (x). Tiheysfunktiota φ x (x) kutsutaan painotuspoimintafunktioksi (engl. importance sampling function). Hyvällä painotuspoimintafunktion valinnalla voidaan estimaattorin ˆθ varianssia pienentää. Tehtävä 6. Muodosta integraalille θ = 1 0 e x 1 + x 2 dx Monte Carlo estimaatti painotuspoimintaa hyväksi käyttäen.

kevät 2011 Monte Carlo integrointi TILTA23 - Jarkko Isotalo 8 Tehtävä 7. Noudattakoon satunnaisvektori x = (x 1, x 2 ) normaalijakaumaa x N(µ, Σ), missä µ = ( ) 3, Σ = 1 ( ) 1 0.8. 0.8 1 Estimoi todennäköisyyttä P (2 x 1 3, 0 x 2 1). Tehtävä 8. Noudattakoon satunnaisvektori x = (x 1, x 2 ) normaalijakaumaa x N(µ, Σ), missä µ = ( ) 3, Σ = 1 ( ) 1 0.8. 0.8 1 Piirrä satunnaisvektorin x tiheysfunktion kuvaaja.

Tilastollisen tietojenkäsittelyn jatkokurssi TILTA23 Numeerinen optimointi Jarkko Isotalo - 2011 Valmiit optimointifunktiot Tarkastellaan seuraavaa optimointiongelmaa max g(θ). θ Θ R-ohjelmistosta löytyy useita valmiita funktioita, joiden avulla optimointiongelmia voidaan ratkaista. Yksiulotteisia optimointiongelmia voidaan ratkaista optimize funktion avulla ja useampiulotteisia ongelmia nlm ja optim funktioiden avulla. Lisäksi suurimman uskottavuuden estimointiin voidaan käyttää esim. mle funktiota. Tehtävä 1. Ratkaise optimointiongelma max 1 θ log(1 + log(θ)). log(1 + θ) Tehtävä 2. Generoi ensiksi 100 havainnon otos y sekoitusjakaumasta 1 4 N(µ 1, 1) + 3 4 N(µ 2, 1), kun on tiedossa, että µ 1 = 0, µ 2 = 2. Muodosta aineiston avulla sen jälkeen suurimman uskottavuuden estimaatit parametreille µ 1, µ 2.

kevät 2011 Numeerinen optimointi TILTA23 - Jarkko Isotalo 2 Tehtävä 3. Generoi ensiksi 100 havainnon otos y normaalijakaumasta N(µ, σ 2 ) kun µ = 45 ja σ 2 = 2.5 ja muodosta generoidun aineiston avulla suurimman uskottavuuden estimaatit parametreille µ, σ 2. Tehtävä 4. Generoi ensiksi 100 havainnon otos y Poissonin jakaumasta P oi(λ) kun λ = 10 ja muodosta generoidun aineiston avulla suurimman uskottavuuden estimaatti parametrille λ.

kevät 2011 Numeerinen optimointi TILTA23 - Jarkko Isotalo 3 Tehtävä 5. Generoi 100 havainnon satunnaisotos standardoidusta normaalijakaumasta Z N(0, 1) optimaalisella hyväksymis- ja hylkäysmenetelmän avulla käyttäen sopivaa Studentin t-jakaumaa instrumenttijakaumana. Tehtävä 6. Generoi 100 havainnon satunnaisotos lineaarisesta mallista y t = β 0 + β 1 t + σε t parametrien arvoilla β 0 = 1, β 1 = 2, σ = 20 kun oletetaan, että virhetermi ε t noudattaa (a) standardoitua normaalijakaumaa ε t N(0, 1), (b) Studentin t-jakaumaa vapausastein df = 3.5. Muodosta generoidusta datasta suurimman uskottavuuden estimaatit parametreille ja estimaatien varianssien estimaatit.

Tilastollisen tietojenkäsittelyn jatkokurssi TILTA23 Monte Carlo simuloinnit testauksessa Jarkko Isotalo - 2011 Perusteet Monte Carlo simulointien avulla voidaan tutkia testisuureiden jakaumia jonkin tietyn todennäköisyysjakauman tilanteessa. Noudattakoon satunnaisvektori x jakaumaa x F x,θ, missä θ on tuntematon parametrivektori, ja olkoon satunnaisotos jakaumasta x F x,θ. x 1 x 2 X =. Olkoon ongelmana nyt testata parametrivektoriin θ liittyvää hypoteesiä x n H 0 : θ Θ 0, H a : θ Θ 1, missä Θ 0 ja Θ 1 ovat joitakin parametriavaruuden aliavaruuksia. Olkoon otosfunktio g = g(x) valittu siksi testisuureksi, jonka saamien arvojen perusteella hypoteesin testauksen päättely tehdään. Monte Carlo simulointien avulla voidaan nyt tutkia, kuinka otosfunktio g jakautuu jakauman x F x,θ tilanteessa. Simulointien avulla voidaan esimerkiksi muodostaa testisuureen g = g(x) empiirinen jakauma H 0 hypoteesin vallitessa. Varsinainen päättely hypoteesin testauksessa lopulta perustuu havaitusta aineistosta X lasketun testisuureen arvoon g = g(x ). Vertaamalla havaittua testisuureen arvoa g testisuureen g empiiriseen jakaumaan, saadaan havaitulle arvolle g muodostettua empiirinen p-arvo, jonka perusteella sitten voidaan tehdä päättelyitä parametrivektorin θ arvosta. Algoritmi 1. Hypoteesin testaus empiirisen p-arvon avulla jakauman x F x,θ tilanteessa: 1. Lasketaan testisuuren g = g(x ) arvo havaitusta aineistosta X. 2. Jokaisella satunnaisotos kerralla b = 1, 2,..., B: (a) Generoidaan n:n havainnon satunnaisotos X b jakaumasta x F x,θ kun H 0 hypoteesi on voimassa. (b) Lasketaan satunnaisotoksesta X b testisuureen arvo g b = g(x b ). 3. Lasketaan empiirinen p-arvo:

kevät 2011 Monte Carlo simuloinnit testauksessa TILTA23 - Jarkko Isotalo 2 (a) Yksisuuntaisen (suurempi kuin) testisuureen empiirinen p-arvo ˆp lasketaan kaavalla ˆp = 1 + #{g b g } = 1 + B b=1 I(g b g ). B + 1 B + 1 (b) Kaksisuuntaisen testisuureen empiirinen p-arvo ˆp lasketaan kaavalla ô == 1 + #{g b g } B + 1 = 1 + B b=1 I(g b g ), B + 1 ja jos ô < 0.5, niin ˆp = 2ô, ja jos ô > 0.5, niin ˆp = 2(1 ô). 4. Hylätään H 0 hypoteesi jos valitulla merkitsevyystasolla α on voimassa ˆp α. Monte Carlo simuloinnit mahdollistaa tunnettujen testisuureiden käytön tilanteissa, missä oletettu todennäköisyysjakauma on jokin yleensä oletettu normaalijakauma. Simulointien avulla voidaan myös testisuureeksi valita jokin erikoinen otosfunktio, jonka teoreettista jakaumaa on vaikea johtaa. Tehtävä 1. Testaa aineistosta Animals hypoteesia trimmatulla t-testillä. H 0 : E(brain) = 400

kevät 2011 Monte Carlo simuloinnit testauksessa TILTA23 - Jarkko Isotalo 3 Tuntematon parametrivektori θ = (θ 1, θ 2) voi olla ositettu siten, että hypoteesit liittyvät osaan θ 1 : H 0 : θ 1 Θ 10, H a : θ 1 Θ 11. Tällöin osavektorin θ 2 vaikutus testauksessa korvataan sopivalla estimaatilla ˆθ 2. Tehtävä 2. Testaa noudattaako aineiston sijainti.txt muuttujat kaksiulotteista tasajakaumaa. Tehtävä 3. Mallinnetaan seuraavaa dataa library(faraway) data(teengamb) > head(teengamb) sex status income verbal gamble 1 1 51 2.00 8 0.0 2 1 28 2.50 8 0.0 3 1 37 2.00 6 0.0 4 1 28 7.00 4 7.3 5 1 65 2.00 8 19.6 6 1 61 3.47 6 0.1 lineaarisella mallilla gamble = β 0 + β 1 sex + β 2 status + β 3 income + β 4 verbal + σε, missä virhetermin ε oletetaan noudattavan t-jakaumaa vapausastein df = 2. Testaa hypoteesia H 0 : β 1 = β 2 = β 3 = β 4 = 0.

kevät 2011 Monte Carlo simuloinnit testauksessa TILTA23 - Jarkko Isotalo 4 Testattaessa hypoteeseja, testin voimakkuus π(θ ) on todennäköisyys, että H 0 hypoteesi hylätään parametrivektorin arvolla θ. Mikäli testin voimakkuutta ei pystytä analyyttisesti laskemaan, sitä voidaan estimoida Monte Carlo simuloinnein tilanteessa, missä θ Θ 1. Merkitään α:lla testin valittua merkitsevyystasoa. Testin voimakkuus π(θ ) on määritelty kaikilla arvoilla θ Θ, mutta on voimassa π(θ ) α kun θ Θ 0. Algoritmi 2. Testin voimakkuuden estimoiminen jakauman x F x,θ tilanteessa: 1. Valitse merkitsevyystaso α. 2. Valitse parametrivektorin arvo θ. 3. Määritä testisuuren g = g(x) kriittiset alueet C α H 0 hypoteesin hylkäämiseksi merkitsevyystason α perusteella. 4. Jokaisella satunnaisotos kerralla b = 1, 2,..., B: (a) Generoidaan n:n havainnon satunnaisotos X b jakaumasta x F x,θ kun parametrivektori saa arvon θ. (b) Lasketaan satunnaisotoksesta X b testisuureen arvo g b = g(x b ). 5. Lasketaan estimaatti π(θ ) = 1 B B b=1 I(g b C α ). Tehtävä 4. Vertaile aineistosta Animals hypoteesin H 0 : E(brain) = 400 testauksessa käytettyjen trimmattujen t-testin tehokkuuksia.

Tilastollisen tietojenkäsittelyn jatkokurssi TILTA23 Permutaatiotestaus Jarkko Isotalo - 2011 Permutaatiotestaus kahden muuttujan tilanteessa Tarkastellaan ensiksi permutaatiotestauksen perusteita esimerkkien kautta. Tarkastellaan permutaatiotestausta kahden otoksen tilanteessa. Olkoon x = (x 1, x 2,..., x n ) ja y = (y 1, y 2,..., y m ) satunnaisotoksia jakaumista X F X ja Y F Y, ja olkoon z = (x, y) yhdistetty (järjestetty) otos. Permutaatiotestausta käytetään usein epäparametrisissa päättelytilanteissa, missä ongelmana on testata jakaumien samankaltaisuutta hypoteeseillä H 0 : F X = F Y H a : F X F Y. Olkoon otosfunktio g = g(x, y) = g(z) valittu siksi testisuureksi, jonka saamien arvojen perusteella hypoteesin testauksen päättely tehdään. Tällöin permutaatiotestaus muodostetaan seuraavan algoritmin perusteella: Algoritmi 1. 1. Lasketaan testisuureen g = g(x, y ) = g(z ) arvo havaitusta aineistosta z = (x, y ). 2. Jokaisella permutaatio-otos kerralla b = 1, 2,..., B: (a) Generoidaan permutaatio-otos z b = (x b, y b ) sekoittamalla havaitun otoksen alkioiden järjestys. (b) Lasketaan permutaatio-otoksesta z b otossuureen arvo g b = g(x b, y b ) = g(z b ). 3. Lasketaan empiirinen p-arvo: (a) Yksisuuntaisen (suurempi kuin) testisuureen empiirinen p-arvo ˆp lasketaan kaavalla ˆp = 1 + #{g b g } = 1 + B b=1 I(g b g ). B + 1 B + 1 (b) Kaksisuuntaisen testisuureen empiirinen p-arvo ˆp lasketaan kaavalla ô == 1 + #{g b g } B + 1 = 1 + B b=1 I(g b g ), B + 1 ja jos ô < 0.5, niin ˆp = 2ô, ja jos ô > 0.5, niin ˆp = 2(1 ô). 4. Hylätään H 0 jos valitulla merkitsevyystasolla α on voimassa ˆp α.

kevät 2011 Permutaatiotestaus TILTA23 - Jarkko Isotalo 2 Tehtävä 1. Generoi aineistoksi 100 satunnaisotos jakaumista X N(2, 1), Y N(5, 2). Tee permutaatiotestaus koskien hypoteesejä H 0 : F X = F Y H a : F X F Y t-testisuureen ja Kolmogorov Smirnov testisuureen avulla.

kevät 2011 Permutaatiotestaus TILTA23 - Jarkko Isotalo 3 Permutaatiotestausta voidaan käyttää epäparametriseen kahden otoksen riippumattomuuden testaamiseen: H 0 : F XY = F X F Y H a : F XY F X F Y. Tehtävä 2. Testaa aineistosta Animals ovatko muuttujat brain ja body keskenään riippumattomia. Tehtävä 3. Merkitään aineiston library(faraway) data(teengamb) > head(teengamb) sex status income verbal gamble 1 1 51 2.00 8 0.0 2 1 28 2.50 8 0.0 3 1 37 2.00 6 0.0 4 1 28 7.00 4 7.3 5 1 65 2.00 8 19.6 6 1 61 3.47 6 0.1 muuttujia siten, että Testaa hypoteeseja X = (gamble sex = 1), Y = (gamble sex = 0). H 0 : P (X > Y ) = 1 2 H a : P (X > Y ) 1 2.

kevät 2011 Permutaatiotestaus TILTA23 - Jarkko Isotalo 4 Moniulotteiset testaukset Edellä tarkasteltu yhden muuttujan kahden otoksen permutaatiotestaus voidaan yleistää esimerkiksi usean muuttujan kahden otoksen permutaatiotestaukseen. Olkoon x = (x 1, x 2,..., x d ) ja y = (y 1, y 2,..., y d ) d-ulotteisia satunnaisvektoreita, jotka noudattavat jakaumia x F x ja y F y. Permutaatiotestauksen avulla voidaan nyt testata hypoteeseja H 0 : F x = F y, H a : F x F y. Merkitään matriiseilla x 1 x 2 y 1 y 2 X =., Y =. x n satunnaisotoksia jakaumista x F x ja y F y ja matriisilla Z = (X : Y ) yhdistettyä otosta. Permutaatiotestaus perustuu nyt algoritmiin 1. kun testisuureeksi on valittu otosfunktio g = g(x, Y) = g(z). Tehtävä 4. Testaa sopivan testisuureen avulla onko Prewt ja Postwt muuttujien yhteisjakauma sama kontrolleilla ja muut luokassa. y m > library(mass) > data(anorexia) > anorexia Treat Prewt Postwt 1 Cont 80.7 80.2 2 Cont 89.4 80.1 3 Cont 91.8 86.4 4 Cont 74.0 86.3 5 Cont 78.1 76.1

kevät 2011 Permutaatiotestaus TILTA23 - Jarkko Isotalo 5 Usean muuttujan kahden otoksen riippumattomuuden testaamiseen H 0 : F xy = F x F y, H a : F xy F x F y voidaan käyttää testisuureena esimerkiksi Wilksin Λ testisuuretta: missä S = 1 n 2 n i=1 (( xi y i ) Λ = ( x ȳ Tehtävä 5. Tarkastellaan iris aineiston osaa S S 11 S 22, )) (( ) xi y i )) ( x = ȳ ( S11 S 12 S 21 S 22 ). > data(iris) > subdata<-iris[1:50,] > subdata Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa.. Merkitään x = (Sepal.Length, Sepal.Width), y = (Petal.Length, Petal.Width). Testaa hypoteeseja H 0 : F xy = F x F y, H a : F xy F x F y, käyttäen testisuureena Wilksin Λ testisuuretta.

kevät 2011 Permutaatiotestaus TILTA23 - Jarkko Isotalo 6 Permutaatiotestausta voidaan yleistää myös kahden otoksen tilanteesta useamman otoksen tilanteeseen. Kolmen satunnaismuuttujan X, Y ja W tilanteessa permutaatiotestauksella voidaan testata jakaumien samankaltaisuutta tai jakaumien riippumattomuutta H 0 : F X = F Y = F W, H a : F X F Y F W, H 0 : F XY W = F X F Y F W, H a : F XY W F X F Y F W. Testisuureiksi voidaan valita kahden otoksen tilanteessa käytettyjen testisuureiden erilaisia yleistyksiä. Tehtävä 6. Testaa ovatko ristiintaulukon muuttujat keskenään riippumattomia. Marihuana: Kyllä Ei Alkoholi: Kyllä Tupakka: Kyllä 911 538 Ei 44 456 Alkoholi: Ei Tupakka: Kyllä 3 43 Ei 2 279

Tilastollisen tietojenkäsittelyn jatkokurssi TILTA23 Bootstrap estimointi Jarkko Isotalo - 2011 Epäparametrinen bootstrap Epäparametrinen bootstrap on simulointimenetelmä, missä havaitusta otoksesta x 1 x 2 X =. poimitaan palauttamalla (resampling) uusia otoksia X b = Bootstrapin avulla voidaan tutkia jonkin otosfunktion g = g(x) jakaumaa. Bootstrapissä alkuperäisestä otoksesta X muodostetaan uusia otoksia b = 1, 2,..., B kertaa ja jokaisen bootstrap otoksen tilanteessa X b lasketaan otosfunktion g b = g b (X b ) arvo. Saatujen otosfunktioiden arvojen g b avulla voidaan estimoida otosfunktion g jakaumaa. x n x 1b x 2b. x nb Olkoon x 1 x 2 X =. satunnaisotos satunnaismuuttujan x F x jakaumasta. Olkoon lisäksi θ jokin tuntematon parametri ja olkoon ˆθ = ˆθ(X) otoksesta X laskettu tuntemattoman parametrin estimaatti. Nyt siis g = ˆθ. Bootstrap menetelmällä voidaan estimoida estimaattorin ˆθ jakaumaa Fˆθ. Bootstrap menetelmää käytetään erityisesti erilaisten luottamusväliestimaattien muodostamiseen tuntemattomille parametreille θ. Algoritmi 1. x n 1. Jokaisella bootstrap estimointikerralla b = 1, 2,..., B (a) Generoidaan otos X b poimimalla n:n alkion otos havaitusta otoksesta X palauttamalla. (b) Lasketaan bootstrap estimaatti ˆθ b = ˆθ b (X b ) bootstrap otoksesta X b. 2. Bootstrap estimaatti estimaattorin ˆθ = ˆθ(X) jakaumalle Fˆθ on estimaattien ˆθ 1,..., ˆθ B empiirinen jakauma.

kevät 2011 Bootstrap estimointi TILTA23 - Jarkko Isotalo 2 Tehtävä 1. Generoi 100 havainnon aineisto satunnaisvektorin x = (x 1, x 2, x 3 ) jakaumasta x N(µ, σ 2 I), missä 0 µ = 0, σ 2 = 1. 0 Estimoi parametrivektori µ suurimman uskottavuuden estimaattorin ja James-Stein estimaattorin jakaumaa bootstrap menetelmän avulla. Tehtävä 2. Estimoi muuttujien Prewt ja Postwt välisen otoskorrelaatiokertoimen jakaumaa kontrolli luokassa bootstrap menetelmällä. > library(mass) > data(anorexia) > anorexia Treat Prewt Postwt 1 Cont 80.7 80.2 2 Cont 89.4 80.1 3 Cont 91.8 86.4 4 Cont 74.0 86.3 5 Cont 78.1 76.1

kevät 2011 Bootstrap estimointi TILTA23 - Jarkko Isotalo 3 Bootstrap menetelmän avulla voidaan estimoida yksittäisen estimaattorin ˆθ hajontaa (keskivirhettä) se(ˆθ) = σˆθ käyttämällä kaavaa missä ˆθ b = 1 B B b=1 ˆθ b. Myös estimaattorin ˆθ harhan ŝe(ˆθ) = ˆσˆθ = 1 B (ˆθb B 1 ˆθ ) 2, b b=1 bias(ˆθ) = E(ˆθ θ) suuruutta voidaan estimoida bootstrap estimaattoreiden avulla: bias(ˆθ) = ˆθ b ˆθ. Tehtävä 3. Laske Animals aineiston muuttujan brain otoskeskiarvon ja otoshajonnan harhalle (bias) ja keskivirheelle (standard error) bootstrap estimaatit.

kevät 2011 Bootstrap estimointi TILTA23 - Jarkko Isotalo 4 Moniulotteisessa tilanteessa estimaattorin ˆθ kovarianssimatriisia voidaan estimoida bootstrap estimaattoreiden avulla käyttämällä kaavaa Ĉov(ˆθ) = 1 B 1 Vastaavasti harhan estimaatiksi saadaan B (ˆθb ˆθ ) b (ˆθb ˆθ ) b. b=1 bias(ˆθ) = ˆθ b ˆθ. Luottamusväliestimointi Bootstrap menetelmän avulla voidaan muodostaa luottamusväliestimaatteja tuntemattomalle yksittäiselle parametrille θ tilanteessa, missä estimaattorin ˆθ jakauma Fˆθ on tuntematon. Luottamusväliestimaatteja voidaan muodostaa usealla eri tavalla. Tarkastellaan ensiksi z-intervalli ja t-intervalli estimaatteja. Tuntemattoman parametrin θ 100(1 α)% z-luottamusväli saadaan muodostettua kaavalla (ˆθ zα/2ˆσˆθ, ˆθ + z α/2ˆσˆθ), missä ˆσˆθ on muodostettu bootstrap menetelmän avulla, ja z α/2 on luku jolle voimassa P (Z > z α/2 ) = α/2, kun Z N(0, 1). Tuntemattoman parametrin θ 100(1 α)% luottamusväli saadaan muodostettua kaavalla (ˆθ ˆt 1 α/2ˆσˆθ, ˆθ ˆt α/2ˆσˆθ), missä ˆσˆθ, ˆt 1 α/2 ja ˆt α/2 on muodostettu bootstrap menetelmän avulla seuraavan algoritmin mukaisesti. Algoritmi 2. 1. Muodostetaan estimaatti ˆθ 2. Jokaisella bootstrap estimointikerralla b = 1, 2,..., B (a) Generoidaan otos x b = (x 1, x 2,..., x n) poimimalla n:n alkion otos havaitusta otoksesta x = (x 1, x 2,..., x n ) palauttamalla. (b) Lasketaan bootstrap estimaatti ˆθ b = ˆθ b (x b ) bootstrap otoksesta x b. (c) Generoidaan C kappaletta bootstrap otoksia x c poimimalla n:n alkion otoksia bootstrap otoksesta x b. (d) Lasketaan bootstrap estimaatti ŝeˆθb bootstrap otoksien x c avulla. (e) Lasketaan bootstrap estimaatti ˆt b = ˆθ b ˆθ ŝeˆθb bootstrap otoksesta x (b). 3. Etsitään otoskvantiilit ˆt 1 α/2 ja ˆt α/2 arvojen ˆt 1,..., ˆt B perusteella.

kevät 2011 Bootstrap estimointi TILTA23 - Jarkko Isotalo 5 4. Lasketaan estimaatti ˆσˆθ bootstrap estimaattien ˆθ b avulla. 5. Muodostetaan luottamusväli (ˆθ ˆt 1 α/2ˆσˆθ, ˆθ ˆt α/2ˆσˆθ). Tehtävä 4. Laske Animals aineiston brain muuttujan odotusarvolle µ 95% luottamusväliestimaatti bootstrap menetelmällä.

kevät 2011 Bootstrap estimointi TILTA23 - Jarkko Isotalo 6 Tuntemattomalle parametrille θ lisäksi muodostaa basic bootstrap, percentile bootstrap ja better bootstrap luottamusväliestimaatit. Basic bootstrapin tilanteessa parametrin θ 100(1 α)% luottamusväli on muotoa (2ˆθ ˆθ 1 α/2, 2ˆθ ˆθ α/2 ), missä ˆθ 1 α/2 ja ˆθ α/2 ovat bootstrap estimaateista ˆθ b laskettuja otoskvantiileja 1 α/2 ja α/2. Percentile bootstrapin tilanteessa parametrin θ 100(1 α)% luottamusväli on muotoa (ˆθα/2, ˆθ 1 α/2 ), ja better bootstrap intervalli on muotoa (ˆθα1, ˆθ α2), missä ja ( α 1 = Φ z 0 + α 2 = Φ ( z 0 + ) z 0 + z α/2, 1 a(z 0 + z α/2 ) z 0 + z 1 α/2 1 a(z 0 + z 1 α/2 ) ( ) z 0 = Φ 1 1 B I(ˆθ b < B ˆθ), b=1 n i=1 a = (ˆθ (i) ˆθ (i) ) 3 6( n i=1 (ˆθ (i) ˆθ. (i) ) 2 ) 3/2 ), Tehtävä 5. Laske Animals aineiston brain muuttujan odotusarvolle µ 95% luottamusväliestimaatteja eri bootstrap menetelmillä.

kevät 2011 Bootstrap estimointi TILTA23 - Jarkko Isotalo 7 Bootstrap lineaarisessa mallissa Tarkastellaan epäparametrisen bootstrap menetelmän soveltamista lineaariseen malliin y i = β 0 + β 1 x 1,i + β 2 x 2,i + + β k x k,i + ε i = x iβ + ε i, missä virhetermistä ε i oletetaan, että E(ε i ) = 0, Var(ε i ) = σ 2, missä σ 2 on tuntematon. Lisäksi oletetaan, että Cov(ε i, ε j ) = 0 kaikille i j. Merkitään y 1 y n x 1 x 2 x n y 2 y =., X =.. Tällöin parametrivektorin β pienimmän neliösumman estimaattori on muotoa ˆβ = OLSE(β) = (X X) 1 X y, ja mallin residuaaleiksi saadaan havaittujen ja sovitearvojen erotus e = y X ˆβ. Lineaarisessa mallissa selittävien tekijöiden arvoja x i pidetään klassisesti kiinteinä niin, että niiden arvot voidaan itse määritellä. Täten bootstrap otoksia y b pitäisi muodostaa ehdolla, että arvot x i on lukittu. Lineaarisessa mallissa bootstrap otoksia muodostetaankin residuaaleista e. Algoritmi 3. 1. Muodostetaan pienimmän neliösumman estimaatti ˆβ = OLSE(β) = (X X) 1 X y, 2. Muodostetaan residuaalit e = y X ˆβ. 3. Jokaisella bootstrap estimointikerralla b = 1, 2,..., B (a) Generoidaan otos e b poimimalla n:n alkion otos residaaleista e = palauttamalla. (b) Muodostetaan bootstrap otos (c) Lasketaan bootstrap estimaatti bootstrap otoksesta x b. y b = X ˆβ + e b. ˆβ b = (X X) 1 X y b Bootstrap estimaattien ˆβ b avulla voidaan sitten laskea parametreille β, tai yleisemmin erilaisille lineaarisille yhdisteille k β, erilaisia luottamusvälejä.

kevät 2011 Bootstrap estimointi TILTA23 - Jarkko Isotalo 8 Tehtävä 6. Mallinnetaan seuraavaa dataa library(faraway) data(teengamb) > head(teengamb) sex status income verbal gamble 1 1 51 2.00 8 0.0 2 1 28 2.50 8 0.0 3 1 37 2.00 6 0.0 4 1 28 7.00 4 7.3 5 1 65 2.00 8 19.6 6 1 61 3.47 6 0.1 lineaarisella mallilla gamble = β 0 + β 1 sex + β 2 status + β 3 income + β 4 verbal + ε. Muodosta parametreille β 0,..., β 4 erilaisia luottamusvälejä.

kevät 2011 Bootstrap estimointi TILTA23 - Jarkko Isotalo 9 Parametrinen bootstrap Parametrisessä bootstrap on tilanne sellainen, että havaittu otos x 1 x 2 X =. x n katsotaan olevan satunnaisotos satunnaisvektorin x F x;θ jakaumaa määrittävä tuntematon parametrivektori. jakaumasta, missä θ on Mikäli otosfunktio g(x) on parametrivektorin θ estimaattori ˆθ = g(x), niin jakaumaa F x;θ voidaan estimoida jakaumalla F x;ˆθ. Olkoon kiinnostuksen kohteena estimoida estimaattorin ˆθ = g(x) jakaumaa Fˆθ. Parametrisessä bootstrapissä jakaumaa Fˆθ estimoidaan generoimalla bootstrap otoksia X b estimoidusta jakaumasta F x;ˆθ ja sitten laskemalla bootstrap otoksissa bootstrap estimaatit ˆθ b = g(x b ) parametrivektorille θ. Algoritmi 4. 1. Muodostetaan estimaatti ˆθ = g(x) havaitusta aineistosta X. 2. Jokaisella bootstrap estimointikerralla b = 1, 2,..., B (a) Generoidaan n:n havainnon otos X b estimoidusta jakaumasta x b F x;ˆθ. (b) Lasketaan bootstrap estimaatti ˆθ b = g(x b ) bootstrap otoksesta X b. 3. Bootstrap estimaatti estimaattorin ˆθ = g(x) jakaumalle Fˆθ on estimaattien ˆθ 1,..., ˆθ B empiirinen jakauma. Tehtävä 7. Mallinnetaan seuraavaa dataa library(faraway) data(teengamb) > head(teengamb) sex status income verbal gamble 1 1 51 2.00 8 0.0 2 1 28 2.50 8 0.0 3 1 37 2.00 6 0.0 4 1 28 7.00 4 7.3 5 1 65 2.00 8 19.6 6 1 61 3.47 6 0.1 lineaarisella mallilla gamble = β 0 + β 1 sex + β 2 status + β 3 income + β 4 verbal + σε, missä virhetermin ε oletetaan noudattavan t-jakaumaa vapausastein df = 1. Muodosta parametreille β 0,..., β 4 erilaisia luottamusvälejä.

kevät 2011 Bootstrap estimointi TILTA23 - Jarkko Isotalo 10 Jackknife estimointi Jackknife menetelmässä havaitusta otoksesta x 1 x 2 x n X =. muodostetaan uusia otoksia X (i) = x 1. x i 1 x i+1. jättämällä vuoron perään i:nes havainto pois alkuperäisestä otoksesta. Jackknife menetelmän avulla voidaan estimoida estimaattorin ˆθ = g(x) hajontaa ja harhaa. Algoritmi 5. x n 1. Jokaisella jackknife estimointikerralla i = 1, 2,..., n: (a) Muodostetaan jackknife otos X (i) havaitusta otoksesta X jättämällä i:nes havainto pois havaitusta otoksesta. (b) Lasketaan jackknife estimaatti ˆθ (i) = g(x (i) ) jackknife otoksesta X (i). 2. Estimoidaan jackknife estimaattien ˆθ (1),..., ˆθ (n) avulla esim. estimaattorin ˆθ kovarianssiamatriisia ja harhaa. Estimaattorin ˆθ kovarianssimatriisia voidaan estimoida jackknife estimaattoreiden avulla käyttämällä kaavaa Ĉov(ˆθ) = n n 1 n (ˆθ(i) ˆθ ) ( ) (ˆθ(i) ˆθ ) ( ). i=1 Vastaavasti harhan estimaatiksi saadaan bias(ˆθ) = (n 1)(ˆθ ( ) ˆθ), missä ˆθ ( ) = 1 n n i=1 ˆθ (i). Tehtävä 8. Laske Animals aineiston brain muuttujan odotusarvon µ estimaattorin harhalle (bias) ja keskivirheelle (standard error) estimaatit jackknife menetelmällä.

Tilastollisen tietojenkäsittelyn jatkokurssi TILTA23 Markovin ketju Monte Carlo -menetelmistä Jarkko Isotalo - 2011 Markovin ketjut Aikaisemmin ollaan tarkasteltu satunnaislukujen x = (x 1, x 2,... x n ) generoimista satunnaismuuttujan X jakaumasta X F X f X. Generoinneille on ollut ominaista, että saatujen satunnuslukujen x = (x i ) voidaan olettaa olevan toisistaan riippumattomia. Nyt siirrytään tarkastelemaan satunnaislukujen generoimista tilanteessa, missä generoidut satunnaisluvut x = (x i ) ovat riippuvaisia toisistaan. Markovin ketju on sellainen satunnaislukujen sarja x t = (x 0, x 1,... x t 2, x t 1, x t ), missä satunnaisluvulle x t on voimassa, että sen ehdollinen jakauma toteuttaa ominaisuuden x t x 0, x 1,... x t 2, x t 1 = x t x t 1 x t x t 1. Eli siis Markovin ketjussa satunnaismuuttuja x t riippuu vain aikaisemmasta havainnosta x t 1. Satunnaismuuttujan x t x t 1 ehdollista tiheysfunktiota kutsutaan siirtymäytimeksi tai Markovin ytimeksi: x t x t 1 f xt x t 1 = k(x t 1, x t ). Markovin ketjua x t kutsutaan stationaariseksi ketjuksi, mikäli on voimassa, että jos x t 1 f X, niin x t f X. Stationaarisuuden ollessa voimassa, jakaumaa X f X kutsutaan Markovin ketjun x t stationaariseksi jakaumaksi. Stationaarisuuden vallitessa on voimassa, että k(x t 1, x t )f X (x t 1 ) dx t 1 = f X (x t ). A Stationaarinen Markovin ketju x t on ergodinen stationaarinen Markovin ketju, mikäli ketju x t konvergoituu stationaariseen jakaumaa X millä tahansa alkuarvolla x 0. Mikäli Markovin ketju x t on ergodinen stationaarinen ketju, niin silloin g(x T ) = 1 T T g(x t ) t=0 konvergoituu odotusarvoon E(g(X)) todennäköisyydellä 1, kun T integroituvan funktion g tilanteessa.

kevät 2011 MCMC-menetelmistä TILTA23 - Jarkko Isotalo 2 Markovin ketju Monte Carlo menetelmissä perusideana on estimoida odotusarvoa E(g(X)) estimaattorilla g(x T ) = 1 T g(x t ), T missä satunnaismuuttuja x t noudattaa Markovin ydintä t=0 x t x t 1 k(x t 1, x t ). Markovin ketju Monte Carlo menetelmiä käytetään erityisesti bayesiläisessä päättelyssä, missä ongelmana voi olla esimerkiksi parametrifunktion g(θ) posterijakauman odotusarvon määrittäminen: E(g(θ x)) = g(θ)f θ x (θ) dθ. Tehtävä 1. Noudattakoon satunnaismuuttuja x t ketjua x t = αx t 1 + ε t, missä ε t N(0, 1) riippumaton x t 1 :stä ja α = 0.9. Mikä on tässä tilanteessa Markovin ydin k(x t 1, x t )? Generoi ketju x t alkuarvolla x 0 N(0, 1) ja tutki onko ketju stationaarinen stationaarijakaumaan X N(0, 1/(1 α 2 )).

kevät 2011 MCMC-menetelmistä TILTA23 - Jarkko Isotalo 3 Metropolis Hastings algoritmi Metropolis Hastings algoritmi on menetelmä, minkä avulla saadaan generoituja havaintoja x t = (x 0, x 1,... x t 2, x t 1, x t ) stationaarisesta Markovin ketjusta niin, että x t :n jakauma noudattaa tavoiteltua jakaumaa X f X. Algoritmi 1. 1. Valitaan ehdollinen instrumenttijakauma y φ(y x t 1 ). 2. Generoidaan havainto y instrumenttijakaumasta φ(y x t 1 ) ja asetetaan x 0 = y. 3. Toistetaan seuraavia kohtia kunnes x t f X : (a) Generoidaan havainto y instrumenttijakaumasta φ(y x t 1 ). (b) Generoidaan u tasajakaumasta U T as(0, 1). (c) Jos u f X(y)φ(x t 1 y) f X (x t 1 )φ(y x t 1 ), niin asetetaan x t = y, muuten x t = x t 1. Instrumenttijakauma φ(y x t 1 ) voidaan käytännössä valita erittäin vapaasti. Tärkeimpänä ehtona on, että jakauman φ(y x t 1 ) määrittelyalue kattaa tavoiteltavan jakauman X f X määrittelyalueen. Tehtävä 2. Generoi Metropolis Hastings algoritmilla satunnaisotos jakaumasta X N(0, 1), kun instrumenttijakaumana φ(y x t 1 ) on (a) Studentin t-jakauma vapausastein df = 1. (b) Studentin t-jakauma vapausastein df = x t 1.

kevät 2011 MCMC-menetelmistä TILTA23 - Jarkko Isotalo 4 Tehtävä 3. Generoi Metropolis Hastings algoritmilla satunnaisotos jakaumasta kun instrumenttijakaumana φ(y x t 1 ) on f X (x) = x σ 2 e x2 /(2σ 2), (a) χ 2 -jakauma vapausastein df = x t 1. (b) Gamma jakauma Gamma(x t 1, 1). Tehtävä 4. Oletetaan, että alla olevan aineiston y arvot y i ovat riippumattomia realisaatiota binomijakaumista Y i Bin(n i, π), missä vektori n sisältää kokeiden lukumäärien n i arvot. > library(faraway) > data(troutegg) > attach(troutegg) > troutegg survive total location period 1 89 94 1 4 2 106 108 2 4 3 119 123 3 4 4 104 104 4 4.. 20 0 138 5 11 > > y<-survive > n<-total Olkoon parametrin π priorijakauma tasajakauma T as(0, 1). Estimoi posterijakaumaa π y ja odotusarvoa E(π y).

kevät 2011 MCMC-menetelmistä TILTA23 - Jarkko Isotalo 5 Gibbsin poiminta Gibbsin poiminnan avulla voidaan muodostaa moniulotteisessa tilanteessa Markovin ketju, mikä konvergoituu tavoiteltuu jakaumaan x f x. Olkoon tavoitellun jakauman satunnaisvektori x d-ulotteinen x = (x 1, x 2,..., x d ), ja määritellään d 1-ulotteinen satunnaisvektori seuraavasti: x ( j) = (x 1, x 2,..., x j 1, x j+1,..., x d ). Gibbsin poiminnassa Markovin ketjun havainto x t ehdollisten jakaumien f(x j x ( j) ) avulla. = (x 1,t, x 2,t,..., x d,t ) generoidaan Algoritmi 2. 1. Asetetaan alkuarvot x 0 sopivalla tavalla. 2. Toistetaan seuraavia kohtia kunnes x t f x : (a) Asetetaan y = (y 1, y 2,..., y d ) = x t 1. (b) Jokaiselle koordinaatille j = 1, 2,..., d vuoron perään: i. Generoidaan x j,t jakaumasta f(x j y ( j) ). ii. Asetetaan y j = x j,t. (c) Asetetaan x t = y. Tehtävä 5. Generoi Gibbsin poiminnan avulla satunnaisotos jakaumasta x N(µ, Σ), missä µ = ( ) 1, Σ = 2 ( ) 1 0.8. 0.8 1

Tilastollisen tietojenkäsittelyn jatkokurssi Ydinestimointi ja epäparametrinen regressio TILTA23 Jarkko Isotalo Ydinestimoinnin avulla voidaan satunnaismuuttujien X, Y ja Z yhteistiheysfunktiolle f(x, y, z) ja ehdolliselle tiheysfunktiolle f(y x, z) muodostaa estimaatit ˆf(x, y, z) = 1 1 n ( ) ( ) ( ) x xi y yi z zi K K K, (1) n h x h y h z h i=1 x h y h z ( ) ( ) ( ) 1 1 n n h xh yh z i=1 ˆf(y x, K x x i y y h x K i z z h y K i h z z) = ( ) ( ), (2) 1 1 n n h xh z i=1 K x x i z z h x K i h z ( ) x x missä h j > 0 ovat siloitusparametreja ja ydin K i h x on esimerkiksi muotoa ( ) x xi K = 1 e 1 (x x i ) 2 2 h 2 x. 2π Ehdollisen odotusarvon h x E(y x, z) = yf(y x, z) dy epäparametrinen estimaatti on muotoa ( ) n i=1 K x x i h x K Ê(y x, z) = ( ) n i=1 K x x i h x K ( z z i Estimaattoria Ê(y x, z) kutsutaan Nadaraya Watson estimaattoriksi. ) h z y i ( ). (3) z z i h y Tarkastellaan iris aineistoa ja merkitään muuttujia seuraavasti: X = Sepal.Length, Y = Sepal.Width, Z = Species. Tehtävä 1. Muodosta yhteistiheysfunktion f(x, y) estimaatti. library(np) data(iris) attach(iris) tiheys.s<-npudens(~sepal.length+sepal.width) plot(tiheys.s, xtrim=-0.2,theta=120,phi=20, view="fixed") plot(tiheys.s, xtrim=-0.2,theta=120,phi=20, view="rotate") plot(tiheys.s, cdf=true, xtrim=-0.2,theta=120,phi=20, view="rotate") data<-data.frame(sepal.length=6,sepal.width=3) tiheys.s2<-npudens(~sepal.length+sepal.width,newdata=data) tiheys.s2$dens