Tutkimustiedonhallinnan peruskurssi

Samankaltaiset tiedostot
Tilastollisia peruskäsitteitä ja Monte Carlo

Parametrin estimointi ja bootstrap-otanta

Tutkimustiedonhallinnan peruskurssi

Tilastollinen aineisto Luottamusväli

Luottamusvälit. Normaalijakauma johnkin kohtaan

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Sovellettu todennäköisyyslaskenta B

Satunnaislukujen generointi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Osa 2: Otokset, otosjakaumat ja estimointi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

tilastotieteen kertaus

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Estimointi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

riippumattomia ja noudattavat samaa jakaumaa.

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

dx=5&uilang=fi&lang=fi&lvv=2014

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Testejä suhdeasteikollisille muuttujille

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Harjoitus 2: Matlab - Statistical Toolbox

3. laskuharjoituskierros, vko 6, ratkaisut

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Teema 8: Parametrien estimointi ja luottamusvälit

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

11 Raja-arvolauseita ja approksimaatioita

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Sovellettu todennäköisyyslaskenta B

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

6. laskuharjoitusten vastaukset (viikot 10 11)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3.6 Su-estimaattorien asymptotiikka

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Sovellettu todennäköisyyslaskenta B

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tutkimustiedonhallinnan peruskurssi

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

4. laskuharjoituskierros, vko 7, ratkaisut

031021P Tilastomatematiikka (5 op) viikko 3

Normaalijakaumasta johdettuja jakaumia

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

9. laskuharjoituskierros, vko 12-13, ratkaisut

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

5. laskuharjoituskierros, vko 8, ratkaisut

MTTTP5, luento Luottamusväli, määritelmä

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Testit laatueroasteikollisille muuttujille

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

2. Keskiarvojen vartailua

pitkittäisaineistoissa

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Todennäköisyysjakaumia

Tilastolliset jakaumat, niiden esittäminen ja tunnusluvut

Testit järjestysasteikollisille muuttujille

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

D ( ) E( ) E( ) 2.917

pitkittäisaineistoissa

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Transkriptio:

Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi 1/132 Kevät 2004

Johdatus Monte Carloon Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 117/132 Kevät 2004

Monte Carlo Monte Carlo -menetelmät perustuvat satunnaisuuden hyväksikäyttöön joidenkin laskennallisesti vaikeiden ongelmien ratkaisu satunnaisuudesta johtuen ratkaisut ovat likimääräisiä vrt. satunnaisotos, jonka perusteella arvioidaan muuttujan jakaumaa koska satunnainen ja otos, tulos on likimääräinen etu: otanta ja jakauman arviointi on tehokasta Monte Carlo usein: mallista generoitu joukko satunnaisia pisteitä (ei otos aineistosta) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 118/132 Kevät 2004

Monte Carlo -integrointi tyypillinen Monte Carlon sovellus: integrointi 1 halutaan integroida funktio f : [0, 1] [0, 1]: 1 0 f(x)dx =? f(x) 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 119/132 Kevät 2004

Monte Carlo -integrointi (2) generoidaan (tasaisesti jakautuneita) satunnaisia pisteitä alueelle [0, 1] [0, 1] x [0, 1] (integroitava väli) y [0, 1] (f(x):n mahdolliset arvot kattava alue) kuvaajan alle osuneiden pisteiden osuus 0.63 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 120/132 Kevät 2004

Monte Carlo -integrointi (3) vähän yleisempi MC-integrointialgoritmi ol. f(x) 0 syöte: integroitavan välin alaraja AR ja yläraja ja YR, yläraja MAX f(x):lle, satunnaispisteiden lkm K k = 0; for i = 1 to K x = rand(ar, YR); y = rand(0, MAX); if y f(x) then k + +; print k/k (YR-AR) MAX ; Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 121/132 Kevät 2004

Shakkiesimerkki kaksi shakkiohjelmaa, A ja B, pelaavat 15 ottelua A voittaa niistä 10 ja B voittaa 5 (oletetaan että peli ei voi päättyä tasan) onko A siis parempi kuin B? ajatuskoe: jos A ja B ovat yhtä hyviä, niin millä todennäköisyydellä A voittaa sattumalta 10 ottelua? Monte Carlo -toteutus ajatuskokeelle simuloi 15 ottelun turnauksia arvo A kunkin ottelun voittajaksi tn:llä 0.5 kuinka suuressa osassa turnauksista A voitti vähintään 10 ottelua? Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 122/132 Kevät 2004

Otannan peruskäsitteitä mihin edellinen esimerkki perustuu? hyödyllisiä tilastollisiä käsitteitä satunnaismuuttuja otos vs. populaatio tunnusluku vs. parametri otosjakauma riippumaton toistokoe Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 123/132 Kevät 2004

Satunnaismuuttuja satunnaismuuttuja X on suure, joka saa eri arvoja eri todennäköisyyksillä esim. X = 1 jos A voitti pelin ja X = 0 jos A hävisi satunnaismuuttujalla voi olla tietty hyvin määritelty arvo X = x X on muuttuja, x on sen arvo kun peli on pelattu, X:llä on arvo 0 tai 1 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 124/132 Kevät 2004

Otos vs. populaatio käytettävissä oleva aineisto on otos ilmiöstä n havaintoa: X 1 = x 1, X 2 = x 2,..., X n = x n koko ilmiön perusjoukkoa, josta otos on peräisin, nimitetään usein populaatioksi X i :n jakaumasta käytetään usein nimitystä populaatiojakauma tilastollinen päättely: populaation ominaisuuksien arviointi otoksen perusteella Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 125/132 Kevät 2004

Tunnusluku vs. parametri populaatiojakauman tunnuslukuja kutsutaan usein parametreiksi, tällöin tunnusluvun arvo on otoksen funktio esim. otoskeskiarvo x, otoskeskihajonta σ x parametrin arvo on koko populaation funktio ( todellinen tunnusluku) esim. satunnaismuuttujan odotusarvo EX = µ X ja keskihajonta V X = σ X käsitteellisesti siis kaksi eri asiaa, vaikkakin lähella toisiaan Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 126/132 Kevät 2004

Otosjakauma mielivaltainen tunnusluku t tietty otoksen koko n t:n otosjakauma = tunnusluvun t (teoreettinen) jakauma kaikissa n:n kokoisissa otoksissa (iid) otosjakauma ei viittaa otoksen arvojen jakaumaan (engl. sampling distribution = otosjakauma, sample distribution = (yksittäisen) otoksen arvojen jakauma sanat vaarallisen lähellä toisiaan, kysymys aivan eri asioista Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 127/132 Kevät 2004

Otosjakauma (2) tunnusluku t on myös satunnaismuuttuja määritellään perusjoukoksi eli populaatioksi kaikki mahdolliset n:n kokoiset otokset tarkastellaan satunnaismuuttujaa Y = t Y :n populaatiojakauma = t:n otosjakauma edelleen voidaan tarkastella t:n (otos)jakauman tunnuslukuja (p-arvo tulee olemaan esimerkki tästä) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 128/132 Kevät 2004

Jakaumien parametreja muuttujan odotusarvo EX on sen keskimääräinen arvo: EX = xp (X = x) tai xf(x)dx x x varianssi σ 2 X kuvaa jakauman leveyttä: σ 2 X = E(X EX) 2 hajonta eli standardipoikkeama: σ = σx 2 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 129/132 Kevät 2004

Iid-oletus iid-oletus (independent and identically distributed) riippumaton toistokoe kaikki X i :t noudattavat samaa jakaumaa ja ovat toisistaan riippumattomia iid-oletus on yleinen tämän kurssin MC-menetelmät tuottavat iid otoksia jos iid-oletus on voimassa, niin erityisesti E( x) = EX E(σ x ) = σ X eli otoskeskiarvo ja -hajonta ovat harhattomia estimaatteja vastaaville parametreille Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 130/132 Kevät 2004

Shakkiesimerkki (2) mihin aiempi shakkiesimerkki siis perustui? satunnaismuuttuja X i = 1, jos A voitti pelin i, muuten 0 ajatuskokeessa X i :n populaatiojakauma tunnettu: voiton ja tappion todennäköisyys P (X = 1) = P (X = 0) = 0.5 tunnusluku t = 15 i=1 X i, eli A:n voittamien otteluiden määrä 15 ottelusta t:n otosjakauman approksimointi satunnaismuuttuja t:n populaatio: 15 ottelun turnaukset t:n (otos)jakaumaa approksimoidaan tuottamalla satunnaisotoksia iid 15 ottelun turnauksista Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 131/132 Kevät 2004

Shakkiesimerkki (3) Monte Carlo -approksimaatio: otoksista laskettujen tunnusluvun arvojen jakauma voimakas abstraktio 15 ottelun otos kaikkien mahdollisten pelien äärettömästä populaatiosta helppo toteuttaa ei mitään oletuksia pelin tai pelaajien luonteesta, pelien jakaumista, tms. Monte Carlo on parametriton menetelmä (ei käytä oletuksia jakaumien muodoista) lisäämällä otosten määrää päästään mielivaltaisen tarkkaan approksimaatioon (suurten lukujen laki) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Johdatus Monte Carloon 132/132 Kevät 2004