Harjoitukset 1 : Tilastokertaus

Samankaltaiset tiedostot
8. laskuharjoituskierros, vko 11, ratkaisut

Otantajakauman käyttö päättelyssä

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

Tilastolliset luottamusvälit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Todennäköisyys, että yhden minuutin aikana saapuu 2 4 autoa.

Osa 2: Otokset, otosjakaumat ja estimointi

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

pq n s n Kyllä Ei N Jäsenyys 5,4% 94.6 % 1500 Adressi 21,6% 78.4 % 1495 Lahjoitus 23,7% 76.3 % 1495 Mielenosoitus 1,1% 98.9 % 1489

2-suuntainen vaihtoehtoinen hypoteesi

Mat Tilastollisen analyysin perusteet, kevät 2007

n = 100 x = %:n luottamusväli µ:lle Vastaus:

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Tilastolliset menetelmät: Tilastolliset testit

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

6.1 Riippumattomat satunnaismuuttujat

2-suuntainen vaihtoehtoinen hypoteesi

Sovellettu todennäköisyyslaskenta B

1. Valitaan tilanteeseen sopiva stokastinen malli. 2. Sovitetaan malli havaittuun dataan (estimoidaan mallin parametrit).

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Tilastolliset menetelmät: Tilastolliset testit

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 6A Ratkaisuehdotuksia.

Mat Sovellettu todennäköisyyslaskenta B 5. harjoitukset / Ratkaisut Aiheet: Jatkuvia jakaumia Avainsanat: Jatkuvia jakaumia

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

Testejä suhdeasteikollisille muuttujille

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

S Laskennallinen systeemibiologia

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Todennäköisyyden ominaisuuksia

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

10. laskuharjoituskierros, vko 14, ratkaisut

Luottamusvälit. Normaalijakauma johnkin kohtaan

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

dx=5&uilang=fi&lang=fi&lvv=2014

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Testit laatueroasteikollisille muuttujille

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Konvergenssikäsitteet ja raja arvolauseet

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

KURSSIN TILASTOMATEMATIIKKA KAAVOJA

Tilastollisia peruskäsitteitä ja Monte Carlo

EX1 EX 2 EX =

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Johdatus todennäköisyyslaskentaan Konvergenssikäsitteet ja raja-arvolauseet. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 7: NCSS - Tilastollinen analyysi

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Tilastollinen todennäköisyys

9. laskuharjoituskierros, vko 12-13, ratkaisut

Teoria. Tilastotietojen keruu

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Yhden selittäjän lineaarinen regressiomalli

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 2

4. Todennäköisyyslaskennan kertausta

MTTTP1 SELITYKSIÄ JA ESIMERKKEJÄ KAAVAKOKOELMAN KAAVOIHIN LIITTYEN

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Estimointi. Vilkkumaa / Kuusinen 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

****************************************************************** ****************************************************************** 7 Esim.

Teema 8: Parametrien estimointi ja luottamusvälit

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

031021P Tilastomatematiikka (5 op) viikko 5

Sovellettu todennäköisyyslaskenta B

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Otoskoko 107 kpl. a) 27 b) 2654

χ 2 -yhteensopivuustesti

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Parametrin estimointi ja bootstrap-otanta

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

3.6 Su-estimaattorien asymptotiikka

χ 2 -yhteensopivuustesti

Transkriptio:

31C99904, Capstoe: Ekoometria ja data-aalyysi TA : markku.siikae(a)aalto.fi & tuuli.vahapelto(a)aalto.fi Harjoitukset 1 : Tilastokertaus (Palautus 10.1.2017) Palautellaa mielii hiema tilasto-oppia ja todeäköisyyslasketaa. Voit kerrata oleaiset teemat tarvittaessa kurssikirjasta Stock & Watso: Itroductio to Ecoometrics. Kirja esimmäie luku käsittelee tämä harjoitukse teemoja. Vastauksissa tulisi olla äkyvissä käyttämäsi päättely ja oleaiset kaavat. Tehtävät saa tehdä 1-2 opiskelija ryhmissä. Jokaie palauttaa oma vastauksesa Mycourses-sivusto kautta. 1. Normaalijakauma ja stadardiormaalijakauma, keskeie raja-arvolauseke ja todeäköisyyksie laskemie Y o ormaalijakautuut seuraavasti: Y N (30, ). Tehtäväao mukaa Y o ormaalijakautuut, µ = 30 ja σ 2 =. Y stadardisoidaa, jotta todeäköisyyksie laskemisee voidaa käyttää s stadardiormaalijakaumaa. Stadardoiti: jos Y (µ,σ 2 ), ii Y µ Y µ σ N (0,1). Merkitää Z ( σ = Y 30 ). Tehtävissä 1a-c tarvittavat todeäköisyydet saadaa seuraavilla kaavoilla: Pr(Y z) = Φ(z), Pr(Y z) = 1 Φ(z) ja Pr(z 1 Y z 2 ) = Φ(z 2 ) Φ(z 1 ) Laske seuraavat todeäköisyydet: (a) Laske Pr(Y 25) Pr(Y 30) = Pr( Y 30 (b) Laske Pr(Y 26) 25 30 ) = Φ( 1.767) 4% Pr(Y 26) = 1 Pr(Y 26) = 1 Pr( Y 30 1 Φ( 1.414) 92% (c) Laske Pr(30 Y 33) Pr(30 Y 33) = Pr(Y 33) Pr(Y 30) = Pr( Y 30 = Pr(Z 1.061) Pr(Z 0) = Φ(1.061) Φ(0) 0.556% 0.5% 0.36% 26 30 ) = 1 Pr(Z 1.414) 30 33 ) Pr( Y 30 30 30 ) Kurssikirja sivut 39-40 käsittelevät kohtia a-c Muuttuja Y havaiot (Y i = 1,...,) ovat jakautueet riippumattomasti ja samoi (eli i.i.d.). Perusjoukossa o µ Y = 100 ja σ 2 Y = 51. Käytä keskeista raja-arvolauseketta (egl. cetral limit theorem) seuraavissa laskuissa. Huom: kirjoita auki lauseke ja miksi/mite hyödyät sitä. Perusjoukossa siis µ Y = 100 ja σ 2 Y = 51. Emme kuitekaa tiedä Y-muuttuja jakaumaa, oko se ormaalijakautuut vai ei. Keskeise raja-arvolausee mukaa ku Y o i.i.d, ii, muuttuja otoskeskiarvo Ȳ jakauma lähestyy ormaalijakaumaa site, että Ȳ N (µ Y,σ 2 Ȳ ), missä σ2 Ȳ = σ2 Y Stadardisoidu otoskeskiarvo Ȳ µ Y σ Y jakaumaa voidaa siis approksimoida stadardiormaalijakaumalla N(0,1). Oleaista o huomata otosvariassi lasketa σ 2 Ȳ = σ2 Y. Ku µ Y = 100 ja σ 2 Y = 51 otoskoo kasvaessa Ȳ (100, 51 muuttujaa Z:lla. Ȳ 100 ) ja 51 N (0, 1). Merkitää jällee stadardiormaalijakautuutta. 1

(d) Satuaisotokse koko o = 100. Mikä o todeäköisyys, että otoksesta laskettu keskiarvo (Ȳ ) o välillä 99 101? Toisi saoe, laske Pr(99 Y 101). Lasketaa aluksi otoskeskihajota 51 ku =100. σȳ = 100 0.714 Pr(99 Ȳ 101) = Pr( 99 100 0.714 Ȳ 100 0.714 101 100 0.714 ) Pr(1.400 Z 1.400) = Φ(1.400) Φ( 1.400) 92% % 4% (e) Satuaisotokse koko o = 400. Laske Pr(99 Y 101)). Mite otoskoko vaikuttaa vastauksiisi? Lasketaa otoskeskihajota ku =400. σȳ = 51 400 0.357 Pr(99 Ȳ 101) = Pr( 99 100 0.357 Ȳ 100 0.357 101 100 0.357 ) Pr(2.01 Z 2.01) = Φ(2.01) Φ( 2.01) 99.75% 0.0025% = 99.5% Huomaamme, että otoskoo kasvattamie pieetää otoskeskihajotaa ja tällöi myös ratkaistava todeäköisyyde arvo kasvaa verrattua edellisee kohtaa. Kurssikirja sivut 4-53 käsittelevät kohtie d) ja e) teemoja Y o riippumattomasti ja samoi jakautuut (i.i.d) Beroulli-satuaismuuttuja, jolle p = 0,32. (Beroullijakautuee muuttuja havaiot saavat vai arvoja 1 tai 0, ja iille o tapaa käyttää merkitää p = Pr(Y = 1). Vastaavasti Pr(Y = 0) = 1 p. Beroulli-muuttuja omiaisuus o myös, että µ y = p ja σ 2 Y = p (1 p) (f) Käytä keskeistä raja-arvolauseketta ja laske Pr(0, 27 Y 0, 37) =290 kokoisessa otoksessa.(ȳ viittaa jällee otoskeskiarvoo) Tälle Beroulli-muuttujalle µ Y = p = 0.32 ja σ 2 Y = p (1 p) = 0.32 0.6 = 0.217. Koska muuttuja o jakautuut i.i.d keskeistä raja-arvolausetta voi soveltaa aiemma tehtävä tapaa. Nyt otoskeskiarvo Ȳ viittaa Y = 1 tapahtumie osuutee otoksessa. Lasketaa aluksi otoskeskihajota 0.217 σȳ = 290 = 0.0273 Pr(0.027 Ȳ 0.37) = Pr( 0.27 0.32 0.0273 Ȳ 0.32 0.0273 0.37 0.32 0.0273 ) Pr(1.31 Z 1.31) = Φ(1.31) Φ( 1.31) 96.64% 3.336% 93% 2

2. Odotusarvo, ehdollie odotusarvo, ehdollie todeakoisyys, riippuvat ja riippumattomat muuttujat Alla olevassa taulukossa o aettu tiedot (hypoteettise) väestö koulutustasosta jaoteltua isä koulutukse mukaa, eli lapse ja häe isäsä koulutuksie yhteisjakaumasta. Tarvittavat todeäköisyydet löytyvät suoraa tauluko soluista. Ei yliopistotutkitoa (Y=0) O yliopistotutkito (Y=1) Yhteesä Isällä ei yliopistotutkitoa (X=0) Pr(X=0,Y=0)=37.5 % Pr(X=0,Y=1)= 12.3 % Pr(X=0) 49. % Isällä yliopistotutkito (X=1) Pr(X=1,Y=0)= 16.0 % Pr(X=1,Y=1)= 34.2 % Pr(X=1) 50.2 % Yhteesä Pr(Y=0) 53.5 % Pr(Y=1) 46.5 % 100 % Muista kirjoittaa auki tehtävässä käyttämäsi kaavat. (a) Laske odotusarvo E(Y ). Mikä o se tulkita? Etä 1 - E(Y )? E(Y ) = k i=1 y i Pr(Y = y i ) (1) E(Y ) = 0 Pr (Y = 0) + 1 Pr (Y = 1) (2) = 0 0.535 + 1 0.465 (3) = 0.465 (4) Beroulli-muuttujalle E(Y ) = P r (Y = 1). Saamme se myös suoraa tauluko sarakkeesta "O yliopistotutkito". Odotusarvo kuvastaa tässä tapauksessa väestö keskimääräistä koulutusastetta, eli osuutta väestöstä jolla o yliopistotutkito. Vastaavasti E(Y ) = Pr(Y = 0) kuvastaa osuutta väestöstä jolla ei ole yliopistotutkitoa. (b) Laske E(Y X = 1) ja E(Y X = 0) Mikä o äide tulkita? Ehdollise todeäköisyyde kaava o seuraava: E(Y X = x) = = k i=1 y i Pr (Y = y i X = x) (5) k i=1 y i Pr (Y =y i,x =x) Pr (X =x) (6) Beroulli-muuttuja tapauksessa kaava o seuraava : E(Y X = x) = 0 Pr (Y =0,X =x) Pr (X =x) + 1 Pr (Y =1,X =x) Pr (X =x) (7) Kaavassa käytettävät todeäköisyydet löytyvät suoraa edellisestä taulukosta. E(Y X = 1) = E(Y X = 0) = Pr (Y =1,X =1) Pr (X =1) = 34.2 50.2 6% Pr (Y =1,X =0) Pr (X =0) = 12.3 49. 25% 3

Ehdolliset odotusarvot kuvastavat korkeasti kouluttautueide osuutta iide joukossa joilla o korkeasti koulutettu isä(x=1) ja joide isä ei ole korkeastikoulutettu. Koska kyseessä Beroullimuuttuja, ii silloi aiemmi lasketuissa todeäköisyyksissä Y saa aia arvo 1. (c) Laske keskimääräie korkeasti kouluttautueide osuus iille, joilla o korkeasti kouluttautuut isä sekä iille, joide isä ei ole korkeasti kouluttautuut Tämä vastaa b-kohtaa (d) Poimimme satuaisesti valitu hekilö ja toteamme että häellä o yliopistotutkito. Millä todeäköisyydella tämä hekilo isä o suorittaut yliopistotutkio? Tiedetää, että hekilöllä o yliopistotutkito eli Y=1. Mikä o ehdollie todeäköisyys että isällä o yliopistotutkito (X=1), ku lapsella o tutkito (Y=1)? Pr(X = 1 Y = 1) = Pr(X =1 Y =1) Pr(Y =1) = 34.2% 46.5% = 73.5% (e) Ovatko lapse ja isä koulutustaso toisistaa riippumattomia? Jotta oma ja vahemma koulutustaso eli X ja Y olisivat toisistaa riippumattomia, täytyy seuraava ehdo täyttyä: Pr(X = x Y = y) = Pr(Y = y) Pr(X = 1 Y = 1) = Pr(X =1 Y =1) Pr(Y =1) = 73.5% 46.5% = Pr(Y = 1) Kurssikirja sivut 29-33 käsittelevät tämä harjoitukse teemoja. 3. Hypoteesitestaus, t-testi ja p-arvo, luottamusväli ja keskivirhe (a) Meillä o oletus (väittämä), että kauppakorkeakoulu opiskelijoide keskimääräie pituus o µ Y = 175 cm. Altistamme väittämä hypoteesitestille. Suoritamme se poimimalla satuaisotokse opiskelijoita. Saamme =100 kokoisesta otoksesta otoskeskiarvo Ȳ = 174 cm ja otoskeskihajoa sȳ = 3,6 cm. Mikä o hypoteesitesti muoto? Mikä o t-testi tulos, eli mitä voimme saoa väittämästämme? Jos meillä olisiki =450 kokoie otos (ja sama mittaustulos), mitä tapahtuisi testille? Hypoteesimme koskee perusjouko omiaisuutta µ Y, ja testaamme olettamaamme siitä otokse avulla. Otokse mittaustulos Ȳ = 174, sȳ = 3.6 cm. Mitä voimme saoa µ Y :stä tämä perusteella? Hypoteesiasetelmamme o H 0 : µ Y = 175 ja H 1 : µ Y 175, eli suoritamme kaksisuutaise t-testi hypoteesillemme. Lasketaa t-testisuure, ku perusjouko hajota(σ 2 ) o tutemato. Tällöi keskivirhee laskemie perustuu mitattuu otoskeskihajotaa. SE(Ȳ )= 3.6 100 = 0.36. t = Ȳ µ Y,0 = 2.777 100 Testausmeetelmä o seuraava: SE(Ȳ ) = 174 175 3.6 i) Vertaa testisuuretta valittuu kriittisee arvoo, hylkää H 0 jos t > t cr i t tai ii) Laske testisuuree p-arvo, hylkää H 0 jos p-arvo< valittu merkitsevyystaso 5% merkitsevyyttä vastaava kriittie arvo o suurella otoksella kaksisuutaisessa testissä 1.96. i) Koska t = 2.7777 > 1.96 voimme hylätä ollahypoteesi 5%-tasolla 4

ii)p-arvo=2 Φ( t ) = 2 Φ( 2.7777 ) = 0.0064%. Voimme hylätä ollahypoteesi, koska 0.0064% < 0.05%. Tuloksia voidaa tulkita seuraavasti. P-arvo tarkoittaa pieitä tilastollise merkitsevyyde tasoa, jolla ollahypoteesi voidaa hylätä. Testi tuloksea ollahypoteesi jää voimaa, koska saatu p-arvo o 0.0064%. Yleesä hypoteesi testauksessa käytetää 1%, 5%, 10% merkitsevyystasoja. Toie p-arvo tulkita o, että jos ollahypoteesimme pitää paikkasa, olisi 0.0064% todeäköisyys saada äi poikkeava arvo otoksesta. Ku otoskoko o 450, ii silloi saadaa seuraava testisuure: t = Ȳ µ Y,0 SE(Ȳ ) = 174 175 3.6 450 = 5.92 Otoskoo kasvaessa t myös kasvaa. Myös tässä tapauksessa hylkäämme ollahypoteesi, mutta yt aiempaa vielä suuremmalla varmuudella. Nyt p-arvo o 2 Φ( t ) = 2 Φ( 5.92 ) = p < 0.0001%. Jos tehtävä arvot olisivat Ȳ = 174.5 cm ja sȳ = 3,6 cm, ii silloi 100 havaio otokse tapauksessa ollahypoteesi jää voimaa(laske itse) ja 450 havaio otoksessa ollahypoteesi hylätää. T-jakauma vai ormaalijakauma? Huomaa, että tämä t-testisuure o laskettu kokoisesta otoksesta estimoidulla keskivirheellä, jote pieellä otoksella t oudattaisi t-jakaumaa 1 vapausasteella (merkitää t t 1 ). Suurilla otoksilla ja silloi ku voimme käyttää keskivirhee lasketaa populaatio hajotatietoa, oudattaa testisuure likimai stadardiormaalijakaumaa. Käytäössä jo =100-otoksella o stadardiormaalijakauma hyvä approksimaatio (=100 tapauksessa t-testisuuree kriittie arvo o 1.9). Kurssikirja sivu 92 käsittelee tätä aihetta. Huomaa, että Stata laskee t- testisuureille, p-arvoille ja luottamusväleille otoskokoo ja t-jakaumaa perustuvat arvot. (b) Tutkimme yläastelaiste päättötodistuste keskiarvoja pääkaupukiseudulla ja saimme =370 kokoisesta satuaisotoksesta otoskeskiarvo Ȳ = ja otoskeskihajoa sȳ = 1,6. Mikä o tällä perusteella 95% luottamusväli koko pääkaupukiseudu keskiarvolle µ y? Mikä o luottamusväli tulkita? Luottamusväli kaava: Ȳ t cr i t SE(Ȳ ) µ Y Ȳ + t cr i t SE(Ȳ ), missä t cr i t viittaa kriittisee t-arvoo. Perusjouko hajota o tutemato, jote keskivirhe lasketaa estimoide otokse hajoasta a)-kohda tapaa. Keskivirhe o SE(Ȳ ) = s Y = 1.6 = 0.031. Ku meillä o suu- 370 ri otos eli =370 ja haluamme laskea 95% luottamusväli, käytämmä kriittistä arvoa 1.96. Eli luottamusvälii kuuluvat arvot, jotka ovat 1.96 keskivirhee päässä otoskeskiarvosta. 95% luottamusväli o seuraava: 1.96 0.031 µ Y + 1.96 0.031 6.37 µ Y 9.62. Luottamusväli voidaa myös merkitä µ y = ± 1.63 Tämä tarkoittaa, että jos toistaisimme 370 hege otoksia loputtomasti, 95 prosetissa otoksista otoskeskiarvo osuisi tälle valille. Käytäössä saomme, että päättötodistuste keskiarvo o 95% todeäköisyydellä tällä välillä. (c) Poimimme b-kohda lisäksi myös 250 satuaista yläastee päättötodistukse keskiarvoa Jyväskyläseudulta,missä otoskeskiarvoksi tuli Ȳ J =7, ja otoskeskihajoaksi sȳ,j =2. Merkitää 5

b-kohda pääkaupukiseudu tuloksia Ȳ pk ja sȳ,pk.ȳ PK ja Ȳ J ovat satuaismuuttujia, ja myös äide kahde seudu otoskeskiarvoje erotus Y PK - Y J o satuaismuuttuja. Ȳ PK - Ȳ J : keskivirhe o SE(Ȳ PK - Ȳ J ) = SE(Ȳ PK ) 2 + SE(Ȳ J ) 2. Oko ero pääkaupukiseudu ja Jyvaskylä seudu välillä tilastollisesti merkitsevä? (Eli voitko hylätä hypoteesi Ȳ PK - Ȳ J = 0 vastahypoteesi Ȳ PK - Ȳ J 0 hyväksi?) Satuaismuuttujamme o kahde estimaattori erotus. Keskivirhee kaava avulla voimme laskea hypoteesitesti tai luottamusvali samaa tapaa kui a- ja b- kohdissa. Lasketaa Jyväskylä keskivirhe SE( Y J )= 2 250 = 0.126 Eli ku otoskeskiarvoje erotus o 7. = 0.2 ja erotukse keskivirhe o 0.031 2 + 0.126 2 0.151 o t-testisuure hypoteesille, että alueide keskiarvot ovat yhtäsuuret(eli erotus o olla): t = (Ȳ PK ȲJ ) SE(Ȳ PK Ȳ J ) = 0.2 0.151 1.32. P-arvo suoritetulle testille o 2 Φ( t ) = 2 Φ( 1.32 ) = 0.034 Emme voi hylätä ollahypoteesia yhtäsuuruudesta 5% tasolla, eli toteamme että pääkaupukiseudu ja Jyväskylä seudu keskiarvot ovat yhtä suuret. (d) Mikä o 95% luottamusväli ja 5% taso hypoteesitesti välie suhde? 95%: luottamusväli sisältää kaikki e arvot, joita ei voida hylätä 5% merkitsevyystasolla. Ks. alla oleva kuva 1: stadardiormaalijakaumassa 95% pita-alasta o välillä -1,96 1,96 (siie alue). Vastaavasti tämä haaruka ulkopuolelle (valkoiset häät) jää 2 2, 5% = 5% jakauma todeäköisyysmassasta. 5% merkitsevyysastetta vastaava kriittie arvo o 1,96: jos stadardiormaalijakaumaa oudattava testisuure o kauempaa ollasta kui 1,96 (tai -1,96), o alle 5% todeäköisyys saada arvo äi kaukaa keskiarvosta. Tällöi hylkäämme ollahypoteesi. Jos taas testisuure o välillä [-1,96, 1,96], o suurempi kui 5% todeäkoisyys saada tämä arvo testisuureelle ollahypoteesi ollessa voimassa, jote emme hylkää ollahypoteesia. 95%: luottamusväli sisältää kaikki arvot, joita ei voida hylätä 5% merkitsevyystasolla: arvot, jotka ovat ±1,96 keskivirhee sisällä lasketusta estimaatista. Kuva 1: Jos Z N(0,1) ii 95% todeäköisyysmassasta o välillä [-1.96,1.96] (e) Kumpi o leveämpi, 99% vai 95% luottamusväli? 99% luottamusvali o leveämpi. 95% luottamusvali sisältää kaikki e arvot, joita ei voida hylätä 5% merkitsevyysasteella eli 1,96 keskivirhee sisällä olevat. 99% luottamusväli sisältää e arvot, joita ei voida hylätä 1% merkitsevyysasteella eli 2,5 keskivirhee päässä olevat arvot. Se sisältää siis eemma arvoja, kauempaa lasketusta estimaatista olevia arvoja. Kuva 2 havaiollistaa tätä. 6

Kuva 2: Luottamusvälit Sivuhuomio otaatiosta. Satuaismuuttujaa merkitaa tässä tehtävässä Y:lla, populaatiokeskiarvo o µ Y ja populaatio keskihajota σ Y (variassi σ 2 Y ). Otokse keskiarvoo viitataa Ȳ :lla ja otoskeskihajotaa sȳ :llä. Otoskeskiarvo Ȳ o estimaattimme populaatio keskiarvoksi jota voidaa myös merkita µ ˆ Y. Tyypillisesti yläviiva (egl. bar) viittaa keskiarvoo ja hattu (egl. hat) estimaattii. Esimerkiksi regressiossa saadut kertoimet ovat estimaatteja ja iitä merkitää ˆβ. Kurssikirja sivut 71-4 käsittelevät tämä harjoitukse asioita 4. Todellie arvo ja estimaatti, hypoteesitestaus, todeäköisyys, keskeie raja-arvolauseke, keskivirhe ku populaatio jakauma o tuettu ja estimoiti otoksesta ku se o tutemato Amerikkalaie gallup-yritys suoritti kyselytutkimukse, jossa 600 ääioikeutetulta demokraatilta kysyttii, kumpaa kahdesta ehdokkaasta he aikovat ääestää puoluee presidettiehdokkaaksi. 270 ääestäjää kertoi ääestaväsä Berieta ja 330 kertoi ääestäväsä Hillarya. Koska ehdokkaita o kaksi, ehdokas joka saa yli 50% ääistä voittaa vaalit. Ääestyspäätostä voidaa kuvata Beroulli-muuttujalla, jolle Y=1 jos ääestää Berieta ja Y=0 jos ääestää Hillarya. Tuleva ääestystulos o mielekiio kohteemme, jota voimme arvioida kyselytutkimukse perusteella: estimoimme oikeaa ääestystulosta p = Pr(Y = 1) kyselytutkimukse otoskeskiarvolla ˆp. (Ks. tehtävässä 1 kuvatut tiedot Beroullimuuttuja omiaisuuksista.) (a) Mikä o kyselytutkimukse perusteella estimaatti perusjouko keskiarvoksi ˆp? Tulkitse se merkitys saoi. Estimoi myös ˆp keskivirhe. = 600, josta 270 kertoi ääestäväsä Berietä, 330 ääestäväsä Hillarya. Määrittelimme ääestysmuuttuja ii päi, että Y=1 jos ääestää Berietä ja Y=0 jos ääestää Hillarya. Y: todellista jakaumaa eli oikeaa ääestyskäyttäytymistä kuvaa: Pr(Y=1)=p=µ y,pr(y=0)=1-p ja var(y)=p(1- p) ˆp = 270 600 = 45%. Kyselytutkimukse keskiarvo perusteella arvioimme ääestystulokse oleva 44% ääistä Berielle ja 56% ääistä Hillarylle. Emme tue todellista jakaumaa, jote estimoille todellista hajotaa otokse keskihajoa avulla. SE ( ˆp ) = sȳ = Beroulli-muuttuja variassi o σ 2 Y = p (1 p), jota siis estimoidaa otokse variassilla s2 Ȳ = ˆp (1 ˆp). Siispä: SE( ˆp) = sȳ 2 = ˆp (1 ˆp) 0.45 0.55 = 600 = 0.0203 s 2 Ȳ 7

(b) Atoiko kyselytutkimus tilastollisesti merkitsevää äyttöä siitä, että Hillary oli kaatusluvuissa vastaehdokkaa edellä? (Muodosta hypoteesi, suorita hypoteesi testaus ja tulkitse tulos.) Laske myös 95 %: luottamusvali ääestystulokselle. Suoritamme siis yksisuutaise hypoteesitesti eli: H 0 : p = 0,5 vs. H 1 : p < 0,5. Koska =600, käytetää stadardiormaaliapproksimaatiota testisuuree kassa. Tällöi yksisuutaiselle testille kriittie arvo o 1,645. Yksisuutaise testi ( < -suutaa ) p-arvo kaava: p-arvo=φ(t) = Φ( ˆp µ 0 0.45 0.5 SE( ˆp) ) = Φ( 0.0203 ) Φ( 2.463) 0.007 Koska yksisuutaisessa testissä p-arvo = 0.007 < 0.01 (ja koska t = 2.463 > 1,645) hylkäämme ollahypoteesi, H 0 : p = 0,5 1% merkitsevyystasolla, ja vaihtoehtoishypoteesi p < 0,5 jää voimaa. Hillary o siis Berietä edellä. 95% luottamusväli Berie ääiosuudelle p o 0,45±1,96 0,0203 eli 0,41-0,49. p=0,5 ei siis ole 95% luottamusvälillä. (c) Diktaattori toteuttaa maassaa vaalit. Hä väittää 70% ääestäee uudelleevalitsemisesa puolesta. Kasaivälise ihmisoikeusorgaisaatio edustajaa epäilet vaalitulokse ollee sormeiltu ja oistut suorittamaa 290 hege satuaisotaa ääioikeutetusta populaatiosta. Kute edellä, ääestystä voidaa kuvata Beroulli-muuttujalla Y, jolla Y=1 jos ääestää diktaattoria ja Y=0 jos ääestää vastaehdokasta. Väitetty ääestystulos o siis p = 0,70. Merkitää kyselytutkimukse tulosta ˆp:lla. Otoksessasi 190 ääioikeutettua kertoi ääestäeesä uudelleevalia puolesta. Mitä voimme päätellä diktaattori väittämästä? (Käytä keskeistä raja-arvolauseketta ˆp suhtee. Jos p = 0,70 pitäisi paikkasa, mikä olisi todeäköisyys löytää ˆp 190 290? Vertaa tehtävää 1.d-f.) Kute edellä, ääestystä voidaa kuvata Beroulli-muuttujalla Y, jolla Y=1 jos ääestää diktaattoria ja Y=0 jos ääestää vastaehdokasta. Y: todellista jakaumaa eli oikeaa ääestyskäyttäytymistä kuvaa: Pr (Y = 1) = ˆp, Pr(Y = 0) = 1 p ja µ Y = p,var(p) = p (1 p). Diktaattori väittämä mukaa siis p = 0,70. Merkitää kyselytutkimukse tulosta ˆp:lla.190 äätä 290:sta oli kyllä, eli ˆp = 190 290 = 0.66 < 0.7. Meillä o Y: väitetty jakauma µ Y = 0.70, jolloi σ 2 Y = p (1 p) = 0.7 0.30 0.21 Keskeise raja-arvolausekkee mukaa: ku muuttuja Y o i.i.d, ii ku, muuttuja otoskeskiarvo Ȳ jakauma lähestyy ormaalijakaumaa, toisi saoe Ȳ N (µ Y,σ 2 ), mis- Ȳ sä σ 2 Ȳ = σ2 Ȳ. Stadardisoidu otoskeskiarvo jakauma lähestyy siis stadardiormaalijakaumaa N(0,1). Voimme 290 hege otokse turvi tutkia hypoteesia stadardiormaalijakauma omiaisuuksie avulla: Ȳ N (0.66,0.21) ja Z = Ȳ 0.66 0.22 hajotatietoihi:se(p) = σ Y σ 2 Y = 290 N (0, 1). Nyt keskivirhe perustuu populaatio = 0.21 290 0.0269. Jos pitäisi paikkasa, että 70% väestöstö ääesti diktaattori puolesta (p = µ Y = 0.70), mikä o todeäköisyys, että 290 hege otoksessa kyllä-ääiosuus olisi korkeitaa 0.66%. Jos Ȳ N (0.66,0.22), mikä o Pr(Ȳ 0.65)? Pr( ˆp 0.66) = Pr( ˆp 0.66 0.0269 0.66 0.7 0.0269 ) = Pr(Z 1.49) Φ( 1.49) 6.5% Todeäköisyys saada 190 kyllä-äätä 290 hege otoksessa, jos todellie kyllä-ääestysaste olisi ollut 70% o siis 6.5%. Huomaa otaatio (kute edellisessä tehtävässä ja 1.f-tehtävässä). Eli p o todellie tulos ja ˆp o estimaattimme ääestystuloksesta. (p = Pr(Y = 1) = µ y ja ˆp = Pr (Ŷ = 1) = Ȳ ) Beroulli-

muuttuja variassi o σ 2 Y = var(p) =p (1 p). Huomaa että a.- ja b.-kohdassa voimme estimoida p:tä ja var(p):tä ˆp: avulla, c.-kohdassa p ja var(p) ovat tuettuja. 9