pisteet Frekvenssi frekvenssi Yhteensä

Samankaltaiset tiedostot
806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Til.yks. x y z

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Estimointi. Vilkkumaa / Kuusinen 1

Harjoitus 2: Matlab - Statistical Toolbox

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastollinen aineisto Luottamusväli

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

valikosta Data -> Import data -> from text file, clipboard or URL...

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

dx=5&uilang=fi&lang=fi&lvv=2014

Sovellettu todennäköisyyslaskenta B

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

riippumattomia ja noudattavat samaa jakaumaa.

7. laskuharjoituskierros, vko 10, ratkaisut

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Todennäköisyyden ominaisuuksia

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Osa 2: Otokset, otosjakaumat ja estimointi

Sovellettu todennäköisyyslaskenta B

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Til.yks. x y z

MTTTP5, luento Luottamusväli, määritelmä

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Sovellettu todennäköisyyslaskenta B

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Kandidaatintutkielman aineistonhankinta ja analyysi

Sovellettu todennäköisyyslaskenta B

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tilastollisten aineistojen kuvaaminen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2. Keskiarvojen vartailua

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

1. Tilastollinen malli??

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Harjoittele tulkintoja

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Sovellettu todennäköisyyslaskenta B

Testit laatueroasteikollisille muuttujille

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Mat Sovellettu todennäköisyyslasku A

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tutkimustiedonhallinnan peruskurssi

Kvantitatiiviset menetelmät

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Harjoitus 7: NCSS - Tilastollinen analyysi

voidaan hylätä, pienempi vai suurempi kuin 1 %?

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Transkriptio:

806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus- Suhteellinen pisteet Frekvenssi frekvenssi 0 20 21 1 4 4 2 11 12 3 59 63 Yhteensä 94 100 a) Muuttuja on suhdeasteikon muuttuja, joka on diskreetti ja sillä on vain muutamia mahdollisia arvoja. Jakauman graafiseen esittämiseen soveltuu siten janakuvio. 60 50 Frekvenssi 40 30 20 10 0 0 1 2 3 Harjoituspisteet b) Tehtävän alussa annetun frekvenssijakauman ja alla annetun R-tulostuksen perusteella voidaan laskea/ilmoittaa mm. seuraavat sijainti- ja hajontatunnusluvut: > numsummary(harjoituspisteet, statistics=c("mean", "sd", "IQR", "skewness", + "quantiles"), quantiles=c(0,.25,.5,.75,1)) mean sd IQR skewness 0% 25% 50% 75% 100% n 2.16 1.23 2-1.02 0 1 3 3 3 94 Sijaintiluvut: Moodi = 3, Mediaani = 3 ja aritmeettinen keskiarvo x = 2.16. Huom.: yksittäiset fraktiilipisteet minimi, ala- ja yläkvartiili sekä maksimi ovat myös sijaintilukuja. Hajontaluvut: Vaihteluväli W = (0, 3), vaihteluvälin pituus w = 3 0 = 3, kvartiiliväli Q = (1, 3), kvartiilivälin pituus Q = 3 1 = 2 keskihajonta s = 1.23, varianssi s 2 = 1.23 2 1.51 ja variaatiokerroin V = s/ x = 1.23/2.16 0.57. c) R-tulostuksessa olevan vinoustunnusluvun g 1 = 1.02 ja a)-kohdassa piirretyn kuvion perusteella jakauma on vino vasemmalle, joten sijaintitunnusluvuksi kannattaa valita mediaani ja hajontatunnusluvuksi kvartiiliväli. Myös moodi ja vaihteluväli kävisivät tämän muuttujan kohdalla hyvin.

d) Muunnoksen y = 2x 1 jälkeen harjoitusaktiivisuudesta saatavien pisteiden jakauma summajakaumalla täydennettynä on seuraava: Harjoitus- Suhteellinen Summa- Suhteellinen pisteet Frekvenssi frekvenssi jakauma summajakauma -1 20 21 20 21 1 4 4 24 26 3 11 12 35 37 5 59 63 94 100 Yhteensä 94 100 Keskiarvo on nyt ȳ = 1 n r f i X i = 1 94 [20 1 + 4 1 + 11 3 + 59 5] = 312/94 3.32 Mediaani = 5 (se arvo, jossa suhteellinen summajakauma on ensimmäisen kerran vähintään 50 %). Varianssi s 2 = 1 n 1 1 94 1 r f i (X i x) 2 [ 20 ( 1 3.32) 2 + 4 (1 3.32) 2 + 11 (3 3.32) 2 + 59 (5 3.32) 2] 562.43/93 6.05. d)-kohdan voisi ratkaista myös lyhyemmin vetoamalla siihen, että muunnos y = 2x 1 on muotoa y = ax + b oleva lineaarimuunnos, jolle pätee, että ȳ = a x + b ja s 2 y = a 2 s 2 x. 2. Syntyvän lapsen sukupuoli on poika hieman yli 50 %:n todennäköisyydellä. a) Oletetaan perheen lasten sukupuolet toisistaan riippumattomiksi. Tällöin kolmilapsisessa perheessä poikien lukumäärä (= X) noudattaa seuraavanlaista todennäköisyysjakaumaa: x i 0 1 2 3 Σ p i 0.11 0.36 0.39 0.14 1 a1) E(X) = µ = k x i p i = 0 0.11 + 1 0.36 + 2 0.39 + 3 0.14 = 1.56. Varianssi D 2 (X) = σ 2 = k x 2 i p i µ 2 = (0 2 0.11 + 1 2 0.36 + 2 2 0.39 + 3 2 0.14) 1.56 2 0.7464 Keskihajonta D(X) = D 2 (X) 0.7464 0.86. a2) Merkitään A i = kolmilapsisella perheellä i on poikia enemmän kuin tyttöjä (,2). P (A 1 ) = P (A 2 ) = 0.39 + 0.14 = 0.53. P ( ainakin toisessa perheessä poikia on enemmän kuin tyttöjä ) = 1 P ( kummassakin perheessä tyttöjä enemmän kuin poikia ) = 1 P (A C 1 AC 2 ) = 1 (1 0.53) 2 = 0.779

b) Oletetaan, että X N(51.2, 1.8 2 ). b1) P (X > 50.0) = P ( X 51.2 50.0 51.2 } 1.8 1.8 ) {{} =Z N(0,1) = P (Z > 0.67) = 1 P (Z 0.67) = 1 P (Z 0.67) = 1 0.2514 = 0.7486. b2) Olkoon X 1 = 1. vastasyntyneen syntymäpituus ja X 2 = 2. vastasyntyneen syntymäpituus. Nyt X 1 N(51.2, 1.8 2 ) ja X 2 N(51.2, 1.8 2 ). Merkitään S = X 1 X 2, jolloin E(S) = E(X 1 X 2 ) = E(X 1 ) E(X 2 ) = 51.2 51.2 = 0 ja D 2 (S) = D 2 (X 1 X 2 ) = D 2 (X 1 ) + D 2 (X 2 ) = 1.8 2 + 1.8 2 = 6.48 2 S N(0, 6.48 2 )-jakaumaa. P ( S 3.0) = P (S 3 tai S 3) = 2 P (S 3) S 0 = 2 P ( 3 0 6.48 6.48 ) }{{} =Z N(0,1) = 2 P (Z 1.18) = 2 0.1190 = 0.2380 c) T-jakauman hännät ovat paksummat kuin N(0,1)-jakaumassa, sitä paksummat mitä pienempi t-jakauman vapausastemäärä on. Tämä nähdään liitteenä olevien taulukoiden perusteella mm. siitä, että piste, jossa todennäköisyyskertymä on 0.05, on t(1)-jakaumassa -6.314, t(4)-jakaumassa -2.132 ja N(0,1)-jakaumassa -1.64. Vastaavasti piste, jossa todennäköisyyskertymä on 0.95, on t(1)-jakaumassa 6.314, t(4)-jakaumassa 2.132 ja N(0,1)-jakaumassa 1.64. Yllä olevan perusteella kuvassa merkinnällä B merkitty kertymäfunktio on t(4)-jakauman kertymäfunktio. T-jakauman taulukosta nähdään, että kun T t(4)-jakaumaa, niin. 0.05 < P (T 1.7) < 0.10 0.90 < P (T 1.7) = F (1.7) < 0.95 3. Kandipalautekysely vuodelta 2016. a) Tyytyväisyysmuuttuja on mitta-asteikoltaan järjestysasteikkoa ja luonteeltaan epäjatkuva.

b) Järjestysastikon muuttujalle sopii graafiseksi esitykseksi pylväskuvio: Mielipiteen jakauma pylväskuviona 0 1000 2000 3000 4000 5000 Eri mieltä Osittain eri mieltä Osittain samaa mieltä Samaa mieltä c) Tilastollinen päättely. c1) Piste-estimaatti omaan opiskeluunsa tyytyväisten suhteelliselle osuudelle perusjoukossa: π = P = 4363/(4363 + 5008 + 1631 + 343) = 4363/11345 0.385. c2) Yhden suhteellisen osuuden testi 1) populaatio: kandidaatiksi valmistuneet { 1, kun henkilö i on omaan opiskeluunsa tyytyväinen Merk. X i = 0, kun henkilö i ei ole omaan opiskeluunsa tyytyväinen (X 1, X 2,... X 11345 ) on satunnaisotos ko. populaatiosta. Oletetaan, että X Bern(π) ja P (X = 1) = π. 2) Hypoteesit: { H 0 : π = 0.40 H 1 : π 0.40 3) Testisuure Z = P π 0 π0 (1 π 0 ) n 4) Testisuureen havaittu arvo: N(0, 1), likimain, kun H 0 on tosi z = 4363/11345 0.40 0.40 (1 0.40) 11345 3.35 5) p-arvo = P (Z 3.35 tai Z 3.35 H 0 ) = P ( Z 3.35 H 0 ) = 2 P (Z 3.35 H 0 ) = 2 0.0004 = 0.0008 6) Johtopäätökset: Aineisto on ristiriidassa H 0 :n kanssa eli aineiston perusteella näyttäisi sille, että omaan opiskeluunsa tyytyväisten suhteellinen osuus perusjoukossa ei ole 40 prosenttia.

d) Vastaajien keski-iän arviointi 95 % luottamusvälin avulla. > t.test(vastaajan.ika, mu=25, conf.level=0.95, alternative = "two.sided") One Sample t-test data: otos t = 0.4771, df = 49, p-value = 0.6354 alternative hypothesis: true mean is not equal to 25 95 percent confidence interval: 24.069 26.511 sample estimates: mean of x 25.29 Tulostuksen perusteella perusjoukon keski-ikä on 95 %:n varmuudella välillä 24.069 26.511 vuotta. Kaikkien vastaajien keski-ikä voi olla 25 vuotta, koska kyseinen arvo sisältyy luottamusvälin sisään.