valikosta Data -> Import data -> from text file, clipboard or URL...

Samankaltaiset tiedostot
pisteet Frekvenssi frekvenssi Yhteensä

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

The decimal point is 1 digit(s) to the right of the

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

Luottamusvälit. Normaalijakauma johnkin kohtaan

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Tilastollinen aineisto Luottamusväli

Teema 8: Parametrien estimointi ja luottamusvälit

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

dx=5&uilang=fi&lang=fi&lvv=2014

9. laskuharjoituskierros, vko 12-13, ratkaisut

Osa 2: Otokset, otosjakaumat ja estimointi

Harjoitus 2: Matlab - Statistical Toolbox

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tutkimustiedonhallinnan peruskurssi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP5, luento Luottamusväli, määritelmä

riippumattomia ja noudattavat samaa jakaumaa.

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harjoitus 7: NCSS - Tilastollinen analyysi

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Todennäköisyysjakaumia

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

/1. MTTTP5, luento Kertausta. Olk. X 1, X 2,..., X n on satunnaisotos N(µ, ):sta, missä tunnettu. Jos H 0 on tosi, niin

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Parametrin estimointi ja bootstrap-otanta

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSOPAS. SPSS-opas

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

30A02000 Tilastotieteen perusteet

Sovellettu todennäköisyyslaskenta B

Estimointi. Otantajakauma

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Sovellettu todennäköisyyslaskenta B

10. laskuharjoituskierros, vko 14, ratkaisut

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Transkriptio:

806118P JOHDATUS TILASTOTIETEESEEN Mikroluokkaharjoitus 3/3, kevät 2019, viikko 9 Käynnistä R-ohjelma valinnoilla Start -> All Programs -> R -> R x64 3.4.2. Käytämme tässä harjoituksessa R-ohjelmaa pääasiassa R-Commanderin kautta, joten lataa R-Commander käyttöön komennolla library(rcmdr) Tässä harjoituksessa käsitellään 1. luokkaharjoituksessa kerättyä aineistoa, joka on y-levyllä hakemistossa Y:/Yleiset/Mikroluokat/Matematiikka/johd_tilt_19. Luetaan aineisto R:n muistiin valitsemalla valikosta Data -> Import data -> from text file, clipboard or URL... anna Enter name for data set -osiossa aineiston nimeksi mittaus. Paina OK. etsi mittaus.txt niminen aineisto Y-levyn kansiosta johd_tilt_19 ja paina OPEN. Aineiston sisältöä voit katsoa R-commanderin päävalikon alapuolella sijaitsevan View data set -napin avulla. Montako tilastoyksikköä (eli riviä) aineistossa on? 1. Yhden muuttujan jakaumaa kuvaavia tunnuslukuja Yksi aineiston muuttujista on nimeltään kunnat_kartalle, joka kuvaa kunnat kartalle pelin lopputulosta (=virhekilometrien määrä kymmenen paikkakunnan sijoittamisessa kartalle). Lasketaan ko. muuttujan jakaumaa kuvaavien tunnuslukujen arvoja. Aritmeettisen keskiarvon, keskihajonnan, kvartiilivälin pituuden ja fraktiilit (oletuksena min, Q 1, Q 2, Q 3 ja max) saa laskettua valitsemalla valikosta Statistics -> Summaries -> Numerical Summaries... avautuvasta ikkunasta muuttuja (Variable) kunnat_kartalle ja paina OK. Mikäli tunnusluvut haluttaisiin laskea jonkin ominaisuuden mukaisesti ryhmittäin, tarvittava ryhmittelymuuttuja valittaisiin Summarize by groups... -napin alla. Edellä mainituilla valinnoilla saadaan seuraava tulostus Output-ikkunaan: numsummary(mittaus[,"kunnat_kartalle", drop=false], statistics=c("mean", + "sd", "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1)) mean sd IQR 0% 25% 50% 75% 100% n 2043.319 838.9467 1134 193.4 1454.2 2013.8 2588.2 4262.4 149 Aritmeettinen keskiarvo, mediaani ja keskihajonta voitaisiin laskea myös komennoilla attach(mittaus) # luetaan muuttujanimet R:n muistiin mean(kunnat_kartalle, na.rm=true) # keskiarvo median(kunnat_kartalle, na.rm=true) # mediaani sd(kunnat_kartalle, na.rm=true) # keskihajonta Määreellä na.rm=true suljetaan laskennassa pois mahdolliset puuttuvat havainnot. Minimi, maksimi ja kvartiilivälin pituus (IQR = Q 3 Q 1 ) saadaan laskettua komennoilla min(kunnat_kartalle, na.rm=true) max(kunnat_kartalle, na.rm=true) IQR(kunnat_kartalle, na.rm=true) 1

Keskihajonta s neliöitynä (= s 2 ) on varianssi ja se voidaan laskea komennolla var(kunnat_kartalle, na.rm=true) Vertaa äskeisten laskelmien perusteella jakauman sijaintia kuvaavien tunnuslukujen, aritmeettisen keskiarvon ja mediaanin, arvoja. Ovatko ne yhtä suuret? Jos ei, kumpi on suurempi? Piirrä seuraavaksi kunnat_kartalle -muuttujan histogrammi valitsemalla valikosta Graphs -> Histogram... avautuvasta ikkunasta muuttuja (Variable) kunnat_kartalle ja paina OK. Näyttääkö muuttujan jakauma symmetriseltä? Muuttujan jakauman vinoutta kuvaavan vinoustunnusluvun g 1 arvo saadaan laskettua toistamalla jo aiemmin tehdyt valinnat valitsemalla valikosta Statistics -> Summaries -> Numerical Summaries... avautuvasta ikkunasta muuttuja (Variable) kunnat_kartalle. Käy nyt rastittamassa Statistics-lehdellä valinta Skewness ja paina OK. Vinoustunnusluvun arvo on siis noin 0.29 ja jakauma tulkitaan siten likimäärin symmetriseksi. Tällöin muuttujan aritmeettinen keskiarvo ja mediaani ovat likimäärin yhtä suuret. Tehtävä 1. Laske edellä esitetyt tunnusluvut vielä erikseen miehille ja naisille. Laskentaa varten Statistics -> Summaries -> Numerical Summaries... -valintojen jälkeen tarvittava ryhmittelymuuttuja sukupuoli pitää valita Summarize by groups... -napin alla. Näyttäisikö miesten ja naisten välillä olevan eroa keskimääräisessä pelituloksessa? Piirrä vielä kunnat_kartalle -muuttujan sukupuolittainen laatikko-jana -kuvio valitsemalla: valikosta Graphs -> Boxplot... avautuvasta ikkunasta muuttuja (Variable) kunnat_kartalle Plot by groups -napin alla valitaan ryhmittelymuuttujaksi sukupuoli. Paina OK. Vertaile kuvion informaatiota laskemiesi tunnuslukujen arvoihin. 2. Todennäköisyyslaskentaa Tarkastellaan luokkaharjoituksen 5 tehtävää 3, jossa tikkatauluun heitetyn tikan pistemäärän (= X) todennäköisyysjakauma oli x i 0 2 5 10 Yht. p i 0.2145 0.4923 0.2199 0.0733 1 2

Esitetään aluksi X:n todennäköisyysjakauma graafisesti (kirjoita komennot R-Commanderin R Script -osioon ja suorita komennot Submit-napilla): x <- c(0, 2, 5, 10) tn <- c(0.2145, 0.4923, 0.2199, 0.0733) plot(x,tn,type="h",main="x:n tn-jakauma",xlab="tikanheiton pistemäärä") Lisää seuraavaksi plot-komentoon lisämääreet las=1, xlim=c(-1,11), ylim=c(0,0.5) ja yaxs= i. Erota nämä lisämääreet pilkuilla muista määreistä, suorita plot-komento ja katso mitä määreillä saatiin aikaan. Satunnaismuuttujan X kertymäfunktio F(x) on Esitetään F (x) graafisesti: 0,, kun x < 0 0.2145, kun 0 x < 2 F (x) = P (X x) = 0.7068, kun 2 x < 5 0.9267, kun 5 x < 10 1, kun x 10 kertyma <- cumsum(tn); kertyma x.uusi <- c(-1,x,11) # laajennetaan kuvaa varten x:n arvoalue välille (-1,11) kertyma <- c(0,kertyma,1) plot(x.uusi,kertyma,type="s",xlab="x",main="x:n kertymafunktio") X:n tn jakauma X:n kertymafunktio tn 0.5 0.4 0.3 0.2 0.1 0.0 kertyma 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 0 2 4 6 8 10 tikanheiton pistemäärä x X:n odotusarvo (= 2.8171 pistettä, laskettu harjoituksen 5 tehtävässä 3 c) saadaan laskettua kaavalla µ = E(X) = k = x i p i. Nyt vektorissa x on talletettuna X:n mahdolliset arvot x i ja i=1 vektorissa tn kyseisten arvojen todennäköisyydet eli odotusarvo on odotusarvo <- sum(x*tn) ; odotusarvo X:n varianssi D 2 (X) = k = x 2 i p i µ 2 saadaan puolestaan laskettua komennoilla i=1 varianssi <- sum(x^2*tn) - odotusarvo^2 varianssi ja X:n keskihajonta D(X) = D 2 (X) on puolestaan sqrt(varianssi) 3

A) Normaalijakauma N(µ, σ 2 ) Oletetaan, että satunnaismuuttuja X N(100, 24 2 ). Tämä tilanne on luentomonisteen älykkyysosamääräesimerkissä 5.4. I) Kyseinen jakauma voidaan esittää graafisesti valitsemalla valikosta Distributions -> Continuous distributions -> Normal distribution -> Plot normal distribution... määrittelemällä odotusarvo (tässä 100) Mean-osiossa (= µ) ja keskihajonta (tässä 24) Standard deviation -osiossa (= σ) valinnalla Plot density function saadaan piirrettyä jakauman tiheysfunktio ja valinnalla Plot distribution function jakauman kertymäfunktio Normal Distribution: Mean=100, Standard deviation= Normal Distribution: Mean=100, Standard deviation= Density 0.000 0.005 0.010 0.015 Cumulative Probability 0.0 0.2 0.4 0.6 0.8 1.0 50 100 150 x 50 100 150 x II) Muotoa P (X k) todennäköisyys voidaan laskea valitsemalla valikosta Distributions -> Continuous distributions -> Normal distribution-> Normal Probabilities... määrittelemällä odotusarvo ja keskihajonta (tässä 100 ja 24) osioissa Mean ja Standard deviation ja yllä olevassa kaavassa esiintyvä k (esim. 110) osiossa Variable value(s) Valintojen jälkeen nähdään, että P (X 110) = 0.6615389. Mikäli haluttaisiin laskea todennäköisyyttä P (X > 110) valittaisiin edellä olleiden valintojen lisäksi Upper tail, jolloin nähdään, että P (X > 110) = 0.3384611. III) Jos tehtävänä on selvittää esim. se, millä X:n arvolla a pätee, että P (X a) = 0.10 (ts. mikä on jakauman 10 %:n fraktiili) voidaan valita valikosta Distributions -> Continuous distributions -> Normal distribution -> Normal quantiles... määrittelemällä jakauman odotusarvo ja keskihajonta (tässä 100 ja 24) osioissa Mean ja Standard deviation ja haettu todennäköisyyskertymä (tässä 0.10) osiossa Probabilities Valintojen jälkeen nähdään, että haettu arvo a on 69.24276. Mikäli haluttaisiin selvittää se, millä X:n arvolla a P (X a) = 0.10 valittaisiin edellä olleiden valintojen lisäksi Upper tail. 4

B) T-jakauma t(n) (t distribution) T-jakaumaan liittyvät funktiot ovat perusperiaatteiltaan täysin normaalijakauman vastaavien funktioiden (I III) kaltaisia. Ainoana erona on se, että tarkasteltavaa t-jakaumaa ei määritellä odotusarvon ja varianssin avulla. T-jakauman määrittelevät vapausasteet (degrees of freedom). 3. Lyhyesti R:n arvonta- ja satunnaislukufunktioista R:n arvontafunktioon sample tutustuttiin lyhyesti jo kurssin 1. R-harjoituksessa. Palautetaan aihe mieleen edellä käsitellyn tikkatauluesimerkin avulla. Sample-funktio tarjoaa mahdollisuuden poimia ko. jakaumasta satunnaisotoksia joko yksinkertaisella satunnaisotannalla palauttaen tai palauttamatta. Poimitaan tikan pistemäärää kuvaavasta X:n jakaumasta 1000 kappaleen satunnaisotos yksinkertaisella satunnaisotannalla palauttaen ja esitetään arvonnan lopputulos janadiagrammina. x i 0 2 5 10 Yht. p i 0.2145 0.4923 0.2199 0.0733 1 Arvontaan ja kuvan piirtoon tarvittavat komennot ovat x <- c(0, 2, 5, 10) tn <- c(0.2145, 0.4923, 0.2199, 0.0733) pisteet <- sample(x, 1000, tn, replace=true) frekvenssi <- table(pisteet) frekvenssi plot(frekvenssi) frekvenssi 0 100 300 500 0 2 5 10 pisteet Lasketaan vielä arvottujen lukujen keskiarvo ja varianssi mean(pisteet) var(pisteet) Vertaa otoksesta laskettua otoskeskiarvoa ja otosvarianssia ko. jakauman odotusarvoon 2.82 ja varianssiin 6.86, jotka on laskettu tässä harjoituksessa jo aikaisemmin. Normaalijakaumasta voidaan poimia satunnaislukuja funktiolla rnorm, joka määritellään kolmella argumentilla: arvottavien lukujen lukumäärällä, jakauman odotusarvolla ja keskihajonnalla. Arvotaan seuraavaksi 1000 lukua N(100, 24 2 )-jakaumasta, esitetään arvottujen lukujen jakauma graafisesti sekä lasketaan arvotuista luvuista aritmeettinen keskiarvo ja varianssi. 5

. arvotut <- rnorm(1000,mean=100, sd=24) hist(arvotut) mean(arvotut) var(arvotut) Frequency 0 50 150 250 Histogram of arvotut 50 100 150 arvotut 4. Jakaumatulosten simulointia R:llä Luentomonisteen normaalijakaumaesimerkissä oletettiin, että henkilön älykkyyttä mittaavan äo-testin tulos (= X) noudattaa N(100, 24 2 )-jakaumaa. Arvotaan ko. jakaumasta 20 kpl seitsemän äo-tuloksen satunnaisotosta. Jokaisen arvonnan lopputuloksista lasketaan keskiarvo ja keskihajonta, joiden perusteella normaalijakauman odotusarvolle lasketaan 90 %:n luottamusväli. Tämän simulaation toteutukseen ja visualisointiin käytämme funktiota normotos.sim. Kyseisen funktion argumentteina tarvitaan yksittäisellä arvontakierroksella arvottavien havaintojen lukumäärä, arvontajakauman odotusarvo ja keskihajonta. Kirjoita ja suorita seuraavat komennot R-commanderin script-osiossa: options(digits=4) # säädetään tulostustarkkuutta source("y:/yleiset/mikroluokat/matematiikka/johd_tilt_19/normotos.txt") normotos.sim(7,100,24) a) Yllä olevien komentojen avulla R:n grafiikkaikkunaan piirretään ensin N(100, 24 2 )-jakauman tiheysfunktion kuvaaja. b) Siirrä seuraavaksi hiiri R:n grafiikkaikkunan päälle ja klikkaa kuvaa hiirellä, jolloin kuvaan lisätään ensimmäisellä arvontakierroksella arvotut luvut. c) Klikkaa kuvaa uudelleen, jolloin kuvaan lisätään arvotuista luvuista laskettu aritmeettinen keskiarvo ja keskihajonta. Samalla kuvaan lisätään havaintojen perustella laskettu 90 %:n luottamusväli parametrille µ. d) Jatka klikkaamista rauhalliseen tahtiin ja seuraa, kuinka otosarvot, tunnusluvut ja luottamusväli vaihtelevat otoksesta toiseen, kunnes kaikkien 20 otoksen tulokset ovat näkyvillä. e) Laske kuinka moni kuvan 20:stä luottamusvälistä ei sisällä parametrin µ todellista arvoa 100? Toistetaan edellä esitelty simulaatio vielä uudelleen, tällä kertaa ilman hiirellä klikkailua. Tätä simulaatiota varten grafiikkaikkuna jaetaan kahteen osaan: 1) Ylempään osaan simulaatio toteutetaan siten, että N(100, 24 2 )-jakaumasta arvotaan 10 kpl seitsemän äo-tuloksen otosta, joiden perusteella luottamusvälit lasketaan. 2) Alempaan osaan simulaatio toteutetaan siten, että N(100, 24 2 )-jakaumasta arvotaan 10 kpl viidenkymmenen äo-tuloksen otosta, joiden perusteella luottamusvälit lasketaan. 6

par(mfrow=c(2,1)) # jaetaan grafiikkaikkuna normotos.sim(7,100,24, nsim=10, loc=f) # 1. simulaatio normotos.sim(50,100,24, nsim=10, loc=f) # 2. simulaatio Miten otoskoon kasvattaminen seitsemästä viiteenkymmeneen vaikuttaa luottamusvälien leveyteen? Entä kummassa kuviossa otoskeskiarvot vaihtelevat enemmän odotusarvonsa 100 ympärillä? Palautetaan grafiikkaikkuna takaisin alkuperäisiin asetuksiin harjoituksen loppuosaa varten: par(mfrow=c(1,1)) # grafiikkaikkuna alkuperäiseksi 5. Merkitsevyystestaus ja luottamusvälilaskenta A) Luentomonisteen esimerkki: Viidestätoista satunnaisesti valitusta AB-merkkisestä tuoremehutölkistä mitattiin C-vitamiinipitoisuus ja saatiin seuraavat tulokset (mg/100ml): 17.3, 18.2, 16.8, 16.9, 17.0, 18.1, 19.5, 20.2, 19.8, 20.3, 18.6, 21.0, 17.9, 21.5, 16.9 Tuoremehun valmistaja ilmoittaa mehun sisältävän C-vitamiinia keskimäärin 20mg/100ml. Oletetaan normaalijakaumamalli ja tutki valmistajan väitettä sopivan merkitsevyystestin ja 95 %:n luottamusvälin avulla. Syötetään aluksi havaintoaineisto R:n muistiin: valitse valikosta Data -> New data set... ja määrittele avautuvassa ikkunassa syötettävälle aineistolle nimi (esim. tuoremehu) ja paina OK. Anna muuttujan nimeksi (oletusarvona V1) cvitamiini, syötä aineisto ensimmäiselle sarakkeelle ja sulje aineistoikkuna OK-nappilla. Yhden otoksen t-testi (keskiarvotesti) voidaan suorittaa valitsemalla valikosta Statistics -> Means -> Single-sample t-test... Variable-osiossa testattava muuttuja cvitamiini Null hyphotesis: mu= -osiossa nollahypoteesin mukainen odotusarvo 20 Confidence level -osiossa laskettavan luottamusvälin luottamustaso 0.95 One Sample t-test data: cvitamiini t = -3.2, df = 14, p-value = 0.006 alternative hypothesis: true mean is not equal to 20 95 percent confidence interval: 17.78 19.55 sample estimates: mean of x 18.67 7

B) Luentoesimerkki: 1500:sta satunnaisesti valitusta henkilöstä 90 ilmoitti kannattavansa puoluetta A. Puolueen A puoluetoimistossa kannatusprosentin arvellaan olevan 8 %. Onko puoluetoimiston arvelu uskottava kerätyn aineiston perusteella? Vastaa kysymykseen tilanteeseen sopivan merkitsevyystestin perusteella. Laske lisäksi 95 %:n luottamusväli parametrille π. Tehtävän aineisto on talletettu y-levylle hakemistoon Y:/Yleiset/Mikroluokat/Matematiikka/johd_tilt_19 nimellä "kannatus.txt". Valitse valikosta Data -> Import data -> from text file, clipboard or URL... anna Enter name for data set -osiossa aineiston nimeksi kannatus. Paina OK. etsi kannatus.txt -niminen aineisto y-levyltä ja paina OPEN. Suhteellisen osuuden testi (yksi otos) voidaan suorittaa valitsemalla valikosta Statistics -> Proportions -> Single-sample proportion test... - Variable-osiossa testattava muuttuja (puolue_a), - Options-lehden Null hyphotesis: p= -osiossa H 0 :n mukainen suhteellinen osuus 0.08 - Confidence level -osiossa suhteelliselle osuudelle laskettavan luottamusvälin luottamustaso 0.95. Frequency counts (test is for first level): puolue_a A:n kannattaja ei A:n kannattaja 90 1410 1-sample proportions test without continuity correction data: rbind(.table), null probability 0.08 X-squared = 8.1522, df = 1, p-value = 0.004301 alternative hypothesis: true p is not equal to 0.08 95 percent confidence interval: 0.04906853 0.07317937 sample estimates: p 0.06 Huom. Kokeile tehdä edellinen tehtävä myös ilman valikon valintoja suorittamalla scriptikkunassa komento prop.test(90,1500, alternative="two.sided", p=.08, conf.level=.95, correct=false) Huom. R käyttää suhteellisen osuuden luottamusvälilaskennassa ja merkitsevyystestauksessa hieman eri kaavoja kuin luentomonisteessa esitetyt, mutta testaukseen liittyvä hypoteesen asettelu ja P-arvo ovat samat kuin mitkä luentomonisteen mukaisilla määrityksillä saataisiin. Samoin luottamusvälien tulkinta on yhteneväinen luentomonisteessa esitettyjen periaatteiden kanssa. 8

HARJOITUSTEHTÄVIÄ Vaihda mittausaineisto aktiiviseksi aineistoksi valikon valinnoilla Data -> Active data set -> Select active data set... 1. Mittausharjoituksessa yhtenä tehtävänä oli arvioida sadan irtokarkin yhteispainoa (g). Nämä painoarviot on talletettu muuttujaan sata_karkkia. a) Laske painoarvioiden keskiarvo, keskihajonta, mediaani ja kvartiiliväli. b) Sopivien tunnuslukujen valinta. b1) Vertaa a)-kohdassa laskemiasi keskiarvoa ja mediaania toisiinsa. Ovatko ne likimain samat? Kumpaan suuntaan jakauma on vino (jos se ylipäätänsä on vino)? b2) Muodosta painoarvioiden histogrammi. Näyttäisikö jakauma olevan piirretyn kuvion perusteella symmetrinen? b3) Millä tunnusluvulla kuvailisit ko. jakauman sijaintia (mediaani vai keskiarvo) ja hajontaa (kvartiiliväli vai keskihajonta)? 2. Ryhmien välistä vertailua. a) Vertaile tilanteeseen sopivan kuvion avulla painoarvioiden jakaumia a1) sukupuolten (muuttuja sukupuoli), a2) opintosuuntien (muuttuja opintosuunta) välillä. b) Laske eri opintosuuntien opiskelijoiden keskiarvot ja mediaanit muuttujalle sata_karkkia. 3. Satunnaismuuttuja X N(135, 15 2 ). a) Esitä jakauma graafisesti. b) Laske b1) P (X 130), b2) P (X > 150), b3) Määrää piste a siten, että P (X a) = 0.25. 4. Tässä tehtävässä yritetään arvioida mittausharjoituksessa kerättyjen neljän irtokarkin punnitustulosten keskimääräistä suuruutta. a) Arvotaan kaikkien punnitustulosten joukosta seitsemän punnitustulosta ja talletaan arvonnan tulos vektoriin painot. Kirjoita (ja suorita) seuraavat komennot R-commanderin script-ikkunaan: painot <- sample(nelja_karkkia, 7, replace=true) painot # tulostetaan arvonnan lopputulos Silmäile hetki arvottuja tuloksia. Minkä arvion antaisit tulosten perusteella keskimääräiselle neljän irtokarkin painolle perusjoukossa? 9

b) Lasketaan arvottujen punnitustulosten aritmeettinen keskiarvo: mean(painot) Minkä arvion antaisit nyt keskimääräiselle neljän irtokarkin painolle perusjoukossa? c) Arvotaan perusjoukosta seuraavaksi 500 kertaa seitsemän punnitustulosta, lasketaan jokaisen arvonnan arvontatuloksista aritmeettinen keskiarvo ja esitetään kyseisten keskiarvojen jakauma histogrammina. source("y:/yleiset/mikroluokat/matematiikka/johd_tilt_19/karkkiotanta.txt") karkkiotanta(500) # simuloidaan Minkä arvion antaisit saadun kuvan perusteella keskimääräiselle neljän irtokarkin painolle? d) Selvitetään lopuksi arvioitavan parametrin todellinen arvo laskemalla kaikkien punnitustulosten aritmeettinen keskiarvo. mean(nelja_karkkia, na.rm=true) 5. Luokkaharjoituksen 7 tehtävät 5 ja 6: Harjoituksen 1 mittausharjoituksessa yhtenä tehtävänä oli poimia sadan irtokarkin joukosta neljä irtokarkkia, joiden yhteispaino (= X, grammoissa) punnittiin. Tämän punnitustehtävän teki kaikkiaan 149 opiskelijaa. Oletetaan, että satunnaismuuttuja X N(µ, σ 2 )-jakaumaa. Tehtävänä on arvioida parametrin µ suuruutta. Punnitustulosten joukosta arvottiin seuraavat kuusi tulosta: 34, 34, 28, 35, 55, 43 a) Määrää a1) 95 %:n, a2) 90 %:n luottamusväli parametrille µ eli kaikkien punnitustulosten keskiarvolle. b) Voisiko neljän irtokarkin keskimääräinen punnitustulos perusjoukossa olla 50 grammaa? Suorita tilanteeseen sopiva merkitsevyystestaus. 6. Luokkaharjoituksen 7 tehtävät 7 ja 8: Harjoituksen 1 mittausharjoituksessa kysyttiin vastaajan kätisyydestä. Kysymykseen vastasi kaikkiaan 147 opiskelijaa, joista 10 ilmoitti olevansa vasenkätisiä. Oletetaan, että kysymykseen vastaajat ovat satunnaisotos kaikkien Oulun yliopiston opiskelijoiden joukosta ja tehtävänä on arvioida vasenkätisyyden yleisyyttä ko. perusjoukossa eli populaatiossa. a) Määrää piste-estimaatti vasenkätisten suhteelliselle osuulle perusjoukossa. b) Määrää b1) 95 %, b2) 90 % luottamusväli vasenkätisten suhteelliselle osuudelle perusjoukossa. c) Voisiko vasenkätisten prosentuaalinen osuus Oulun yliopiston opiskelijoiden keskuudessa olla 10 %? Suorita tilanteeseen sopiva tilastollinen merkitsevyystestaus. 10