Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Samankaltaiset tiedostot
Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Opiskelija viipymisaika pistemäärä

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Sukupuoli Mies Nainen Yht. Suhtautuminen kannattaa uudistukseen ei kannata Yht

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

b1) harhattomuutta, b2) helppoutta, b3) herkkyyttä, b4) mitta-asteikkoa, b5) standardointia, b6) tarkkuutta.

2. Tietokoneharjoitukset

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet


KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

1. Tietokoneharjoitukset

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

Regressioanalyysi. Kuusinen/Heliövaara 1

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Esimerkkiaineisto ALKOKULU Olemme käyttäneet 3. harjoituksissa esimerkkinä aineistoa, joka käsittelee yksityisiä kulutusmenoja

TA4b Taloudellinen kasvu Harjoitus 1

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Harjoitus 9: Excel - Tilastollinen analyysi

TA4b Taloudellinen kasvu Harjoitus 2

pisteet Frekvenssi frekvenssi Yhteensä

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Nuoruusiän vaikutus aikuisen painoindeksiin Data-analyysin perusmenetelmät Harjoitustyö. Lassi Miinalainen

vkp 4*(1+0)/(32-3)-1= vkp 2*(1+0)/(32-3)=

805306A Johdatus monimuuttujamenetelmiin, 5 op

Esimerkki 1: auringonkukan kasvun kuvailu

Mat Tilastollisen analyysin perusteet, kevät 2007

R: mikä, miksi ja miten?

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Kandidaatintutkielman aineistonhankinta ja analyysi

Viherseinien efekti Tilastoanalyysi

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

1 Johdatus varianssianalyysiin

Kvantitatiiviset menetelmät

voidaan hylätä, pienempi vai suurempi kuin 1 %?

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta

Johdatus regressioanalyysiin. Heliövaara 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

T I I N A P A L O N I I T T Y 7 m a r r a s k u u t a Weser-ratkaisun merkitys lupaharkinnassa

Kaikissa tämän ryhmän tehtävissä on vastattava seuraavan kysymykseen sen ohjeita noudattaen.

Ristivalidointia ja grafiikkaa

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

Määrällisen aineiston esittämistapoja. Aki Taanila

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Taekwon-Do SM-kilpailut ja Helmicup 2013

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Tehtävät 1/10. TAMPEREEN YLIOPISTO Informaatiotieteiden tiedekunta Valintakoe Matematiikka ja tilastotiede. Sukunimi (painokirjaimin)

4.2 Useampi selittävä muuttuja (kertausta)

HAVAITUT JA ODOTETUT FREKVENSSIT

Til.yks. x y z

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Hallikauden toimintakalenteri

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Load

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

1. Kymmenjärjestelmä ja desimaalilukujen yhteen- ja vähennyslaskua

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

3 TOISEN ASTEEN POLYNOMIFUNKTIO

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

TILASTOTIETEEN JATKOKURSSI (806119P)

MTTTP1, luento KERTAUSTA

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Frequencies. Frequency Table

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

MTTTP1, luento KERTAUSTA

Mallilukujärjestys 1. vuosi 2013

A-osio: Ilman laskinta, MAOL:in taulukkokirja saa olla käytössä. Maksimissaan tunti aikaa.

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Tekijä Pitkä Matematiikka 11 ratkaisut luku 2

Piirrä kuvioita suureen laatikkoon. Valitse ruutuun oikea merkki > tai < tai =.

7. laskuharjoituskierros, vko 10, ratkaisut

MTTTP1, luento KERTAUSTA

Kvantitatiiviset menetelmät

Yleistetyistä lineaarisista malleista

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Transkriptio:

8069 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2013 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOLLA 9! Ilmoittaudu Weboodissa 4.3.2013 klo 8.00-12.00 (sali L4) pidettävään 1. välikokeeseen! 1. Jatkoa harjoituksen 6 tehtävään 4: Sähkölämmitteisen loma-asunnon sähkön kulutusta ja ulkoilman lämpötilaa seurattiin seitsemän vuorokautta. Tällöin saatiin seuraavat havainnot: vuorokausi: 1 2 3 4 5 6 7 Sähkön kulutus (kwh): 32 28 23 21 30 28 22 Ulkoilman lämpötila ( o C): 5 8 12-1 3 7 a) Sovita aineistoon regressiosuora y = a + b, missä y = sähkön kulutus ja = ulkoilman lämpötila. Tulkitse regressiokertoimet a ja b selväkielisesti. Määrää myös regressioyhtälön determinaatiokerroin eli selitysaste ja tulkitse se. b) Paljonko regressioyhtälö ennustaa loma-asunnon lämmönkulutuksen olevan (=ennustearvo), jos ulkoilman lämpötila on 9 astetta? 2. Pienen ala-asteen kakkosluokan liikuntaryhmän pojat (n=11) ottelivat neliottelun, jossa lajeina olivat 60 metrin juoksu, 0 metrin juoksu, pallonheitto ja pituushyppy. a) Pallonheitossa lopputulokset (metreinä) olivat 18.7 23.4 15.9 19.6 21.0 19.7 18.5 19.7 21.8 18.4 20.1 Laske pallonheiton lopputulosten aritmeettinen keskiarvo ja keskihajonta. b) Liitteessä 1 on esitetty tarkasteltavasta aineistosta saatu R:n tulostus. Kommentoi 60 metrin juoksun ja 0 metrin juoksun välistä riippuvuutta korrelaatiokertoimen r perusteella. Missä korrelaatiodiagrammin kuvassa/kuvissa (1-12) kuvataan 60 metrin juoksun ja 0 metrin juoksun välistä riippuvuutta? c) Määrää regressioyhtälö y = a + b ja tulkitse kertoimet, kun vastemuuttujana on 0 metrin juoksu ja selittävänä muuttujana 60 metrin juoksu. Määrää lisäksi regressioyhtälön determinaatiokerroin (eli selitysaste) ja tulkitse se. d) Matin tulokset neliottelussa olivat: 60 metrin juoksu = 12.5 sekuntia, 0 metrin juoksu = 23.2 sekuntia, pallonheitto = 19.6 metriä ja pituushyppy 2.20 metriä. Ennusta Matille 0 metrin juoksun loppuaika c)-kohdan regressioyhtälön avulla. Laske ennustearvon ja todellisen arvon erotus eli jäännöstermi (eli residuaali).

3. Kalabiologi Pekka Brofelt keräsi Längelmävedellä vuonna 1916 aineistoa tutkimuksiinsa eri kalojen ruumiinmitoista ja niiden yhteyksistä toisiinsa. Tässä tehtävässä tarkastelemme erityisesti sitä, miten lahnoilla (Abramis brama) ruumiin paino (grammoina) riippuu maksimipituudesta (muuttuja pituus senttimetreinä mitattuna suusta pyrstön päähän) ja korkeudesta (korkeus, senttimetreinä kalan korkeimmalta kohdalta.) Aineiston lähde: Brofelt, P. Bidrag till kännedom om fiskbeståendet in våra sjöar. Längelmävesi. Kirjassa Järvi, T.H. Finlands Fiskeriet Band 4, Meddelanden utgivna av fiskeriföreningen i Finland. Helsingfors 1917. Liitteessä 2 on esitetty otteita R-ohjelman tulostuksesta. Käytä tulostuksen tietoja apunasi vastatessasi seuraaviin kysymyksiin. a) Mallissa 1 vastemuuttujana on lahnan paino ja selittäjänä lahnan korkeus. Miksi lahnan korkeus näyttäisi olevan hieman pituutta parempi selittäjä lahnan painolle? b) Tulkitse regressioanalyysin tulokset, jotka liittyvät malliin 2 (määrää regressioyhtälö, kertoimien selväkielinen tulkinta, determinaatiokertoimen arvo ja sen tulkinta). c) Erään lahnan paino on 500 grammaa, pituus 36.4 cm ja korkeus 13.8 cm. Ennusta vastemuuttujan arvo ko. tilastoyksikölle c1) regressioyhtälön 1 (malli1) avulla, c2) regressioyhtälön 2 (malli2) avulla. c3) Laske vasteen todellisen arvon ja ennustearvon erotus eli jäännöstermi (eli residuaali) kohdissa c1) ja c2). 4. Liitteessä 3 on esitetty neljä erilaista hajontakuviota muuttujien ja y välillä. Kunkin pisteparven keskelle on sovitettu regressiosuora y = a + b. Sovitusten tuloksena on saatu seuraavat regressiosuorat: A: ŷ = 15.7 0.2 B: ŷ = 14.7 0.7 C: ŷ =.3 + 0.3 D: ŷ = 3.1 + 1.3 Mihin kuvioon kukin sovitteista kuuluu? 5. a) Mikä on todennäköisyys, että satunnaisesti valittu viikonpäivä on a1) sunnuntai a2) lauantai tai sunnuntai? b) Herätyskello pysähtyy pariston loputtua. Millä todennäköisyydellä kello pysähtyy b1) klo 01.00 ja 06.00 välisenä aikana, b2) lauantaina tai sunnuntaina klo 01.00 ja 06.00 välisenä aikana?

6. Paperisilppurin jäljiltä paperiarkki on silputtu 264 palaan, joista jokaisessa on korkeintaan yksi kirjain. Kirjaimia on seuraavasti: A B C D E F G H I J K L M N O P R S T U V Ä Ö 12 1 0 3 8 0 0 5 15 4 7 2 6 12 8 6 6 4 6 12 2 3 1 Valitset satunnaisesti yhden lapun. Mikä on todennäköisyys, että a) se on tyhjä, b) siinä on vokaali, c) siinä on konsonantti, d) siinä on kirjain, jota ei ole missään muussa lapussa, e) siinä on F, f) siinä on joku sanassa "tilastotiede"oleva kirjain? 7. Alla olevassa taulukossa on esitetty nykyisten kansanedustajien lukumäärät sukupuolen ja syntymävuoden mukaan: Syntymävuosi Sukupuoli 1940 49 1950 59 1960 69 1970 79 1980 89 Yhteensä Miehet 21 35 35 16 3 1 Naiset 6 16 36 25 7 90 Yhteensä 27 51 71 41 200 Valitaan satunnaisesti (umpimähkään) yksi kansanedustaja. Mikä on todennäköisyys, että valittu kansanedustaja on a) mies, b) syntynyt 1960-luvulla, c) mies ja syntynyt 1960-luvulla, d) mies tai syntynyt 1960-luvulla, e) nainen, kun tiedetään, että hän on syntynyt 1940-luvulla, f) syntynyt 1940-luvulla, kun tiedetään, että hän on nainen, g) syntynyt 1940- tai 1980-luvulla, h) syntynyt 1940- tai 1980-luvulla, kun tiedetään, että hän on mies?

Huom.: Mikroluokkaharjoitusten harjoitusryhmät viikolla 9 ovat: MA KLO 12.15 13.45 (M304) (ryhmä suunnattu biologeille) TI KLO 8.30.00 (M304) TI KLO 12.15 13.45 (M302) KE KLO.15 11.45 (M302) KE KLO 14.30 16.00 (M302) TO KLO 12.15 13.45 (M302) TO KLO 12.15 13.45 (M304) PE KLO.15 11.45 (M302) (ryhmä suunnattu biologeille) PE KLO 14.15 15.45 (M304) (ryhmä suunnattu biologeille) Vastauksia tehtäviin: 1. a) 30.6-0.68 0.49 b) 24.5 2. a) 19.71 ja 1.96 c) a 13.74, b 2.93 ja ˆR 2 0.87 d) 22.8 ja 0.4 3. c1) 482 g c2) 501 g c3) 18 g ja -1 g 5. a1) 0.1429 a2) 0.2857 b1) 0.2083 b2) 0.0595 6. a) 0.5341 b) 0.2235 c) 0.2424 d) 0.0076 e) 0 f) 0.2197 7. a) 0.5500 b) 0.3550 c) 0.1750 d) 0.7300 e) 0.2222 f) 0.0667 g) 0.1850 h) 0.2182

LIITE 1:

LIITE 2: >cor(lahna) #korrelaatomatriisi paino pituus korkeus paino 1.0000 0.9639 0.9707 pituus 0.9639 1.0000 0.9540 korkeus 0.9707 0.9540 1.0000 > malli1 <- lm(paino~korkeus) > summary(malli1) Call: lm(formula = paino ~ korkeus) Residuals: Min 1Q Median 3Q Ma -62.8-37.4-9.9 19.0 6.7 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -913.94 67.91-13.5 1e-14 korkeus 1.16 4.42 22.9 <2e-16 --- Residual standard error: 50.4 on 32 degrees of freedom Multiple R-squared: 0.942, Adjusted R-squared: 0.941 F-statistic: 523 on 1 and 32 DF, p-value: <2e-16 > > malli2 <- lm(paino~korkeus+pituus) > summary(malli2) Call: lm(formula = paino ~ korkeus + pituus) Residuals: Min 1Q Median 3Q Ma -66.7-27.2-7.2 15.4 94.9 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -68.84 73.91-14.46 2.5e-15 korkeus 59.27 12.74 4.65 5.8e-05 pituus 20.65 5.99 3.45 0.0017 --- Residual standard error: 43.5 on 31 degrees of freedom Multiple R-squared: 0.958, Adjusted R-squared: 0.956 F-statistic: 356 on 2 and 31 DF, p-value: <2e-16

LIITE 3: KUVA 1 KUVA 2 y 14 12 8 6 4 2 y 30 20 0 0 5 15 20 0 5 15 20 KUVA 3 KUVA 4 20 18 16 15 14 y 12 8 6 y 20 5 0 5 15 20 0 5 15 20