(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Samankaltaiset tiedostot
Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Opiskelija viipymisaika pistemäärä

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

2. Tietokoneharjoitukset

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat


b1) harhattomuutta, b2) helppoutta, b3) herkkyyttä, b4) mitta-asteikkoa, b5) standardointia, b6) tarkkuutta.

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

1. Tietokoneharjoitukset

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset

TA4b Taloudellinen kasvu Harjoitus 1

Esimerkkiaineisto ALKOKULU Olemme käyttäneet 3. harjoituksissa esimerkkinä aineistoa, joka käsittelee yksityisiä kulutusmenoja

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

805306A Johdatus monimuuttujamenetelmiin, 5 op

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Frequencies. Frequency Table

pisteet Frekvenssi frekvenssi Yhteensä

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

A250A0050 Ekonometrian perusteet Tentti

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

TA4b Taloudellinen kasvu Harjoitus 2

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

1 Johdatus varianssianalyysiin

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Kandidaatintutkielman aineistonhankinta ja analyysi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Harjoitus 9: Excel - Tilastollinen analyysi

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Kaikissa tämän ryhmän tehtävissä on vastattava seuraavan kysymykseen sen ohjeita noudattaen.

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Kvantitatiiviset menetelmät

Nuoruusiän vaikutus aikuisen painoindeksiin Data-analyysin perusmenetelmät Harjoitustyö. Lassi Miinalainen

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Johdatus regressioanalyysiin. Heliövaara 1

Viherseinien efekti Tilastoanalyysi

Regressioanalyysi. Kuusinen/Heliövaara 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i p X ip + u i

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastotieteen jatkokurssi syksy 2003 Välikoe

Harjoitukset 4 : Paneelidata (Palautus )

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

R: mikä, miksi ja miten?

HAVAITUT JA ODOTETUT FREKVENSSIT

Estimointi. Otantajakauma

Mat Tilastollisen analyysin perusteet, kevät 2007

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Harjoittele tulkintoja

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Supplementary Table S1. Material list (a) Parameters Sal to Str

SPSS-perusteet. Sisältö

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

Load

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Mat Tilastollisen analyysin perusteet

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

4.2 Useampi selittävä muuttuja (kertausta)

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

805305A JOHDATUS REGRESSIO- JA VARIANSSIANALYYSIIN, sl 2017

Ristivalidointia ja grafiikkaa

Toimittaja Erä

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Mat Tilastollisen analyysin perusteet, kevät 2007

Transkriptio:

2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja rasvaprosentti. Regressiomallituksessa (tulokset talletettu malliobjektiin malli1) vastemuuttujana on rasvaprosentti, jota on selitetty painolla ja vyötärön ympärysmitalla. Käytä hyväksesi liitteen 1 tuloksia vastatessasi seuraaviin kysymyksiin. (a) Esittele lyhyesti malli1:n taustalla oleva regressiomalli ja siihen liittyvät oletukset. (b) Tulkitse selittäviin muuttujiin liittyvien regressiokertoimien piste-estimaatit mahdollisimman selväkielisesti. Kommentoi summary-komennolla saadun tulostuksen perusteella lyhyesti perustellen sitä, näyttääkö kumpikin selittäjä tarpeelliselta mallituksessa. (c) Anova-taulun perusteella mallitukseen liittyvä neliösummahajotelma SSY = SSR + SSE näyttäisi olevan (ainakin likimain) 1737 = 1387 + 350. Hajotelmaan liittyvän ns. globaaliin F-testiin liittyvä tulostus löytyy summary -komennolla aikaansaadun tulostuksen alimmalta riviltä (testisuureen arvo on 33.6 ja sitä vastaava p-arvo 1.23e-06). Mitä tämän testin perusteella voidaan päätellä? (d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. (6 p) 2. Jatkoa edelliseen tehtävään: Liitteeseen 2 on listattu aineiston havaintoarvojen lisäksi mm. mallidiagnostiikkaan liittyvien tunnuslukujen havaittuja arvoja. (a) Laske aineiston ensimmäiselle havaintoyksikölle liitteen 2 listauksessa xxxxxx-merkinnällä peitetty arvo sovitteelle, residuaalille (eli jäännökselle) ja standardoidulle residuaalille. (b) Edellä mainitun tunnuslukulistauksen lisäksi liitteestä 2 löytyy malli1:een liittyviä diagnostiikkakuvia. Kommentoi tunnuslukuihin/diagnostiikkakuviin perustuen sitä, onko (b1) vakiovarianssioletus realistinen, (b2) normaalijakaumaoletus realistinen, (b3) aineistossa erityisen vaikuttavia ja/tai vieraita havaintoja? (c) Selitä lyhyesti mitä tarkoitetaan muuttujien välisellä (multi)kollineaarisuudella. Mitä ilmeisiä seurauksia kollineaarisuudesta on eri selittäjien vaikutusten arvioinnin kannalta? Näyttäisikö kollineaarisuus olevan ongelma malli1:n kohdalla? Perustele vastauksesi lyhyesti. 3. Kahdeksan anoreksiaa sairastavan nuoren naisen paino (kg) mitattiin ennen ja jälkeen terapiajakson. Mittaustulokset olivat: Nainen 1 2 3 4 5 6 7 8 paino ennen 37.8 39.0 37.5 39.4 36.1 39.6 34.9 42.8 paino jälkeen 42.8 41.5 41.7 45.5 34.8 44.5 34.8 46.1 erotus 5.0 2.5 4.2 6.1-1.3 4.9-0.1 3.3

Näyttäisikö kerätyn aineiston perusteella terapiasta olevan apua painon lisäämisessä? Laske tilanteeseen sopivan vertailuparametrin (a) piste-estimaatti, (b) luottamusväli likimääräisellä 95 % luottamustasolla, (c) sekä p-arvo kaksisuuntaiseen merkitsevyystestiin, jossa testataan nollahypoteesia H 0 : = 0, kun estimointikriteerinä on järjestysluvuin painotettu itseisarvopoikkeamien summa. Tulkitse tulokset lyhyesti. Laskelmissa saattaa auttaa liitteen 3 tiedot. (6 p) 4. Melanoomaan sairastuneista 11 henkilöstä tiedetään seuruuaika kuukausina taudin diagnoosin jälkeen, status seuruun päättyessä (K=kuollut vai E=elossa) ja sukupuoli (M=mies, N=nainen). Aineisto (, joka on osa laajempaa Leen vuonna 1980 julkaisemaa aineistoa) on seuraava: Potilas 1 2 3 4 5 6 7 8 9 10 11 seuruuaika 6 11 19 13 7 22 20 2 1 6 14 status E K K E K E K K E K E sukupuoli N N N N N N M M M M M (a) Laske parametrittomalla Kaplan-Meier -menetelmällä välttökäyrän (eli elossaolotodennäköisyyksien) piste-estimaatit erikseen miehille ja naisille ja piirrä laskelmiesi perusteella välttökäyrän estimaatti kummallekin ryhmälle erikseen samaan koordinaatistoon. (b) Montako prosenttia melanoomaan sairastuneista (b1) miehistä, (b2) naisista on elossa vielä vuoden kuluttua diagnoosista? Perusta vastauksesi (a)-kohdassa saatuihin tuloksiin. (c) Arvioi diagnoosin jälkeisen elinajan alakvartiili erikseen kummallekin sukupuolelle ja tulkitse saadut arvot selväkielisesti. (6 p)

Liite 1. attach(rasva) plot(rasva) sapply(rasva,mean) # keskiarvot rasvapros vyotaro paino 19.75 94.11 85.55 sapply(rasva,sd) # keskihajonnat rasvapros vyotaro paino 9.563 9.699 12.097 cor(rasva) rasvapros vyotaro paino rasvapros 1.0000 0.8864 0.6966 vyotaro 0.8864 1.0000 0.8522 paino 0.6966 0.8522 1.0000 85 90 95 100 105 110 rasvapros 85 90 95 100 105 110 vyotaro 5 10 15 20 25 30 35 paino 70 80 90 100 110 5 10 15 20 25 30 35 70 80 90 100 110. # rasvaprosentin regressiomallitus malli1 <- lm(rasvapros ~ vyotaro + paino) summary(malli1) Call: lm(formula = rasvapros ~ vyotaro + paino) Residuals: Min 1Q Median 3Q Max -8.074-2.758-0.005 3.540 7.682 Coefficients: Estimate Std. Error t value Pr( t ) (Intercept) -64.953 10.433-6.23 9.2e-06 vyotaro 1.054 0.205 5.14 8.2e-05 paino -0.170 xxxxxx -1.03 0.32 Residual standard error: 4.54 on 17 degrees of freedom Multiple R-squared: 0.798, Adjusted R-squared: 0.775 F-statistic: 33.6 on 2 and 17 DF, p-value: 1.23e-06 anova(malli1) Analysis of Variance Table Response: rasvapros Df Sum Sq Mean Sq F value Pr(F) vyotaro 1 1365 1365 66.23 2.9e-07 paino 1 22 22 1.06 0.32 Residuals 17 350 21

Liite 2 sovite <- fitted(malli1) # sovitteet jaannos <- resid(malli1) # residuaalit rstand <- rstandard(malli1) # standardoidut residuaalit rstud <- rstudent(malli1) # studentoidut residuaalit pot <- hatvalues(malli1) # potentiaalit cook.d <- cooks.distance(malli1) # Cookin etäisyysmitat round(data.frame(rasva, sovite, jaannos, rstand, rstud, pot, cook.d),3) rasvapros vyotaro paino sovite jaannos rstand rstud pot cook.d 1 6 81.3 79.4 xxxxxx xxxxxx xxxxxx -0.312 0.215 0.009 2 21 91.4 82.1 17.484 3.516 0.796 0.788 0.055 0.012 3 15 96.5 90.7 21.401-6.401-1.456-1.509 0.062 0.047 4 6 83.8 72.1 11.168-5.168-1.212-1.230 0.118 0.065 5 22 99.1 88.9 24.448-2.448-0.559-0.547 0.069 0.008 6 31 101.6 87.1 27.390 3.610 0.855 0.848 0.136 0.038 7 32 104.1 93.0 29.024 2.976 0.698 0.687 0.119 0.022 8 21 88.9 78.5 15.459 5.541 1.264 1.289 0.068 0.039 9 25 96.5 84.8 22.403 2.597 0.592 0.581 0.067 0.008 10 30 96.5 85.3 22.318 7.682 1.748 1.873 0.063 0.069 11 10 83.8 85.3 8.926 1.074 0.275 0.267 0.260 0.009 12 20 101.6 108.9 23.688-3.688-1.042-1.045 0.392 0.234 13 22 91.4 79.4 17.942 4.058 0.926 0.922 0.068 0.021 14 9 81.3 76.2 7.835 1.165 0.281 0.273 0.166 0.005 15 38 111.8 111.6 33.985 4.015 1.052 1.056 0.294 0.154 16 10 83.8 72.6 11.083-1.083-0.253-0.246 0.115 0.003 17 27 104.1 97.5 28.260-1.260-0.294-0.286 0.108 0.003 18 12 86.4 72.1 13.909-1.909-0.448-0.437 0.120 0.009 19 10 86.4 66.2 14.911-4.911-1.246-1.268 0.247 0.170 20 28 111.8 99.3 36.074-8.074-2.065-2.315 0.259 0.496 vif(malli1) # vif-kertoimet vyotaro paino 3.653 3.653

par(mfrow=c(2,2)) plot(malli1, which=1:4) Residuals vs Fitted Normal Q Q Residuals 10 5 0 5 10 3 20 Standardized residuals 2 1 0 1 2 20 3 10 10 15 20 25 30 35 2 1 0 1 2 Fitted values Theoretical Quantiles Standardized residuals 0.0 0.4 0.8 1.2 Scale Location 10 3 20 Cook's distance 0.0 0.1 0.2 0.3 0.4 0.5 Cook's distance 12 19 20 10 15 20 25 30 35 Fitted values 5 10 15 20 Obs. number

Liite 3 ennen <- c(37.8, 39.0, 37.5, 39.4, 36.1, 39.6, 34.9, 42.8) jalkeen <- c(42.8, 41.5, 41.7, 45.5, 34.8, 44.5, 34.8, 46.1) ero <- jalkeen - ennen ; ero [1] 5.0 2.5 4.2 6.1-1.3 4.9-0.1 3.3 C <- matrix(rep(ero,8),ncol=8); C [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 [2,] 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 [3,] 4.2 4.2 4.2 4.2 4.2 4.2 4.2 4.2 [4,] 6.1 6.1 6.1 6.1 6.1 6.1 6.1 6.1 [5,] -1.3-1.3-1.3-1.3-1.3-1.3-1.3-1.3 [6,] 4.9 4.9 4.9 4.9 4.9 4.9 4.9 4.9 [7,] -0.1-0.1-0.1-0.1-0.1-0.1-0.1-0.1 [8,] 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 CC <- (C+t(C))/2 ; CC [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 5.00 3.75 4.60 5.55 1.85 4.95 2.45 4.15 [2,] 3.75 2.50 3.35 4.30 0.60 3.70 1.20 2.90 [3,] 4.60 3.35 4.20 5.15 1.45 4.55 2.05 3.75 [4,] 5.55 4.30 5.15 6.10 2.40 5.50 3.00 4.70 [5,] 1.85 0.60 1.45 2.40-1.30 1.80-0.70 1.00 [6,] 4.95 3.70 4.55 5.50 1.80 4.90 2.40 4.10 [7,] 2.45 1.20 2.05 3.00-0.70 2.40-0.10 1.60 [8,] 4.15 2.90 3.75 4.70 1.00 4.10 1.60 3.30 V <- c(cc[row(cc) <= col(cc)]) ; V [1] 5.00 3.75 2.50 4.60 3.35 4.20 5.55 4.30 5.15 6.10 1.85 0.60 [13] 1.45 2.40-1.30 4.95 3.70 4.55 5.50 1.80 4.90 2.45 1.20 2.05 [25] 3.00-0.70 2.40-0.10 4.15 2.90 3.75 4.70 1.00 4.10 1.60 3.30 V <- sort(v) ; V [1] -1.30-0.70-0.10 0.60 1.00 1.20 1.45 1.60 1.80 1.85 2.05 2.40 [13] 2.40 2.45 2.50 2.90 3.00 3.30 3.35 3.70 3.75 3.75 4.10 4.15 [25] 4.20 4.30 4.55 4.60 4.70 4.90 4.95 5.00 5.15 5.50 5.55 6.10 C1 <- matrix(rep(ero,8),8) C2 <- matrix(rep(ero,8),8) D <- c(c1-t(c2)) D <- sort(d) ; D [1] -7.4-6.3-6.2-6.2-5.5-5.1-5.0-4.6-4.3-3.8-3.6-3.4-2.8-2.6-2.5 [16] -2.4-1.9-1.7-1.7-1.6-1.2-1.2-1.1-0.9-0.8-0.8-0.7-0.1 0.0 0.0 [31] 0.0 0.0 0.0 0.0 0.0 0.0 0.1 0.7 0.8 0.8 0.9 1.1 1.2 1.2 1.6 [46] 1.7 1.7 1.9 2.4 2.5 2.6 2.8 3.4 3.6 3.8 4.3 4.6 5.0 5.1 5.5 [61] 6.2 6.2 6.3 7.4