2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja rasvaprosentti. Regressiomallituksessa (tulokset talletettu malliobjektiin malli1) vastemuuttujana on rasvaprosentti, jota on selitetty painolla ja vyötärön ympärysmitalla. Käytä hyväksesi liitteen 1 tuloksia vastatessasi seuraaviin kysymyksiin. (a) Esittele lyhyesti malli1:n taustalla oleva regressiomalli ja siihen liittyvät oletukset. (b) Tulkitse selittäviin muuttujiin liittyvien regressiokertoimien piste-estimaatit mahdollisimman selväkielisesti. Kommentoi summary-komennolla saadun tulostuksen perusteella lyhyesti perustellen sitä, näyttääkö kumpikin selittäjä tarpeelliselta mallituksessa. (c) Anova-taulun perusteella mallitukseen liittyvä neliösummahajotelma SSY = SSR + SSE näyttäisi olevan (ainakin likimain) 1737 = 1387 + 350. Hajotelmaan liittyvän ns. globaaliin F-testiin liittyvä tulostus löytyy summary -komennolla aikaansaadun tulostuksen alimmalta riviltä (testisuureen arvo on 33.6 ja sitä vastaava p-arvo 1.23e-06). Mitä tämän testin perusteella voidaan päätellä? (d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. (6 p) 2. Jatkoa edelliseen tehtävään: Liitteeseen 2 on listattu aineiston havaintoarvojen lisäksi mm. mallidiagnostiikkaan liittyvien tunnuslukujen havaittuja arvoja. (a) Laske aineiston ensimmäiselle havaintoyksikölle liitteen 2 listauksessa xxxxxx-merkinnällä peitetty arvo sovitteelle, residuaalille (eli jäännökselle) ja standardoidulle residuaalille. (b) Edellä mainitun tunnuslukulistauksen lisäksi liitteestä 2 löytyy malli1:een liittyviä diagnostiikkakuvia. Kommentoi tunnuslukuihin/diagnostiikkakuviin perustuen sitä, onko (b1) vakiovarianssioletus realistinen, (b2) normaalijakaumaoletus realistinen, (b3) aineistossa erityisen vaikuttavia ja/tai vieraita havaintoja? (c) Selitä lyhyesti mitä tarkoitetaan muuttujien välisellä (multi)kollineaarisuudella. Mitä ilmeisiä seurauksia kollineaarisuudesta on eri selittäjien vaikutusten arvioinnin kannalta? Näyttäisikö kollineaarisuus olevan ongelma malli1:n kohdalla? Perustele vastauksesi lyhyesti. 3. Kahdeksan anoreksiaa sairastavan nuoren naisen paino (kg) mitattiin ennen ja jälkeen terapiajakson. Mittaustulokset olivat: Nainen 1 2 3 4 5 6 7 8 paino ennen 37.8 39.0 37.5 39.4 36.1 39.6 34.9 42.8 paino jälkeen 42.8 41.5 41.7 45.5 34.8 44.5 34.8 46.1 erotus 5.0 2.5 4.2 6.1-1.3 4.9-0.1 3.3
Näyttäisikö kerätyn aineiston perusteella terapiasta olevan apua painon lisäämisessä? Laske tilanteeseen sopivan vertailuparametrin (a) piste-estimaatti, (b) luottamusväli likimääräisellä 95 % luottamustasolla, (c) sekä p-arvo kaksisuuntaiseen merkitsevyystestiin, jossa testataan nollahypoteesia H 0 : = 0, kun estimointikriteerinä on järjestysluvuin painotettu itseisarvopoikkeamien summa. Tulkitse tulokset lyhyesti. Laskelmissa saattaa auttaa liitteen 3 tiedot. (6 p) 4. Melanoomaan sairastuneista 11 henkilöstä tiedetään seuruuaika kuukausina taudin diagnoosin jälkeen, status seuruun päättyessä (K=kuollut vai E=elossa) ja sukupuoli (M=mies, N=nainen). Aineisto (, joka on osa laajempaa Leen vuonna 1980 julkaisemaa aineistoa) on seuraava: Potilas 1 2 3 4 5 6 7 8 9 10 11 seuruuaika 6 11 19 13 7 22 20 2 1 6 14 status E K K E K E K K E K E sukupuoli N N N N N N M M M M M (a) Laske parametrittomalla Kaplan-Meier -menetelmällä välttökäyrän (eli elossaolotodennäköisyyksien) piste-estimaatit erikseen miehille ja naisille ja piirrä laskelmiesi perusteella välttökäyrän estimaatti kummallekin ryhmälle erikseen samaan koordinaatistoon. (b) Montako prosenttia melanoomaan sairastuneista (b1) miehistä, (b2) naisista on elossa vielä vuoden kuluttua diagnoosista? Perusta vastauksesi (a)-kohdassa saatuihin tuloksiin. (c) Arvioi diagnoosin jälkeisen elinajan alakvartiili erikseen kummallekin sukupuolelle ja tulkitse saadut arvot selväkielisesti. (6 p)
Liite 1. attach(rasva) plot(rasva) sapply(rasva,mean) # keskiarvot rasvapros vyotaro paino 19.75 94.11 85.55 sapply(rasva,sd) # keskihajonnat rasvapros vyotaro paino 9.563 9.699 12.097 cor(rasva) rasvapros vyotaro paino rasvapros 1.0000 0.8864 0.6966 vyotaro 0.8864 1.0000 0.8522 paino 0.6966 0.8522 1.0000 85 90 95 100 105 110 rasvapros 85 90 95 100 105 110 vyotaro 5 10 15 20 25 30 35 paino 70 80 90 100 110 5 10 15 20 25 30 35 70 80 90 100 110. # rasvaprosentin regressiomallitus malli1 <- lm(rasvapros ~ vyotaro + paino) summary(malli1) Call: lm(formula = rasvapros ~ vyotaro + paino) Residuals: Min 1Q Median 3Q Max -8.074-2.758-0.005 3.540 7.682 Coefficients: Estimate Std. Error t value Pr( t ) (Intercept) -64.953 10.433-6.23 9.2e-06 vyotaro 1.054 0.205 5.14 8.2e-05 paino -0.170 xxxxxx -1.03 0.32 Residual standard error: 4.54 on 17 degrees of freedom Multiple R-squared: 0.798, Adjusted R-squared: 0.775 F-statistic: 33.6 on 2 and 17 DF, p-value: 1.23e-06 anova(malli1) Analysis of Variance Table Response: rasvapros Df Sum Sq Mean Sq F value Pr(F) vyotaro 1 1365 1365 66.23 2.9e-07 paino 1 22 22 1.06 0.32 Residuals 17 350 21
Liite 2 sovite <- fitted(malli1) # sovitteet jaannos <- resid(malli1) # residuaalit rstand <- rstandard(malli1) # standardoidut residuaalit rstud <- rstudent(malli1) # studentoidut residuaalit pot <- hatvalues(malli1) # potentiaalit cook.d <- cooks.distance(malli1) # Cookin etäisyysmitat round(data.frame(rasva, sovite, jaannos, rstand, rstud, pot, cook.d),3) rasvapros vyotaro paino sovite jaannos rstand rstud pot cook.d 1 6 81.3 79.4 xxxxxx xxxxxx xxxxxx -0.312 0.215 0.009 2 21 91.4 82.1 17.484 3.516 0.796 0.788 0.055 0.012 3 15 96.5 90.7 21.401-6.401-1.456-1.509 0.062 0.047 4 6 83.8 72.1 11.168-5.168-1.212-1.230 0.118 0.065 5 22 99.1 88.9 24.448-2.448-0.559-0.547 0.069 0.008 6 31 101.6 87.1 27.390 3.610 0.855 0.848 0.136 0.038 7 32 104.1 93.0 29.024 2.976 0.698 0.687 0.119 0.022 8 21 88.9 78.5 15.459 5.541 1.264 1.289 0.068 0.039 9 25 96.5 84.8 22.403 2.597 0.592 0.581 0.067 0.008 10 30 96.5 85.3 22.318 7.682 1.748 1.873 0.063 0.069 11 10 83.8 85.3 8.926 1.074 0.275 0.267 0.260 0.009 12 20 101.6 108.9 23.688-3.688-1.042-1.045 0.392 0.234 13 22 91.4 79.4 17.942 4.058 0.926 0.922 0.068 0.021 14 9 81.3 76.2 7.835 1.165 0.281 0.273 0.166 0.005 15 38 111.8 111.6 33.985 4.015 1.052 1.056 0.294 0.154 16 10 83.8 72.6 11.083-1.083-0.253-0.246 0.115 0.003 17 27 104.1 97.5 28.260-1.260-0.294-0.286 0.108 0.003 18 12 86.4 72.1 13.909-1.909-0.448-0.437 0.120 0.009 19 10 86.4 66.2 14.911-4.911-1.246-1.268 0.247 0.170 20 28 111.8 99.3 36.074-8.074-2.065-2.315 0.259 0.496 vif(malli1) # vif-kertoimet vyotaro paino 3.653 3.653
par(mfrow=c(2,2)) plot(malli1, which=1:4) Residuals vs Fitted Normal Q Q Residuals 10 5 0 5 10 3 20 Standardized residuals 2 1 0 1 2 20 3 10 10 15 20 25 30 35 2 1 0 1 2 Fitted values Theoretical Quantiles Standardized residuals 0.0 0.4 0.8 1.2 Scale Location 10 3 20 Cook's distance 0.0 0.1 0.2 0.3 0.4 0.5 Cook's distance 12 19 20 10 15 20 25 30 35 Fitted values 5 10 15 20 Obs. number
Liite 3 ennen <- c(37.8, 39.0, 37.5, 39.4, 36.1, 39.6, 34.9, 42.8) jalkeen <- c(42.8, 41.5, 41.7, 45.5, 34.8, 44.5, 34.8, 46.1) ero <- jalkeen - ennen ; ero [1] 5.0 2.5 4.2 6.1-1.3 4.9-0.1 3.3 C <- matrix(rep(ero,8),ncol=8); C [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 [2,] 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 [3,] 4.2 4.2 4.2 4.2 4.2 4.2 4.2 4.2 [4,] 6.1 6.1 6.1 6.1 6.1 6.1 6.1 6.1 [5,] -1.3-1.3-1.3-1.3-1.3-1.3-1.3-1.3 [6,] 4.9 4.9 4.9 4.9 4.9 4.9 4.9 4.9 [7,] -0.1-0.1-0.1-0.1-0.1-0.1-0.1-0.1 [8,] 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 CC <- (C+t(C))/2 ; CC [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 5.00 3.75 4.60 5.55 1.85 4.95 2.45 4.15 [2,] 3.75 2.50 3.35 4.30 0.60 3.70 1.20 2.90 [3,] 4.60 3.35 4.20 5.15 1.45 4.55 2.05 3.75 [4,] 5.55 4.30 5.15 6.10 2.40 5.50 3.00 4.70 [5,] 1.85 0.60 1.45 2.40-1.30 1.80-0.70 1.00 [6,] 4.95 3.70 4.55 5.50 1.80 4.90 2.40 4.10 [7,] 2.45 1.20 2.05 3.00-0.70 2.40-0.10 1.60 [8,] 4.15 2.90 3.75 4.70 1.00 4.10 1.60 3.30 V <- c(cc[row(cc) <= col(cc)]) ; V [1] 5.00 3.75 2.50 4.60 3.35 4.20 5.55 4.30 5.15 6.10 1.85 0.60 [13] 1.45 2.40-1.30 4.95 3.70 4.55 5.50 1.80 4.90 2.45 1.20 2.05 [25] 3.00-0.70 2.40-0.10 4.15 2.90 3.75 4.70 1.00 4.10 1.60 3.30 V <- sort(v) ; V [1] -1.30-0.70-0.10 0.60 1.00 1.20 1.45 1.60 1.80 1.85 2.05 2.40 [13] 2.40 2.45 2.50 2.90 3.00 3.30 3.35 3.70 3.75 3.75 4.10 4.15 [25] 4.20 4.30 4.55 4.60 4.70 4.90 4.95 5.00 5.15 5.50 5.55 6.10 C1 <- matrix(rep(ero,8),8) C2 <- matrix(rep(ero,8),8) D <- c(c1-t(c2)) D <- sort(d) ; D [1] -7.4-6.3-6.2-6.2-5.5-5.1-5.0-4.6-4.3-3.8-3.6-3.4-2.8-2.6-2.5 [16] -2.4-1.9-1.7-1.7-1.6-1.2-1.2-1.1-0.9-0.8-0.8-0.7-0.1 0.0 0.0 [31] 0.0 0.0 0.0 0.0 0.0 0.0 0.1 0.7 0.8 0.8 0.9 1.1 1.2 1.2 1.6 [46] 1.7 1.7 1.9 2.4 2.5 2.6 2.8 3.4 3.6 3.8 4.3 4.6 5.0 5.1 5.5 [61] 6.2 6.2 6.3 7.4