Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli



Samankaltaiset tiedostot
1. Tietokoneharjoitukset

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

2. Tietokoneharjoitukset

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Regressioanalyysi. Vilkkumaa / Kuusinen 1

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

Harjoitus 9: Excel - Tilastollinen analyysi

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Johdatus regressioanalyysiin. Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Opiskelija viipymisaika pistemäärä

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Esimerkkiaineisto ALKOKULU Olemme käyttäneet 3. harjoituksissa esimerkkinä aineistoa, joka käsittelee yksityisiä kulutusmenoja

Mat Tilastollisen analyysin perusteet, kevät 2007

R: mikä, miksi ja miten?

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa


ABHELSINKI UNIVERSITY OF TECHNOLOGY

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Matriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

4. Tietokoneharjoitukset

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

4. Tietokoneharjoitukset

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Yhden selittäjän lineaarinen regressiomalli

CLT255: Tulosten esittäminen ja niiden arviointi tilastomenetelmillä

Harjoitukset 4 : Paneelidata (Palautus )

Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset

2. Teoriaharjoitukset

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Nuoruusiän vaikutus aikuisen painoindeksiin Data-analyysin perusmenetelmät Harjoitustyö. Lassi Miinalainen

Yleinen lineaarinen malli

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

6. Tietokoneharjoitukset

Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus. Intelin osakekurssi. (Pörssi-) päivä n = 20 Intel_Volume. Auringonpilkkujen määrä

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Harjoitus 7: NCSS - Tilastollinen analyysi

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Valitse ruudun yläosassa oleva painike Download Scilab.

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Laskuharjoitus 9, tehtävä 6

SEM1, työpaja 2 ( )

Harjoitus 3: Regressiomallit (Matlab)

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Kokeellisen datan käsittely ja analysointi R:llä

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Harjoitus 6 -- Ratkaisut

Lapsen pituuden selittäminen lineaarisella regressiomallilla

b1) harhattomuutta, b2) helppoutta, b3) herkkyyttä, b4) mitta-asteikkoa, b5) standardointia, b6) tarkkuutta.

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

HAVAITUT JA ODOTETUT FREKVENSSIT

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

A250A0050 Ekonometrian perusteet Tentti

SELVITTÄJÄN KOMPETENSSISTA

Matriisit, L20. Laskutoimitukset. Matriisikaavoja. Aiheet. Määritelmiä ja merkintöjä. Laskutoimitukset. Matriisikaavoja. Matriisin transpoosi

Tässä dokumentissa on ensimmäisten harjoitusten malliratkaisut MATLABskripteinä. Voit kokeilla itse niiden ajamista ja toimintaa MATLABissa.

11. laskuharjoituskierros, vko 15, ratkaisut

Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41

Harjoitus 3: Regressiomallit (Matlab)

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Transkriptio:

MS-C2128 Ennustaminen ja aikasarja-analyysi 1. harjoitukset / Tehtävät Kotitehtävät: 2 Aiheet: Aluksi Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli Tällä kurssilla käytetään R-ohjelmistoa, jonka käyttämisestä lienee muutama sana paikallaan. R-ohjelmisto on laajasti käytetty vapaassa levityksessä oleva ammattimaiseen tilastolliseen analyysin soveltuva ohjelmistoympäristö. Aallon koneilta R löytyy kurssin henkilökunnan tietojen mukaan kaikista päärakennuksen ja Maarintalon tietokoneluokista. Ohjelman nimi on Rstudio, ja se löytyy polusta c:\program files\rstudio\bin\rstudio.exe Rstudio on niin ikään vapaasti saatavilla, eli sen voi halutessaan ladata omalle koneelleen. Peruskomentoja Komentoja esitellään kurssin kuluessa sitä mukaan kun niitä tarvitaan. Tässä muutamia käyttökelpoisia komentoja, joista voi olla apua alkuun pääsemiseksi. Muuttujien syöttäminen Muuttujia voidaan syöttää kuten esim. Matlabissa: x = 5 tai vaihtoehtoisesti x < 5 Vektoreita saadaan komennolla c() x = c(1,2,3) Matriisi voidaan syöttää vektorina X = matrix(c(1,1,1,1,1,1,1,1,2,3,4,5,6,7,8,9), nrow=8, ncol=2, byrow=false) Argumentit nrow ja ncol kertoo rivien ja sarakkeiden lukumäärän. Argumentti byrow kertoo miten matriisi täytetään, tässä tapauksessa sarakkeittain, eli ylhäältä alas ja vasemmalta oikealle. Huomaa, että R:ssä iso ja pieni kirjain eivät ole sama asia! Koodia kommentoidaan tuttuun tapaan merkillä #.

Työhakemiston vaihtaminen Työhakemistoa voidaan asettaa komennolla setwd(), ja hakemisto tulee siis sulkujen sisään. Ohjelmistossa Rstudio tämä onnistuu myös graafisesti valitsemalla ohjelman ylävalikosta Session Set Working Directory Choose Directory. Scriptit Kurssin tehtävät kannattaa tehdä R-scripteinä, joihin voi tarvittaessa palata myöhemmin. Scripti luodaan ohjelman ylävalikosta File New File- R Script. Scriptin voi ajaa komennolla source( scriptin_nimi.r ). Yksittäiset Scriptin rivit voi ajaa Windows-koneissa näppäinyhdistelmällä ctrl + r (huomaa että Ubuntussa vastaava on ctrl + ENTER). Datan lataaminen Kurssilla käsitellään usein dataa, joka on tallennettu ulkoiseen tiedostoon. Esimerkiksi työhakemistossa oleva tiedosto data.txt voidaan ladata komennolla read.table( data.txt, header=t, sep= \t ) Argumentti header=t kertoo, että tiedoston ensimmäinen rivi on otsikkorivi. Jos tiedoston ensimmäinen rivi halutaan tulkita dataksi, niin voidaan kirjoittaa header=f sen sijaan. Lisäksi jossain tapauksissa aineisto on eroteltu esimerkiksi tabulaattorilla, tällöin voidaan kirjoittaa sep= \t tai vaihtoehtoisesti jokin muu dataa erottava merkki (oletuksena pilkku). Komentojen etsiminen ja help Lisätietoja monista asioista saa komennolla help(). Esimerkiksi help(matrix) kertoo miten komennolla matrix voidaan luoda matriiseja. Erityisen kätevä on myös help.search( ), jolla komentoja yms. Voi hakea vapaalla sanahaulla. Esimerkiksi help.search( transpose ) hakee tietokannasta komentoja, joiden help-tiedostossa esiintyy sana transpose. Ajamalla haku huomataan, että matriisin X transpoosi voidaan ottaa komennolla t(x). Muuta:

R:n käyttämiseen on runsaasti materiaalia olemassa, mm. http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/ on R-opas aikasarja-analyysiä varten. Tehtävä 1.1. Tiedostoon NPAASTOT.txt on talletettu tulokset tutkimuksesta, jossa on selvitetty ilman kosteuden (Humidity), lämpötilan (Temp) ja paineen (Pressure) vaikutuksia kuorma-auton dieselmoottorin typpipäästöihin (NOx). (a) Tutustu aineistoon estimoimalla aineistoa kuvaavia tunnuslukuja ja piirtämällä muuttujia kuvaavat histogrammit. Ovatko muuttujat normaalijakautuneita? (b) Estimoi lineaarinen malli, jossa typpipäästöjä selitetään muuttujilla kosteus, lämpötila ja paine (c) Mikä on estimoidun mallin selitysaste? (d) Testaa permutaatiotestillä, mitkä regressiokertoimet ovat merkitseviä. Toista permutointi 2000 kertaa. (e) Poista selittäjät, jotka eivät ole merkitseviä ja estimoi lineaarinen malli. Suorita seuraavat kohdat ilman poistettuja selittäjiä. (f) Laske regressiokertoimien keskihajonnat käyttämällä luentokalvojen kaavoja. (g) Oletetaan, että normaalisuusoletus patee. Laske regressiokertoimien 95 % luottamusvälit komennolla confint(). (h) Oletetaan, että normaalisuusoletus pätee. Toista (g) käyttämällä luentokalvojen kaavoja. (i) Laske regressiokertoimien 95 % luottamusvälit käyttämällä bootstrapping menetelmää ja vertaa tuloksia kohtaan (g) ja (h). Käytä bootstrap-estimoimisessa silmukkaa, jonka pituus on 2000. Piirrä myös histogrammit boostrapestimaateista. Tehtävä 1.1. Ratkaisu: Ladataan tiedosto NPAASTOT.TXT ja liitetään sen sisältämät muuttujat. Lisäksi asetetaan seed(123), jotta saadaan vastaavat tulokset kun malleissa. paastot=read.table("npaastot.txt", header=t, sep="\t") set.seed(123)

Tämä sisältää 5 muuttujaa, nimiltään ObsNo, NOx, Humidity,Temp ja Pressure. ObsNo on vain havaintonumero, eikä se sisällä mielenkiintoista informaatiota. Aineiston tärkeimmät tunnusluvut saadaan kätevästi komennolla summary() summary(paastot) ObsNo NOx Humidity Temp Pressure Min. : 1.00 Min. :0.6900 Min. : 33.85 Min. :65.44 Min. :28.87 1st Qu.: 5.75 1st Qu.:0.7175 1st Qu.: 77.94 1st Qu.:73.50 1st Qu.:29.03 Median :10.50 Median :0.7600 Median : 96.22 Median :77.82 Median :29.07 Mean :10.50 Mean :0.7910 Mean : 93.98 Mean :78.57 Mean :29.15 3rd Qu.:15.25 3rd Qu.:0.8275 3rd Qu.:111.55 3rd Qu.:86.03 3rd Qu.:29.16 Max. :20.00 Max. :1.0100 Max. :139.47 Max. :89.28 Max. :29.98 Histogrammit saadaan piirrettyä komennolla hist() hist(paastot[,2]) tai hist(paastot[, NOx ]) hist(paastot[, Humidity ])

hist(paastot[,temp]) hist(paastot[, Pressure ]) Korrelaatiomatriisi saadaan laskettua komennolla cor()

cor(paastot) ObsNo NOx Humidity Temp Pressure ObsNo 1.0000000-0.1260915 0.3686937 0.25908229-0.24143057 NOx -0.1260915 1.0000000-0.8729408 0.65591970 0.27825058 Humidity 0.3686937-0.8729408 1.0000000-0.47282672-0.27050695 Temp 0.2590823 0.6559197-0.4728267 1.00000000 0.02677886 Pressure -0.2414306 0.2782506-0.2705070 0.02677886 1.00000000 Muuttuja NOx korreloi negatiivisesti muuttujan Humidity kanssa ja positiivisesti muuttujin Temp ja Pressure kanssa. Muuttujat eivät näytä normaalijakautuneilta. (b) Usean muuttujan regressio hoituu R:ssä laittamalla oikealle puolelle selittäjät + merkillä eroteltuna. sovite1 <- lm(nox ~Humidity+Temp+Pressure,data=paastot) summary(sovite1) Tämä tulostaa Call: lm(formula = NOx ~ Humidity + Temp + Pressure,data=paastot) Residuals: Min 1Q Median 3Q Max -0.061616-0.034795 0.003699 0.029233 0.077782 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.2707790 1.2538066-0.216 0.8317 Humidity -0.0025280 0.0004242-5.959 2e-05 *** Temp 0.0043960 0.0015320 2.869 0.0111 * Pressure 0.0327257 0.0418425 0.782 0.4456 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.04249 on 16 degrees of freedom Multiple R-squared: 0.8441, Adjusted R-squared: 0.8149 F-statistic: 28.89 on 3 and 16 DF, p-value: 1.079e-06 (c) Mallin selitysaste on 84,4 %, mikä siis on luettu tulosteen kohdasta Multiple R-squared. Vastaava saadaan myös varianssianalyysihajotelmalla.

(d) Koska muuttujat eivät ole normaalijakautuneita, on kyseenalaista päätellä (b) kohdan taulukosta suoraan merkitsevät selittäjät. Permutoidaan selittävät muuttujat yksi kerrallaan ja katsotaan miten se vaikuttaa selitysasteeseen. k <- 2000 y.mean <- mean(paastot[,"nox"]) SST <- sum( (paastot[,"nox"] - y.mean)^2 ) SSE <- sum( (sovite1$res)^2) Rsquare1 <- 1 SSE/SST perm <- matrix(na,nrow=2000,ncol=3) for(i in 1:k){ tmp1 <- paastot tmp2 <- paastot tmp3 <- paastot tmp1[,"pressure"] <- sample(tmp1[,"pressure"]) tmp2[,"humidity"] <- sample(tmp2[,"humidity"]) tmp3[,"temp"] <- sample(tmp3[,"temp"]) tmpsovite1 <- lm(nox ~ Humidity + Temp + Pressure, data=tmp1) tmpsovite2 <- lm(nox ~ Humidity + Temp + Pressure, data=tmp2) tmpsovite3 <- lm(nox ~ Humidity + Temp + Pressure, data=tmp3) SSE1 <- sum( (tmpsovite1$res)^2) SSE2 <- sum( (tmpsovite2$res)^2) SSE3 <- sum( (tmpsovite3$res)^2) perm[i,1] <- 1 - SSE1/SST perm[i,2] <- 1 - SSE2/SST perm[i,3] <- 1 - SSE3/SST } pre <- 1- sum(perm[,1]<rsquare1)/k #0.4635

hum <- 1- sum(perm[,2]<rsquare1)/k #0 temp <- 1- sum(perm[,3]<rsquare1)/k #0.0115 (e) Muuttujat pre,hum ja temp ovat muodostettu siten että ykkösestä on vähennetty se osuus permutaatioista, joissa selitysaste on pienentynyt. Huomaa, että seed:in vaihtaminen saattaa muuttaa tuloksia hieman. Kyseiset luvut ovat nähdään koodissa kommentteina. Muuttujat kuvaavat nollahypoteesin (H0:regressiokerroin ei ole merkitsevä) p-arvoa (katso luentokalvot). Lukujen perusteella muuttujan Pressure nollahypoteesi voidaan hyväksyä 5% merkitsevyystasolla ja täten jättää pois mallista. Muiden regressiokertoimien nollahypoteesit hylätään. Perehdymme mallinvalintakriteereihin lisää ensi viikon harjoituksissa. sovite2=lm(nox ~ Humidity+Temp, data=paastot) summary(sovite2) Ja tuloste on: Call: lm(formula = NOx ~ Humidity + Temp, data=paastot) Residuals: Min 1Q Median 3Q Max -0.065394-0.018456-0.001075 0.032302 0.072869 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 0.703544 0.140272 5.016 0.000106 *** Humidity -0.002625 0.000401-6.547 4.98e-06 *** Temp 0.004253 0.001504 2.829 0.011586 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.04201 on 17 degrees of freedom Multiple R-squared: 0.8382, Adjusted R-squared: 0.8191 F-statistic: 44.03 on 2 and 17 DF, p-value: 1.891e-07

(f) Muodostetaan ensin uusi datamatriisi, josta on poistettu ylimääräiset selittäjät. Tehdään lisäksi tyyppimuunnos data framesta matriisiksi ja lisätään sarake mallin vakiota (intercept) varten tmp <- as.matrix(paastot[,c(3,4)]) paastot2 <- cbind(c(rep(1,20)),tmp) n <- dim(paastot2)[1] p <- dim(paastot2)[2] Lasketaan jäännösvarianssin harhaton estimaatti s 2 res <- sovite2$res s2 <- sum(res^2)/(n-p) Regressiokertoimien otosvarianssit saadaan kaavasta D 2(b j ) = s 2 [(X T X) 1 ] j+1,j+1 Otoskeskihajonnat ovat siis s 2 [(X T X) -1 ] diagonaalialkioiden neliöjuuria stdev <- sqrt(diag( s2*solve(t(paastot2)%*%paastot2))) Joka vastaa kohdan (e) taulukon arvoja. (g) (h) confinterval <-confint(sovite2,level=0.95) Ja tuloste on: 2.5 % 97.5 % (Intercept) 0.407595872 0.999491779 Humidity -0.003471148-0.001779119 Temp 0.001080766 0.007425475 Vastaavat tulosteet saadaan komennoilla (i) coef <- sovite2$coef up <- coef + stdev * qt(0.975,n-p) down <- coef stdev * qt(0.975,n-p) missä komento qt( ) antaa t-jakauman kvantiilin vapauasteella n-p. k <- 2000

bootmat <- matrix(na,nrow=k,ncol=3) for(i in 1:k){ tmp <- as.data.frame(paastot[sample(seq(n),replace=true),]) } sovite3 <- lm(nox ~ Humidity + Temp, data=tmp) bootmat[i,] <- sovite3$coef hist(bootmat[,1]) hist(bootmat[,2]) hist(bootmat[,3]) qconst <- quantile(bootmat[,1], probs = c(0.025,0.975)) qhum <- quantile(bootmat[,2], probs = c(0.025,0.975)) qtemp <- quantile(bootmat[,3], probs = c(0.025,0.975)) Luottamusvälit ovat nyt muuttujille pienemmät suhteessa (g) kohtaan. Miksi? Analysoiminen on jätetty osaksi tämän viikon kotitehtävää. Tehtävä 1.2 Tiedostossa TUPAKKA.txt on annettu seuraavat tiedot 11 maasta: KULUTUS = Savukkeiden kulutus per capita 1930 SAIRAST = Keuhkosyöpätapausten lukumäärä per 100 000 henkilöä 1950 Maat on numeroitu tiedostossa seuraavasti 1 = Islanti 7 = USA 2 = Norja 8 = Hollanti 3 = Ruotsi 9 = Sveitsi 4 = Kanada 10 =Suomi 5 = Tanska 11 =GB 6 = Itavalta Huomaa, että aineisto sisältää myös tämän tehtävän kannalta paljon ylimääräistä informaatiota. (a) Formuloi yhden selittäjän lineaarinen regressiomalli, jossa muuttujaa SAIRAST selitetään muuttujalla KULUTUS ja jossa on mukana vakio.

(b) (c) (d) (e) (f) (g) (h) (i) (j) Estimoi mallin regressiokertoimet PNS-menetelmällä ja esitä tulkinnat estimoiduille regressiokertoimille. Määrää estimoidun mallin selitysaste. Onko regressiosuoran kulmakerroin tilastollisesti merkitsevä? Käytä testissä 1 %:n merkitsevyystasoa. Testaa nollahypoteesia, jonka mukaan muuttujan KULUTUS regressiokerroin on nolla estimoidun mallin selitysasteeseen perustuvalla F-testillä 1 %:n merkitsevyystasoa käyttäen. Ota saamastasi testisuureen arvosta neliöjuuri ja vertaa sitä kohdassa (d) käyttämäsi testisuureen arvoon. Onko tulos sattuma? Piirrä estimoitu regressiosuora aineistoa kuvaavaan pistediagrammiin. Selitä mitä tarkoitetaan käsitteellä luottamusväli. Oleta normaalisuusoletuksen pätevän. Määrää kertoimien hajonnat sekä muodosta regressiosuoran kulmakertoimelle 95 %:n luottamusväli. Mikä on 99 %:n luottamusväli? Laske regressiokertoimien 95 % luottamusvälit käyttämällä bootstrapping menetelmää (2000 toistoa). Vertaa tuloksia kohtaan (h) Mitä etua bootstrapping menetelmästä on luottamusvälien laskemisessa suhteessa perinteiseen tapaaan laskea luottamusvälit?