(b) Laske ja tulosta muuttujien keskinäiset korrelaatiot ja piirrä sirontakuviomatriisi.

Koko: px
Aloita esitys sivulta:

Download "(b) Laske ja tulosta muuttujien keskinäiset korrelaatiot ja piirrä sirontakuviomatriisi."

Transkriptio

1 Oulun yliopiston matemaattisten tieteiden tutkimusyksikkö/tilastotiede A LINEAARINEN REGRESSIO, kl 2019 (EL) Harjoitus 7, pe 1.3. klo MA336: mikroluokkatehtävät Analysoidaan aineistoa, prostate.txt, joka sisältää 97 eturauhasen syöpään sairastuneesta potilaasta havainnot 9 muuttujasta. Vastemuuttujana on lpsa eli seerumin PSA-pitoisuus (PSA = prostataspesifinen antigeeni, mittayksikkö µg/l) valmiiksi logaritmoituna. PSA-testiä käytetään paljon eturauhasen syövän diagnostiikassa, joskin sillä on taipumus tuottaa paljon ns. vääriä positiivisia. Selittävinä termeinä on joukko PSA-pitoisuuden ennustetekijöitä. lcavol = kasvaimen tilavuuden logaritmi, lweight = eturauhasen painon logaritmi, age = potilaan ikä (v), lbhp = eturauhasen hyvänlaatuisen liikakasvun määrän logaritmi, svi = siemenrakkulan invaasio, 1 = kyllä, 0 = ei, lcp = kapsulaarisen penetraatioasteen logaritmi, gleason = Gleasonin pistemäärä, vaihteluväli 2 10, pgg45 = Gleasonin 4/5-tyypin osuus (%) 1. Aineistoon tutustuminen (a) Lue aineisto sisään, listaa ja luo alustava silmäys. > library(car) > library(glmnet) > pro <- read.table("y:/yleiset/mikroluokat/matematiikka/linreg2019/prostate.txt", + header=t) > ## pro <- read.table("prostate.txt", header = TRUE) ## jos omassa työhakemistossa > str(pro) > n <- nrow(pro) ; p <- ncol(pro) - 1 # havaintojen ja selittäjien lkm:t (b) Laske ja tulosta muuttujien keskinäiset korrelaatiot ja piirrä sirontakuviomatriisi. > round( cor( pro), 2) > scatterplotmatrix( pro ) Tutki muuttujien suorien jakaumien muotoja ja niiden välisiä riippuvuuksia. Kuinka moni selittäjä korreloi vasteen kanssa positiivisesti? 2. Sovitetaan ensin täysi malli, joka sisältää kaikki 8 ennustetekijää. (a) Tulosta tämän mallin päätulokset: estimoidut kertoimet, keskivirheet jne. sekä VIF-luvut. > m8 <- lm( lpsa ~., data=pro) > summary(m8) > round( vif(m8), 2) Mitkä termit näyttäisivät olevan tärkeitä ja mitkä vähemmän tärkeitä? Mitä VIF-luvut kertovat? Mihin muuttujiin mahdollinen kollineaarisuus näyttäisi ensisijaisesti paikallistuvan? (b) Piirrä myös oletusarvoiset diagnostiset kuviot. > par(mfrow=c(2,2)) > plot(m8)

2 Mitä päätelmiä teet diagnostisten kuvioiden pohjalta havaintojen sopusoinnusta tavanomaisten mallioletusten kanssa? 3. Regressiokertoimien ja keskivirheiden pintapuolisen tarkastelun nojalla vaikuttaisi siltä, että joidenkin selittäjien rooli saattaa olla aika vaatimaton. Käydään läpi selittävien termien kaikki osajoukot ja katsotaan, millä kokoonpanoilla Akaiken ja Schwartzin informaatiokriteerit saavat pienimmän arvonsa. (a) Sovia ensin nollamalli, jossa on pelkkä vakiotermi 1. > m0 <- lm( lpsa ~ 1, data=pro ) (b) R-paketin leaps funktio regsubset() käy läpi kaikki = 255 mahdollista selittävien termien osajoukkoa (poislukien nollamalli) ja laskee niistä eräitä tunnuslukuja. Hyödynnämme niistä ensisijaisesti kunkin yksittäisen mallin jäännösneliösummaa SSE ja termien lukumäärää p, joiden pohjalta kiinnostavat informaatiokriteerit ovat laskettavissa, kun havaintojen lkm n on sama. Kutsu ao. funktiota, jonka tulosten tiivistelmästä tulevat poimituksi tarvittavat tunnusluvut jokaiselle 255 eri mallille datakehikkoon all. > library(leaps) > all <- regsubsets( lpsa ~., data=pro, int=true, + nbest=100, nvmax=10, really.big=true) (c) Kaikkien 256 mallin (ml. nollamalli) informaatiokriteerien listauksen asemesta haluamme tulostaa lyhyemmän listan, jossa on vain 9 riviä. Jokainen rivi vastaa tiettyä aktiivisten termien (muut kuin vakiotermi) lukumäärää 0, 1,..., 8. Yksittäisellä rivillä tulostetaan AIC ja BIC kaikista saman termiluvun omaavista malleista vain siitä mallista eli termikokoonpanosta, jonka jäännösneliösumma SSE on pienin. Tätä tarkoitusta varten käytämme Y-levyn kurssikansiossa olevaa R-skriptiä minssesub.r, jossa määritellään samanniminen funktio. Sen ensimmäisenä argumenttina on funktion regsubsets() tuottama objekti, ja toisena nollamallin sovituksen tuloksena luotu lm-objekti. Kopioi skripti omaan työhakemistoosi, lataa se istuntoosi (source()), listaa, tarkista syntaksi ja kutsu sitä asianmukaisilla argumenteilla. > source("minssesub.r") > minssesub > minssesub(all, m0) Tarkastele tuloksia. Mikä malli olisi optimaalinen AIC:n perusteella? Entä minkä mallin BIC valitsisi? 4. Siirrytään seuraavaksi soveltamaan harjanneregressiota, jossa pidetään kaikki termit mallissa mutta kutistetaan regressiokertoimia rajoittamalla niiden l 2 -normin suuruutta eli kerroinvektorin β kokonaispituutta lisäämällä minimoitavaan neliösummaan i (Y i x i β) 2 sakkotermi λ j β2 j. Jotta l 2 -normi kohtelisi eri termejä ja kertoimia tasapuolisesti, on syytä standardoida mallimatriisi eli keskistää kaikki muuttujat keskiarvoonsa ja skaalata ne keskihajonnalla. Tämä onnistuu funktiolla scale(), joka oletusarvoisesti tekee molemmat operaatiot samalla kertaa. (a) Toteuta standardointi paitsi mallimatriisille niin myös vastemuuttujalle. > Xc <- scale( pro[, 1:8] ) ; colnames(xc) <- names(pro[, -9]) > Yc <- scale( pro[, 9]) (b) Sovita jälleen täysi malli mutta nyt standardoidulle aineistolle ja ilman vakiotermiä. Ota talteen tämän mallin kertoimet, jotka määräävät ratkaisupolkujen alkupisteet. > mfc <- lm( Yc ~ Xc - 1 ) > b0 <- coef(mfc) ; round(b0, 3)

3 Annetulla säätöparametrin λ > 0 arvolla harjanne-estimaattorin lauseke voidaan ilmaista seuraavasti β λ = (X T X + λi) 1 X T Y Laske arvolla λ = 50 harjanne-estimaattien arvot sekä vapausasteluku df λ = j d2 j /(d2 j + λ), jossa d 1, d 2,... ovat standardoidun mallimatriisin singulaariarvoja. Nämä saadaan singulaariarvohajotelman (singular value decomposition) tuottavalla R-funktiolla svd() Tulosta rinnalle sakottamattoman pns-estimaatin koordinaatit. > lam <- 50 > b50 <- solve( t(xc) %*% Xc + lam*diag( rep(1, p) ) ) %*% t(xc) %*% Yc > dflam <- sum( svd(xc)$d^2 / (svd(xc)$d^2 + lam) ) > round( cbind( b50, b0), 2) > round(dflam,2) Mitä havaintoja teet sakotetuista kertoimista ja sakotuksen jälkeisestä vapausasteluvusta verrattuna sakottamattoman sovituksen tuloksiin? 5. R:ssä on montakin pakettia, jotka sisältävät työkaluja harjanneregressiota varten. Paketti glmnet on erityisen käyttökelpoinen, koska sillä voidaan toteuttaa myös LASSO-estimointi. (a) Määrittele λ:lle aluksi leveähkö hila [0, 2000] yhden yksikön välein. Sovita malli sakottamalla neliösummaa kaikilla näillä 2001 λ:lla erikseen ja talleta kaikkien sovitusten estimoidut regressiokertoimet matriisiin b.lam. Funktion glmnet() pääargumentteina ovat mallimatriisi ja vastevektori. Harjanne-estimoinnissa argumentin alpha arvo on 0. Lisäksi annetaan λ:n arvojen hila. Huom! Hila pitää skaalata havaintoyksiköiden lukumäärällä n, koska glmnet() minimoi sakotetusti n:llä jaettua neliösummaa eli lauseketta Y Xβ 2 /n. > lam <- seq(2000,0, by = -1) > m.rid = glmnet( Xc, Yc, alpha=0, lambda = lam/n) > b.lam = as.matrix( coef(m.rid)[-1, ] ) # kertoimet talteen (b) Laske ja tallenna kutakin λ:n arvoa vastaava vapausasteluku df λ sekä estimaattorin β λ standardoidun l 2 - normin β λ 2 / β OLS 2 arvo. Piirrä ratkaisupolut eli β λ :n koordinaattien arvot (i) λ:n funktioina, (ii) vastaavan vapausasteluvun df λ mukaan sekä (iii) standardoidun l 2 - normin mukaan. Näihin tehtäviin on käytettävissä funktio pathplot(), joka löytyy kurssin kansiosta Y-levyltä. Kopioi funktion skripti omaan työhakemistoosi, lataa se istuntoosi, listaa, tutki sen syntaksia ja kutsu asianmukaisilla argumenteilla. > source("pathplot.r") > pathplot > par(mfrow=c(1,3)) > par(mar=c(4.5, 4.5, 2, 1)+0.1) > pathplot(m.rid, Xc, Yc, plot="lambda", xlim=c(0,500) ) > pathplot(m.rid, Xc, Yc, plot="df" ) > pathplot(m.rid, Xc, Yc, plot="normi") Mitä havaintoja teet ratkaisupoluista? Kuinka voimakasta kutistuminen on? Muuttuvatko joidenkin kertoimien etumerkit kutistettaessa? Vertaa erityisesti kahta jälkimmäistä kuviota. Antavatko käytännössä saman informaation?

4 6. Optimaalisen λ:n valinnassa yksi suosittu tapa perustuu K-kertaiseen ristiinvalidointiin. Haetaan sellainen λ:n arvo λ, jolla ristiinvalidointikriteerin eli eri testiaineistoissa laskettujen ennustekeskineliösumman CV λ keskiarvo CV λ on pienin, sekä se λ:n arvo λ 1SE, jolla CV λ + CV λ SE λ, jossa K (CV k,λ CV λ ) 2 k=1 SE λ =. K(K 1) Ristiinvalidointi voidaan toteuttaa funktiolla cv.glmnet(), joka toteuttaa aineiston satunnaisen jakamisen K ositteeseen ja tekee jokaisella annetulla λ tarvittavat laskelmat kustakin ositteesta erikseen laskien ositekohtaisista tuloksista CV-tunnusluvun keskiarvon ja keskivirheen. Funktion tuloksena tuotetusta oliosta voidaan poimia mm. λ ja λ 1SE eli lambda.min ja lambda.1se. (a) Toteuta edellä sovitetun harjanneregression 5-kertainen ristiinvalidointi ja tulosta λ sekä λ 1SE. > set.seed(4356) # satunnaisotantaa varten; määrää oma siemenlukusi > lamm <- seq(100, 0, by = -0.1) > cv.rid <- cv.glmnet( Xc, Yc, nfolds = 5, lambda = lamm/n, alpha=0) > ( lam.ratk <- n*c( cv.rid$lambda.min, cv.rid$lambda.1se ) ) Mikä λ:n arvo tuotti pienimmän CV-keskiarvon? Mikä on optimaalinen λ, jos noudatetaan yhden keskivirheen sääntöä? (b) Kurssin hakemistossa Y-levyllä skripti cvplot.r sisältää funktion cvplot(), jonka avulla voit piirtää CV-keskiarvojen CV λ sekä keskiarvoista yhden keskivirheen poikkeamien käyrät λ:n funktiona. Kopioi skripti työhakemistoosi, listaa ja tutustu sen syntaksiin. Piirrä CV-keskiarvojen ja keskivirheiden käyrät tällä funktiolla. Piirrä myös rinnalle uudelleen harjanne-estimaattien polut λ:n funktiona merkitsemällä kuvioon pystyviivoin λ:n ja λ 1SE :n sijaintikohdat. > source("cvplot.r") > cvplot > cvplot(cv.rid) > pathplot(m.rid, Xc, Yc, type="lambda", xlim=c(0,100)) > abline( v= n*c(cv.rid$lambda.min, cv.rid$lambda.1se), lty=3) Mitä havaintoja teet? Kuinka voimakkaasti minimi-λ:lla sakottaminen kutistaa estimaatteja? Entä kuinka paljon enemmän λ 1SE niitä kutistaa? 7. LASSO-estimointi kutistaa regressiokertoimia rajoittamalla niiden l 1 -normin suuruutta. Sakkotermi on tässä muotoa λ j β j. Mitä suuremmaksi λ asetetaan, sitä useampi regressiokerroin pakotetaan estimoitumaan 0:ksi. Funktiota glmnet() sovelletaan LASSO:ssa paljolti samaan tapaan kuin harjanneregressiossa. Olennaisena erona on normin l 2 korvaaminen normilla l 1, jolloin funktion glmnet() kutsussa asetetaan alpha = 1. (a) Toteuta LASSO-estimointi alla annetulla λ:n arvojen hilalla. Piirrä ratkaisupolut sekä λ:n että standardoidun normin j β j,λ / j β OLS j funktiona. Huom. LASSO:ssa mallin vapausasteluku kullakin λ on hieman hankalammin laskettavissa kuin harjanneregressiossa, mutta se on likimain sama kuin jäljellä olevien nollasta poikkeavien kerroinestimaattien lukumäärä. > las <- seq(200, 0, -0.1) > m.las <- glmnet( Xc, Yc, alpha = 1, lambda = las/n ) # lambda:n skaalaus! > pathplot(m.las, Xc, Yc, plot="lambda", xlim=c(0, 80) ) > pathplot(m.las, Xc, Yc, plot="normi")

5 Tarkastele ratkaisupolkuja. Mitä havaintoja teet? Mitkä termit putoavat miltei heti kättelyssä eli pienillä λ:n arvoilla ja mitkä kestävät mukana verrattain suurillakin säädöillä? (b) Toteuta LASSO-sovituksen 5-kertainen ristiinvalidointi funktiolla cv.glmnet(). Piirrä CV-kriteerin keskiarvojen ± keskivirheiden käyrät samaan tapaan kuin edelläkin. Piirrä rinnalle uudelleen regressiokertoimien estimaattien ratkaisupolut ja merkitse samaan kuvioon sekä estimoitu minimi-cv:n λ eli λ sekä + yhden keskivirheen λ eli λ 1SE. > set.seed(5643) > cv.las <- cv.glmnet( Xc, Yc, nfolds = 5, lambda = las/n, alpha=1) > ( las.ratk <- n*c( cv.las$lambda.min, cv.las$lambda.1se ) ) > cvplot( cv.las, xlim=c( 0, 20), ylim=c(0.30, 0.60) ) > pathplot( m.las, Xc, Yc, plot="lambda", xlim=c(0,20) ) > abline( v=las.ratk, lty=2) Mitkä termit ja kuinka monta valittaisiin malliin, jos sovelletaan pienimmän CV-keskiarvon kriteeriä? Entä jos sovelletaan yhden keskivirheen sääntöä?

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua

Lisätiedot

805305A JOHDATUS REGRESSIO- JA VARIANSSIANALYYSIIN, sl 2017

805305A JOHDATUS REGRESSIO- JA VARIANSSIANALYYSIIN, sl 2017 Oulun yliopiston matemaattisten tieteiden tutkimusyksikkö/tilastotiede 805305A JOHDATUS REGRESSIO- JA VARIANSSIANALYYSIIN, sl 2017 (Esa Läärä & Jari Päkkilä) Harjoitus 5, viikko 40 (2. 6.10.): mikroluokkatehtävät

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Logistinen regressio, separoivat hypertasot

Logistinen regressio, separoivat hypertasot Logistinen regressio, separoivat hypertasot Topi Sikanen Logistinen regressio Aineisto jakautunut K luokkaan K=2 tärkeä erikoistapaus Halutaan mallintaa luokkien vedonlyöntikertoimia (odds) havaintojen

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016) Tavoitteet (teoria): Hallita multinormaalijakauman määritelmä. Ymmärtää likelihood-funktion ja todennäköisyystiheysfunktion ero. Oppia kirjoittamaan

Lisätiedot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan tavallista kahden selittäjän regressiomallia TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

Harjoitus 7 : Aikasarja-analyysi (Palautus )

Harjoitus 7 : Aikasarja-analyysi (Palautus ) 31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitus 7 : Aikasarja-analyysi (Palautus 28.3.2017) Tämän harjoituskerran tarkoitus on perehtyä

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Harha mallin arvioinnissa

Harha mallin arvioinnissa Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:

Lisätiedot

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0).

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0). Esimerkki 9 Esimerkissä 6 miniminormiratkaisu on (ˆx, ˆx (, 0 Seuraavaksi näytetään, että miniminormiratkaisuun siirtyminen poistaa likimääräisongelman epäyksikäsitteisyyden (mutta lisääntyvän ratkaisun

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

Harjoitus 6 -- Ratkaisut

Harjoitus 6 -- Ratkaisut Harjoitus 6 -- Ratkaisut 1 Ei kommenttia. 2 Haetaan data tiedostosta. SetDirectory"homeofysjmattas" SetDirectory "c:documents and settingsmattasdesktopteachingatk2harjoitukseth06" netnfstuhome4ofysjmattas

Lisätiedot

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa Oulun yliopiston matemaattisten tieteiden tutkimusyksikkö/tilastotiede 805306A JOHDATUS MONIMUUTTUJAMENETELMIIN, sl 2017 (Jari Päkkilä) Harjoitus 3, viikko 47 (19.20.11.): kotitehtävät Ratkaisuja 1. Floridan

Lisätiedot

, 3.7, 3.9. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

, 3.7, 3.9. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu Lineaarikobinaatioenetelät 3.5-3.7, 3.7, 3.9 Sisältö Pääkoponenttianalyysi (PCR) Osittaisneliösua (PLS) Useiden vasteiden tarkastelu Laskennallisia näkökulia Havaintouuttujien uunnokset Lähtökohtana useat

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiomallin valinta TKK (c) Ilkka Mellin (2004) 1 Regressiomallin valinta Regressiomallin valinta: Johdanto Mallinvalintatestit Mallinvalintakriteerit Epälineaaristen riippuvuuksien

Lisätiedot

TAMPEREEN TEKNILLINEN YLIOPISTO KÄYTTÖOHJE TIETOVARASTON KUUTIOT

TAMPEREEN TEKNILLINEN YLIOPISTO KÄYTTÖOHJE TIETOVARASTON KUUTIOT TAMPEREEN TEKNILLINEN YLIOPISTO KÄYTTÖOHJE TIETOVARASTON KUUTIOT 14.11.2011 Sisältö Perustietoa tietovarastosta... 2 Perustietoa kuutioista... 2 Dimensioiden valinta... 2 Uuden dimension lisääminen aikaisemman

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiomallin valinta TKK (c) Ilkka Mellin (2007) 1 Regressiomallin valinta >> Regressiomallin valinta: Johdanto Mallinvalintatestit

Lisätiedot

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 Tehtävä 2.1. Jatkoa tietokonetehtävälle 1.2: (a) Piirrä aineistosta pisteparvikuvaaja (KULUTUS, SAIRAST) ja siihen

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016) Tavoitteet (teoria): Hahmottaa aikasarjan klassiset komponentit ideaalisessa tilanteessa. Ymmärtää viivekuvauksen vaikutus trendiin. ARCH-prosessin

Lisätiedot

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1 Vastepintamenetelmä Vilkkumaa / Kuusinen 1 Motivointi Varianssianalyysissa tutkitaan tekijöiden vaikutusta vasteeseen siten, että tekijöiden tasot on ennalta valittu. - Esim. tutkitaan kemiallisen prosessin

Lisätiedot

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012 Korrelaatiokerroin Hanna Heikkinen 23. toukokuuta 2012 Matemaattisten tieteiden laitos Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170

Lisätiedot

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen! 8069 TILASTOTIETEEN PERUSMENETELMÄT I Harjoitus 7, viikko 9, kevät 2013 (Muut kuin taloustieteiden tiedekunnan opiskelijat) MUISTA MIKROLUOKKAHARJOITUKSET VIIKOLLA 9! Ilmoittaudu Weboodissa 4.3.2013 klo

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) Aalto-yliopisto 2017 Käytännön järjestelyt Luennot: Luennot maanantaisin (sali E) ja keskiviikkoisin (sali U4) klo 10-12 Luennoitsija: (lauri.viitasaari@aalto.fi)

Lisätiedot

Diskriminanttianalyysi I

Diskriminanttianalyysi I Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010 Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen Johdanto Lineaarinen diskriminanttianalyysi

Lisätiedot

Harjoitus 3: Regressiomallit (Matlab)

Harjoitus 3: Regressiomallit (Matlab) Harjoitus 3: Regressiomallit (Matlab) SCI-C0200 Fysiikan ja matematiikan menetelmien studio SCI-C0200 Fysiikan ja matematiikan menetelmien studio 1 Harjoituksen aiheita Pienimmän neliösumman menetelmä

Lisätiedot

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) Aalto-yliopisto 2016 Käytannön järjestelyt Luennot: Luennot ma 4.1. (sali E) ja ti 5.1 klo 10-12 (sali C) Luennot 11.1.-10.2. ke 10-12 ja ma 10-12

Lisätiedot

Oletetaan ensin, että tangenttitaso on olemassa. Nyt pinnalla S on koordinaattiesitys ψ, jolle pätee että kaikilla x V U

Oletetaan ensin, että tangenttitaso on olemassa. Nyt pinnalla S on koordinaattiesitys ψ, jolle pätee että kaikilla x V U HY / Matematiikan ja tilastotieteen laitos Vektorianalyysi II, syksy 018 Harjoitus 4 Ratkaisuehdotukset Tehtävä 1. Olkoon U R avoin joukko ja ϕ = (ϕ 1, ϕ, ϕ 3 ) : U R 3 kaksiulotteisen C 1 -alkeispinnan

Lisätiedot

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1 Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa

Lisätiedot

Harjoitukset 4 : Paneelidata (Palautus )

Harjoitukset 4 : Paneelidata (Palautus ) 31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 4 : Paneelidata (Palautus 7.3.2017) Tämän harjoituskerran tarkoitus on perehtyä

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Duaalisuus kokonaislukuoptimoinnissa. Mat , Sovelletun matematiikan tutkijaseminaari, kevät 2008, Janne Karimäki

Duaalisuus kokonaislukuoptimoinnissa. Mat , Sovelletun matematiikan tutkijaseminaari, kevät 2008, Janne Karimäki Duaalisuus kokonaislukuoptimoinnissa Mat-2.4191, Sovelletun matematiikan tutkijaseminaari, kevät 2008, Janne Karimäki Sisältö Duaalisuus binäärisissä optimointitehtävissä Lagrangen duaalisuus Lagrangen

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) Tavoitteet (teoria): Hallita autokovarianssifunktion ominaisuuksien tarkastelu. Osata laskea autokovarianssifunktion spektriiheysfunktio. Tavoitteet

Lisätiedot

1 Rajoittamaton optimointi

1 Rajoittamaton optimointi Taloustieteen matemaattiset menetelmät 7 materiaali 5 Rajoittamaton optimointi Yhden muuttujan tapaus f R! R Muistutetaan mieleen maksimin määritelmä. Funktiolla f on maksimi pisteessä x jos kaikille y

Lisätiedot

1. Tietokoneharjoitukset

1. Tietokoneharjoitukset 1. Tietokoneharjoitukset Aluksi Tällä kurssilla käytetään R-ohjelmistoa, jonka käyttämisestä lienee muutama sana paikallaan. R-ohjelmisto on laajasti käytetty vapaassa levityksessä oleva ammattimaiseen

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Inversio-ongelmien laskennallinen peruskurssi Luento 4 Inversio-ongelmien laskennallinen peruskurssi Luento 4 Kevät 20 Regularisointi Eräs keino yrittää ratkaista (likimääräisesti) huonosti asetettuja ongelmia on regularisaatio. Regularisoinnissa ongelmaa

Lisätiedot

Työ tehdään itsenäisesti yhden hengen ryhmissä. Ideoita voi vaihtaa koodia ei.

Työ tehdään itsenäisesti yhden hengen ryhmissä. Ideoita voi vaihtaa koodia ei. Harjoitustyö 1 Harjoitustyö Tehtävä: ohjelmoi lötköjen kansoittamaa alkulimaa simuloiva olioperustainen ohjelma Java-kielellä. Lötköt säilötään linkitetyille listalle ja tekstitiedostoon. Työ tehdään itsenäisesti

Lisätiedot

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,

Lisätiedot

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Harjoitukset 2 : Monimuuttujaregressio (Palautus ) 31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 2 : Monimuuttujaregressio (Palautus 24.1.2017) Tämän harjoituskerran tarkoitus

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä

Lisätiedot

Harjoitus 3: Regressiomallit (Matlab)

Harjoitus 3: Regressiomallit (Matlab) Harjoitus 3: Regressiomallit (Matlab) MS-C2107 Sovelletun matematiikan tietokonetyöt MS-C2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Pienimmän neliösumman menetelmä mallin sovittamisessa

Lisätiedot

A250A0050 Ekonometrian perusteet Tentti

A250A0050 Ekonometrian perusteet Tentti A250A0050 Ekonometrian perusteet Tentti 28.9.2016 Tentissä ei saa käyttää laskinta. Tentistä saa max 80 pistettä. Hyväksytysti suoritetusta harjoitustyöstä saa max 20 pistettä. Huom. Merkitse vastauspaperin

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

2. Aineiston kuvailua

2. Aineiston kuvailua 2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien

Lisätiedot

Yleinen lineaarinen malli

Yleinen lineaarinen malli MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: 1 Määritelmä ja standardioletukset 2

Lisätiedot

Reaalifunktioista 1 / 17. Reaalifunktioista

Reaalifunktioista 1 / 17. Reaalifunktioista säilyy 1 / 17 säilyy Jos A, B R, niin funktiota f : A B sanotaan (yhden muuttujan) reaalifunktioksi. Tällöin karteesinen tulo A B on (aiempia esimerkkejä luonnollisemmalla tavalla) xy-tason osajoukko,

Lisätiedot

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu Puumenetelmät Topi Sikanen Puumenetelmät Periaate: Hajota ja hallitse Jaetaan havaintoavaruus alueisiin. Sovitetaan kuhunkin alueeseen yksinkertainen malli (esim. vakio) Tarkastellaan kolmea mallia Luokittelu-

Lisätiedot

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen

Lisätiedot

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6) Mat-.3 Koesuunnittelu ja tilastolliset mallit kevät Keskipisteen lisääminen k -faktorikokeeseen (ks. Montgomery 9-6) Esim (Montg. ex. 9-, 6-): Tutkitaan kemiallisen prosessin saannon Y riippuvuutta faktoreista

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin erusteet, kevät 2007 10. luento: Regressiomallin (selittäjien) valinta Kai Virtanen 1 Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien

Lisätiedot

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia. HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia Tehtäväsarja I 1. Jatkoa Harjoitus 8A tehtävään 3. Muodosta odotusarvolle µ approksimatiivinen

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta 5. 1. Toteuta Pythonilla seuraava ohjelma:

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta 5. 1. Toteuta Pythonilla seuraava ohjelma: Kerta 2 Kerta 3 Kerta 4 Kerta 5 Kerta 2 1. Toteuta Pythonilla seuraava ohjelma: 2. Tulosta Pythonilla seuraavat luvut allekkain a. 0 10 (eli, näyttää tältä: 0 1 2 3 4 5 6 7 8 9 10 b. 0 100 c. 50 100 3.

Lisätiedot

Kuva 7.2 vastaustaulu harjoitukseen 7.2

Kuva 7.2 vastaustaulu harjoitukseen 7.2 Harjoitus 7. Lataa tiedosto http://users.metropolia.fi/~pasitr/opas/ran13b/data/ran13b.zip levylle Z: ja pura se. Kun olet tehnyt kaikki seuraavat 17 tehtävää palauta Tuubiin harjoituksen 7 vastauksena

Lisätiedot

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I G. Gripenberg Aalto-yliopisto 21. tammikuuta 2016 G. Gripenberg (Aalto-yliopisto) MS-A0207 Differentiaali- ja integraalilaskenta

Lisätiedot

Johdatus regressioanalyysiin

Johdatus regressioanalyysiin Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Load

Load Tampereen yliopisto Tilastollinen mallintaminen Mikko Alivuotila ja Anne Puustelli Lentokoneiden rakennuksessa käytettävien metallinkiinnittimien puristuskestävyys Matematiikan, tilastotieteen ja filosofian

Lisätiedot

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ 24.9.2019 HYVÄN VASTAUKSEN PIIRTEITÄ Alustavat hyvän vastauksen piirteet on suuntaa-antava kuvaus kokeen tehtäviin odotetuista vastauksista ja tarkoitettu ensisijaisesti

Lisätiedot

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,

Lisätiedot

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Tilastollinen päättely II, kevät 2017 Harjoitus 2A Tilastollinen päättely II, kevät 07 Harjoitus A Heikki Korpela 3. tammikuuta 07 Tehtävä. (Monisteen tehtävä.3 Olkoot Y,..., Y n Exp(λ. Kirjoita vastaava tilastollisen mallin lauseke (ytf. Muodosta sitten

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus Mitä jäi mieleen viime viikosta? Mitä mieltä olet tehtävistä, joissa GeoGebralla työskentely yhdistetään paperilla jaettaviin ohjeisiin

Lisätiedot

Pienimmän neliösumman menetelmä (PNS)

Pienimmän neliösumman menetelmä (PNS) neliösumman Perusongelman kuvaus 1 Tarkastellaan neljää pitkää aikasarjaa q 1 = (q 11,q 21,...,q 10,1 ) T, q 2 = (q 12,q 22,...,q 10,2 ) T, q 3 = (q 13,q 23,...,q 10,3 ) T, ja p 1 = (p 11,p 21,...,p 10,1

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot