4. Poikkeamat regressio-oletuksista

Koko: px
Aloita esitys sivulta:

Download "4. Poikkeamat regressio-oletuksista"

Transkriptio

1 4. Poikkeamat regressio-oletuksista Oletukset: Y i = α + β 1 X i1 + + β p X ip + u i (1) E(u i )=0 (2) Var(u i )=σu 2 i (3) Cov(u i,u j )=0 i = j (4) X-muuttujat eiväat saa olla toistensa lineaarikombinaatioita (5) Cov(X ij,u i )=0 i, j 126

2 4.1 Heteroskedastisuus Heteroskedastinen: Var(u i )=σi 2 kaikilla i. ei ole sama Homoskedastinen: Var(u i )=σ 2 kaikilla i. Esimerkki. Kotitalouksien kulutus C i = α + βx i + u i, jossa C i on kotitalouden i kulutus ja X i tulot. On ilmeistäa, ettäa rikkaammissa kotitalouksissa kulutuksen vaihtelu on suurempaa kuin väahäavaraisemmissa kotitalouksissa. TÄallÄoin tilanne on seuraavan kaltainen. 127

3 Y X Kuvio. Esimerkki heteroskedastisuudesta. 128

4 Heteroskedastisuuden seurauksia 1. Tehottomuus: Estimaattoritovatedelleen harhattomia ja tarkentuvia, mutta ne eiväat ole enäaäa tehokkaita 2. Testit epäavalideja: s2^α ja ovat harhaisia s2^β σ2^α :n ja :n estimaattoreita. TÄamÄan seurauksena α:aa ja β:aa koskevat hypoteesien σ2^β testit eiväat ole enäaäa valideja 3. Ennusteiden tehottomuus: Koska estimaattorit ovat tehottomia ovat myäos ennusteet tehottomia. Toisin sanoen epäatarkempia kuin, jos käaytetäaäan tehokkaita estimaattoreita. 129

5 Heteroskedastisuuden testaus Heteroskedastisuuden testaamiseksi on esitetty monenlaisia testejäa. YhteisellÄa nimelläa näamäa tunnetaan ns Lagrangen kerroin testeinäa (Lagrange Multiplier tests, LM-tests). Tarkastellaan yleisesti regressiomallia (1) Y i = β 0 + β 1 X i1 + + β p X ip + u i, jossa σi 2 =var(u i)=e[u 2 i ]. Heteroskedastisuuden testaamiseksi käaytetyimpiäa mallivaihtoehtoja ovat Breuch and Pagan (1979) (2a) Glesjer (1969) (2b) σ 2 i = γ 0 + γ 1 Z i1 + + γ k Z ik σ i = γ 0 + γ 1 Z i1 + + γ k Z ik Harvey (1976), Godfrey (1978) (2c) ln(σ 2 i )=γ 0 + γ 1 Z i1 + + γ k Z ik, jossa muuttujat Z j ovat annettuja muuttujia (voivat olla X:iÄa tai joitakin muita, joiden suhteen varianssi vaihtelee). 130

6 Aineisto on homoskedastinen eli varianssi on vakio, jos α 1 = α 2 =...= α k =0. Testattavana nollahypoteesina siis on (3) H 0 : γ 1 = γ 2 = = γ k =0. 131

7 Testin vaiheet: 1. Estimoidaan regressiomalli (1) OLS:llÄa ja lasketaan residuaalit ^u i = Y i ^β 0 ^β 1 X i1 ^β p X ip. ^u 2 i on virhevarianssin σ2 i :n esimaatti, joten esimerkiksi ylläa mallin (2a) estimoimiseksi käaytetäaäan regressiota (4) ^u 2 i = γ 0 + γ 1 Z i1 + + γ k Z ik + v i. Huom. Mallin (2b) tapauksessa σ i :n estimaattina käaytetäaäan ^u i -arvoja. 2. Testisuureena on LM testi, LM = n R 2, jossa n on havaintojen lukumäaäaräa, ja R 2 on regression (4) selitysaste. H 0 :n vallitessa päatee LM χ 2 vapausasteilla k. TÄaten H 0 hyläatäaäan esim. viiden prosentin merkitsevyystasolla, jos LM > χ 2 k (0.05). KÄaytÄannÄossÄa kuitenkin lasketaan p-arvo p = P (χ 2 k > LM) ja hyläatäaäan H 0 5%:n merkitsevyystasolla, jos p<

8 Esim. Excel example. 133

9 Estimointi Jos Var(u i )=σ 2 i, silloin Y i σ i = α 1 σ i + β 1 X i1 σ i + + β p X ip σ i + u i σ i on homoskedastinen, silläa Var(u i /σ i )=1kaikilla i. Ongelmana on, ettäa σ i :t ovat tuntemattomia. Kuitenkin, jos tunnetaan heteroskedastisuuden tyyppi, niin heteroskedastisuuden vaikutus voidaan eliminoida. Proportionaalinen heteroskedastisuus σ 2 i = σ2 Z 2 i tai σ i = σz i (Z i > 0). TÄallÄoin (7) Y i Z i = α 1 Z i + β 1 X i1 Z i + + β p X ip Z i + u i Z i 134

10 on jäalleen homoskedastinen, silläa Var(u i /Z i )= 1 Z 2 i Var(u i )= 1 Z 2Z2 σ 2 = σ 2. TÄaten OLS-vaatimimus on voimassa joten OLS-estimaattorit yhtäaläostäa (7)ovat BLUE. Esim. (Distance data, Expenditure data.) 135

11 Auto Regressive Conditional Heteroscedasticity (ARCH) Aikasarja-aineisto! Jo kauan on havaittu, ettäa spekulatiivisille hintasarjoille on ominaista volatilisuuden keskittymäat peräakkäaisiin ajanjaksoihin. 15 Daily Returns of Nokia's Ordinary Share [ ] 10 5 Returns Time 136

12 Seuraukset: Huipukas ja "paksuhäantäainen" jakauma Outlierit yleisiäa ARCH-malli: Olkoon t aikasarja ja ª t käaytettäavissäa oleva informaatio hetkelläa t. Silloin sanotaan, ettäa t ARCH(p), jos E( t ª t 1 ) = 0 Var( t ª t 1 ) = h t = α 0 + α 1 2 t α p 2 t p α 0 > 0, α 1 0,...,α p 0 Huom. TÄassÄa informaatiojoukko ª t 1 = { t 1,..., t p }. 137

13 ARCH-residuaalit regressiomallissa Tarkastellaan yhden selittäajäan regressiomalia jossa y t = β 0 + β 1 x t + u t, h t = α 0 + α 1 u 2 t 1 ARCH(1) Miten vaikuttaa β-parametrien estimointiin? EntÄa β:aa koskevaan tilastolliseen päaäattelyyn? 138

14 Muistettakoon: Jos E(u t ) = 0 Var(u t ) = σ 2 < ja Cov(u t,u s ) = 0 t = s silloin Gauss-Markov tuloksen perusteella β:n OLS-estimaattori ^β LS on BLUE. 139

15 Nyt, jos u t ARCH(1), jossa 0 < α 1 < 1, niin (i) E(u t )=0 (ii) Var(u t )=α 0 /(1 α 1 ) (iii) Cov(u t,u s )=0, t = s (i) {(iii) ^β LS on BLUE! Kuitenkin, koska esimerkiksi niin σ^β 1 = 1 (xt ¹x) 2 α0 1 α 1 σ^β 1, kun α 1 1. SiispÄa: OLS-estimaattori käay hyvin epäastabiiliksi, jos shokin vaikutus on pitkäaaikaista (α 1 1). 140

16 LisÄaksi vaikka Cov(u t,u s )=0 (t = s) niin u t ja u s eiväat ole riippumattomia. Samoin vaikka u t ª t 1 N(0,h t ), niin kuitenkaan u t ei ole normaalinen. SiispÄa myäoskäaäan t-jakaumaan perustuva tilstollinen päaäattely ei ole käayttäokelpoista. 141

17 NÄaistÄa syistäa estimointimenetelmäanäa onkin syytäa käayttäaäa Maximum Likelihood (ML) menetelmäaäa. TÄassÄa joudutaan kuitenkin käayttäamäaäan numeerisia menetelmiäa! Testitunnuslukujen jakaumat ovat asymptoottisia. 142

18 Esim. Simuloitu aineisto: jossa y t =5+1.5x t + u t u t ª N(0,h t ) h t =4+0.9u 2 t 1, t =1,...,150 SAS-ohjelma data a; et = 0; do time = -10 to 150; ht = *et**2; et = sqrt(ht)*rannor(12346); x = *rannor(12367); y = *x + et; if time > 0 then output; end; proc autoreg; model y = x / garch=(q=1) maxit = 50; run; 143

19 Y :n aikasarjakuvio ja X:n ja Y :n korrelaatiodiagrammi Y Y X 144

20 Estimointitulokset Autoreg Procedure Dependent Variable = Y Ordinary Least Squares Estimates SSE DFE 148 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Variable DF B Value Std Error t Ratio Approx Prob Intercept X GARCH Estimates SSE OBS 150 MSE UVAR Log L Total Rsq SBC AIC Normality Test Prob>Chi-Sq Variable DF B Value Std Error t Ratio Approx Prob Intercept X ARCH ARCH

21 ARCH-residuaalien testaus Olkoon y t = β 0 + β 1 x t + u t. Kysymys: u t ARCH(p)? Hypoteesit: H 0 : α 1 = = α p =0 H 1 : jokin α j =0,j =1,...,p 146

22 Testauksen vaiheet: 1. Lasketaan OLS-residuaalit e 1,e 2,...,e T, jossa e t = y t ^β 0 ^β 1 x t. 2. Korotetaan toiseen potenssiin: e 2 1,...,e2 T. 3. Estimoidaan regressiomalli e 2 t = c 0+c 1 e 2 t c p e 2 t p + v t ja sen selitysaste R Testisuure χ 2 = TR 2, joka on likimain χ 2 p jakautunut, jos H 0 on tosi. 5. H 0 hyläatäaäan, jos testisuure ylittäaäa valittua merkitsevyystasoa vastaavan χ 2 -jakauman kriittisen arvon. 147

23 Esim. Unitaksen A-osake Unitas A Returns [ ] Returns Unsas Hex 148

24 /* Muodostetaan data */ options ls = 72 ps = 72; data econex; infile d:\statist\data\unsas.dat firstobs = 3; input dd ddmmyy8. fox hex20 hex unsas; rfox = 100 * log(fox / lag(fox)); rhex20 = 100 * log(hex20 / lag(hex20)); rhex = 100 * log(hex / lag(hex)); runsas = 100 * log(unsas / lag(unsas)); run; /* Estimoidaan Unitaksen Beta */ Title Testataan ARCH-prosessin olemassaoloa ja ; Title2 Estimoidaan GARCH(1,1)-prosessi ; proc autoreg; model runsas = rhex / ARCHTest; model runsas = rhex / GARCH=(q=1,p=1); run; 149

25 Dependent Variable = RUNSAS Testataan ARCH-prosessin olemassaoloa ja Estimoidaan GARCH(1,1)-prosessi Autoreg Procedure Ordinary Least Squares Estimates SSE DFE 504 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Q and LM Tests for ARCH Disturbances Order Q Prob>Q LM Prob>LM

26 Variable DF B Value Std Error t Ratio Approx Prob Intercept RHEX SSE DFE 504 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Variable DF B Value Std Error t Ratio Approx Prob Intercept RHEX GARCH Estimates SSE OBS 506 MSE UVAR. Log L Total Rsq SBC AIC Normality Test Prob>Chi-Sq Variable DF B Value Std Error t Ratio Approx Prob Intercept RHEX ARCH ARCH GARCH

27 ARCH-mallin laajennuksia ARCH-mallissta on tehty useita erilaisia laajennuksia. Esimerkiksi GARCH(q, p): h t = α 0 + α 1 u 2 t α pu 2 t p +β 1 h t β q h t q Etuna täalläa on,ettäa siinäa tarvitaan usein vain muutama viive. Esim. (jatkoa) GARCH(q, p)-m GARCH in mean malli. y t = a + bx t + δg(h t )+u t, jossa u t GARCH(q, p) ja g on jokin sopiva funktio, yleensäa log tai neliäojuurifunktio. 152

28 4.2 Autokorrelaatio Aikasarja-aineisto! Y t = α + β 1 X t1 + + β p X tp + u t,, t =1,...,T. Oletuksen (3) mukaan residuaalien pitäaisi olla korreloimattomia. Jos u t ajanhetkeläa t on korreloitunut virhetermien u t+1,u t+2,... ja u t 1,u t 2,... kanssa, niin sanotaan, ettäa jäaäannäokset ovat autokorreloituneita. Autokorrelaatiokerroin mäaäaritelläaäan ρ k = Cov(u t,u t+k ) σu 2, jonka empiirinen vastine on muotoa (et ¹e)(e r k = t+k ¹e) (et ¹e) 2, jossa e t = Y t ^Y t. Huom. OLS-estimoinnissa ¹e =0. 153

29 Autokorrelaation vaikutuksia OLS-estimointiin HeikentÄaÄa estimaattoreiden tehokkuutta. Estimaattorit eiväat ole enäaäa BLUE Ovat edelleen harhattomia ja tarkentuvia Jos autokorrelaatio on positiivista, niin estimaattoreiden ja residuaalien virhevarianssit aliestimoivat todellisia variansseja. TÄaten tulokset näayttäaväat paremmilta mitäa ne todellisuudessa ovat. t-arvot ovat suurempia ja selitysaste nousee. 154

30 Autokorrelaation testaus Yksinkertaisin ja käaytetyin testi on Durbin- Watsonin DW-testisuure, joka on muotoa Tt=2 (e t e d = t 1 ) 2. Voidaan kirjoittaa Tt=1 e 2 t d = e 2 t + e 2 t 1 2 e t e t 1 e 2 t. Koska e 2 t e 2 t 1, kun otoskoko on suuri, saadaan d 2(1 r 1 ). TÄaten, jos r 1 =+1, niin d =0ja, jos r 1 = 1, niin d =4. Jos r 1 =0, niin d =2. Siis pieni d:n arvo viittaa positiiviseen autokorrelaatioon, lahelläa kakkosta oleva d:n arvo, ettei autokorrelaatiota ole ja suuret, yli kakkosen olevat d:n arovot, ettäa autokorrelaatio on negatiivista. 155

31 Huom. muotoa Taustalla on ajatus, ettäa malli on Y t = α 0 + β 1 X t1 + + β p X tp + u t u t = ρu t 1 + v t, jossa v t WN (White Noise, eli E(v t ) = 0, var(v t ) = σv 2 ja Cov(u t,u t+k ) = 0, kun k = 0). Testauksessa käaytetäaäan taulukkoja hyväaksi. Hypoteesina on H 0 : ρ 1 =0 Josd <d L,niinhylÄatÄaÄan H 0. Jos d>d U,niinhyvÄaksytÄaÄan H 0. Jos d L <d<d U, niin testi on inkonklusivinen! Taulukkoarvot DW-testille on annettu, kun ρ > 0. Jos d > 2, niin silloin viitteitäa on negatiivisesta autokorrelaatiosta (ρ < 0). TÄallÄoin d:n sijaan tarkastellaan suuretta 4 d. 156

32 Esim. Gobb-Douglas production function estimation (USA) USA production USA prduction Source: Maddala (1992) Indtroduction to Econometrics, Second Edition, p100 X = index of gross national product in constant dollars L1 = Labour input index (number of persons adjusted for hours of work and educational level L2 = person engaged K1 = capital input index (capital stock adjusted for rates of utilization) K2 = capital stock in constant dollars Year X L1 L2 K1 K

33 Regression results of USA prod SUMMARY OUTPUT ANOVA df SS MS F Significance F Regression Statistics Regression E-41 Multiple R Residual R Square Total Adjusted R Standard E Coefficientstandard Err t Stat P-value Observatio 39 Intercept E-18 LnL E-19 LnK E-09 RESIDUAL OUTPUT DW = Year Pred LnX Residuals Res Diff Residual plot Time Resid 158

34 Huom. 1. DW-testi testaa vain ensimmäaistäa autokorrelaatiota 2. TestiÄa ei voida käayttäaäa tapauksessa, jossa on selittäavinäa muuttujina selitettäaväan muuttujan viipeitäa! 159

35 Estimonti Jos DW-testi osoittaa autokorrelaatiota, niin autokorrelaatio voidaan estimoida havaintoaineistosta. Tarkastellaan esimerkkinäa yhden selittäajäan regressiota, Y t = α + βx t + u t, jossa u t = ρu t 1 + v t, v t WN(0, σ 2 v ). Nyt ρy t 1 = ρα + ρβx t 1 + ρu t 1. VÄahentÄamÄallÄa saadaan Y t ρy t 1 =(1 ρ)α + βx t ρβx t 1 + v t josta edelleen Y t =(1 ρ)α + ρy t 1 + βx t ρβx t 1 + v t jossa v t :t siis nyt (auto)korreloimattomia. 160

36 Aiemmin käaytetyin menetelmäa oli ns. Cochrane- Orcutt iteratiivista proseduuria (ks. Daughert). Nykyisin estimointi voidaan toteuttaa helposti epäalineaarisilla menetelmilläa. Esimerkiksi EViews:ssÄa voidaan kirjoittaa identi oimalla parametrit c(1) = α, c(2) = ρ, c(3) = β suoraan estimoitavana yhtäaläonäa y = c(1)*(1-c(2)) + c(2)*y(-1) + c(3)*x - c(2)*c(3)x(-1) Toinen tapa on ilmoittaa ohjelmalle, ettäa residuaalitermi mallinnetaan AR(1)-prosessina. EViews:ssÄa täamäa käay lisäaäamäalläa AR(1) muuttujaluetteloon. 161

37 Esim. Gobb-Douglass (jatkoa). log(gdp) = β 0 + β L log(l 1 )+β K log(k 1 )+u t, ************************************************** 1. Tavallinen OLS: Ilman autokrrelaatiorakennetta ************************************************** Dependent Variable: LOG(GDP) Method: Least Squares Date: 11/08/05 Time: 00:18 Sample: Included observations: 39 ================================================== Variable Coefficient Std. Error t-statistic Prob C LOG(L1) LOG(K1) ================================================== R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic)

38 DW = < 1.20 = d L (0.01), joten residuaaleissa on autokorrelaatiota. Mallinnetaan seuraavaksi residuaalit AR(1)-prosessina u t = ρu t 1 + v t, v t WN(0, σ 2 v ). Estimoitava epäalineaarinen malli: log(gdp t ) = β 0 (1 ρ)+ρ log(gdp t 1 ) jossa v t = u t ρu t 1. +β L log(l 1,t )+β K log(k 1,t ) ρβ L log(l 1,t 1 ) ρβ K log(k 1,t 1 )+v t, EViews:ssa c(1) = β 0, c(2) = ρ, c(3) = β L ja c(4) = β K. 163

39 *********************************** 2. Estimoidaan ep\"alineaarinen malli *********************************** Dependent Variable: LOG(GDP) Method: Least Squares Sample (adjusted): Included observations: 38 after adjustments Convergence achieved after 36 iterations LOG(GDP) = C(1)*(1-C(2)) + C(2)*LOG(GDP(-1)) + C(3)*LOG(L1) + C(4) *LOG(K1) - C(2)*C(3)* LOG(L1(-1)) - C(2)*C(4)* LOG(K1(-1)) ================================================ Coefficient Std. Error t-statistic Prob C(1) C(2) C(3) C(4) ================================================ R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Durbin-Watson stat

40 Suoraviivaisempi tapa EView:slla on estimoida suoraan mallispesi kaatio jossa log(gdp) = β 0 + β L log(l 1 )+β K log(k 1 )+u t, u t = ρu t 1 + v t. ***************************************************** 3. Residuaalien AR(1)-prosessi: u = rho*u(-1) + v ***************************************************** Dependent Variable: LOG(GDP) Method: Least Squares Sample (adjusted): Included observations: 38 after adjustments Convergence achieved after 9 iterations ====================================================== Variable Coefficient Std. Error t-statistic Prob C LOG(L1) LOG(K1) AR(1) ===================================================== R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic)

41 Autokorrelaation syyt 1. PoisjÄatetyt selittäajäat 2. VÄaÄarin spesi oitu dynamiikka 3. Havaintojen interpolointi ja tasoitus 4. "Oikea autokorrelaatio"?? 1. PoisjÄatetyt selittäajäat: Oletetaan esimerkiksi, ettäa Y t = α + β 1 X t + β 2 Z t + u t. Kuitenkin estimoidaan malli Y t = α + β 1 X t + v t, jossa v t = β 2 Z t +u t. Silloin jos Z t on autokorreloitunut, niin v t on myäos autokorreloitunut. 166

42 2. VÄaÄarin spesi oitu dynamiikka Olkoon Y t = α + βx t + u t u t = ρu t 1 + t, jossa t WN. VÄahentÄamÄallÄa molemmilta puolin ρy t 1, saadaan Y t =(1 ρ)α + ρy t 1 + βx t βρx t 1 + t. Tarkastellaan seuraavaksi mallia Y t = β 0 + β 1 Y t 1 + β 2 X t + β 3 X t 1 + t Jos β 1 β 2 + β 3 = 0, niin näamäa mallit ovat samoja. Hypoteesi ρ = 0 on sama kuin hypoteesi β 1 = β 3 =0. Kutenkin, jos β 1 β 2 + β 3 = 0, niin kysymyksessäa ei ole autokorrelaatio vaan väaäarin spesi oitu mallin dynamiikka! 167

43 NiinpÄa itse asiassa ennen kuin testataan autokorrelaatiota pitäaisi ensin testata hypoteesia H 0 : β 1 β 2 + β 3 =0. Jos täamäa hyläatäaäan, niin autokorrelaatiota ei ole syytäa testata. Huom. Kuitenkaan hypoteesi β 1 β 2 +β 3 =0ei ole lineaarinen, joten sen testaaminen ei onnistu perinteiselläa t-testilläa, vaan on käaytettäaväa esim. LM-tetiÄa tai Likelihood Ratio (LR) testiäa (epäalineaaristen hypoteesien testausta ei kuitenkaan käasitelläa täalläa kurssilla). LR testi on muotoa SSR0 LR = T log, SSR 1 joka on asymptoottisesti χ 2 jakautunut, jos H 0 on tosi.ssr 1 on regressioneliäosumma rajoittamattomassa tapauksessa ja SSR 0 on regressioneliäosumma H 0 :n vallitessa. 168

44 4.3. Multikollineaarisuus SelittÄavÄan muuttujan lisäaäamisestäa malliin voi olla useita seurauksia. Yksi on, ettäa selitysaste R 2 kasvaa. Kuitenkin menetetäaäan vapausasteita, minkäa seurauksena testien voimakkuus heikkenee. Toisin sanoen testin kyky havaita todellisen poikkeman nollahypoteesista huonontuu. Jos mallissa on useita selittäaviäa muuttujia, saattaa jotkin niistäa olla läahes lineaarisesti riippuvia keskenäaäan. TÄallÄaista ominaisuutta sanotaan multikollineaarisuudeksi. Esim. Olkoon E t (expenditure) auton (Toyota Mark II) ylläapitokulut yhteensäa hetkelläat,m t (milage) ajetut mailit ja A t (age) ikäa. Tarkastellaan malleja Malli A: Malli B: Malli C: E t = α 0 + α 1 A t + u 1t E t = β 0 + β 1 M t + u 2t E t = γ 0 + γ 1 M t + γ 2 A t + u 3t 169

45 Estimontituloksina saatiin (t-arvot suluissa) Muuttujat Malli A Malli B Malli C VAKIO (-5.98) (-5.91) (0.06) IKÄA (x 1 ) (22.16) (9.58) MAILIT (x 2 ) (18.27) (-7.06) df ¹R ^σ Havaitaan: Ennakko-oletusten mukaan kertoimien (α 1, β 2, γ 1 ja γ 2 pitäaisi olla positiivisia. Kuitenkin ^γ 2 = (!!?), mutta ^β 1 = Nyt r x1,x 2 =0.996! 170

46 Multikollineaarisuutta on eri asteista. Se on täaydellistäa, jos x 2 = ax 1 + b. TÄallÄoin r 12 = ±1 ja regressiokertoimia ei voida estimoida. Tavallisesti kuitenkin riippuvuus ei ole täaydellistäa. Kahden selittäajäan tapauksessa riippuvuuden aste näahdäaäan suoraan korrelaatiokertoimesta. Useamman selttäajäan tapauksessa yleensäa myäos korrelaatiot ovat suuria. Paremmin kuitenkin se havaitaan tarkastelemalla selitysasteita, jotka saadaan regressoimalla kukin selittäaväa muuttuja vuorollaan muita selittäaviäa muuttujia vastaan. 171

47 Tarkastellaan kahden selittäajäan mallia Y i = α + β 1 X i1 + β 2 X i2 + u i i =1,...,n. sillon var (^β j )= j =1, 2. σ 2 u (1 r 2 12 ) n i=1 (X ji ¹X j ) 2, TÄaten var (^β),kun r Toisin sanoen estimaatit käayväat erittäain epäastabiileiksi. 172

48 Multikollineaarisuuden seurauksia (OLS:ssa) 1. Jos täaydellistäa, niin parametreja ei voida estimoida. 2. Osittaisessa tapauksessa estimaattorit ovat edelleen BLUE. 3. Estimaattoreiden keskivirheet kasvavat ja t-arvot pieneneväat. 4. Estimointitulokset ovat epäastabiileja, minkäa seurauksena kertoimien tulkinta usein vaikeutuu. 5. Ei kovin suurta haittaa ennustamisessa. 173

49 Multikollineaarisuuden havaitseminen Korkea R 2, mutta pienet t-arvot. SelittÄajien korrelaatiot ovat korkeita. Kerroinestimaatit muuttuvat paljon eri mallivaihtoehdoissa. R 2 j :t ovat suuria j =1,...,p,jossaR2 j on selitysaste mallista X j = γ 0 + k =j γ k X k + v. Formaalit testit, kuntoisuusluku (condition coe±cient) tai VIF (= Variance In- ation Factor), jossa VIF(^β j )= 1 1 R 2 j. 174

50 Kuntoisuusluku ja VIF saadaan tulostettua useimmissa regressio-ohjelmissa. ErÄas peukalosäaäantäo on, ettäa jos kuntoisuusluku ylittäaäa 30, niin multikollineaarisuus on vakavaa. Se mikäa muuttuja on eniten kollineaarinen muiden kanssa voidaan havaita VIF-lukujen avulla (suurin). Esim. Ks. Housing Starts. Ratkaisuja Poistetaan selittäajiäa tai muodostetaan kollineaarisista muuttujista lineaarikombinaatio. LisÄatÄaÄan otoskokoa. Tilastotekninen ratkaisu: Harjaestimointi tms. KÄaytetÄaÄan muuta lisäainformaatiota. (MitÄa?) 175

51 Esim. Housing Starts options ls = 72 nodate; Title ESIMERKKI: Multikollineaarisuus ; Title2 Data ; data housings; infile d:\rawdata\housings.dat firstobs=5; input year housing pop gnp unemp intrate; lhousing = log(housing); lpop = log(pop); lgnp = log(gnp); lunemp = log(unemp); lintrate = log(intrate); run; Title2 Regressiomalli ; proc reg data=housings corr; model lhousing = lpop lgnp lunemp lintrate / tol vif collin; run; Title2 Redusoitu malli ; model lhousing = lgnp lintrate; run; 176

52 ESIMERKKI: Multikollineaarisuus Regressiomalli Correlation CORR LPOP LGNP LUNEMP LINTRATE LHOUSING LPOP LGNP LUNEMP LINTRATE LHOUSING Model: MODEL1 Dependent Variable: LHOUSING Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP LPOP LGNP LUNEMP LINTRATE

53 Variance Variable DF Tolerance Inflation INTERCEP LPOP LGNP LUNEMP LINTRATE Collinearity Diagnostics Condition Var Prop Var Prop Var Prop Var Prop Number Eigenvalue Index INTERCEP LPOP LGNP LUNEMP E Number Var Prop LINTRATE

54 Model: MODEL2 Dependent Variable: LHOUSING ESIMERKKI: Multikollineaarisuus 3 Redusoitu malli Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP LGNP LINTRATE

55 4.4 Poikkeavat havainnot (Outliers) Joskus regressioestimaatteihin vaikuttaa voimakkaasti vain muutama poikkeava havainto. Residuaalien tarkastelulla voidaan yleensäa paikantaa näamäa poikkeamat. Poikkeavalla havainnolla tarkoitetaan havaintoa, joka on "kaukana" muusta joukosta. [Painovirhe, poikkeava olosuhde (Äoljykriisi, sota, lakko)]. Kuitenkaan kaikki muusta joukosta erilläaäan olevat havainnot eiväat ole outliereita. Havaintoa sanotaan vaikuttavaksi In uential, jos pieni muutos siinäa aiheuttaa merkittäaväan muutksen regressioestimaateissa. 180

56 Outliereita ja vaikuttavia havaintoja voidaan paikantaa graa sesti tai sopivilla tunnusluvuilla. X-muuttujien havainnoissa olevia outliereita mitataan usein vipu- (leverage) tunnusluvuilla. TÄallainen on esimerkiksi ns. hattu matriisin (hat matrix) H diagonaalialkio. Tarkstellaan regressiomallia matriisimuodossa y = Xβ + u, jolloin β-vektorin OLS-estimaattori on ^β =(X X) 1 X y ja ^y = X^β = X(X X) 1 X y = Hy. 181

57 Matriisia H = X(X X) 1 X =(h ij ) sanotaan hattumatriisksi. Diagonaalialkiolla h ii = x i (X X) 1 x i sanotaan vivuksi (leverage). Suuri h ii :n arvo tarkoittaa, ettäa kyseiselläa havainnolla on potentiaalisesti suuri vaikutus yksittäaisenäa havaintona estimointituloksiin. TÄallaiset tapaukset on syytäa tutkia tarkemmin. Huom. n i=1 h ii = p +1 (estimoitujen kertoimien lukumäaäaräa) ja 1/n < h ii < 1. PeukalosÄaÄantÄonÄa on,ettäa h ii :n arvot > 2(p +1)/n, jossa n on havaintojen lukumäaäaräa ja p selittäavien muuttujien lukumäaäaräa regressiomallissa, on syytäa tutkiatarkemmin. 182

58 Y -muuttujan havaintojen outliereita voidaan paikantaa tarkastelemalla residuaaleja. KÄayttÄokelpoisia ovat studentisoidut residuaalit e ~e i = i ^σ(i), 1 h ii jossa ^σ(i) on residuaalien keskihajonta estimoituna ilman havaintoa i. Jos ~e i > 2, on kysymyksessäa potentiaalinen outlier, jota on syytäa tarkstellaläahemmin. 183

59 DFFITS i tunnusluku mittaa kunkin yksittäaisen havainnon vaikutusta ^y i :hin DFFITS i = ^y i ^y(i) ^σ(i), h ii jossa ^y(i) on estimoitu ilman havaintoa i. DFBETAS j -luku mittaa puolestaan havainnon i vaikutusta regressiokertoimen j estimaattiin. DFBETAS j = ^β j ^β j (i) ^σ(i) c jj, jossa ^β j (i) on β j :n estimaatti kun havainto i on poistettu (j =1,...,p, i =1,...,n)jac jj on matriisin (X X) 1 j:s diagonaalialkio. 184

60 Molemmissa tapauksissa itseisarvoltaan kakkosta suurempia arvoja vastaavat havainnot on syytäa tutkia tarkemmin. Belsley, Kuh ja Welsh (1980) (Regresion Diagnostics, Wiley: New York) ehdottavat kuitenkin huomattavasti tiukempia rajoja siten, ettäa tapaukset joissa DFFITS i > 2 (p +1)/n ja/tai DFBETAS j > 2/ n olisi syytäa tarkastella läahemmin (size adjusted cuto s). 185

61 Yleinen tapa on, ettäa poikkeava havinto poistetaan. Kuitenkin, jos läoytyy luonnollinen selitys poikkeamalle, niin se voidaan korjata tai muuten huomioida mallissa (esim dummy muuttujan avulla). Esim. Simuloitu aineisto Y = β 0 + β 1 X + u. 186

62 Estimointitulokset ilman poikkeavaa havaintoa X Y SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Standard E Observatio ANOVA df SS MS F Regression Residual Total Coefficientstandard Err t Stat P-value Intercept E X E RESIDUAL OUTPUT ObservationPredicted Y Residuals Y X Line Fit Plot X X Residual Plot Residuals X 187

63 Estimointitulokset, kun aineistossa poikkeava havainto. X Y SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Standard E Observatio ANOVA 3 13 df SS MS F p-val 5 13 Regression Residual Total Coefficientstandard Err t Stat P-value 7 17 Intercept E X RESIDUAL OUTPUT ObservationPredicted Y Residuals Y X Line Fit Plot X X Residual Plot Residuals X 188

64 proc reg; TITLE Poikkeavien havaintojen diagnostiikkaa ; model y = x / influence; run; TULOKSET: DFFITS ja DFFBETAS: Poikkeavien havaintojen diagnostiikkaa Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP X

65 Hat Diag Cov INTERCEP X Obs Residual Rstudent H Ratio Dffits Dfbetas Dfbetas Sum of Residuals 0 Sum of Squared Residuals Predicted Resid SS (Press)

66 Esim. (Housing data) Malli PRICE = β 0 + β 1 log(sqf) + u PRICE LSQF 191

67 Regressiotulokset Poikkeavien havaintojen tarkastelua asuntojen pinta-ala/hinta aineistossa Model: MODEL1 Dependent Variable: PRICE Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP LSQF

68 Hat Diag Cov INTERCEP LSQF Obs Residual Rstudent H Ratio Dffits Dfbetas Dfbetas Sum of Residuals 0 Sum of Squared Residuals Predicted Resid SS (Press)

69 4.5 Spesi kaatiotestit Outlierit kertovat aina, ettäa mallissa on jotain puutteellisuuksia. EpÄalineaarisuus, poisjäatetyt selittäajäat, tms. Jos poisjäatetyistäa muuttujista on havaintoja, niin ongelmaa ei ole merkitsevyyden testaamisessa. Joskus voidaan myäos käayttäaäa korvikemuuttujia, jos selittäajäastäa ei saada havaintoja. EpÄalineaarisuutta voidaan testata esimerkiksi ns. RESET-testillÄa (Ramsey, 1969). 1. Laske y:n regressio x:n suhteen 2. Regressoi y x:n, ^y 2 :n, ^y 3 :n ja ^y 4 :n suhteen ja testaa ovatko ^y:n potenssien regressiokertoimet nollia (F -testi). 194

70 Esim. Hinta/Pinta-ala. SAS Kaskyjono: TITLE Testataan RESET-testill mahdollista epalineaarisuutta ; TITLE2 Testaamisessa voidaan kytt SAS AUTOREG proceduuria ; Proc Autoreg; model Price = LSQF / RESET; run; TULOKSET: Testataan RESET-testill mahdollista epalineaarisuutta Testaamisessa voidaan kayttaa SAS AUTOREG proceduuria Dependent Variable = PRICE Autoreg Procedure Ordinary Least Squares Estimates SSE DFE 12 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Ramsey s RESET Test Power RESET Prob>F Variable DF B Value Std Error t Ratio Approx Prob Intercept LSQF

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. ei ole sama. Heteroskedastinen: Var(u i )= i kaikilla i. Y i = + 1 X i1 + + p X ip + u i

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. ei ole sama. Heteroskedastinen: Var(u i )= i kaikilla i. Y i = + 1 X i1 + + p X ip + u i 4. Poikkeamat regressio-oletuksista 4.1 Heteroskedastisuus Y i = + 1 X i1 + + p X ip + u i Heteroskedastinen: Var(u i )= i 2 kaikilla i. ei ole sama Oletukset: (1) E(u i )=0 (2) Var(u i )= u 2 i (3) Cov(u

Lisätiedot

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. Heteroskedastinen: Var(u i )= i kaikilla i. ei ole sama. Y i = + 1 X i1 + + p X ip + u i

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. Heteroskedastinen: Var(u i )= i kaikilla i. ei ole sama. Y i = + 1 X i1 + + p X ip + u i 4. Poikkeamat regressio-oletuksista Y i = + 1 X i1 + + p X ip + u i Oletukset: (1) E(u i )=0 (2) Var(u i )= u 2 i (3) Cov(u i,u j )=0 i = j (4) X-muuttujat eiväat saa olla toistensa lineaarikombinaatioita

Lisätiedot

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,

Lisätiedot

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i1 +...+ p X ip + u i

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i1 +...+ p X ip + u i 3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = + 1 X i1 +...+ p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i

Lisätiedot

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli: 2. Yhden selittäajäan lineaarinen regressiomalli Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. Son height (cm) 21 2 19 18 17 16 15 15

Lisätiedot

A250A0050 Ekonometrian perusteet Tentti

A250A0050 Ekonometrian perusteet Tentti A250A0050 Ekonometrian perusteet Tentti 28.9.2016 Tentissä ei saa käyttää laskinta. Tentistä saa max 80 pistettä. Hyväksytysti suoritetusta harjoitustyöstä saa max 20 pistettä. Huom. Merkitse vastauspaperin

Lisätiedot

[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen

Lisätiedot

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,

Lisätiedot

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

VARIANSSIANALYYSI ANALYSIS OF VARIANCE VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.

Lisätiedot

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501 Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662

Lisätiedot

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus,

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa 3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = + 1 X i1 +...+ p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11

Lisätiedot

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH 8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH Osa aikasarjoista kehittyy hyvin erityyppisesti erilaisissa tilanteissa. Esimerkiksi pörssikurssien epävakaus keskittyy usein lyhyisiin

Lisätiedot

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat: Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo,

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä: Matriisi ja vektori laskennan ohjelmisto edellyttää

Lisätiedot

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking) 7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

3. Useamman selittäajäan regressiomalli

3. Useamman selittäajäan regressiomalli 3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = α + β 1 X i1 +...+ β p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1)

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

proc glm data = ex61; Title2 Aliasing Structure of the 2_IV^(5-1) design; model y = A B C D E /Aliasing; run; quit; Title "Exercises 6"; Data ex61; input A B C D E y @@; Label A = "Furnance Temperature" B = "Heating Time" C = "Transfer Time" D = "Hold Down Time" E = "Quench of Oil Temperature" y = "Free Height of Leaf

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli: 2. Yhden selittäajäan lineaarinen regressiomalli Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. Son height (cm) 210 200 190 180 170 160

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ...

Lisätiedot

MS-C2{04 Tilastollisen analyysin perusteet

MS-C2{04 Tilastollisen analyysin perusteet MS-C2{04 Tilastollisen analyysin perusteet Tentti 7.4.20 4A/irtanen Kirjoita selvästi jokaiseen koepaperiin alla mainitussa järjestyksessä: OHlprrn (i) (ii) MS-C204 TAP 7.4.204 opiskelijanumero + kirjain

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista? 1 Hydrobiologian tutkijaseminaari 20.3.2000 Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista? Jari Hänninen Turun yliopisto Saaristomeren

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Perusnäkymä yksisuuntaiseen ANOVAaan

Perusnäkymä yksisuuntaiseen ANOVAaan Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika.

Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. 2. Yhden selittäajäan lineaarinen regressiomalli Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. 210 200 Son height (cm) 190 180 170 160

Lisätiedot

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 Tehtävä 2.1. Jatkoa tietokonetehtävälle 1.2: (a) Piirrä aineistosta pisteparvikuvaaja (KULUTUS, SAIRAST) ja siihen

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

Frequencies. Frequency Table

Frequencies. Frequency Table GET FILE='C:\Documents and Settings\haukkala\My Documents\kvanti\kvanti_harjo'+ '_label.sav'. DATASET NAME DataSet WINDOW=FRONT. FREQUENCIES VARIABLES=koulv paino /ORDER= ANALYSIS. Frequencies [DataSet]

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Menestyminen valintakokeissa ja todennäköisyyslaskussa 21.5.21 Menestyminen valintakokeissa ja todennäköisyyslaskussa Esa Pursiheimo 45761L 1 JOHDANTO...2 2 LÄHTÖTIEDOT JA OTOS...3 3 PÄÄSYKOETULOKSIEN YHTEISJAKAUMA...4 4 REGRESSIOANALYYSI...9 4.1 MALLI JA

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

Toimittaja 1 2 3 Erä 1 2 3 4 1 2 3 4 1 2 3 4 1 2 2 1 1 0 1 0 2 2 1 3 1 3 0 4 2 4 0 3 4 0 1 2 0 4 1 0 3 2 2 2 0 2 2 1

Toimittaja 1 2 3 Erä 1 2 3 4 1 2 3 4 1 2 3 4 1 2 2 1 1 0 1 0 2 2 1 3 1 3 0 4 2 4 0 3 4 0 1 2 0 4 1 0 3 2 2 2 0 2 2 1 Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Hierarkkiset koeasetelmat -faktorikokeet Vastepintamenetelmä Aritmeettinen keskiarvo, Estimaatti, Estimaattori, -testi, aktorikokeet,

Lisätiedot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan tavallista kahden selittäjän regressiomallia TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa

Lisätiedot

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs) 9. Muita koeasetelmia 9.1 Hierarkiset asetelmat (Nested Designs) Tietyissä koetilanteissa yhden faktorin tasot ovat samanlaisia joskaan ei täysin identtisiä toisen faktorin eri tasoilla. Tällaista asetelmaa

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 31.03.2012 klo. 9.00-12.00 saleissa L1,L3 Jukka Kemppainen Mathematics

Lisätiedot

Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus

Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus MS-C2128 Ennustaminen ja aikasarja-analyysi 5. harjoitukset / Tehtävät Kotitehtävät: 2 Aihe: ARMA-mallit Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tehtävä 5.1. Tarkastellaan

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

2. Keskiarvojen vartailua

2. Keskiarvojen vartailua 2. Keskiarvojen vartailua Esimerkki 2.1: Oheiset mittaukset liittyvät Portland Sementin sidoslujuuteen (kgf/cm 2 ). Mittaukset y 1 ovat nykyisestä seoksesta ja mittaukset y 2 uudesta seoksesta, jossa lisäaineena

Lisätiedot

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteesee Yhde selittää lieaarie regressiomalli TKK (c) Ilkka Melli (2005) Yhde selittää lieaarie regressiomalli Yhde selittää lieaarie regressiomalli a sitä koskevat oletukset Yhde selittää

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Ohjeita kvantitatiiviseen tutkimukseen

Ohjeita kvantitatiiviseen tutkimukseen 1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 2 KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI Sisältö: 1. Frekvenssi- ja prosenttijakaumat.2

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

4. Tietokoneharjoitukset

4. Tietokoneharjoitukset 4. Tietokoneharjoitukset Demotehtävät 4.1 Tarkastellaan seuraavia aikasarjoja. Tiedosto (.txt) Muuttuja Kuvaus Havaintoväli Aikasarjan pituus INTEL Intel_Close Intelin osakekurssi Pörssipäivä n = 20 Intel_Volume

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa: Mat-.03 Koesuunnittelu ja tilastolliset mallit Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalsi Aritmeettinen keskiarvo, Estimointi, F-testi,

Lisätiedot

Esimerkkiaineisto ALKOKULU Olemme käyttäneet 3. harjoituksissa esimerkkinä aineistoa, joka käsittelee yksityisiä kulutusmenoja

Esimerkkiaineisto ALKOKULU Olemme käyttäneet 3. harjoituksissa esimerkkinä aineistoa, joka käsittelee yksityisiä kulutusmenoja MS-C2128 Ennustaminen ja aikasarja-analyysi 6. harjoitukset / Tehtävät Kotitehtävä: 4 Esimerkkiaineisto ALKOKULU Olemme käyttäneet 3. harjoituksissa esimerkkinä aineistoa, joka käsittelee yksityisiä kulutusmenoja

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Otoskoon arviointi. Tero Vahlberg

Otoskoon arviointi. Tero Vahlberg Otoskoon arviointi Tero Vahlberg Otoskoon arviointi Otoskoon arviointi (sample size calculation) ja tutkimuksen voima-analyysi (power analysis) ovat tilastollisen tutkimuksen suunnittelussa keskeisiä kysymyksiä

Lisätiedot

4. Tietokoneharjoitukset

4. Tietokoneharjoitukset 4. Tietokoneharjoitukset Demotehtävät 4.1 Tarkastellaan seuraavia aikasarjoja. Tiedosto (.txt) Muuttuja Kuvaus Havaintoväli Aikasarjan pituus INTEL Intel_Close Intelin osakekurssi Pörssipäivä n = 20 Intel_Volume

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Raija Leppälä 29. helmikuuta 2012 Sisältö 1 Johdanto 2 1.1 Jatkuvista jakaumista 2 1.1.1 Normaalijakauma 2 1.1.2 Studentin t-jakauma 3 1.2 Satunnaisotos,

Lisätiedot

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiodiagnostiikka TKK (c) Ilkka Mellin (2004) 1 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien

Lisätiedot

Hypoteesin testaus Alkeet

Hypoteesin testaus Alkeet Hypoteesin testaus Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Johdanto Kokeellinen tutkimus: Varmennetaan teoreettista olettamusta fysikaalisen systeemin käyttäytymisestä

Lisätiedot

Mat Tilastollisen analyysin perusteet

Mat Tilastollisen analyysin perusteet / Mat-2.21 04 Tilastollisen analyysin perusteet Tentti 24.5.2013/Virtanen Kirjoita selvasti jokaiseen koepaperiin alia mainitussa jarjestyksessa: Mat-2.2104 Tap 24.5.2013 opiskelijanumero kirjain TEKSTATEN

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiodiagnostiikka TKK (c) Ilkka Mellin (2007) 1 Regressiodiagnostiikka >> Yleinen lineaarinen malli ja regressiodiagnostiikka

Lisätiedot

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ...

Lisätiedot

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. 7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät

Lisätiedot

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle] Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Harha mallin arvioinnissa

Harha mallin arvioinnissa Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö

Lisätiedot

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I Lumipallo regressioanalyysista jokainen kirjoittaa lapulle yhden lauseen regressioanalyysista ja antaa sen seuraavalle Logistinen regressioanalyysi Y250. Kvantitatiiviset menetelmät (6 op) Hanna Wass tutkijatohtori

Lisätiedot

Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä:

Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä: 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat 4.1 Satunnaistettu lohkokoe (Randomized Block Design) Kiusatekijä (nuisance factor): Kiusatekijä on taustatekijä, joka voi vaikuttaa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot