4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. ei ole sama. Heteroskedastinen: Var(u i )= i kaikilla i. Y i = + 1 X i1 + + p X ip + u i

Koko: px
Aloita esitys sivulta:

Download "4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. ei ole sama. Heteroskedastinen: Var(u i )= i kaikilla i. Y i = + 1 X i1 + + p X ip + u i"

Transkriptio

1 4. Poikkeamat regressio-oletuksista 4.1 Heteroskedastisuus Y i = + 1 X i1 + + p X ip + u i Heteroskedastinen: Var(u i )= i 2 kaikilla i. ei ole sama Oletukset: (1) E(u i )=0 (2) Var(u i )= u 2 i (3) Cov(u i,u j )=0 i = j (4) X-muuttujat eiväat saa olla toistensa lineaarikombinaatioita (5) Cov(X ij,u i )=0 i, j Homoskedastinen: Var(u i )= 2 kaikilla i. Esimerkki. Kotitalouksien kulutus C i = + X i + u i, jossa C i on kotitalouden i kulutus ja X i tulot. On ilmeistäa, ettäa rikkaammissa kotitalouksissa kulutuksen vaihtelu on suurempaa kuin väahäavaraisemmissa kotitalouksissa. TÄallÄoin tilanne on seuraavan kaltainen

2 Heteroskedastisuuden seurauksia Tehottomuus: Estimaattoritovatedelleen harhattomia ja tarkentuvia, mutta ne eiväat ole enäaäa tehokkaita 400 Y Testit epäavalideja: s2^ ja ovat harhaisia s2^ 2^ :n ja :n estimaattoreita. TÄamÄan seurauksena :aa ja :aa koskevat hypoteesien 2^ testit eiväat ole enäaäa valideja X 3. Ennusteiden tehottomuus: Koska estimaattorit ovat tehottomia ovat myäos ennusteet tehottomia. Toisin sanoen epäatarkempia kuin, jos käaytetäaäan tehokkaita estimaattoreita. Kuvio. Esimerkki heteroskedastisuudesta

3 Heteroskedastisuuden testaus Heteroskedastisuuden testaamiseksi on esitetty monenlaisia testejäa. YhteisellÄa nimelläa näamäa tunnetaan ns Lagrangen kerroin testeinäa (Lagrange Multiplier tests, LM-tests). Aineisto on homoskedastinen eli varianssi on vakio, jos 1 = 2 =...= k = 0. Testattavana nollahypoteesina siis on (3) H 0 : 1 = 2 = = k =0. Tarkastellaan yleisesti regressiomallia (1) Y i = X i1 + + p X ip + u i, jossa i 2 =var(u i)=e[u 2 i ]. Heteroskedastisuuden testaamiseksi käaytetyimpiäa mallivaihtoehtoja ovat Breuch and Pagan (1979) (2a) Glesjer (1969) (2b) 2 i = Z i1 + + k Z ik i = Z i1 + + k Z ik Harvey (1976), Godfrey (1978) (2c) ln( i 2)= Z i1 + + k Z ik, jossa muuttujat Z j ovat annettuja muuttujia (voivat olla X:iÄa tai joitakin muita, joiden suhteen varianssi vaihtelee)

4 Testin vaiheet: Esim. Excel example. 1. Estimoidaan regressiomalli (1) OLS:llÄa ja lasketaan residuaalit ^u i = Y i ^ 0 ^ 1 X i1 ^ p X ip. ^u 2 i on virhevarianssin 2 i :n esimaatti, joten esimerkiksi ylläa mallin (2a) estimoimiseksi käaytetäaäan regressiota (4) ^u 2 i = Z i1 + + k Z ik + v i. Huom. Mallin (2b) tapauksessa i :n estimaattina käaytetäaäan ^u i -arvoja. 2. Testisuureena on LM testi, LM = n R 2, jossa n on havaintojen lukumäaäaräa, ja R 2 on regression (4) selitysaste. H 0 :n vallitessa päatee LM 2 vapausasteilla k. TÄaten H 0 hyläatäaäan esim. viiden prosentin merkitsevyystasolla, jos LM > 2 k (0.05). KÄaytÄannÄossÄa kuitenkin lasketaan p-arvo p = P ( 2 k > LM) ja hyläatäaäan H 0 5%:n merkitsevyystasolla, jos p<

5 Estimointi Jos Var(u i )= 2 i, silloin Y i = 1 X + i1 X ip p + u i i i i i i on homoskedastinen, silläa Var(u i / i ) = 1 kaikilla i. on jäalleen homoskedastinen, silläa Var(u i /Z i )= 1 Z 2 i Var(u i )= 1 Z 2Z2 2 = 2. TÄaten OLS-vaatimimus on voimassa joten OLS-estimaattorit yhtäaläostäa (7)ovat BLUE. Esim. (Distance data, Expenditure data.) Ongelmana on, ettäa i :t ovat tuntemattomia. Kuitenkin, jos tunnetaan heteroskedastisuuden tyyppi, niin heteroskedastisuuden vaikutus voidaan eliminoida. Proportionaalinen heteroskedastisuus 2 i = 2 Z 2 i tai i = Z i (Z i > 0). TÄallÄoin (7) Y i Z = 1 X i Z + i1 X i 1 Z + + ip p i Z + u i i Z i

6 Auto Regressive Conditional Heteroscedasticity (ARCH) Aikasarja-aineisto! Seuraukset: Huipukas ja "paksuhäantäainen" jakauma Jo kauan on havaittu, ettäa spekulatiivisille hintasarjoille on ominaista volatilisuuden keskittymäat peräakkäaisiin ajanjaksoihin. Outlierit yleisiäa ARCH-malli: Olkoon t aikasarjajaª t käaytettäavissäa oleva informaatio hetkelläa t. Silloin sanotaan, ettäa t ARCH(p), jos Daily Returns of Nokia's Ordinary Share [ ] E( t ª t 1 ) = 0 5 Var( t ª t 1 ) = h t = t p 2 t p Returns > 0, 1 0,..., p Time Huom. TÄassÄa informaatiojoukko ª t 1 = { t 1,..., t p }

7 ARCH-residuaalit regressiomallissa Tarkastellaan yhden selittäajäan regressiomalia y t = x t + u t, jossa Muistettakoon: Jos E(u t ) = 0 Var(u t ) = 2 < ja Cov(u t,u s ) = 0 t = s h t = u 2 t 1 ARCH(1) silloin Gauss-Markov tuloksen perusteella :n OLS-estimaattori ^ LS on BLUE. Miten vaikuttaa -parametrien estimointiin? EntÄa :aa koskevaan tilastolliseen päaäattelyyn?

8 Nyt, jos u t ARCH(1), jossa 0 < 1 < 1, niin (i) E(u t )=0 (ii) Var(u t )= 0 /(1 1 ) (iii) Cov(u t,u s )=0, t = s (i) {(iii) ^ LS on BLUE! Kuitenkin, koska esimerkiksi 1 0 ^ = 1 (xt ¹x) LisÄaksi vaikka Cov(u t,u s )=0 (t = s) niin u t ja u s eiväat ole riippumattomia. Samoin vaikka u t ª t 1 N(0,h t ), niin kuitenkaan u t ei ole normaalinen. SiispÄa myäoskäaäan t-jakaumaan perustuva tilstollinen päaäattely ei ole käayttäokelpoista. niin ^ 1, kun 1 1. SiispÄa: OLS-estimaattori käay hyvin epäastabiiliksi, jos shokin vaikutus on pitkäaaikaista ( 1 1)

9 NÄaistÄa syistäa estimointimenetelmäanäa onkin syytäa käayttäaäa Maximum Likelihood (ML) menetelmäaäa. Esim. Simuloitu aineisto: TÄassÄa joudutaan kuitenkin käayttäamäaäan numeerisia menetelmiäa! Testitunnuslukujen jakaumat ovat asymptoottisia. jossa y t =5+1.5x t + u t u t ª N(0,h t ) h t =4+0.9u 2 t 1, t =1,...,150 SAS-ohjelma data a; et = 0; do time = -10 to 150; ht = *et**2; et = sqrt(ht)*rannor(12346); x = *rannor(12367); y = *x + et; if time > 0 then output; end; proc autoreg; model y = x / garch=(q=1) maxit = 50; run;

10 Y :n aikasarjakuvio ja X:n ja Y :n korrelaatiodiagrammi Estimointitulokset Autoreg Procedure Dependent Variable = Y Ordinary Least Squares Estimates SSE DFE 148 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Variable DF B Value Std Error t Ratio Approx Prob Intercept X Y GARCH Estimates SSE OBS 150 MSE UVAR Log L Total Rsq SBC AIC Normality Test Prob>Chi-Sq Y Variable DF B Value Std Error t Ratio Approx Prob Intercept X ARCH ARCH X

11 ARCH-residuaalien testaus Testauksen vaiheet: Olkoon y t = x t + u t. Kysymys: u t ARCH(p)? Hypoteesit: H 0 : 1 = = p =0 H 1 : jokin j =0,j =1,...,p 1. Lasketaan OLS-residuaalit e 1,e 2,...,e T, jossa e t = y t ^ 0 ^ 1 x t. 2. Korotetaan toiseen potenssiin: e 2 1,...,e2 T. 3. Estimoidaan regressiomalli e 2 t = c 0+c 1 e 2 t c p e 2 t p + v t ja sen selitysaste R Testisuure 2 = TR 2, joka on likimain 2 p jakautunut, jos H 0 on tosi. 5. H 0 hyläatäaäan, jos testisuure ylittäaäa valittua merkitsevyystasoa vastaavan 2 -jakauman kriittisen arvon

12 Esim. Unitaksen A-osake Unitas A Returns [ ] /* Muodostetaan data */ options ls = 72 ps = 72; data econex; infile d:\statist\data\unsas.dat firstobs = 3; input dd ddmmyy8. fox hex20 hex unsas; rfox = 100 * log(fox / lag(fox)); rhex20 = 100 * log(hex20 / lag(hex20)); rhex = 100 * log(hex / lag(hex)); runsas = 100 * log(unsas / lag(unsas)); run; Returns /* Estimoidaan Unitaksen Beta */ Title Testataan ARCH-prosessin olemassaoloa ja ; Title2 Estimoidaan GARCH(1,1)-prosessi ; proc autoreg; model runsas = rhex / ARCHTest; model runsas = rhex / GARCH=(q=1,p=1); run; 10 Unsas Hex

13 Dependent Variable = RUNSAS Testataan ARCH-prosessin olemassaoloa ja Estimoidaan GARCH(1,1)-prosessi Autoreg Procedure Ordinary Least Squares Estimates SSE DFE 504 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Q and LM Tests for ARCH Disturbances Order Q Prob>Q LM Prob>LM Variable DF B Value Std Error t Ratio Approx Prob Intercept RHEX SSE DFE 504 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Variable DF B Value Std Error t Ratio Approx Prob Intercept RHEX GARCH Estimates SSE OBS 506 MSE UVAR. Log L Total Rsq SBC AIC Normality Test Prob>Chi-Sq Variable DF B Value Std Error t Ratio Approx Prob Intercept RHEX ARCH ARCH GARCH

14 ARCH-mallin laajennuksia 4.2 Autokorrelaatio ARCH-mallissta on tehty useita erilaisia laajennuksia. Esimerkiksi GARCH(q, p): h t = u 2 t pu 2 t p + 1 h t q h t q Etuna täalläa on,ettäa siinäa tarvitaan usein vain muutama viive. Esim. (jatkoa) GARCH(q, p)-m GARCH in mean malli. y t = a + bx t + g(h t )+u t, jossa u t GARCH(q, p) jag on jokin sopiva funktio, yleensäa log tai neliäojuurifunktio. Aikasarja-aineisto! Y t = + 1 X t1 + + p X tp + u t,, t =1,...,T. Oletuksen (3) mukaan residuaalien pitäaisi olla korreloimattomia. Jos u t ajanhetkeläa t on korreloitunut virhetermien u t+1,u t+2,... ja u t 1,u t 2,... kanssa, niin sanotaan, ettäa jäaäannäokset ovat autokorreloituneita. Autokorrelaatiokerroin mäaäaritelläaäan k = Cov(u t,u t+k ) u 2, jonka empiirinen vastine on muotoa (et ¹e)(e r k = t+k ¹e) (et ¹e) 2, jossa e t = Y t ^Y t. Huom. OLS-estimoinnissa ¹e =

15 Autokorrelaation vaikutuksia OLS-estimointiin Autokorrelaation testaus HeikentÄaÄa estimaattoreiden tehokkuutta. Estimaattorit eiväat ole enäaäa BLUE Ovat edelleen harhattomia ja tarkentuvia Jos autokorrelaatio on positiivista, niin estimaattoreiden ja residuaalien virhevarianssit aliestimoivat todellisia variansseja. TÄaten tulokset näayttäaväat paremmilta mitäa ne todellisuudessa ovat. t-arvot ovat suurempia ja selitysaste nousee. Yksinkertaisin ja käaytetyin testi on Durbin- Watsonin DW-testisuure, joka on muotoa Tt=2 (e t e d = t 1 ) 2. Tt=1 e 2 t Voidaan kirjoittaa e 2 d = t + e 2 t 1 2 e t e t 1. e 2 t Koska e 2 t e 2 t 1, kun otoskoko on suuri, saadaan d 2(1 r 1 ). TÄaten, jos r 1 =+1, niin d =0ja,josr 1 = 1, niin d =4. Jos r 1 = 0, niin d =2. Siis pieni d:n arvo viittaa positiiviseen autokorrelaatioon, lahelläa kakkosta oleva d:n arvo, ettei autokorrelaatiota ole ja suuret, yli kakkosen olevat d:n arovot, ettäa autokorrelaatio on negatiivista

16 Huom. muotoa Taustalla on ajatus, ettäa malli on Esim. Gobb-Douglas production function estimation (USA) Y t = X t1 + + p X tp + u t u t = u t 1 + v t, jossa v t WN (White Noise, eli E(v t ) = 0, var(v t ) = v 2 ja Cov(u t,u t+k ) = 0, kun k = 0). Testauksessa käaytetäaäan taulukkoja hyväaksi. Hypoteesina on H 0 : 1 =0 Josd <d L,niinhylÄatÄaÄan H 0. Jos d>d U,niinhyvÄaksytÄaÄan H 0. Jos d L <d<d U, niin testi on inkonklusivinen! Taulukkoarvot DW-testille on annettu, kun > 0. Jos d > 2, niin silloin viitteitäa on negatiivisesta autokorrelaatiosta ( < 0). TÄallÄoin d:n sijaan tarkastellaan suuretta 4 d. USA production USA prduction Source: Maddala (1992) Indtroduction to Econometrics, Second Edition, p100 X = index of gross national product in constant dollars L1 = Labour input index (number of persons adjusted for hours of work and educational level L2 = person engaged K1 = capital input index (capital stock adjusted for rates of utilization) K2 = capital stock in constant dollars Year X L1 L2 K1 K

17 Huom. Regression results of USA prod SUMMARY OUTPUT ANOVA df SS MS F Significance F Regression Statistics Regression E-41 Multiple R Residual R Square Total Adjusted R Standard E Coefficientstandard Err t Stat P-value Observatio 39 Intercept E-18 LnL E-19 LnK E-09 DW = RESIDUAL OUTPUT Year Pred LnX Residuals Res Diff Residual plot Time Resid 1. DW-testi testaa vain ensimmäaistäa autokorrelaatiota 2. TestiÄa ei voida käayttäaäa tapauksessa, jossa on selittäavinäa muuttujina selitettäaväan muuttujan viipeitäa!

18 Estimonti Jos DW-testi osoittaa autokorrelaatiota, niin autokorrelaatio voidaan estimoida havaintoaineistosta. Tarkastellaan esimerkkinäa yhden selittäajäan regressiota, Y t = + X t + u t, jossa u t = u t 1 + v t, v t WN(0, 2 v ). Nyt Y t 1 = + X t 1 + u t 1. VÄahentÄamÄallÄa saadaan Aiemmin käaytetyin menetelmäa oli ns. Cochrane- Orcutt iteratiivista proseduuria (ks. Daughert). Nykyisin estimointi voidaan toteuttaa helposti epäalineaarisilla menetelmilläa. Esimerkiksi EViews:ssÄa voidaan kirjoittaa identi oimalla parametrit c(1) =, c(2) =, c(3) = suoraan estimoitavana yhtäaläonäa y = c(1)*(1-c(2)) + c(2)*y(-1) + c(3)*x - c(2)*c(3)x(-1) Toinen tapa on ilmoittaa ohjelmalle, ettäa residuaalitermi mallinnetaan AR(1)-prosessina. EViews:ssÄa täamäa käay lisäaäamäalläa AR(1) muuttujaluetteloon. Y t Y t 1 =(1 ) + X t X t 1 + v t josta edelleen Y t =(1 ) + y t 1 + X t X t 1 + v t jossa v t :t siis nyt (auto)korreloimattomia

19 Esim. Gobb-Douglass (jatkoa). log(gdp) = 0 + L log(l 1 )+ K log(k 1 )+u t, ************************************************** 1. Tavallinen OLS: Ilman autokrrelaatiorakennetta ************************************************** Dependent Variable: LOG(GDP) Method: Least Squares Date: 11/08/05 Time: 00:18 Sample: Included observations: 39 ================================================== Variable Coefficient Std. Error t-statistic Prob C LOG(L1) LOG(K1) ================================================== R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic) DW = < 1.20 = d L (0.01), joten residuaaleissa on autokorrelaatiota. Mallinnetaan seuraavaksi residuaalit AR(1)-prosessina u t = u t 1 + v t, v t WN(0, v 2 ). Estimoitava epäalineaarinen malli: log(gdp t ) = 0 (1 )+ log(gdp t 1 ) + L log(l 1,t )+ K log(k 1,t ) L log(l 1,t 1 ) K log(k 1,t 1 )+v t, jossa v t = u t u t 1. EViews:ssa c(1) = 0, c(2) =, c(3) = L ja c(4) = K

20 *********************************** 2. Estimoidaan ep\"alineaarinen malli *********************************** Dependent Variable: LOG(GDP) Method: Least Squares Sample (adjusted): Included observations: 38 after adjustments Convergence achieved after 36 iterations LOG(GDP) = C(1)*(1-C(2)) + C(2)*LOG(GDP(-1)) + C(3)*LOG(L1) + C(4) *LOG(K1) - C(2)*C(3)* LOG(L1(-1)) - C(2)*C(4)* LOG(K1(-1)) ================================================ Coefficient Std. Error t-statistic Prob C(1) C(2) C(3) C(4) ================================================ R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Durbin-Watson stat Suoraviivaisempi tapa EView:slla on estimoida suoraan mallispesi kaatio log(gdp) = 0 + L log(l 1 )+ K log(k 1 )+u t, jossa u t = u t 1 + v t. ***************************************************** 3. Residuaalien AR(1)-prosessi: u = rho*u(-1) + v ***************************************************** Dependent Variable: LOG(GDP) Method: Least Squares Sample (adjusted): Included observations: 38 after adjustments Convergence achieved after 9 iterations ====================================================== Variable Coefficient Std. Error t-statistic Prob C LOG(L1) LOG(K1) AR(1) ===================================================== R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic)

21 Autokorrelaation syyt 2. VÄaÄarin spesi oitu dynamiikka 1. PoisjÄatetyt selittäajäat 2. VÄaÄarin spesi oitu dynamiikka 3. Havaintojen interpolointi ja tasoitus 4. "Oikea autokorrelaatio"?? 1. PoisjÄatetyt selittäajäat: Oletetaan esimerkiksi, ettäa Y t = + 1 X t + 2 Z t + u t. Kuitenkin estimoidaan malli Olkoon Y t = + X t + u t u t = u t 1 + t, jossa t WN. VÄahentÄamÄallÄa molemmilta puolin Y t 1, saadaan Y t =(1 ) + Y t 1 + X t X t 1 + t. Tarkastellaan seuraavaksi mallia Y t = Y t X t + 3 X t 1 + t Jos = 0, niin näamäa mallit ovat samoja. Hypoteesi =0onsamakuinhypoteesi 1 = 3 = 0. Kutenkin, jos = 0, niin kysymyksessäa ei ole autokorrelaatio vaan väaäarin spesi oitu mallin dynamiikka! Y t = + 1 X t + v t, jossa v t = 2 Z t +u t. Silloin jos Z t on autokorreloitunut, niin v t on myäos autokorreloitunut

22 4.3. Multikollineaarisuus NiinpÄa itse asiassa ennen kuin testataan autokorrelaatiota pitäaisi ensin testata hypoteesia H 0 : =0. JostÄamÄa hyläatäaäan, niin autokorrelaatiota ei ole syytäa testata. Huom. Kuitenkaan hypoteesi =0ei ole lineaarinen, joten sen testaaminen ei onnistu perinteiselläa t-testilläa, vaan on käaytettäaväa esim. LM-tetiÄa tai Likelihood Ratio (LR) testiäa (epäalineaaristen hypoteesien testausta ei kuitenkaan käasitelläa täalläa kurssilla). LR testi on muotoa SSR0 LR = T log, SSR 1 joka on asymptoottisesti 2 jakautunut, jos H 0 on tosi.ssr 1 on regressioneliäosumma rajoittamattomassa tapauksessa ja SSR 0 on regressioneliäosumma H 0 :n vallitessa. SelittÄavÄan muuttujan lisäaäamisestäa malliin voi olla useita seurauksia. Yksi on, ettäa selitysaste R 2 kasvaa. Kuitenkin menetetäaäan vapausasteita, minkäa seurauksena testien voimakkuus heikkenee. Toisin sanoen testin kyky havaita todellisen poikkeman nollahypoteesista huonontuu. Jos mallissa on useita selittäaviäa muuttujia, saattaa jotkin niistäa olla läahes lineaarisesti riippuvia keskenäaäan. TÄallÄaista ominaisuutta sanotaan multikollineaarisuudeksi. Esim. Olkoon E t (expenditure) auton (Toyota Mark II) ylläapitokulut yhteensäa hetkelläat,m t (milage) ajetut mailit ja A t (age) ikäa. Tarkastellaan malleja Malli A: Malli B: Malli C: E t = A t + u 1t E t = M t + u 2t E t = M t + 2 A t + u 3t

23 Estimontituloksina saatiin (t-arvot suluissa) Muuttujat Malli A Malli B Malli C VAKIO (-5.98) (-5.91) (0.06) IKÄA (x 1 ) (22.16) (9.58) MAILIT (x 2 ) (18.27) (-7.06) df ¹R ^ Havaitaan: Ennakko-oletusten mukaan kertoimien ( 1, 2, 1 ja 2 pitäaisi olla positiivisia. Kuitenkin ^ 2 = (!!?), mutta ^ 1 = Nyt r x1,x 2 =0.996! Multikollineaarisuutta on eri asteista. Se on täaydellistäa, jos x 2 = ax 1 + b. TÄallÄoin r 12 = ±1 ja regressiokertoimia ei voida estimoida. Tavallisesti kuitenkin riippuvuus ei ole täaydellistäa. Kahden selittäajäan tapauksessa riippuvuuden aste näahdäaäan suoraan korrelaatiokertoimesta. Useamman selttäajäan tapauksessa yleensäa myäos korrelaatiot ovat suuria. Paremmin kuitenkin se havaitaan tarkastelemalla selitysasteita, jotka saadaan regressoimalla kukin selittäaväa muuttuja vuorollaan muita selittäaviäa muuttujia vastaan

24 Tarkastellaan kahden selittäajäan mallia Y i = + 1 X i1 + 2 X i2 + u i i =1,...,n. sillon var (^ j )= j =1, 2. 2 u (1 r 2 12 ) n i=1 (X ji ¹X j ) 2, TÄaten var (^ ),kun r Toisin sanoen estimaatit käayväat erittäain epäastabiileiksi. Multikollineaarisuuden seurauksia (OLS:ssa) 1. Jos täaydellistäa, niin parametreja ei voida estimoida. 2. Osittaisessa tapauksessa estimaattorit ovat edelleen BLUE. 3. Estimaattoreiden keskivirheet kasvavat ja t-arvot pieneneväat. 4. Estimointitulokset ovat epäastabiileja, minkäa seurauksena kertoimien tulkinta usein vaikeutuu. 5. Ei kovin suurta haittaa ennustamisessa

25 Multikollineaarisuuden havaitseminen Korkea R 2, mutta pienet t-arvot. SelittÄajien korrelaatiot ovat korkeita. Kerroinestimaatit muuttuvat paljon eri mallivaihtoehdoissa. Kuntoisuusluku ja VIF saadaan tulostettua useimmissa regressio-ohjelmissa. ErÄas peukalosäaäantäo on, ettäa jos kuntoisuusluku ylittäaäa 30, niin multikollineaarisuus on vakavaa. Se mikäa muuttuja on eniten kollineaarinen muiden kanssa voidaan havaita VIF-lukujen avulla (suurin). Esim. Ks. Housing Starts. Ratkaisuja R 2 j :t ovat suuria j =1,...,p,jossaR2 j on selitysaste mallista X j = 0 + k =j k X k + v. Poistetaan selittäajiäa tai muodostetaan kollineaarisista muuttujista lineaarikombinaatio. Formaalit testit, kuntoisuusluku (condition coe±cient) tai VIF (= Variance In- ation Factor), jossa VIF(^ j )= 1 1 Rj 2. LisÄatÄaÄan otoskokoa. Tilastotekninen ratkaisu: Harjaestimointi tms. KÄaytetÄaÄan muuta lisäainformaatiota. (MitÄa?)

26 Esim. Housing Starts options ls = 72 nodate; Title ESIMERKKI: Multikollineaarisuus ; Title2 Data ; data housings; infile d:\rawdata\housings.dat firstobs=5; input year housing pop gnp unemp intrate; lhousing = log(housing); lpop = log(pop); lgnp = log(gnp); lunemp = log(unemp); lintrate = log(intrate); run; Title2 Regressiomalli ; proc reg data=housings corr; model lhousing = lpop lgnp lunemp lintrate / tol vif collin; run; Title2 Redusoitu malli ; model lhousing = lgnp lintrate; run; ESIMERKKI: Multikollineaarisuus Regressiomalli Correlation CORR LPOP LGNP LUNEMP LINTRATE LHOUSING LPOP LGNP LUNEMP LINTRATE LHOUSING Model: MODEL1 Dependent Variable: LHOUSING Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP LPOP LGNP LUNEMP LINTRATE

27 Variance Variable DF Tolerance Inflation INTERCEP LPOP LGNP LUNEMP LINTRATE Collinearity Diagnostics Condition Var Prop Var Prop Var Prop Var Prop Number Eigenvalue Index INTERCEP LPOP LGNP LUNEMP E Number Var Prop LINTRATE Model: MODEL2 Dependent Variable: LHOUSING ESIMERKKI: Multikollineaarisuus 3 Redusoitu malli Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP LGNP LINTRATE

28 4.4 Poikkeavat havainnot (Outliers) Joskus regressioestimaatteihin vaikuttaa voimakkaasti vain muutama poikkeava havainto. Residuaalien tarkastelulla voidaan yleensäa paikantaa näamäa poikkeamat. Poikkeavalla havainnolla tarkoitetaan havaintoa, joka on "kaukana" muusta joukosta. [Painovirhe, poikkeava olosuhde (Äoljykriisi, sota, lakko)]. Kuitenkaan kaikki muusta joukosta erilläaäan olevat havainnot eiväat ole outliereita. Havaintoa sanotaan vaikuttavaksi In uential, jos pieni muutos siinäa aiheuttaa merkittäaväan muutksen regressioestimaateissa. Outliereita ja vaikuttavia havaintoja voidaan paikantaa graa sesti tai sopivilla tunnusluvuilla. X-muuttujien havainnoissa olevia outliereita mitataan usein vipu- (leverage) tunnusluvuilla. TÄallainen on esimerkiksi ns. hattu matriisin (hat matrix) H diagonaalialkio. Tarkstellaan regressiomallia matriisimuodossa y = X + u, jolloin -vektorin OLS-estimaattori on ja ^ =(X X) 1 X y ^y = X^ = X(X X) 1 X y = Hy

29 Matriisia H = X(X X) 1 X =(h ij ) sanotaan hattumatriisksi. Diagonaalialkiolla h ii = x i (X X) 1 x i sanotaan vivuksi (leverage). Suuri h ii :n arvo tarkoittaa, ettäa kyseiselläa havainnolla on potentiaalisesti suuri vaikutus yksittäaisenäa havaintona estimointituloksiin. TÄallaiset tapaukset on syytäa tutkia tarkemmin. Y -muuttujan havaintojen outliereita voidaan paikantaa tarkastelemalla residuaaleja. KÄayttÄokelpoisia ovat studentisoidut residuaalit e ~e i = i ^ (i), 1 h ii jossa ^ (i) on residuaalien keskihajonta estimoituna ilman havaintoa i. Jos ~e i > 2, on kysymyksessäa potentiaalinen outlier, jota on syytäa tarkstellaläahemmin. Huom. n i=1 h ii = p + 1 (estimoitujen kertoimien lukumäaäaräa) ja 1/n < h ii < 1. PeukalosÄaÄantÄonÄa on,ettäa h ii :n arvot > 2(p +1)/n, jossa n on havaintojen lukumäaäaräa ja p selittäavien muuttujien lukumäaäaräa regressiomallissa, on syytäa tutkiatarkemmin

30 DFFITS i tunnusluku mittaa kunkin yksittäaisen havainnon vaikutusta ^y i :hin DFFITS i = ^y i ^y(i) ^ (i), h ii jossa ^y(i) on estimoitu ilman havaintoa i. DFBETAS j -luku mittaa puolestaan havainnon i vaikutusta regressiokertoimen j estimaattiin. DFBETAS j = ^ j ^ j (i) ^ (i), c jj jossa ^ j (i) on j :n estimaatti kun havainto i on poistettu (j =1,...,p, i =1,...,n)jac jj on matriisin (X X) 1 j:s diagonaalialkio. Molemmissa tapauksissa itseisarvoltaan kakkosta suurempia arvoja vastaavat havainnot on syytäa tutkia tarkemmin. Belsley, Kuh ja Welsh (1980) (Regresion Diagnostics, Wiley: New York) ehdottavat kuitenkin huomattavasti tiukempia rajoja siten, ettäa tapaukset joissa ja/tai DFFITS i > 2 (p +1)/n DFBETAS j > 2/ n olisi syytäa tarkastella läahemmin (size adjusted cuto s)

31 Yleinen tapa on, ettäa poikkeava havinto poistetaan. Kuitenkin, jos läoytyy luonnollinen selitys poikkeamalle, niin se voidaan korjata tai muuten huomioida mallissa (esim dummy muuttujan avulla). Esim. Simuloitu aineisto Y = X + u. Estimointitulokset ilman poikkeavaa havaintoa X Y SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Standard E Observatio ANOVA df SS MS F Regression Residual Total Coefficientstandard Err t Stat P-value Intercept E X E RESIDUAL OUTPUT ObservationPredicted YResiduals Y X Line Fit Plot X X Residual Plot 2.0 Residuals X

32 Estimointitulokset, kun aineistossa poikkeava havainto. X Y SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Standard E Observatio ANOVA 3 13 df SS MS F p-val 5 13 Regression Residual Total Coefficientstandard Err t Stat P-value 7 17 Intercept E X RESIDUAL OUTPUT ObservationPredicted YResiduals X Line Fit Plot X Y Residuals X Residual Plot X proc reg; TITLE Poikkeavien havaintojen diagnostiikkaa ; model y = x / influence; run; TULOKSET: DFFITS ja DFFBETAS: Poikkeavien havaintojen diagnostiikkaa Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP X

33 Hat Diag Cov INTERCEP X Obs Residual Rstudent H Ratio Dffits Dfbetas Dfbetas Esim. (Housing data) Sum of Residuals 0 Sum of Squared Residuals Predicted Resid SS (Press) Malli PRICE PRICE = log(sqf) + u LSQF

34 Regressiotulokset Poikkeavien havaintojen tarkastelua asuntojen pinta-ala/hinta aineistossa Model: MODEL1 Dependent Variable: PRICE Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T Hat Diag Cov INTERCEP LSQF Obs Residual Rstudent H Ratio Dffits Dfbetas Dfbetas Sum of Residuals 0 Sum of Squared Residuals Predicted Resid SS (Press) INTERCEP LSQF

35 4.5 Spesi kaatiotestit Outlierit kertovat aina, ettäa mallissa on jotain puutteellisuuksia. EpÄalineaarisuus, poisjäatetyt selittäajäat, tms. Jos poisjäatetyistäa muuttujista on havaintoja, niin ongelmaa ei ole merkitsevyyden testaamisessa. Joskus voidaan myäos käayttäaäa korvikemuuttujia, jos selittäajäastäa ei saada havaintoja. EpÄalineaarisuutta voidaan testata esimerkiksi ns. RESET-testillÄa (Ramsey, 1969). 1. Laske y:n regressio x:n suhteen 2. Regressoi y x:n, ^y 2 :n, ^y 3 :n ja ^y 4 :n suhteen ja testaa ovatko ^y:n potenssien regressiokertoimet nollia (F -testi). Esim. Hinta/Pinta-ala. SAS Kaskyjono: TITLE Testataan RESET-testill mahdollista epalineaarisuutta ; TITLE2 Testaamisessa voidaan kytt SAS AUTOREG proceduuria ; Proc Autoreg; model Price = LSQF / RESET; run; TULOKSET: Testataan RESET-testill mahdollista epalineaarisuutta Testaamisessa voidaan kayttaa SAS AUTOREG proceduuria Dependent Variable = PRICE Autoreg Procedure Ordinary Least Squares Estimates SSE DFE 12 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Ramsey s RESET Test Power RESET Prob>F Variable DF B Value Std Error t Ratio Approx Prob Intercept LSQF

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. Heteroskedastinen: Var(u i )= i kaikilla i. ei ole sama. Y i = + 1 X i1 + + p X ip + u i

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. Heteroskedastinen: Var(u i )= i kaikilla i. ei ole sama. Y i = + 1 X i1 + + p X ip + u i 4. Poikkeamat regressio-oletuksista Y i = + 1 X i1 + + p X ip + u i Oletukset: (1) E(u i )=0 (2) Var(u i )= u 2 i (3) Cov(u i,u j )=0 i = j (4) X-muuttujat eiväat saa olla toistensa lineaarikombinaatioita

Lisätiedot

4. Poikkeamat regressio-oletuksista

4. Poikkeamat regressio-oletuksista 4. Poikkeamat regressio-oletuksista Oletukset: Y i = α + β 1 X i1 + + β p X ip + u i (1) E(u i )=0 (2) Var(u i )=σu 2 i (3) Cov(u i,u j )=0 i = j (4) X-muuttujat eiväat saa olla toistensa lineaarikombinaatioita

Lisätiedot

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa 3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = + 1 X i1 +...+ p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i

Lisätiedot

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli: 2. Yhden selittäajäan lineaarinen regressiomalli Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. Son height (cm) 210 200 190 180 170 160

Lisätiedot

3. Useamman selittäajäan regressiomalli

3. Useamman selittäajäan regressiomalli 3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = α + β 1 X i1 +...+ β p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1)

Lisätiedot

Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika.

Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. 2. Yhden selittäajäan lineaarinen regressiomalli Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. 210 200 Son height (cm) 190 180 170 160

Lisätiedot

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli: 2. Yhden selittäajäan lineaarinen regressiomalli Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika. Son height (cm) 21 2 19 18 17 16 15 15

Lisätiedot

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i1 +...+ p X ip + u i

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i1 +...+ p X ip + u i 3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = + 1 X i1 +...+ p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i

Lisätiedot

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,

Lisätiedot

[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen

Lisätiedot

A250A0050 Ekonometrian perusteet Tentti

A250A0050 Ekonometrian perusteet Tentti A250A0050 Ekonometrian perusteet Tentti 28.9.2016 Tentissä ei saa käyttää laskinta. Tentistä saa max 80 pistettä. Hyväksytysti suoritetusta harjoitustyöstä saa max 20 pistettä. Huom. Merkitse vastauspaperin

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen

Lisätiedot

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501 Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,

Lisätiedot

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

VARIANSSIANALYYSI ANALYSIS OF VARIANCE VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.

Lisätiedot

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus,

Lisätiedot

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat: Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH 8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH Osa aikasarjoista kehittyy hyvin erityyppisesti erilaisissa tilanteissa. Esimerkiksi pörssikurssien epävakaus keskittyy usein lyhyisiin

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11

Lisätiedot

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä: Matriisi ja vektori laskennan ohjelmisto edellyttää

Lisätiedot

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo,

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking) 7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät

Lisätiedot

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

proc glm data = ex61; Title2 Aliasing Structure of the 2_IV^(5-1) design; model y = A B C D E /Aliasing; run; quit; Title "Exercises 6"; Data ex61; input A B C D E y @@; Label A = "Furnance Temperature" B = "Heating Time" C = "Transfer Time" D = "Hold Down Time" E = "Quench of Oil Temperature" y = "Free Height of Leaf

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ...

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 Tehtävä 2.1. Jatkoa tietokonetehtävälle 1.2: (a) Piirrä aineistosta pisteparvikuvaaja (KULUTUS, SAIRAST) ja siihen

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

MS-C2{04 Tilastollisen analyysin perusteet

MS-C2{04 Tilastollisen analyysin perusteet MS-C2{04 Tilastollisen analyysin perusteet Tentti 7.4.20 4A/irtanen Kirjoita selvästi jokaiseen koepaperiin alla mainitussa järjestyksessä: OHlprrn (i) (ii) MS-C204 TAP 7.4.204 opiskelijanumero + kirjain

Lisätiedot

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Menestyminen valintakokeissa ja todennäköisyyslaskussa 21.5.21 Menestyminen valintakokeissa ja todennäköisyyslaskussa Esa Pursiheimo 45761L 1 JOHDANTO...2 2 LÄHTÖTIEDOT JA OTOS...3 3 PÄÄSYKOETULOKSIEN YHTEISJAKAUMA...4 4 REGRESSIOANALYYSI...9 4.1 MALLI JA

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista? 1 Hydrobiologian tutkijaseminaari 20.3.2000 Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista? Jari Hänninen Turun yliopisto Saaristomeren

Lisätiedot

Frequencies. Frequency Table

Frequencies. Frequency Table GET FILE='C:\Documents and Settings\haukkala\My Documents\kvanti\kvanti_harjo'+ '_label.sav'. DATASET NAME DataSet WINDOW=FRONT. FREQUENCIES VARIABLES=koulv paino /ORDER= ANALYSIS. Frequencies [DataSet]

Lisätiedot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan tavallista kahden selittäjän regressiomallia TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa

Lisätiedot

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs) 9. Muita koeasetelmia 9.1 Hierarkiset asetelmat (Nested Designs) Tietyissä koetilanteissa yhden faktorin tasot ovat samanlaisia joskaan ei täysin identtisiä toisen faktorin eri tasoilla. Tällaista asetelmaa

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

2. Keskiarvojen vartailua

2. Keskiarvojen vartailua 2. Keskiarvojen vartailua Esimerkki 2.1: Oheiset mittaukset liittyvät Portland Sementin sidoslujuuteen (kgf/cm 2 ). Mittaukset y 1 ovat nykyisestä seoksesta ja mittaukset y 2 uudesta seoksesta, jossa lisäaineena

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

Perusnäkymä yksisuuntaiseen ANOVAaan

Perusnäkymä yksisuuntaiseen ANOVAaan Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Toimittaja 1 2 3 Erä 1 2 3 4 1 2 3 4 1 2 3 4 1 2 2 1 1 0 1 0 2 2 1 3 1 3 0 4 2 4 0 3 4 0 1 2 0 4 1 0 3 2 2 2 0 2 2 1

Toimittaja 1 2 3 Erä 1 2 3 4 1 2 3 4 1 2 3 4 1 2 2 1 1 0 1 0 2 2 1 3 1 3 0 4 2 4 0 3 4 0 1 2 0 4 1 0 3 2 2 2 0 2 2 1 Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Hierarkkiset koeasetelmat -faktorikokeet Vastepintamenetelmä Aritmeettinen keskiarvo, Estimaatti, Estimaattori, -testi, aktorikokeet,

Lisätiedot

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Tilastollisten menetelmien perusteet II TILTP3 Luentorunko Raija Leppälä 29. helmikuuta 2012 Sisältö 1 Johdanto 2 1.1 Jatkuvista jakaumista 2 1.1.1 Normaalijakauma 2 1.1.2 Studentin t-jakauma 3 1.2 Satunnaisotos,

Lisätiedot

Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus

Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus MS-C2128 Ennustaminen ja aikasarja-analyysi 5. harjoitukset / Tehtävät Kotitehtävät: 2 Aihe: ARMA-mallit Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tehtävä 5.1. Tarkastellaan

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiodiagnostiikka TKK (c) Ilkka Mellin (2004) 1 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ...

Lisätiedot

H 0 : R = b; jossa R (q dim ()) ja b (q 1) ovat tunnettuja ja r (R) = q. 2 J () =

H 0 : R = b; jossa R (q dim ()) ja b (q 1) ovat tunnettuja ja r (R) = q. 2 J () = Edellä esitetty voidaan yleistää tapaukseen, jossa yi matriisi toteuttaa lineaarisia rajoitteita. Jos rajoitteet koskevat parametrivektoria a on tilanne suoraviivainen. Tällöin voidaan tarkastella rajoitteita

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Harha mallin arvioinnissa

Harha mallin arvioinnissa Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiodiagnostiikka TKK (c) Ilkka Mellin (2007) 1 Regressiodiagnostiikka >> Yleinen lineaarinen malli ja regressiodiagnostiikka

Lisätiedot

4. Tietokoneharjoitukset

4. Tietokoneharjoitukset 4. Tietokoneharjoitukset Demotehtävät 4.1 Tarkastellaan seuraavia aikasarjoja. Tiedosto (.txt) Muuttuja Kuvaus Havaintoväli Aikasarjan pituus INTEL Intel_Close Intelin osakekurssi Pörssipäivä n = 20 Intel_Volume

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen

Lisätiedot

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I Lumipallo regressioanalyysista jokainen kirjoittaa lapulle yhden lauseen regressioanalyysista ja antaa sen seuraavalle Logistinen regressioanalyysi Y250. Kvantitatiiviset menetelmät (6 op) Hanna Wass tutkijatohtori

Lisätiedot

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,

Lisätiedot

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa: Mat-.03 Koesuunnittelu ja tilastolliset mallit Mat-.03 Koesuunnittelu ja tilastolliset mallit / Ratkaisut Aiheet: Avainsanat: Kaksisuuntainen varianssianalsi Aritmeettinen keskiarvo, Estimointi, F-testi,

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. 7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät

Lisätiedot

Tilastollisen tutkimuksen läahtäokohtana on havaintoaineisto,

Tilastollisen tutkimuksen läahtäokohtana on havaintoaineisto, II Havaintoaineisto ja sen kuvailu Tilastollisen tutkimuksen läahtäokohtana on havaintoaineisto, josta tavoitteena on johtaa tilastollisen päaäattelyn keinoin yleistäaviäa tuloksia esimerkiksi päaäatäoksentekoa

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

4. Tietokoneharjoitukset

4. Tietokoneharjoitukset 4. Tietokoneharjoitukset Demotehtävät 4.1 Tarkastellaan seuraavia aikasarjoja. Tiedosto (.txt) Muuttuja Kuvaus Havaintoväli Aikasarjan pituus INTEL Intel_Close Intelin osakekurssi Pörssipäivä n = 20 Intel_Volume

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle] Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Mat Tilastollisen analyysin perusteet

Mat Tilastollisen analyysin perusteet / Mat-2.21 04 Tilastollisen analyysin perusteet Tentti 24.5.2013/Virtanen Kirjoita selvasti jokaiseen koepaperiin alia mainitussa jarjestyksessa: Mat-2.2104 Tap 24.5.2013 opiskelijanumero kirjain TEKSTATEN

Lisätiedot