Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662 134, 51 SS 3 = (n 3 1)s 2 3 = (10 1)4, 5012 182, 33 SSW = SS 1 + SS 2 + SS 3 638, 36 SSB = 10(251, 28 260, 76) 2 + 10(261, 06 260, 76) 2 + 10(269, 95 260, 76) 2 1744, 17 MSB = SSB/(I 1) = 1744, 17/(3 1) 872, 08 MSW = SSW/(n I) = 638, 36/(30 3) 23, 64 F = MSB/MSE = 872, 08/23, 64 36, 87 F 0.01;2,27 = 5, 49 1

Esim. 2.1.3. Menetelmä 1: 6, 4, 6, 4 y 1 = 5, n 1 = n 2 = n 3 = 4, Menetelmä 2: 14, 9, 10, 11 y 2 = 11, y = 8, n = 12 Menetelmä 3: 5, 11, 8, 8 y 3 = 8 n SST = (y i y) 2 i=1 = (6 8) 2 + + (8 8) 2 = 108 3 SSB = n i (y i y) 2 i=1 = 4(5 8) 2 + 4(11 8) 2 + 4(8 8) 2 = 72 3 n i SSW = (y ij y i ) 2 i=1 j=1 = (6 5) 2 + (4 5) 2 + (6 5) 2 + (4 5) 2 + (14 11) 2 + (9 11) 2 + (10 11) 2 + (11 11) 2 + (5 8) 2 + (11 8) 2 + (8 8) 2 + (8 8) 2 = 36 MSB = SSB/(I 1) = 72/(3 1) = 36 MSW = SSW/(n I) = 36/(12 3) = 4 F = MSB/MSE = 36/4 = 9 F 0.01;2,9 = 8.02 Figure 1: Esimerkin 2.1.3. tulos SPSS-ohjelmalla 2

Figure 1: Esimerkin 2.1.4. tulos SPSS-ohjelmalla 1

Esimerkki 2.1.6. Tampereella myynnissä olleita kerrostalohuoneistoja (Aamulehti 31.10.99). Hinnat euroina, aineisto http://mtl.uta.fi/tilasto/tiltp3/kevat2003/aineistoja/asunnot.dat a) Asuntojen neliöhinnat keskustassa ja ei-keskustassa (t-testi ja 1-VA) 2200 2000 1800 1600 1400 1200 NELIOHIN 1000 800 600 N = 26 ei 30 kyll Onko asunto keskustassa? NELIOHIN Onko asunto keskustassa? ei kyll Group Statistics Std. Error N Mean Std. Deviation Mean 26 1219.4613 284.53624 55.80215 30 1616.8159 214.98093 39.24997 Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means NELIOHIN Equal variances assumed Equal variances not assumed F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference 2.609.112-5.941 54.000-397.3546 66.88023-5.824 46.124.000-397.3546 68.22345 ANOVA NELIOHIN Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 2199192 1 2199191.685 35.299.000 3364309 54 62302.019 5563501 55

b) Asuntojen neliöhinnat keskusta/länsi/itä (1-VA) 2200 2000 1800 1600 1400 1200 NELIOHIN 1000 800 600 N = 30 6 20 keskusta lansi it Asunnon sijainti Descriptives NELIOHIN keskusta lansi it Total 95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 30 1616.8159 214.98093 39.24997 1536.5407 1697.0911 1131.06 1999.57 6 1141.9753 231.54496 94.52783 898.9838 1384.9669 840.94 1387.00 20 1242.7071 299.92321 67.06487 1102.3387 1383.0755 838.54 2014.27 56 1432.3299 318.04804 42.50096 1347.1560 1517.5037 838.54 2014.27 Test of Homogeneity of Variances NELIOHIN Levene Statistic df1 df2 Sig. 1.599 2 53.212 ANOVA NELIOHIN Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 2246024 2 1123011.756 17.941.000 3317477 53 62593.909 5563501 55

Multiple Comparisons Dependent Variable: NELIOHIN Bonferroni (I) Asunnon sijainti keskusta lansi it (J) Asunnon sijainti lansi it keskusta it keskusta lansi *. The mean difference is significant at the.05 level. Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound 474.8406* 111.88736.000 198.2167 751.4646 374.1088* 72.22298.000 195.5488 552.6688-474.8406* 111.88736.000-751.4646-198.2167-100.7318 116.45606 1.000-388.6511 187.1875-374.1088* 72.22298.000-552.6688-195.5488 100.7318 116.45606 1.000-187.1875 388.6511

Esim. 2.2.2. Aineisto http://mtl.uta.fi/tilasto/tiltp3/kevat2004/aineistoja/opetus.sav Ehdolliset keskiarvot Report PISTEET Sukupuoli Nainen Mies Opetustapa Tavallinen TV Total Tavallinen TV Total Mean N Std. Deviation 14,4583 12 11,82505 17,0583 12 8,44915 15,7583 24 10,13813 13,2471 17 15,20671 17,1000 37 11,66660 15,8870 54 12,86560 Kaksisuuntainen varianssianalyysi Dependent Variable: PISTE Source Corrected Model Intercept SUKUPUOL OPETUST SUKUPUOL * OPETUST Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 213,754 a 3 71,251,483,695 15155,879 1 15155,879 102,674,000 5,417 1 5,417,037,849 164,901 1 164,901 1,117,294 6,217 1 6,217,042,838 10923,261 74 147,612 30726,030 78 11137,014 77 a. R Squared =,019 (Adjusted R Squared = -,021) Yksisuuntainen varianssianalyysi, selittäjänä opetustapa ANOVA PISTE Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 203,417 1 203,417 1,414,238 10933,597 76 143,863 11137,014 77 Yksisuuntainen varianssianalyysi, selittäjänä sukupuoli ANOVA PISTE Between Groups Within Groups Total Sum of Squares df Mean Square F Sig.,275 1,275,002,966 11136,739 76 146,536 11137,014 77

Esim. 3.1.2. Lasketaan χ 2 -yhteensopivuustestisuure. f i e i 287 0,8 400 =320 49 0,1 400 =40 30 0,06 400 =24 34 0,004 400 =16 400 H 0 : ei muutosta. 4 χ 2 (f i e i ) 2 = i=1 e i (287 320)2 (49 40)2 = + 320 40 27, 58 > χ 2 0,05;3 = 12, 84 + (30 24)2 24 + (34 16)2 16 Voidaan siis päätellä, että on tapahtunut muutosta.

Esim. 3.1.3. H 0 : otos peräisin N(50, 100):sta Luokan(40, 50) teoreettinen frekvenssi saadaan laskemalla H 0 :n mukaisessa tilanteessa vastaava todennäköisyys P(40 X 50) = Φ( joten e i = 0, 3413 1000 341, 3 50 50 40 50 ) Φ( ) = = 0, 3413 10 10

Esim. 3.1.4. H 0 : otos peräisin T asd(1, 6):sta Jos H 0 on tosi, niin kaikkia silmälukuja tulisi olla saman verran eli 122/6 = 20, 3. χ 2 = 6 (f i e i ) 2 i=1 e i (8 20, 3)2 (39 20, 3)2 = + + 20, 3 20, 3 40, 6 > χ 2 0,005;5 = 16, 75 joten nopanheitto ei ole tapahtunut satunnaisesti.

Esim. 3.1.5. Yhteensopivuustestistä, painoindeksi Tutkitaan voisiko painoindeksi olla normaalisti jakautunut. H 0 : otos peräisin N(25,58;4, 66 2 ) Lasketaan χ 2 -yhteensopivuustestisuure. Painoindeksi frekv. odotettu frek. alle 20,1 9 11,5 20,1-21,4 15 6,3 21,4-25,5 26 30,0 25,5-28,5 23 23,6 28,5-32,2 15 18,1 eli 32,2 9 7,5 97 97,0 Esimerkiksi 1. luokan teoreettinen frekvenssi saadaan laskemalla H 0 :n mukaisessa tilanteessa vastaava todennäköisyys P(X 20,1) = Φ( joten e 1 = 0,119 97 11,5 20, 1 25,58 ) = 1 Φ(1,18) = 0,119 4,66 χ 2 = 6 (f i e i ) 2 i=1 e i = (9 11, 5)2 11, 5 + + (9 7,5)2 7, 5 13,94 Koska on estimoitu 2 parametria (odotusarvo ja varianssi), niin vapausasteet ovat 6 2 1 = 3. Koska χ 2 0.005;3 = 12,84 ja χ 2 0.001;3 = 16,27 niin 0,001 < p < 0,005. Päättelemme, että otos ei ole peräisin normaalijakaumasta. 1

Figure 1: Esimerkin 3.1.0. painoindeksi jakauma ja tunnuslukuja. 2

Esim. 3.2.1. Onko pääaineella vaikutusta siiten, kuinka vaikeana piti opintojaksoa? kansant mat. ja til. tko vaikea (1-2) 23 (16,5) 15 (21,4) 13 (13.,2) sopiva (3) 6 (10,0) 15 (13,0) 10 (8,0) helppo (4-5) 1 (3,5) 9 (4,6) 1 (2,8) Koska odotetuista frekvensseistä 33 % on alle 5, eivät testin oletukset ole voimassa. Muodostetaan uusi ristiintaulukkoa: kansant mat. ja til. tko vaikea (1-2) 23 (16,5) 15 (21,4) 13 (13,2) sopiva tai helppo (3-5) 7 (13,5) 24 (17,6) 11 (10,8) Lasketaan χ 2 -riippumattomuuustestisuure. χ 2 = (23 16, 5)2 16, 5 + + (11 10, 8)2 10, 8 9, 94 > χ 2 0,01;2 = 9, 21 H 0 : ei riippuvuutta, hylätään 1%:n riskitasolla (mutta ei 0,5%). Voidaan päätellä, että eri koulutusohjelmien opiskelijoiden mielipiteet kurssin vaikeudesta ovat erilaiset. Kansantalousteiteilijöistä 76,7 % piti kurssia vaikeana, kun taas vastaava luku matematiikan ja tilastotieteen koulutusohjelmassa oli 38,5 %.

Esim. 3.2.2. Erään tilastotieteen tentin tulos pääaineen mukaan (odotetut frekvenssit suluissa). kansant mat. ja til. tko yht. Hylätty 13 (14,8) 22 (22,0) 14 (12,2) 49 Hyväksytty 26 (24,2) 36 (36,0) 18 (19,8) 80 yht. 39 58 32 129 Lasketaan χ 2 -riippumattomuuustestisuure. χ 2 = (13 14, 8)2 14, 8 + + (18 19, 88)2 19, 8 0, 81 < χ 2 0,05;2 = 5, 99 H 0 : ei riippuvuutta, hyväksytään.

Esim. 3.2.3. Erään tilastotieteen tentin tulos, esimerkki nelikentästä. Miehet Naiset Yhteensä Hylätty 34 15 49 Hyväksytty 59 23 82 Yht. 93 38 131 χ 2 = (34 23 59 15)2 131 93 38 49 82 0, 09787 = 0, 31284 2 = z 2 ks. TILTP2 kaava (5.7). p 2(1 Φ(0, 31284) = 2(1 0, 6217) = 0, 7566

Esim. 4.1.4. x i y i x i y i x 2 i ŷ i e i = y i ŷ i 100 40 4000 10000 39,64 0,36 200 45 9000 40000 46,43-1,43 300 50 15000 90000 53,21-3,21 400 65 26000 160000 60,00 5,00 500 70 35000 250000 66,79 3,21 600 70 42000 360000 73,57-3,57 700 80 756000 390000 80,36-0,36 2800 420 187000 1400000 ȳ = 60 x = 400 xi y i ( x i )( y i )/7 ˆβ 1 = x 2 i ( 187000 2800 420/7 = x i ) 2 /7 1400000 2800 2 /7 ˆβ 0 = ȳ ˆβ 1 x = 420/7 0, 06786 2800/7 32, 857 0, 06786 ŷ i = ˆβ 0 + ˆβ 1 x i = 32, 857 + 0, 06786x i, i = 1,... 7, e i = y i ŷ i = y i (32, 857 + 0, 06786x i ), i = 1,... 7, SSE = e 2 i = (y i ŷ i ) 2 60, 7 SST = (y i ȳ) 2 = 1350, 0 SSR = (ŷ i ȳ) 2 1289, 286 R 2 = SSR/SST = 0, 955, MSR = SSR/1, MSE = SSE/(7 2) = 12, 143 F = MSR/MSE = 106, 176 > F 0,01;1,5 = 16, 26

Esimerkkejä regressioanalyysistä Esim. 4.1.5. Sadon (y) riippuvuus lannoitemäärästä (x), aineisto esimerkissä 4.1.4. 90 80 70 y 60 50 40 30 0 200 400 600 800 x Pisteparven perusteella lineaarista riippuvuutta. Suoritetaan regressioanalyysi selittäen satoa lannoitemäärällä ja saadaan seuraavat tulokset.: Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.977 a.955.946 3.48466 a. Predictors: (Constant), X Selitysprosentti 100x(R Square) = 95,5 %. Yhden selittäjän tilanteessa sama kuin 100r 2 Model 1 Regression Residual Total a. Predictors: (Constant), X b. Dependent Variable: Y ANOVA b Sum of Squares df Mean Square F Sig. 1289.286 1 1289.286 106.176.000 a 60.714 5 12.143 1350.000 6 Taulukossa neliösummat ja niiden vapausasteet, keskineliösummat ja F- testisuure (H 0 : β 1 = 0). Ks. laskukaavat kaavakokoelmassa http://mtl.uta.fi/tilasto/tiltp3/kevat2003/kaavat2.pdf, kaavat (3.8), (3.12), (3.13), (3.15)

Model 1 (Constant) X a. Dependent Variable: Y Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. 32.857 2.945 11.157.000 6.786E-02.007.977 10.304.000 Estimoitu lisäaineen regressiokerroin 0,06786 ja vakiokerroin 32,857. Lisäaine on merkittävä selittäjä, koska testattaessa hypoteesia H 0 : β 1 = 0 päädytään sen hylkäämiseen (joko F-testin tai t-testin (t=10,304) perusteella). x y estimoitu y residuaalit 100 40 39.64.36 200 45 46.43-1.43 300 50 53.21-3.21 400 65 60.00 5.00 500 70 66.79 3.21 600 70 73.57-3.57 700 80 80.36 -.36 Esim. 4.1.8. a) Lapsen syntymäpainon riippuvuus pituudesta. 6000 5000 4000 3000 PAINO 2000 42 44 46 48 50 52 54 56 PITUUS Paino näyttäisi riippuvan lineaarisesti pituudesta, r = 0.72. Ks. korrelaatiokertoimen testaus kaavakokoelmassa http://mtl.uta.fi/tilasto/tiltp3/kevat2003/kaavat2.pdf, kaava (1.4).

PAINO PITUUS Correlations Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level PAINO PITUUS 1.720**..000 120 120.720** 1.000. 120 120 Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.720 a.518.514 339.132 a. Predictors: (Constant), PITUUS Selitysprosentti 100x(R Square) = 51,8 %. Yhden selittäjän tilanteessa sama kuin 100r 2 =100x0,72 2 Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 14573162 1 14573162.20 126.711.000 a 13571250 118 115010.596 28144413 119 a. Predictors: (Constant), PITUUS b. Dependent Variable: PAINO Model 1 (Constant) PITUUS a. Dependent Variable: PAINO Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. -5211.574 779.297-6.688.000 173.142 15.381.720 11.257.000 Estimoitu pituuden regressiokerroin 173,142 ja vakiokerroin 5211,574. Pituus on merkittävä selittäjä, koska testattaessa hypoteesia H 0 : β 1 = 0 päädytään sen hylkäämiseen (joko F-testin (F=126,711) tai t-testin (t=11,257) perusteella). Yhden sentin lisäys pituudessa kohottaa painoa keskimäärin 173,142 g.

b) Veden pehmeysarvon riippuvuus lisäaineesta Harj. 3 teht. 8. Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.909 a.826.801.33794 a. Predictors: (Constant), Lisäaine Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 3.796 1 3.796 33.241.001 a.799 7.114 4.596 8 a. Predictors: (Constant), Lisäaine b. Dependent Variable: Veden pehmeys Model 1 (Constant) Lisäaine Unstandardized Coefficients a. Dependent Variable: Veden pehmeys Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. 8.118.246 33.014.000.354.061.909 5.765.001 c) Matematiikan ja tilastotieteen valintakoe 2001, http://www.uta.fi/opiskelu/valintakoekysymykset/2001/ratk.pdf tehtävä 2. Mittayksikön vaikutus kertoimiin Malli Y = β 0 + β 1 x + ε. ˆ β 1 = x i y i ( x i ) y i ( x i ) 2 / n x i 2 ( )/n = SS xy SS x = r xy s y s x Jos yhden selittäjän regressioanalyysissä tehdään muunnokset z = ax + b ja w = cy + d, niin r zw = r xy,jos ac>0 ja r zw = - r xy jos ac< 0, s z = a s x ja s w = c s y. Regressiokerroin on siis riippuvainen muuttujien mittayksiköistä. Kokeile esim. SAID IT aineistossa muuttamalla esimerkin 4.1.8 a) mittayksiköt kiloiksi ja metreiksi.

Esim. 4.1.8. Esimerkin 4.1.4 tilanteessa korrelaatiokertoimen testaus. t = H 0 : ρ = 0 r (1 r2 )/(n 2) t n 2, kun H 0 tosi Lasketaan aluksi korrelaatiokerroin ja sitten testisuure. r = SP xy / xi y i ( x i )( y i )/7 SS x SS y = ( x 2 i ( x i ) 2 /7)( yi 2 ( y i ) 2 /7) = t = 187000 2800 420/7 0, 977 (1400000 28002 /7)(26550 420 2 /7) 0, 977 (1 0, 9772 )/(7 2) 10, 304 > t 0,005;5 = 4, 032

Esimerkki 4.3.1. Regressioanalyysi, logaritmointi ja residuaalitarkasteluja. Aineisto Draper & Smith, Applied Regression Analysis (1981), s. 191, myös http://www.uta.fi/%7estrale/tiltp3/aineistoja.html 5000 4000 Liikennekuolemat (y) 3000 2000 1000 0 0 100 300 500 700 900 Liikennemäärä (x) Linear Fit Linear Fit Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,913743 0,911946 263,896 926,76 50 Analysis of Variance Source Model Error C Total DF 1 48 49 Sum of Squares 35410709 3342772 38753481 Mean Square 35410709 69641,08 F Ratio 508,4744 Prob>F 0,0000 Parameter Estimates Term Intercept Liikennemäärä (x) Estimate 107,02891 4,306215 Std Error 52,09934 0,190968 t Ratio 2,05 22,55 Prob> t 0,0454 0,0000

Tässä malli näyttää ihan hyvältä, jos tarkastellaan asiaa parametrien testauksen perusteella. Liikennemäärän kerroin on merkittävä ja selitysprosenttikin korkea 91 %. Mallin parametrien testauksen lisäksi mallin sopivuutta tutkitaan myös residuaalien avulla. Tällöin tutkitaan mallin riittävyyttä ja oletusten voimassa olemista. Mallissa Y = β 0 + β 1 x + ε tehdään oletukset, että ε i ~ N(0, σ 2 ) sekä ε i :t toisistaan riippumattomia. Tehdään siis normaalijakaumaoletus, riippumattomuusoletus sekä vakiovarianssisuusoletus ε:sta. Jos malli oikea, niin residuaalien, jotka ovat ε:n estimaatteja, tulisi käyttäytyä ε:n oletusten mukaisesti. Käyttäytymistä voidaan tutkia esim. piirtämällä pisteparvi residuaaleista ja estimoiduista y:n arvoista. Tässä esimerkissä pisteparvi näyttää hajaantuvan y:n estimoitujen arvojen kasvaessa. 750 Residuals Liikennekuolemat (y) 500 250 0-250 -500-750 0 5001000 2000 3000 4000 Predicted Liikennekuolemat (y) Hajaantuminen on merkki siitä, että ei voida olettaa jokaisella ε i :lla olevan samaa varianssia. Sama asia näkyy kyllä jo alkuperäisessä pisteparvessa, joka ihan selvästi hajoaa x:n kasvaessa. Nyt voidaan menetellä siten, että logaritmoidaan molemmat muuttujat ja suoritetaan regressioanalyysi logaritmoiduilla arvoilla. Näin saadaan seuraavat tulokset:

8 7 log(y) 6 5 4 2 3 4 5 6 7 log(x) Linear Fit Linear Fit Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,909514 0,907629 0,307561 6,397732 50 Analysis of Variance Source Model Error C Total DF 1 48 49 Sum of Squares 45,638716 4,540502 50,179218 Mean Square 45,6387 0,0946 F Ratio 482,4705 Prob>F 0,0000 Parameter Estimates Term Intercept log(x) Estimate 1,9036552 0,9410386 Std Error 0,209172 0,042842 t Ratio 9,10 21,97 Prob> t 0,0000 0,0000 Tuloksista nähdään, että mallin parametrit ovat merkittäviä ja selitysprosenttikin 91. Tässä mallissa residuaalit (alla) käyttäytyvät eri tavalla kuin edellä. Voidaan ajatella, että pisteparvi on x akselin suuntainen nauha, joka kertoisi oletusten

voimassa olemisesta sekä mallin riittävyydestä. Jos pisteparvessa olisi havaittavissa jotain muuta kuin nauhanomaista käyttäytymistä, niin se kertoisi, että tehdyt oletuksen malliin liittyen eivät pidä paikkaansa. 0,5 Residuals log(y) 0,0-0,5-1,0 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Predicted log(y) Katsotaan vielä residuaalien jakauma, joka pitäisi olla normaalinen. Residuals log(y) -1,0-0,5 0,0 0,5 Quantiles Moments Mean Std Dev Std Err Mean upper 95% Mean lower 95% Mean N Sum Wgts -0,00000 0,30441 0,04305 0,08651-0,08651 50,00000 50,00000 Jos tässä testataan normaalisuutta, niin päädytään kyllä tulokseen, että otos ei ole peräisin normaalijakaumasta!

Esimerkki 4.3.1. Autoregressio. Aineisto Newbold, P., Statistics for Business and Economics. Prentice Hall, 1995 s. 588. Twenty-eight quarterly observations from the United Kingdom on quantity of money in million pounds (y), income in million pounds (x 1 ) and the local authority interest rate (x 2 ) (aineisto myös http://www.uta.fi/%7estrale/tiltp3/aineistoja.html) t y t y t-1 x 1 x 2 1 17602,5 14744 0,0805 2 17746,9 17602,5 14516 0,0828 3 17769 17746,9 14815 0,0781 4 17909,1 17769 14900 0,0738 5 17855 17909,1 14829 0,0798 6 17470,8 17855 14900 0,0914 7 17352,6 17470,8 14980 0,0957 8 17481,2 17352,6 15085 0,0922 9 17240,2 17481,2 14973 0,091 10 17467,7 17240,2 15359 0,0813 11 17619,8 17467,7 15362 0,0754 12 17683,1 17619,8 15540 0,0718 13 17954,9 17683,1 15404 0,0753 14 17734,9 17954,9 15649 0,0666 15 17965,1 17734,9 15950 0,0582 16 18651,9 17965,1 15957 0,0482 17 19352,7 18651,9 16031 0,048 18 20444,1 19352,7 16295 0,0513 19 20835,3 20444,1 16151 0,0762 20 21827,4 20835,3 16803 0,0791 21 22375,2 21827,4 17528 0,1009 22 23217 22375,2 17301 0,091 23 24011,6 23217 17503 0,1173 24 24975,2 24011,6 17455 0,1411 25 24736,3 24975,2 16620 0,1566 26 23407,3 24736,3 17779 0,1333 27 23560,7 23407,3 18040 0,1313 28 23421,2 23560,7 17827 0,1263 Estimoidaan malli Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 y t-1 + ε.

Response: y Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,975982 0,972849 455,7342 19928,38 27 Parameter Estimates Term Intercept x1 x2 y(t-1) Estimate -2297,819 0,1573723-14136,30 1,0634212 Std Error 1875,241 0,226106 6351,172 0,126345 t Ratio -1,23 0,70-2,23 8,42 Prob> t 0,2328 0,4934 0,0361 0,0000 Analysis of Variance Source Model Error C Total DF 3 23 26 Sum of Squares 194109881 4776955 198886836 Mean Square 64703294 207693,7 F Ratio 311,5323 Prob>F 0,0000 Nyt x 1 näyttää olevan tarpeeton (t = 0,70 ja p = 0,4934), joten jätetään tämä selittäjä pois mallista ja estimoidaan uusi malli Y = β 0 + β 1 x 2 + β 2 y t-1 + ε, joka tuottaa 97,5 %:n selitysasteen ja mallin kertoimet ovat merkittäviä vakiokerrointa lukuun ottamatta (p arvot 0,1574; 0,0035; 0,000). Lisäksi H 0 : β 1 = β 2 = 0, hylätään (F = 477,3098; p = 0,000). Malli on siis näiltä osin kaikin puolin kunnossa. Response: y Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,975476 0,973432 450,8126 19928,38 27 Parameter Estimates Term Intercept x2 y(t-1) Estimate -1106,681-16666,87 1,1426647 Std Error 758,3441 5151,272 0,054183 t Ratio -1,46-3,24 21,09 Prob> t 0,1574 0,0035 0,0000

Analysis of Variance Source Model Error C Total DF 2 24 26 Sum of Squares 194009268 4877568 198886836 Mean Square 97004634 203232 F Ratio 477,3098 Prob>F 0,0000 Tutkitaan vielä residuaalien käyttäytymistä. 1000 500 0 Residual -500-1000 -1500-2000 17000 19000 21000 23000 25000 y Predicted Pisteparvi antaa kyllä viitteitä suuntaan, että vakiovarianssisuusoletus ei olisi ehkä voimassa. Toisaalta havaintoja on kovin vähän, joten pidemmän aikasarjan käyttö voisi olla jatkotoimenpiteenä aiheellinen.

Esimerkki 4.3.1. Dummy -muuttuja selittäjänä regressioanalyysissä. Palkan riippuvuutta palveluvuosista ja sukupuolesta. Aineisto: Younger (1985), A First Course in Linear Regression. 50 45 40 Salary 35 30 25 20 15 0 5 10 15 20 25 30 Years Salary Years Sex (1=mies) 35 15 1 27 17 0 45 25 1 22 13 0 25 2 1 30 10 1 37 17 1 25 17 0 17 1 0 28 4 1 43 25 1 25 15 0 22 1 1 28 6 1 29 20 0 19 3 0 29 21 0 38 19 1 19 5 0 22 1 1 39 20 1 40 22 1 21 10 0 28 7 1 30 8 1 Palkan näyttää siis riippuvan paitsi palveluvuosista niin myös sukupuolesta. Voitaisiin tehdä yhden selittäjän regressioanalyysit miehillä ja naisilla erikseen. Yksi tapa olisi myös estimoida kahden selittäjän malli Salary = β 0 + β 1 Years + β 2 Sex + ε, jolloin saadaan estimoiduksi kaksi samansuuntaista suoraa

E(Salary) = β 0 + β 1 Years (Naiset, Sex=0), E(Salary) = β 0 + β 1 Years + β 2 (Miehet Sex=1). Estimointitulokset: Response: Salary Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,970068 0,967347 1,412216 28,92 25 Parameter Estimates Term Intercept Years Sex Estimate 13,970213 0,7647366 9,4176491 Std Error 0,627120 0,036088 0,576540 t Ratio 22,28 21,19 16,33 Prob> t 0,0000 0,0000 0,0000 Analysis of Variance Source Model Error C Total DF 2 22 24 Sum of Squares 1421,9642 43,8758 1465,8400 Mean Square 710,982 1,994 F Ratio 356,4975 Prob>F 0,0000 Estimoinnin tulos: Naiset : Salary (estimoitu) = 13,970213+0,7647366xYears Miehet: Salary (estimoitu) = 13,970213+0,7647366xYears + 9,4176491 Testaukset tehdään tavanomaiseen tapaan. Selitysprosentti 97.

4.4. Varianssianalyysimalli Oletukset yksisuuntaisessa varianssianalyysissä: Y 11,Y 12,...,Y 1n1 satunnaisotos N(µ 1,σ 2 ):sta, Y 21,Y 22,...,Y 2n2 satunnaisotos N(µ 2,σ 2 ):sta,... Y I1,Y I2,...,Y InI satunnaisotos N(µ I,σ 2 ):sta. Halutaan tutkia ovatko jakaumien odotusarvot yhtä suuret, jolloin H 0 : µ 1 = µ 2 =... = µ I H 1 : kaikki odotusarvot eivät ole samoja. Oletuksista seuraa, että varianssianalyysi voidaan ajatella mallina Y ij = µ i + ε ij, missä ε ij ~ N(0,,σ 2 ) µ 1, µ 2,..., µ I ovat mallin parametrit Vaihtoehtoisesti myös Y ij = µ + τ i + ε ij