Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Samankaltaiset tiedostot

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

voidaan hylätä, pienempi vai suurempi kuin 1 %?

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

MTTTP1, luento KERTAUSTA

&idx=1&uilang=fi&lang=fi&lvv=2017

MTTTP1, luento KERTAUSTA

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

4.2 Useampi selittävä muuttuja (kertausta)

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

MTTTP1, luento KERTAUSTA

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Perusnäkymä yksisuuntaiseen ANOVAaan

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Kvantitatiivinen genetiikka moniste s. 56

Frequencies. Frequency Table

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko, kevät 2004

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Tampereen yliopisto Matematiikan, tilastotieteen ja filosofian laitos Raija Leppälä puh , sähköposti

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

SPSS-perusteet. Sisältö

Teema 10: Regressio- ja varianssianalyysi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Harjoittele tulkintoja

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla

MTTTP5, luento Luottamusväli, määritelmä

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Väliestimointi (jatkoa) Heliövaara 1

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Ohjeita kvantitatiiviseen tutkimukseen

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

HAVAITUT JA ODOTETUT FREKVENSSIT

Todennäköisyyden ominaisuuksia

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

pisteet Frekvenssi frekvenssi Yhteensä

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Teema 9: Tilastollinen merkitsevyystestaus

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i p X ip + u i

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

805306A Johdatus monimuuttujamenetelmiin, 5 op

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Estimointi. Otantajakauma

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Yleistetyistä lineaarisista malleista

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Korrelaatiokertoinen määrittely 165

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Sovellettu todennäköisyyslaskenta B

Harjoitus 7: NCSS - Tilastollinen analyysi

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

2. Keskiarvojen vartailua

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

A250A0050 Ekonometrian perusteet Tentti

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Sovellettu todennäköisyyslaskenta B

1 Johdatus varianssianalyysiin

Opetus talteen ja jakoon oppilaille. Kokemuksia Aurajoen lukion tuotantoluokan toiminnasta Anna Saivosalmi

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus regressioanalyysiin. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Opiskelija viipymisaika pistemäärä

Estimointi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

/1. MTTTP5, luento Kertausta. Olk. X 1, X 2,..., X n on satunnaisotos N(µ, ):sta, missä tunnettu. Jos H 0 on tosi, niin

Transkriptio:

Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662 134, 51 SS 3 = (n 3 1)s 2 3 = (10 1)4, 5012 182, 33 SSW = SS 1 + SS 2 + SS 3 638, 36 SSB = 10(251, 28 260, 76) 2 + 10(261, 06 260, 76) 2 + 10(269, 95 260, 76) 2 1744, 17 MSB = SSB/(I 1) = 1744, 17/(3 1) 872, 08 MSW = SSW/(n I) = 638, 36/(30 3) 23, 64 F = MSB/MSE = 872, 08/23, 64 36, 87 F 0.01;2,27 = 5, 49 1

Esim. 2.1.3. Menetelmä 1: 6, 4, 6, 4 y 1 = 5, n 1 = n 2 = n 3 = 4, Menetelmä 2: 14, 9, 10, 11 y 2 = 11, y = 8, n = 12 Menetelmä 3: 5, 11, 8, 8 y 3 = 8 n SST = (y i y) 2 i=1 = (6 8) 2 + + (8 8) 2 = 108 3 SSB = n i (y i y) 2 i=1 = 4(5 8) 2 + 4(11 8) 2 + 4(8 8) 2 = 72 3 n i SSW = (y ij y i ) 2 i=1 j=1 = (6 5) 2 + (4 5) 2 + (6 5) 2 + (4 5) 2 + (14 11) 2 + (9 11) 2 + (10 11) 2 + (11 11) 2 + (5 8) 2 + (11 8) 2 + (8 8) 2 + (8 8) 2 = 36 MSB = SSB/(I 1) = 72/(3 1) = 36 MSW = SSW/(n I) = 36/(12 3) = 4 F = MSB/MSE = 36/4 = 9 F 0.01;2,9 = 8.02 Figure 1: Esimerkin 2.1.3. tulos SPSS-ohjelmalla 2

Figure 1: Esimerkin 2.1.4. tulos SPSS-ohjelmalla 1

Esimerkki 2.1.6. Tampereella myynnissä olleita kerrostalohuoneistoja (Aamulehti 31.10.99). Hinnat euroina, aineisto http://mtl.uta.fi/tilasto/tiltp3/kevat2003/aineistoja/asunnot.dat a) Asuntojen neliöhinnat keskustassa ja ei-keskustassa (t-testi ja 1-VA) 2200 2000 1800 1600 1400 1200 NELIOHIN 1000 800 600 N = 26 ei 30 kyll Onko asunto keskustassa? NELIOHIN Onko asunto keskustassa? ei kyll Group Statistics Std. Error N Mean Std. Deviation Mean 26 1219.4613 284.53624 55.80215 30 1616.8159 214.98093 39.24997 Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means NELIOHIN Equal variances assumed Equal variances not assumed F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference 2.609.112-5.941 54.000-397.3546 66.88023-5.824 46.124.000-397.3546 68.22345 ANOVA NELIOHIN Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 2199192 1 2199191.685 35.299.000 3364309 54 62302.019 5563501 55

b) Asuntojen neliöhinnat keskusta/länsi/itä (1-VA) 2200 2000 1800 1600 1400 1200 NELIOHIN 1000 800 600 N = 30 6 20 keskusta lansi it Asunnon sijainti Descriptives NELIOHIN keskusta lansi it Total 95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 30 1616.8159 214.98093 39.24997 1536.5407 1697.0911 1131.06 1999.57 6 1141.9753 231.54496 94.52783 898.9838 1384.9669 840.94 1387.00 20 1242.7071 299.92321 67.06487 1102.3387 1383.0755 838.54 2014.27 56 1432.3299 318.04804 42.50096 1347.1560 1517.5037 838.54 2014.27 Test of Homogeneity of Variances NELIOHIN Levene Statistic df1 df2 Sig. 1.599 2 53.212 ANOVA NELIOHIN Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 2246024 2 1123011.756 17.941.000 3317477 53 62593.909 5563501 55

Multiple Comparisons Dependent Variable: NELIOHIN Bonferroni (I) Asunnon sijainti keskusta lansi it (J) Asunnon sijainti lansi it keskusta it keskusta lansi *. The mean difference is significant at the.05 level. Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound 474.8406* 111.88736.000 198.2167 751.4646 374.1088* 72.22298.000 195.5488 552.6688-474.8406* 111.88736.000-751.4646-198.2167-100.7318 116.45606 1.000-388.6511 187.1875-374.1088* 72.22298.000-552.6688-195.5488 100.7318 116.45606 1.000-187.1875 388.6511

Esim. 2.2.2. Aineisto http://mtl.uta.fi/tilasto/tiltp3/kevat2004/aineistoja/opetus.sav Ehdolliset keskiarvot Report PISTEET Sukupuoli Nainen Mies Opetustapa Tavallinen TV Total Tavallinen TV Total Mean N Std. Deviation 14,4583 12 11,82505 17,0583 12 8,44915 15,7583 24 10,13813 13,2471 17 15,20671 17,1000 37 11,66660 15,8870 54 12,86560 Kaksisuuntainen varianssianalyysi Dependent Variable: PISTE Source Corrected Model Intercept SUKUPUOL OPETUST SUKUPUOL * OPETUST Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 213,754 a 3 71,251,483,695 15155,879 1 15155,879 102,674,000 5,417 1 5,417,037,849 164,901 1 164,901 1,117,294 6,217 1 6,217,042,838 10923,261 74 147,612 30726,030 78 11137,014 77 a. R Squared =,019 (Adjusted R Squared = -,021) Yksisuuntainen varianssianalyysi, selittäjänä opetustapa ANOVA PISTE Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 203,417 1 203,417 1,414,238 10933,597 76 143,863 11137,014 77 Yksisuuntainen varianssianalyysi, selittäjänä sukupuoli ANOVA PISTE Between Groups Within Groups Total Sum of Squares df Mean Square F Sig.,275 1,275,002,966 11136,739 76 146,536 11137,014 77

Esim. 3.1.2. Lasketaan χ 2 -yhteensopivuustestisuure. f i e i 287 0,8 400 =320 49 0,1 400 =40 30 0,06 400 =24 34 0,004 400 =16 400 H 0 : ei muutosta. 4 χ 2 (f i e i ) 2 = i=1 e i (287 320)2 (49 40)2 = + 320 40 27, 58 > χ 2 0,05;3 = 12, 84 + (30 24)2 24 + (34 16)2 16 Voidaan siis päätellä, että on tapahtunut muutosta.

Esim. 3.1.3. H 0 : otos peräisin N(50, 100):sta Luokan(40, 50) teoreettinen frekvenssi saadaan laskemalla H 0 :n mukaisessa tilanteessa vastaava todennäköisyys P(40 X 50) = Φ( joten e i = 0, 3413 1000 341, 3 50 50 40 50 ) Φ( ) = = 0, 3413 10 10

Esim. 3.1.4. H 0 : otos peräisin T asd(1, 6):sta Jos H 0 on tosi, niin kaikkia silmälukuja tulisi olla saman verran eli 122/6 = 20, 3. χ 2 = 6 (f i e i ) 2 i=1 e i (8 20, 3)2 (39 20, 3)2 = + + 20, 3 20, 3 40, 6 > χ 2 0,005;5 = 16, 75 joten nopanheitto ei ole tapahtunut satunnaisesti.

Esim. 3.1.5. Yhteensopivuustestistä, painoindeksi Tutkitaan voisiko painoindeksi olla normaalisti jakautunut. H 0 : otos peräisin N(25,58;4, 66 2 ) Lasketaan χ 2 -yhteensopivuustestisuure. Painoindeksi frekv. odotettu frek. alle 20,1 9 11,5 20,1-21,4 15 6,3 21,4-25,5 26 30,0 25,5-28,5 23 23,6 28,5-32,2 15 18,1 eli 32,2 9 7,5 97 97,0 Esimerkiksi 1. luokan teoreettinen frekvenssi saadaan laskemalla H 0 :n mukaisessa tilanteessa vastaava todennäköisyys P(X 20,1) = Φ( joten e 1 = 0,119 97 11,5 20, 1 25,58 ) = 1 Φ(1,18) = 0,119 4,66 χ 2 = 6 (f i e i ) 2 i=1 e i = (9 11, 5)2 11, 5 + + (9 7,5)2 7, 5 13,94 Koska on estimoitu 2 parametria (odotusarvo ja varianssi), niin vapausasteet ovat 6 2 1 = 3. Koska χ 2 0.005;3 = 12,84 ja χ 2 0.001;3 = 16,27 niin 0,001 < p < 0,005. Päättelemme, että otos ei ole peräisin normaalijakaumasta. 1

Figure 1: Esimerkin 3.1.0. painoindeksi jakauma ja tunnuslukuja. 2

Esim. 3.2.1. Onko pääaineella vaikutusta siiten, kuinka vaikeana piti opintojaksoa? kansant mat. ja til. tko vaikea (1-2) 23 (16,5) 15 (21,4) 13 (13.,2) sopiva (3) 6 (10,0) 15 (13,0) 10 (8,0) helppo (4-5) 1 (3,5) 9 (4,6) 1 (2,8) Koska odotetuista frekvensseistä 33 % on alle 5, eivät testin oletukset ole voimassa. Muodostetaan uusi ristiintaulukkoa: kansant mat. ja til. tko vaikea (1-2) 23 (16,5) 15 (21,4) 13 (13,2) sopiva tai helppo (3-5) 7 (13,5) 24 (17,6) 11 (10,8) Lasketaan χ 2 -riippumattomuuustestisuure. χ 2 = (23 16, 5)2 16, 5 + + (11 10, 8)2 10, 8 9, 94 > χ 2 0,01;2 = 9, 21 H 0 : ei riippuvuutta, hylätään 1%:n riskitasolla (mutta ei 0,5%). Voidaan päätellä, että eri koulutusohjelmien opiskelijoiden mielipiteet kurssin vaikeudesta ovat erilaiset. Kansantalousteiteilijöistä 76,7 % piti kurssia vaikeana, kun taas vastaava luku matematiikan ja tilastotieteen koulutusohjelmassa oli 38,5 %.

Esim. 3.2.2. Erään tilastotieteen tentin tulos pääaineen mukaan (odotetut frekvenssit suluissa). kansant mat. ja til. tko yht. Hylätty 13 (14,8) 22 (22,0) 14 (12,2) 49 Hyväksytty 26 (24,2) 36 (36,0) 18 (19,8) 80 yht. 39 58 32 129 Lasketaan χ 2 -riippumattomuuustestisuure. χ 2 = (13 14, 8)2 14, 8 + + (18 19, 88)2 19, 8 0, 81 < χ 2 0,05;2 = 5, 99 H 0 : ei riippuvuutta, hyväksytään.

Esim. 3.2.3. Erään tilastotieteen tentin tulos, esimerkki nelikentästä. Miehet Naiset Yhteensä Hylätty 34 15 49 Hyväksytty 59 23 82 Yht. 93 38 131 χ 2 = (34 23 59 15)2 131 93 38 49 82 0, 09787 = 0, 31284 2 = z 2 ks. TILTP2 kaava (5.7). p 2(1 Φ(0, 31284) = 2(1 0, 6217) = 0, 7566

Esim. 4.1.4. x i y i x i y i x 2 i ŷ i e i = y i ŷ i 100 40 4000 10000 39,64 0,36 200 45 9000 40000 46,43-1,43 300 50 15000 90000 53,21-3,21 400 65 26000 160000 60,00 5,00 500 70 35000 250000 66,79 3,21 600 70 42000 360000 73,57-3,57 700 80 756000 390000 80,36-0,36 2800 420 187000 1400000 ȳ = 60 x = 400 xi y i ( x i )( y i )/7 ˆβ 1 = x 2 i ( 187000 2800 420/7 = x i ) 2 /7 1400000 2800 2 /7 ˆβ 0 = ȳ ˆβ 1 x = 420/7 0, 06786 2800/7 32, 857 0, 06786 ŷ i = ˆβ 0 + ˆβ 1 x i = 32, 857 + 0, 06786x i, i = 1,... 7, e i = y i ŷ i = y i (32, 857 + 0, 06786x i ), i = 1,... 7, SSE = e 2 i = (y i ŷ i ) 2 60, 7 SST = (y i ȳ) 2 = 1350, 0 SSR = (ŷ i ȳ) 2 1289, 286 R 2 = SSR/SST = 0, 955, MSR = SSR/1, MSE = SSE/(7 2) = 12, 143 F = MSR/MSE = 106, 176 > F 0,01;1,5 = 16, 26

Esimerkkejä regressioanalyysistä Esim. 4.1.5. Sadon (y) riippuvuus lannoitemäärästä (x), aineisto esimerkissä 4.1.4. 90 80 70 y 60 50 40 30 0 200 400 600 800 x Pisteparven perusteella lineaarista riippuvuutta. Suoritetaan regressioanalyysi selittäen satoa lannoitemäärällä ja saadaan seuraavat tulokset.: Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.977 a.955.946 3.48466 a. Predictors: (Constant), X Selitysprosentti 100x(R Square) = 95,5 %. Yhden selittäjän tilanteessa sama kuin 100r 2 Model 1 Regression Residual Total a. Predictors: (Constant), X b. Dependent Variable: Y ANOVA b Sum of Squares df Mean Square F Sig. 1289.286 1 1289.286 106.176.000 a 60.714 5 12.143 1350.000 6 Taulukossa neliösummat ja niiden vapausasteet, keskineliösummat ja F- testisuure (H 0 : β 1 = 0). Ks. laskukaavat kaavakokoelmassa http://mtl.uta.fi/tilasto/tiltp3/kevat2003/kaavat2.pdf, kaavat (3.8), (3.12), (3.13), (3.15)

Model 1 (Constant) X a. Dependent Variable: Y Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. 32.857 2.945 11.157.000 6.786E-02.007.977 10.304.000 Estimoitu lisäaineen regressiokerroin 0,06786 ja vakiokerroin 32,857. Lisäaine on merkittävä selittäjä, koska testattaessa hypoteesia H 0 : β 1 = 0 päädytään sen hylkäämiseen (joko F-testin tai t-testin (t=10,304) perusteella). x y estimoitu y residuaalit 100 40 39.64.36 200 45 46.43-1.43 300 50 53.21-3.21 400 65 60.00 5.00 500 70 66.79 3.21 600 70 73.57-3.57 700 80 80.36 -.36 Esim. 4.1.8. a) Lapsen syntymäpainon riippuvuus pituudesta. 6000 5000 4000 3000 PAINO 2000 42 44 46 48 50 52 54 56 PITUUS Paino näyttäisi riippuvan lineaarisesti pituudesta, r = 0.72. Ks. korrelaatiokertoimen testaus kaavakokoelmassa http://mtl.uta.fi/tilasto/tiltp3/kevat2003/kaavat2.pdf, kaava (1.4).

PAINO PITUUS Correlations Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level PAINO PITUUS 1.720**..000 120 120.720** 1.000. 120 120 Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.720 a.518.514 339.132 a. Predictors: (Constant), PITUUS Selitysprosentti 100x(R Square) = 51,8 %. Yhden selittäjän tilanteessa sama kuin 100r 2 =100x0,72 2 Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 14573162 1 14573162.20 126.711.000 a 13571250 118 115010.596 28144413 119 a. Predictors: (Constant), PITUUS b. Dependent Variable: PAINO Model 1 (Constant) PITUUS a. Dependent Variable: PAINO Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. -5211.574 779.297-6.688.000 173.142 15.381.720 11.257.000 Estimoitu pituuden regressiokerroin 173,142 ja vakiokerroin 5211,574. Pituus on merkittävä selittäjä, koska testattaessa hypoteesia H 0 : β 1 = 0 päädytään sen hylkäämiseen (joko F-testin (F=126,711) tai t-testin (t=11,257) perusteella). Yhden sentin lisäys pituudessa kohottaa painoa keskimäärin 173,142 g.

b) Veden pehmeysarvon riippuvuus lisäaineesta Harj. 3 teht. 8. Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate.909 a.826.801.33794 a. Predictors: (Constant), Lisäaine Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 3.796 1 3.796 33.241.001 a.799 7.114 4.596 8 a. Predictors: (Constant), Lisäaine b. Dependent Variable: Veden pehmeys Model 1 (Constant) Lisäaine Unstandardized Coefficients a. Dependent Variable: Veden pehmeys Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. 8.118.246 33.014.000.354.061.909 5.765.001 c) Matematiikan ja tilastotieteen valintakoe 2001, http://www.uta.fi/opiskelu/valintakoekysymykset/2001/ratk.pdf tehtävä 2. Mittayksikön vaikutus kertoimiin Malli Y = β 0 + β 1 x + ε. ˆ β 1 = x i y i ( x i ) y i ( x i ) 2 / n x i 2 ( )/n = SS xy SS x = r xy s y s x Jos yhden selittäjän regressioanalyysissä tehdään muunnokset z = ax + b ja w = cy + d, niin r zw = r xy,jos ac>0 ja r zw = - r xy jos ac< 0, s z = a s x ja s w = c s y. Regressiokerroin on siis riippuvainen muuttujien mittayksiköistä. Kokeile esim. SAID IT aineistossa muuttamalla esimerkin 4.1.8 a) mittayksiköt kiloiksi ja metreiksi.

Esim. 4.1.8. Esimerkin 4.1.4 tilanteessa korrelaatiokertoimen testaus. t = H 0 : ρ = 0 r (1 r2 )/(n 2) t n 2, kun H 0 tosi Lasketaan aluksi korrelaatiokerroin ja sitten testisuure. r = SP xy / xi y i ( x i )( y i )/7 SS x SS y = ( x 2 i ( x i ) 2 /7)( yi 2 ( y i ) 2 /7) = t = 187000 2800 420/7 0, 977 (1400000 28002 /7)(26550 420 2 /7) 0, 977 (1 0, 9772 )/(7 2) 10, 304 > t 0,005;5 = 4, 032

Esimerkki 4.3.1. Regressioanalyysi, logaritmointi ja residuaalitarkasteluja. Aineisto Draper & Smith, Applied Regression Analysis (1981), s. 191, myös http://www.uta.fi/%7estrale/tiltp3/aineistoja.html 5000 4000 Liikennekuolemat (y) 3000 2000 1000 0 0 100 300 500 700 900 Liikennemäärä (x) Linear Fit Linear Fit Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,913743 0,911946 263,896 926,76 50 Analysis of Variance Source Model Error C Total DF 1 48 49 Sum of Squares 35410709 3342772 38753481 Mean Square 35410709 69641,08 F Ratio 508,4744 Prob>F 0,0000 Parameter Estimates Term Intercept Liikennemäärä (x) Estimate 107,02891 4,306215 Std Error 52,09934 0,190968 t Ratio 2,05 22,55 Prob> t 0,0454 0,0000

Tässä malli näyttää ihan hyvältä, jos tarkastellaan asiaa parametrien testauksen perusteella. Liikennemäärän kerroin on merkittävä ja selitysprosenttikin korkea 91 %. Mallin parametrien testauksen lisäksi mallin sopivuutta tutkitaan myös residuaalien avulla. Tällöin tutkitaan mallin riittävyyttä ja oletusten voimassa olemista. Mallissa Y = β 0 + β 1 x + ε tehdään oletukset, että ε i ~ N(0, σ 2 ) sekä ε i :t toisistaan riippumattomia. Tehdään siis normaalijakaumaoletus, riippumattomuusoletus sekä vakiovarianssisuusoletus ε:sta. Jos malli oikea, niin residuaalien, jotka ovat ε:n estimaatteja, tulisi käyttäytyä ε:n oletusten mukaisesti. Käyttäytymistä voidaan tutkia esim. piirtämällä pisteparvi residuaaleista ja estimoiduista y:n arvoista. Tässä esimerkissä pisteparvi näyttää hajaantuvan y:n estimoitujen arvojen kasvaessa. 750 Residuals Liikennekuolemat (y) 500 250 0-250 -500-750 0 5001000 2000 3000 4000 Predicted Liikennekuolemat (y) Hajaantuminen on merkki siitä, että ei voida olettaa jokaisella ε i :lla olevan samaa varianssia. Sama asia näkyy kyllä jo alkuperäisessä pisteparvessa, joka ihan selvästi hajoaa x:n kasvaessa. Nyt voidaan menetellä siten, että logaritmoidaan molemmat muuttujat ja suoritetaan regressioanalyysi logaritmoiduilla arvoilla. Näin saadaan seuraavat tulokset:

8 7 log(y) 6 5 4 2 3 4 5 6 7 log(x) Linear Fit Linear Fit Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,909514 0,907629 0,307561 6,397732 50 Analysis of Variance Source Model Error C Total DF 1 48 49 Sum of Squares 45,638716 4,540502 50,179218 Mean Square 45,6387 0,0946 F Ratio 482,4705 Prob>F 0,0000 Parameter Estimates Term Intercept log(x) Estimate 1,9036552 0,9410386 Std Error 0,209172 0,042842 t Ratio 9,10 21,97 Prob> t 0,0000 0,0000 Tuloksista nähdään, että mallin parametrit ovat merkittäviä ja selitysprosenttikin 91. Tässä mallissa residuaalit (alla) käyttäytyvät eri tavalla kuin edellä. Voidaan ajatella, että pisteparvi on x akselin suuntainen nauha, joka kertoisi oletusten

voimassa olemisesta sekä mallin riittävyydestä. Jos pisteparvessa olisi havaittavissa jotain muuta kuin nauhanomaista käyttäytymistä, niin se kertoisi, että tehdyt oletuksen malliin liittyen eivät pidä paikkaansa. 0,5 Residuals log(y) 0,0-0,5-1,0 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Predicted log(y) Katsotaan vielä residuaalien jakauma, joka pitäisi olla normaalinen. Residuals log(y) -1,0-0,5 0,0 0,5 Quantiles Moments Mean Std Dev Std Err Mean upper 95% Mean lower 95% Mean N Sum Wgts -0,00000 0,30441 0,04305 0,08651-0,08651 50,00000 50,00000 Jos tässä testataan normaalisuutta, niin päädytään kyllä tulokseen, että otos ei ole peräisin normaalijakaumasta!

Esimerkki 4.3.1. Autoregressio. Aineisto Newbold, P., Statistics for Business and Economics. Prentice Hall, 1995 s. 588. Twenty-eight quarterly observations from the United Kingdom on quantity of money in million pounds (y), income in million pounds (x 1 ) and the local authority interest rate (x 2 ) (aineisto myös http://www.uta.fi/%7estrale/tiltp3/aineistoja.html) t y t y t-1 x 1 x 2 1 17602,5 14744 0,0805 2 17746,9 17602,5 14516 0,0828 3 17769 17746,9 14815 0,0781 4 17909,1 17769 14900 0,0738 5 17855 17909,1 14829 0,0798 6 17470,8 17855 14900 0,0914 7 17352,6 17470,8 14980 0,0957 8 17481,2 17352,6 15085 0,0922 9 17240,2 17481,2 14973 0,091 10 17467,7 17240,2 15359 0,0813 11 17619,8 17467,7 15362 0,0754 12 17683,1 17619,8 15540 0,0718 13 17954,9 17683,1 15404 0,0753 14 17734,9 17954,9 15649 0,0666 15 17965,1 17734,9 15950 0,0582 16 18651,9 17965,1 15957 0,0482 17 19352,7 18651,9 16031 0,048 18 20444,1 19352,7 16295 0,0513 19 20835,3 20444,1 16151 0,0762 20 21827,4 20835,3 16803 0,0791 21 22375,2 21827,4 17528 0,1009 22 23217 22375,2 17301 0,091 23 24011,6 23217 17503 0,1173 24 24975,2 24011,6 17455 0,1411 25 24736,3 24975,2 16620 0,1566 26 23407,3 24736,3 17779 0,1333 27 23560,7 23407,3 18040 0,1313 28 23421,2 23560,7 17827 0,1263 Estimoidaan malli Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 y t-1 + ε.

Response: y Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,975982 0,972849 455,7342 19928,38 27 Parameter Estimates Term Intercept x1 x2 y(t-1) Estimate -2297,819 0,1573723-14136,30 1,0634212 Std Error 1875,241 0,226106 6351,172 0,126345 t Ratio -1,23 0,70-2,23 8,42 Prob> t 0,2328 0,4934 0,0361 0,0000 Analysis of Variance Source Model Error C Total DF 3 23 26 Sum of Squares 194109881 4776955 198886836 Mean Square 64703294 207693,7 F Ratio 311,5323 Prob>F 0,0000 Nyt x 1 näyttää olevan tarpeeton (t = 0,70 ja p = 0,4934), joten jätetään tämä selittäjä pois mallista ja estimoidaan uusi malli Y = β 0 + β 1 x 2 + β 2 y t-1 + ε, joka tuottaa 97,5 %:n selitysasteen ja mallin kertoimet ovat merkittäviä vakiokerrointa lukuun ottamatta (p arvot 0,1574; 0,0035; 0,000). Lisäksi H 0 : β 1 = β 2 = 0, hylätään (F = 477,3098; p = 0,000). Malli on siis näiltä osin kaikin puolin kunnossa. Response: y Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,975476 0,973432 450,8126 19928,38 27 Parameter Estimates Term Intercept x2 y(t-1) Estimate -1106,681-16666,87 1,1426647 Std Error 758,3441 5151,272 0,054183 t Ratio -1,46-3,24 21,09 Prob> t 0,1574 0,0035 0,0000

Analysis of Variance Source Model Error C Total DF 2 24 26 Sum of Squares 194009268 4877568 198886836 Mean Square 97004634 203232 F Ratio 477,3098 Prob>F 0,0000 Tutkitaan vielä residuaalien käyttäytymistä. 1000 500 0 Residual -500-1000 -1500-2000 17000 19000 21000 23000 25000 y Predicted Pisteparvi antaa kyllä viitteitä suuntaan, että vakiovarianssisuusoletus ei olisi ehkä voimassa. Toisaalta havaintoja on kovin vähän, joten pidemmän aikasarjan käyttö voisi olla jatkotoimenpiteenä aiheellinen.

Esimerkki 4.3.1. Dummy -muuttuja selittäjänä regressioanalyysissä. Palkan riippuvuutta palveluvuosista ja sukupuolesta. Aineisto: Younger (1985), A First Course in Linear Regression. 50 45 40 Salary 35 30 25 20 15 0 5 10 15 20 25 30 Years Salary Years Sex (1=mies) 35 15 1 27 17 0 45 25 1 22 13 0 25 2 1 30 10 1 37 17 1 25 17 0 17 1 0 28 4 1 43 25 1 25 15 0 22 1 1 28 6 1 29 20 0 19 3 0 29 21 0 38 19 1 19 5 0 22 1 1 39 20 1 40 22 1 21 10 0 28 7 1 30 8 1 Palkan näyttää siis riippuvan paitsi palveluvuosista niin myös sukupuolesta. Voitaisiin tehdä yhden selittäjän regressioanalyysit miehillä ja naisilla erikseen. Yksi tapa olisi myös estimoida kahden selittäjän malli Salary = β 0 + β 1 Years + β 2 Sex + ε, jolloin saadaan estimoiduksi kaksi samansuuntaista suoraa

E(Salary) = β 0 + β 1 Years (Naiset, Sex=0), E(Salary) = β 0 + β 1 Years + β 2 (Miehet Sex=1). Estimointitulokset: Response: Salary Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,970068 0,967347 1,412216 28,92 25 Parameter Estimates Term Intercept Years Sex Estimate 13,970213 0,7647366 9,4176491 Std Error 0,627120 0,036088 0,576540 t Ratio 22,28 21,19 16,33 Prob> t 0,0000 0,0000 0,0000 Analysis of Variance Source Model Error C Total DF 2 22 24 Sum of Squares 1421,9642 43,8758 1465,8400 Mean Square 710,982 1,994 F Ratio 356,4975 Prob>F 0,0000 Estimoinnin tulos: Naiset : Salary (estimoitu) = 13,970213+0,7647366xYears Miehet: Salary (estimoitu) = 13,970213+0,7647366xYears + 9,4176491 Testaukset tehdään tavanomaiseen tapaan. Selitysprosentti 97.

4.4. Varianssianalyysimalli Oletukset yksisuuntaisessa varianssianalyysissä: Y 11,Y 12,...,Y 1n1 satunnaisotos N(µ 1,σ 2 ):sta, Y 21,Y 22,...,Y 2n2 satunnaisotos N(µ 2,σ 2 ):sta,... Y I1,Y I2,...,Y InI satunnaisotos N(µ I,σ 2 ):sta. Halutaan tutkia ovatko jakaumien odotusarvot yhtä suuret, jolloin H 0 : µ 1 = µ 2 =... = µ I H 1 : kaikki odotusarvot eivät ole samoja. Oletuksista seuraa, että varianssianalyysi voidaan ajatella mallina Y ij = µ i + ε ij, missä ε ij ~ N(0,,σ 2 ) µ 1, µ 2,..., µ I ovat mallin parametrit Vaihtoehtoisesti myös Y ij = µ + τ i + ε ij