xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Samankaltaiset tiedostot
Korrelaatiokertoinen määrittely 165

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Todennäköisyyden ominaisuuksia

Regressioanalyysi. Kuusinen/Heliövaara 1

HAVAITUT JA ODOTETUT FREKVENSSIT

031021P Tilastomatematiikka (5 op) viikko 6

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

2. Tietokoneharjoitukset

Mat Tilastollisen analyysin perusteet, kevät 2007

031021P Tilastomatematiikka (5 op) viikko 6

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Harjoitus 9: Excel - Tilastollinen analyysi

Otoskoko 107 kpl. a) 27 b) 2654

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo


Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

ABHELSINKI UNIVERSITY OF TECHNOLOGY

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Johdatus regressioanalyysiin

ABHELSINKI UNIVERSITY OF TECHNOLOGY

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Dynaamiset regressiomallit

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastotieteen jatkokurssi syksy 2003 Välikoe

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Sovellettu todennäköisyyslaskenta B

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Mat Tilastollisen analyysin perusteet, kevät 2007

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Sovellettu todennäköisyyslaskenta B

Identifiointiprosessi

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

1. Tilastollinen malli??

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTP1, luento KERTAUSTA

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

10. laskuharjoituskierros, vko 14, ratkaisut

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Ohjeita kvantitatiiviseen tutkimukseen

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Regressiodiagnostiikka ja regressiomallin valinta

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Regressiodiagnostiikka ja regressiomallin valinta

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

SELVITTÄJÄN KOMPETENSSISTA

MTTTP1, luento KERTAUSTA

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Harha mallin arvioinnissa

Testejä suhdeasteikollisille muuttujille

Estimointi. Otantajakauma

Lohkoasetelmat. Kuusinen/Heliövaara 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

2. Keskiarvojen vartailua

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Harjoitus 6 -- Ratkaisut

1 Johdatus varianssianalyysiin

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Transkriptio:

1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista ominaispaino ja puhkaisulujuus: Arkki i 1 2 3 4 5 6 7 8 9 10 x i 0.764 0.757 0.769 0.759 0.753 0.764 0.787 0.793 0.771 0.790 y i 54.5 52.0 58.0 60.5 53.0 55.0 59.0 67.0 61.5 65.5 Testaa korrelaation merkitsevyys tasolla a) α = 0.05 b) α = 0.01 xi = 7.707 yi = 586 x 2 i = 5.94651 y 2 i = 34575 xi y i = 452.178 n = 10 H 0 : ρ = 0 ja H 1 : ρ 0 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = 0.5478 SS xx = x 2 i ( x i ) 2 /n = 0.006751 SS yy = y 2 i ( y i ) 2 /n = 235.4 r = SS xy SSxx SS yy = 0.5478 0.006751 235.4 = 0.827 Testisuure t: t = n 2 r = 1 r 10 2 0.827 = 4.16 2 1 0.827 2 H 0 hylätään riskitasolla α, jos t > t 1 α/2 (n 2) a) α = 0.05, kriittinen arvo t 0.975 (8) = 2.31 H 0 hylätään b) α = 0.01, kriittinen arvo t 0.995 (8) = 3.36 H 0 hylätään Testisuure t = n 2 r 1 r 2 = 10 2 0.827 1 0.827 2 = 4.16

a) α = 0.05, kriittinen arvo t 0.975 (8) = 2.31 H 0 hylätään b) α = 0.01, kriittinen arvo t 0.995 (8) = 3.36 H 0 hylätään 2. Tutkittiin kunnallisvaaliehdokkaiden mainontaan sijoittamien rahamäärien x vaikutusta saatuihin äänimääriin Y. Tutkija oletti, että riippuvuus on lineaarinen eli Y = β 0 + β 1 x + ɛ. Riippuvuuden tutkimiseksi kirjattiin satunnaisesti valittujen 12 ehdokkaan äänimäärät ja mainosmenot ja laskettiin niistä seuraavat summat: Σx i = 88.9 Σy i = 1020 Σx i y i = 9901 Σx 2 i = 1010.77 Σy2 i = 107386 Estimoi pienimmän neliösumman menetelmällä regressiomallin kertoimet β 0 ja β 1. SS xx = Σx 2 (Σx) 2 /n = 1010.77 88.9 2 /12 = 352.17 SS yy = Σy 2 (Σy) 2 /n = 107386 1020 2 /12 = 20686.0 SS xy = 9901 88.9 1020/12 = 2344.5 ˆβ 1 = b 1 = SS xy /SS xx = 6.657 ˆβ 0 = b 0 = ȳ b 1 x = (1020 b 1 88.9)/12 = 35.680 Sovitettu malli ŷ = 35.68 + 6.657x ˆβ 1 = 6.657 ˆβ 0 = 35.680 ŷ = 35.68 + 6.657x

3. Tutki sopivalla testillä, riippuuko (ed. tehtävässä) äänimäärä mainosmenoista merkitsevyystasolla α = 0, 01 TAPA 1 Korrelaatiokertoimen testaus H 0 : ρ = 0 H 1 : ρ 0 r = SS xy SSxx SS yy = 0.8686321 T = 10 r 1 r 2 = 5.54 α = 0.01 t 1 α/2 (n 2) = t 0.995 (10) = 3.17 < 5.54 Korrelaatio on merkitsevä tasolla α = 0.01 TAPA 2 H 0 : β = 0 H 1 : β 0 Testisuure T = b1 0 s b1 t(n 2) TAPA 3 H 0 : β = 0 H 1 : β 0 Testisuure F = SSD SSE/(n 2) F (1, n 2) Korrelaatio on merkitsevä tasolla α = 0.01 4. Lentoyhtiö on tutkinut tietyn konetyypin polttoaineen kulutusta. Lennon pituus x (yksikkönä 100 km) ja polttoaineen kulutus y (yksikkönä litra) mitattiin 100 lennolla. Tuloksista on valmiiksi laskettu seuraavat summat:

x = 800 x 2 = 8021 521242 y = 55000 y 2 = 35197000 xy = Estimoi regressiomallin y = β 0 + β 1 x + ɛ parametrit (myös jäännös varianssi). Laske myös mallin selitysaste. SS xy = xy ( x)( y)/n SS xy = 521242 800 55000/100 = 81242 SS xx = x 2 ( x) 2 /n SS xx = 8021 800 2 /100 = 1621 SS yy = y 2 ( y) 2 /n SS yy = 35197000 55000 2 /100 = 4947000 b 1 = SS xy /SS xx = 50.1184454 50.12 b 0 = ȳ b 1 x = (55000 b 1 800)/100 = 149.0524368 149.05 ˆσ 2 = s 2 = SSE n 2 = SSE 98 = 8931.400597 Selitysaste R 2 = SSD SST SSE = 875277.2585 b 1 50.12 b 0 149.05 Selitysaste R 2 = 82.3% 5. 0.823 = 82.3% Edellisen tehtävän lentokonetyypin polttoainamäärän arvioinnissa on aikaisemmin käytetty kerrointa β 1 = 45. Testaa riskitasolla α = 0.05 hypoteesit H 0 : β 1 = 45 H 1 : β 1 > 45. (Testisuureen arvo on 2.18) H 0 : β 1 = 45 H 1 : β 1 > 45 b 1 = 50.1184454

Testisuure T = b1 45 s(b 1) t(n 2) s(b 1 ) = s s SSxx = 2 1621 = 2.347298262 Testisuureen arvoksi t = 2.18 valittu α = 0.05 Kriittinen arvo t 1 α (n 2) = t 0.95 (98) 1.66 Koska t > t 0.95, H 0 hylätään. 6. Vedenpuhdistuslaitteen suodatin joudutaan vaihtamaan määrävälein epäpuhtauksien aiheuttaman tukkeutumisen vuoksi. Seuraavassa on pieni otos kalkkipitoisuuden x ja toimintaiän y arvoista: x(%) y(h) 0.5 23.0 1.0 25.0 1.2 15.0 1.5 20.0 1.8 10.0 1.9 15.0 a) Laske regressiomallin Y = β 0 + β 1 x + ɛ parametrit, myös jäännösvarianssin, estimaatit. Laske kertoimien b 0 ja b 1 hajontaestimaatit. b) Testaa riskitasolla α = 0.05 hypoteesit H 0 : β 1 = 0 (eli kalkkipitoisuudella ei vaikutusta) H 1 : β 1 < 0 (eli kalkkipitoisuus lyhentää toimintaikää) (Testisuureen arvo on 2.28) x = 7.9 x 2 = 11.79 n = 6 y = 108 y 2 = 2104 xy = 131 a) = x7.9 x 2 = 11.79 n = 6 = y108 y 2 = 2104 xy = 131 SS xy = xy ( x)( y)/n = 131 7.9 108/6 = 11.2 SS xx = x 2 ( x) 2 /n = 11.79 7.9 2 /6 = 1.388333

SS yy = y 2 ( y) 2 /n = 2104 108 2 /6 = 160.0 b 1 = SS xy /SS xx = 8.067226893 8.07 b 0 = ( y b 1 x)/n = 28.62184874 28.62 b) Testisuureenarvo t = b1 0 s(b 1 = 2.28 H 0 hylätään, jos t < t 1 α (n 2) = t 0.95 (4) = 2.132 SST = SS yy = 160 SSD = SS 2 xy/ss xx = 90.35294120 SSE = SST SSD = 69.64705880 ˆσ 2 = s 2 = SSE n 2 = 17.41176470 17.41 s s(b 1 ) = 2 SS xx = 3.541396219 3.54 s(b 0 ) = s 2 x 2 i nss xx 4.96 a) SST = 160 SSD = 90.35294120 SSE = 69.64705880 ˆσ 2 = s 2 17.41 s(b 1 ) 3.54 s(b 0 ) 4.96 b) Johtopäätös: H 0 hylätään, joten kalkkipitoisuus lyhentää toimintaikää. 7. Tutkittiin erään viljan sadon Y lineaarista riippuvuutta neljästä selitettävästä muuttujasta: X 1 = maaperän humuspitoisuus, X 2 = maaperän kosteus, X 3 = maaperän ph ja X 4 = rikkakasvien tiheys. Tehtiin 32 koetta eri olosuhteissa. Lineaarisen regressiomallin

y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ɛ kertoimien merkitsevyyttä eli hypoteeseja H 0 : β j = 0, H 1 : β j 0, j = 0, 1, 2, 3, 4 testattiin t-testisuureilla ja saatiin seuraavat tulokset: Parameter Estimate Std error T-Statistic P-value b 0 214.603 653.717 0.32831 0.7452 b 1 11.1845 4.3304 2.64219 0.0135 b 2 1.08265 0.395995 2.73401 0.0109 b 3 22.235 6.51942 3.41059 0.0021 b 4 6.09394 5.10873 1.19285 0.2433 Source Sum of squares DF Mean Square F-ratio P-value model 1.02935E6 4 257338.0 26.80 0.0000 Residual 259279.0 27 9602.92 Total (Corr.) 1.28863E6 31 r 2 = 79.8795% r 2 (Adjusted for d.f.) = 76.8987% Std error of est. = 97.9945 Mean absolute error = 70.0737 Durbin-Watson statistic = 1.8786 a) Poikkeaako vakiotermi β 0 merkittävästi nollasta? b) Mitkä muuttujat ovattviljasadon tärkeimpiä selttäjiä ja millä muuttujilla ei ole merkittävää vaikutusta? Perusteltu vastaus! Periaate: mitä pienempi p-arvo, sitä merkitsevämmin kerroin poikkeaa nollasta. a) β 0 -kerroin ei poikkea merkittävästi nollasta, koska P = 0.7452 > 0.05. Tosin estimaatin arvoon suuri, mutta jos hajonta on suuri, ei saada riittävästi varmistusta poikkeamalle! b) Mitä pienempi P-arvo, sitä merkitsevämpi riippuvuus ja sitä merkitsevämpi selittäjä. Tärkeimmät, eli merkitsevimmät selittäjät ovat siis järjestyksessä 1) ph = 0.0021 2) kosteus = 0.0109

3) humuspitoisuus = 0.0135 Rikkakasvitiheydellä ei ole tämän aineiston valossa merkittävää vaikutusta, koska P = 0.2433 > 0.05. 8. Edellisen tehtävän lineaarisen regressiomallin yhteensopivuuden tutkimiseksi havaintoaineistosta laskettiin neliösummat SST = 1288630 ja SSE = 259279. Laske mallin jäännöshajonta s ja selitysaste R 2. Testaa mallin sopivuus (eli mallin tilastollinen merkitsevyys eli selitysasteen merkitsevyys, monisteen luku 7.4.5) tasolla α = 0.01. Kannattaako mallia käyttää viljasadonennustamiseen? (Testisuureen arvo 26.8) n = 32 k = 4 SST = 1288630 SSE = 259279 s 2 = s = 97.99 SSE n k 1 = 259279 27 = 9602.93 Selitysaste: R 2 = SSD SST SSE SST = SST R 2 = 1029351 1288630 = 0.799 80% H 0 : β 1 = β 2 = β 3 = β 4 = 0 (Malli ei sopiva) H 1 : β i 0 ainakin yhdellä i = 1, 2, 3, 4, Testisuure: SSD/k F = SSE/(n k 1) = 1029351/4 259279/27 = 26.80 α = 0.01 Kriittinen arvo F 1 α (k, n k 1) = F 0.99 (4.27) = 4.11 Koska F > F 0.99, H 0 hylätään:

Malli selittää sadon vaihtelua merkittävästi. Mallia siis kannattaa käyttää sadon ennustamiseen.