1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista ominaispaino ja puhkaisulujuus: Arkki i 1 2 3 4 5 6 7 8 9 10 x i 0.764 0.757 0.769 0.759 0.753 0.764 0.787 0.793 0.771 0.790 y i 54.5 52.0 58.0 60.5 53.0 55.0 59.0 67.0 61.5 65.5 Testaa korrelaation merkitsevyys tasolla a) α = 0.05 b) α = 0.01 xi = 7.707 yi = 586 x 2 i = 5.94651 y 2 i = 34575 xi y i = 452.178 n = 10 H 0 : ρ = 0 ja H 1 : ρ 0 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = 0.5478 SS xx = x 2 i ( x i ) 2 /n = 0.006751 SS yy = y 2 i ( y i ) 2 /n = 235.4 r = SS xy SSxx SS yy = 0.5478 0.006751 235.4 = 0.827 Testisuure t: t = n 2 r = 1 r 10 2 0.827 = 4.16 2 1 0.827 2 H 0 hylätään riskitasolla α, jos t > t 1 α/2 (n 2) a) α = 0.05, kriittinen arvo t 0.975 (8) = 2.31 H 0 hylätään b) α = 0.01, kriittinen arvo t 0.995 (8) = 3.36 H 0 hylätään Testisuure t = n 2 r 1 r 2 = 10 2 0.827 1 0.827 2 = 4.16
a) α = 0.05, kriittinen arvo t 0.975 (8) = 2.31 H 0 hylätään b) α = 0.01, kriittinen arvo t 0.995 (8) = 3.36 H 0 hylätään 2. Tutkittiin kunnallisvaaliehdokkaiden mainontaan sijoittamien rahamäärien x vaikutusta saatuihin äänimääriin Y. Tutkija oletti, että riippuvuus on lineaarinen eli Y = β 0 + β 1 x + ɛ. Riippuvuuden tutkimiseksi kirjattiin satunnaisesti valittujen 12 ehdokkaan äänimäärät ja mainosmenot ja laskettiin niistä seuraavat summat: Σx i = 88.9 Σy i = 1020 Σx i y i = 9901 Σx 2 i = 1010.77 Σy2 i = 107386 Estimoi pienimmän neliösumman menetelmällä regressiomallin kertoimet β 0 ja β 1. SS xx = Σx 2 (Σx) 2 /n = 1010.77 88.9 2 /12 = 352.17 SS yy = Σy 2 (Σy) 2 /n = 107386 1020 2 /12 = 20686.0 SS xy = 9901 88.9 1020/12 = 2344.5 ˆβ 1 = b 1 = SS xy /SS xx = 6.657 ˆβ 0 = b 0 = ȳ b 1 x = (1020 b 1 88.9)/12 = 35.680 Sovitettu malli ŷ = 35.68 + 6.657x ˆβ 1 = 6.657 ˆβ 0 = 35.680 ŷ = 35.68 + 6.657x
3. Tutki sopivalla testillä, riippuuko (ed. tehtävässä) äänimäärä mainosmenoista merkitsevyystasolla α = 0, 01 TAPA 1 Korrelaatiokertoimen testaus H 0 : ρ = 0 H 1 : ρ 0 r = SS xy SSxx SS yy = 0.8686321 T = 10 r 1 r 2 = 5.54 α = 0.01 t 1 α/2 (n 2) = t 0.995 (10) = 3.17 < 5.54 Korrelaatio on merkitsevä tasolla α = 0.01 TAPA 2 H 0 : β = 0 H 1 : β 0 Testisuure T = b1 0 s b1 t(n 2) TAPA 3 H 0 : β = 0 H 1 : β 0 Testisuure F = SSD SSE/(n 2) F (1, n 2) Korrelaatio on merkitsevä tasolla α = 0.01 4. Lentoyhtiö on tutkinut tietyn konetyypin polttoaineen kulutusta. Lennon pituus x (yksikkönä 100 km) ja polttoaineen kulutus y (yksikkönä litra) mitattiin 100 lennolla. Tuloksista on valmiiksi laskettu seuraavat summat:
x = 800 x 2 = 8021 521242 y = 55000 y 2 = 35197000 xy = Estimoi regressiomallin y = β 0 + β 1 x + ɛ parametrit (myös jäännös varianssi). Laske myös mallin selitysaste. SS xy = xy ( x)( y)/n SS xy = 521242 800 55000/100 = 81242 SS xx = x 2 ( x) 2 /n SS xx = 8021 800 2 /100 = 1621 SS yy = y 2 ( y) 2 /n SS yy = 35197000 55000 2 /100 = 4947000 b 1 = SS xy /SS xx = 50.1184454 50.12 b 0 = ȳ b 1 x = (55000 b 1 800)/100 = 149.0524368 149.05 ˆσ 2 = s 2 = SSE n 2 = SSE 98 = 8931.400597 Selitysaste R 2 = SSD SST SSE = 875277.2585 b 1 50.12 b 0 149.05 Selitysaste R 2 = 82.3% 5. 0.823 = 82.3% Edellisen tehtävän lentokonetyypin polttoainamäärän arvioinnissa on aikaisemmin käytetty kerrointa β 1 = 45. Testaa riskitasolla α = 0.05 hypoteesit H 0 : β 1 = 45 H 1 : β 1 > 45. (Testisuureen arvo on 2.18) H 0 : β 1 = 45 H 1 : β 1 > 45 b 1 = 50.1184454
Testisuure T = b1 45 s(b 1) t(n 2) s(b 1 ) = s s SSxx = 2 1621 = 2.347298262 Testisuureen arvoksi t = 2.18 valittu α = 0.05 Kriittinen arvo t 1 α (n 2) = t 0.95 (98) 1.66 Koska t > t 0.95, H 0 hylätään. 6. Vedenpuhdistuslaitteen suodatin joudutaan vaihtamaan määrävälein epäpuhtauksien aiheuttaman tukkeutumisen vuoksi. Seuraavassa on pieni otos kalkkipitoisuuden x ja toimintaiän y arvoista: x(%) y(h) 0.5 23.0 1.0 25.0 1.2 15.0 1.5 20.0 1.8 10.0 1.9 15.0 a) Laske regressiomallin Y = β 0 + β 1 x + ɛ parametrit, myös jäännösvarianssin, estimaatit. Laske kertoimien b 0 ja b 1 hajontaestimaatit. b) Testaa riskitasolla α = 0.05 hypoteesit H 0 : β 1 = 0 (eli kalkkipitoisuudella ei vaikutusta) H 1 : β 1 < 0 (eli kalkkipitoisuus lyhentää toimintaikää) (Testisuureen arvo on 2.28) x = 7.9 x 2 = 11.79 n = 6 y = 108 y 2 = 2104 xy = 131 a) = x7.9 x 2 = 11.79 n = 6 = y108 y 2 = 2104 xy = 131 SS xy = xy ( x)( y)/n = 131 7.9 108/6 = 11.2 SS xx = x 2 ( x) 2 /n = 11.79 7.9 2 /6 = 1.388333
SS yy = y 2 ( y) 2 /n = 2104 108 2 /6 = 160.0 b 1 = SS xy /SS xx = 8.067226893 8.07 b 0 = ( y b 1 x)/n = 28.62184874 28.62 b) Testisuureenarvo t = b1 0 s(b 1 = 2.28 H 0 hylätään, jos t < t 1 α (n 2) = t 0.95 (4) = 2.132 SST = SS yy = 160 SSD = SS 2 xy/ss xx = 90.35294120 SSE = SST SSD = 69.64705880 ˆσ 2 = s 2 = SSE n 2 = 17.41176470 17.41 s s(b 1 ) = 2 SS xx = 3.541396219 3.54 s(b 0 ) = s 2 x 2 i nss xx 4.96 a) SST = 160 SSD = 90.35294120 SSE = 69.64705880 ˆσ 2 = s 2 17.41 s(b 1 ) 3.54 s(b 0 ) 4.96 b) Johtopäätös: H 0 hylätään, joten kalkkipitoisuus lyhentää toimintaikää. 7. Tutkittiin erään viljan sadon Y lineaarista riippuvuutta neljästä selitettävästä muuttujasta: X 1 = maaperän humuspitoisuus, X 2 = maaperän kosteus, X 3 = maaperän ph ja X 4 = rikkakasvien tiheys. Tehtiin 32 koetta eri olosuhteissa. Lineaarisen regressiomallin
y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ɛ kertoimien merkitsevyyttä eli hypoteeseja H 0 : β j = 0, H 1 : β j 0, j = 0, 1, 2, 3, 4 testattiin t-testisuureilla ja saatiin seuraavat tulokset: Parameter Estimate Std error T-Statistic P-value b 0 214.603 653.717 0.32831 0.7452 b 1 11.1845 4.3304 2.64219 0.0135 b 2 1.08265 0.395995 2.73401 0.0109 b 3 22.235 6.51942 3.41059 0.0021 b 4 6.09394 5.10873 1.19285 0.2433 Source Sum of squares DF Mean Square F-ratio P-value model 1.02935E6 4 257338.0 26.80 0.0000 Residual 259279.0 27 9602.92 Total (Corr.) 1.28863E6 31 r 2 = 79.8795% r 2 (Adjusted for d.f.) = 76.8987% Std error of est. = 97.9945 Mean absolute error = 70.0737 Durbin-Watson statistic = 1.8786 a) Poikkeaako vakiotermi β 0 merkittävästi nollasta? b) Mitkä muuttujat ovattviljasadon tärkeimpiä selttäjiä ja millä muuttujilla ei ole merkittävää vaikutusta? Perusteltu vastaus! Periaate: mitä pienempi p-arvo, sitä merkitsevämmin kerroin poikkeaa nollasta. a) β 0 -kerroin ei poikkea merkittävästi nollasta, koska P = 0.7452 > 0.05. Tosin estimaatin arvoon suuri, mutta jos hajonta on suuri, ei saada riittävästi varmistusta poikkeamalle! b) Mitä pienempi P-arvo, sitä merkitsevämpi riippuvuus ja sitä merkitsevämpi selittäjä. Tärkeimmät, eli merkitsevimmät selittäjät ovat siis järjestyksessä 1) ph = 0.0021 2) kosteus = 0.0109
3) humuspitoisuus = 0.0135 Rikkakasvitiheydellä ei ole tämän aineiston valossa merkittävää vaikutusta, koska P = 0.2433 > 0.05. 8. Edellisen tehtävän lineaarisen regressiomallin yhteensopivuuden tutkimiseksi havaintoaineistosta laskettiin neliösummat SST = 1288630 ja SSE = 259279. Laske mallin jäännöshajonta s ja selitysaste R 2. Testaa mallin sopivuus (eli mallin tilastollinen merkitsevyys eli selitysasteen merkitsevyys, monisteen luku 7.4.5) tasolla α = 0.01. Kannattaako mallia käyttää viljasadonennustamiseen? (Testisuureen arvo 26.8) n = 32 k = 4 SST = 1288630 SSE = 259279 s 2 = s = 97.99 SSE n k 1 = 259279 27 = 9602.93 Selitysaste: R 2 = SSD SST SSE SST = SST R 2 = 1029351 1288630 = 0.799 80% H 0 : β 1 = β 2 = β 3 = β 4 = 0 (Malli ei sopiva) H 1 : β i 0 ainakin yhdellä i = 1, 2, 3, 4, Testisuure: SSD/k F = SSE/(n k 1) = 1029351/4 259279/27 = 26.80 α = 0.01 Kriittinen arvo F 1 α (k, n k 1) = F 0.99 (4.27) = 4.11 Koska F > F 0.99, H 0 hylätään:
Malli selittää sadon vaihtelua merkittävästi. Mallia siis kannattaa käyttää sadon ennustamiseen.