2. Keskiarvojen vartailua

2. Keskiarvojen vartailua Esimerkki 2.1: Oheiset mittaukset liittyvät Portland Sementin sidoslujuuteen (kgf/cm 2 ). Mittaukset y 1 ovat nykyisestä seoksesta ja mittaukset y 2 uudesta seoksesta, jossa lisäaineena on käytetty polymeerilateksiemulsiota. Tension bond strength data for Portland Cement formulation ======================================== Modified Unmodified Obs Mortar Mortar ---------------------------------------- 1 16.85 17.50 2 16.40 17.63 3 17.21 18.25 4 16.35 18.00 5 16.52 17.86 6 17.04 17.75 7 16.96 18.22 8 17.15 17.90 9 16.59 17.96 10 16.57 18.15 --------------------------------------- Mean 16.76 17.92 Std. Dev 0.316 0.248 Min 16.35 17.50 Max 17.21 18.22 ======================================= 1

Havaintoaineiston perusteella näyttää ilmeiseltä, että alkuperäisen laastin sidoslujuus on suurempi. Ero sattumasta johtuvaa? Palataan tuonnempana. 2

2.1 Peruskäsitteiden kertausta Satunnaismuuttuja: Muuttuja, jonka arvot saadaan satunnaiskokeen tuloksena. Satunnaismuuttuja Y ja sen havaittu arvo y. Diskreetti satunnaismuuttuja: Voi saada vain numeroituvan määrän arvoja. Todennäköisyysjakauma: f Y (y) = P (Y = y), 0 f Y (y) 1 kaikilla y. Kertymäfunktio: F y (a) = P (Y a) = {y a} f Y (y). Jatkuva satunnaismuuttuja: Ylinumeroituva määrä arvoja. Todennäköisyystiheys: f Y (y), f Y (y) 0 kaikilla y. Kertymäfunktio: F y (a) = P (Y a) = a f Y (y)dy. 3

Molemmissa tapauksissa pätee: (i) 0 F Y (y) 1, kaikilla y (ii) F Y ( ) = 0 ja F Y ( ) = 1. (iii) Jos y 1 y 2, niin F Y (y 1 ) F Y (y 2 ) (monotoonisesti kasvava). (iv) Kaikilla a b, P (a Y b) = F Y (b) F Y (a). 4

Odotusarvo: µ = E[Y ] = (1) yf Y (y)dy, y yp (Y = y), Y jatkuva Y diskreetti Varianssi: Var[Y ] = σ 2 = E[(Y E[Y ]) 2 ] = E[(Y µ) 2 ]. (2) Pätee: (3) σ 2 = E[Y 2 ] µ 2. 5

Kovarianssi: Saunnaismuuttujat X ja Y (4) Cov[X, Y ] = σ xy = E[(X µ x )(Y µ y )], jossa µ x = E[X] ja µ y = E[Y ]. Pätee: (5) Cov[X, Y ] = E[XY ] E[X]E[Y ] Huom. 2.1: Cov[X, X] = Var[X]. Korrelaatio (6) jossa σ x = σ y = ρ xy = Cov[X, Y ] Var[X]Var[Y ] = σ xy σ x σ y, Var[X] on X:n keskihajonta ja Var[Y ] on Y :n keskihajonta. 6

Ominaisuuksia: Satunnaismuuttujat X ja Y, a ja b vakioita (ei-stokstisia) (1) E[a] = a (2) E[aY ] = ae[y ] (3) Var[a] = 0 (4) Var[aY ] = a 2 Var[Y ] (5) E[aX + by ] = ae[x] + be[y ] (6) Var[aX + by ] = a 2 Var[X] + b 2 Var[Y ] + 2abCov[X, Y ]. Jos X ja Y ovat korreloimattomia (Cov[X, Y ] = 0) (7) Cov[X, Y ] = 0 (8) Var[X ± Y ] = Var[X] + Var[Y ] (9) E[XY ] = E[X]E[Y ]. Kuitenkin yleensä (10) E [ ] X Y E[X]. E[Y ] 7

2.2 Otos ja otosjakauma Populaatiosta poimittua osajoukkoa sanotaan otokseksi, jos sen poimintatodennäköisyys on sama kuin minkä tahansa muun saman kokoisen osajoukon. Matemaattisesti otos on joukko riippumattomia ja samoin jakautuneita satunnaismuuttujia. X 1,..., X n on otos satunnaismuuttujasta X. Otoksen realisaatio koostuu havaituista arvoista x 1,..., x n. 8

Estimaattori Satunnaismuuttujan jakaumaan liittyviä suureita, kuten odotusarvo E[X] = µ ja Var[X] = σ 2, sanotaan jakauman parametreiksi. Otoksesta laskettu funktiota, T = t(x 1,..., X n ) sanotaan tunnusluvuksi, jos se on ainoastaan satunnaismuuttujien X 1,..., X n funktio (ei siis riipu jakauman parametreista). Tunnusluvun realisaatio: t = t(x 1,..., x n ), jossa satunnaismuuttujat on korvattu havaituilla arvoilla. 9

Estimaattori on tunnusluku, jonka tarkoituksena on arvioida parametrin arvoa otoksen perusteella. Estimaattorin havaituista arvoista laskettua arvoa sanotaan estimaatiksi. Siis estimaattori on laskukaava (funktio) ja estimaatti on funktion arvo. Huom. 2.2: Estimaattori on satunnaismuuttuja. Estimaattorin T = t(x 1,..., X n ) jakaumaa sanotaan sen otosjakaumaksi. 10

Esimerkki 2.1: Otoskeskiarvo: (7) X = 1 n n X i i=1 on odotusarvon µ = E[X] estimaattori (estimaatti on vastaavasti x = (1/n) n i=1 x i) Otosvarianssi: (8) S 2 = 1 n 1 n (X i X) 2 i=1 on varianssin σ 2 = E[(X µ) 2 ] estimaattori. Vastaavasti otoskesihajonta S = S 2 os keskihajonna σ = σ 2 estimaattori. 11

Estimaattorilta vaadittavia ominaisuuksia: Olkoon yleisesti parametri θ ja sen estimaattori T = t(x 1,..., X n ). (i) Harhattomuus: E[T ] = θ. (ii) Minimivariannsiharhaton: E[T ] = θ ja Var[T ] on pienempi kuin minkä tahansa muun θ:n harhattoman estimaattorin. 12

Esimerkki 2.2: Olkoon X 1,..., X n otos satunnaismuuttujasta X, E[X] = µ ja Var[X] = σ 2. Silloin (9) ja (10) E[ X] = µ E[S 2 ] = σ 2. Lisäksi, jos X N(µ, σ 2 ), niin ) (11) X N (µ, σ2 n ja (12) (n 1)S 2 σ 2 χ 2 n 1. 13

Lause 2.1: Keskeinen raja-arvolause. Olkoon Y 1,..., Y n riippumattomia ja samoin jakautuneita satunnaismuuttujia [independen and identically distributed (iid)], jossa E[Y i ] = µ ja Var[Y i ] = σ 2. Silloin satunnaismuuttujan n(ȳ µ) (13) Z n = σ jakauma lähestyy standardoitua normaalijakaumaa, N(0, 1), kun n. 14

χ 2 -jakauma: Olkoon Z 1,..., Z k riippumattomia N(0, 1) (merk. Z i NID(0, 1)) satunnaismuuttujia. Silloin (14) (15) X = Z 2 1 + + Z2 k χ2 k. E[X] = k ja (16) Var[X] = 2k. 15

t-jakauma: Jos Z N(0, 1) ja X χ 2 k ovat riippumattomia, niin (17) T = X/k Z t k (T noudattaa Studentin t-jakaumaa vapausasteilla k). (18) E[T ] = 0 (19) kun k > 2 Var[T ] = k k 2, 16

F -jakauma: ovat riippumatto- Jos Xk 2 χ2 k mia, silloin ja X2 m χ2 m (20) F = X2 k /k X 2 m /m F k,m (noudattaa F -jakaumaa osoittajan vapausasteilla k ja nimittäjän vapausasteilla m. 17

2.3 Tilastollisenen päättely Tilastollinen päättely muodostuu estimoinnista ja hypoteesin testauksesta. Edellä jo sivuttiin estimointia. Tarkastellaan seuraavaksi hypoteesin testausta. Malli havainnoille: Tarkastellaan portland sementin laastiesimerkkiä. Koeasetelma: täysin satunnaistettu koe, jossa havainnot oletetaan muodostavan otokset otos kahdesta rippumattomasta normaalijakaumasta, N(µ 1, σ 2 1 ) ja N(µ, σ2 2 ). 18

Voidaan ajatella, että kysymyksessä on yhden tekijän (faktorin) koe, jossa faktorilla on kaksi tasoa i = 1 uusi sekoitus ja i = 2 vanha sekoitus, jotka määrittävät populaatiot. Kullekin havainolle Y ij saadaan malli: (21) Y i,j = µ i + ɛ ij, jossa ɛ ij N(0, σ 2 i ), i = 1, 2, j = 1,..., n. 19

Tilastolliset hypoteesit: Tutkimushypoteesi: onko seoksilla eroa? Tilastolliset hypoteesit: (22) H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Tilastollinen hypoteesi koskee jakaumaa tai sen parametreja. Vastahypotseesi voi olla myös yksisuuntainen, esim. H 1 : µ 1 < µ 2, jos on taustatietoa suunnasta. Yllä vastahypotseesi on kaksisuuntainen. Testisuure: Otoksesta laskettava tunnusluku, jonka perusteella päätös H 0 -hypoteesin hyväksymisestä tai hylkäämisestä tehdään. 20

Oletetaan, että σ 2 1 = σ2 2 σ2, silloin sopiva testisuure on (23) jossa t = Ȳ1 Ȳ 2, S 1 p n + 1 1 n 2 (24) S 2 p = (n 1 1)S 2 1 + (n 2 1)S 2 2 n 1 + n 2 2 on yhteisen varianssin σ 2 estimaattori. Kriittinen alue: Testisuureen arvot, jotka johtavat H 0 :n hylkäämiseen. Merkitsevyystaso α (I-lajin virheen tn): (25) α = P (hylätään H 0 H 0 on tosi). Testin tekijä valitsee. Käytetyimpiä ovat 0.05 ja 0.01. 21

Hyväksymisvirhe (II-lajin virhe): II-lajin virheen todennäköisyys β (26)β = P (hyväksytään H 0 H 0 epätosi). Ei (täysin) tutkijan kontrolloitavissa. Testin voimakkuus: 1 β Hypoteesin (22) testauksessa kriittinen alue merkitsevyystasolla α on (27) t > t α/2,n1 +n 2 2, jossa t 12 on t-jakauman taulukkoarvo α, n 1 +n 2 2 vapausasteilla df = n 1 + n 2 2 siten, että P ( T > t 12 α, n 1 +n 2 2 ) = α. 22

Esimerkki 2.3: (Esimerkkin 2.1 jatkoa) s p = 0.284, jolloin t = H 0 : µ 1 = µ 2 H 1 : µ 2 µ 2 16.76 17.92 0.284 1 10 + 1 10 9.13. Koska 9.13 < t 0.025,18 = 2.101, hylätään H 0 ja päätellään, että keskimääräiset sidoslujuudet poikkeavat toisistaan. Havaintoaineiston perusteella näyttää, että muunnetun lujuus on heikompi. 23

SAS:lla toteutettuna. Ajojono: data mortar; input type y; datalines; 1 16.85 1 16.40 1 17.21 1 16.35 1 16.52 1 17.04 1 16.96 1 17.15 1 16.59 1 16.57 2 17.50 2 17.63 2 18.25 2 18.00 2 17.86 2 17.75 2 18.22 2 17.90 2 17.96 2 18.15 ; proc ttest; var y; class type; run; 24

Tulokset: The TTEST Procedure T-Tests Variable Method Variances DF t Value Pr > t y Pooled Equal 18-9.11 <.0001 y Satterthwaite Unequal 17-9.11 <.0001 Equality of Variances Variable Method Num DF Den DF F Value Pr > F y Folded F 9 9 1.63 0.4785 25

p-arvo: p-arvo ilmoittaa pienimmän merkitsevyystason, jolla H 0 voidaan hylätä. Jos p-arvo < 0.01, voidaan H 0 hylätä 1%:n merkitsevyystasolla. Jos 0.01 < p < 0.05, voidaan H 0 hylätä 5%:n merkitsevyystasolla, mutta ei 1%:n merkitsevyystasolla. Esim. yllä p < 0.0001. 26

Testin oletusten tarkastelu: (Diagnostiset tarkastelut) Oletuksena: Y N(µ i, σ 2 ), i = 1, 2. Varianssien yhtäsuuruus: Voidaan testata hypoteesia (28) H 0 : σ 2 1 = σ2 2 vastahypoteesina (29) H 1 : σ 2 1 σ2 2 Testisuure: (30) F = S2 1 S2 2 noudatta F n1 1,n 2 1-jakaumaa, jos H 0 on tosi. Esim. yllä F = (0.3164) 2 /(0.2479) 2 = 1.63, p = 0.479, joten H 0 jää voimaan. Huom. 2.3: F -testiä (30) laskettaessa valitaan osoittajaksi suurempi variansseista. 27

Normaalisuus: Yksi tapa on tutkia graafisesti: Normal probability plot Normaalisuuskuvioita voidaan tuottaa useammalla eri tavalla. Eräs tapa: muodostaan järjestety otos x (1), x (2),..., x (n), jossa x (1) x (2) x (n), määrätään empiirisen kertymäfunktion arvot F j = (j 0.5)/n, lasketaan vastaavat standardoidun normaalijakauman arvot y j = Φ 1 (F j ) ja muodostetaan havaintopisteet (x (j), y (j) ). Jos havainnot ovat normaalijakaumasta, niin pisteiden pitäisi sijoittua (x, y)-tasossa likimain suoralle. 28

Unmodified mortar 2.0 Standardized Normal distribution values 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 17.4 17.5 17.6 17.7 17.8 17.9 18.0 18.1 18.2 18.3 Tension bond strength Modified mortar 2.0 Standardized Normal distribution values 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 16.3 16.4 16.5 16.6 16.7 16.8 16.9 17.0 17.1 17.2 17.3 Tension bond strength Molemmissa ryhmissä normaalisuus ok. 29

Vastinpariasetelma: Esimerkki 2.4: Tarkastellaan metallin kovuutta mittaavan koneen tuloksia. Kone painaa kärjellä metallipaloja tunetulla voimalla. Kovuus mitataan painauman syvyytenä. Tarkasteltavana on kaksi mittauskärkeä ja halutaan tutkia antavatko ne samoja tuloksia. Järjestetään koe, johon valitaan satunnaisesti 10 metallipalaa, leikataan ne kahtia ja allokoidaan puolikkaat satunnaisesti kärkien kesken (toinen toiselle ja toinen toiselle). Tilastollinen malli havainnoille on tällöin (31) Y ij = µ i + β j + ɛ ij, i = 1, 2, j = 1,..., 10, µ i on kärjen i todellinen keskimääräinen kovuustulos, β j on kappaleen j vaikutus kovuuteen ja ɛ ij on satunnaivirhe. Kappaleiden oma ominaisuus eliminoituu, kun tarkastellaan vastinparien mittaustulosten erotusta jolloin Nollahypoteesi d j = y 1j y 2j, µ d = E[d j ] = µ 1 µ 2. joka on sama kuin H 0 : µ 1 = µ 2 H 0 : µ d = 0. 30

Testisuure: (32) jossa ja s d = t = d = 1 n 1 n 1 d s d / n, n d j, j=1 n (d j d) 2. j=1 H 0 :n vallitessa testisuure (32) noudattaa t-jakaumaa vapausasteilla n 1. Huom. 2.4: Vastinpariasetelma on samalla esimerkki satunnaistetusta lohkokoeesta. 31