Havaintoaineiston perusteella näyttää ilmeiseltä, että alkuperäisen laastin sidoslujuus on suurempi. Ero sattumasta johtuvaa? Palataan tuonnempana. Tension bond strength data for Portland Cement formulation ======================================== Modified Unmodified Obs Mortar Mortar ---------------------------------------- 1 16.85 17.50 2 16.40 17.63 3 17.21 18.25 4 16.35 18.00 5 16.52 17.86 6 17.04 17.75 7 16.96 18.22 8 17.15 17.90 9 16.59 17.96 10 16.57 18.15 --------------------------------------- Mean 16.76 17.92 Std. Dev 0.316 0.248 Min 16.35 17.50 Max 17.21 18.22 ======================================= 1 2 2.1 Peruskäsitteiden kertausta 2. Keskiarvojen vartailua Esimerkki 2.1: Oheiset mittaukset liittyvät Portland Sementin sidoslujuuteen (kgf/cm 2 ). Mittaukset y 1 ovat nykyisestä seoksesta ja mittaukset y 2 uudesta seoksesta, jossa lisäaineena on käytetty polymeerilateksiemulsiota. Satunnaismuuttuja: Muuttuja, jonka arvot saadaan satunnaiskokeen tuloksena. Satunnaismuuttuja Y ja sen havaittu arvo y. Diskreetti satunnaismuuttuja: Voi saada vain numeroituvan määrän arvoja. Todennäköisyysjakauma: f Y (y) =P (Y = y), 0 f Y (y) 1 kaikilla y. Kertymäfunktio: F y(a) =P (Y a) = {y a} f Y (y). Molemmissa tapauksissa pätee: (i) 0 F Y (y) 1, kaikilla y (ii) F Y ( ) =0jaF Y ( ) =1. (iii) Jos y 1 y 2, niin F Y (y 1 ) F Y (y 2 ) (monotoonisesti kasvava). (iv) Kaikilla a b, P (a Y b) =F Y (b) F Y (a). Jatkuva satunnaismuuttuja: Ylinumeroituva määrä arvoja. Todennäköisyystiheys: f Y (y), f Y (y) 0 kaikilla y. Kertymäfunktio: F y(a) =P (Y a) = a f Y (y)dy. 3 4
Odotusarvo: yf Y (y)dy, μ =E[Y ]= y yp(y = y), (1) Varianssi: Y jatkuva Y diskreetti Var[Y ]=σ 2 = E[(Y E[Y ]) 2 ] = E[(Y μ) 2 ]. (2) Pätee: (3) σ 2 =E[Y 2 ] μ 2. Kovarianssi: Saunnaismuuttujat X ja Y (4) Cov[X, Y ]=σ xy = E[(X μ x )(Y μ y )], jossa μ x =E[X] jaμ y =E[Y ]. Pätee: (5) Cov[X, Y ]=E[XY ] E[X]E[Y ] Huom. 2.1: Cov[X, X] = Var[X]. Korrelaatio (6) jossa σ x = σ y = ρ xy = Cov[X, Y ] Var[X]Var[Y ] = σ xy σ x σ y, Var[X] on X:n keskihajonta ja Var[Y ]on Y :n keskihajonta. 5 6 Ominaisuuksia: Satunnaismuuttujat X ja Y, a ja b vakioita (ei-stokstisia) (1) E[a] =a (2) E[aY ]=ae[y ] (3) Var[a] =0 (4) Var[aY ]=a 2 Var[Y ] (5) E[aX + by ]=ae[x]+be[y ] (6) Var[aX + by ]=a 2 Var[X]+b 2 Var[Y ]+2abCov[X, Y ]. Jos X ja Y ovat korreloimattomia (Cov[X, Y ]= 0) (7) Cov[X, Y ] =0 (8) Var[X ± Y ]=Var[X]+Var[Y ] (9) E[XY ] =E[X]E[Y ]. Kuitenkin yleensä (10) E [ ] X Y E[X]. E[Y ] 2.2 Otos ja otosjakauma Populaatiosta poimittua osajoukkoa sanotaan otokseksi, jos sen poimintatodennäköisyys on sama kuin minkä tahansa muun saman kokoisen osajoukon. Matemaattisesti otos on joukko riippumattomia ja samoin jakautuneita satunnaismuuttujia. X 1,...,X n on otos satunnaismuuttujasta X. Otoksen realisaatio koostuu havaituista arvoista x 1,...,x n. 7 8
Estimaattori Satunnaismuuttujan jakaumaan liittyviä suureita, kuten odotusarvo E[X] =μ ja Var[X] =σ 2, sanotaan jakauman parametreiksi. Otoksesta laskettu funktiota, T = t(x 1,...,X n ) sanotaan tunnusluvuksi, jos se on ainoastaan satunnaismuuttujien X 1,...,X n funktio (ei siis riipu jakauman parametreista). Tunnusluvun realisaatio: t = t(x 1,...,x n ), jossa satunnaismuuttujat on korvattu havaituilla arvoilla. Estimaattori on tunnusluku, jonka tarkoituksena on arvioida parametrin arvoa otoksen perusteella. Estimaattorin havaituista arvoista laskettua arvoa sanotaan estimaatiksi. Siis estimaattori on laskukaava (funktio) ja estimaatti on funktion arvo. Huom. 2.2: Estimaattori on satunnaismuuttuja. Estimaattorin T = t(x 1,...,X n ) jakaumaa sanotaan sen otosjakaumaksi. 9 10 Esimerkki 2.1: Otoskeskiarvo: X = 1 n (7) X i n i=1 on odotusarvon μ = E[X] estimaattori (estimaatti on vastaavasti x =(1/n) n i=1 x i) Otosvarianssi: S 2 = 1 n (8) (X i X) 2 n 1 i=1 on varianssin σ 2 = E[(X μ) 2 ] estimaattori. Estimaattorilta vaadittavia ominaisuuksia: Olkoon yleisesti parametri θ ja sen estimaattori T = t(x 1,...,X n ). (i) Harhattomuus: E[T ] =θ. (ii) Minimivariannsiharhaton: E[T ] = θ ja Var[T ] on pienempi kuin minkä tahansa muun θ:n harhattoman estimaattorin. Vastaavasti otoskesihajonta S = S 2 os keskihajonna σ = σ 2 estimaattori. 11 12
Esimerkki 2.2: Olkoon X 1,...,X n otos satunnaismuuttujasta X, E[X] =μ ja Var[X] =σ 2. Silloin (9) E[ X] =μ ja (10) E[S 2 ]=σ 2. Lisäksi, jos X N(μ, σ 2 ), niin ) (11) X N (μ, σ2 n ja (n 1)S 2 (12) χ 2 n 1. σ 2 Lause 2.1: Keskeinen raja-arvolause. Olkoon Y 1,...,Y n riippumattomia ja samoin jakautuneita satunnaismuuttujia [independen and identically distributed (iid)], jossa E[Y i ]=μ ja Var[Y i ]=σ 2. Silloin satunnaismuuttujan n(ȳ μ) (13) Z n = σ jakauma lähestyy standardoitua normaalijakaumaa, N(0, 1), kun n. 13 14 χ 2 -jakauma: Olkoon Z 1,...,Z k riippumattomia N(0, 1) (merk. Z i NID(0, 1)) satunnaismuuttujia. Silloin (14) X = Z 2 1 + + Z2 k χ2 k. t-jakauma: Jos Z N(0, 1) ja X χ 2 k ovat riippumattomia, niin (17) T = X/k Z t k (15) ja (16) E[X] =k Var[X] =2k. (T noudattaa Studentin t-jakaumaa vapausasteilla k). (18) E[T ]=0 (19) kun k>2 Var[T ]= k k 2, 15 16
F -jakauma: Jos Xk 2 χ2 k ja X2 m χ2 m ovat riippumattomia, silloin (20) F = X2 k /k Xm 2 /m F k,m (noudattaa F -jakaumaa osoittajan vapausasteilla k ja nimittäjän vapausasteilla m. 2.3 Tilastollisenen päättely Tilastollinen päättely muodostuu estimoinnista ja hypoteesin testauksesta. Edellä jo sivuttiin estimointia. Tarkastellaan seuraavaksi hypoteesin testausta. Malli havainnoille: Tarkastellaan portland sementin laastiesimerkkiä. Koeasetelma: täysin satunnaistettu koe, jossa havainnot oletetaan muodostavan otokset otos kahdesta rippumattomasta normaalijakaumasta, N(μ 1,σ 2 1 )jan(μ, σ2 2 ). 17 18 Voidaan ajatella, että kysymyksessä on yhden tekijän (faktorin) koe, jossa faktorilla on kaksi tasoa i = 1 uusi sekoitus ja i = 2 vanha sekoitus, jotka määrittävät populaatiot. Kullekin havainolle Y ij saadaan malli: (21) Y i,j = μ i + ɛ ij, jossa ɛ ij N(0,σi 2 ), i =1, 2, j =1,...,n. Tilastolliset hypoteesit: Tutkimushypoteesi: onko seoksilla eroa? Tilastolliset hypoteesit: (22) H 0 : μ 1 = μ 2 H 1 : μ 1 μ 2 Tilastollinen hypoteesi koskee jakaumaa tai sen parametreja. Vastahypotseesi voi olla myös yksisuuntainen, esim. H 1 : μ 1 <μ 2, jos on taustatietoa suunnasta. Yllä vastahypotseesi on kaksisuuntainen. Testisuure: Otoksesta laskettava tunnusluku, jonka perusteella päätös H 0 -hypoteesin hyväksymisestä tai hylkäämisestä tehdään. 19 20
Oletetaan, että σ 2 1 = σ2 2 σ2, silloin sopiva testisuure on (23) jossa t = Ȳ1 Ȳ 2, S 1 p n + 1 1 n 2 Sp 2 = (n 1 1)S1 2 +(n 2 1)S2 2 (24) n 1 + n 2 2 on yhteisen varianssin σ 2 estimaattori. Kriittinen alue: Testisuureen arvot, jotka johtavat H 0 :n hylkäämiseen. Merkitsevyystaso α (I-lajin virheen tn): (25) α = P (hylätään H 0 H 0 on tosi). Testin tekijä valitsee. Käytetyimpiä ovat 0.05 ja 0.01. Hyväksymisvirhe (II-lajin virhe): II-lajin virheen todennäköisyys β (26)β = P (hyväksytään H 0 H 0 epätosi). Ei (täysin) tutkijan kontrolloitavissa. Testin voimakkuus: 1 β Hypoteesin (22) testauksessa kriittinen alue merkitsevyystasolla α on (27) t >t α/2,n1 +n 2 2, jossa t 12 on t-jakauman taulukkoarvo α, n 1 +n 2 2 vapausasteilla df = n 1 + n 2 2 siten, että P ( T >t 12 α, n 1 +n 2 2 )=α. 21 22 Esimerkki 2.3: (Esimerkkin 2.1 jatkoa) H 0 : μ 1 = μ 2 H 1 : μ 2 μ 2 s p =0.284, jolloin 16.76 17.92 t = 9.13. 0.284 1 10 + 1 10 Koska 9.13 < t 0.025,18 = 2.101, hylätään H 0 ja päätellään, että keskimääräiset sidoslujuudet poikkeavat toisistaan. Havaintoaineiston perusteella näyttää, että muunnetun lujuus on heikompi. SAS:lla toteutettuna. Ajojono: data mortar; input type y; datalines; 1 16.85 1 16.40 1 17.21 1 16.35 1 16.52 1 17.04 1 16.96 1 17.15 1 16.59 1 16.57 2 17.50 2 17.63 2 18.25 2 18.00 2 17.86 2 17.75 2 18.22 2 17.90 2 17.96 2 18.15 ; proc ttest; var y; class type; run; 23 24
Tulokset: The TTEST Procedure T-Tests Variable Method Variances DF t Value Pr > t y Pooled Equal 18-9.11 <.0001 y Satterthwaite Unequal 17-9.11 <.0001 Equality of Variances Variable Method Num DF Den DF F Value Pr > F y Folded F 9 9 1.63 0.4785 p-arvo: p-arvo ilmoittaa pienimmän merkitsevyystason, jolla H 0 voidaan hylätä. Jos p-arvo < 0.01, voidaan H 0 hylätä 1%:n merkitsevyystasolla. Jos 0.01 <p<0.05, voidaan H 0 hylätä 5%:n merkitsevyystasolla, mutta ei 1%:n merkitsevyystasolla. Esim. yllä p<0.0001. 25 26 Testin oletusten tarkastelu: (Diagnostiset tarkastelut) Oletuksena: Y N(μ i,σ 2 ), i =1, 2. Varianssien yhtäsuuruus: Voidaan testata hypoteesia (28) vastahypoteesina (29) Testisuure: H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 σ2 2 (30) F = S2 1 S2 2 noudatta F n1 1,n 2 1-jakaumaa, jos H 0 on tosi. Esim. yllä F =(0.3164) 2 /(0.2479) 2 =1.63, p =0.479, joten H 0 jää voimaan. Huom. 2.3: F -testiä (30) laskettaessa valitaan osoittajaksi suurempi variansseista. 27 Normaalisuus: Yksi tapa on tutkia graafisesti: Normal probability plot Normaalisuuskuvioita voidaan tuottaa useammalla eri tavalla. Eräs tapa: muodostaan järjestety otos x (1),x (2),...,x (n), jossa x (1) x (2) x (n),määrätään empiirisen kertymäfunktion arvot F j =(j 0.5)/n, lasketaan vastaavat standardoidun normaalijakauman arvot y j =Φ 1 (F j ) ja muodostetaan havaintopisteet (x (j),y (j) ). Jos havainnot ovat normaalijakaumasta, niin pisteiden pitäisi sijoittua (x, y)-tasossa likimain suoralle. 28
Vastinpariasetelma: Standardized Normal distribution values Standardized Normal distribution values Unmodified mortar 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 17.4 17.5 17.6 17.7 17.8 17.9 18.0 18.1 18.2 18.3 Tension bond strength Modified mortar 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 16.3 16.4 16.5 16.6 16.7 16.8 16.9 17.0 17.1 17.2 17.3 Tension bond strength Molemmissa ryhmissä normaalisuus ok. Esimerkki 2.4: Tarkastellaan metallin kovuutta mittaavan koneen tuloksia. Kone painaa kärjellä metallipaloja tunetulla voimalla. Kovuus mitataan painauman syvyytenä. Tarkasteltavana on kaksi mittauskärkeä ja halutaan tutkia antavatko ne samoja tuloksia. Järjestetään koe, johon valitaan satunnaisesti 10 metallipalaa, leikataan ne kahtia ja allokoidaan puolikkaat satunnaisesti kärkien kesken (toinen toiselle ja toinen toiselle). Tilastollinen malli havainnoille on tällöin (31) Y ij = μ i + β j + ɛ ij, i =1, 2, j =1,...,10, μ i on kärjen i todellinen keskimääräinen kovuustulos, β j on kappaleen j vaikutus kovuuteen ja ɛ ij on satunnaivirhe. Kappaleiden oma ominaisuus eliminoituu, kun tarkastellaan vastinparien mittaustulosten erotusta d j = y 1j y 2j, jolloin μ d =E[d j ]=μ 1 μ 2. Nollahypoteesi H 0 : μ 1 = μ 2 joka on sama kuin H 0 : μ d =0. 29 30 Testisuure: (32) t = d s d / n, jossa d = 1 n d j, n j=1 ja s d = 1 n (d j d) 2. n 1 j=1 H 0 :n vallitessa testisuure (32) noudattaa t-jakaumaa vapausasteilla n 1. Huom. 2.4: Vastinpariasetelma on samalla esimerkki satunnaistetusta lohkokoeesta. 31