2. Keskiarvojen vartailua



Samankaltaiset tiedostot
2. Keskiarvojen vartailua

Testejä suhdeasteikollisille muuttujille

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Väliestimointi (jatkoa) Heliövaara 1

Hypoteesin testaus Alkeet

Sovellettu todennäköisyyslaskenta B

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisia peruskäsitteitä ja Monte Carlo

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu

Tilastollinen aineisto Luottamusväli

ARVIOINTIPERIAATTEET

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Sovellettu todennäköisyyslaskenta B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Osa 2: Otokset, otosjakaumat ja estimointi

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Regressioanalyysi. Vilkkumaa / Kuusinen 1

tilastotieteen kertaus

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tutkimustiedonhallinnan peruskurssi

10. laskuharjoituskierros, vko 14, ratkaisut

Estimointi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Todennäköisyyden ominaisuuksia

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Parametrin estimointi ja bootstrap-otanta

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Normaalijakaumasta johdettuja jakaumia

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

Testit laatueroasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Otoskoko 107 kpl. a) 27 b) 2654

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Testit järjestysasteikollisille muuttujille

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Estimointi. Otantajakauma

031021P Tilastomatematiikka (5 op) viikko 3

031021P Tilastomatematiikka (5 op) viikko 5

Tilastomatematiikka Kevät 2008

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

TILASTOMATEMATIIKKA. Keijo Ruohonen

031021P Tilastomatematiikka (5 op) viikko 4

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Osa 2: Otokset, otosjakaumat ja estimointi

Regressioanalyysi. Kuusinen/Heliövaara 1

TILASTOLLINEN LAADUNVALVONTA

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

STOKASTISET PROSESSIT

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Hierarkkiset koeasetelmat. Heliövaara 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

3.6 Su-estimaattorien asymptotiikka

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

pisteet Frekvenssi frekvenssi Yhteensä

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Transkriptio:

Havaintoaineiston perusteella näyttää ilmeiseltä, että alkuperäisen laastin sidoslujuus on suurempi. Ero sattumasta johtuvaa? Palataan tuonnempana. Tension bond strength data for Portland Cement formulation ======================================== Modified Unmodified Obs Mortar Mortar ---------------------------------------- 1 16.85 17.50 2 16.40 17.63 3 17.21 18.25 4 16.35 18.00 5 16.52 17.86 6 17.04 17.75 7 16.96 18.22 8 17.15 17.90 9 16.59 17.96 10 16.57 18.15 --------------------------------------- Mean 16.76 17.92 Std. Dev 0.316 0.248 Min 16.35 17.50 Max 17.21 18.22 ======================================= 1 2 2.1 Peruskäsitteiden kertausta 2. Keskiarvojen vartailua Esimerkki 2.1: Oheiset mittaukset liittyvät Portland Sementin sidoslujuuteen (kgf/cm 2 ). Mittaukset y 1 ovat nykyisestä seoksesta ja mittaukset y 2 uudesta seoksesta, jossa lisäaineena on käytetty polymeerilateksiemulsiota. Satunnaismuuttuja: Muuttuja, jonka arvot saadaan satunnaiskokeen tuloksena. Satunnaismuuttuja Y ja sen havaittu arvo y. Diskreetti satunnaismuuttuja: Voi saada vain numeroituvan määrän arvoja. Todennäköisyysjakauma: f Y (y) =P (Y = y), 0 f Y (y) 1 kaikilla y. Kertymäfunktio: F y(a) =P (Y a) = {y a} f Y (y). Molemmissa tapauksissa pätee: (i) 0 F Y (y) 1, kaikilla y (ii) F Y ( ) =0jaF Y ( ) =1. (iii) Jos y 1 y 2, niin F Y (y 1 ) F Y (y 2 ) (monotoonisesti kasvava). (iv) Kaikilla a b, P (a Y b) =F Y (b) F Y (a). Jatkuva satunnaismuuttuja: Ylinumeroituva määrä arvoja. Todennäköisyystiheys: f Y (y), f Y (y) 0 kaikilla y. Kertymäfunktio: F y(a) =P (Y a) = a f Y (y)dy. 3 4

Odotusarvo: yf Y (y)dy, μ =E[Y ]= y yp(y = y), (1) Varianssi: Y jatkuva Y diskreetti Var[Y ]=σ 2 = E[(Y E[Y ]) 2 ] = E[(Y μ) 2 ]. (2) Pätee: (3) σ 2 =E[Y 2 ] μ 2. Kovarianssi: Saunnaismuuttujat X ja Y (4) Cov[X, Y ]=σ xy = E[(X μ x )(Y μ y )], jossa μ x =E[X] jaμ y =E[Y ]. Pätee: (5) Cov[X, Y ]=E[XY ] E[X]E[Y ] Huom. 2.1: Cov[X, X] = Var[X]. Korrelaatio (6) jossa σ x = σ y = ρ xy = Cov[X, Y ] Var[X]Var[Y ] = σ xy σ x σ y, Var[X] on X:n keskihajonta ja Var[Y ]on Y :n keskihajonta. 5 6 Ominaisuuksia: Satunnaismuuttujat X ja Y, a ja b vakioita (ei-stokstisia) (1) E[a] =a (2) E[aY ]=ae[y ] (3) Var[a] =0 (4) Var[aY ]=a 2 Var[Y ] (5) E[aX + by ]=ae[x]+be[y ] (6) Var[aX + by ]=a 2 Var[X]+b 2 Var[Y ]+2abCov[X, Y ]. Jos X ja Y ovat korreloimattomia (Cov[X, Y ]= 0) (7) Cov[X, Y ] =0 (8) Var[X ± Y ]=Var[X]+Var[Y ] (9) E[XY ] =E[X]E[Y ]. Kuitenkin yleensä (10) E [ ] X Y E[X]. E[Y ] 2.2 Otos ja otosjakauma Populaatiosta poimittua osajoukkoa sanotaan otokseksi, jos sen poimintatodennäköisyys on sama kuin minkä tahansa muun saman kokoisen osajoukon. Matemaattisesti otos on joukko riippumattomia ja samoin jakautuneita satunnaismuuttujia. X 1,...,X n on otos satunnaismuuttujasta X. Otoksen realisaatio koostuu havaituista arvoista x 1,...,x n. 7 8

Estimaattori Satunnaismuuttujan jakaumaan liittyviä suureita, kuten odotusarvo E[X] =μ ja Var[X] =σ 2, sanotaan jakauman parametreiksi. Otoksesta laskettu funktiota, T = t(x 1,...,X n ) sanotaan tunnusluvuksi, jos se on ainoastaan satunnaismuuttujien X 1,...,X n funktio (ei siis riipu jakauman parametreista). Tunnusluvun realisaatio: t = t(x 1,...,x n ), jossa satunnaismuuttujat on korvattu havaituilla arvoilla. Estimaattori on tunnusluku, jonka tarkoituksena on arvioida parametrin arvoa otoksen perusteella. Estimaattorin havaituista arvoista laskettua arvoa sanotaan estimaatiksi. Siis estimaattori on laskukaava (funktio) ja estimaatti on funktion arvo. Huom. 2.2: Estimaattori on satunnaismuuttuja. Estimaattorin T = t(x 1,...,X n ) jakaumaa sanotaan sen otosjakaumaksi. 9 10 Esimerkki 2.1: Otoskeskiarvo: X = 1 n (7) X i n i=1 on odotusarvon μ = E[X] estimaattori (estimaatti on vastaavasti x =(1/n) n i=1 x i) Otosvarianssi: S 2 = 1 n (8) (X i X) 2 n 1 i=1 on varianssin σ 2 = E[(X μ) 2 ] estimaattori. Estimaattorilta vaadittavia ominaisuuksia: Olkoon yleisesti parametri θ ja sen estimaattori T = t(x 1,...,X n ). (i) Harhattomuus: E[T ] =θ. (ii) Minimivariannsiharhaton: E[T ] = θ ja Var[T ] on pienempi kuin minkä tahansa muun θ:n harhattoman estimaattorin. Vastaavasti otoskesihajonta S = S 2 os keskihajonna σ = σ 2 estimaattori. 11 12

Esimerkki 2.2: Olkoon X 1,...,X n otos satunnaismuuttujasta X, E[X] =μ ja Var[X] =σ 2. Silloin (9) E[ X] =μ ja (10) E[S 2 ]=σ 2. Lisäksi, jos X N(μ, σ 2 ), niin ) (11) X N (μ, σ2 n ja (n 1)S 2 (12) χ 2 n 1. σ 2 Lause 2.1: Keskeinen raja-arvolause. Olkoon Y 1,...,Y n riippumattomia ja samoin jakautuneita satunnaismuuttujia [independen and identically distributed (iid)], jossa E[Y i ]=μ ja Var[Y i ]=σ 2. Silloin satunnaismuuttujan n(ȳ μ) (13) Z n = σ jakauma lähestyy standardoitua normaalijakaumaa, N(0, 1), kun n. 13 14 χ 2 -jakauma: Olkoon Z 1,...,Z k riippumattomia N(0, 1) (merk. Z i NID(0, 1)) satunnaismuuttujia. Silloin (14) X = Z 2 1 + + Z2 k χ2 k. t-jakauma: Jos Z N(0, 1) ja X χ 2 k ovat riippumattomia, niin (17) T = X/k Z t k (15) ja (16) E[X] =k Var[X] =2k. (T noudattaa Studentin t-jakaumaa vapausasteilla k). (18) E[T ]=0 (19) kun k>2 Var[T ]= k k 2, 15 16

F -jakauma: Jos Xk 2 χ2 k ja X2 m χ2 m ovat riippumattomia, silloin (20) F = X2 k /k Xm 2 /m F k,m (noudattaa F -jakaumaa osoittajan vapausasteilla k ja nimittäjän vapausasteilla m. 2.3 Tilastollisenen päättely Tilastollinen päättely muodostuu estimoinnista ja hypoteesin testauksesta. Edellä jo sivuttiin estimointia. Tarkastellaan seuraavaksi hypoteesin testausta. Malli havainnoille: Tarkastellaan portland sementin laastiesimerkkiä. Koeasetelma: täysin satunnaistettu koe, jossa havainnot oletetaan muodostavan otokset otos kahdesta rippumattomasta normaalijakaumasta, N(μ 1,σ 2 1 )jan(μ, σ2 2 ). 17 18 Voidaan ajatella, että kysymyksessä on yhden tekijän (faktorin) koe, jossa faktorilla on kaksi tasoa i = 1 uusi sekoitus ja i = 2 vanha sekoitus, jotka määrittävät populaatiot. Kullekin havainolle Y ij saadaan malli: (21) Y i,j = μ i + ɛ ij, jossa ɛ ij N(0,σi 2 ), i =1, 2, j =1,...,n. Tilastolliset hypoteesit: Tutkimushypoteesi: onko seoksilla eroa? Tilastolliset hypoteesit: (22) H 0 : μ 1 = μ 2 H 1 : μ 1 μ 2 Tilastollinen hypoteesi koskee jakaumaa tai sen parametreja. Vastahypotseesi voi olla myös yksisuuntainen, esim. H 1 : μ 1 <μ 2, jos on taustatietoa suunnasta. Yllä vastahypotseesi on kaksisuuntainen. Testisuure: Otoksesta laskettava tunnusluku, jonka perusteella päätös H 0 -hypoteesin hyväksymisestä tai hylkäämisestä tehdään. 19 20

Oletetaan, että σ 2 1 = σ2 2 σ2, silloin sopiva testisuure on (23) jossa t = Ȳ1 Ȳ 2, S 1 p n + 1 1 n 2 Sp 2 = (n 1 1)S1 2 +(n 2 1)S2 2 (24) n 1 + n 2 2 on yhteisen varianssin σ 2 estimaattori. Kriittinen alue: Testisuureen arvot, jotka johtavat H 0 :n hylkäämiseen. Merkitsevyystaso α (I-lajin virheen tn): (25) α = P (hylätään H 0 H 0 on tosi). Testin tekijä valitsee. Käytetyimpiä ovat 0.05 ja 0.01. Hyväksymisvirhe (II-lajin virhe): II-lajin virheen todennäköisyys β (26)β = P (hyväksytään H 0 H 0 epätosi). Ei (täysin) tutkijan kontrolloitavissa. Testin voimakkuus: 1 β Hypoteesin (22) testauksessa kriittinen alue merkitsevyystasolla α on (27) t >t α/2,n1 +n 2 2, jossa t 12 on t-jakauman taulukkoarvo α, n 1 +n 2 2 vapausasteilla df = n 1 + n 2 2 siten, että P ( T >t 12 α, n 1 +n 2 2 )=α. 21 22 Esimerkki 2.3: (Esimerkkin 2.1 jatkoa) H 0 : μ 1 = μ 2 H 1 : μ 2 μ 2 s p =0.284, jolloin 16.76 17.92 t = 9.13. 0.284 1 10 + 1 10 Koska 9.13 < t 0.025,18 = 2.101, hylätään H 0 ja päätellään, että keskimääräiset sidoslujuudet poikkeavat toisistaan. Havaintoaineiston perusteella näyttää, että muunnetun lujuus on heikompi. SAS:lla toteutettuna. Ajojono: data mortar; input type y; datalines; 1 16.85 1 16.40 1 17.21 1 16.35 1 16.52 1 17.04 1 16.96 1 17.15 1 16.59 1 16.57 2 17.50 2 17.63 2 18.25 2 18.00 2 17.86 2 17.75 2 18.22 2 17.90 2 17.96 2 18.15 ; proc ttest; var y; class type; run; 23 24

Tulokset: The TTEST Procedure T-Tests Variable Method Variances DF t Value Pr > t y Pooled Equal 18-9.11 <.0001 y Satterthwaite Unequal 17-9.11 <.0001 Equality of Variances Variable Method Num DF Den DF F Value Pr > F y Folded F 9 9 1.63 0.4785 p-arvo: p-arvo ilmoittaa pienimmän merkitsevyystason, jolla H 0 voidaan hylätä. Jos p-arvo < 0.01, voidaan H 0 hylätä 1%:n merkitsevyystasolla. Jos 0.01 <p<0.05, voidaan H 0 hylätä 5%:n merkitsevyystasolla, mutta ei 1%:n merkitsevyystasolla. Esim. yllä p<0.0001. 25 26 Testin oletusten tarkastelu: (Diagnostiset tarkastelut) Oletuksena: Y N(μ i,σ 2 ), i =1, 2. Varianssien yhtäsuuruus: Voidaan testata hypoteesia (28) vastahypoteesina (29) Testisuure: H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 σ2 2 (30) F = S2 1 S2 2 noudatta F n1 1,n 2 1-jakaumaa, jos H 0 on tosi. Esim. yllä F =(0.3164) 2 /(0.2479) 2 =1.63, p =0.479, joten H 0 jää voimaan. Huom. 2.3: F -testiä (30) laskettaessa valitaan osoittajaksi suurempi variansseista. 27 Normaalisuus: Yksi tapa on tutkia graafisesti: Normal probability plot Normaalisuuskuvioita voidaan tuottaa useammalla eri tavalla. Eräs tapa: muodostaan järjestety otos x (1),x (2),...,x (n), jossa x (1) x (2) x (n),määrätään empiirisen kertymäfunktion arvot F j =(j 0.5)/n, lasketaan vastaavat standardoidun normaalijakauman arvot y j =Φ 1 (F j ) ja muodostetaan havaintopisteet (x (j),y (j) ). Jos havainnot ovat normaalijakaumasta, niin pisteiden pitäisi sijoittua (x, y)-tasossa likimain suoralle. 28

Vastinpariasetelma: Standardized Normal distribution values Standardized Normal distribution values Unmodified mortar 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 17.4 17.5 17.6 17.7 17.8 17.9 18.0 18.1 18.2 18.3 Tension bond strength Modified mortar 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 16.3 16.4 16.5 16.6 16.7 16.8 16.9 17.0 17.1 17.2 17.3 Tension bond strength Molemmissa ryhmissä normaalisuus ok. Esimerkki 2.4: Tarkastellaan metallin kovuutta mittaavan koneen tuloksia. Kone painaa kärjellä metallipaloja tunetulla voimalla. Kovuus mitataan painauman syvyytenä. Tarkasteltavana on kaksi mittauskärkeä ja halutaan tutkia antavatko ne samoja tuloksia. Järjestetään koe, johon valitaan satunnaisesti 10 metallipalaa, leikataan ne kahtia ja allokoidaan puolikkaat satunnaisesti kärkien kesken (toinen toiselle ja toinen toiselle). Tilastollinen malli havainnoille on tällöin (31) Y ij = μ i + β j + ɛ ij, i =1, 2, j =1,...,10, μ i on kärjen i todellinen keskimääräinen kovuustulos, β j on kappaleen j vaikutus kovuuteen ja ɛ ij on satunnaivirhe. Kappaleiden oma ominaisuus eliminoituu, kun tarkastellaan vastinparien mittaustulosten erotusta d j = y 1j y 2j, jolloin μ d =E[d j ]=μ 1 μ 2. Nollahypoteesi H 0 : μ 1 = μ 2 joka on sama kuin H 0 : μ d =0. 29 30 Testisuure: (32) t = d s d / n, jossa d = 1 n d j, n j=1 ja s d = 1 n (d j d) 2. n 1 j=1 H 0 :n vallitessa testisuure (32) noudattaa t-jakaumaa vapausasteilla n 1. Huom. 2.4: Vastinpariasetelma on samalla esimerkki satunnaistetusta lohkokoeesta. 31