TILASTOMATEMATIIKKA. Keijo Ruohonen



Samankaltaiset tiedostot
Testejä suhdeasteikollisille muuttujille

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollinen aineisto Luottamusväli

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Testit järjestysasteikollisille muuttujille

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Estimointi. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tutkimustiedonhallinnan peruskurssi

Otoskoko 107 kpl. a) 27 b) 2654

Parametrin estimointi ja bootstrap-otanta

Hypoteesin testaus Alkeet

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Normaalijakaumasta johdettuja jakaumia

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

3.6 Su-estimaattorien asymptotiikka

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Sovellettu todennäköisyyslaskenta B

Todennäköisyyden ominaisuuksia

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

riippumattomia ja noudattavat samaa jakaumaa.

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

031021P Tilastomatematiikka (5 op) viikko 4

Testit laatueroasteikollisille muuttujille

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Harjoitus 2: Matlab - Statistical Toolbox

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Sovellettu todennäköisyyslaskenta B

Harjoitus 7: NCSS - Tilastollinen analyysi

4.0.2 Kuinka hyvä ennuste on?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

1. JOHDANTO. SIS LLYSLUETTELO sivu 1. JOHDANTO 3

Todennäköisyysjakaumia

MTTTP5, luento Luottamusväli, määritelmä

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Todennäköisyyslaskenta sivuaineopiskelijoille

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Teema 8: Parametrien estimointi ja luottamusvälit

6. laskuharjoitusten vastaukset (viikot 10 11)

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

dx=5&uilang=fi&lang=fi&lvv=2014

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Osa 2: Otokset, otosjakaumat ja estimointi

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

KURSSIN TILASTOMATEMATIIKKA KAAVOJA

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

2. Keskiarvojen vartailua

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Otantajakauma

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Mat Tilastollisen analyysin perusteet, kevät 2007

Batch means -menetelmä

9. laskuharjoituskierros, vko 12-13, ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Regressioanalyysi. Vilkkumaa / Kuusinen 1

10. laskuharjoituskierros, vko 14, ratkaisut

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Tutkimustiedonhallinnan peruskurssi

Kvantitatiiviset tutkimusmenetelmät maantieteessä

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

2. Keskiarvojen vartailua

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

TILASTOMATEMATIIKKA Keijo Ruohonen 20

Sisältö I PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET. Satunnaisotanta.2 Tärkeitä otossuureita 2.3 Datan esitykset ja graafiset metodit 6.4 Otosjakaumat 6.4. Otoskeskiarvon jakauma 9.4.2 Otosvarianssin jakauma 0.4.3 t-jakauma 2.4.4 F-jakauma 4 II YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 4 2. Piste-estimointi ja väliestimointi 6 2.2 Yksi otos: Odotusarvon väliestimointi 9 2.3 Ennustevälit 20 2.4 Toleranssivälit 2 2.5 Kaksi otosta: Odotusarvojen erotuksen estimointi 24 2.6 Parittaiset havainnot 24 2.7 Suhdeluvun estimointi 26 2.8 Yksi otos: Varianssin estimointi 27 2.9 Kaksi otosta: Varianssien suhteen estimointi 29 III HYPOTEESIEN TESTAUS 29 3. Tilastolliset hypoteesit 29 3.2 Hypoteesien testaus 3 3.3 Kaksipuoliset ja toispuoliset testit 32 3.4 Testisuureet 34 3.5 P-arvot 35 3.6 Odotusarvojen testaus 37 3.7 Varianssien testaus 39 3.8 Odotusarvojen vertailu graafisesti 40 IVχ 2 -TESTIT 40 4. Jakauman sopivuustesti 4 4.2 Riippumattomuustesti. Kontingenssitaulut 43 4.3 Homogeenisuustesti 46 V SUURIMMAN USKOTTAVUUDEN ESTIMOINTI 46 5. Suurimman uskottavuuden estimointi 47 5.2 Esimerkkejä i

ii 50 VI MONEN MUUTTUJAN LINEAARINEN REGRESSIO 50 6. Regressiomalli 5 6.2 Parametrien estimointi. Matriisiesitys 54 6.3 Parametriestimaattorien ominaisuuksia 57 6.4 Regression tilastollinen käsittely 59 6.5 Sovitetun mallin tutkiminen 6 6.6 Kategoriset regressorit 63 6.7 Residuaalin tutkiminen 64 6.8 Logistinen regressio 68 VII PARAMETRITTOMAT MENETELMÄT 68 7. Merkkitesti 70 7.2 Merkityn järjestyksen testi 72 7.3 Mann Whitney-testi 74 7.4 Kruskal Wallis-testi 76 7.5 Järjestyskorrelaatiokerroin 79 VIII STOKASTINEN SIMULOINTI 79 8. Satunnaislukujen generointi 80 8..2 Diskreettien jakaumien generointi 8 8..3 Jatkuvien jakaumien generointi käänteiskertymämenetelmällä 82 8..4 Jatkuvien jakaumien generointi hyväksy hylkää-menetelmällä 83 8.2 Uudelleenotanta 84 8.3 Monte Carlo -integrointi 86 Liite: TOLERANSSIVÄLITAULUKKO Esipuhe Tämä moniste on alunperin tarkoitettu TTY:n peruskurssin MAT-3330 Tilastomatematiikka luentotiivistelmäksi. Sopivin osin se on nyt käytössä peruskurssin MAT-333 Tilastomatematiikka luentotiivistelmänä. Moniste on kirjoitettu jotakuinkin vastaamaan kirjan WALPO- LE, R.E. & MYERS, R.H. & MYERS, S.L. & YE, K.: Probability & Statistics for Engineers & Scientists. Pearson Prentice Hall (2007) Lukujen 8, 9, 0, 2 ja 6 sisältöä. Kirja (jatkossa lyhyesti WMMY) on maailmanlaajuisesti yksi suosituimpia tilastomatematiikan alkeiskirjoja. Lisäksi on käsitelty stokastista simulointia. WMMYn vastinpykälät on merkitty oikeaan marginaaliin. Tämä moniste on kuitenkin huomattavasti tiiviimpi kuin WMMY, eikä näin varsinaisesti korvaa sitä tai esimerkiksi sovellu yhtä hyvin itseopiskeluun. Monin paikoin asian käsittely myöskin poikkeaa kirjan WMMY vastaavasta, esitystä on osin täydennetty ja korjattu ja eräät nykykäsityksen mukaan liian epätarkat menetelmät on korvattu toisilla. Monisteessa esitettävät esimerkit ovat pääosin kirjasta WMMY. Näiden esimerkkien numerot WMMYssä on merkitty oikeaan marginaaliin. Ne on kuitenkin kaikki ajettu uudelleen käyttäen MATLAB-ohjelmaa tai tilasto-ohjelmaa JMP tai nettilaskimia. Esimerkkejä ei myöskään ole käsitelty yhtä perusteellisesti kuin kirjassa ja monet niistä on lisäksi käsitelty eri tavoin. Kurssin MAT-333 Tilastomatematiikka ehdoton esitieto on kurssi MAT-2050 Todennäköisyyslaskenta, tai vastaavasti kirjan WMMY Luvut 8. Nämä kurssit käsittävät vain

tilastomatematiikan alkeet. Tarjolla onkin myös moneen suuntaan huomattavasti pidemmälle meneviä syventäviä kursseja. Mainittakoon esimerkiksi alan matemaattista puolta perusteellisemmin käsittelevä MAT-5800 Matemaattinen tilastotiede, Bayes-tyyppistä tilastomatematiikkaa käsittelevä MAT-5706 Bayesian methods, monimuuttujamenetelmiä (joihin kuuluu mm. regressio) käsittelevä kurssi MAT-4280 Tilastolliset monimuuttujamenetelmät sekä nimenomaan teknisillä aloilla käytettäviä menetelmiä käsittelevä kurssi MAT-34000 Tilastomatematiikka 2. iii Keijo Ruohonen

Luku PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET Tämä luku on paljolti kertausta kurssilta Todennäköisyyslaskenta. Uutena asiana tulevat otoksen graafiset eli deskriptiiviset esitykset.. Satunnaisotanta [8.] Populaatio on kaikkien mahdollisesti otokseen tulevien arvojen kokoelma. Arvo, numeerinen tai luokitteluarvo, voi esiintyä populaatiossa monta kertaa. Otos on tiettyjen populaatiosta valittujen arvojen kokoelma. Näiden lukumäärä on otoskoko, jota merkitään usein n:llä. Jos ko. arvot valitaan satunnaisesti, kyseessä on satunnaisotos. Otos voidaan ajatella ensinnäkin jonona satunnaismuuttujia: X, X 2,..., X n ( ensimmäinen otosalkio, toinen otosalkio,... ). Näillä satunnaismuuttujilla on sama jakauma ( satunnaisuus ) ja ne ovat riippumattomat. Konkreettinen otannan tuloksena saatu realisoitunut otos puolestaan on jono arvoja (numeerisia tai luokitteluarvoja): x, x 2,..., x n. Huomaa merkintä: satunnaismuuttujia merkitään isoin kirjaimin, arvoja pienin. Tässä tarkoitettu otanta on tarkemmin ottaen ns. otanta palauttaen, ts. jos populaatio on äärellinen (tai numeroituvasti ääretön), ajatellaan otettu alkio palautetuksi ennen seuraavan otokseen tulevan alkion ottamista. sample random sample IID: independent, identically distributed. Otantaa palauttamatta ei tässä sen kummemmin käsitellä, ks. esimerkiksi moniste RUOHONEN, K.: Tilastollinen kokeiden suunnittelu ja otanta..2 Tärkeitä otossuureita [8.2] Otossuure eli statistika on jokin otoksesta laskettu yksittäinen arvo: f(x,..., X n ) (satunnaismuuttuja) tai f(x,..., x n ) (realisoitunut arvo). Tuttu otossuure on otoskeskiarvo statistic sample mean X = n n X i tai x = n i= n x i, i= edellinen on satunnaismuuttuja, jälkimmäinen realisoitunut otoskeskiarvo.

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 2 Toinen tuttu otossuure on otosvarianssi S 2 = n n i= (X i X) 2 tai s 2 = n n (x i x) 2, i= sample variance jälleen edellinen on satunnaismuuttuja ja jälkimmäinen realisoitunut numeerinen arvo. Otosvarianssi voidaan myös kirjoittaa muotoon S 2 = n n Xi 2 n n X 2 i= (vastaavasti s 2 ). Ottamalla neliöjuuret saadaan otoshajonnat S ja s. Muita tärkeitä otossuureita ovat otosmaksimi ja -minimi. X max = max(x,..., X n ) tai x max = max(x,..., x n ), X min = min(x,..., X n ) tai x min = min(x,..., x n ) sekä näiden erotus, otosvaihteluväli. Avataan vain neliö (X i X) 2. sample standard deviation, sample maximum, sample minimum sample range R = X max X min tai r = x max x min..3 Datan esitykset ja graafiset metodit [8.3] Tutun pylväsdiagrammin eli histogrammin lisäksi on useita muitakin hyvin tavallisia tapoja havainnollistaa dataa. Esimerkki. Tässä esimerkissä otos muodostuu n = 40 satunnaisesti va- [8.3] litun savukkeen mitatusta nikotiinipitoisuudesta:.09.92 2.3.79 2.28.74.47.97 0.85.24.58 2.03.70 2.7 2.55 2..86.90.68.5.64 0.72.69.85.82.79 2.46.88 2.08.67.37.93.40.64 2.09.75.63 2.37.75.69 JMP-ohjelma tulostaa seuraavan (vähän siistityn) graafisen esityksen: Desimaalierottimena käytetään pistettä, ettei se sekaannu jonoerottimena käytettävään pilkkuun. Nicotinedata: Distribution Pa Distributions Content.5.5 2 2.5 Quantiles 00.0% 99.5% 97.5% 90.0% 75.0% 50.0% 25.0% 0.0% 2.5% 0.5% 0.0% maximum quartile median quartile minimum 2.5500 2.5500 2.5478 2.3070 2.050.7700.6325.2530 0.7232 0.7200 0.7200 Moments Mean Std Dev Std Err Mean upper 95% Mean lower 95% Mean N.77425 0.3904559 0.067365.899239.649376 40 Vasemmalla ylhäällä oleva ns. laatikko viikset-kuvio antaa tiivistetyn box and whiskers

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 3 kuvan datan jakaumasta. Laatikko-osa on alakvartiilin q(0.25) ja yläkvartiilin q(0.75) välinen osa otosarvoista (ks. alla). Laatikon sisällä on myös pystyviivalla merkitty otosmediaani (ks. alla). Viikset taas osoittavat otosmaksimin ja -minimin. Viiksiin voidaan merkitä muitakin kvantiileja (ks. alla). (Laatikon sisällä on myös luottamusvälin antava ns. keskiarvoruutu, johon palataan myöhemmin Pykälässä 3.8.) Usein otoksesta poistetaan yksi tai useampia ns. vieraita eli ulkolaisia, otosarvoja, jotka poikkeavat niin paljon tavallisesta, että niiden katsotaan syntyneen virheen seurauksena. Vieraiksi havaintoja voidaan luokitella erilaisin kriteerein. Vieraat on kuvaan merkitty pisteillä (tässä on kaksi vierasta). Pylväsdiagrammin sijasta jotkut haluavat käyttävää ns. runko lehtidiagrammia. Jos käytetään d desimaalin esitystä, valitaan d ensimmäistä desimaalia ns. rungoksi ja viimeiset desimaalit ovat ns. lehtiä. Data esitetään tyypillisesti muodossa.2 0227779, outlier stem and leaf diagram joka tässä tapauksessa tarkoittaa sitä, että runko-osa on.2, otoksessa on yksi arvo.20, kaksi arvoa.22, kolme arvoa.27 ja yksi arvo.29 (eikä siis esimerkiksi yhtään arvoa.2). Lehtiosaa voidaan tilasyistä jakaa monellekin riville. Esimerkki. (Jatkoa) JMP tulostaa seuraavan runko lehti-diagrammin [8.3] (jälleen vähän siistittynä oletustulostukseen verrattuna): Nicotinedata: Distribution Page Distributions Content.5.5 2 2.5 Quantiles 00.0% 99.5% 97.5% 90.0% 75.0% 50.0% 25.0% 0.0% 2.5% 0.5% 0.0% maximum quartile median quartile minimum 2.5500 2.5500 2.5478 2.3070 2.050.7700.6325.2530 0.7232 0.7200 0.7200 Stem and Leaf Stem Leaf 2 6 2 45 2 233 2 00 88888999999 6666777777 4455 2 0 9 0 7 Count 2 3 5 0 4 Tässä arvot on ensin pyöristetty kaksidesimaalisiksi. 0 7 represents 0.7 Otoskvantiili q(f) on kirjan WMMY määrittelyn mukaan sellainen lukuarvo, että otosarvoista 00f % on q(f). Erityisesti sovitaan, että q(0) = x min ja q() = x max. Minimin ja maksimin lisäksi muita tavallisia otoskvantiileja ovat otosmediaani q(0.5) sekä alakvartiili q(0.25) ja yläkvartiili q(0.75). Edelleen usein esiintyvät kvintiilit sample quantile q(0.2), q(0.4), q(0.6), q(0.8)

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 4 sekä desiilit q(0.), q(0.2), q(0.3), q(0.4), q(0.5), q(0.6), q(0.7), q(0.8), q(0.9) ja sentiilit q(0.0), q(0.02), q(0.03),..., q(0.99). Erotus q(0.75) q(0.25) on ns. kvartiiliväli. Ehkäpä parempi määrittely otoskvantiilille q(f) on seuraava: q(f) on sellainen luku, että enintään 00f % otosarvoista on < q(f) ja enintään ( f)00 % otosarvoista on > q(f). Näinkin määriteltynä otoskvantiilit eivät aina ole yksikäsitteisiä. On useita tapoja määritellä otoskvantiilit niin, että niistä tulee yksikäsitteisiä (ks. harjoitukset). Ohjelmistot tulostavat yleensä jonkin kokoelman otoskvantiileja jonkin tällaisen määrittelytavan mukaisesti. Ks. edellinen esimerkki. Yo. otoskvantiilit ovat realisoituneita arvoja. Tietysti voidaan määritellä myös vastaavat satunnaismuuttujat Q(f), esimerkiksi otosmediaani Q(0.5). Näiden jakaumat ovat hyvin mutkikkaita. Ns. kvantiilikuva saadaan järjestämällä ensin otosarvot x, x 2,..., x n kasvavaan järjestykseen: interquartile range quantile plot x (), x (2),..., x (n) (missä siis x (i) on i:nneksi pienin otosarvo). Sen jälkeen pyritään saamaan otosarvoa x (i) mahdollisimman hyvin vastaava luku f. Tällaiseksi valitaan usein f i = i 3/8 n + /4. Lopuksi piirretään pisteet (f i, x (i) ) (i =,..., n) pistekuviona tai porrasviivana. Tulos on kvantiilikuva. Jos piirretäänkin pisteet (x (i), f i ) porrasviivana saadaan ns. otoskertymä eli empiirinen kertymä. empirical cumulative distribution function Esimerkki. (Jatkoa) JMP piirtää nimenomaan otoskertymän (kuva oi- [8.3] kealla): Nicotinedata: Distribution Page of Distributions Content.99.95.90.75.50.25.0.05.0 3 2 0 - -2-3 Normal Quantile Plot Quantiles 00.0% 99.5% 97.5% 90.0% 75.0% 50.0% 25.0% 0.0% 2.5% 0.5% 0.0% maximum quartile median quartile minimum 2.5500 2.5500 2.5478 2.3070 2.050.7700.6325.2530 0.7232 0.7200 0.7200 CDF Plot Cum Prob.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0..5.5 2 2.5 Content.5.5 2 2.5

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 5 Populaatioarvoilla on oma jakaumansa, joka voi olla tarkasti hyvin vaikea selville saatava. Usein on kuitenkin hyviä syitä olettaa, että ko. jakauma olisi jotakuinkin normaalijakauma, ts. että jakauman kertymäfunktio olisi melko tarkasti jonkin normaalijakauman N(µ, σ 2 ) kertymäfunktio. Jos asiasta on kuitenkin epäilyksiä, voi ensimmäisenä temppuna yrittää katsoa tilannetta graafisesti. Tämä voidaan tehdä vertailemalla otoskvantiileja normaalijakauman vastaaviin. Jos jakauman kertymäfunktio on F, niin sen kvantiili q(f) on sellainen luku, että F ( q(f) ) = f. Jos merkitään normaalijakauman N(µ, σ 2 ) kvantiileja q µ,σ (f):llä, niin q µ,σ (f) = µ + σφ (f), missä Φ on standardinormaalijakauman N(0, ) kertymäfunktio. Piirtämällä pisteet ( x (i), q 0, (f i ) ) (i =,..., n) pistekuviona tai porrasviivana saadaan ns. normaalikvantiilikuva. Mikäli populaatiojakauma todella on N(µ, σ 2 ), niin kuvion pitäisi olla jotakuinkin suora, sillä ideaalisesti silloin q 0, (f i ) = Φ (f i ) = q µ,σ(f i ) µ σ x (i) µ =. σ Kuvaajan päissä saa olla joidenkin havaintojen osalta vähän isompiakin heittoja, mutta ainakin keskivaiheilla sen pitäisi olla melko suora. Ellei näin ole, voidaan ainakin alustavasti päätellä, ettei populaatiojakauma ole normaali. Edellisessä esimerkissä vasemmalla oleva kuva on normaalikvantiilikuva. Populaatiojakaumaa voitaneen tämän kuvan perusteella pitää normaalina, vaikkakin tiettyä poikkeamaa on havaittavissa. Usein myös viimeisenä! Huomaa, että jakauman kvantiili ja otoskvantiili ovat eri asioita, vaikka niitä tässä merkitäänkin samalla tavalla. Varsin hyvän approksimaation antaa muuten Φ (f) = 4.9f 0.4 4.9( f) 0.4. normal quantile plot Esimerkki. Tässä esimerkissä on mitattu n = 28 kertaa tiettyjen or- [8.5] ganismien lukumääriä. JMP tulostaa alla olevan normaalikvantiilikuvan, Akselit ovat toisinpäin! josta nähdään, ettei populaatiojakaumaa voida mitenkään pitää normaalina. Tämä näkyy tietysti selvästi myös pylväsdiagrammissa. Organisms: Distribution Page of Distributions Number_of_organisms 30000.0.05.0.25.50.75.90.95.99 25000 20000 5000 0000 5000 0-3 -2-0 2 3 Normal Quantile Plot

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 6 Muitakin tapoja tutkia normaalisuutta graafisesti on, esimerkiksi ns. normaalitodennäköisyyskuva. normal probability plot.4 Otosjakaumat [8.4] Otossuureen (satunnaismuuttujan) jakauma on ns. otosjakauma. Joidenkin otossuureiden jakaumat ovat hyvin hankalia, vaikka populaatiojakauma olisikin mukava (esimerkiksi normaali). Tällaisia ovat erityisesti otoskvantiilit satunnaismuuttujiksi ajateltuina. sample distribution.4. Otoskeskiarvon otosjakauma [8.5] Jos populaatiojakauman odotusarvo on µ ja varianssi σ 2, niin otoskeskiarvon odotusarvo on E(X) = µ ja varianssi var(x) = σ2 n (n on otoskoko). Otoskeskiarvon hajonta eli sen ns. keskivirhe on σ/ n standard error ja se pienenee otoskoon kasvaessa. Jos populaatiojakauma on normaalijakauma N(µ, σ 2 ), niin otoskeskiarvon jakauma on myös normaalijakauma, nimittäin N(µ, σ 2 /n). X:n jakauma on kuitenkin ainakin likimain normaali myös muuten, jos vain n on kyllin iso (ja populaatiojakaumalla on olemassa odotusarvo ja ää- Kaikilla jakaumilla ei ole odotusarvoa. Joillakin taas rellinen varianssi). Tämän takaa klassinen approksimaatiotulos: on vain odotusarvo, mutta ei äärellistä varianssia. Keskeinen raja-arvolause (otoskeskiarvoille). Jos populaatiojakauman odotusarvo on µ ja (äärellinen) varianssi σ 2, niin standardoidun satunnaismuuttujan Z = X µ σ/ n kertymäfunktio on likimain standardinormaalijakauman kertymäfunktio Φ, sitä tarkemmin mitä suurempi n on. Yleensä katsotaan, että otoskoko n = 30 jo riittää tekemään X:n jakauman hyvin tarkasti normaaliksi. Jos populaatiojakauma on jo lähtiessä hyvää muotoa (yksihuippuinen, likimain symmetrinen jne.), niin pienempikin arvo riittää (esimerkiksi n = 5). Esimerkki. Lähtien vahvasti epäsymmetrisestä jakaumasta saadaan eri otoskoille alla olevan kuvan mukaisia summan X + + X n tiheysfunktioita (laskettu Maple-ohjelmistolla). Jos taas lähdetään symmetrisestä, mutta vahvasti kaksihuippuisesta jakaumasta, saadaan vastaavasti toisen kuvasarjan mukaiset summan X + + X n tiheysfunktiot. Otoskoko n = 7 riittää siis jo tekemään ensimmäisen kuvasarjan X:n jakaumasta melko tarkasti normaalin, mutta vasta otoskoko n = 20 riittää toiselle kuvasarjalle. Central Limit Theorem Lauseesta on myös versioita, joissa otosalkioille ei oleteta samaa jakaumaa, vain riippumattomuus. Tällöin, jos otosalkioiden X,..., X n odotusarvot ovat µ,..., µ n ja hajonnat σ,..., σ n, niin valitaan µ = n (µ + + µ n ), σ 2 = n (σ2 + + σ 2 n). Silloin lause pitää paikkansa, kunhan asetetaan vielä jokin (heikohko) lisäoletus. Kuuluisa tällainen on ns. Lindebergin ehto. Jarl Lindeberg (876 932) muuten oli suomalainen matemaatikko!

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 7.8.6.4.2.0.8.6.4.20..0 x 0..2.4.6.8.8.6.4 n = n = 3.2 0. 0..5 x.0.5 2.0 2.5 3.0 n = 7.6.5.4.3.2. 0. 7. x 0.. 2. 3. 4. 5. 6. n = 2.0.8.6.4.2 0. 0..5.0.5 2.0 x n = 5.7.6.5.4.3.2. 0. x 0.. 2. 3. 4. 5..5.4.3.2 n = 0. 0. 0. 2. 4. 6. 8. x 0.. kuvasarja: 3.0 2.5 2.0.5.0.5 0..2 n = n = 2.4.6.8 x.0.6.4.2.0.8.6.4.20. x 0..5.0.5 2.0 2. kuvasarja:.8.6.4 n = 3.2 0. 0..5 x.0.5 2.0 2.5 3.0 n = 0.35.30.25.20.5.0.5e 0. 0. 2. 4. 6. 8. 0. x.20.5.0 n = 5.5.4.3.2. 0. 0.. 2. 3. 4. x 5. n = 20.5e 0. 0. 5. 0. 5. x 20.

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 8 Esimerkki. Koneenosan halkaisijan pitäisi olla µ = 5.0 mm (odotusar- [8.7] vo). Aikaisemman tiedon perusteella halkaisijan populaatiohajonta on σ = 0. mm. Asiaa tutkitaan n = 00 osan otoksella, jonka otoskeskiarvo on x = 5.027 mm. Lasketaan todennäköisyys ( X 5.0 ) P( X µ 0.027 mm) = 2P 0./ 00 2.7 = 0.0069 (saadaan standardinormaalijakaumasta Keskeisen raja-arvolauseen nojalla). Tämä on aika pieni, mikä herättää epäilyksiä: Sangen luultavasti todellinen µ on isompi. MATLAB-ohjelmistolla laskut menevät seuraavasti: >> mu=5.0; sigma=0.; n=00; x_viiva=5.027; >> 2*(-normcdf(x_viiva,mu,sigma/sqrt(n))) ans = 0.0069 Kahden riippumattoman otoksen otoskeskiarvojen X ja X 2 erotukselle saadaan vastaavasti odotusarvo ja varianssi E(X X 2 ) = µ µ 2 ja var(x X 2 ) = σ2 n + σ2 2 n 2, missä µ, µ 2 sekä σ, 2 σ2 2 ovat vastaavat populaatiojakaumien odotusarvot ja varianssit ja n, n 2 ovat otoskoot. Jos otoskoot ovat kyllin isot, standardoidulla satunnaismuuttujalla Jos satunnaismuuttujat X ja Y ovat riippumattomat, niin var(x ± Y ) = var(x) + var(y ). Z = X X 2 (µ µ 2 ) σ 2 /n + σ 2 2/n 2 on Keskeisen raja-arvolauseen mukaisesti (kertymämielessä) likimain normaalijakauma N(µ µ 2, σ/n 2 + σ2/n 2 2 ). (Ja tarkastikin, jos populaatiojakaumat ovat normaaleja.) Kahden riippumattoman normaalijakautuneen satunnaismuuttujan summa ja erotus ovat myös normaalijakautuneita. Esimerkki. Kahden maalin A ja B kuivumisaikoja verrattiin n = 8 [8.8] näytteen avulla. Molempien maalien kuivumisaikojen populaatiohajonnan tiedetään olevan σ A = σ B =.0 h. Otoskeskiarvojen erotukseksi saatiin x A x B =.0 h. Voisiko tällainen tulos tulla, vaikka populaatioodotusarvot ovat samat (eli µ A = µ B )? Lasketaan ( X A X B 0 ) P(X A X B.0 h) = P.02 /8 +.0 2 /8 3.0 = 0.003. Todennäköisyys on niin pieni, että tulos ei varmaankaan ole tullut sattumalta, vaan todella µ A > µ B. Jos olisikin saatu x A x B = 5 min, saataisiin vastaavasti P(X A X B 0.25 h) = 0.2266. Tämä tulos taas on hyvinkin voinut tulla sattumalta. MATLAB-ohjelmistolla tällaiset laskut menevät seuraavasti:

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 9 >> mu=0; % Maaleilla samat odotusarvot sigma_a=.0; sigma_b=.0; n_a=8; n_b=8; erotus=.0; % Maalin A otoskeskiarvo - maalin B otoskeskiarvo > -normcdf(erotus,mu,sqrt(sigma_a/n_a+sigma_b/n_b)) ans = 0.003 >> erotus=0.25; >> -normcdf(erotus,mu,sqrt(sigma_a/n_a+sigma_b/n_b)) ans = 0.2266.4.2 Otosvarianssin jakauma [8.6] Otosvarianssin jakauma on hankala, ellei voida olettaa, että populaatiojakauma on normaali. Tehdäänkin tämä oletus, jolloin ko. jakauma saadaan ns. χ 2 -jakauman avulla. Jos satunnaismuuttujat U,..., U v ovat standardinormaalisti jakautuneet ja riippumattomat, niin satunnaismuuttujalla V = U 2 + + U 2 v Asiaan liittyvät todistukset ovat jo varsin hankalia ja ne sivuutetaan tässä. Ne löytyvät mm. monisteesta RUOHONEN, K. & POHJA- VIRTA, A.: Laaja tilastomatematiikka. on χ 2 -jakauma. Tässä v on jakauman parametri, ns. vapausasteiden lukumäärä. Jakauman tiheysfunktio on )xv 2 g(x) = 2 v 2 Γ( v 2 e x 2, kun x > 0 2 0, kun x 0, (k)hii-toiseen-jakauma missä Γ on gammafunktio Γ(y) = t y e t dt. Hankalahkosta muodos- Gammafunktio on kertoman n! jatkuva yleistys. 0 taan huolimatta χ 2 -jakauman todennäköisyydet ovat numeerisesti hyvin Helposti näkee nimittäin, laskettavissa. Alla muutamia χ 2 -jakaumien tiheysfunktioita (vapausasteiden lukumäärää on merkitty tässä n:llä, laskettu MATLAB-ohjelmistolla): että Γ() = ja (osittaisintegroinnilla) että Γ(y + ) = yγ(y). 0.5 0.45 0.4 0.35 χ 2 (n)-jakaumien tiheysfunktioita Siispä Γ(n) = (n )!, kun n on positiivinen kokonaisluku. Hankalampi on todeta, että Γ( 2 ) = π. 0.3 0.25 0.2 0.5 0. n = 0 n = 5 0.05 n = 5 n = 20 0 n = 0 2 3 4 5 6 7 8 9 0 x Helposti näkee, että E(V ) = v ja voidaan näyttää, että var(v ) = 2v.

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 0 Keskeisen raja-arvolauseen seurauksena suurille v:n arvoille (noin v 30) χ 2 -jakauma on näin likimain normaalijakauma N(v, 2v). Ilmeisesti, jos X,..., X n on otos N(µ, σ 2 )-jakautuneesta populaatiosta, niin satunnaismuuttujat (X i µ)/σ ovat standardinormaaleja ja riippumattomia ja summalla n (X i µ) 2 i= on χ 2 -jakauma n vapausasteella. Mutta ko. summahan ei ole otosvarianssi! Toisaalta samantapaisella otosvarianssista saatavalla satunnaismuuttujalla (n )S 2 n (X i X) 2 = σ 2 σ 2 σ 2 i= on myös χ 2 -jakauma, mutta n vapausasteella. Tärkeää on huomata, että mitään Keskeisen raja-arvolauseen tapaista approksimaatiota ei ole tässä käytettävissä, vaan populaatiojakauman on oltava normaali. Tästä johtuu, että χ 2 -jakauma yleensä taulukoidaan vain enintään vapausasteille 30 40. Tämä on hankala näyttää! Esimerkki. Kestoiät on merkitty ylös n = 5 akulle. Arvellaan, että ko. [8.0] akkumallille kestoiän (populaatio)hajonta olisi σ =.0 v. Otokseen saatiin kestoiät.9 v, 2.4 v, 3.0 v, 3.5 v ja 4.2 v. Laskien saadaan otosvarianssiksi s 2 = 0.85 v 2. Edelleen saadaan ( (n )S P(S 2 0.85 v 2 2 ) ) = P 3.260 = 0.553 σ 2 (käyttäen χ 2 -jakaumaa n = 4 vapausasteella). Saatu arvo s 2 on siis hyvin tavallinen (likellä mediaania). Mitään syytä epäillä oletettua populaatiohajontaa.0 v ei tässä ole. Laskut MATLABilla: >> mu=3; sigma=; n=5; otos=[.9 2.4 3.0 3.5 4.2]; >> s=std(otos) s = 0.9028 >> -chi2cdf((n-)*s^2/sigma^2,n-) ans = 0.553.4.3 t-jakauma [8.7] Edellä käsiteltäessä otoskeskiarvoa piti tietää populaatiohajonta σ. Jos sitä ei tiedetä, voidaan edelleen edetä, mutta normaalijakauman tilalle tulee ns. t-jakauma (eli Studentin jakauma). Lisäksi Keskeinen rajaarvolause ei ole tässäkään käytössä, vaan populaatiojakauman pitää silloin olla normaali. Jos satunnaismuuttujat U ja V ovat riippumattomat, U:lla on standardinormaalijakauma ja V :llä on χ 2 -jakauma v vapausasteella, niin satunnaismuuttujalla T = U V/v Jälleen asiaan liittyvät todistukset ovat hankalat ja löytyvät mm. monisteesta RUOHONEN, K. & POHJAVIRTA, A.: Laaja tilastomatematiikka.

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET on t-jakauma v vapausasteella. Jakauman tiheysfunktio on v+ Γ( 2 g(x) = ) πv Γ( v ( ) + v ) v+ 2 x2. 2 Alla on muutamia esimerkkejä t-jakaumien tiheysfunktioista (vapausastein n, laskut MATLABilla): Jakauman otti käyttöön kemisti William Gosset (876 937), nimimerkki Student. t(n)-jakaumien tiheysfunktioita 0.4 0.35 n = 0.3 n = 5 0.25 n = 0 0.2 n = 30 0.5 0. 0.05 0-4 -3-2 - 0 2 3 4 t t-jakauma on yksihuippuinen ja symmetrinen arvon 0 suhteen, ja muistuttaa näin vähän standardinormaalijakaumaa. Suurille v:n arvoille se onkin varsin tarkasti standardinormaalijakauma, mutta tämä ei seuraa Keskeisestä raja-arvolauseesta. Jos populaatiojakauma on normaali, niin otoskeskiarvo X ja otosvarianssi S 2 ovat riippumattomat satunnaismuuttujat. Tästä seuraa, että myös näistä laskien saatavat satunnaismuuttujat U = X µ σ/ n ja V = (n )S2 σ 2 ovat riippumattomat. Edellisellä on standardinormaalijakauma ja jälkimmäisellä χ 2 -jakauma n vapausasteella. Siispä satunnaismuuttujalla T = on t-jakauma n vapausasteella. U = X µ V/(n ) S/ n Vaan mistä? Tämä riippumattomuus on vaikeasti osoitettava ja jonkin verran yllättävä juttu! Esimerkki. Erään kemiallisen prosessin tuottoa mitataan grammoissa [8.4] raaka-ainemillilitraa kohti. Mainitun tuoton pitäisi olla µ = 500 g/ml (oletettu populaatio-odotusarvo). Asiaa tutkittiin n = 25 alkion otoksella, jolloin saatiin otoskeskiarvo x = 58 g/ml ja otoshajonta s = 40 g/ml. Lasketaan ( X µ P S/ n 58 500 ) 40/ = P(T 2.25) = 0.069 25 (käyttäen t-jakaumaa n = 24 vapausasteella). Tämä todennäköisyys on pieni, joten tulos ei luultavastikaan syntynyt sattumalta ja tuotto taitaakin olla parempi kuin luultiin. Laskut MATLABilla:

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 2 >> mu=500; n=25; x_viiva=58; s=40; >> -tcdf((x_viiva-mu)/(s/sqrt(n)),n-) ans = 0.069 Vaikka t-jakauma onkin johdettu sillä oletuksella, että populaatiojakauma on normaali, se on siinä mielessä robusti, että satunnaismuuttuja T yllä on likimain t-jakautunut kunhan vain populaatiojakauma on normaalinkaltainen (yksihuippuinen, likimain symmetrinen). Tämä johtuu siitä, että tällaisille populaatiojakaumille otoshajonta S on isohkoille otoskoille n jo niin tarkasti = σ, että Keskeinen raja-arvolause tulee jossain mielessä käyttöön. Näin t-jakauma on hyvin käyttökelpoinen monissa tilanteissa..4.4 F-jakauma [8.8] Kahden eri otoksen hajontojen vertailu onnistuu niiden otosvarianssien avulla käyttäen ns. F-jakaumaa eli Fisherin jakaumaa eli Snedecorin jakaumaa. Jos satunnaismuuttujat V ja V 2 ovat riippumattomat ja niillä on χ 2 -jakaumat v ja v 2 vapausasteella, vastaavasti, niin satunnaismuuttujalla F = V /v V 2 /v 2 on F-jakauma vapausastein v ja v 2. Tällöin satunnaismuuttujalla /F on myös F-jakauma, nimittäin vapausastein v 2 ja v. F-jakauman tiheysfunktio on varsin mutkikas: ( v ) v 2 Γ( v +v 2 ) ( 2 g(x) = v 2 Γ( v 2 )Γ( v 2 2 ) x v 2 2 0, kun x 0. + v v 2 x ) v +v 2 2, kun x > 0 Muutamia esimerkkejä F-jakaumien tiheysfunktioista (vapausastein n ja n 2, laskut MATLABilla): Ronald Fisher (880 962), tilastomatematiikan uranuurtajia George Snedecor (88 974) F(n,n 2 )-jakaumien tiheysfunktioita 0.9 n = 5, n 2 = 5 0.8 n = 5, n 2 = 20 0.7 n = 20, n 2 = 5 0.6 n = 20, n 2 = 20 0.5 0.4 0.3 0.2 0. 0 0 0.5.5 2 2.5 3 3.5 4 4.5 v

LUKU. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 3 Jos S 2 ja S 2 2 ovat kahden riippumattoman otoksen otosvarianssit, vastaavat populaatiot ovat normaalijakautuneet hajonnoin σ ja σ 2 ja otoskoot ovat n sekä n 2, niin satunnaismuuttujat V = (n )S 2 σ 2 ja V 2 = (n 2 )S 2 2 σ 2 2 ovat riippumattomat ja χ 2 -jakautuneet vapausastein n sekä n 2. Niinpä satunnaismuuttujalla F = V /(n ) V 2 /(n 2 ) = S2 /σ 2 S 2 2/σ 2 2 on silloin F-jakauma vapausastein n ja n 2. F-jakaumaa voidaan käyttää populaatiovarianssien vertailuun otosten avulla, ks. Pykälät 2.9 ja 3.7. Se tosin ei ole siihen tarkoitukseen kovinkaan vahva työkalu. Parempiakin on ja ohjelmistot käyttävätkin yleensä niitä. Mm. Bartlettin testi tai Levenen testi. Esimerkki. Otetaan tapaus, jossa on saatu realisoituneet otosvarianssit s 2 = 0.20 sekä s 2 2 = 0.4 ja otoskoot ovat n = 25 ja n 2 = 30. Lisäksi arvellaan, että vastaavat populaatiohajonnat ovat samat eli σ = σ 2. Lasketaan ( S 2 P /σ 2 S2/σ 2 2 2 s2 /σ 2 ) = P(F.429) = 0.787 s 2 2/σ2 2 (käyttäen F-jakaumaa vapausastein n = 24 ja n 2 = 29). Häntätodennäköisyys on siis melko iso, liikutaan jakauman tavallisella alueella eikä mitään kummempaa syytä epäillä populaatiohajontojen samuutta ole. Laskut MATLABilla: >> n_=25; n_2=30; s toiseen=0.20; s_2_toiseen=0.4; >> -fcdf(s toiseen/s_2_toiseen,n_-,n_2-) ans = 0.787 Varsinaisesti F-jakauma tulee käyttöön ns. varianssianalyysissä, josta lisää myöhemmin. ANOVA, analysis of variance

Luku 2 YHDEN JA KAHDEN OTOKSEN ESTIMOINTI Estimointi eli populaatiojakaumaan liittyvän numeerisen arvon eli para- classical statistical inference metrin arviointi on hypoteesin testauksen ohella ns. klassisen tilastollisen päättelyn perusmenetelmä. Toinen tilastomenetelmien peruslaji on ns. Bayesin menetelmät, joita ei tässä käsitellä. 2. Piste-estimointi ja väliestimointi [9.3] Piste-estimoinnin tarkoituksena on saada arvioiduksi jokin populaatioon liittyvä numeerinen arvo, ns. parametri, θ käyttäen otosta. Tällainen parametri on esimerkiksi populaatio-odotusarvo µ, jota voidaan estimoida otoskeskiarvolla x. Otoksesta laskettu realisoitunut θ:a arvioiva numeerinen arvo on nimeltään estimaatti, merkitään ˆθ. Estimaatti lasketaan otokseen tulleista arvoista jollain kaavalla tai numeerisella algoritmilla. Toisaalta, jos otosta ajatellaankin satunnaismuuttujajonona X,..., X n, on siitä estimointikaavalla tai -algoritmilla laskettu arvokin satunnaismuuttuja. Sitä merkitään ˆΘ:lla. Tätä satunnaismuuttujaa kutsutaan estimaattoriksi. Yhdelle ja samalle parametrille voi olla erilaisia estimaattoreita. Esimerkiksi populaatio-odotusarvoa voitaisiin myös estimoida otosmediaanilla. Tuloksen eli saatujen estimaattien hyvyys riippuu sitten siitä miten symmetrinen populaatiojakauma on odotusarvonsa suhteen. Vastaavasti otoskeskiarvo on myös populaatiomediaanin eräs estimaattori parempi sellainen on tietysti otosmediaani. Populaatiokeskiarvon µ, -varianssin σ 2 ja -mediaanin m estimoinnissa yo. käsitteet ovat seuraavat: point estimation Muista merkintä: satunnaismuuttujia merkitään isoilla kirjaimilla, realisoituneita arvoja pienillä. Parametri θ Estimaatti ˆθ Estimaattori ˆΘ µ ˆµ = x X σ 2 σ 2 = s 2 S 2 m ˆm = q(0.5) Q(0.5) Piste-estimaattori on satunnaismuuttuja. Jos siinä ei ole systemaattista virhettä, ts. sen odotusarvo E( ˆΘ) on oikea parametrin arvo θ, sanotaan estimaattoria harhattomaksi. Jos taas E( ˆΘ) θ, sanotaan esti- unbiased 4

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 5 maattoria E( ˆΘ) harhaiseksi. (Tämä kaikki olettaen tietysti, että E( ˆΘ) on olemassa!) Jos populaatio-odotusarvo on µ, niin estimaattori X (otoskeskiarvo satunnaismuuttujana) on harhaton estimaattori, sillä E(X) = µ. Myös otosvarianssi S 2 on populaatiovarianssin σ 2 harhaton estimaattori. Ensinnäkin S 2 voidaan kirjoittaa muotoon Siispä S 2 = n n i= (X i X) 2 = n n i= (X i µ) 2 n n (X µ)2. biased Lavennetaan mukaan µ X i X = (X i µ) (X µ) ja avataan neliö. E(S 2 ) = n n E ( (X i µ) 2) n n E( (X µ) 2) i= = n n σ2 n σ 2 n n = σ2. Mitä pienempi harhattoman piste-estimaattorin ˆΘ varianssi var( ˆΘ) = E ( ( ˆΘ θ) 2) on, sitä todennäköisempää on, että se osuu lähelle odotusarvoaan. Sanotaankin, että estimaattori on sitä tehokkaampi mitä pienempi sen varianssi on. Harhainenkin estimaattori voi olla hyvä siinä mielessä, että sen keskineliövirhe E ( ( ˆΘ θ) 2) on pieni. Väliestimoinnin tarkoituksena on otoksesta laskien tuottaa väli, jolla oikea parametrin θ arvo on, ainakin tietyllä suurella todennäköisyydellä. Kyseessä voi olla kaksipuolinen tai toispuolinen väli. Kaksipuolisessa välissä estimoidaan molemmat välin päätepisteet θ L (vasen eli alempi) ja θ U (oikea eli ylempi), yksipuolisessa vain toinen (se toinen on silloin muuten selvä, esimerkiksi ± tai 0). Katsotaan ensin kaksipuolisia välejä. Tässäkin estimaatit ˆθ L ja ˆθ U ovat realisoituneesta otoksesta laskien saatavia lukuja. Estimaattorit ˆΘ L ja ˆΘ U puolestaan ovat satunnaismuuttujia. Perusidea on saattaa tavalla tai toisella tilanne sellaiseksi, että efficient mean square(d) error interval estimation Siis välin päätepisteet ˆΘ L ja ˆΘ U ovat satunnaismuuttujia, ei parametri θ! P( ˆΘ L < θ < ˆΘ U ) = α, missä α on annettu luku (usein 0.0, 0.05 tai 0.0). Realisoitunutta väliä (ˆθ L, ˆθ U ) sanotaan silloin 00( α) % luottamusväliksi. Luku α on välin luottamusaste ja päätepisteet ovat alempi ja ylempi luottamusraja. Mitä suurempaa luottamusastetta vaaditaan, sitä leveämmäksi luottamusväli tulee ja hyvin lähellä 00 % oleva luottamusaste johtaa yleensä väleihin, jotka ovat liian leveitä ollakseen kovin mielenkiintoisia. Lisäksi esitetty ehto P( ˆΘ L < θ < ˆΘ U ) = α ei kerro miten väli oikein valitaan. Usein vaaditaankin, että väli on symmetrinen, ts. confidence interval degree of confidence, lower confidence limit, upper confidence limit P(θ ˆΘ L ) = P(θ ˆΘ U ) = α 2. (Toinen aika luonnollinen vaatimus voisi olla, että väli on lyhin mahdollinen, mutta se johtaa monesti hankaliin laskuihin.)

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 6 2.2 Yksi otos: Odotusarvon väliestimointi [9.4] Populaatio-odotusarvon µ piste-estimoinnissa luonnollinen harhaton estimaattori on otoskeskiarvo X, jonka varianssi on σ 2 /n. Tässä σ 2 on populaatiovarianssi, joka oletetaan ensin tunnetuksi. Suurilla otoskoilla n tällainen estimointi on varsin tarkkaa. Odotusarvon väliestimointi lähtee siitä, että satunnaismuuttujalla Z = X µ σ/ n on vähänkään suuremmille otoskoille Keskeisen raja-arvolauseen nojalla melko tarkasti standardinormaalijakauma N(0, ). Valitaan nyt jakauman kvantiili z α/2 siten, että P(Z z α/2 ) = Φ(z α/2 ) = α/2, jolloin (symmetria) myös P(Z z α/2 ) = Φ( z α/2 ) = α/2. Silloin Φ on standardinormaalijakauman kertymäfunktio. Toisaalta kaksoisepäyhtälö on ekvivalentti kaksoisepäyhtälön P( z α/2 < Z < z α/2 ) = α. z α/2 < X µ σ/ n < z α/2 X z α/2 σ n < µ < X + z α/2 σ n kanssa. Näin ollen, jos realisoitunut otoskeskiarvo on x, valitaan 00( α) % luottamusrajoiksi ˆµ L = x z α/2 σ n ja ˆµ U = x + z α/2 σ n. Alla on esitetty simuloimalla (MATLAB) saadut 00 kpl 90 %, 95 % sekä 99 % odotusarvon luottamusvälejä standardinormaalijakaumalle. Lähdetään 90 % luottamusväleistä: Generoidaan 00 kertaa n standardinormaalia satunnaislukua ja käytetään niitä otoksina. Piirretään välit päällekkäisinä janoina. 00 00 kpl N(0,) jakauman odotusarvon luottamusvälejä (90%) 90 80 70 60 50 40 30 20 0 0 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 7 Huomaa miten noin kymmenesosa väleistä ei sisällä oikeaa odotusarvoa µ = 0. Iso osa väleistä on jopa erillisiä. Siirryttäessä korkeampaan luottamusasteeseen välit pitenevät, mutta peittävät samalla todennäköisemmin oikean odotusarvon: 00 00 kpl N(0,) jakauman odotusarvon luottamusvälejä (95%) 90 80 70 60 50 40 30 20 0 0 0.5 0 0.5.5 00 00 kpl N(0,) jakauman odotusarvon luottamusvälejä (99%) 90 80 70 60 50 40 30 20 0 0.5 0.5 0 0.5.5 Esimerkki. Tässä kyse on näytteiden sinkkipitoisuudesta n = 36 mit- [9.2] tauspisteessä. Saatujen mittausten otoskeskiarvo on x = 2.6 g/ml. Populaatiohajonnaksi tiedetään σ = 0.3 g/ml. Jos α = 0.05, jolloin z 0.025 =.960, laskien saadaan ˆµ L = 2.50 g/ml sekä ˆµ U = 2.70 g/ml. Jos taas α = 0.0, jolloin z 0.005 = 2.575, saadaan ˆµ L = 2.47 g/ml sekä ˆµ U = 2.73 g/ml eli väli on pidempi. Jos luottamusväli määräytyy symmetrisestä jakaumasta, kuten on asian laita odotusarvolle, rajat ovat muotoa ˆθ ± b, missä ˆθ on pisteestimaatti. Lukua b kutsutaan tällöin estimointivirheeksi. Odotusarvolle ilmeisesti b = z α/2 σ/ n. Jos siis halutaan estimointivirheen olevan enin-

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 8 tään annettu luku b 0, pitää valita otoskoko n siten, että σ ( zα/2 σ ) 2. z α/2 n b 0 eli n b 0 Näin ollen, jos yo. esimerkissä haluttaisiin estimointivirheen olevan enintään b 0 = 0.05 g/ml, pitäisi otoskoon olla ainakin n = 39. Edellä luottamusvälit ovat olleet kaksipuolisia. Jos halutaan odotusarvolle µ pelkkä alapuolinen luottamusraja, valitaan standardinormaalijakauman kvantiili z α, jolle P(Z z α ) = Φ(z α ) = α, jolloin myös P(Z z α ) = Φ( z α ) = α. Nyt epäyhtälö on ekvivalentti epäyhtälön X µ σ/ n < z α µ > X z α σ n kanssa ja saadaan haluttu 00( α) % luottamusalaraja ˆµ L = x z α σ n. Vastaavasti saadaan 00( α) % luottamusyläraja ˆµ U = x + z α σ/ n. Esimerkki. n = 25 koehenkilöltä mitataan tietty reagointiaika. Aiem- [9.4] mat testit osoittavat, että reaktioaikojen hajonta on σ = 2.0 s ja sitä voidaan pitää tunnettuna. Saatu näytteiden otoskeskiarvo on x = 6.2 s. Nyt z 0.05 =.645 ja 95 % luottamusyläraja reaktioaikojen odotusarvolle on ˆµ U = 6.86 s. Edellä piti tietää populaatiovarianssi σ 2. Jos sitä ei tiedetä, voidaan edelleen edetä, mutta standardinormaalijakauman tilalle tulee silloin t-jakauma. (Eikä Keskeinen raja-arvolause ole käytössä, vaan populaatiojakauman pitää olla normaali.) Nyt lähdetään satunnaismuuttujasta T = X µ S/ n, jolla on t-jakauma n vapausasteella. Etsitään jakauman kvantiili t α/2, jolle on P(T t α/2 ) = α/2. Silloin t-jakauman symmetrisyyden vuoksi on myös P(T t α/2 ) = α/2 ja P( t α/2 < T < t α/2 ) = α, aivan kuten standardinormaalijakaumallekin. Edeten aivan kuten edelläkin saadaan populaatio-odotusarvon µ 00( α) % luottamusrajoiksi s s ˆµ L = x t α/2 ja ˆµ U = x + t α/2. n n Estimaatin x estimointivirhe on tässä ilmeisesti b = t α/2 s/ n. Vastaavat toispuoliset luottamusrajat ovat s s ˆµ L = x t α ja ˆµ U = x + t α, n n Mutta se ei ole etukäteen tunnettu. missä kvantiili t α on valittu siten, että P(T t α ) = α. Esimerkki. Seitsemän rikkihappoa sisältävän samanlaisen astian rikki- [9.5] happomäärät mitattiin. Määrien keskiarvo on x = 0.0 l ja hajonta s = 0.283 l. Nyt t 0.025 = 2.447 ja saadaan 95 % luottamusväli (9.74 l, 0.26 l).

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 9 2.3 Ennustevälit [9.6] Usein väliestimoinnin jälkeen halutaan vastaava väli, ns. ennusteväli, seuraavalle mittaukselle x 0. Luonnollisesti ajatellaan vastaavan satunnaismuuttujan X 0 olevan riippumattoman käytetyistä otoksessa olleista satunnaismuuttujista X,..., X n ja niiden kanssa samoin jakautunut. Olettaen populaatiojakauman olevan normaalijakauman N(µ, σ 2 ) tiedetään erotuksella X 0 X olevan myös normaalijakauman ja sekä E(X 0 X) = E(X 0 ) E(X) = µ µ = 0 var(x 0 X) = var(x 0 ) + var(x) = σ 2 + ( σ2 n = + ) σ 2. n Siispä satunnaismuuttujalla prediction interval Kahden riippumattoman normaalijakautuneen satunnaismuuttujan summa ja erotus ovat myös normaalijakautuneita. Jos satunnaismuuttujat X ja Y ovat riippumattomat, niin var(x ± Y ) = var(x) + var(y ). Z = X 0 X σ + /n on standardinormaalijakauma. Tässä siis taas oletetaan populaatiovarianssi σ 2 tunnetuksi. Menetellen aivan kuten edellä, korvaten vain σ/ n lausekkeella σ + /n, saadaan x 0 :lle 00( α) % ennusteväli x z α/2 σ + n < x 0 < x + z α/2 σ + n, jolla se todennäköisyydellä α on. Vm. todennäköisyys on tulkittava siten, että se on tapahtuman X z α/2 σ + n < X 0 < X + z α/2 σ + n, todennäköisyys. Ennusteväli ottaa näin mukaan sekä odotusarvon estimoinnissa olevan että satunnaismuuttujassa X 0 olevan epävarmuuden. Jälleen, jos populaatiohajontaa σ ei tunneta, pitää vain käyttää otoshajontaa s sen sijasta ja standardinormaalijakauman sijasta t-jakaumaa vapausastein n. Satunnaismuuttuja X 0 X on nimittäin myös riippumaton otosvarianssista S 2, joten Jälleen hankalasti todistettava fakta. T = Z (n )S 2 σ 2 (n ) = X 0 X S + /n on t-jakautunut vapausastein n. Arvolle x 0 saatu 00( α) % ennusteväli on silloin x t α/2 s + n < x 0 < x + t α/2 s + n.

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 20 Esimerkki. n = 30 vähärasvaista lihaa sisältävän pakkauksen lihapi- [9.7] toisuus (muu kuin rasva) tarkastettiin. Jakauma oletettiin normaaliksi. Otoskeskiarvo on x = 96.2 % ja -hajonta s = 0.8 %. t-kvantiilia t 0.005 = 2.756 (vapausastein 29) käyttäen saadaan seuraavan paketin li- Älä sekoita pitoisuus- ja todennäköisyysprosentteja! hapitoisuudelle 99 % ennusteväli (93.96 %, 98.44 %). Eräs ennustevälien käyttötapa on vieraiden otosarvojen etsiminen. Havainto katsotaan vieraaksi, jos se ei osu siihen ennusteväliin, joka otoksesta saadaan, kun ko. havainto on siitä ensin poistettu. Vastaavalla tavalla voitaisiin myös laatia toispuolisia ennustevälejä. Ks. Pykälän.3 esimerkki. 2.4 Toleranssivälit [9.7] Eräs estimoitava välityyppi on ns. toleranssiväli, joka esiintyy mm. prosessien tilastollisen käyttäytymisen määrittelyssä. Jos populaatiojakauma on tunnettu normaalijakauma N(µ, σ 2 ), sen 00( α) % toleranssiväli on sellainen väli (µ kσ, µ + kσ), jolla jakaumasta on 00( α) %. Väli annetaan antamalla vastaava k:n arvo ja esitetään yleensä muodossa µ ± kσ. Näin ollen esimerkiksi 95 % toleranssiväli on µ ±.96σ. Tämä siis edellyttää, että µ ja σ tiedetään. Mutta yleensä populaation µ ja σ ovat tuntemattomat. Toleranssiväli annetaan silloin ottamalla käyttöön otoksesta saadut vastaavat otossuureet x ja s ja se on x ± ks. Nämä ovat kuitenkin satunnaismuuttujien X ± ks realisoituneet arvot ja näin saatu toleranssiväli onkin oikea vain tietyllä todennäköisyydellä γ, joka riippuu valitusta k:n arvosta (ja otoskoosta n). k valitaankin siten, että väli X ± ks sisältää todennäköisyydellä γ (merkitsevyys) jakaumasta ainakin 00( α) %. Toleranssivälien päätepisteiden jakauma on jonkin verran hankala. Joskus x ± k s n. Ihan vain niille, joita asia ehkä syvällisemmin kiinnostaa! Vähän miettien voi todeta, että yläpuolisen toleranssivälin konstruoinnissa pitää etsiä sellainen luku k, että ( X + ks µ ) P z α = γ. σ Jos merkitään, kuten edellä, Z = X µ σ/ n ja V = (n )S2 σ 2, niin Z on standardinormaalijakautunut ja V on χ 2 -jakautunut vapausastein n ja ne ovat riippumattomat. Tehtävä voidaan näin pukea muotoon, jossa ei esiinny populaatioparametreja: Kun on annettu α, γ ja n, etsittävä sellainen luku k, että ( Z n P + k V ) z α = γ. n Riippumattomuudesta johtuen Z:n ja V :n yhteisjakauman tiheysfunktio on φ(z)g(v), missä g on χ 2 -jakauman (n vapausasteella) ja φ on standardinormaalijakauman tiheysfunktio. Sitä käyttäen vasemman puolen todennäköisyys saadaan integraalilausekkeena ja k:lle saadaan yhtälö. Ei liene ihme, että tämä on vaikeaa ja johtaa numeeriseen ratkaisuun! Kaksipuolisen toleranssivälin tapauksessa tilanne on vieläkin hankalampi.

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 2 Siihen liittyviä kvantiileja (k:n valinta) löytyy taulukoituina kirjoissa (mm. WMMYssä). Nettilaskimiakin näille väleille löytyy. Tarkkoja k:n arvoja on taulukoituna Liitteessä. Nämä saattavat kuitenkin olla approksimatiivisia eivätkä kovin tarkkoja. Esimerkki. n = 9 työstettyä metalliosaa mitataan ja saadaan otos- [9.8] suureet x =.0056 cm ja s = 0.0246 cm. Silloin todennäköisyydellä 0.99 mitatun suureen populaatioarvoista vähintään 95 % on toleranssivälillä.0056 ± k0.0246 cm, missä k = 4.580 (ks. Liite), eli siis välillä (0.8929 cm,.83 cm). Vastaava 99 % luottamusväli olisi muuten (0.978 cm,.033 cm) ja se on lyhyempi. Myös toispuoliset toleranssivälit ovat mahdollisia. 2.5 Kaksi otosta: Odotusarvojen erotuksen estimointi [9.8] Kahden populaation odotusarvot ja varianssit ovat µ ja µ 2 sekä σ 2 ja σ2, 2 vastaavasti. Kummastakin otetaan otos, otoskokoina n ja n 2. Keskeisen raja-arvolauseen mukaisesti saadut otoskeskiarvot X ja X 2 (satunnaismuuttujina) ovat likimain normaalijakautuneet. Näin ollen myös niiden erotus X X 2 on (likimain) normaalijakautunut, odotusarvona µ µ 2 ja varianssina σ/n 2 + σ2/n 2 2. Edelleen satunnaismuuttujalla Z = (X X 2 ) (µ µ 2 ) σ 2 /n + σ 2 2/n 2 Otokset ovat luonnollisesti tässäkin riippumattomat. on silloin (likimain) standardinormaalijakauma. Käyttäen standardinormaalijakauman kvantiilia z α/2 kuten edellä ja huomaten, että kaksoisepäyhtälöt ja z α/2 < (X X 2 ) (µ µ 2 ) σ 2 /n + σ 2 2/n 2 < z α/2 (X X 2 ) z α/2 σ 2 n + σ2 2 n 2 < µ µ 2 < (X X 2 ) + z α/2 σ 2 n + σ2 2 n 2 ovat ekvivalentit, saadaan erotukselle µ µ 2 näin 00( α) % luottamusrajat σ 2 (x x 2 ) ± z α/2 + σ2 2, n n 2 missä x ja x 2 ovat realisoituneet otoskeskiarvot. Tässä jälleen oletettiin, että populaatiovarianssit σ 2 ja σ 2 2 tunnetaan. Esimerkki. Kahden moottorityypin A ja B polttoaineen kulutusta verrat- [9.9] tiin ajamalla niillä varustetuilla autoilla, n A = 50 kertaa moottorilla A ja n B = 75 kertaa moottorilla B. Saadut otoskeskiarvot ovat x A = 5.30 km/l ja x B = 7.85 km/l. Populaatiohajonnat tiedetään: σ A = 2.55 Kirjan WMMY esimerkin km/l ja σ B = 3.40 km/l. Käyttäen standardinormaalijakauman kvantiilia z 0.02 = 2.054 saadaan erotukselle µ B µ A laskien 96 % luottamusrajat.455 km/l ja 3.645 km/l. mittayksikkö mile/gal on tässä muutettu.

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 22 ovat riippumattomat χ 2 -jakautuneet satunnaismuuttujat vapausastein v ja v 2, niin niiden summa V + V 2 on myös χ 2 -jakautunut, vapausastein v +v 2. Ajatellen otosvariansseja satunnaismuuttujina S 2 ja S 2 2 tiedetään, että satunnaismuuttujilla V = (n )S 2 σ 2 ja V 2 = (n 2 )S 2 2 σ 2 2 on χ 2 -jakaumat vapausastein n ja n 2, ja ne ovat myös riippumattomat. Siispä satunnaismuuttujalla V = V + V 2 = (n )S 2 σ 2 + (n 2 )S 2 2 σ 2 2 on χ 2 -jakauma vapausastein n + n 2 2. Katsotaan ensin tapausta, missä tiedetään, että σ 2 ja σ 2 2 ovat samat (= σ 2 ), vaikkakaan ei tiedetä mikä σ 2 on. Silloin V = σ 2 ( (n )S 2 + (n 2 )S 2 2 ) Mikäli populaatiovariansseja σ 2 ja σ2 2 ei tunneta, tilanne muuttuu mutkikkaammaksi. Luonnollisesti tällöin pyritään käyttämään otoksista saatuja otosvariansseja s 2 ja s 2 2. Eräs χ 2 -jakauman mukavia ominaisuuksia on se, että jos V ja V 2 Tämä on hankalahko todistettava. Asia on kuitenkin melko ilmeinen, jos V ja V 2 voidaan esittää riippumattomien standardinormaalien satunnaismuuttujien neliöiden summana. ja se siis on χ 2 -jakautunut vapausastein n + n 2 2. Merkitään lyhyyden vuoksi Sp 2 = (n )S 2 + (n 2 )S2 2, n + n 2 2 ns. yhteisotosvarianssi. Vastaavasti saadaan s 2 p realisoituneista otosvariansseista s 2 ja s 2 2. Koska satunnaismuuttujat Z (ks. edellä) ja V ovat riippumattomat, on satunnaismuuttujalla T = Z V/(n + n 2 2) = (X X 2 ) (µ µ 2 ) S p /n + /n 2 t-jakauma vapausastein n + n 2 2. Käyttäen t-jakauman kvantiilia t α/2 (vapausastein n + n 2 2) ja todeten kaksoisepäyhtälöt pooled sample variance Tämäkin on vaikeasti todistettava asia. Huomaa miten populaatiohajontoja σ ja σ 2 ei saada häviämään T :n lausekkeesta, elleivät ne ole samat tai ainakin suhdetta σ /σ 2 tiedetä. t α/2 < (X X 2 ) (µ µ 2 ) S p /n + /n 2 < t α/2 sekä (X X 2 ) t α/2 S p n + n 2 < µ µ 2 < (X X 2 ) + t α/2 S p n + n 2 ekvivalenteiksi saadaan erotukselle µ µ 2 nyt 00( α) % luottamusrajat (x x 2 ) ± t α/2 s p n + n 2, missä x ja x 2 ovat realisoituneet otoskeskiarvot.

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 23 Esimerkki. Kahdesta paikasta mitattiin eräiden eliöiden ns. moninai- [9.0] suusindeksi kuukausittain, paikasta vuoden ajan (n = 2) ja paikasta 2 kymmenen kuukauden ajan (n 2 = 0). Saadut otossuureet olivat x = 3., s = 0.77, x 2 = 2.04 ja s 2 = 0.448. Näistä laskien saadaan yhteisvarianssiksi s 2 p = 0.47, joten s p = 0.646. Tarvittava t-kvantiili (vapausastein 20) on t 0.05 =.725, jota käyttäen saadaan erotukselle µ µ 2 lasketuksi 90 % luottamusväli (0.593,.547). Jos populaatiovariansseja ei tunneta eikä sitäkään, että ne ovat samat, Tämä vaikeus tunnetaan ns. Behrens Fisher-probleemana. Sitä ei ole varsi- tilanne muuttuu vaikeaksi. Usein kuitenkin todetaan, että jos populaatiovarianssit eivät kovin paljon poikkea toisistaan, yllä olevaa menettelyä voidaan käyttää. (Varianssien samuus on myös testattavissa vaikkapa naisesti ratkaistu. F-jakaumaa käyttäen, ks. Pykälä 3.7.) Samoin usein todetaan, että vaikka Tämä on jo kuitenkin aika epävarmalla pohjalla. populaatiovarianssit ovat erilaisetkin, menettelyä voi käyttää, jos otoskoot ovat samat (tai melkein samat). Paljon käytetty menettely tässä tapauksessa, missä ei voida olettaa populaatiovariansseja edes likimain samoiksi, on seuraava ns. Welch Bernard Welch (9 989), Franklin Satterthwaite Satterthwaite-approksimaatio: Satunnaismuuttujalla on likimain t-jakauma vapausastein W = (X X 2 ) (µ µ 2 ) S 2 /n + S 2 2/n 2 v = (a + a 2 ) 2 a 2 /(n ) + a 2 2/(n 2 ), missä a = s 2 /n ja a 2 = s 2 2/n 2. Tämä v ei yleensä ole kokonaisluku, mut- Taulukoita käytettäessä pitää kylläkin pyöristää v lähimpään kokonaislukuun tai interpoloida. ta se ei haittaa, t-jakauma kun on määritelty silloinkin, kun sen vapausasteluku ei ole kokonaisluku. Tätä tietoa käyttäen saadaan erotukselle µ µ 2 approksimatiiviset 00( α) % luottamusrajat (x x 2 ) ± t α/2 s 2 n + s2 2 n 2, missä jälleen x ja x 2 ovat realisoituneet otoskeskiarvot. Tämän approksimaation tarkkuudesta ollaan eri mieltä. Jotkut suosittelevat sen käyttöä aina, kun on vähänkään epävarmuutta populaatiovarianssien samuudesta, toiset taas varoittavat approksimaation epätarkkuudesta, jos populaatiovarianssit ovat kovin erilaiset. Esimerkki. Joesta mitattiin kahdella mittausasemalla veden ortofosfo- [9.] rimääriä, asemalla tämä tehtiin n = 5 kertaa ja asemalla 2 n 2 = 2 kertaa. Populaatiovariansseista ei ole tietoa. Saadut otossuureet olivat (yksikkönä mg/l) x = 3.84, s = 3.07, x 2 =.49 ja s 2 = 0.80. Käyttäen (approksimatiivista) t-kvantiilia t 0.025 = 2.7 vapausastein v = 6.3 saadaan erotukselle µ µ 2 (approksimatiivinen) 95 % luottamusväli (0.60 mg/l, 4.0 mg/l). Vapausasteluvun pyöristäminen arvoon 6 antaa tässä itse asiassa käytetyllä tarkkuudella saman välin.

LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 24 2.6 Parittaiset havainnot [9.9] Usein tutkittavat kaksi populaatiota liittyvät alkio alkiolta toisiinsa. Kyseessä voisi olla vaikkapa yksi ja sama koehenkilö kahdessa eri tilanteessa, jokin tuote ennen ja jälkeen tietyn käsittelyn, jokin tuote nyt ja sitten vuoden päästä jne. Merkitään. populaation odotusarvoa µ :llä ja 2. populaation odotusarvoa µ 2 :lla. Otetaan satunnaisotos kummastakin populaatiosta, mutta ottaen mukaan mainitut vastinalkiot: Lasketaan vastinalkioiden erotukset X,,..., X,n ja X 2,,..., X 2,n. D = X, X 2,,..., D n = X,n X 2,n. Vastaavalla tavalla saadaan realisoituneet erotukset d = x, x 2,,..., d n = x,n x 2,n. lisen analyysin tekemiseksi oletetaan, että populaatioarvojen erotuksien jakauma on (kyllin tarkasti) normaali. Aivan kuten edellä Pykälässä 2.2, todetaan, että satunnaismuuttujalla T = D (µ µ 2 ) S/ n on t-jakauma vapausastein n. Näin saadaan realisoituneista otoksista populaatioiden odotusarvojen erotukselle µ µ 2 00( α) % luottamusrajat s d ± t α/2. n Varsinaiseksi otokseksi ajatellaankin nyt nämä erotukset, joko satunnaismuuttujina tai realisoituneina. Näin saadaan otoskeskiarvot D ja d sekä otosvarianssit S 2 ja s 2. Ilmeisesti E(D) = µ µ 2. Vastinalkiot X,i ja X 2,i eivät toisaalta ilmeisestikään nyt ole yleisesti riippumattomat (tai korreloimattomat), joten D:n varianssista ei oikeastaan voi olla paljoakaan tietoa. Tilastol- Tämä ei sano mitään varsinaisista populaatiojakaumista, niiden ei tarvitse olla lähelläkään normaalia. Esimerkki. n = 20 Vietnam-veteraanilta, jotka olivat sodassa altistu- [9.2] neet Agent Orange -kasvimyrkylle, mitattiin TCDD-tasot (dioksiini) veriplasmasta (populaatio ) sekä rasvakudoksesta (populaatio 2). Arvojen erotuksien otoskeskiarvoksi saatiin d = 0.87 ja otoshajonnaksi s = 2.98. Vapausastein 9 käytettävä t-kvantiili on t 0.025 = 2.093 ja näin saadaan erotukselle µ µ 2 95 % luottamusväli ( 2.265, 0.525). 2.7 Suhdeluvun estimointi [9.0] Suhdeluvun estimoinnissa otokseen tulleista alkioista saadaan selville ainoastaan se ovatko ne tiettyä tyyppiä ( suotuisa ) vai ei ( epäsuotuisa ). Suotuisien alkioiden lukumäärää merkitään X:llä (satunnaismuuttujana) tai x:llä (realisoitunut lukumäärä). Jos otoskoko on n ja suotuisan