POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Samankaltaiset tiedostot
Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollinen aineisto Luottamusväli

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Testit järjestysasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Sovellettu todennäköisyyslaskenta B

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Testit laatueroasteikollisille muuttujille

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Sovellettu todennäköisyyslaskenta B

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

031021P Tilastomatematiikka (5 op) viikko 5

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Testejä suhdeasteikollisille muuttujille

Osa 2: Otokset, otosjakaumat ja estimointi

Estimointi. Vilkkumaa / Kuusinen 1

Todennäköisyyden ominaisuuksia

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastollisia peruskäsitteitä ja Monte Carlo

Sovellettu todennäköisyyslaskenta B

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Sovellettu todennäköisyyslaskenta B

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

3.6 Su-estimaattorien asymptotiikka

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Teema 8: Parametrien estimointi ja luottamusvälit

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

tilastotieteen kertaus

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Estimointi. Otantajakauma

riippumattomia ja noudattavat samaa jakaumaa.

5.7 Uskottavuusfunktioon perustuvia testejä II

Satunnaismuuttujien mittausasteikot 93

10. laskuharjoituskierros, vko 14, ratkaisut

Parametrin estimointi ja bootstrap-otanta

11. laskuharjoituskierros, vko 15, ratkaisut

Mat Tilastollisen analyysin perusteet, kevät 2007

Tutkimustiedonhallinnan peruskurssi

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

2. TILASTOLLINEN TESTAAMINEN...

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

dx=5&uilang=fi&lang=fi&lvv=2014

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A

TILASTOMATEMATIIKKA. Keijo Ruohonen

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Tutkimustiedonhallinnan peruskurssi

2. Keskiarvojen vartailua

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Regressioanalyysi. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Transkriptio:

KÄSITTEITÄ POPULAATIO Joukko, jota tutkitaan (äärellinen, ääretön). Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut). Näiden välillä ei aina tehdä eroa, kun puhutaan populaatioalkioista. 1

POPULAATIOJAKAUMA Jakauma, jonka populaation kiinnostavat arvot muodostavat. Jos populaatiosta valitaan satunnainen alkio eli siis arvo, kyseessä on ko. arvon todennäköisyysjakauma. Populaatiojakauman kautta päästään käsiksi otossuureiden jakaumiin ja siihen, mitkä otossuureiden arvot ovat harvinaisia ja mitkä taas eivät. 2

Jakauma määräytyy numeeristen arvojen osalta kertymänä P(X x) = merk. F (x), missä X on satunnaisesti valittu arvo ja x kiinteä lukuarvo. Usein jakauma voidaan erinäisten matemaattisten approksimaatiotulosten nojalla olettaa normaalijakaumaksi N(µ, σ 2 ), ts. F (x) = 1 2π σ x e 1 2σ 2(z µ)2 dz. 3

Näin on esimerkiksi, jos kyseessä on samoin jakautuneiden osien summa (Keskeinen raja-arvolause): n = 1 1.8 1.6 1.4 1.2 1.0.8.6.4.20. 1.0 x 0..2.4.6.8 n = 2 1.0.8.6.4.2 0. 0..5 1.0 1.5 2.0 x 3.0 2.5 2.0 1.5 1.0.5 0..2.4 n = 1 n = 2.6.8 x 1.0 1.6 1.4 1.2 1.0.8.6.4.20. x 0..5 1.0 1.5 2.0 n = 3 n = 5 n = 3 n = 5.8.6.4.2 0. 0..5 x 1.0 1.5 2.0 2.5 3.0.7.6.5.4.3.2.1 0. x 0. 1. 2. 3. 4. 5..8.6.4.2 0. 0..5 x 1.0 1.5 2.0 2.5 3.0.5.4.3.2.1 0. 0. 1. 2. 3. 4. x 5. n = 7.6.5.4.3.2.1 0. 7. x 0. 1. 2. 3. 4. 5. 6..5.4.3.2 n = 10.1 0. 0. 2. 4. 6. 8. x 10. n = 10.35.30.25.20.15.10.5e 1 0. 0. 2. 4. 6. 8. 10. x.20.15.10 n = 20.5e 1 0. 0. 5. 10. 15. x 20. 4

Käänteiskertymä antaa populaatiokvantiilin q f = F 1 (f) eli f = P(X q f ) = F (q f ). Esimerkiksi q 0.5 = F 1 (0.5) on populaatiomediaani, joka jakaa populaatiojakauman kahtia. Alakvartiili q 0.25 sekä yläkvartiili q 0.75 ovat myös usein esiintyviä populaatiokvantiileja. Tilasto-ohjelmistot tulostavat nämä estimoituina otoksesta: 5

Nicotinedata: Distribution Distributions Content Quantiles Moments.5 1 1.5 2 2.5 100.0% 99.5% 97.5% 90.0% 75.0% 50.0% 25.0% 10.0% 2.5% 0.5% 0.0% maximum quartile median quartile minimum 2.5500 2.5500 2.5478 2.3070 2.0150 1.7700 1.6325 1.2530 0.7232 0.7200 0.7200 Mean Std Dev Std Err Mean upper 95% Mean lower 95% Mean N 1.77425 0.3904559 0.0617365 1.8991239 1.6493761 40 6

REALISOITUNUT OTOS Populaatiosta satunnaisesti valittu n alkion näyte x 1,..., x n. Jälleen ollaan kiinnostuneita arvoista. Otoksesta lasketaan yksi tai useampia otossuureita (keskiarvo, varianssi, hajonta, mediaani jne.). Tilasto-ohjelmistot antavat näitä hyvän kokoelman. Periaatteessa yleensä palauttaen (toisin kuin lotossa!). 7

ESTIMOINTI Tarkoitus on otokseen tulleista arvoista laskien saada hyvä approksimaatio jollekin populaatiota koskevalle numeeriselle suureelle (odotusarvo, varianssi, mediaani tai jokin muu todennäköisyys jne.). Esimerkiksi populaation odotusarvon (keskiarvon) ja varianssin tavallisia estimaatteja ovat otoskeskiarvo ja otosvarianssi x = 1 n (x 1 + + x n ) ja s 2 = 1 n 1 n (x i x) 2. i=1 8

Populaation mediaanin, kvartiilien ja muiden kvantiilien estimaatteina ovat vastaavat otoksesta tavalla tai toisella lasketut luvut (tapoja on useita). 9

LUOTTAMUSVÄLIT SATUNNAINEN OTOS Ajatellaan otosta riippumattomien satunnaisten arvojen (satunnaismuuttujien) X 1,..., X n kokoelmana, joista kullakin on sama jakauma kuin populaatiolla, ikäänkuin abstraktisti ottamatta varsinaisia näytteitä. (Käytetään isoja kirjaimia satunnaismuuttujille.) Kukin otossuure muuttuu näin myös satunnaismuuttujaksi. 10

Esimerkiksi otoskeskiarvo ja otosvarianssi ovat silloin satunnaismuuttujia: X = 1 n (X 1 + + X n ) ja S 2 = 1 n 1 n (X i X) 2. i=1 Otossuureilla on kullakin näin oma jakaumansa, joka periaatteessa saadaan populaatiojakaumasta. Jos populaatiojakauma on normaalijakauma, tullaan tätä kautta moniin muihin tavallisiin tilastollisiin jakaumiin (χ 2 -jakauma, t-jakauma, F-jakauma jne.). 11

LUOTTAMUSVÄLIT Luottamusväli muodostetaan jollekin populaatiota koskevalle kiinnostavalle (mutta tuntemattomalle) lukuarvoiselle suureelle. Kyseessä voi olla esimerkiksi populaatiojakauman jokin parametri (odotusarvo, varianssi jne.) tai todennäköisyys (mediaani, kvartiilit jne.). Luottamusväli voi olla kaksipuolinen tai toispuolinen. 12

Luottamusväli muodostetaan käyttäen saatua realisoitunutta otosta. Otoksen satunnaisuudesta johtuen se voi olla ko. luottamusvälin laskua ajatellen hyvä tai huono. Asian kvantisoimiseksi kiinnitetään välin haluttu luottamusaste muodossa 100(1 α) % ja vaaditaan, että todennäköisyys sille, että saatu luottamusväli pitää sisällään kyseisen kiinnostavan suureen oikean arvon, on ainakin 1 α. Ts. todennäköisyys sille, että saadaan luottamusväliä ajatellen huono otos, on enintään α. 13

Varsinainen luottamusväli saadaan, kun valitaan sopiva otossuure ja etsitään sille arvot, joiden välissä se (satunnaismuuttujana) on ainakin todennäköisyydellä 1 α (toispuoliselle luottamusvälille riittää vain toinen arvo). Näistä saadaan sitten luottamusvälin päätepisteet manipuloimalla vähän saatua (kaksois)epäyhtälöä. Esimerkiksi normaalijakautuneen populaation tapauksessa saadaan luottamusväli sen odotusarvolle µ käyttäen otoskeskiarvoa x ja -varianssia s 2 sekä t-jakaumaa, ja varianssille σ 2 käyttäen otosvarianssia s 2 sekä χ 2 -jakaumaa. 14

Katsotaan esimerkiksi 100 simuloitua luottamusväliä N(0, 1)- jakaumalle, ensin luottamusasteille 90 % ja 95 % 100 100 kpl N(0,1) jakauman odotusarvon luottamusvälejä (90%) 100 100 kpl N(0,1) jakauman odotusarvon luottamusvälejä (95%) 90 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 10 0 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0 1 0.5 0 0.5 1 1.5 15

ja sitten luottamusasteelle 99 % 100 100 kpl N(0,1) jakauman odotusarvon luottamusvälejä (99%) 90 80 70 60 50 40 30 20 10 0 1.5 1 0.5 0 0.5 1 1.5 16

Toinen tavallinen esimerkki on binomijakauman parametrin p luottamusväli. Tällöin N riippumattomassa kokeessa kirjataan ylös niiden kokeiden lukumäärä x, joissa tapahtui tietty asia (esimerkiksi lantinheitto ja klaava). Parametrin p estimaatti on luonnollisesti x/n. Luottamusväli sille onkin sitten hankalampi. Tarkka menetelmä (ns. Clopper Pearson-väli) on mutkikas, normaaliapproksimaatioon perustuvat menetelmät (esimerkiksi ns. Wilsonin väli ja ns. Waldin väli) taas epätarkkoja. 17

Clopper Pearson-väli ja Wilsonin välikin menettelee, 1 Bin(20,p) jakauman oikea luottamusaste vs. 0.95: 100000 toistoa, Clopper Pearson 1 Bin(20,p) jakauman oikea luottamusväli vs. 0.95: 1000000 toistoa, Wilson 0.99 0.99 0.98 0.98 0.97 0.97 Oikea luottamusaste 0.96 0.95 0.94 Oikea luottamusaste 0.96 0.95 0.94 0.93 0.93 0.92 0.92 0.91 0.91 0.9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p 0.9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p 18

mutta Waldin väli on jo toivottoman huono 1 Bin(20,p) jakauman oikea luottamusaste vs. 0.95: 1000000 toistoa, Wald 0.9 0.8 0.7 Oikea luottamusaste 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p 19

Muita tavallisia suureita, joille lasketaan luottamusvälejä, ovat mm. populaatioiden odotusarvojen erotus populaatioiden varianssien suhde regressiomallien kertoimet Tilasto-ohjelmistot laskevat osin automaattisesti monia luottamusvälejä. Muita luottamusvälin tapaisia välejä ovat ennusteväli ja toleranssiväli. 20

HYPOTEESIEN TESTAUS Tilastollinen hypoteesi koskee jotain populaatio(ide)n ominaisuutta, joka joko on voimassa tai sitten ei. Usein tällainen hypoteesi koskee jotain numeerista suuretta, esimerkiksi populaatiojakauman parametria. Testattaessa asetetaan nollahypoteesi H 0 ( on voimassa ) ja sille vaihtoehtoinen hypoteesi H 1 ( ei ole voimassa ). Itse testi tehdään olettaen nollahypoteesin olevan voimassa ja yrittäen etsiä otoks(i)en perusteella todistetta sitä vastaan. 21

Todiste nollahypoteesia vastaan on otoksesta (otoksista) lasketun testisuureen osuminen epätodennäköiselle alueelle. Halutaanko nollahypoteesi hylätä vai ei riippuu tilanteesta. Jos esimerkiksi halutaan näyttää parannusta tapahtuneen edelliseen verrattuna ja nollahypoteesin mukaan näin ei ole, haluttaneen nollahypoteesi nimenomaan hylätä. Samoin regressiomallin F-testissä, jossa nollahypoteesin mukaan malli on merkityksetön. 22

Regressiomallin epäsopivuustestissä ( lack-of-fit ) taas nollahypoteesin mukaan malli on sopiva. Samoin jakauman sopivuustestissä (Kolmogorov Smirnov, Lilliefors, χ 2 jne.) populaatiojakauma on nollahypoteesin mukaisesti haluttu. Nollahypoteesia ei tällöin erityisesti haluttane hylätä. 23

TESTIVIRHEET Testissä voi syntyä kahdenlainen väärä päätös: Tyypin 1 virhe: Nollahypoteesi hylätään turhaan ( väärä hälytys ). Tyypin 2 virhe: Nollahypoteesia ei hylätä, vaikka pitäisi. Koska testaus tapahtuu satunnaisista otoksista saatua testisuuretta käyttäen, tyypin 1 virheellä on oma todennäköisyytensä, jota merkitään usein α:lla ja kutsutaan riski(taso)ksi. 24

Tyypin 2 virheen todennäköisyyttä voidaan usein vain arvioida, sitä merkitään yleisesti β:lla. 1 β on testin voimakkuus. Ideaalisesti riski α asetetaan etukäteen ja H 0 hylätään vain jos väärän hylkäämisen riski on enintään α. Tämä ehto määrittää otoksesta saadulle testisuureen arvolle kriittisen alueen, jolle osuttaessa H 0 voidaan hylätä ilman liian suurta riskiä. Toinen tapa on laskea realisoitunutta testisuureen arvoa vastaava pienin riski P, jolla nollahypoteesi voidaan hylätä, ns. P-arvo. H 0 hylätään, jos P α. Usein esitetään vain P-arvo. 25

PARAMETRIEN TESTAUS Populaatiojakauman parametrin θ testaus on tavallinen. Silloin nollahypoteesi on H 0 : θ = θ 0 ja vaihtoehtoinen hypoteesi jokin seuraavista: H 1 : θ > θ 0 (toispuolinen testi) H 1 : θ < θ 0 (toispuolinen testi) H 1 : θ θ 0 (kaksipuolinen testi) Myös kahden populaation parametrien θ 1 ja θ 2 vertailu on tavallinen testin aihe. Tällöin nollahypoteesi on usein muotoa H 0 : θ 1 θ 2 = d 0 tai H 0 : θ 1 /θ 2 = r 0, missä d 0 ja r 0 ovat annettuja lukuja, ja vaihtoehtoiset hypoteesit kuten yllä. 26

Periaatteessa parametria koskeva hypoteesi voidaan testata riskitasolla α muodostamalla 100(1 α) % luottamusväli ko. parametrille ja tarkistamalla kuuluuko nollahypoteesin mukainen arvo luottamusvälille vai ei (jolloin H 0 hylätään). Toispuoliselle testille tarvitaan toispuolinen luottamusväli. Tällöin voidaan tyytyä pelkkään luottamusväliinkiin, sehän antaa enemmän informaatiota tilanteesta. 27

t-testit Normaalijakautuneen populaation odotusarvon µ vertaaminen annettuun arvoon µ 0 tehdään ns. t-testillä käyttäen t-jakaumaa. Otoskoko on silloin pieni tai pienehkö. Ohjelmistot tekevät osan t-testeistä automaattisesti. Jos populaatiovarianssi on tunnettu, testi voidaan tehdä normaalijakaumaa käyttäen ns. z-testinä. Ja vaikka populaatiojakauma ei olisikaan normaali, mikäli otoskoko on suurehko. t-testikään ei ole kovin herkkä epänormaalisuudelle. 28

t-testillä voidaan myös verrata kahden eri normaalijakautuneen populaation odotusarvoja µ 1 ja µ 1 nollahypoteesin H 0 : µ 1 µ 2 = d 0 muodossa, olettaen, että populaatioiden varianssit ovat samat (vaikkakin tuntemattomat). Usein kaksi populaatiota voidaan asettaa alkioittain pareittain vastaamaan toisiaan (tyypillisesti: ennen käsittelyä käsittelyn jälkeen ), jolloin myös otokset vastaavat alkioittain toisiaan. Tällöin voidaan t-testillä testata alkioiden erotuksen odotusarvoa, olettaen sille normaalijakauma. Itse populaatiojakaumat voivat olla silloin mitä vaan. 29

BEHRENS FISHER-PROBLEEMA Entäs tapaus, jossa populaatiojakaumat ovat normaalit, mutta varianssit eivät (ehkä) ole samat? Silloin otoksista saadut otossuureet eivät riitäkään populaatioiden odotusarvojen testaamiseen. Asian jonkinlaiseksi selvittämiseksi on kehitetty useita approksimatiivisia menetelmiä, mm. ns. Welch Satterthwaite-approksimaatio, joiden käytöstä ollaan monta mieltä. Ohjelmistot käyttävät niitä kuitenkin yleisesti. 30

MUITA Normaalijakautuneiden populaatioiden muita tavallisia testejä ovat mm. populaatiovarianssin vertaaminen annettuun varianssiin ja eri populaatioiden varianssien vertaaminen keskenään. 31

PARAMETRITTOMAT TESTIT Testejä, joissa ei oleteta populaatiojakaumien muodosta juurikaan mitään (esimerkiksi normaalisuutta), kutsutaan parametrittomiksi. Tällöin testataan lähinnä todennäköisyyksiin liittyviä asioita kuten kvantiileja (erityisesti mediaaneja), riippumattomuutta ja jakaumien samuutta. 32

χ 2 -TESTIT χ 2 -testeillä voidaan testata (yleensä äärellisille jakaumille) jakauman samuutta annetun jakauman kanssa (sopivuustesti). usean jakauman keskinäistä samuutta (homogeenisuustesti). kahden jakauman riippumattomuutta (riippumattomuustesti). 33

Testidata esitetään usein ns. kontingenssitaulun muodossa: S 1 S 2 S l Σ T 1 f 1,1 f 1,2 f 1,l f 1 T 2 f 2,1 f 2,2...... f 2,l. f 2. T k f k,1 f k,2 f k,l f k Σ g 1 g 2 g l n Tällöin mahdolliset tapahtumat ovat S 1,..., S l (1. jakauma) ja T 1,..., T k (2. jakauma). Vaihtoehtoisesti T 1,..., T k määrittelevät k jakaumaa, joissa kaikissa mahdolliset tapahtumat ovat S 1,..., S l. 34

MEDIAANITESTEJÄ Jakauman kvantiileja voidaan testata useilla erilaisilla testeillä, jotka eivät vaadi populaatiojakaumilta juuri mitään (mutta ovat sitten heikompia kuin parametriset testit). Tällaisia ovat merkkitesti (kvantiilien ja erityisesti mediaanin testaukseen, oleellisesti binomijakaumatesti). merkityn järjestyksen testi (symmetrisille jakaumille ja vain mediaanille). 35

järjestyssummatesti (kahden eri populaation mediaanien testaukseen, nollahypoteesin mukaisesti jakaumat ovat samat!). Kruskal Wallis-testi (usean eri jakauman mediaanien samuuden testaukseen, nollahypoteesin mukaisesti jakaumat ovat samat!). Huolimatta siitä, että kahdessa jälkimmäisessä testissä nollahypoteesin mukaisesti jakaumat ovat samat, testejä ei oikein voi käyttää koko jakaumien samuustestiin, sillä ne ovat siihen tarkoitukseen heikkoja. Lähinnä testit testaavat mediaaneja. 36

Ratkaisua Behrens Fisher-probleemaan ei tätäkään kautta tule, sillä jos jakaumat oletetaan samoiksi, niiden (mahdolliset) varianssitkin ovat samat! Yhdessä t-testit ja eo. parametrittomat testit muodostavat kokoelman keskeissuuretestejä (odotusarvoille tai mediaaneille), joiden valinta menee seuraavan kaavion mukaisesti ylhäältä alas (ohjelmistot esittävät nämä valinnat käyttäjälle). 37

Havainnot pareittain? Kyll Ei Erotuksen jakauma normaali? Jakaumat samanmuotoiset? t-testi erotuksille Jakaumat normaalit? Erotuksen jakauma symmetrinen? Jakaumat normaalit? J rjestyssummatesti (?) Merkityn j rjestyksen testi erotuksille t-testi Welch Satterthwaite-testi (?) Mediaanin merkkitesti erotuksille J rjestyssummatesti 38