Estimointi - tehdään päätelmiä perusjoukon ominaisuuksista (keskiarvo, riskisuhde jne.) otoksen perusteella - mitä suurempi otos, sitä tarkemmat estimaatit Otokseen perustuen määritellään otantajakaumalta alue, jolla perusjoukon keskiarvo todennäköisimmin sijaitsee, kun huomioidaan otostamiseen liittyvä satunnaisvaihtelu..4.3 Jos muuttujan otantajakauma on standardoitu normaalijakauma, sijaitsee keskiarvon 95% luottamusväli siis välillä [-1.96, +1.96]. A. Piste-estimaatit - perusjoukon parametrin arvon estimaatti on yksi lukuarvo - esim. otoskeskiarvo on perusjoukon keskiarvon pisteestimaatti Esim. keskimmäiset 95% kaikista mahdollisista otoskeskiarvoista sijaitsevat ±1.96 keskihajontayksikön 1 päässä todellisesta B. Väliestimaatit keskiarvosta - pyritään määrittelemään väli, jolla perusjoukon parametri -1.96 +1.96 standardoidulla sijaitsee halutulla varmuudella = luottamusväli normaalijakaumalla. (confidence interval, confidence limits) - mitä kapeampi väli, sitä enemmän informaatiota parametrista on saatu -4-3 -2-1 1 2 3 4.2.1 1 Ks. keskihajonnan määrittely. 95% Luottamusvälin kohdalla Riskitaso (α) kertoo mahdollisuuden tehdä päättelyvirheen oletettaessa, että luottamusväli pitää sisällään perusjoukon keskiarvon, vaikkei näin olekaan. (esim..25, eli 2.5 %).4.3.2 α/2 α/2.1 Sovittuja riskitasoja [Riskitaso / Luottamusväli].5 (5%) 95%.1 (1%) 99%.1 (.1%) 99.9% (esim..25, eli 2.5 %) Luottamusvälin laskeminen keskiarvolle Otoksesta (n=1) on laskettu pituuden - keskiarvoksi 15 - keskihajonnaksi 2 Tällöin keskiarvon keskivirhe on 2. s = n 2 = 2 1 Määritetään keskiarvon luottamusväli 95% luottamustasolla -4-3 -2-1 1 2 3 4 σ 95% 148 149 x = 15 151 152 (s = 2) 1
Oletukset: pituus on jakautunut normaalisti, otoskoko on yli 3. Tiedetään, että standardoidun normaalijakauman kohdalla 95% luottamusväli löytyy väliltä -1.96 +1.96. Tarkasteltavan muuttujan alkuperäinen jakauma ei ollut standardoitu. Siis täytyy muuntaa standardoidun muuttujan hajonta alkuperäiselle mittayksikölle, eli muuttujan hajontaa vastaavaksi käyttäen apuna keskiarvon keskivirhettä. Näin 95% luottamusvälin rajakohdat saadaan oikealle etäisyydelle keskiarvosta. Lasketaan keskivirhe: ±1.96 * 2. = ±3.92-1.96 1.96-3.92 3.92-2 -1 1 2-6 -4-2 2 4 6 148 149 x = 15 151 152 (s = 2) 144 x = 15 156 (s = 2) Luottamusväli pituusmuuttujalle saadaan, kun siirretään saadut rajat oikealle kohdalle pituuden lukusuoraa. Tätä varten vain otantajakauman keskiarvo täytyy siirtää alkuperäisen muuttujan keskiarvon kohdalle. Lasketaan: 15-3.92 = 146.8 15 +3.92 = 153.92-3.92 3.92 Lopputuloksena saatiin siis, että 95% luottamusväli tämän otoksen mukaan on [149.61, 15.39]. Eli: Tutkijalla on 95% luottamus siihen, että perusjoukon keskiarvo sijaitsee välillä [146.8, 153.92] tämän otoksen perusteella. Merkitään: CI 95% = [146, 154] -6-4 -2 2 4 6 146.8 153.92 144 x = 15 (s = 2) 156 146.8 153.92 144 x = 15 (s = 2) 156 2
Keskiarvon 95% luottamusväli voidaan yleisesti laskea mistä tahansa muuttujasta kaavalla: x ± 1.96 s n Luottamusväli voidaan yleisesti laskea eri luottamustasoille kaavalla: s x ± z, n jossa z vastaa stand. normaalijakaumalta löytyviä arvoja, jolla otantajakauma peittyy haluttu luottamustaso, esim. z = 1.96 (95%) z = 2.58 (99%) z = 3.29 (99.9%) Tulkinta Perusjoukossa olevien tapausten pituudet (cm) 168.78 182.52 181.4 146.62 188.81 165.12 Poimitaan tästä perusjoukosta (N = 6) kaikki erilaiset otokset, joissa kussakin on kolme tapausta (n = 3). Tällaisia otoksia on yhteensä 2 kpl. Lasketaan näille otoksille keskiarvo ja keskiarvon luottamusväli 95 % luottamustasolla. Otoskeskiarvvirhe Keski- Otantayksiköt Otos 95% Luottamusväli perusjoukossa 2 3 1 177.57 4.41 168.93 186.21 1 2 165.97 1.46 145.47 186.47 1 2 4 3 18.4 5.91 168.46 191.62 1 2 5 4 172.14 5.29 161.77 182.51 1 2 6 5 165.6 1.17 145.67 185.53 1 3 4 6 179.66 5.85 168.19 191.13 1 3 5 7 171.77 4.93 162.11 181.43 1 3 6 8 168.7 12.18 144.2 191.94 1 4 5 9 16.17 6.86 146.72 173.62 1 4 6 1 174.24 7.36 159.81 188.67 1 5 6 11 17.18 11.78 147.9 193.27 2 3 4 12 184.24 2.3 179.73 188.75 2 3 5 13 176.35 5.62 165.34 187.37 2 3 6 14 172.65 13.14 146.9 198.4 2 4 5 15 164.75 1.36 144.44 185.6 2 4 6 16 178.82 7.8 164.94 192.7 2 5 6 17 172.28 13.1 146.78 197.78 3 4 5 18 164.38 1.5 144.68 184.8 3 4 6 19 178.44 7. 164.72 192.16 3 5 6 2 166.85 12.21 142.92 19.78 4 5 6 (cm) 2 195 19 185 18 175 17 165 16 155 15 145 14 muuttujan 95% luottamusvälit 1 2 3 4 5 6 7 8 9.......... 2 Otos (keskiarvon mukaan järjestettynä) Perusjoukon keskiarvo 172.21 cm Alaraja Keskiarvo Yläraja 3
Lopuksi Havaitaan, että lähes kaikki luottamusvälit pitävät sisällään perusjoukon keskiarvon Kuitenkin: yksi luottamusväleistä (otos 2) ei sisällä perusjoukon keskiarvoa (172.21) Lasketaan: 1/2 =.5, eli n. 5% Tulkinta: Koska tutkija ei tiedä otostaessaan, mikä kyseisistä otoksista on hänen otostamansa otos, hän hyväksyy 5% riskin sille, että luottamusväli ei sisällä perusjoukon keskiarvoa Toisin sanoen hänellä on 95% luottamus siihen, että luottamusväli sisältää perusjoukon keskiarvon Tässä luottamusväli laskettiin luottamustasolla 95% Muita luottamustasoja ovat 99% ja 99.9% luottamustasot Vastaavasti luottamusväli voidaan laskea myös muille parametreille, esim. riskisuhteelle, suhteelliselle osuudelle jne. Luottamusvälin laskennassa joudutaan kiinnittämään huomiota kunkin parametrin otantajakaumaan ja tämä aiheuttaa sen, että luottamusväli lasketaan eri parametreille erilaisilla kaavoilla Luottamusväleihin liittyy myös käsite riskitaso, joka määrittää luottamustasoa: jos riskitaso on.5, niin luottamustaso = 1.5 =.95 = 95% Luottamusväli: [a, b] on parametrin t luottamusväli luottamustasolla 1-α, jos P(a t b) = 1 -α Riskitasoon perehdytään tarkemmin tilastollisen testauksen yhteydessä Tilastollinen testaus - on olemassa ennakkokäsitys tarkasteltavan parametrin mahdollisesta arvosta - selvitetään pitääkö ennakkokäsitys paikkansa Esim. Aikaisempien tutkimusten perusteella on määritelty painon keskiarvoksi 75-vuotiaiden jyväskyläläisten miesten keskuudessa 74kg (keskihajonta 11kg). Uuden otoksen perusteella lasketaan painon keskiarvoksi 8kg (keskihajonta 1kg). Onko keskipaino muuttunut? Tarkoitus on selvittää sopivan tilastollisen testin perusteella ovatko otoksesta havaitut arvot sopusoinnussa nollahypoteesin mukaisen parametrinarvon kanssa satunnaisvaihtelun puitteessa, vai onko jokin muu parametrin arvo todennäköisempi Voidaan määrittää riski sille, että otoksesta tehty päätelmä olisikin virheellinen Tilastollisen testauksen vaiheet: 1. hypoteesien määrittäminen 2. testisuureen valinta, oletusten tarkistaminen 3. riskitason valinta 4. testisuureen laskeminen ja p-arvon määrittäminen 5. nollahypoteesin hyväksyminen tai hylkääminen 6. tulosten raportointi Järjestys on tärkeä 4
Hypoteesit Tutkimuksen alkuvaiheessa on määritelty tutkimuskysymys ja siitä edelleen tutkimushypoteesit. Tilastollista testausta varten määritellään testaushypoteesit: nollahypoteesi ja vastahypoteesi H : nollahypoteesi - kuvaa ennakko olettamusta, josta luovutaan vasta kun sitä vastaan saadaan tarpeeksi vahvoja todisteita - nimensä mukaan kuvaa yleensä nollatilannetta, eli esim. kahden parametrin arvot ovat yhtä suuret (=) eli eroja ei ole; vaikutusta ei ole; riippuvuutta ei ole; jne. H 1, H A : vastahypoteesi (vaihtoehtohypoteesi) - kuvaa tilannetta, joka on tutkimustilanteessa nollahypoteesille vastakkainen olotila - tulee voimaan, jos nollahypoteesi hylätään - esim. kahden parametrin arvot ovat erisuuret ( ), tai toinen on suurempi kuin toinen (> tai <); vaikutusta on; riippuvuutta on; jne. Hypoteesit Vastahypoteesi voi olla kaksisuuntainen tai yksisuuntainen - Kaksisuuntaisen hypoteesin kohdalla ei etukäteen pystytä sanomaan, kumpaan suuntaan mahdollinen vaikutus esiintyy, esim. ei tiedetä kumpi kahdesta vertailtavasta keskiarvosta on suurempi, ( µ 74 ) - Yksisuuntaiselle hypoteesille vaikutuksen suunta tiedetään, esim. tiedetään, että jos eroa kahden keskiarvon välillä on, niin se voi esiintyä vain niin, että ensimmäisen ryhmän keskiarvo on suurempi kuin jälkimmäisen ( µ > 74 ) Testauksen hypoteeseista toinen on tutkimushypoteesin mukainen, ts. samalla testillä voidaan esim. testata sitä ovatko kaksi keskiarvoa yhtä suuria vai onko niiden välillä eroa; ennen testauksen suorittamista ei siis tiedetä kumpi hypoteeseista pitää paikkansa, mutta testauksen kannalta oletetaan tilapäisesti, että H pitäisi paikkansa. Mahdollisia hypoteeseja painoesimerkin testauksessa H : µ = 74 eli perusjoukon keskiarvo on (edelleen) 74 kg. H 1 : µ > 74 eli perusjoukon keskiarvo on suurempi kuin 74 kg. Tässä tilanteessa tiedetään, että jos paino ei ole 74 kg, niin ainoa mahdollisuus on, että se on tätä suurempi H : µ = 74 eli perusjoukon keskiarvo on (edelleen) 74 kg. H 1 : µ 74 eli perusjoukon keskiarvo ei ole 74 kg. Tässä tilanteessa oletetaan ainoastaan, että jos nollahypoteesi hylätään, voi paino olla joko suurempi tai pienempi kuin 74kg. Vastahypoteesi on rajattava ennen aineiston tarkastelua ja rajaamisen yksisuuntaiseksi tulee olla perusteltua. Tutkimuskysymys Tutkija B laski keskiarvon 171.77 Tutkija C on mitannut vastaavasta perusjoukosta keskiarvon 176.32 Tutkija D on mitannut vastaavasta perusjoukosta keskiarvon 182.12 Kiinnostaa tietää, voiko tutkijoiden C ja D tuloksia pitää samankaltaisina tutkijan B tuloksen kanssa ELI: Ovatko tutkijoiden C ja D otoskeskiarvot peräisin samasta perusjoukosta? 5
Parametri Kiinnostuksen kohteena ovat keskiarvojen väliset erotukset (= tarkasteltava parametri) Tässä havaitut erot ovat: C-B: 176.32 171.77 = 4.55 D-B: 182.12 171.77 = 1.35 Voidaanko eroja pitää merkittävinä (yleistettävinä perusjoukkoon), kun huomioidaan satunnaisvaihtelu? Otantajakauma Jos muuttuja, jota tarkastellaan on jakaumaltaan normaali, voidaan havaita kuvaajan mukainen erilaisten keskiarvoerotusten jakauma, joka on myös normaali Jos samasta perusjoukosta otostettaisiin kaksi otosta Mitä lähempänä B:n keskiarvoa (171.77) vertailtavat keskiarvot ovat, sitä todennäköisempää on että ne tulevat samasta perusjoukosta 151.77 171.77 = -2 181.77 171.77 = 1-2 -1 1 2 171.77 171.77 = P-arvo P-arvo: Todennäköisyys havaita keskiarvojen välinen ero, joka on yhtä suuri tai suurempi kuin keskiarvojen välillä laskettiin havaituista keskiarvoista B ja C p =.2266 B ja D p =.853-2 -1 1 2-2 -1 1 2 Tulkinnallisia arvoja: -2-1 1 2 p <.5, ero melkein merkitsevä 182.12 171.77 = 1.35 p <.1, ero merkitsevä p <.1, ero erittäin merkitsevä 171.77 171.77 176.32 182.12 4.55 1.35 6
Testisuure ja p-arvo - Esim. kun halutaan tarkastella keskiarvon välistä erotusta vertailuarvosta, ei riitä että otetaan huomioon vain keskiarvon erotuksen, vaan on myös huomioitava muuttujan hajonta ja otoskoko - Tämä tehdään käyttämällä sopivaa testisuuretta, esim. keskiarvojen kohdalla voidaan käyttää t-testisuuretta - Testisuureen otantajakaumasta voidaan ilmoittaa esim. kuinka todennäköinen jonkun yksittäinen otoksen keskiarvojen erotus vertailuarvosta on, kun pidetään nollahypoteesia totena. - p-arvo ilmoittaa tarkan todennäköisyyden havaita itseisarvoltaan yhtä suuri tai suurempi testisuureen arvo, kun nollahypoteesia pidetään totena, eli se on todennäköisyys että tutkija on väärässä, kun hän sanoo nollahypoteesin olevan voimassa. - Tällöin suuret arvot (p on lähellä 1 oleva arvo) tukevat nollahypoteesia ja pienet arvot (p on lähellä nollaa) tukevat nollahypoteesin hylkäämistä Riskitaso - Riskitaso on todennäköisyyden taso, jolla tutkija on valmis hylkäämään nollahypoteesin, vaikka se saattaisikin pitää perusjoukossa paikkansa - Sopimuksenvaraisesti on määritelty riskitasoja, joilla nollahypoteesi hylätään, näitä ovat: α =.5 α =.1 α =.1 -Riskitaso määrittää otantajakaumalta katkaisukohdan p-arvolle: Jos p > α, nollahypoteesi jää testin perusteella voimaan. Jos p < α, hylätään nollahypoteesi testin tuloksena. Tilastolliseen päätöksen tekoon liittyy riski tehdä virhepäätelmä: Jos testin perusteella nollahypoteesi hylätään, sanotaan tulosta tilastollisesti merkitseväksi. Riskitasoihin liittyen merkitsevyyksiä on nimetty seuraavasti: Todellinen asiaintila H jää voimaan Testin tulos H hylätään.5 Tilastollisesti melkein merkitsevä (*).1 Tilastollisesti merkitsevä (**).1 Tilastollisesti erittäin merkitsevä (***) Kun testiä lähdettiin suorittamaan, ei tiedetty kumpi hypoteeseista pitää paikkansa, mutta oletettiin nollahypoteesi paikkansa pitäväksi. H on voimassa H ei voimassa Oikein Väärin β Väärin α Oikein Tyypin I virhepäätelmä: Hylätään nollahypoteesi, kun se on tosi. Tyypin II virhepäätelmä: Hyväksytään nollahypoteesi, kun se on epätosi. Todennäköisyys tehdä tyypin I virhepäätelmä, on riskitason α suuruinen, tyypin II virhepäätelmää määritetään testin tehokkuudella (power). 7
Testisuure ja oletukset Tilastollinen testaus suoritetaan testisuureen avulla, jolla on oma otantajakaumansa ja siten omat oletuksensa. Jotta testin tulos olisi tulkittavissa oikein, tulee näiden oletusten olla voimassa. Esim. normaalijakaumaan ja keskiarvoihin liittyvät testit perustuvat olettavat tarkasteltavien muuttujien olevan normaalisti jakautuneita, jatkuvia muuttujia, ja lisäksi oletetaan otostamisen onnistuneen. Jos jonkin muuttujan kohdalla kaikki suunnitellun testin oletukset eivät täyty, joudutaan testaus suorittamaan jollakin vaihtoehtoisella testillä tai muuttujia voidaan yrittää muuntaa jollakin sopivalla muunnosfunktiolla. Seuraavassa esitellään joitain yleisiä testien oletuksia. Frequency Normaalijakautuneisuus (1) Histogrammi 6 5 4 3 2 1 R AIR 25 7,5 12,5 17,5 22,5 R AIR 25 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5 67,5 72,5 77,5 82,5 87,5 92,5 Std. Dev = 13,81 Mean = 22,6 N = 188, Histogrammi Jyväskyläläisten 75- vuotiaiden naisten muuttujalle "air conducted pure tone thresholds, db, 25 Hz, right ear". Frequency 4 3 2 1 CHOLESTEROL 13, 12,5 12, 11,5 11, 1,5 1, 9,5 9, 8,5 8, 7,5 7, 6,5 6, 5,5 5, 4,5 4, CHOLESTEROL Histogrammi Jyväskyläläisten 75-vuotiaiden naisten kolesterolille. Std. Dev = 1,37 Mean = 6,89 N = 189, Normaalijakautuneisuus (2) Normaalijakautuneisuus (3) Kvantiilikuvio (Q-Q-plot) 3 Normal Q-Q Plot of R AIR 25 3 Normal Q-Q Plot of CHOLESTEROL Kolmogorov-Smirovin testi: H : Muuttuja on normaalisti jakautunut perusjoukossa. H 1 : Muuttuja ei ole normaalisti jakautunut perusjoukossa. Expected Normal 2 1-1 -2-3 -2 2 4 6 8 1 Observed Value Kvantiilikuvaaja kuulomuuttujalle. Expected Normal 2 1-1 -2-3 2 4 6 8 1 12 14 Observed Value Kvantiilikuvaaja kolesterolimuuttujalle. Jos muuttuja on normaalisti jakautunut testin p-arvo on suuri, suurempi kuin valittu riskitaso, esim..5. Normaalistijakautunut Ei normaali Tests of Normality NC263 CHOLESTEROL NC284 R AIR 25 Kolmogorov-Smirnov a Statistic df Sig.,53 185,2*,198 185, *This is a lower bound of the true significance. a Lilliefors Significance Correction. 8
Varianssien yhtäsuuruus Kun verrataan usean ryhmän keskiarvoa, oletetaan ryhmien hajonnan olevan yhtä suurta. Tämän oletuksen voimassaoloa testataan Levenen testillä: H : Varianssit ovat yhtä suuret eli s 12 = s 22 = = s k2. H 1 : Ainakin yhden ryhmän varianssi on erisuuri kuin muut. Esim. (nc261) siviilisäätyryhmissä (4 kpl) Varianssit yhtä suuret Test of Homogeneity of Variances NC261 HEIGHT Levene Statistic df1 df2 Sig.,736 3 187,532 9