Estimointi. Otantajakauma

Samankaltaiset tiedostot
Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Otantajakauman käyttö päättelyssä

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Mat Tilastollisen analyysin perusteet, kevät 2007

RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Sovellettu todennäköisyyslaskenta B

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

10. laskuharjoituskierros, vko 14, ratkaisut

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

HAVAITUT JA ODOTETUT FREKVENSSIT

Mat Sovellettu todennäköisyyslasku A

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollinen aineisto Luottamusväli

Testit laatueroasteikollisille muuttujille

031021P Tilastomatematiikka (5 op) viikko 5

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Luottamusvälit. Normaalijakauma johnkin kohtaan

Tilastollisia peruskäsitteitä ja Monte Carlo

Teema 8: Parametrien estimointi ja luottamusvälit

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Testejä suhdeasteikollisille muuttujille

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Sovellettu todennäköisyyslaskenta B

dx=5&uilang=fi&lang=fi&lvv=2014

Otoskoon arviointi. Tero Vahlberg

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Teema 9: Tilastollinen merkitsevyystestaus

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

tilastotieteen kertaus

Parametrin estimointi ja bootstrap-otanta

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

2. Keskiarvojen vartailua

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

2. TILASTOLLINEN TESTAAMINEN...

Otoskoko 107 kpl. a) 27 b) 2654

Kaksisuuntainen varianssianalyysi. Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Tilastollinen malli??

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

pisteet Frekvenssi frekvenssi Yhteensä

Kvantitatiiviset tutkimusmenetelmät maantieteessä

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Testit järjestysasteikollisille muuttujille

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Todennäköisyyden ominaisuuksia

Transkriptio:

Otantajakauma Otantajakauma kuvaa jonkin parametrin arvojen (esim. keskiarvon) jakauman kaikille tietyn kokoisille otoksille. jotka perusjoukosta voidaan muodostaa Histogrammissa otantajakauman parametrin kuvaaja on kapeampi kuin perusjoukon kuvaaja otantajakauman avulla voidaan muodostaa tarkempia arvioita perusjoukon parametreista.8.6.8.6 Yhden otoksen perusteella voidaan arvioida otantajakauman hajontaa keskivirheellä. joka otoksesta laskettuna on arvio otantajakauman keskihajonnasta. s Otoksesta se lasketaan keskiarvolle kaavalla: n Keskivirheen avulla voidaan ottaa huomioon sattuman osuus erilaisissa tilastollisissa tarkasteluissa. ts. voidaan muodostaa todennäköisyyksiä erilaisista parametrin arvoista kun huomioidaan. että erilaiset otokset ovat mahdollisia; arviot ovat tarkempia koska ne perustuvat otantajakauman käyttöön. Edellytyksenä on. että tunnetaan tai pystytään arvioimaan riittävällä tarkkuudella. mikä parametrin otantajakauma on; esim. pituudesta (cm) voidaan olettaa sen noudattavan normaalijakaumaa useimmissa perusjoukoissa. 4 6 8 Perusjoukko ja otantajakauma 68 7 7 74 Otantajakauma (Huom. x-akseli on skaalattu uudelleen). Tilastomatemaattisesti näiden edellytysten voimassaolo johtaa siihen, että perusjoukon ominaisuudet periytyvät myös otantajakaumalle (esim. kesiarvon kohdalla normaalijakautuneisuus ja sama keskiarvo) Todennäköisyyden tuominen tilastollisiin tarkasteluihin tällä tavalla mahdollistaa yleistämisen estimoinnin ja hypoteesien testauksen kautta eli tilastollisen päätöksenteon (statistical inference). Erilaisista otoksista saadaan arvioitua haluttua parametria erilaisella tarkkuudella: Jos otoksessa hajonta on suurta. myös otantajakauman hajonnasta (keskivirhe) tulee suurempi Henkilö 3 4 5 6 68.78 8.5 8.4 46.6 88.8 65. Perusjoukko, keskiarvo 7. Otosten poimiminen Otos 3 4 5 6 7 8 9 3 4 5 6 7 8 9 Keskivirhe 4.4 6 5.9 5.9.7 5.85 4.93.8 6.86 7.36.78.3 5.6 3.4 6 7.8 3..5 7.. Otoskeskiarvo 77.57 65.97 8.4 7.4 65.6 79.66 7.77 68.7 6.7 74.4 7.8 84.4 76.35 7.65 64.75 78.8 7.8 64.38 78.44 66.85 Otantayksiköt perusjoukossa 3 4 5 6 3 4 3 5 3 6 4 5 4 6 5 6 3 4 3 5 3 6 4 5 4 6 5 6 3 4 5 3 4 6 3 5 6 4 5 6 KESKIARVON LUOTTAMUSVÄLI Taustaa - Tutkijan ongelma: Otostamisen jälkeen tutkija ei tiedä, kuinka hyvin otoksen keskiarvo vastaa perusjoukon keskiarvoa, sillä hän ei tiedä miten otantayksiöt edustavat perusjoukkoa - Hänelle yksi otos antaa parhaan arvion (estimaatin) perusjoukon keskiarvosta (ja sen keskihajonnasta), ts. se on perusjoukon keskiarvon piste-estimaatti - Tämän lisäksi hän voi arvioida välin, jolle perusjoukon keskiarvo määrätyllä varmuudella sijoittuu tuon yhden otoksen perusteella, luottamusvälin - Tässä tilanteessa oletetaan, että keskiarvo on laskettu muuttujasta, jonka jakauma perusjoukossa on normaali, sillä tällöin myös keskiarvon otantajakauma on normaali. Luottamusväli (confidence interval) voidaan siten laskea seuraavassa esitetyllä tavalla. Keskiarvon otantajakauma Estimointi - tehdään päätelmiä perusjoukon ominaisuuksista (keskiarvo, riskisuhde jne.) otoksen perusteella - mitä suurempi otos, sitä tarkemmat estimaatit A. Piste-estimaatit - perusjoukon parametrin arvon estimaatti on yksi lukuarvo - esim. otoskeskiarvo on perusjoukon keskiarvon pisteestimaatti B. Väliestimaatit - pyritään määrittelemään väli, jolla perusjoukon parametri sijaitsee halutulla todennäköisyydellä = luottamusväli (confidence interval, confidence limits) - mitä kapeampi väli, sitä enemmän informaatiota parametristä on saatu KESKIARVON LUOTTAMUSVÄLI Taustaa - Tutkijan ongelma: Otostamisen jälkeen tutkija ei tiedä mikä kaikista mahdollisista otoksista hänellä on käytössään ja kuinka hyvin otoksen keskiarvo vastaa perusjoukon keskiarvoa - Hänelle yksi otos antaa parhaan arvion (estimaatin) perusjoukon keskiarvosta (ja sen keskihajonnasta), ts. se on perusjoukon keskiarvon piste-estimaatti - Tämän lisäksi hän voi arvioida välin, jolle perusjoukon keskiarvo todennäköisimmin sijoittuu tuon yhden otoksen perusteella, luottamusvälin - Tässä tilanteessa oletetaan, että keskiarvo on laskettu muuttujasta, jonka jakauma perusjoukossa on normaali, jolloin todennäköisyydet voidaan määrittää käyttämällä standardoitua normaalijakaumaa, joka on tässä tapauksessa keskiarvon otantajakauma

Määritellään otantajakaumalta alue, jolla perusjoukon keskiarvo todennäköisimmin sijaitsee. Esim. 95% kaikista mahdollisista otoskeskiarvoista sijaitsee.96 keskihajontayksikön päässä keskiarvosta standardoidulla normaalijakaumalla.. Luottamusvälin laskeminen keskiarvolle Otoksesta (n=) on laskettu pituuden - keskiarvoksi 5 - keskihajonnaksi Tällöin keskiarvon keskivirhe on. Määritetään keskiarvon luottamusväli 95% luottamustasolla -4-3 - - 3 4 Ks. keskihajonnan määrittely. 95% 48 49 x = 5 5 5 Oletukset: pituus on jakautunut normaalisti, otoskoko on yli 3. Tiedetään, että standardoidun normaalijakauman kohdalla 95% luottamusväli löytyy väliltä -.96 +.96. Selvitetään, mitkä arvot muuttujan alkuperäisellä asteikolla vastaavat standardoidun normaalijakauman 95% luottamusvälin kohtia. Laskettaessa käytetään apuna keskiarvon keskivirhettä. -.96.96 Lasketaan:.96 * = 9-9 9 - - - -.5.5 48 49 x = 5 5 5 49 x = 5 5 Luottamusväli pituusmuuttujalle saadaan, kun siirretään saadut rajat oikealle kohdalle jakaumaa. Tätä varten vain otantajakauman keskiarvo tarvitsee siirtää alkuperäisen muuttujan keskiarvon kohdalle. Lopputuloksena saatiin siis, että 95% luottamusväli tämän otoksen mukaan on [49.6, 59]. Lasketaan: 5-9 = 49.6-9 9 5 + 9 = 59 Eli: Tutkijalla on 95% luottamus siihen, että perusjoukon keskiarvo sijaitsee välillä [49.6, 59] tämän otoksen perusteella. Merkitään: CI 95% = [49.6, 59] - -.5.5 49.6 59 49 x = 5 5 49.6 59 49 x = 5 5

Keskiarvon 95% luottamusväli voidaan yleisesti laskea mistä tahansa muuttujasta kaavalla: x ±.96 s n Luottamusväli voidaan yleisesti laskea eri luottamustasoille kaavalla: s x ± z, n jossa z vastaa stand. normaalijakaumalta löytyviä arvoja, jolla otantajakauma peittyy haluttu luottamustaso, esim. z =.96 (95%) z =.58 (99%) z = 3.9 (99.9%) Tulkinta Perusjoukossa olevien tapausten pituudet (cm) 68.78 8.5 8.4 46.6 88.8 65. Poimitaan tästä perusjoukosta (N = 6) kaikki erilaiset otokset, joissa kussakin on kolme tapausta (n = 3). Tällaisia otoksia on yhteensä kpl. Lasketaan näille otoksille keskiarvo ja keskiarvon luottamusväli 95 % luottamustasolla. Erilaiset mahdolliset otokset muuttujan 95% luottamusvälit Kh a b c d e f g h i j 3 4 5 6 Kh k l m n o p q r s t 3 4 5 6 = tapaus on mukana otoksessa (cm) 95 9 85 8 75 7 65 6 55 5 45 4 3 4 5 6 7 8 9.......... Otos (keskiarvon mukaan järjestettynä) Perusjoukon keskiarvo 7. cm Alaraja Keskiarvo Yläraja Havaitaan, että lähes kaikki luottamusvälit pitävät sisällään perusjoukon keskiarvon Kuitenkin: yksi luottamusväleistä (otos ) ei sisällä perusjoukon keskiarvoa (7.) Lasketaan: / =.5, eli n. 5% Tulkinta: Koska tutkija ei tiedä otostaessaan, mikä kyseisistä otoksista on hänen otostamansa otos, hän hyväksyy 5% riskin sille, että luottamusväli ei sisällä perusjoukon keskiarvoa Luottamusvälin kohdalla Riskitaso (α) kertoo mahdollisuuden tehdä päättelyvirheen oletettaessa, että luottamusväli pitää sisällään perusjoukon keskiarvon, vaikkei näin olekaan. Sovittuja riskitasoja [Riskitaso / Luottamusväli].5 (5%) 95%. (%) 99%. (.%) 99.9% α/ α/. Toisin sanoen hän voi olla 95% varma siitä, että luottamusväli sisältää perusjoukon keskiarvon -4-3 - - 3 4 σ 95%

Lopuksi Tilastollinen testaus (hypoteesien testaus) Tässä luottamusväli laskettiin luottamustasolla 95% Muita luottamustasoja ovat 99% ja 99.9% luottamustasot Vastaavasti luottamustaso voidaan laskea myös muille parametreille, esim. riskisuhteelle, suhteelliselle osuudelle jne. Luottamusvälin laskennassa joudutaan kiinnittämään huomiota kunkin parametrin otantajakaumaan ja tämä aiheuttaa sen, että luottamusväli lasketaan eri parametreille erilaisilla kaavoilla Luottamusväleihin liittyy myös käsite riskitaso, joka määrittää luottamustasoa: jos riskitaso on.5, niin luottamustaso =.5 =.95 = 95% Luottamusväli: [a, b] on parametrin t luottamusväli luottamustasolla -α, jos P(a t b) = - α Riskitasoon perehdytään tarkemmin tilastollisen testauksen yhteydessä - Otantajakaumaa voidaan käyttää hyväksi, kun halutaan selvittää erityisen hypoteesin paikkansapitävyyttä tutkimusaineistossa. - Hypoteesit kuvaavat ennakko-oletusta jostakin asiantilasta, esim. Kahden ryhmän väliset keskiarvot ovat yhtä suuret. - Tilastollisessa testauksessa käytetään todennäköisyyttä apuna - Seuraavassa tarkastellaan esimerkkinä tilannetta, jossa halutaan tietää eroavatko kaksi keskiarvoa tilastollisessa mielessä toisistaan Otos (Musta) Keskiarvo 7 Keskihajonta 6 Tapauksia 64.8.6 Tarkastelua varten joudutaan lähtökohdaksi olettamaan tietty tila keskiarvojen välille Tätä tilaa edustaa nollahypoteesissa lausuttu tila. Nimensä mukaan nollahypoteesissa oletetaan yleensä tila, että eroa ei ole: H : Keskiarvojen välillä ei ole eroa eli µ = µ eli µ -µ = Otos (Punainen) Keskiarvo 8 Keskihajonta 9 Tapauksia 8 4 6 8 Keskiarvojen välillä näyttää siis otosten perusteella olevan eroa, mutta voidaanko sen perusteella sanoa, että eroa on myös perusjoukossa? Onko ero tarpeeksi selkeää kun otetaan huomioon ryhmien hajonta ja ryhmien koko? Tällöin voidaan laskea erotus ja selvittää kuinka todennäköinen keskiarvojen välinen erotus. Tarkasteltava parametri on siis keskiarvojen erotus. Määritellään myös vastakkainen tilanne, vastahypoteesi. Vastahypoteesi tulee voimaan, jos tarkastelun perusteella saadaan tarpeeksi vahvaa näyttöä, että nollahypoteesi ei pidä aineistossa paikkaansa, esim: H : Keskiarvojen välillä on eroa eli µ µ eli µ -µ Tässä oletetaan siis, ettei erotuksen mahdollista suuntaa tiedetä, joten vastahypoteesi on kaksisuuntainen. Nollahypoteesin voimassaolon todennäköisyys voidaan laskea käyttämällä hyväksi keskiarvojen erotuksen otantajakaumaa. Kun muuttuja on perusjoukossa normaalisti jakautunut, on keskiarvojen otantajakauma t-jakauma. -4-4 Otantajakaumalla nollahypoteesin mukaisia parametrin arvoja on eniten, ts. sellaisia keskiarvojen välisiä erotuksia, joissa tulos on nolla. Suuret parametrin arvot taas ovat harvinaisia Näin voi luonnollisesti olettaakin, jos nollahypoteesin uskotaan pitävän paikkansa. t-jakauma, vapausasteet 43 Tästä otoksesta laskettuna havaitaan, että keskiarvojen erotus on. 7-8 = - cm Jotta tarkastelu voidaan siirtää otantajakaumalle ja ottaa ryhmien hajonta ja koko huomioon, jaetaan erotus sen keskivirheellä: t-jakauma, vapausasteet 43. -4-4 t = - /.57 = -.8 t = -.8 Havaitaan, että otantajakaumalla erotus ei ole kovin harvinainen; tietokoneen sille määrittämä todennäköisyys että t = -.8 tai sitä pienempi on p = 89.

Koska vastahypoteesi oli kaksisuuntainen, täytyy määrittää myös tilanne, että testisuureen arvo olisi ollut positiivinen; tästä syystä havaittu todennäköisyys lasketaan tilanteelle: t -.8 ja t.8 Tällöin p = 89 / =.44. Tutkimustilanteita varten on määritelty kolme tasoa, jolla todennäköisyyksiä pidetään merkitsevänä:.5 Melkein merkitsevä. Merkitsevä. Erittäin merkitsevä t-jakauma, vapausasteet 43. -4-4 t = -.8 Tässä p >.5, joten päätellään, että ei ole syytä hylätä nollahypoteesia. Mahdollisia hypoteeseja painoesimerkin testauksessa H : µ = 74 eli perusjoukon keskiarvo on (edelleen) 74 kg. H : µ > 74 eli perusjoukon keskiarvo on suurempi kuin 74 kg. Tässä tilanteessa tiedetään, että jos paino ei ole 74 kg, niin ainoa mahdollisuus on, että se on tätä suurempi H : µ = 74 eli perusjoukon keskiarvo on (edelleen) 74 kg. H : µ 74 eli perusjoukon keskiarvo ei ole 74 kg. Tässä tilanteessa oletetaan ainoastaan, että jos nollahypoteesi hylätään, voi paino olla joko suurempi tai pienempi kuin 74kg. Vastahypoteesi on rajattava ennen aineiston tarkastelua ja rajaamisen yksisuuntaiseksi tulee olla perusteltua. Tilastollinen testaus yleisemmin - on olemassa ennakkokäsitys tarkasteltavan parametrin mahdollisesta arvosta - selvitetään pitääkö ennakkokäsitys paikkansa - testaukseen liittyy ongelma otostamisesta; jos perusjoukosta voidaan muodostaa otos eri tavoin, on mahdollista, että tämä aiheuttaa parametrin (esim. keskiarvon) laskemiseen epätarkkuutta, johtuen siitä että tutkija ei voi tietää mikä mahdollisista otoksista hänellä on käytössään Esim. Aikaisempien tutkimusten perusteella on määritelty painon keskiarvoksi 75-vuotiaiden jyväskyläläisten miesten keskuudessa 74kg (keskihajonta kg). Uuden otoksen perusteella lasketaan painon keskiarvoksi 8kg (keskihajonta kg). Tarkoitus on selvittää sopivan tilastollisen testin perusteella ovatko otoksesta havaitut arvot sopusoinnussa nollahypoteesin mukaisen parametrinarvon kanssa satunnaisvaihtelun puitteessa, vai onko jokin muu parametrin arvo todennäköisempi Voidaan määrittää riski sille, että otoksesta tehty päätelmä olisikin virheellinen Tilastollisen testauksen vaiheet:. hypoteesien määrittäminen. testisuureen valinta, oletusten tarkistaminen 3. riskitason valinta 4. testisuureen laskeminen ja p-arvon määrittäminen 5. nollahypoteesin hyväksyminen tai hylkääminen 6. tulosten raportointi Järjestys on tärkeä Onko keskipaino muuttunut? Hypoteesit Tutkimuksen alkuvaiheessa on määritelty tutkimuskysymys ja siitä edelleen tutkimushypoteesit. Tilastollista testausta varten määritellään testaushypoteesit: nollahypoteesi ja vastahypoteesi H : nollahypoteesi - kuvaa ennakko olettamusta, josta luovutaan vasta kun sitä vastaan saadaan tarpeeksi vahvoja todisteita - nimensä mukaan kuvaa yleensä nollatilannetta, eli esim. kahden parametrin arvot ovat yhtä suuret (=) eli eroja ei ole; vaikutusta ei ole; riippuvuutta ei ole; jne. H: vastahypoteesi (vaihtoehtohypoteesi) - kuvaa tilannetta, joka on tutkimustilanteessa nollahypoteesille vastakkainen olotila - tulee voimaan, jos nollahypoteesi hylätään - esim. kahden parametrin arvot ovat erisuuret ( ), tai toinen on suurempi kuin toinen (> tai <); vaikutusta on; riippuvuutta on; jne. Hypoteesit Vastahypoteesi voi olla kaksisuuntainen tai yksisuuntainen - Kaksisuuntaisen hypoteesin kohdalla ei etukäteen pystytä sanomaan, kumpaan suuntaan mahdollinen vaikutus esiintyy, esim. ei tiedetä kumpi kahdesta vertailtavasta keskiarvosta on suurempi, ( µ 74 ) - Yksisuuntaiselle hypoteesille vaikutuksen suunta tiedetään, esim. tiedetään, että jos eroa kahden keskiarvon välillä on, niin se voi esiintyä vain niin, että ensimmäisen ryhmän keskiarvo on suurempi kuin jälkimmäisen ( µ > 74 ) Testauksen hypoteeseista toinen on tutkimushypoteesin mukainen, ts. samalla testillä voidaan esim. testata sitä ovatko kaksi keskiarvoa yhtä suuria vai onko niiden välillä eroa; ennen testauksen suorittamista ei siis tiedetä kumpi hypoteeseista pitää paikkansa, mutta testauksen kannalta oletetaan tilapäisesti, että H pitäisi paikkansa.

Testisuure ja p-arvo - Esim. kun halutaan tarkastella keskiarvon välistä erotusta vertailuarvosta, ei riitä että otetaan huomioon vain keskiarvon erotuksen, vaan on myös huomioitava muuttujan hajonta ja otoskoko - Tämä tehdään käyttämällä sopivaa testisuuretta, esim. keskiarvojen kohdalla voidaan käyttää t-testisuuretta - Testisuureen otantajakaumasta voidaan ilmoittaa esim. kuinka todennäköinen jonkun yksittäinen otoksen keskiarvojen erotus vertailuarvosta on, kun pidetään nollahypoteesia totena. - p-arvo ilmoittaa tarkan todennäköisyyden havaita itseisarvoltaan yhtä suuri tai suurempi testisuureen arvo, kun nollahypoteesia pidetään totena, eli se on todennäköisyys että tutkija on väärässä, kun hän sanoo nollahypoteesin olevan voimassa. - Tällöin suuret arvot (p on lähellä oleva arvo) tukevat nollahypoteesia ja pienet arvot (p on lähellä nollaa) tukevat nollahypoteesin hylkäämistä Testisuure ja p-arvo - Esim. kun halutaan tarkastella keskiarvon välistä erotusta vertailuarvosta, ei riitä että otetaan huomioon vain keskiarvon erotuksen, vaan on myös huomioitava muuttujan hajonta ja otoskoko - Tämä tehdään käyttämällä sopivaa testisuuretta, esim. keskiarvojen kohdalla voidaan käyttää t-testisuuretta - Testisuureen otantajakaumasta voidaan ilmoittaa esim. kuinka todennäköinen jonkun yksittäisen otoskeskiarvon erotus vertailuarvosta on, kun pidetään nollahypoteesia totena. - p-arvo ilmoittaa tarkan todennäköisyyden havaita itseisarvoltaan yhtä suuri tai suurempi testisuureen arvo, kun nollahypoteesia pidetään totena, eli se on todennäköisyys että tutkija on väärässä, kun hän sanoo nollahypoteesin olevan voimassa. - Tällöin suuret arvot (p on lähellä oleva arvo) tukevat nollahypoteesia ja pienet arvot (p on lähellä nollaa) tukevat nollahypoteesin hylkäämistä Testisuure ja p-arvo - Esim. kun halutaan tarkastella keskiarvon välistä erotusta vertailuarvosta, ei riitä että otetaan huomioon vain keskiarvon erotuksen, vaan on myös huomioitava muuttujan hajonta ja otoskoko - Tämä tehdään käyttämällä sopivaa testisuuretta, esim. keskiarvojen kohdalla voidaan käyttää t-testisuuretta - Testisuureen otantajakaumasta voidaan ilmoittaa esim. kuinka todennäköinen jonkun yksittäisen otoskeskiarvon erotus vertailuarvosta on, kun pidetään nollahypoteesia totena. Esimerkiksi on havaittu testisuureen arvo -.5. Todennäköisyys havaita tämä arvo tai sitä pienempi on n..7% Frekvenssi p = 7 p = Siis todennäköisyys tehdä virhe, kun hylätään nollahypoteesi tässä tilanteessa on p = 7 p ~ - p-arvo ilmoittaa tarkan todennäköisyyden havaita itseisarvoltaan yhtä suuri tai suurempi testisuureen arvo, kun nollahypoteesia pidetään totena, eli se on todennäköisyys että tutkija on väärässä, kun hän sanoo nollahypoteesin olevan voimassa. - Tällöin suuret arvot (p on lähellä oleva arvo) tukevat nollahypoteesia ja pienet arvot (p on lähellä nollaa) tukevat nollahypoteesin hylkäämistä -4-4 Testisuureen arvo = -.5 Nollahypoteesin mukainen tilanne Testisuureen arvot Tilastolliseen päätöksen tekoon liittyy riski tehdä virhepäätelmä: Riskitaso Todellinen asiaintila H on tosi H on epätosi Testin tulos H on tosi H on epätosi Oikein Väärin α Väärin Oikein β - Riskitaso on todennäköisyys, jolla tutkija on valmis hylkäämään nollahypoteesin, vaikka se saattaisikin pitää perusjoukossa paikkansa - Sopimuksenvaraisesti on määritelty riskitasoja, joilla nollahypoteesi hylätään, näitä ovat: α =.5 α =. α =. Tyypin I virhepäätelmä: Hylätään nollahypoteesi, kun se on tosi. Tyypin II virhepäätelmä: Hyväksytään nollahypoteesi, kun se on epätosi. Todennäköisyys tehdä tyypin I virhepäätelmä, on p-arvon suuruinen, tyypin II virhepäätelmää mitataan testin tehokkuudella (power).

Testin tulos voidaan määrittää kahdella tavalla suhteessa riskisuhteeseen ja testisuureeseen: ) Määritetään kriittinen testisuureen arvo x k eli arvo, jonka itseisarvoa suurempia ovat otantajakauman havainnoista riskitason määrittelemän osuuden verran parametrin harvinaisimpia arvoja. Tällöin, jos x on otoksesta laskettu testisuureen arvo, pätee seuraava: Riskitaso =.5 Kriittinen arvo = ±.96 Kaksisuuntainen vastahypoteesi Hyväksymisalue Jos x > x k, nollahypoteesi hylätään. Jos x < x k, nollahypoteesi jää voimaan. ) Helpommin riskitasoa voi käyttää suoraan määrittämään otantajakaumalta katkaisukohdan p-arvolle. Tällöin pätee seuraava: Jos p > α, nollahypoteesi jää testin perusteella voimaan. Jos p < α, hylätään nollahypoteesi testin tuloksena. α/ α/ -4-4 Testisuureen arvot Hylkäämisalue Jos testin perusteella nollahypoteesi hylätään, sanotaan tulosta tilastollisesti merkitseväksi. Riskitasoihin liittyen merkitsevyyksiä on nimetty seuraavasti:.5 Tilastollisesti melkein merkitsevä (*). Tilastollisesti merkitsevä (**). Tilastollisesti erittäin merkitsevä (***) Kun testiä lähdettiin suorittamaan, ei tiedetty kumpi hypoteeseista pitää paikkansa, mutta oletettiin nollahypoteesi paikkansa pitäväksi. Testisuure ja oletukset Tilastollinen testaus suoritetaan testisuureen avulla, jolla on oma otantajakaumansa ja siten omat oletuksensa. Jotta testin tulos olisi tulkittavissa oikein, tulee näiden oletusten olla voimassa. Esim. normaalijakaumaan ja keskiarvoihin liittyvät testit perustuvat olettavat tarkasteltavien muuttujien olevan normaalisti jakautuneita, jatkuvia muuttujia, ja lisäksi oletetaan otostamisen onnistuneen. Jos jonkin muuttujan kohdalla kaikki suunnitellun testin oletukset eivät täyty, joudutaan testaus suorittamaan jollakin vaihtoehtoisella testillä tai muuttujia voidaan yrittää muuntaa jollakin sopivalla muunnosfunktiolla. Seuraavassa esitellään joitain yleisiä testien oletuksia. Normaalijakautuneisuus () Histogrammi R AIR 5 CHOLESTEROL 6 4 5 Normaalijakautuneisuus () Kvantiilikuvio (Q-Q-plot) Normal Q-Q Plot of R AIR 5 Normal Q-Q Plot of CHOLESTEROL 3 3 4 3 Frequency 3 Std. Dev = 3,8 Mean =,6 N = 88, 7,5 7,5 7,5 37,5 47,5 57,5 67,5 77,5 87,5,5,5 3,5 4,5 5,5 6,5 7,5 8,5 9,5 R AIR 5 Histogrammi Jyväskyläläisten 75- vuotiaiden naisten muuttujalle "air conducted pure tone thresholds, db, 5 Hz, right ear". Frequency 3,,5,,5,,5, 9,5 9, 8,5 8, 7,5 7, 6,5 6, 5,5 5, 4,5 4, CHOLESTEROL Histogrammi Jyväskyläläisten 75-vuotiaiden naisten kolesterolille. Std. Dev =,37 Mean = 6,89 N = 89, Expected Normal - - -3-4 6 8 Observed Value Kvantiilikuvaaja kuulomuuttujalle. Expected Normal - - -3 4 6 8 4 Observed Value Kvantiilikuvaaja kolesterolimuuttujalle.

Normaalijakautuneisuus (3) Varianssien yhtä suuruus Kolmogorov-Smirovin testi: H: Muuttuja on normaalisti jakautunut perusjoukossa. H: Muuttuja ei ole normaalisti jakautunut perusjoukossa. Jos muuttuja on normaalisti jakautunut testin p-arvo on suuri, suurempi kuin valittu riskitaso, esim..5. Kun verrataan usean ryhmän keskiarvoa, oletetaan ryhmien hajonnan olevan yhtä suurta. Tämän oletuksen voimassaoloa testataan Levenen testillä: H: Varianssit ovat yhtä suuret eli s = s = s n. H: Ainakin yhden ryhmän varianssi on erisuuri kuin muut. Normaalistijakautunut Ei normaali Tests of Normality Kolmogorov-Smirnov a Statistic df Sig. NC63 CHOLESTEROL,53 85,* NC84 R AIR 5,98 85, *This is a lower bound of the true significance. a Lilliefors Significance Correction. Esim. (nc6) siviilisäätyryhmissä (4 kpl) Varianssit yhtä suuret Test of Homogeneity of Variances NC6 HEIGHT Levene Statistic df df Sig.,736 3 87,53