JOHDATUS TILASTOTIETEESEEN (806118P)

Samankaltaiset tiedostot
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

pisteet Frekvenssi frekvenssi Yhteensä

Sovellettu todennäköisyyslaskenta B

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Kvantitatiiviset menetelmät

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Til.yks. x y z

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Tilastollisten aineistojen kerääminen ja mittaaminen

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

tilastotieteen kertaus

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Kandidaatintutkielman aineistonhankinta ja analyysi

Tilastollisten aineistojen kuvaaminen

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MONISTE 2 Kirjoittanut Elina Katainen

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Tilastollisen tutkimuksen vaiheet

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Kvantitatiiviset tutkimusmenetelmät maantieteessä

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Otannasta ja mittaamisesta

1 TILASTOMATEMATIIKKA TILASTOTIETEEN PERUSKÄSITTEITÄ MUUTTUJAT FREKVENSSIJAKAUMA AINEISTON LUOKITTELU...

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Sovellettu todennäköisyyslaskenta B

Harjoittele tulkintoja

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Til.yks. x y z

Osa 2: Otokset, otosjakaumat ja estimointi

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

Harjoitus 2: Matlab - Statistical Toolbox

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSKURSSI I (407040A-02), OSA A), KVANTITATIIVISEN TUTKIMUKSEN PERUSKURSSI, TILASTOLLISET ANALYYSIMENETELMÄT

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Testit laatueroasteikollisille muuttujille

Teema 8: Parametrien estimointi ja luottamusvälit

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

5. Keskiluvut. luokan väliin, ei sen määrääminen tuota vaikeuksia. Näin on seuraavissa esimerkeissä:

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen aineisto Luottamusväli

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Matemaatikot ja tilastotieteilijät

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

3 Mittaamisen taso ja tilaston keskiluvut

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

b1) harhattomuutta, b2) helppoutta, b3) herkkyyttä, b4) mitta-asteikkoa, b5) standardointia, b6) tarkkuutta.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Luottamusvälit. Normaalijakauma johnkin kohtaan

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Jatkuvat satunnaismuuttujat

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

LIITE 1 VIRHEEN ARVIOINNISTA

Testejä suhdeasteikollisille muuttujille

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Kvantitatiivisen aineiston analyysi

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

7. laskuharjoituskierros, vko 10, ratkaisut

Transkriptio:

JOHDATUS TILASTOTIETEESEEN (806118P) Luentomoniste Jari Päkkilä Kevät 2017

ESIPUHE Tämä opiskelumateriaali on suunniteltu käytettäväksi Oulun yliopiston luonnontieteellisen tiedekunnan Johdatus tilastotieteeseen -kurssilla (806118P). Kurssin kohderyhmänä ovat ensisijaisesti Oulun yliopiston luonnontieteellisen tiedekunnan opiskelijat, joskin muidenkin tiedekuntien opiskelijat voivat osallistua kurssille. Sisällössä on suurelta osin hyödynnetty Marjatta Mankisen 2011 laatimaa luentomonistetta Tilastotieteen perusmenetelmät I -kurssia varten. Luentomonisteen kevätlukukauden -17 versioon on tehty kevätlukukauden -16 versioon verrattuna vain pieniä muutoksia ja kirjoitusvirheiden korjauksia. Luentomonisteen sähköinen versio löytyy opintoportaali Nopasta kurssin kotisivuilta. Materiaalin tekijänoikeudet kuuluvat monisteen tekijälle. Kurssin opiskelijat saavat kopioida, tulostaa ja tallentaa materiaalin tai osia siitä omaan käyttöönsä. Oulussa 5.1.2017 Jari Päkkilä 1

Sisältö 1 JOHDANTO 5 1.1 Mitä tilastotiede on?....................... 5 1.2 Eräitä peruskäsitteitä....................... 6 1.3 Tilastollisen tutkimuksen vaiheet................ 7 2 HAVAINTOAINEISTON HANKINTA 8 2.1 Valmiit aineistot......................... 8 2.2 Otantatutkimus.......................... 8 2.3 Otannan suunnittelu ja toteutus................. 10 2.4 Otantamenetelmiä........................ 12 2.4.1 Yksinkertainen satunnaisotanta............. 12 2.4.2 Systemaattinen otanta.................. 13 2.4.3 Ositettu otanta...................... 13 2.4.4 Ryväsotanta........................ 15 2.4.5 Kiintiöpoiminta...................... 16 3 MUUTTUJIEN MITTAAMINEN 17 3.1 Muuttuja, muuttujan arvot ja mittaaminen........... 17 3.2 Mitta-asteikot........................... 18 3.3 Mittauksen luotettavuus ja mittausvirheet........... 21 4 HAVAINTOAINEISTON KUVAILU 23 2

4.1 Havaintomatriisi.......................... 23 4.2 Yhden muuttujan jakauman graafiset ja taulukkomuotoiset esitykset.............................. 24 4.2.1 Pistekuvio ja runko-lehti -kuvio............. 24 4.2.2 Yksiulotteinen frekvenssijakauma eli suora jakauma..................... 25 4.2.3 Pylväskuvio ja piirakkakuvio............... 27 4.2.4 Histogrammi, frekvenssimonikulmio ja janakuvio.... 28 4.2.5 Laatikko-jana -kuvio (boxplot, box and whiskers plot). 30 4.2.6 Summajakauma ja summakäyrä............. 31 4.3 Yhden muuttujan jakaumaa kuvaavia tunnuslukuja........................... 33 4.3.1 Sijainnin tunnusluvut................... 33 4.3.2 Hajontaluvut....................... 37 4.3.3 Vinous- ja huipukkuusluvut............... 40 5 TODENNÄKÖISYYSLASKENTAA 41 5.1 Todennäköisyyden käsite..................... 41 5.2 Todennäköisyyslaskennan laskusääntöjä............. 43 5.3 Satunnaismuuttujat ja todennäköisyysjakaumat........ 46 5.3.1 Diskreetit eli epäjatkuvat satunnaismuuttujat ja niiden todennäköisyysjakaumat................. 46 5.3.2 Bernoulli-jakauma.................... 49 5.3.3 Jatkuvat satunnaismuuttujat ja niiden todennäköisyysjakaumat................. 50 3

5.3.4 Eräitä jatkuvia jakaumia................. 55 6 TILASTOLLINEN PÄÄTTELY 61 6.1 Satunnaisotos, tilastollinen malli, otossuure ja otantajakauma 61 6.2 Estimointi............................. 66 6.2.1 Piste-estimointi...................... 66 6.2.2 Väliestimointi....................... 67 6.3 Merkitsevyystestaus....................... 70 6.4 Testaus eräissä perusasetelmissa................. 75 6.4.1 Yhden jakauman sijainnin tarkastelu.......... 75 6.4.2 Yhden suhteellisen osuuden tarkastelu......... 78 4

1 JOHDANTO 1.1 Mitä tilastotiede on? Tilastotiede (statistics) on tiede, jonka tehtävänä on tutkia ja kehittää menetelmiä ja käsitteitä, joita voidaan käyttää hyväksi eri soveltavien tieteiden piirissä suoritettavien empiiristen tutkimusten suunnittelussa, havaintoaineistojen keruussa, esittämisessä, analysoinnissa, tulkitsemisessa sekä havaintoaineistoihin pohjautuvien päätösten tekemisessä. (Hans Helenius, 1989). Tilastotiede on matematiikan, filosofian ja tietojenkäsittelytieteen tapaan ns. menetelmätiede. Menetelmätieteille on ominaista, että ne kehittävät työvälineitä muiden tieteiden tutkimusongelmien ratkaisemiseksi. Menetelmätieteillä on kuitenkin myös oma itsenäinen, sovelluksista vapaa teoriansa. Tilastotieteen teoria perustuu ennen muuta todennäköisyyden matemaattiseen teoriaan. Tilastollisten menetelmien käytön perusedellytyksenä on tutkittavan ilmiön mitattavuus. Lisäksi tyypillistä tilastotieteen sovelluksissa on epävarmuuden, satunnaisuuden mukanaolo. Ilkka Mellinin (1996) mukaan tilastotiede on oppia johtopäätösten teosta sellaisista reaalimaailman ilmiöistä, joissa on mukana sattuma. Tilastollisten menetelmien avulla pyritään kuvaamaan ja erottamaan tällaisten ilmiöiden säännönmukaiset ja satunnaiset piirteet. Tilastotiede kehittää ilmiöiden satunnaisille piirteille todennäköisyysteoriaan perustuvia malleja, joita käyttämällä sattuman osuus ilmiöissä voidaan selittää. Tilastotieteen menetelmiä sovelletaan laajasti mm. lääketieteessä (biostatistiikka), taloustieteissä (ekonometria), yhteiskuntatieteissä sekä maa- ja metsätaloustieteissä. Perinteisesti tilastotiede on jaettu kuvailevaan eli deskriptiiviseen tilastotieteeseen (descriptive statistics) ja tilastolliseen päättelyyn (statistical inference). Kuvailevan tilastotieteen menetelmien (kuviot, taulukot, tunnusluvut) avulla pyritään luonnehtimaan nimenomaan tarkasteltavana olevan havaintoaineiston piirteitä. Tilastollisessa päättelyssä (estimointi, merkitsevyystestaus) on kyse havaintoaineistosta saatujen tulosten yleistämisestä laajempaan joukkoon. 5

1.2 Era ita peruska sitteita Havaintoyksiko lla eli tilastoyksiko lla (observational unit) tarkoitetaan niita perusyksiko ita (henkilo ita, perheita, yrityksia, ela imia tms.), joihin liittyvia ominaisuuksia tutkimuksessa tarkastellaan. Havaintoyksikko on siis se olio tai elio, jolta ominaisuuksien mittaukset tehda a n. Populaatiolla eli perusjoukolla (population) tarkoitetaan tutkimuksen kohteena olevien havaintoyksiko iden joukkoa. Populaatio voi olla a a rellinen, olemassa oleva tai hypoteettinen, kuviteltu, a a reto n ns. superpopulaatio. Otanta (sampling), otantatutkimus (sample survey) on laajasti ka ytetty tilastollinen menetelma hankittaessa tietoja populaatiosta, jota ei voida tai haluta kokonaisuudessaan tutkia. Otoksen (sample) poimintaan on olemassa useita erilaisia otantamenetelmia (sampling methods). Muuttujalla (variable) tarkoitetaan jotain havaintoyksiko n ominaisuutta esim. henkilo ista sukupuoli, ika tai ammatti. Muuttujaan liittyva vaihtelu tarkoittaa sita, etta muuttuja voi saada erilaisia arvoja (value) eri havaintoyksiko illa. Mittaus (measurement) on muuttujan arvon ma a ritta mista eri havaintoyksiko ille. populaatio eli perusjoukko erilaisia otantamenetelmiä otos otanta havainto- eli tilastoyksikkö ikä paino pituus muuttujia mittaaminen 22 v 78 kg 179 cm muuttujien havaittuja arvoja Kuva 1: Era ita tilastotieteen peruska sitteita. 6

1.3 Tilastollisen tutkimuksen vaiheet Tilastollisen tutkimuksen tarkoituksena on muodostaa mahdollisimman hyvä mielikuva havaintoaineistosta, siinä esiintyvistä säännönmukaisuuksista ja vaihteluista. Tilastollisiin tutkimuksiin liittyviä vaiheita voidaan jaotella mm. seuraavasti: 1. Suunnittelu a) tutkimusongelman valinta ja rajaaminen b) tutkimusjoukon valinta c) tutkimusasetelman määrittely d) muuttujat ja mittausmenetelmät e) aineiston keruun ja ATK-käsittelyn suunnittelu f) eettiset kysymykset g) tilastomenetelmien alustava valinta h) tulosten raportointi ja julkaiseminen i) kustannusarvio ja aikataulu 2. Aineiston (data) hankinta- ja muokkausvaihe 3. Aineiston tarkastelu (IDA = initial data analysis) Kuvaileva tilastotiede: - graafiset esitykset - taulukot - tunnusluvut 4. Tilastollisten mallien sovittaminen aineistoon Tilastollinen päättely 5. Raportointi 7

2 HAVAINTOAINEISTON HANKINTA 2.1 Valmiit aineistot Joissakin tapauksissa on mahdollista, että tutkija saa tarvitsemansa havaintoaineiston valmiina tai laskemalla ja yhdistelemällä valmiista aineistoista. Tärkeimpiä valmiiden aineistojen lähteitä ovat säännöllisesti ilmestyvät tilastojulkaisut, joita tuottavat mm. valtion eri virastot, erityisesti Tilastokeskus, samoin kunnat, yksityiset liikeyritykset, pankit, vakuutuslaitokset sekä erilaiset yhteisöt. Tilastokeskuksen julkaisuista mainittakoon mm. Suomen tilastollinen vuosikirja, Suomen virallisen tilaston (SVT) sarjat, Tilastokatsaukset ja Tilastolliset tiedonannot. Tietojen poimiminen voi tapahtua myös tilastotietokannoista. Tietokantoja pitävät kansalliset ja kansainväliset järjestöt ja laitokset sekä kaupalliset yritykset. Esimerkiksi Euroopan unionilla on useita tutkijoita palvelevia tietokantoja. Tilastokeskuksen tietokannoista mainittakoon avoimen datan StatFin-tietokantapalvelu ja maksullinen aikasarjatietokanta ASTIKA. Tietokantojen käyttö on usein maksullista. Valmiisiin tilastoihin on suhtauduttava kriittisesti. Tietojen luotettavuus on tarkistettava ja mahdollisista erikoistermeistä, symboleista ja tunnusluvuista on otettava selvää, ennen kuin ryhtyy käyttämään tilastoa. Yleensä tutkijan on tuotettava havaintoaineistonsa itse hankkimalla havaintoyksiköt ja mittaamalla näistä tarvitsemiensa muuttujien arvot. Otantatutkimus tarjoaa tällöin keinoja analyysikelpoisten aineistojen saamiseksi. 2.2 Otantatutkimus Otanta, otantatutkimus (sample survey) on laajasti käytetty tilastollinen menetelmä hankittaessa tietoja populaatioista, joita ei voida tai ei haluta kokonaisuudessaan tutkia. Otannassa on kysymyksessä tietojen tuottaminen populaatiosta tutkimalla vain osa koko joukosta. Kokonaistutkimuksessa (census) sen sijaan tutkitaan koko populaatio. Otantatutkimusta puoltavat mm. seuraavat seikat: 1) Jos populaatio on suuri, saadaan tiedot otannalla halvemmalla ja nopeammin kuin kokonaistutkimuksella. 8

2) Otantatutkimuksessa on mahdollista hankkia yksityiskohtaisempaa tietoa tutkittavista yksiko ista kuin kokonaistutkimuksessa. 3) Jos populaatio on a a reto n tai muuten hyvin suuri, otanta on ainoa mahdollisuus. 4) Jos esimerkiksi laaduntarkkailussa tutkittava tuote tuhoutuu, kun sen ominaisuuksia tutkitaan, kokonaistutkimus ei tule kysymykseen. Toisaalta otantatutkimuksessa syntyy nk. satunnaisvirhetta (random error ), joka aiheutuu siita, etta tutkitaan vain osa populaatiosta. Satunnaisvirheen suuruuteen vaikuttavat populaation heterogeenisuus, otoskoko, otoksen valintamenetelma seka estimointitapa (= miten lasketaan arvio populaation tuntemattomalle ominaisuudelle, parametrille, esim. keskiarvo). Satunnaisvirhetta voidaan pienenta a mm. otoskokoa suurentamalla. Satunnaisvirheen suuruutta voidaan arvioida tilastotieteellisin keinoin. Nk. systemaattisia virheita eli harhaa (bias) aiheuttavat mm. vastaamatta ja tta minen, virheelliset mittausva lineet ja tietojen ka sittelyvaiheessa tehta va t virheet. Systemaattisia virheita esiintyy seka kokonais- etta otantatutkimuksissa. Otantatutkimuksissa niiden pienenta miseen voidaan kuitenkin yleensa kiinnitta a enemma n huomiota kuin kokonaistutkimuksessa. A. Tavoitteena selvittää parametrin arvo (esim. pituuden keskiarvo) isossa populaatiossa B. Asetelman periaate: otanta Populaatio Otos C. Malli havainnoille: Otostunnusluku = parametrin arvo populaatiossa + harha + satunnaisvirhe D. Harhattomuuden edellytykset: - satunnaisotanta - ei katoa - oikeat mittaustulokset Kuva 2: Otantatutkimuksen periaate. 9

Otannan tavoitteena on poimia populaatiosta mahdollisimman edustava otos, jotta otoksen perusteella voitaisiin tehda populaatiota koskevia pa a telmia. Esimerkkeina otantaa hyo dynta vista tutkimuksista mainittakoon mm. puolueiden kannatusta koskevat tutkimukset, kulutustutkimukset, satoennusteet ja tilastollinen laadunvalvonta. 2.3 Otannan suunnittelu ja toteutus Kaikki otantatutkimukset sisa lta va t era ita yhteisia suunnittelu- ja tyo vaiheita. Seuraavassa niita luonnehditaan lyhyesti. Populaation oletetaan olevan a a rellinen. 1) Selviteta a n mahdollisimman tarkasti tutkimuksen tavoitteet; mita tietoja halutaan, kenelta kysyta a n ja mihin tietoja ka yteta a n. 2) Ma a ra ta a n populaatio. Kohdepopulaatio (target population) on se joukko, josta ollaan kiinnostuneita. Kehikkopopulaatio (frame population) on se joukko, josta otos valitaan. Kehikkopopulaatio ei ka yta nno ssa ole aina ta sma lleen sama kuin kohdepopulaatio. Kehikkopopulaatiossa esiintyy alipeittoa (undercoverage), jos siita puuttuu kohdepopulaation yksiko ita, mutta siina voi olla myo s ylipeittoa (overcoverage), jos siina on mukana kohdepopulaatioon kuulumattomia havaintoyksiko ita. Otoksen perusteella tehta va t pa a telma t koskevat tarkasti ottaen vain kehikkopopulaatiota. kohdepopulaatio alipeitto otos ylipeitto kehikkopopulaatio Kuva 3: Populaation ma a ra ytyminen. 3) Ma a ra ta a n alkeisyksikko eli alkio (elementary unit) ja otantayksikko (sampling unit). Otos poimitaan otantayksiko ita ka ytta en. Otantayksikko na saattaa olla alkio tai joukko alkioita (katso esimerkiksi ryva sotanta). Varsinaiset mittaukset tehda a n alkeisyksiko ista. 10

4) Laaditaan kehikko (frame). Kehikko on otantayksiköistä koostuva luettelo, kartta tai muu selitys, jonka perusteella otos poimitaan. 5) Valitaan tietojen keräysmenetelmä. Menetelmän valintaan vaikuttavat lähinnä tarkoituksenmukaisuus-, luotettavuus- ja kustannusnäkökohdat. Kyseeseen tulevat esimerkiksi henkilökohtainen haastattelu, puhelinhaastattelu ja postikysely. Kyselyn tekeminen on mahdollista myös sähköpostin ja wwwsivujen välityksellä. Internetin kautta tehtävät kyselyt ovatkin yleistymässä, mutta niihin liittyy ongelmiakin (Pohdi, millaisia?). Suunnitelmallista kysely- ja haastattelututkimusta nimitetään survey-tutkimukseksi. Englanninkielinen termi survey tarkoittaa sellaisia kyselyn, haastattelun ja havainnoinnin muotoja, joissa aineistoa kerätään standardoidusti ja joissa kohdehenkilöt muodostavat otoksen tietystä populaatiosta. Standardoituvuus tarkoittaa sitä, että jos haluaa esimerkiksi saada selville, mikä koulutus vastaajilla on, tätä asiaa on kysyttävä kaikilta vastaajilta täsmälleen samalla tavalla. Hyvän kyselylomakkeen laatiminen onkin aikaa viepää puuhaa. Lomakkeen kysymysten on oltava selviä ja yksikäsitteisiä ja on kerättävä vain tutkimuksen kannalta tarpeellista tietoa. Kyselylomakkeen laatimisesta tarkemmin esim. seuraavista kirjoista: Tarja Heikkilä: Tilastollinen tutkimus ja Sirkka Hirsjärvi, Pirkko Remes ja Paula Sajavaara: Tutki ja kirjoita. 6) Päätetään otantamenetelmästä. Otantamenetelmällä tarkoitetaan tapaa, jolla otos valitaan kehikkopopulaatiosta. Ns. todennäköisyysotantaan perustuville otantamenetelmille on ominaista, että jokaisella kehikkopopulaation yksiköllä on tiedossa oleva positiivinen todennäköisyys tulla poimituksi otokseen. Poimintatodennäköisyyden ei tarvitse olla sama kaikilla yksiköillä. Tärkeimmät todennäköisyysotannan toteuttavat otantamenetelmät ovat yksinkertainen satunnaisotanta, systemaattinen otanta, ositettu otanta ja ryväsotanta, jotka esitellään tarkemmin kappaleessa 2.4. On myös mahdollista käyttää em. menetelmiä erilaisina yhdistelminä ja suorittaa otanta monessa vaiheessa. Jos tutkija valitsee populaatiosta oman harkintansa mukaan osajoukon, puhutaan harkintaotannasta (judgemental sampling) ja itse osajoukkoa sanotaan näytteeksi (judgment sample) tai mukavuusotokseksi (convenience sample). Siihen, mitä otantamenetelmää käytetään, vaikuttavat mm. tutkimuksen tavoitteet, tutkimuksen muuttujat, populaation maantieteellinen sijainti, käytettävissä oleva kehikko (rekisterit, luettelot), budjetti. 11

7) Päätetään otoskoko. Otoksen kokoon vaikuttaa, miten tarkkoja tuloksia halutaan; miten pienistä populaation osajoukoista halutaan tietoja ja miten heterogeeninen populaatio on tutkittavien muuttujien osalta. Yleensä tarkkuus paranee, kun otoskoko kasvaa. Todennäköisyyslaskenta tarjoaa keinoja sopivan otoskoon määräämiseksi (käsitellään myöhemmin luottamusvälien yhteydessä). Käytännön otantatilanteissa otoskokoon vaikuttavat myös kustannukset, käytettävissä oleva aika, työvoima yms. 8) Suoritetaan otoksen poiminta, tietojen keräys ja tarkistus. Vastaamatta jättäminen eli kato (nonresponse) saattaa vääristää tutkimuksen tuloksia, sillä vastaamatta jättäneet ovat yleensä joiltakin ominaisuuksiltaan erilaisia kuin kyselyyn vastanneet. Kato on suurin kirjekyselyissä. Katoa voi yrittää pienentää esimerkiksi liittämällä kyselyn mukaan motivoivan saatekirjeen, tekemällä kyselylomakkeesta mahdollisimman houkuttelevan ja suorittamalla uusintakyselyn niille, jotka eivät ensimmäiseen kyselyyn vastanneet. Otantatutkimuksen tulosten analyysivaiheessa on aina pyrittävä selvittämään vastaamatta jättämiseen mahdollisesti vaikuttaneet tekijät, jotta ne voitaisiin ottaa huomioon tulosten erittelyssä ja tulkinnasssa. 9) Analysoidaan saatu aineisto. 10) Raportoidaan tulokset. 2.4 Otantamenetelmiä Otantamenetelmistä esitellään yksinkertainen satunnaisotanta, systemaattinen otanta, ositettu otanta ja ryväsotanta. Tarkastelun ulkopuolelle jäävät mm. PPS-otanta ja peräkkäisotanta. 2.4.1 Yksinkertainen satunnaisotanta Yksinkertainen satunnaisotanta (simple random sampling, lyhyesti YSO) on otannan perusmenetelmä. Oletetaan, että populaatiossa on N otantayksikköä. Otokseen halutaan poimia n yksikköä. YSO:n vaiheet: 1) Muodostetaan kehikko. 2) Numeroidaan kehikon otantayksiköt juoksevasti 1:stä N:ään. 3) Otokseen tulevat poimitaan arpomalla laskimen satunnaislukugeneraattorin (RANDOM-näppäin), tietokoneen tai satunnaislukutaulukon (LII- 12

TE 1) avulla. Jos otanta suoritetaan palauttamatta (without replacement), kerran valittua ei voi valita uudelleen. Jos otanta suoritetaan palauttaen (with replacement), sama otantayksikkö voi tulla valituksi useamman kerran otokseen. Yleensä otanta suoritetaan palauttamatta. 2.4.2 Systemaattinen otanta Systemaattinen otanta (systematic sampling, lyhyesti SO) on käyttökelpoinen otantamenetelmä, jos otantayksiköt ovat jo valmiissa järjestyksessä jonkin sellaisen ominaisuuden suhteen, joka ei vaikuta tutkittaviin muuttujiin, esim. aakkosjärjestys ja asiakasjono. SO:n vaiheet: 1) Muodostetaan kehikko. 2) Lasketaan poiminta- eli otantaväli k = N/n (pyöristetään lähimmäksi kokonaisluvuksi) 3) Poimitaan satunnaisesti k:n ensimmäisen otantayksikön joukosta yksi ja siitä eteenpäin joka k:s yksikkö tai (harvemmin käytetty!) valitaan satunnaisesti yksi otantayksikkö kehikosta ja siitä lähtien eteenja taaksepäin joka k:s otantayksikkö. Systemaattinen otanta on suosittu otantamenetelmä, koska se on yleensä nopeasti ja helposti toteutettavissa. Jos populaatiossa kuitenkin esiintyy jaksottaista vaihtelua ja jakson pituus on sama kuin poimintaväli, menetelmän käyttö ei ole suositeltavaa, sillä tällöin tuloksiin aiheutuu systemaattista virhettä. 2.4.3 Ositettu otanta Ositetussa otannassa (stratified sampling, lyhyesti OO) populaatio jaetaan ennakkoinformaation perusteella toisensa poissulkeviin osajoukkoihin eli ositteisiin (strata). Sen jälkeen jokaisesta ositteesta otetaan otos esimerkiksi YSO:lla tai SO:lla ja näin saadut otokset yhdistetään yhdeksi otokseksi. Ositettu otanta on yksinkertaista satunnaisotantaa ja systemaattista otantaa parempi otantamenetelmä mm. seuraavissa tilanteissa: 13

1) Populaation tiedetään olevan heterogeeninen jonkin tutkimustulosten kannalta merkityksellisen tekijän suhteen. Suorittamalla osittaminen kyseessä olevan tekijän arvojen perusteella voidaan parantaa otoksesta saatavien tulosten tarkkuutta. 2) Ositteita halutaan käsitellä toisistaan erillään, eri populaatioina. 3) Populaation pienten ryhmien edustajat halutaan mukaan otokseen. 4) Populaatio saattaa olla valmiiksi jaettu erilaisiin alaryhmiin (hallinnollisiin organisaatioihin, haarakonttoreihin yms.). Tätä valmista ositusta on tällöin järkevä käyttää hyväksi. OO:n vaiheet: 1) Muodostetaan ositteet O 1, O 2,..., O p, joissa otantayksiköitä on vastaavasti N 1, N 2,..., N p ; N 1 + N 2 + + N p = N. 2) Jokaisesta ositteesta poimitaan oma otos esim. YSO:lla tai SO:lla otoskokojen ollessa n 1, n 2,..., n p 3) Saadut otokset yhdistetään yhdeksi otokseksi, jonka koko on n = n 1 + n 2 + + n p. Ositekohtaisia otoskokoja n 1 + n 2 + + n p määrättäessä voidaan käyttää 1) tasaista kiintiöintiä (equal allocation), jolloin jokaisesta ositteesta valitaan yhtä monta otantayksikköä, 2) suhteellista kiintiöintiä (proportional allocation), jolloin jokaisesta ositteesta valitaan prosentuaalisesti yhtä paljon, 3) optimaalista kiintiöintiä (optimum allocation), jolloin eri ositteisiin käytetään erilaista otantasuhdetta ottamalla huomioon ositteen koko, hajonta ja otannan yksikkökustannukset (hankala toteuttaa!). 14

Esimerkki ositetun otannan suorittamisesta suhteellista kiintiöintiä käyttäen (Heikkilä, 1998). 2.4.4 Ryväsotanta Ryväsotannan (cluster sampling) käyttöön on lähinnä kaksi syytä: 1) alkeisyksikkötasoinen poiminta on liian kallista esimerkiksi maantieteellisistä syistä, 2) alkeisyksiköistä ei ole käytettävissä kehikkoa. Ryväsotannassa populaatio jaetaan ensin toisensa poissulkeviin ryhmiin, ryppäisiin (cluster) ja näitä pidetään ns. ensiasteen otantayksikköinä. Tyypillisiä väestöpopulaation ryppäitä ovat kunta, äänestysalue, kylä ja kotitalous. Ryppäistä poimitaan otos esim. YSO:lla, SO:lla tai OO:lla. Yksiasteisessa ryväsotannassa otokseen valituista ryppäistä otetaan lopulliseen otokseen kaikki alkeisyksiköt, kaksiasteisessa ryväsotannassa käytetään vielä otantaa ensimmäisessä vaiheessa poimittujen ryppäiden sisällä. Jakamalla ryppäät osaryppäisiin ja osaryppäät vielä mahdollisesti alemman asteen osaryppäisiin voidaan yleisesti määritellä k-asteinen ryväsotanta. 15

Esimerkki yksiasteisen ryväsotannan suorittamisesta (Heikkilä, 1998). 2.4.5 Kiintiöpoiminta Kiintiöpoimintaa (quota sampling) käytetään esimerkiksi markkinointitutkimuksissa ja vaaligallupeissa. Etukäteen päätetään, kuinka monta miestä ja naista ja kuinka monta henkeä eri ikäryhmistä otetaan mukaan näytteeseen ja haastatteluja jatketaan kunnes kiintiöt ovat täynnä. Menetelmä on harkintaan perustuvaa otantaa, koska haastattelija valitsee vastaajan, vaikkakin annettujen ohjeiden mukaisesti. 16

3 MUUTTUJIEN MITTAAMINEN 3.1 Muuttuja, muuttujan arvot ja mittaaminen Muuttujalla (variable) tarkoitetaan kuten aiemmin on jo todettu jotain havaintoyksikköön liittyvää ominaisuutta. Nimensä mukaisesti muuttujan arvot vaihtelevat eri havaintoyksiköillä. Esim. 3.1 Jos havaintoyksikkönä on ihminen, mahdollisia muuttujia ovat mm. sukupuoli, ikä, ammatti, pituus, paino ja painoindeksi. Jos havaintoyksikkönä on kunta, mahdollisia muuttujia ovat mm. asukasluku, kunnallisveroprosentti, alle 18-vuotiaiden suhteellinen osuus väestöstä ja kokonaispintaala. Muuttujia merkitään usein pienillä kirjaimilla x, y, z jne. Muuttujan saamia arvoja eri havaintoyksiköillä merkitään symbolisesti alaindeksin avulla. Esimerkiksi merkintä x i tarkoittaa muuttujan x arvoa i. havaintoyksiköllä. Jos muuttujia on useita, käytetään yleensä indeksoitua merkintää jo itse muuttujista esim. x 1, x 2,..., x p, jolloin muuttujan arvoihin viitattaessa joudutaan käyttämään kaksoisindeksointia. Esimerkiksi merkintä x ij tarkoittaa i. havaintoyksikön arvoa muuttujalla x j. Muuttujat voivat olla joko perusmuuttujia tai johdettuja muuttujia. Jos havaintoyksikkönä on ihminen, perusmuuttujia ovat esim. paino ja pituus. Sen sijaan painoindeksi = paino/pituus 2 (kg/m 2 ) on johdettu muuttuja. Hyvin tavallista on, että alkuperäisistä muuttujista joudutaan laskemaan uusia, johdettuja muuttujia erilaisten muunnosten avulla. Mittaamisella (mittauksella) tarkoitetaan muuttujan arvon (mittaluvun tai symbolin) määrittämistä eri havaintoyksiköille. Mittaaminen on tilastotieteessä käsitettävä laajemmin kuin vain jonkin klassisen mittavälineen, metrinmitan tai puntarin, käytöksi. Tilastotieteessä mitata = määrätä ja esimerkiksi mielipiteen kirjaaminen haastattelututkimuksessa on tässä laajassa mielessä ymmärrettynä mittaamista. Jotkut muuttujat ovat helposti mitattavissa, esimerkiksi sukupuoli tai pituus. Joillekin muuttujille sopivan mittarin laatiminen saattaa olla hyvinkin vaikeaa. Miten pitäisi mitata vaikkapa henkilön älykkyyttä, uskonnollisuutta tai tehokkuutta? 17

3.2 Mitta-asteikot Muuttujat voidaan jakaa mittaustason perusteella nelja a n eri mitta-asteikkoon: luokittelu-, ja rjestys-, va limatka- ja suhdeasteikon muuttujiin. Muuttujan mitta-asteikolla on keskeinen merkitys mm. tilanteeseen soveltuvan tilastomenetelma n valinnassa. Luokittelu- ja ja rjestysasteikkoa sanotaan kvalitatiivisiksi asteikoiksi, koska muuttujien arvot kuvaavat ta llo in vain tilastoyksiko iden laadullisia piirteita. Va limatka- ja suhdeasteikkoa sanotaan puolestaan kvantitatiivisiksi asteikoiksi, koska ta llo in muuttujien arvot kuvaavat ma a ra a ja siten kyseisten muuttujien arvojen mittaaminen tuottaa luontevasti lukuja. Mitta-asteikko ei Luokitteluasteikko Onko havaintoyksiköiden luokkien välillä järjestystä? on laatua? Järjestysasteikko Mitataanko sopimuksenvarainen määrää? Välimatka-asteikko Onko nollakohta sopimuksenvarainen vai onko se absoluuttinen? absoluuttinen Suhdeasteikko Kuva 4: Muuttujien mitta-asteikot. Luokitteluasteikko (eli laatuero- eli nominaaliasteikko) Muuttuja on luokitteluasteikkoa (nominal scale), jos sen arvot voidaan ainoastaan luokitella yksika sitteisesti toisistaan eroaviin luokkiin. alhaisin mittaustaso, luokkien va lille ei voida ma a ritella mieleka sta ja rjestysta, mittaluvut ja symbolit voidaan vaihtaa vapaasti toisiin, laskutoimitukset eiva t ole mielekka ita. Esimerkiksi henkilo n sukupuoli, siviilisa a ty ja silmien va ri. 18

Järjestysasteikko (ordinaaliasteikko) Muuttuja on järjestysasteikkoa (ordinal scale), jos sen arvot voidaan luokittelun lisäksi asettaa mielekkääseen järjestykseen jonkin preferenssin mukaan. jokaiseen luokkaan liitetään järjestysluku, luokkien väliset erot eivät ole välttämättä yhtä suuria, luokkien järjestysluvut voidaan vaihtaa toisiin, mutta järjestyksen on säilyttävä, laskutoimitukset eivät ole mielekkäitä. Esimerkiksi mielipidemittauksissa käytetyt muuttujat, joissa vastausvaihtoehtoina esitettyyn väitteeseen ovat 1. täysin eri mieltä, 2. jokseenkin eri mieltä, 3. ei samaa mieltä eikä eri mieltä, 4. jokseenkin samaa mieltä, 5. täysin samaa mieltä. Välimatka-asteikko (intervalliasteikko) Muuttuja on välimatka-asteikkoa (interval scale), jos luokittamisen ja järjestykseen asettamisen lisäksi havaintoarvojen erotuksilla on mielekäs tulkinta. asteikon nollakohta on sopimuksenvarainen, ei absoluuttinen nollakohta (= alin mahdollinen muuttujan arvo), yhteen- ja vähennyslasku muuttujan arvoille sallittuja, kerto- ja jakolasku ei. Esimerkiksi lämpötilan mittaaminen Celsius- ja Fahrenheit-asteina. 19

Suhdeasteikko Muuttuja on suhdeasteikkoa (ratio scale), jos välimatka-asteikon ominaisuuksien lisäksi muuttujalla on absoluuttinen nollapiste. korkein mittaustaso, mittalukuja voidaan suoraan verrata toisiinsa eli määrätä mittalukujen suhde, kaikki laskutoimitukset sallittuja. Esimerkiksi paino, pituus ja pinta-ala. Huom. 1 Välimatka- ja suhdeasteikolliset muuttujat erottaa usein toisistaan siitä, että välimatka-asteikollinen muuttuja voi saada (ainakin periaatteessa) negatiivisia arvoja. Sen sijaan suhdesasteikollinen muuttuja ei voi saada negatiivisia arvoja, koska mitattava ominaisuus häviää mittarin nollakohdassa. Huom. 2 Mitä korkeampi on muuttujan mitta-asteikko, sitä enemmän on tarjolla menetelmiä muuttujan arvojen analysoimiseksi. Esimerkiksi keskiarvon laskeminen ei ole sallittua luokittelu- ja järjestysasteikolla. Huom. 3 Joissakin tapauksissa muuttujan mittaustaso asettuu edellä mainittujen mitta-asteikkojen väliin. Tavallinen on tilanne, jossa mittaustaso on järjestys- ja välimatka-asteikon välissä. Tällöin muuttujalle yleensä käytetään välimatka-asteikolle soveltuvia menetelmiä. Muuttujat voidaan jakaa myös epäjatkuviin eli diskreetteihin (discrete) ja jatkuviin (continuous) muuttujiin. Muuttuja on epäjatkuva tietyllä välillä, jos se muuttuu hyppäyksittäin eli se voi saada tällä välillä vain äärellisen määrän arvoja, esimerkiksi lasten lukumäärä perheessä. Kvalitatiiviset muuttujat ovat yleensä epäjatkuvia muuttujia. Muuttuja on jatkuva tietyllä välillä, jos se voi saada tällä välillä minkä tahansa arvon, esimerkiksi pituus. Mittaustarkkuus asettaa omat rajoituksensa jatkuvan muuttujan havaittuihin arvoihin. Mittaustarkkuutta voidaan yleensä parantaa, mutta se jää aina rajalliseksi. Esimerkiksi pituutta voidaan mitata metreissä, senteissä, millimetreissä jne. 20

3.3 Mittauksen luotettavuus ja mittausvirheet Mittauksen luotettavuutta kuvataan kahdella käsitteellä: validiteetilla (validity) ja konsistenssilla (consistency). Yhdessä ne muodostavat mittauksen kokonaisluotettavuuden. Validiteetti on mittarin kyky mitata sitä, mitä halutaan mitata. Yksittäisen muuttujan mittauksen (tai mittausmenetelmän) validiteetilla tarkoitetaan usein harhattomuutta. Mittauksen sanotaan olevan validia eli harhatonta, jos se ei systemaattisesti yli- tai aliarvioi muuttujan todellista arvoa eli jos mittaukseen ei sisälly systemaattista virhettä (systematic error) eli harhaa (bias). Systemaattisia virheitä mittaustuloksiin voivat aiheuttaa huonosti laadittu mittari, mittaaja, mittaustilanne, tietojen käsittelyvaihe, otantatutkimuksissa myös esimerkiksi kato (vastaamatta jättäminen) ja/tai peittovirhe (yli- tai alipeitto). Konsistenssi tarkoittaa mittausten toistettavuutta, tarkkuutta. Konsistenssi on sitä parempi, mitä vähemmän tulokset poikkeavat toisistaan, kun mittaus toistetaan samoilla havaintoyksiköillä, samoissa olosuhteissa ja niin, että mittauksen kohteena olevan muuttujan arvo ei muutu. Toisin sanoen, konsistenssi on sitä parempi mitä pienempi on mittauksen satunnaisvirhe (random error). Otantatutkimukseen liittyy aina otannasta aiheutuvaa satunnaisvirhettä eli otantavirhettä. Lisäksi satunnaisvirheitä voivat aiheuttaa mittari, mittaaja, mitattava kohde, mittaustilanne, tietojen käsittelyvaihe ym. Tarkimpiinkin laboratoriomittauksiin sisältyy satunnaisvirhettä! Huom. 1 Validiteetin ja konsistenssin ei välttämättä tarvitse liittyä toisiinsa. Mittauksen konsistenssi voi olla hyvä, mutta validiteetti huono. Toisaalta validiin mittaukseen voi liittyä suuri satunnaisvirhe. Ks. Kuva 5. Huom. 2 Konsistenssin sijasta käytetään usein termiä reliabiliteetti (reliability = luotettavuus) ja sanotaan, että mittaus on reliaabelia (luotettavaa), jos satunnaisvirhe on pieni. Tämä termi ei ole kuitenkaan suositeltava siihen sisältyvän käsitesekaannuksen vaaran vuoksi. Vaikka mittauksen konsistenssi olisikin hyvä, sitä ei voi pitää kovin luotettavana, jos sen validiteetti on huono. Vasta kun mittaus on sekä validia että tarkkaa (pieni satunnaisvirhe), se on luotettavaa! 21

Kuva 5 (Mellin, 1996) esittää neljän taidoiltaan erilaisen pistooliampujan tuloksia 10 laukauksen sarjassa. Ampumataulun keskusta vastaa mittauksen kohdetta eli mitattavan ominaisuuden todellista arvoa. Yksi laukaus vastaa yhtä mittausta. Kommentoi tuloksia! Kuva 5: Validiteetti ja konsistenssi. 22

4 HAVAINTOAINEISTON KUVAILU 4.1 Havaintomatriisi Havaintomatriisiksi (data matrix) kutsutaan havaintoaineiston taulukkomuotoista esitystapaa, joka koostuu riveistä ja sarakkeista. Havaintomatriisi on yleisessä muodossa seuraava: Muuttujat (p kpl) x 1 x 2... x j... x p a 1 x 11 x 12... x 1j... x 1p a 2 x 21 x 22... x 2j... x 2p Havainto-..... yksiköt (n kpl) a i x i1 x i2... x ij... x ip Havaintoyksikön a i profiili..... eli havaintovektori eli tietue a n x n1 x n2... x nj... x np Muuttujan x j arvojen vektori Edellä merkintä x ij = muuttujan x j arvo havaintoyksiköllä a i Kunta- Maa-ala Asukasluku Asukkaita/ numero nimi (km 2 ) 21.12.2012 maa-ala... 020 Akaa 293.1 17134 58.4... 005 Alajärvi 1008.7 10268 10.2... 009 Alavieska 251.4 2761 11.0... 010 Alavus 1088.2 12341 11.3..................... Esim. 4.1 Osa suomalaisia kuntia koskevaa havaintoaineistoa. Kun havaintomatriisin sisältämä informaatio pyritään tiivistämään mahdollisimman havainnolliseen ja helposti luettavaan muotoon, käytetään kuvailevaa tilastotiedettä eli taulukoita, graafisia esityksiä ja tunnuslukuja. 23

4.2 Yhden muuttujan jakauman graafiset ja taulukkomuotoiset esitykset 4.2.1 Pistekuvio ja runko-lehti -kuvio muuttujan tulee olla vähintään välimatka-asteikkoa, sopivat muuttujan jakauman alustaviin tarkasteluihin. Esim. 4.2 Kahdenkymmenenviiden vastasyntyneen lapsen syntymäpituudet (cm) olivat: 45, 51, 50, 55, 54, 49, 52, 54, 52, 51, 51, 49, 48, 50, 51, 50, 51, 47, 53, 48, 51, 49, 51, 53 ja 53. Pistekuvio (dot plot) käytetään yleensä vain, kun havaintoja on vähän, muuttujan arvot sijoitetaan lukusuoralle, soveltuu myös ryhmien vertailuun. A B tyttö syntymäpituus (cm) 44 46 48 50 52 54 56 poika 44 46 48 50 52 54 56 syntymäpituus (cm) Kuva 6: Esimerkin 4.2 syntymäpituuden jakauma A) koko aineistossa ja B) sukupuolittain piste-kuvion avulla esitettynä. Runko-lehti -kuvio (stem and leaf plot) sopii suurellekin aineistolle, muuttujan arvot esitetään suuruusjärjestyksessä, 24

esityksen runko-osalle valitaan ka ytetyn mittayksiko n sopiva monikerta: esimerkiksi ykko set, kymmenet, sadat jne, lehtiosaan merkita a n mittaluvun rungolta poisja a nyt osa: esimerkiksi desimaalit, ykko set, kymmenet jne, lehtiosalla esiteta a n yleensa vain yksi numero/havaintoyksikko. The decimal point is at the The decimal point is 1 digit(s) to the right of the 4 5788999 5 00011111112233344 5 5 45 0 46 47 0 48 00 49 000 50 000 51 0000000 52 00 53 000 54 00 55 0 Kuva 7: Esimerkin 4.2 syntyma pituuden jakauma kahden erilaisen Rohjelmalla tehdyn runko-lehti -kuvion avulla esitettyna. Seka pistekuviosta etta runko-lehti -kuviosta voi tehda pa a telmia jakauman muodosta, sijainnista ja hajonnasta. Ne myo s paljastavat nopeasti mahdolliset virheelliset ja poikkeavat arvot (outliers). 4.2.2 Yksiulotteinen frekvenssijakauma eli suora jakauma Muuttujan x yksiulotteisella frekvenssijakaumalla tarkoitetaan alla esitetyn kaltaista taulukkoa x:n luokat E1 E2... Frekvenssi f1 f2... Suhteellinen frekvenssi (%) %f1 %f2... Ei... fi... %fi... Er Yhteensa fr n %fr 100 Frekvenssi fi kertoo luokkaan Ei kuuluvien lukuma a ra n. Suhteellinen frekvenssi (%) kertoo luokkaan Ei kuuluvien prosenttiosuuden. 25

ka y kaikilla mitta-asteikoilla, luokittelu- ja ja rjestysasteikon muuttujalla luokat yleensa valmiina, va limatka- ja suhdeasteikon muuttujille joutuu yleensa ensin suorittamaan arvojen luokittelun. Luokittelussa on hyva muistaa seuraavat ohjeet: jos mahdollista, tasava linen luokitus, sopiva luokkien lukuma a ra lo ytyy yleensa va lilta 3 n 23n, ei mielella a n avoimia luokkia alkuun ja/tai loppuun, luokkava lin pituudeksi sopivan pyo rea luku, esim. 1, 5 tai 10 yksikko a. luokan todellinen alaraja = luokan pyo ristetty alaraja - mittaustarkkuus/2 luokan todellinen yla raja = luokan pyo ristetty yla raja + mittaustarkkuus/2 luokkava lin pituus = luokan todellinen yla raja luokan todellinen alaraja luokkakeskus = (luokan todellinen alaraja + luokan todellinen yla raja)/2 ns. pyöristetyt luokkarajat: mahdolliset mittaluvut: 45-49" 50-54" 55-59" 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 ns. todelliset luokkarajat: [44.5, 49.5[ [49.5, 54.5[ paino (kg) [54.5, 59.5[ Kuva 8: Luokkarajoista: luokitellaan painon havaintoarvoja mittaustarkkuuden ollessa havaintoaineistossa 1 kg. Paino (kg) 45-49 50-54 55-59 60-64 65-69 70-74 Yhteensa Frekvenssi 4 7 15 11 5 2 44 Suhteellinen frekvenssi (%) 9 16 34 25 11 5 100 Esim. 4.3 Era a n naisopiskelijaryhma n painon yksiulotteinen frekvenssijakauma. 26

4.2.3 Pylväskuvio ja piirakkakuvio Pylväskuvio (bar chart) sopii mm. yksiulotteisen frekvenssijakauman graafiseksi esitykseksi, jos tarkasteltava muuttuja x on luokittelu- tai järjestysasteikkoa, suositus: pylväiden väli 25-50 % pylvään leveydestä, luokitteluasteikon muuttujalla pylväät on syytä laittaa suuruusjärjestykseen, järjestysasteikon muuttujalla pylväiden järjestystä ei saa vaihtaa, joko vaaka- tai pystypylväskuvio. Esim. 4.4 Asuntojen talotyypin jakauma Oulun kaupungissa 31.12.2012. (Lähde: Oulun kaupungin tilastollinen vuosikirja 2013). Suhteellinen Talotyyppi Frekvenssi frekvenssi (%) Erillinen pientalo 30393 30.9 Rivi- tai ketjutalo 15325 15.6 Asuinkerrostalo 51239 52.1 Muu tai tuntematon 1459 1.5 Yhteensä 98416 100.0 Esitetään talotyypin jakauma pylväskuviona. Asuinkerrostalo Erillinen pientalo Rivi tai ketjutalo Muu tai tuntematon 0 10 20 30 40 50 60 prosenttiosuus Kuva 9: Asuntojen talotyypin jakauma Oulun kaupungissa 31.12.2012. 27

Piirakkakuvio (pie chart) ympyrä jaetaan sektoreihin ja sektoreiden pinta-alat ovat suoraan verrannollisia kuvattaviin arvoihin, sopii vain prosenttijakauman kuvaamiseen luokittelu- ja järjestysasteikon muuttujille, tieteelliseen esitykseen epätarkka esitysmuoto, sektorit pitäisi laittaa suuruusjärjestykseen, korkeintaan kuusi sektoria, esteettisesti vetoava muoto ja näyttävyys. Asuinkerrostalo Muu tai tuntematon Rivi tai ketjutalo Erillinen pientalo Kuva 10: Asuntojen talotyypin jakauma Oulun kaupungissa 31.12.2012. 4.2.4 Histogrammi, frekvenssimonikulmio ja janakuvio Histogrammi (histogram) - sopii yksiulotteisen frekvenssijakauman graafiseksi esitykseksi, jos tarkasteltava muuttuja x on välimatka- tai suhdeasteikkoa. - tasavälisen luokituksen tilanteessa pylvään korkeus kuvaa havaintojen lukumäärän tai suhteellisen osuuden kyseisessä luokassa. 28

15 frekvenssi 10 5 0 45 49 50 54 55 59 60 64 65 69 70 74 paino (kg) Kuva 11: Esimerkin 4.3 painojakauma histogrammin avulla esitettynä. Huom. Histogrammissa suorakulmioiden pinta-alojen tulee olla verrannollisia vastaaviin frekvensseihin. Jotta ei-tasavälisen luokituksen tapauksessa näin olisi, on käytettävä ns. korjattuja frekvenssejä (frekvenssitiheyksiä), merk. h i. h i = (f i perusluokkavälin pituus)/ (i. luokan luokkavälin pituus) Perusluokkaväliksi valitaan yleensä lyhin luokka. Katso luentoesimerkki. Frekvenssimonikulmio (frequency polygon) sopii yksiulotteisen frekvenssijakauman graafiseksi esitykseksi, jos tarkasteltava muuttuja x on välimatka- tai suhdeasteikkoa, saadaan, kun yhdistetään pisteet (X i, f i ), missä X i ja f i ovat luokan E i luokkakeskus ja frekvenssi, monikulmion molemmat päätepisteet sijaitsevat x-akselilla ns. nollaluokkien luokkakeskuksissa, 15 frekvenssi 10 5 0 42 47 52 57 62 67 72 77 paino (kg) Kuva 12: Esimerkin 4.3 painojakauma frekvenssimonikulmion avulla esitettynä. 29

Janakuvio (janadiagrammi) voidaan käyttää, jos muuttuja x on diskreetti ja vähintään välimatkaasteikkoa ja saa vain muutamia erillisiä arvoja. korostaa kuvattavan muuttujan diskreettiä luonnetta Esim. 4.5 Eräässä taloyhtiössä sijaitsevien asuntojen huoneistotyypin jakauma oli seuraava: Huoneiden Suhteellinen lukumäärä Frekvenssi frekvenssi (%) 1 11 14 2 28 36 3 20 26 4 15 19 6 3 4 Yhteensä 77 100 Alla kyseinen jakauma janakuvion avulla esitettynä. frekvenssi 30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 asunnon huoneiden lukumäärä Kuva 13: Taloyhtiössä sijaitsevien asuntojen huoneistotyypin jakauma. 4.2.5 Laatikko-jana -kuvio (boxplot, box and whiskers plot) voidaan muodostaa välimatka- ja suhdeasteikon muuttujille, määrätään (yksinkertaisimmassa versiossa!) minimin, maksimin, mediaanin sekä ala- ja yläkvartiilin avulla (ks. mediaanista ja kvartiileista luvusta 4.3.1), 30

sopii käytettäväksi erityisesti silloin, kun halutaan vertailla muuttujan jakaumia eri ryhmissä, voidaan muodostaa vaaka- tai pystykuviona. tytöt outlier pojat min Q 1 Md Q 3 max 44 46 48 50 52 54 56 syntymäpituus (cm) Kuva 14: Esimerkin 4.2 syntymäpituuksien sukupuolittaiset jakaumat. 4.2.6 Summajakauma ja summakäyrä Summajakauman (cumulative frequency distribution) muodostaminen on mielekästä vähintään järjestysasteikkoa oleville muuttujille, summajakauman graafinen esitystapa, summakäyrä (cumulative curve), edellyttää välimatka- tai suhdeasteikon muuttujaa. Summafrekvenssi F i kertoo, kuinka monta havaintoa kuuluu kyseiseen luokkaan ja sitä edeltäviin luokkiin. Kun tunnetaan muuttujan frekvenssijakauma, summajakauman muodostaminen on hyvin helppoa (yksi lisäsarake taulukkoon). Ns. absoluuttisten summafrekvenssien lisäksi voidaan ilmoittaa myös suhteelliset summafrekvenssit. x:n luokat Frekvenssi Suht. frekvenssi (%) Summafrekvenssi Suht. summafrekvenssi E 1 f 1 %f 1 F 1 = f 1 %F 1 = %f 1 E 2 f 2 %f 2 F 2 = f 1 + f 2 %F 2 = %f 1 + %f 2..... E r f r %f r F r = n %F r = 100 yht. n 100 Summakäyrä saadaan yhdistämällä janoilla pisteet (luokan E i todellinen yläraja, luokan E i summafrekvenssi tai prosenttinen summafrekvenssi). Summakäyrä lähtee x-akselilta ensimmäisen luokan todellisesta alarajasta. 31

Esim. 4.6 Muodostetaan esimerkin 4.3 naisopiskelijaryhmän painon yksiulotteinen frekvenssi- ja summajakauma ja esitetään se graafisesti. Suhteellinen Summa- Suhteellinen summa- Paino (kg) Frekvenssi frekvenssi (%) jakauma jakauma (%F) 45-49 4 9 4 9 50-54 7 16 11 25 55-59 15 34 26 59 60-64 11 25 37 84 65-69 5 11 42 95 70-74 2 5 44 100 Yhteensä 44 100 summafrekvenssi 45 40 35 30 25 20 15 10 5 0 44.5 49.5 54.5 59.5 64.5 69.5 74.5 pituus (cm) Huom. Jos kyseessä on diskreetti, vähintään välimatka-asteikkoa oleva muuttuja, joka saa vain muutamia erillisiä arvoja, summajakauma esitetään graafisesti porraskuvion avulla. Esim. 4.7 Muodostetaan esimerkin 4.5 asuntojen huoneistotyypin yksiulotteinen frekvenssi- ja summajakauma ja esitetään se graafisesti. Huoneiden Suhteellinen Summa- Suhteellinen summalukumäärä Frekvenssi frekvenssi (%) frekvenssi frekvenssi (%F) 1 11 14 11 14 2 28 36 39 51 3 20 26 59 77 4 15 19 74 96 6 3 4 77 100 Yhteensä 77 100 32

prosenttinen summafrekvenssi 100 80 60 40 20 0 0 1 2 3 4 5 6 7 asunnon huoneiden lukumäärä Kuva 15: Taloyhtiön asuntojen huoneistotyypin prosenttinen summajakauma. 4.3 Yhden muuttujan jakaumaa kuvaavia tunnuslukuja Edellä käsiteltyjen graafisten ja taulukkomuotoisten esitysten lisäksi muuttujan jakaumaa on tapana luonnehtia erilaisten tunnuslukujen avulla. Yhden muuttujan jakauman tunnusluvut voidaan jakaa sijaintia (location), hajontaa (dispersion, spread, variability), vinoutta (skewness) ja huipukkuutta (kurtosis) kuvaaviin. Näistä yleisimmin käytössä ovat sijaintia ja hajontaa kuvaavat tunnusluvut. 4.3.1 Sijainnin tunnusluvut Sijainnin tunnusluvut, lyhyesti sijaintiluvut, kuvaavat nimensä mukaisesti jollakin tavalla jakauman sijaintia. Sijaintilukuihin luetaan keskiluvut ja fraktiilit. Keskiluvut ilmaisevat jakauman keskimääräistä tai tyypillistä arvoa tai luokkaa. Keskilukuja ovat mm. moodi, mediaani, aritmeettinen keskiarvo, geometrinen keskiarvo ja harmoninen keskiarvo. Moodi eli tyyppiarvo (mode) Mo Moodi on se muuttujan arvo (tai luokka), joka esiintyy useimmin. Toisin sanoen, se muuttujan arvo (tai luokka), jonka frekvenssi on suurin. käy kaikilla mitta-asteikoilla, ainoa luokitteluasteikolle sopiva keskiluku, 33

käytetään lähinnä luokittelu- ja järjestysasteikon muuttujille, ei ole aina yksikäsitteinen. Huom. Jos kyseessä on välimatka- tai suhdeasteikkoa oleva muuttuja, jonka arvot on tasavälisesti luokiteltu, i) moodiksi voidaan ottaa suurinta frekvenssiä vastaavan luokan ns. moodiluokan luokkakeskus tai ii) määrätä moodi graafisesti histogrammista. Mediaani (median) Md Tarkastellaan vähintään järjestysasteikon muuttujan x suuruusjärjestykseen asetettuja havaintoarvoja x (1), x (2),..., x (n). x (1) = pienin arvo,..., x (n) = suurin. a) Jos n on pariton, mediaani on keskimmäinen havaintoarvo (tai vastaava luokka). Md = x ((n+1)/2) b) Jos n on parillinen, mediaani on jompikumpi keskimmäisistä havaintoarvoista (tai niitä vastaavista luokista) järjestysasteikolla; vähintään välimatkaasteikkoa olevalle muuttujalle mediaani on kahden keskimmäisen havaintoarvon keskiarvo. Md = (x (n/2) + x (n/2+1) )/2 Huom. Jos kyseessä on välimatka- tai suhdeasteikkoa oleva muuttuja, jonka arvot on luokiteltu, i) mediaaniksi voidaan ottaa mediaaniluokan (se luokka, jossa summafrekvenssi ensimmäisen kerran vähintään n/2 (50%)) luokkakeskus tai ii) määrätä mediaani graafisesti summakäyrän avulla. Alakvartiili (lower quartile) Q 1 ja yläkvartiili (upper quartile) Q 3 Alakvartiili ja yläkvartiili ovat mediaanin luonteisia sijaintia kuvaavia tunnuslukuja. 34

Alakvartiili = se muuttujan arvo, jota pienempiä on korkeintaan neljäsosa (25 %) muuttujan arvoista ja jota suurempia on korkeintaan kolme neljäsosaa (75%) muuttujan arvoista. Yläkvartiili = se muuttujan arvo, jota pienempiä on korkeintaan kolme neljäsosaa (75%) muuttujan arvoista ja jota suurempia on korkeintaan neljäsossa (25%). Kvartiilien määrääminen havaintoaineistosta tapahtuu periaatteessa samalla tavalla kuin mediaanin määrääminen. Katso luentoesimerkki. prosenttinen summafrekvenssi 100 90 80 70 60 50 40 30 20 10 0 75 % 50 % 25 % Q 1 Md 44.5 49.5 54.5 59.5 64.5 69.5 74.5 Q 3 paino (kg) Kuva 16: Esimerkki kvartiilien määräämisestä luokitellun aineiston tapauksessa. Alakvartiili, mediaani ja yläkvartiili jakavat aineiston neljään yhtä suureen osaan (tosin laskennallisista syistä aivan tarkasti näin ei kuitenkaan kaikkien muuttujien kohdalla ole!) ja näiden kolmen tunnusluvun ryhmää kutsutaan kvartiileiksi. Samaa ideaa voidaan yleistää ja puhua kvintiileistä, kun aineisto jaetaan viidesosiin, desiileistä, kun aineisto jaetaan kymmenesosiin jne. Yhteisellä nimellä näitä aineiston osiin jakavia tunnuslukuja sanotaan fraktiileiksi (fractiles). p-prosentin fraktiili on sellainen muuttujan arvo, että sitä pienempiä on korkeintaan p prosenttia ja sitä suurempia on korkeintaan 100 p prosenttia. 35

Aritmeettinen keskiarvo (mean) x Vähintään välimatka-asteikon muuttujan x havaintoarvojen x 1, x 2,..., x n aritmeettinen keskiarvo x on x = 1 n (x 1 + x 2 + + x n ) = 1 n n x i. Luokitellulle aineistolle aritmeettinen keskiarvo lasketaan kaavalla i=1 x = 1 n (f 1X 1 + f 2 X 2 + + f r X r ) = 1 n r f i X i, i=1 jossa X i on i. luokan luokkakeskus ja f i vastaava frekvenssi. i = 1, 2,..., r. Geometrinen keskiarvo G ja harmoninen keskiarvo H soveltuvat käytettäväksi vain suhdeasteikolla, käytetään joissain erikoistapauksissa esim. indeksilukujen yhteydessä. Olkoon muuttujan x havaintoarvot x 1, x 2,..., x n. x:n geometrinen keskiarvo G määritellään G = n x 1 x 2... x n ja x:n harmoninen keskiarvo H H = 1 ( 1 1 + 1 + + 1 ) = n n n x 1 x 2 x n i=1. 1 Kun geometrisesta keskiarvosta otetaan logaritmi, saadaan x i log G = 1 n n log x i, i=1 josta nähdään, että log G on lukujen log x i aritmeettinen keskiarvo. Huom. Aina pätee, että H G x. 36

Aritmeettista keskiarvoa laskettaessa ovat keskiarvon määräävässä summassa painavimmassa asemassa suuret havaintoarvot ja lähellä nollaa olevat arvot ovat miltei merkityksettömiä. Harmonisessa keskiarvossa on eri havaintojen merkitys päinvastainen, sillä yhteenlasku rakentuu havaintoarvojen käänteislukuihin. Geometrinen keskiarvo suhtautuu suuruusluokkaeroihin tasapuolisesti. Yhteenveto keskiluvuista Valittaessa sopivaa keskilukua erityisesti välimatka- tai suhdeasteikkoa olevalle muuttujalle on hyvä muistaa, että aritmeettinen keskiarvo on herkkä poikkeaville arvoille, mediaani ei. Niinpä, jos aineistossa on poikkeavia arvoja, aritmeettisen keskiarvon lisäksi/sijasta kannattaa keskilukuna käyttää mediaania. Mediaani on helppo ymmärtää, olipa jakaumassa poikkeavia arvoja tai ei; mediaania pienempiä ja suurempia on yhtä monta, koska mediaani on keskimmäinen havaintoarvo. Esimerkkinä tulojakaumat. 4.3.2 Hajontaluvut Hajontaluvut pyrkivät kuvaamaan havaintoarvojen vaihtelun määrää. Hajontalukuja ovat mm. vaihteluväli, vaihteluvälin pituus, kvartiiliväli, kvartiilivälin pituus, keskihajonta, varianssi, keskipoikkeama, variaatiokerroin ja entropiasuhde. Vaihteluväli W ja vaihteluvälin pituus (range) w Vaihteluväli voidaan määrätä vähintään järjestysasteikkoa olevalle muuttujalle. W = (pienin arvo, suurin arvo) Jos muuttuja on välimatka- tai suhdeasteikkoa ja luokiteltu, pienimmäksi arvoksi otetaan ensimmäisen varsinaisen luokan todellinen alaraja ja suurimmaksi arvoksi viimeisen varsinaisen luokan todellinen yläraja. Vaihteluvälin pituus voidaan määrätä, jos muuttuja on vähintään välimatkaasteikkoa. w = suurin arvo pienin arvo 37

Kvartiiliväli Q ja kvartiilivälin pituus (interquartile range) Q Kvartiiliväli voidaan määrätä vähintään järjestysasteikkoa olevalle muuttujalle: Q = (Q 1, Q 3 ) = (alakvartiili, yläkvartiili) Jos muuttuja on välimatka- tai suhdeasteikkoa ja luokiteltu, kvartiilit voi määrätä graafisesti summakäyrän avulla (katso sivu 34). Kvartiilivälin pituus voidaan määrätä, jos muuttuja on vähintään välimatkaasteikkoa: Q = Q 3 Q 1 Keskihajonta eli standardipoikkeama (standard deviation) s, varianssi (variance) s 2 ja variaatiokerroin (coefficient of variation) V Vähintään välimatka-asteikon muuttujan x havaintoarvojen x 1, x 2,..., x n keskihajonta on s = 1 n 1 n (x i x) 2 i=1 Täten n:n luvun keskihajonta saadaan määräämällä lukujen niiden omasta keskiarvosta määrättyjen poikkeamien neliöiden summa, jakamalla summa (n 1):llä ja ottamalla osamäärästä neliöjuuri. Huom. 1 Perustelu sille, että jakajana käytetään n:n sijasta (n 1):tä, on luonteeltaan teoreettinen ja siihen palataan myöhemmin estimoinnin yhteydessä. Itse asiassa valinnalla n tai (n 1) ei ole kovin suurta vaikutusta keskihajonnan arvoon ja sitä vähemmän, mitä suurempi on n. Huom. 2 s:n kaava voidaan esittää myös muodossa ( n ) 2 ( n s = 1 x i ) x 2 i n 1 i=1 n i=1 38

Huom. 3 Olkoon y i = ax i + b, ȳ = a x + b ja s y = a s x. i = 1, 2,..., n, a ja b reaalilukuja. Tällöin Luokitellulle aineistolle keskihajonta lasketaan kaavalla s = 1 n 1 r f i (X i x) 2, i=1 jossa X i on i. luokan luokkakeskus ja f i vastaava frekvenssi. i = 1, 2,..., r. Keskihajonnan neliötä s 2 sanotaan varianssiksi. Varianssilla on käyttöä erityisesti teoreettisissa tarkasteluissa. Keskihajonta ja varianssi (kuten myös aiemmin käsitellyt hajontaluvut) ovat muuttujan mittayksiköstä riippuvia. Variaatiokerroin V = s/ x Variaatiokerroin on sen sijaan mittayksikösta riippumaton hajontaluku. Variaatiokertoimen avulla voidaankin vertailla eri mittayksiköissä mitattujen muuttujien vaihtelun suuruutta esimerkiksi karhujen, koirien ja kolibrien painojen vaihtelua. Variaatiokertoimen käyttö edellyttää suhdeasteikollista mittausta. Standardointi Keskiarvon ja keskihajonnan avulla voidaan muodostaa muuttujan x ns. standardoidut arvot merk. z i, z i = x i x, i = 1, 2,..., n. s Standardoitu arvo z i ilmaisee havaintoarvon x i ja aineiston keskiarvon välisen etäisyyden keskihajontaa yksikkönä käyttäen. Standardoitu muuttuja z on riippumaton alkuperäisen muuttujan x mittayksiköstä. Standardoitujen arvojen avulla voidaan vertailla esimerkiksi henkilön suorituksia eri testeissä tai kokeissa. Voidaan osoittaa, että z = 0 ja s z = 1. 39

4.3.3 Vinous- ja huipukkuusluvut Va hinta a n va limatka-asteikkoa olevan muuttujan x jakauman muotoa voidaan kuvailla vinousmitan g1 (skewness) ja huipukkuusmitan g2 (kurtosis) avulla. Vinousmitta g1 ja huipukkuusmitta g2 ma a ritella a n kaavoilla g1 = m3 s3 ja g2 = m4 3, s4 n jossa mk = 1X (xi x )k on nk. k. keskusmomentti ja s on keskihajonta. n i=1 Symmetriselle jakaumalle g1 = 0, oikealle vinolle (right-skewed ) jakaumalle positiivinen ja vasemmalle vinolle (left-skewed ) jakaumalle negatiivinen. vasemmalle vino g1 < 0 (likimain) symmetrinen g1» 0 oikealle vino g1 > 0 Huipukkuusmitta g2 = 0 normaalijakaumalle, positiivinen positiivisesti huipukkaalle (leptokurtic) jakaumalle ja negatiivinen negatiivisesti huipukkaalle (platykurtic) jakaumalle. HUIPUKKUUS normaalijakauman kaltainen: g2 = 0 negatiivisesti huipukas: g2 < 0 positiivisesti huipukas: g2 < 0 40

5 TODENNA KO ISYYSLASKENTAA 5.1 Todenna ko isyyden ka site Satunnaisilmio [satunnaiskoe] on ilmio, johon liittyy useita eri tulosmahdollisuuksia ja tarkastelijan kannalta epa varmuutta siita, mika tulos on ollut tai tulee olemaan. Ta ta satunnaisilmio o n liittyva a epa varmuutta pyrita a n arvioimaan todenna ko isyyksien (probabilities) avulla. Ennen todenna ko isyys-ka sitteen tarkempaa ma a rittelya otetaan ka ytto o n seuraavat satunnaisilmio o n liittyva t merkinna t ja nimitykset: E = perusjoukko eli otosavaruus (sample space) = kaikkien mahdollisten tulosten joukko = alkeistapahtumien joukko E:n osajoukkoja sanotaan tapahtumiksi (event), merk. A, B, C jne. Sanotaan, etta tapahtuma A esiintyy, jos satunnaisilmio n tulos on sellainen, etta se kuuluu tapahtumaa A vastaavaan tulosjoukkoon. E = varma tapahtuma = mahdoton tapahtuma A B = A tapahtuu tai B tapahtuu tai molemmat tapahtuvat A B = A ja B tapahtuu A = Ac = A:n komplementti = A ei tapahdu Edella mainittuja tapahtumia voidaan havainnollistaa Venn-diagrammien avulla. E E E AC A B AÈB A B AÇB A AC Esimerkkeja satunnaisilmio ista ja niihin liittyvista tapahtumista a) Heiteta a n noppaa kerran ja tarkastellaan saatavaa silma lukua. E ={1, 2, 3, 4, 5, 6} Esimerkiksi A ={silma luku parillinen} = {2, 4, 6} 41

b) Heitetään kolikkoa kahdesti ja tarkkaillaan saatavaa tulosparia. E = {(kr,kr),(kr,kl),(kl,kr),(kl,kl)} Esimerkiksi A = {ainakin yksi klaava}= {(kr,kl),(kl,kr),(kl,kl)} c) Valitaan yksi arpa sadan arvan joukosta ja tarkastellaan saatavan arpalipun numeroa. E = {1, 2, 3,..., 100} Esimerkiksi A = {numero väliltä 77-86} d) Valitaan haastateltava satunnaisesti 1000 henkilön joukosta ja tarkastellaan esitettyyn asennekysymykseen saatavaa vastausta. E = {täysin samaa mieltä, joks. samaa mieltä, ei samaa eikä eri mieltä, joks. eri mieltä, täysin eri mieltä} Esimerkiksi A = {joks. tai täysin eri mieltä} Huom. Alkeistapaukset voidaan useissa satunnaisilmiöissä valita eri tavoin. On olemassa useita erilaisia todennäköisyyden tulkintoja. Itse asiassa todennäköisyys on syvällinen filosofinen käsite, jonka tulkinnasta on kirjoitettu kokonaisia kirjoja. Rajankäynti eri tulkintojen välillä käy lähinnä seuraavan kysymyksen perusteella: Onko kaikki epävarmuus mitattavissa? Voiko kaikkea epävarmuutta kuvata todennäköisyyden avulla? Jos ei, niin missä tilanteessa voi? Seuraavassa esitellään lyhyesti kolme yleisintä todennäköisyyden tulkintaa: klassinen todennäköisyys, frekvenssitodennäköisyys ja subjektiivinen todennäköisyys. Klassinen todennäköisyys Oletetaan, että perusjoukossa E on n kappaletta tulosmahdollisuuksia (alkeistapahtumia), jotka ovat yhtä mahdollisia (yhtä todennäköisiä, symmetrisiä) ja oletetaan, että tapahtumaan A johtaa k kappaletta näistä tulosmahdollisuuksista (eli A:lla on k suotuista tulosta). Tällöin tapahtuman A todennäköisyys, merk. P(A), on P(A) = k n = A:lle suotuisten tulosten lkm kaikkien tulosten lkm Klassinen todennäköisyys sopii vain harvoihin tilanteisiin (peli- ja arpomistilanteet). Frekvenssitodennäköisyys (tilastollinen todennäköisyys) Frekvenssitodennäköisyyden käsitettä voidaan käyttää tilanteissa, joissa tarkasteltava satunnaisilmiö on luonteeltaan toistokoe eli sellainen koe, että 42

se voidaan haluttaessa toistaa samankaltaisissa olosuhteissa mielivaltaisen monta kertaa. Toistetaan koetta n kertaa. Olkoon silloin f n (A) = A:n sattumisten lkm n toistossa ja P n (A) = f n(a) n Jos n:n kasvaessa P n (A) lähestyy jotakin lukua, merk. P(A), niin tätä lukua sanotaan tapahtuman A todennäköisyydeksi. Useat empiiriset ilmiöt voidaan kuvitella toistokokeen tuottamiksi. Esim. kaikki edellä annettujen esimerkkien satunnaisilmiöt voidaan ajatella toistokokeiksi. Ongelmana frekvenssitodennäköisyyttä käytettäessä on, miten tunnistaa samankaltaiset olosuhteet. Subjektiivinen todennäköisyys Subjektiivisen todennäköisyyden tulkinnan mukaan todennäköisyys ei ole millään tavalla objektiivinen vaan aina täysin subjektiivinen, henkilön omia uskomuksia tai uskon astetta ilmentävä käsite. Tämän tulkinnan mukaan aina kun henkilö joutuu tilanteeseen, johon hänen kannaltaan liittyy epätietoisuutta joidenkin asioiden tai tapahtumien suhteen, hän arvioi erilaisten vaihtoehtojen todennäköisyydet täysin subjektiivisesti omien tietojensa ja käsitystensä perusteella. Subjektiivinen todennäköisyys sopii kaikkiin ilmiöihin, ei vain toistokokeen kaltaisiin ilmiöihin. Ongelmana on, että sen arvo riippuu monesta arvaamattomasta tekijästä. 5.2 Todennäköisyyslaskennan laskusääntöjä Sekä klassisella todennäköisyydellä että frekvenssitodennäköisyydellä on seuraavat perusominaisuudet: 1) 0 P(A) 1 2) Jos tapahtumat A ja B ovat toisensa poissulkevia (mutually exclusive) ts. A B =, niin P(A B) = P(A) + P(B) 3) P(E) = 1 ts. varman tapahtuman todennäköisyys = 1 Huom. Myös subjektiivisen todennäköisyyden oletetaan toteuttavan edellä mainitut ominaisuudet. 43

Ominaisuuksien 1) - 3) avulla voidaan johtaa seuraavat tulokset (laskusäännöt): a) P( ) = 0 ts. mahdottoman tapahtuman todennäköisyys = 0 b) P(Ā) = P(Ac ) = 1 P(A) c) P(A B) = P(A) + P(B) P(A B) (yleinen yhteenlaskusääntö) d) Jos A B, niin P(A) P(B) e) Jos tapahtumat A 1, A 2,..., A k ovat pareittain toisensa poissulkevia eli mitkään kaksi tapahtumaa eivät voi esiintyä samanaikaisesti, niin P(A 1 A 2 A k ) = P(A 1 ) + P(A 2 ) + + P(A k ) Ehdollinen todennäköisyys Taskastellaan kahta samaan satunnaisilmiöön liittyvää tapahtumaa A ja B. Todennäköisyyttä, että A tapahtuu, kun B on tapahtunut, sanotaan ehdolliseksi todennäköisyydeksi ja merkitään P(A B) (luetaan: A:n todennäköisyys ehdolla B). Ehdolliselle todennäköisyydelle pätee, jos P(B) > 0 P(A B) = P(A B) P(B) Ehdollisen todennäköisyyden kaavasta saadaan yleinen kertolaskusääntö: P(A B) = P(B)P(A B) Tapahtumia A ja B sanotaan riippumattomiksi, jos P(A B) = P(A), mikä on yhtäpitävä sen kanssa, että P(B A) = P(B) samoin kuin sen kanssa, että P(A B) = P(A)P(B) (kertolaskusääntö riippumattomille tapahtumille) Yleistys: Jos A 1, A 2,..., A k ovat riippumattomia tapahtumia, P(A 1 A 2 A k ) = P(A 1 )P(A 2 )... P(A k ). Huom. Tapahtumien toisensa poissulkevuus ja tapahtumien riippumattomuus eivät tarkoita samaa asiaa. Päinvastoin: toisensa poissulkevat tapahtumat eivät välttämättä ole riippumattomia. 44

Edellä on tarkasteltu aina yhtä satunnaisilmiötä ja tähän ilmiöön liittyviä tapahtumia. Toisaalta voidaan monesti ajatella ilmiön muodostuvan yhdisteenä kahdesta tai useammasta ilmiöstä, jolloin voidaan puhua yhdistetystä ilmiöstä. Yhdistetyn ilmiön tarkasteleminen yhtenä itsenäisenä ilmiönä on mahdollista, mutta yhdistetyn ilmiön todennäköisyyksiä määrättäessä saattaa olla hyödyllistä ajatella ilmiö yhdisteenä useammasta eri ilmiöstä. Yhdistetyn ilmiön osailmiöt voivat olla toistensa suhteen joko riippumattomia tai riippuvia. Satunnaisilmiöt ovat riippumattomia, jos ilmiöiden tulokset tai niiden esiintyminen eivät riipu toisistaan. Esimerkiksi yksinkertainen satunnaisotanta palauttamalla tuottaa toisistaan riippumattomia havaintoja. Silloin, kun yhdistetyn ilmiön osailmiöiden ajatellaan ajallisesti seuraavan toisiaan, voi ajallisesti edeltävän ilmiön tai ajallisesti edeltävien ilmiöiden tuloksista riippua, mitä tai millä todennäköisyydellä eri tuloksia voi myöhemmissä ilmiöissä esiintyä. Osailmiöiden sanotaan tällöin olevan toisistaan riippuvia. Esimerkiksi yksinkertainen satunnaisotanta palauttamatta tuottaa toisistaan riippuvia havaintoja. 45

5.3 Satunnaismuuttujat ja todenna ko isyysjakaumat Tarkastellaan jotain satunnaiskoetta (-ilmio ta ). Siihen liittyva satunnaismuuttuja (random variable) on mika tahansa numeerinen muuttuja, jonka arvon (suuruuden) satunnaiskokeen tulos ma a ra a. Satunnaismuuttujia merkita a n ta lla kurssilla (erotukseksi niiden arvoista ja ei-satunnaisista muuttujista) isoilla kirjaimilla, esim. X, Y, Z jne. Satunnaismuuttujan X arvoja ovat x1, x2,... ja niita merkita a n pienilla kirjaimilla ilman alleviivausta. 5.3.1 Diskreetit eli epa jatkuvat satunnaismuuttujat ja niiden todenna ko isyysjakaumat Satunnaismuuttujaa X sanotaan diskreetiksi eli epa jatkuvaksi (discrete), jos X:n mahdollisten arvojen joukko on a a rellinen tai numeroivasti a a reto n. Esim. kaikki lukuma a ria osoittavat satunnaismuuttujat ovat diskreetteja. Diskreetin satunnaismuuttujan X todenna ko isyysjakauma (probability distribution) muodostuu muuttujan mahdollisista arvoista x1, x2,... ja niihin liittyvista pistetodenna ko isyyksista p1, p2,..., jossa p1 = P(X = x1 ), p2 = P(X = x2 ), jne. Huom. Todenna ko isyyksien summan X pi tulee aina olla = 1. i Jos satunnaismuuttujalla X on a a rellinen ma a ra arvoja, todenna ko isyysjakauma voidaan esitta a seuraavassa muodossa: xi pi x1 p1 x2 p2 x3 p3...... xk pk P 1 X:n todenna ko isyysjakauma esiteta a n graafisesti janadiagrammin avulla. todennäköisyys p3 p4 p2 p1 pk x1 x2 x3 x4 x 46 xk

X:n kertyma funktioksi F (cumulative distribution function) sanotaan funktiota, joka liitta a jokaiseen reaalilukuun todenna ko isyyden, etta X saa x:n suuruisen tai sita pienemma n arvon ts. F (x) = P(X x) = X pi xi x ja se esiteta a n tarkemmin seuraavasti: 0, p1, p1 + p 2, F (x) =... 1, kun x < x1 kun x1 x < x2 kun x2 x < x3 kun x xk Huom. Kertyma funktio on ei-va heneva, oikealta jatkuva ja jokaisella x:n arvolla 0 F (x) 1. 1.0 F(x) 0.8 0.6 0.4 0.2 0 x1 x2 x3 x4 x7 x X:n tunnusluvut: Odotusarvo (mean) : µ = E(X) = k X xi p i i=1 2 2 Varianssi (variance): σ = D (X) = k X 2 (xi µ) pi = k X i=1 Keskihajonta (standard deviation) : σ = D(X) = x2i pi µ2 i=1 σ2 Muut tunnusluvut, esimerkiksi moodi, mediaani ja fraktiilit, lasketaan samaan tapaan kuin aikaisemmin. 47

Satunnaismuuttujien funktiot Olkoon g(x) satunnaismuuttujan X jokin funktio, esim. g(x) = X 2, g(x) = 3X 4, g(x) = ax + b, jossa a ja b ovat mielivaltaisia reaalilukuja. Tällöin g(x) on myös itse satunnaismuuttuja ja sen todennäköisyysjakauma määräytyy X:n todennäköisyysjakauman avulla. Jos g on kahden tai useamman satunnaismuuttujan funktio, esimerkiksi g(x, Y ) = X + Y, g(x 1, X 2,..., X n ) = X 1 + X 2 + + X n, g on myös nyt satunnaismuuttuja ja sen todennäköisyysjakauma määräytyy kyseisten satunnaismuuttujien yhteistodennäköisyysjakauman avulla. Satunnaismuuttujien funktioita koskevia tuloksia odotusarvon ja varianssin osalta 1) E(a) = a, a on reaalilukuvakio, 2) E(aX + b) = ae(x) + b, a ja b reaalilukuvakioita, 3) E(X + Y ) = E(X) + E(Y ), 4) E(X 1 + X 2 + + X n ) = E(X 1 ) + E(X 2 ) + + E(X n ), 5) Jos X ja Y ovat riippumattomia, E(X Y ) = E(X) E(Y ), 6) D 2 (a) = 0, 7) D 2 (ax + b) = a 2 D 2 (X), 8) Jos X ja Y ovat riippumattomia, D 2 (X + Y ) = D 2 (X) + D 2 (Y ), 9) Jos X 1, X 2,..., X n ovat riippumattomia, D 2 (X 1 + X 2 + + X n ) = D 2 (X 1 ) + D 2 (X 2 ) + + D 2 (X n ). Huom. Edellä mainitut tulokset ovat voimassa sekä diskreeteille että jatkuville satunnaismuuttujille. 48

5.3.2 Bernoulli-jakauma Tarkastellaan toistokoetta E ja sen tapahtumaa A. Suoritetaan koe E yhden kerran ja määritellään satunnaismuuttuja Y siten, että { 1, jos A esiintyy Y = 0, jos A ei esiinny ts. A c esiintyy Tarkasteltavassa kokeessa on siis vain kaksi tulosvaihtoehtoa: nolla tai yksi. Oletetaan lisäksi, että P(A) = P(Y = 1) = p, jolloin P(A c ) = P(Y = 0) = 1 p = q. Y :n jakaumaa sanotaan nyt Bernoulli-jakaumaksi parametrilla p, merk. Y Bern(p). Y :n todennäköisyysjakauma on siis muotoa: y i 0 1 p i 1 p p 1 Odotusarvo ja varianssi ovat E(Y ) = 1 p + 0 (1 p) = p ja D 2 (Y ) = (1 p) 2 p + (0 p) 2 (1 p) = p (1 p) Esim. 4.1 Heitetään noppaa kerran ja tarkastellaan tapahtumaa A = {silmäluku 5}. Määritellään { 1, jos A esiintyy ts. silmäluku 5 Y = 0, jos A ei esiinny ts. silmäluku jokin muu kuin 5 P(A) = P(Y = 1) = p = 1/6 ja Y Bern(1/6) E(Y ) = 1/6 = 0.167 ja D 2 (Y ) = 1/6(1 1/6) = 0.139 Muita diskreettejä jakaumia ovat mm. Binomijakauma ja Poisson-jakauma, jotka käsitellään Tilastotieteen jatkokurssilla (806119P). 49

5.3.3 Jatkuvat satunnaismuuttujat ja niiden todennäköisyysjakaumat Satunnaismuuttujaa X sanotaan jatkuvaksi (continuous), jos se voi saada mitä tahansa reaalilukuarvoja joltakin reaalilukuväliltä esim. pituus. Koska X:n mahdollisten arvojen joukko on näin ollen ääretön, ei X:n todennäköisyysjakaumaa voida esittää samalla tavalla kuin diskreetille satunnaismuuttujalle luettelemalla muuttujan mahdolliset arvot ja niihin liittyvät todennäköisyydet. Jatkuvan satunnaismuuttujan todennäköisyysjakauma ilmaistaan tiheysfunktion merk. f(x) (probability density function) tai kertymäfunktion F (x) (cumulative distribution function) avulla. Tiheysfunktion käsitettä voidaan intuitiivisesti havainnollistaa seuraavasti: Olkoon X jatkuva satunnaismuuttuja esim. jonkin tehtävän suorittamiseen kuluva aika. Ajatellaan piirretyksi X:n arvojen luokitukseen perustuva histogrammi (seuraavan sivun kuva a) siten, että kunkin välin kohdalle piirretty pylväs pinta-alaltaan kuvaa todennäköisyyttä sille, että X saa arvon kyseiseltä väliltä. Jotta kaikkien pylväiden pinta-alojen summa olisi = 1, kunkin pylvään korkeuden tulee olla = ko. luokan suhteellinen frekvenssi ko. luokan luokkavälin pituus = ko. luokan suhteellinen frekvenssitiheys (relative frequency density) Kuva b on muodostettu samoin kuin kuva a, mutta X:n luokitus on tiheämpi. Jos kuvassa a luokkavälin pituus on 10 sekuntia, kuvassa b se on 5 sekuntia. Kun luokitus suoritetaan aina vain tiheämpänä, histogrammin pylväiden huiput asettuvat yhä tarkempaan tietyn jatkuvan käyrän muotoon. Tämä jatkuva käyrä on X:n tiheysfunktion kuvaaja (kuva c) ja siten käyrää kuvaava funktio = X:n tiheysfunktio. 50

Tiheysfunktiolla f(x) on seuraavat ominaisuudet: 1) f(x) 0 kaikilla x:n arvoilla, 2) Todennäköisyys, että X saa esim. välille [a, b] kuuluvan arvon lasketaan pinta-alana, joka jää tiheysfunktion f(x) ja x-akselin väliin rajoina a ja b ts. P(a X b) = b a f(x)dx. 3) f(x):n ja x-akselin väliin jäävän alueen pinta-ala = 1 ts. P( X + ) = + f(x)dx = 1. 51

Huom. Jatkuvan satunnaismuuttujan X minkä tahansa yksittäisen arvon x todennäköisyys on = 0 ts. P(X = x) = 0 (Miksi?). Tästä syystä esim. P(X a) = P(X < a) ja P(a X b) = P(a < X b) = P(a X < b) = P(a < x < b). Jatkuvan satunnaismuuttujan X kertymäfunktio F määritellään samaan tapaan kuin diskreetille satunnaismuuttujalle, mutta lasketaan tiheysfunktiosta integroimalla. F (x) = P(X x) = x f(t)dt. Näin ollen kertymäfunktion F arvo pisteessä x on tiheysfunktion kuvaajan ja x-akselin kohdan x vasemmalle puolelle rajaaman alueen ala. 52

Huom. P(X a) = 1 P(X a) = 1 F (a) P(a X b) = P(X b) P(X a) = F (b) F (a). Kertymäfunktion F (x) kuvaaja on yhtenäinen ykkösen korkeudelle nouseva käyrä. Huom. Jos tunnetaan jatkuvan satunnaismuuttujan X kertymäfunktio F, X:n tiheysfunktio f(x) saadaan derivoimalla, f(x) = F (x). 53

Tiheysfunktion f(x) ja kertymäfunktion F (x) yhteyttä havainnollistaa seuraava kuvio: X:n tunnusluvut: odotusarvo (mean): µ = E(X) = varianssi (variance): σ 2 = D 2 (X) = (x µ) 2 f(x)dx = xf(x)dx keskihajonta (standard deviation): σ = D(X) = σ 2 x 2 f(x)dx µ 2 Huom. σ 2 = E(X µ) 2 = E(X 2 ) µ 2. 54

5.3.4 Eräitä jatkuvia jakaumia 1. Normaalijakauma (normal distribution) tärkein ja käytetyin jakauma, esitti ensimmäisenä De Moivre (1667-1754), myöhemmin Marquis de Laplace (1749-1827) ja Carl Friedrich Gauss (1777-1855), normaalijakaumaa kutsutaan joskus myös Gaussin jakaumaksi. Satunnaismuuttuja X noudattaa normaalijakaumaa parametrein µ ja σ 2, merk. X N(µ, σ 2 ), jos X:n tiheysfunktio on muotoa f(x) = 1 σ (x µ) 2 2π e 2σ 2, jossa < x <, π = 3.141..., e = 2.718..., µ = E(X) = X:n odotusarvo, σ 2 = D 2 (X) = X:n varianssi. Normaalijakauma: µ = 4, σ = 1 f(x) 0.0 0.2 0.4 0 2 4 6 8 10 12 14 x Normaalijakauma: µ = 8, σ = 1 f(x) 0.0 0.2 0.4 0 2 4 6 8 10 12 14 x Normaalijakauma: µ = 8, σ = 2 f(x) 0.0 0.2 0.4 0 2 4 6 8 10 12 14 x Kuva 5.2 Normaalijakauman tiheysfunktion kuvaajia eri odotusarvoilla ja variansseilla. 55

Normaalijakaumaa, jonka odotusarvo on 0 ja varianssi on 1, sanotaan normitetuksi (normeeratuksi) eli standardinormaalijakaumaksi (standardoiduksi normaalijakaumaksi) (standard normal distribution). N(0, 1)-jakaumaa noudattavaa satunnaismuuttujaa merkitään yleensä Z-kirjaimella. Jos Z N(0, 1), sen tiheysfunktiota merkitään ϕ(z)(= φ(z)) ja kertymäfunktiota Φ(z), jossa ϕ(z) = 1 e z2 2 2π ja Φ(z) = z 1 2π e t2 2 dt. φ(z) 0.0 0.3 0.6 4 2 0 2 4 z Φ(z) 0.0 1.0 4 2 0 2 4 z Normeeraus: Jos X N(µ, σ 2 ), niin standardoidun muuttujan Z jakaumalle pätee Z = X µ σ N(0, 1). 56

N(0, 1)-jakaumaan liittyviä todennäköisyyksiä P(Z z) = Φ(z) tai P(Z z) = 1 Φ(z) on taulukoitu eri z:n arvoilla ja näiden taulukoiden avulla voidaan käsitellä mitä tahansa normaalijakaumia. Tällä kurssilla käytetään taulukkoa, joka antaa todennäköisyyksiä P(Z z) (taulukko 1, LIITE 2). Huom. N(0, 1)-jakauma on symmetrinen nollan suhteen ja tästä syystä P(Z z) = P(Z z) ja P(Z z) = 1 P(Z z). Esim. 5.2 Olkoon Z N(0, 1). Määrää seuraavat todennäköisyydet: a) P(Z 1.47) b) P(Z 1.25) c) P(Z 1.52) d) P( 1.5 Z 2) Havainnollista laskelmiasi graafisesti. Esim. 5.3 Olkoon X N(127, 22 2 ). Määrää P(X < 150). Koska X ei noudata N(0, 1)-jakaumaa, on tehtävä muunnos Z = X 127 22, 57

jonka jälkeen voidaan käyttää taulukkoa 1, LIITE 2. P(X < 150) = ( ) X 127 150 127 P < = P(Z < 1.05) 22 22 = 1 P(Z > 1.05) = 1 0.1469 = 0.8531 127 150 x yhtäsuuret pinta alat =0.8531 0 1.05 z Esim. 5.4 Älykkyysosamäärän (IQ) tiedetään noudattavan koko väestössä likimain normaalijakaumaa N(100, 24 2 ). a) Mikä on todennäköisyys, että satunnaisesti valitun henkilön älykkyysosamäärä on vähintään 148 (= Mensan jäseneksi pääsyn raja)? b) Mikä on todennäköisyys, että satunnaisesti valitun henkilön älykkyysosamäärä on välillä 90-110? c) Määrää jakauman alakvartiili eli se älykkyyspistemäärä, jota pienemmän arvon saa 25 % väestöstä. 58

Normaalijakaumaa koskevia tuloksia: 1) Jos X N(µ, σ 2 ), niin Y = ax +b N(aµ+b, a 2 σ 2 ), a ja b mielivaltaisia vakioita 2) Jos X 1, X 2,..., X n ovat riippumattomia ja X i N(µ i, σ 2 i ), i = 1, 2,..., n, niin summamuuttuja S = X 1 + X 2 + + X n noudattaa normaalijakaumaa parametrein µ 1 + µ 2 + + µ n ja σ 2 1 + σ 2 2 + + σ 2 n. 3) Keskeinen raja-arvolause (central limit theorem) Olkoot X 1, X 2,..., X n riippumattomia satunnaismuuttujia, joilla jokaisella on oma jakaumansa (yleensä tuntematon) ja olkoon muuttujien odotusarvot µ 1, µ 2,..., µ n ja varianssit σ 2 1, σ 2 2,..., σ 2 n. Silloin hyvin yleisten ehtojen vallitessa summamuuttuja S = X 1 + X 2 + + X n noudattaa likimain normaalijakaumaa parametrein µ 1 + µ 2 + + µ n ja σ 2 1 + σ 2 2 + + σ 2 n, kun n on riittävän suuri (yleensä > 30). 2. t-jakauma Olkoot satunnaismuuttujat Y, Z 1, Z 2,..., Z n riippumattomia ja N(0, 1)-jakautuneita. Tällöin satunnaismuuttujan T = 1 n Y n i=1 Z i 2 jakaumaa sanotaan (Studentin) t-jakaumaksi vapausasteella n (degrees of freedom), merk. T t(n). t-jakauman tiheysfunktion lauseke on hankala (ei esitetä). 59

f(x) 0.0 0.1 0.2 0.3 0.4 0.5 N(0,1) vapausaste=15 vapausaste=3 vapausaste=1 4 2 0 2 4 x Kuva 5.3 t-jakauman tiheysfunktion kuvaajia eri vapausasteilla. Huom. t-jakauma lähestyy N(0, 1)-jakaumaa, kun n. T -jakaumaan liittyviä todennäköisyyksiä P(T t) on taulukoitu (Taulukko 2, LIITE 3). T-jakaumalla on käyttöä erityisesti tilastollisen päättelyn yhteydessä. Muita tärkeitä jatkuvia jakaumia ovat mm. tasainen jakauma, eksponenttijakauma, χ 2 -jakauma ja F -jakauma. 60

6 TILASTOLLINEN PÄÄTTELY Tilastollista päättelyä (statistical inference) käytetään tilanteissa, joissa otoksen perusteella tehdään päätelmiä populaatiosta. Täsmällisemmin sanottuna tilastollista päättelyä suoritettaessa halutaan tehdä päätelmiä tutkittavan muuttujan/tutkittavien muuttujien populaatiojakaumasta/-jakaumista otoksen/otosten perusteella. Tilastollinen päättely on luonteeltaan induktiivista; yksittäisestä laajempaan yleistävää ja siihen liittyy aina epävarmuutta. Tilastollisessa päättelyssä tätä epävarmuutta pyritään hallitsemaan todennäköisyyslaskennan avulla. Ennen varsinaisia päättelyn menetelmiä piste-estimointia (point estimation), väliestimointia (interval estimation) ja merkitsevyystestausta (significance testing) esitellään tilastollisessa päättelyssä tärkeät käsitteet satunnaisotos (simple ramdom sample), otossuure eli otostunnusluku (statistic), otantajakauma (sampling distribution) ja tilastollinen malli (statistical model). 6.1 Satunnaisotos, tilastollinen malli, otossuure ja otantajakauma n satunnaismuuttujan X 1, X 2,..., X n jonoa sanotaan satunnaisotokseksi satunnaismuuttujasta X (satunnaismuuttujan X todennäköisyysjakaumasta), jos X 1, X 2,..., X n ovat riippumattomia ja jokainen X i, i = 1, 2,..., n, noudattaa samaa jakaumaa kuin X. Satunnaisotoksen voi ajatella syntyvän toistokokeen avulla seuraavasti: Olkoon X tiettyyn toistokokeeseen liittyvä satunnaismuuttuja. Toistetaan koetta n kertaa siten, että toistot ovat toisistaan riippumattomia. Tällöin toistoja vastaavat satunnaismuuttujat X 1, X 2,..., X n muodostavat satunnaisotoksen. Tilannetta voidaan vielä havainnollistaa seuraavalla kuviolla: populaatio x X X 1, X 2,..., X n 61

Olennaista satunnaisotokselle on siis, että 1) X 1, X 2,..., X n ovat riippumattomia ja 2) jokainen X i, i = 1, 2,..., n, noudattaa samaa jakaumaa kuin X. Huom. X:n todennäköisyysjakauma on itse asiassa sama kuin muuttujan x suhteellinen frekvenssijakauma populaatiossa. Jotta satunnaisotoksen ehdot täyttyisivät, otos olisi poimittava äärellisestä populaatiosta yksinkertaisella satunnaisotannalla (YSO) palauttaen. Äärettömän populaation tapauksessa ei ole väliä, suoritetaanko otanta palauttaen vai palauttamatta. Esim. 6.1 Valitaan suomalaisten miesten joukosta kymmenen miehen otos YSO:lla palauttaen ja tarkkaillaan muuttujaa pituus (= x). Tällöin tulee määritellyksi kymmenen satunnaismuuttujaa: X 1 on satunnaismuuttuja, joka saa arvokseen ensimmäisenä otokseen valittavan miehen pituuden x 1, X 2 on satunnaismuuttuja, joka saa arvokseen toisena otokseen valittavan miehen pituuden x 2,. X 10 on satunnaismuuttuja, joka saa arvokseen 10:ntenä otokseen valittavan miehen pituuden x 10. Koska otos valitaan YSO:lla palauttaen kyseessä on 10-kertainen toistokoe, jossa toistot ovat toisistaan riippumattomia. Tällöin X 1, X 2,..., X 10 ovat riippumattomia ja noudattavat samaa jakaumaa kuin x-muuttuja populaatiossa. Jos oletetaan, että X N(177, 12 2 ), niin myös jokainen X i N(177, 12 2 ), i = 1, 2,..., 10. (X 1, X 2,..., X 10 ) on siis satunnaisotos jakaumasta N(177, 12 2 ). Kun satunnaismuuttujat X 1, X 2,..., X n saavat otannassa tietyt arvot x 1, x 2,..., x n, sanotaan saatua havaintoaineistoa satunnaisotoksen realisaatioksi tai havaituksi otokseksi. Tilastollisen päättelyn menetelmät edellyttävät, että populaatiosta (konkreettisesta tai hypoteettisesta) valittua havaintoaineistoa on voitava pitää satunnaisotoksen realisaationa, vaikka otantaa ei olisikaan suoritettu YSO:lla. Käytännössä tämä tarkoittaa sellaista havaintoaineistoa, joka on valittu riittävät satunnaisuuskriteerit täyttävällä tavalla. 62

Satunnaisotoksen (X 1, X 2,..., X n ) avulla muodostettuja suureita sanotaan otossuureiksi eli otostunnusluvuiksi (sample statistic tai statistic). Esimerkkejä otossuureista: X = 1 n X i, n S 2 = i=1 1 n 1 n (X i X) 2, i=1 Z = X µ 0 σ/ n, jne. Koska otossuure on satunnaismuuttujien funktio, on se itse myös satunnaismuuttuja, jolla on oma todennäköisyysjakaumansa. Otossuureen todennäköisyysjakaumasta käytetään nimitystä otantajakauma (sampling distribution). Eräitä otantajakaumia: 1) Jos (X 1, X 2,..., X n ) on satunnaisotos normaalijakaumasta N(µ, σ 2 ), on otoskeskiarvon X = 1 n X i otantajakauma normaalijakauma N(µ, σ2 n n ) ts. i=1 X N(µ, σ2 ). Otoskeskiarvon otantajakauman keskihajontaa σ n X = σ n sanotaan keskiarvon keskivirheeksi (standard error, SE( X)). Seuraava kuva havainnollistaa otoskoon vaikutusta otoskeskiarvon jakaumaan. X:n jakauma, kun n=9 X:n jakauma, kun n=4 X:n jakauma, kun n=2 N(µ, σ 2 ) x Kuva 6.1 Populaation jakauma N(µ, σ 2 ) ja otoskeskiarvon X otantajakauma kolmella eri otoskoolla. 63

2) Jos (X 1, X 2,..., X n ) on satunnaisotos jakaumasta, jonka odotusarvo on µ ja varianssi σ 2, on otoskeskiarvon X = 1 n X i otantajakauma likimain n normaalijakauma N(µ, σ2 ) ts. X n N(µ, σ 2 ) likimain, jos n on riittävän n suuri. i=1 Tulos perustuu keskeiseen raja-arvolauseeseen. Yleisesti voidaan todeta, että otoskeskiarvon otantajakauma on likimain normaalijakauma jo melko pienillä otoskoilla (otoskoko 30). Otoskoon vaikutusta X:n jakaumaan havainnollistaa seuraava kuva. Kuva 6.2 Otoskeskiarvon X otantajakaumia kolmen erilaisen populaation tapauksessa ja kolmella eri otoskoolla. 64

3) Jos (X 1, X 2,..., X n ) on satunnaisotos Bernoulli-jakaumasta Bern(π), missä { 1, jos ominaisuus A esiintyy X i = 0, jos ominaisuus A ei esiinny π = P(X i = 1) = ominaisuuden A omaavien suhteellinen frekvenssi populaatiossa, on suhteellisen osuuden n P = i=1 n X i = T n = ominaisuuden A omaavien lkm otoksessa n otantajakauma likimain normaalijakauma N(π, 1 π(1 π)), jos n on riittävän n suuri. Tämäkin tulos perustuu keskeiseen raja-arvolauseeseen. Tilastollisen mallin valinta tarkoittaa yksinkertaistavien teoreettisten oletusten tekemistä jakaumasta, josta satunnaisotos on peräisin. Ne mahdolliset jakaumat, jotka oletuksien tekemisen jälkeen jäävät jäljelle, muodostavat tilastollisen mallin (statistical model). Tilastollisen mallin muodostava jakaumien joukko (jakaumaperhe) on muodoltaan enemmän tai vähemmän rajoitettu sen mukaan, mitä sovellustilanteesta entuudestaan tiedetään tai ollaan valmiita olettamaan. Malli esitetään usein muodoltaan tunnetun todennäköisyysjakauman avulla, mutta tämän jakauman parametrit ovat tuntemattomia. Mallin valintaan vaikuttavia tekijöitä ovat mm. aikaisemmat tulokset, teoriat ja selitysmallit, havaintojen hankintatapa, muuttujien mittaasteikko jne. Esimerkkejä tilastollisista malleista: Normaalijakaumamalli: (X 1, X 2,..., X n ) on satunnaisotos jakaumasta N(µ, σ 2 ), missä µ ja σ 2 ovat tuntemattomia parametreja. Satunnaisotoksen perusteella voidaan tehdä jakauman sijaintia µ ja hajontaa σ koskevia päätelmiä. Muuttujan täytyy olla vähintään välimatka-asteikkoa. Bernoulli-jakaumamalli: (X 1, X 2,..., X n ) on satunnaisotos jakaumasta Bern(π), missä π on tuntematon parametri. Päätelmät koskevat π:tä. Muuttuja on 2-luokkainen. Parametriton malli: Ei tehdä lainkaan tai tehdään vain lieviä oletuksia jakaumasta, josta satunnaisotos (X 1, X 2,..., X n ) on peräisin. Päätelmät koskevat esimerkiksi jakauman mediaania. 65

Tilastollisen päättelyn avulla voidaan tutkia seuraavia ongelmia: 1) Onko valittu malli yhteensopiva havaintoaineiston kanssa? Täytyykö mallia suurentaa eli luopua joistakin rajoittavista oletuksista? (yhteensopivuustestit) 2) Jos malli on oikea, mitä voidaan sanoa tuntemattomien parametrien arvoista? Mitkä ovat ne parametrien arvot, joita aineisto tukee? (estimointi) 3) Näyttääkö siltä, että mallia voidaan pienentää eli oletuksia lisätä? Onko aineisto sopusoinnussa jonkin nollahypoteesin kanssa? (merkitsevyystestit) 6.2 Estimointi 6.2.1 Piste-estimointi Piste-estimoinnissa määrätään otoksen perusteella yksi luku, jonka voi perustellusti uskoa olevan lähellä perusjoukon parametrin tuntematonta arvoa. Olkoon (X 1, X 2,..., X n ) satunnaisotos jakaumasta, jonka tuntematon parametri on θ. Satunnaisotoksen avulla muodostettua otostunnuslukua T n = t(x 1, X 2,..., X n ) sanotaan θ:n piste-estimaattoriksi (estimator), merk. Θ = T n, jos θ:aa estimoidaan sen perusteella. Havaitusta otoksesta laskettua T n :n arvoa t n sanotaan θ:n piste-estimaatiksi (estimate), merk. ˆθ = t n. Samalle tuntemattomalle parametrille voidaan esittää useita estimaattoreita. Seuraavassa on lueteltu hyvän estimaattorin ominaisuuksia: 1) Harhattomuus (unbiasedness) Estimaattori on harhaton (unbiased), jos sen odotusarvo = estimoitava parametri. Toisin sanoen T n on θ:n harhaton estimaattori, jos E(T n ) = θ. 2) Tehokkuus (efficiency) Estimaattori on tehokas (efficient), jos sillä on suhteellisen pieni varianssi. Tehokkuus on suhteellinen ominaisuus. Sanotaan, että joku estimaattori on tehokas suhteessa johonkin toiseen estimaattoriin. 3) Tarkentuvuus (consistency) Estimaattori on tarkentuva (consistent), jos sen todennäköisyys olla lähellä estimoitavaa parametria kasvaa, kun otoskoko kasvaa. 66

4) Tyhjentävyys (sufficiency) Estimaattori on tyhjentävä (sufficient), jos se käyttää hyväkseen kaiken otoksen antaman informaation. Voidaan osoittaa, että otoskeskiarvo X on populaation odotusarvon µ harhaton, tehokkain, tarkentuva ja tyhjentävä estimaattori, ainakin kun X on normaalijakautunut. 6.2.2 Väliestimointi Väliestimoinnissa määrätään otoksen perusteella reaalilukuväli, ns. luottamusväli, jonka alle populaation tuntematon parametri suurella todennäköisyydellä peittyy. Olkoon (X 1, X 2,..., X n ) satunnaisotos jakaumasta, jonka tuntematon parametri on θ. Satunnaisotoksen avulla muodostettua satunnaisväliä (A, B) sanotaan θ:n 100(1 α)%:n luottamusväliksi (confidence interval), jos (A, B) peittää parametrin θ todennäköisyydellä 1 α ts. P(A θ B) = 1 α. 1 α on ns. luottamustaso (confidence level). α:ksi valitaan yleensä 0.05 (5%) tai 0.01 (1%), jolloin vastaavasti lasketaan 95%:n tai 99%:n luottamusväli. Huom. Sanonta θ kuuluu väliin (A, B) esim. 95%:n todennäköisyydellä, on sallittu vain silloin, kun tarkastellaan satunnaisväliä (A, B) ts. silloin kun tarkastellaan luottamusvälin kaavaa. Havaitun otoksen perusteella laskettuun luottamusväliin (a, b) ei todennäköisyystulkintaa enää voi liittää, koska kyseessä ei enää ole satunnaisväli. Esim. jos parametrin θ 95%:n luottamusväliksi on havaitusta otoksesta saatu väli (50, 65), θ (kiinteä, tuntematon luku) joko on tai ei ole lasketulla välillä, toteutuneeseen väliin sinänsä ei enää liity mitään satunnaisuutta. Frekvenssitodennäköisyyteen perustuva luottamusvälin tulkinta: Jos populaatiosta poimittaisiin toistuvasti yhtä suuria satunnaisotoksia ja kustakin otoksesta laskettaisiin parametrin θ 100(1 α)%:n luottamusväli, niin otosten lukumäärän kasvaessa niiden luottamusvälien prosentuaalinen osuus, jotka todella peittävät θ:n arvon, lähestyy lukua 100(1 α). Tätä tulkintaa havainnollistaa seuraava kuvio. Käytännössä luottamusvälejä lasketaan vain yksi ja tällainen yksittäinen luottamusväli voidaan Coxin ja Snellin (1981) mukaan tulkita siten, että se sisältää sellaiset parametrin θ ajateltavissa olevat arvot θ, joiden kanssa otoksesta saadut tulokset ovat kohtalaisesti yhteensopivia eivätkä ainakaan pahasti ristiriidassa. Yksittäinen luottamusväli voidaan myös lyhyesti tulkita siten, että θ kuuluu lasketulle välille 100(1 α)%:n varmuudella. 67

95 %:n lv.: 99 %:n lv.: otos 10: x=10.69 otos 1: x=9.75 θ^ θ^ otos 2: x=10.08 θ^ θ^ otos 3: x=10.43 θ^ θ^ otos 4: x=10.5 θ^ θ^ otos 5: x=10.09 θ^ θ^ otos 6: x=10.8 θ^ θ^ otos 7: x=10.8 θ^ θ^ otos 8: x=9.85 θ^ θ^ otos 9: x=10.93 θ^ θ^ θ^ θ^ θ:n luottamusväli θ^: θ:n piste estimaatti θ θ θ: arvioinnin kohteena oleva parametri Eräitä yleisesti käytettyjä luottamusvälejä: 1. Oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos normaalijakaumasta N(µ, σ 2 ), missä µ on tuntematon, mutta σ 2 on tunnettu. µ:n 100(1 α)%:n luottamusväli on ( ) σ X z α/2 n, X σ + z α/2 n jossa z α/2 on sellainen vakio, että Z N(0, 1) P(Z z α/2 ) = α/2. Huom. 1 Kun α = 0.05, P(Z z 0.05/2 ) = 0.025. Taulukko 1 z 0.05/2 = 1.96 Kun α = 0.01, P(Z z 0.01/2 ) = 0.005. Taulukko 1 z 0.01/2 = 2.58 Huom. 2 µ:n 100(1 α)%:n luottamusvälin pituus, merk. d on σ d = 2z α/2 n, z α/2 σ n on ns. virhemarginaali. 68

2. Oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos normaalijakaumasta N(µ, σ 2 ), missä µ ja σ 2 ovat tuntemattomia ja σ 2 estimoidaan otoskeskihajonnalla S x µ:n 100(1 α)%:n luottamusväli on ( ) S x X t α/2, X S x + t α/2 n n jossa t α/2 on sellainen vakio, että T t(n 1) P(T t α/2 ) = α/2. t α/2 saadaan taulukon 2 avulla, vapausasteluku f = n 1. t α/2 z α/2, kun n on suuri (> 30). Huom. σ on populaation keskihajonta, S x on otoksesta laskettu keskihajonta. 3. Oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos Bernoulli-jakaumasta Bern(π), jossa π on tuntematon. { 1, jos yksilöllä i on ominaisuus A X i = 0, jos yksilöllä i ei ole ominaisuutta A π = P(X i = 1) = ominaisuuden A omaavien suhteellinen frekvenssi populaatiossa. π:n likimääräinen 100(1 α)%:n luottamusväli, kun n on suuri, on (P z α/2 P (1 P )/n, P + zα/2 P (1 P )/n ), jossa z α/2 on sellainen vakio, että Z N(0, 1) P(Z z α/2 ) = α/2. P = T n = ominaisuuden A omaavien suhteellinen frekvenssi otoksessa. Huom. 1 π:n likimääräisen 100(1 α)%:n luottamusvälin pituus, kun n on suuri, on d = 2z α/2 P (1 P )/n, z α/2 P (1 P )/n on ns. virhemarginaali. Huom. 2 Jos on määrättävä otoskoko n siten, että π:n esim. 95%:n luottamusvälin pituus on tietyn suuruinen (tai korkeintaan tietyn suuruinen), annetaan P :n (tuntematon) arvoksi 0.5 tai lähinnä 0.5:ttä oleva etukäteisarvio. 69

6.3 Merkitsevyystestaus Tilastollinen hypoteesi on väite populaation jakaumasta. Useimmiten väite koskee jotakin jakauman tuntematonta parametria. Merkitsevyystestauksessa määritellään aina kaksi hypoteesia: nollahypoteesi, jota merkitään H 0 :lla ja vastahypoteesi (vaihtoehtoinen hypoteesi), jota merkitään H 1 :llä. H 0 ja H 1 on muodostettava siten, että jompi kumpi on välttämättä voimassa. Nollahypoteesi on usein yksinkertainen, tarkasti määrätty, ns. testattava hypoteesi. Vastahypoteesi on epämääräisempi, suuntaa antava, esim. H 0 : µ = 100, H 1 : µ > 100. Merkitsevyystestin tavoitteena on populaatiojakaumasta saatujen havaintojen avulla selvittää, onko havaintoaineisto sopusoinnussa H 0 :n kanssa vai tarjoaako se näyttöä sitä vastaan eli H 1 :n puolesta. Merkitsevyystestin vaiheet: 1) Valitaan sopiva tilastollinen malli. 2) Asetetaan hypoteesit H 0 ja H 1. 3) Valitaan tilanteeseen sopiva testisuure (testimuuttuja) T (jokin otostunnusluku). Testisuureen otantajakauma, kun H 0 on tosi (voimassa), oletetaan tunnetuksi. Esim. testisuure voi olla muotoa T = Z = X µ 0 σ/ n N(0, 1), kun H 0 on tosi. 4) Lasketaan havaitusta otoksesta testisuureen arvo t. 5) Määrätään ns. P -arvo (= P -value, observed significance level, tail probability, havaittu merkitsevyystaso). P -arvo = todennäköisyys, että testisuure saa havaitun arvon t tai siitä vielä poikkeavampia arvoja, kun H 0 on tosi. H 1 H 1 H 1 /H 0 H 0 H 0 H 0 H 0 0 0.05 0.10 1 P arvo 70

P -arvo määrätään aina testisuureen H 0 :n mukaisesta jakaumasta. Huom. P -arvo ei tarkoita todennäköisyyttä sille, että H 0 on tosi. 6) Johtopäätösten tekeminen Merkitsevyystestaus voidaan tehdä monissa testaustilanteessa joko kaksi- tai yksisuuntaisena. Yleensä valitaan kaksisuuntainen testaus. Esim. a) Hypoteesit: { H 0 : µ = 100 = µ 0 H 1 : µ > 100 (1-suuntainen) testisuureen jakauma, kun H 0 on tosi P -arvo = P(T t H 0 ) P arvo t b) Hypoteesit: { H 0 : µ = 100 = µ 0 H 1 : µ < 100 (1-suuntainen) P -arvo = P(T t H 0 ) P arvo t 71

{ H 0 : µ = 100 = µ 0 c) Hypoteesit: H 1 : µ 100 (2-suuntainen) P arvo t t P -arvo = P(T t tai T t H 0 ) Eräs ohje (Cox ja Snell, 1981) tulkita P -arvoja sellaisenaan pelkän arvon perusteella on seuraavanlainen: Jos P -arvo > 0.1 (10%) (ns. suuri P -arvo), niin havaintoaineisto on (kohtuullisesti) sopusoinnussa H 0 :n kanssa. Jos P -arvo on lähellä lukua 0.05 (5%), niin havaintoaineisto on jossain määrin H 0 :aa vastaan ja tukee H 1 :tä. Jos P -arvo < 0.01 (1%) (ns. pieni P -arvo), niin havaintoaineisto on selvästi H 0 :aa vastaan ja tukee H 1 :tä. P -arvon suuruuden lisäksi P -arvon tulkintaan ja testistä tehtäviin johtopäätöksiin vaikuttavat mm. seuraavat seikat: 1) Otoskoko. 2) Havaintojen hankintatapa (otantamenetelmä, koejärjestely ym.). 3) Miten suurta poikkeamaa H 0 :n mukaisesta parametrin arvosta pidetään sisällöllisesti tärkeänä tai tieteellisesti merkittävänä. 4) Onko tehtävä konkreettinen päätös H 0 :n ja H 1 :n osoittamien toimintavaihtoehtojen välillä ja mitkä ovat päätösvaihtoehtojen seuraukset eri hypoteesien vallitessa ja erityisesti, miten haitallista on toimia jonkin hypoteesin mukaan, jos tämä hypoteesi sattuukin olemaan väärä. 72

Erityisesti otoskokoon on P-arvon tulkinnassa syytä kiinnittää huomiota. Jos otoskoko on suuri, saadaan testissä herkästi (suurella todennäköisyydellä) pieni P -arvo, vaikka testattavan parametrin oikea arvo poikkeaa vain hyvin vähän H 0 :n mukaisesta parametrin arvosta eikä tällä erolla useinkaan ole käytännössä merkitystä. Eräiden tutkijoiden mielestä suuresta otoksesta saatu pieni P -arvo on epäinformatiivinen ja suorastaan harhaanjohtava. Toisaalta, jos otoskoko on hyvin pieni, testissä ei ole mahdollista saada tai ei ainakaan herkästi saada riittävän pientä ts. H 1 :tä tukevaa P -arvoa, vaikka todellisuudessa testattavan parametrin arvo poikkeaa H 0 :n mukaisesta arvosta huomattavasti ja tällä erolla olisi jo käytännössäkin merkitystä. Pienellä otoskoolla suuri P -arvo onkin syytä tulkita siten, että havaintoaineisto on riittämätön johtopäätösten tekemiseen kummankaan hypoteesin puolesta, ellei muuta perusteltua lisäinformaatiota tutkittavasta ilmiöstä ole käytettävissä. Vain jos otoskoko on kohtalaisen suuri, suuri P -arvo voidaan tulkita siten, että havaintoaineisto tukee selvästi H 0 :aa. Monissa tilastotieteen oppikirjoissa testistä tehtävät johtopäätökset esitetään siinä hengessä, että testin perusteella tehdään päätös, kumpi hypoteeseista H 0 vai H 1 hyväksytään ja jatkossa toimitaan tehdyn päätöksen mukaisesti. Tämä ns. tilastollinen hypoteesin testaus on käyttökelpoinen tilastollisen testiteorian matemaattisessa esityksessä, mutta jyrkät hyväksymis- /hylkäämispäätökset eivät kuitenkaan yleensä ole sopivia tieteenteossa. Päätöstä tehtäessä voidaan tehdä kahdenlaisia virheitä: päätös H 0 jää voimaan H 1 hyväksytään todellinen H 0 tosi % 1. lajin virhe tilanne H 1 tosi 2. lajin virhe % Todennäköisyyttä P(H 0 hylätään H 0 on tosi) = P(1. lajin virhe) sanotaan riskitasoksi eli merkitsevyystasoksi α ja se valitaan etukäteen. P(H 0 jää voimaan H 1 on tosi) = β = P(2. lajin virhe). α ja β riippuvat toisistaan siten, että toisen pienetessä toinen kasvaa. Ns. varovaisuusperiaatteen mukaan päähuomio kiinnitetään 1. lajin virheen todennäköisyyteen eli α:aan ja α:ksi valitaan pieni luku esim. 0.05, 0.01 tai 0.001. Testin voimakkuus = 1 β = P(H 0 hylätään H 1 on tosi). Monissa testaustilanteissa on mahdollista testata samaa nollahypoteesia erilaisten testisuureiden avulla. Voimakkuusfunktiota käytetään hyväksi testisuureiden paremmuusvertailussa. 73

Huom. 1 Merkitsevyystestistä on mahdollista muodostaa riskitason α tilastollinen testi seuraavasti: Jos P -arvo < α, H 0 hylätään riskitasolla α. Jos P -arvo > α, H 0 jää voimaan riskitasolla α. Huom. 2 Hyvin yleinen käytäntö P -arvojen tulkinnassa ja testituloksia raportoitaessa on ollut seuraava: Jos P -arvo > 0.05, tulos ei ole tilastollisesti merkitsevä (merk. N.S.) Jos 0.01 < P -arvo < 0.05, tulos on tilastollisesti merkitsevä (merk., significant) Jos 0.001 < P -arvo < 0.01, tulos on tilastollisesti hyvin merkitsevä ( merk., highly significant) Jos P -arvo < 0.001, tulos on tilastollisesti erittäin merkitsevä (merk., very highly significant) Tämä esitystapa ei laajasta käytöstä huolimatta ole suositeltava mm. siihen liittyvien käsitteellisten sekaannusten vuoksi. Ensinnäkään ei ole mielekästä tehdä suurta laadullista eroa esim. P -arvojen 0.052 ja 0.048 välillä, jos otoskoot ovat samat. Kumpikin P -arvo voidaan tulkita siten, että havaintoaineisto on jossain määrin H 0 :aa vastaan. Toiseksi hyvin tavallinen on se käsitteellinen sekaannus, että tilastollisesti merkitsevän tuloksen ymmärretään tarkoittavan samaa kuin käytännön kannalta merkitsevä tai tieteellisesti merkittävä tulos. Testattaessa jonkin parametriestimaatin poikkeamaa nollahypoteesin mukaisesta parametrin arvosta poikkeaman tilastollinen merkitsevyys ja poikkeaman käytännön merkitsevyys ovat kaksi eri asiaa. Siitä, että poikkeama on tilastollisesti merkitsevä, ei välttämättä seuraa, että poikkeama olisi käytännön kannalta merkittävä tai päinvastoin. (ks. P -arvon tulkinnasta aikaisemmin). Poikkeaman suuruuden ja käytännön merkitsevyyden arvioinnissa on syytä käyttää piste- ja väliestimointia. 74

6.4 Testaus eräissä perusasetelmissa 6.4.1 Yhden jakauman sijainnin tarkastelu Tarkastellaan yhden muuttujan x jakauman sijaintia yhdessä populaatiossa. Päätelmät tehdään satunnaisotoksen (X 1, X 2,..., X n ) avulla. Oletetaan normaalijakaumamalli ts. oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos jakaumasta N(µ, σ 2 ). µ on tuntematon, σ 2 voi olla a) tunnettu tai b) tuntematon. Päätelmät koskevat parametria µ (= populaation keskiarvo, odotusarvo). Lähtötilanteen voi kuvata seuraavalla kaaviolla: populaatio x X (X 1, X 2,..., X n ) Olet. X N(µ, σ 2 ) a) Oletetaan, että σ 2 on tunnettu Hypoteesit: H 0 : µ = µ 0 (tunnettu vakio) µ > µ 0 näistä valitaan H 1 : µ < µ 0 ko. tilanteeseen µ µ 0 sopivin Huom. Jos tutkijalla ei ole ennakolta minkäänlaista käsitystä siitä, kumpaan suuntaan µ 0 :sta populaation keskiarvo poikkeaa (jos poikkeaa), valitaan 2- suuntainen hypoteesi H 1. Testisuure: Z = X µ 0 σ/ n N(0, 1), kun H 0 on tosi. P -arvo määrätään N(0, 1)-jakaumasta (taulukko 1). 75

b) Oletetaan, että σ 2 on tuntematon Hypoteesit kuten kohdassa a) Testisuure: T = X µ 0 S x / n t(n 1), kun H 0 on tosi. S x on otoksesta laskettu keskihajonta. P -arvo määrätään t-jakaumasta (taulukko 2). µ:n luottamusvälit edellä mainituissa tilanteissa on esitelty luvussa 6.2.2. Jos oletetaan parametriton malli ts. ei tehdä oletuksia x:n jakaumasta, kyseeseen tulevat merkkitesti ja Wilcoxonin yhden otoksen testi (ei esitellä tällä kurssilla). Esim. 6.2 Viidestätoista satunnaisesti valitusta AB-merkkisesta tuoremehutölkistä mitattiin C-vitamiinipitoisuus ja saatiin seuraavat tulokset (mg/100 ml): 17.3, 18.2, 16.8, 16.9, 17.0, 18.1, 19.5, 20.2, 19.8, 20.3, 18.6, 21.0, 17.9, 21.5, 16.9 Tuoremehun valmistaja ilmoittaa mehun sisältävän C-vitamiinia keskimäärin 20.0 mg/100 ml. Oleta normaalijakaumamalli ja tutki valmistajan väitettä sopivalla testillä. Täydennä tarkasteluasi sopivalla luottamusvälillä. 1) Oletetaan, että C-vitamiinipitoisuus x N(µ, σ 2 ), missä µ ja σ 2 ovat tuntemattomia ja oletetaan 15 suuruinen satunnaisotos tästä jakaumasta. Kaaviolla: populaatio x X X 1, X 2,..., X 15 Olet. X N(µ, σ 2 ) µ ja σ 2 tuntemattomia 76

2) Hypoteesit: H 0 : µ = 20.0 H 1 : µ 20.0 ts. mehun C-vitamiinipitoisuus on keskimäärin 20.0 mg/100 ml ts. mehun C-vitamiinipitoisuus ei ole keskimäärin 20.0 mg/100 ml 3) Testisuure: T = X µ 0 S x / n t(n 1), kun H 0 on tosi. 4) Testisuureen arvon laskeminen: x = 18.6667, s x = 1.60297, n = 15, µ 0 = 20.0 Sijoitetaan kaavaan t = 18.6667 20.0 1.60297/ 15 = 3.221 5) P -arvon määrääminen: P -arvo = P(T 3.221 tai T 3.221 H 0 ) = 2P(T 3.221 H 0 ) vapausasteluku f = n 1 = 15 1 = 14 Taulukko 2, LIITE 3 0.002 < P arvo < 0.01 6) Johtopäätös: Aineisto on selvästi H 0 :aa vastaan ja tukee H 1 :stä. Mehun C- vitamiinipitoisuus ei näytä saadun aineiston perusteella olevan keskimäärin 20.0 mg /100 ml. Lasketaan vielä µ:lle 95 %:n luottamusväli kaavalla ( ) S x X t 0.05/2, X S x + t 0.05/2, n n Taulukko 2, LIITE 3 t 0.05/2 = 2.145 (f = 14), x = 18.6667, s x = 1.60297, n = 15. 77

Sijoitetaan kaavaan ( 18.6667 2.145 1.60297, 18.6667 + 2.145 1.60297 ) 15 15 (17.7790, 19.5544) (17.8mg/100ml, 19.6mg/100ml) Tulkinta: Saatu väli sisältää sellaiset µ:n (=keskimääräinen C-vitamiinipitoisuus) arvot, joiden kanssa otoksesta saadut tulokset ovat kohtalaisesti yhteensopivia eivätkä ainakaan pahasti ristiriidassa. Lyhyesti väli voidaan tulkita niin, että µ on 95%:n varmuudella lasketulla välillä. Tilanteen a) mukainen esimerkki luentoesimerkkinä. 6.4.2 Yhden suhteellisen osuuden tarkastelu Oletetaan Bernoulli-jakaumamalli ts. oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos Bernoulli-jakaumasta Bern(π), missä π on tuntematon. { 1, jos yksilöllä i on ominaisuus A X i = 0, jos yksilöllä i ei ole ominaisuutta A π = P(X i = 1) = ominaisuuden A omaavien suhteellinen frekvenssi populaatiossa (tuntematon). Lähtötilanteen voi kuvata seuraavalla kaaviolla: populaatio x X (X 1, X 2,..., X n ) Olet. X Bern(π) π = P(X = 1) Hypoteesit : H 0 : π = π 0 tunnettu vakio π > π 0 näistä valitaan H 1 : π < π 0 ko. tilanteeseen π π 0 sopivin 78

Kun n on suuri ja π ei ole kovin lähellä yhtä tai nollaa (peukalosääntö: nπ > 5 ja n(1 π) > 5) binomijakaumaa voidaan approksimoida normaalijakaumalla. Normaalijakauma-approksimaatiota käyttäen yhden otoksen suhteellisen osuuden testisuureeksi saadaan Z = P π 0 π0 (1 π 0 ) N(0, 1) likimain, kun H 0 on tosi. n P = T n = ominaisuuden A omaavien suhteellinen frekvenssi otoksessa. P -arvo määrätään N(0, 1)-jakaumasta (taulukko 1). π:n luottamusväli on esitelty luvussa 6.2.2. 79

KIRJALLISUUTTA Grönroos, M. 2003. Johdatus tilastotieteeseen. Helsinki: Oy Finn Lectura Ab. Heikkilä, T. 1998. Tilastollinen tutkimus. Helsinki: Oy Edita Ab. Helenius, H. 1989. Tilastollisten menetelmien perustiedot. Salo: Statcon. Helsinki: Yliopistopaino. Hirsjärvi, S., Remes, P. & Sajavaara, P. 2000. Tutki ja kirjoita. 6. painos. Helsinki: Tammi. Kuusela, V. 2000. Tilastografiikan perusteet. Helsinki: Oy Edita Ab. Mellin, I. 2000. Johdatus tilastotieteeseen. 1. kirja Tilastotieteen johdantokurssi. Helsinki: Yliopistopaino. Nummenmaa, T., Konttinen, R., Kuusinen, J. & Leskinen, E. 1997. Tutkimusaineiston analyysi. Porvoo: WSOY. Ranta, E., Rita, H, & Kouki, J. 1991. Biometria, tilastotiedettä ekologeille. 3. korj. painos. Helsinki: Yliopistopaino. Wild, C. J. & Seber, A. F. 2000. Chance Encounters. A First Course in Data Analysis and Inference. New York: John Wiley & Sons. 80

KAAVAKOKOELMA x = 1 n n x i, i=1 x = 1 n r f i X i (1) i=1 G = n x 1 x 2... x n (2) H = n n 1 (3) i=1 x i s = s x = 1 n 1 s = n (x i x) 2, (4) i=1 ( n ) 2 ( n 1 x i ) x 2 i n 1 i=1, s = 1 n n 1 i=1 r f i (X i x) 2 V = s/ x (5) i=1 z i = x i x s (6) P(A B) = P(A B) P(B) (7) µ = E(X) = σ 2 = D 2 (X) = k x i p i, (8) i=1 k (x i µ) 2 p i = i=1 k x 2 i p i µ 2 (9) X N(µ, σ 2 ), f(x) = 1 σ (x µ) 2 2π e 2σ 2 (10) i=1 (11) 81

Z = X µ 0 σ/ n, Z N(0, 1), kun H 0 on tosi, (12) ( X z α/2 σ n, X + z α/2 σ n ) (13) T = X µ 0 S x / n, T t(n 1), kun H 0 on tosi, (14) ( ) S x X t α/2, X S x + t α/2 (15) n n Z = P π 0, Z N(0, 1) likimain, kun H 0 on tosi, (16) π0 (1 π 0 ) n ) (P z α/2 P (1 P )/n, P + zα/2 P (1 P )/n (17) 82

LIITE 1: satunnaislukutaulukko 83