JOHDATUS TILASTOTIETEESEEN (806118P)

Koko: px
Aloita esitys sivulta:

Download "JOHDATUS TILASTOTIETEESEEN (806118P)"

Transkriptio

1 JOHDATUS TILASTOTIETEESEEN (806118P) Luentomoniste Jari Päkkilä Kevät 2017

2 ESIPUHE Tämä opiskelumateriaali on suunniteltu käytettäväksi Oulun yliopiston luonnontieteellisen tiedekunnan Johdatus tilastotieteeseen -kurssilla (806118P). Kurssin kohderyhmänä ovat ensisijaisesti Oulun yliopiston luonnontieteellisen tiedekunnan opiskelijat, joskin muidenkin tiedekuntien opiskelijat voivat osallistua kurssille. Sisällössä on suurelta osin hyödynnetty Marjatta Mankisen 2011 laatimaa luentomonistetta Tilastotieteen perusmenetelmät I -kurssia varten. Luentomonisteen kevätlukukauden -17 versioon on tehty kevätlukukauden -16 versioon verrattuna vain pieniä muutoksia ja kirjoitusvirheiden korjauksia. Luentomonisteen sähköinen versio löytyy opintoportaali Nopasta kurssin kotisivuilta. Materiaalin tekijänoikeudet kuuluvat monisteen tekijälle. Kurssin opiskelijat saavat kopioida, tulostaa ja tallentaa materiaalin tai osia siitä omaan käyttöönsä. Oulussa Jari Päkkilä 1

3 Sisältö 1 JOHDANTO Mitä tilastotiede on? Eräitä peruskäsitteitä Tilastollisen tutkimuksen vaiheet HAVAINTOAINEISTON HANKINTA Valmiit aineistot Otantatutkimus Otannan suunnittelu ja toteutus Otantamenetelmiä Yksinkertainen satunnaisotanta Systemaattinen otanta Ositettu otanta Ryväsotanta Kiintiöpoiminta MUUTTUJIEN MITTAAMINEN Muuttuja, muuttujan arvot ja mittaaminen Mitta-asteikot Mittauksen luotettavuus ja mittausvirheet HAVAINTOAINEISTON KUVAILU 23 2

4 4.1 Havaintomatriisi Yhden muuttujan jakauman graafiset ja taulukkomuotoiset esitykset Pistekuvio ja runko-lehti -kuvio Yksiulotteinen frekvenssijakauma eli suora jakauma Pylväskuvio ja piirakkakuvio Histogrammi, frekvenssimonikulmio ja janakuvio Laatikko-jana -kuvio (boxplot, box and whiskers plot) Summajakauma ja summakäyrä Yhden muuttujan jakaumaa kuvaavia tunnuslukuja Sijainnin tunnusluvut Hajontaluvut Vinous- ja huipukkuusluvut TODENNÄKÖISYYSLASKENTAA Todennäköisyyden käsite Todennäköisyyslaskennan laskusääntöjä Satunnaismuuttujat ja todennäköisyysjakaumat Diskreetit eli epäjatkuvat satunnaismuuttujat ja niiden todennäköisyysjakaumat Bernoulli-jakauma Jatkuvat satunnaismuuttujat ja niiden todennäköisyysjakaumat

5 5.3.4 Eräitä jatkuvia jakaumia TILASTOLLINEN PÄÄTTELY Satunnaisotos, tilastollinen malli, otossuure ja otantajakauma Estimointi Piste-estimointi Väliestimointi Merkitsevyystestaus Testaus eräissä perusasetelmissa Yhden jakauman sijainnin tarkastelu Yhden suhteellisen osuuden tarkastelu

6 1 JOHDANTO 1.1 Mitä tilastotiede on? Tilastotiede (statistics) on tiede, jonka tehtävänä on tutkia ja kehittää menetelmiä ja käsitteitä, joita voidaan käyttää hyväksi eri soveltavien tieteiden piirissä suoritettavien empiiristen tutkimusten suunnittelussa, havaintoaineistojen keruussa, esittämisessä, analysoinnissa, tulkitsemisessa sekä havaintoaineistoihin pohjautuvien päätösten tekemisessä. (Hans Helenius, 1989). Tilastotiede on matematiikan, filosofian ja tietojenkäsittelytieteen tapaan ns. menetelmätiede. Menetelmätieteille on ominaista, että ne kehittävät työvälineitä muiden tieteiden tutkimusongelmien ratkaisemiseksi. Menetelmätieteillä on kuitenkin myös oma itsenäinen, sovelluksista vapaa teoriansa. Tilastotieteen teoria perustuu ennen muuta todennäköisyyden matemaattiseen teoriaan. Tilastollisten menetelmien käytön perusedellytyksenä on tutkittavan ilmiön mitattavuus. Lisäksi tyypillistä tilastotieteen sovelluksissa on epävarmuuden, satunnaisuuden mukanaolo. Ilkka Mellinin (1996) mukaan tilastotiede on oppia johtopäätösten teosta sellaisista reaalimaailman ilmiöistä, joissa on mukana sattuma. Tilastollisten menetelmien avulla pyritään kuvaamaan ja erottamaan tällaisten ilmiöiden säännönmukaiset ja satunnaiset piirteet. Tilastotiede kehittää ilmiöiden satunnaisille piirteille todennäköisyysteoriaan perustuvia malleja, joita käyttämällä sattuman osuus ilmiöissä voidaan selittää. Tilastotieteen menetelmiä sovelletaan laajasti mm. lääketieteessä (biostatistiikka), taloustieteissä (ekonometria), yhteiskuntatieteissä sekä maa- ja metsätaloustieteissä. Perinteisesti tilastotiede on jaettu kuvailevaan eli deskriptiiviseen tilastotieteeseen (descriptive statistics) ja tilastolliseen päättelyyn (statistical inference). Kuvailevan tilastotieteen menetelmien (kuviot, taulukot, tunnusluvut) avulla pyritään luonnehtimaan nimenomaan tarkasteltavana olevan havaintoaineiston piirteitä. Tilastollisessa päättelyssä (estimointi, merkitsevyystestaus) on kyse havaintoaineistosta saatujen tulosten yleistämisestä laajempaan joukkoon. 5

7 1.2 Era ita peruska sitteita Havaintoyksiko lla eli tilastoyksiko lla (observational unit) tarkoitetaan niita perusyksiko ita (henkilo ita, perheita, yrityksia, ela imia tms.), joihin liittyvia ominaisuuksia tutkimuksessa tarkastellaan. Havaintoyksikko on siis se olio tai elio, jolta ominaisuuksien mittaukset tehda a n. Populaatiolla eli perusjoukolla (population) tarkoitetaan tutkimuksen kohteena olevien havaintoyksiko iden joukkoa. Populaatio voi olla a a rellinen, olemassa oleva tai hypoteettinen, kuviteltu, a a reto n ns. superpopulaatio. Otanta (sampling), otantatutkimus (sample survey) on laajasti ka ytetty tilastollinen menetelma hankittaessa tietoja populaatiosta, jota ei voida tai haluta kokonaisuudessaan tutkia. Otoksen (sample) poimintaan on olemassa useita erilaisia otantamenetelmia (sampling methods). Muuttujalla (variable) tarkoitetaan jotain havaintoyksiko n ominaisuutta esim. henkilo ista sukupuoli, ika tai ammatti. Muuttujaan liittyva vaihtelu tarkoittaa sita, etta muuttuja voi saada erilaisia arvoja (value) eri havaintoyksiko illa. Mittaus (measurement) on muuttujan arvon ma a ritta mista eri havaintoyksiko ille. populaatio eli perusjoukko erilaisia otantamenetelmiä otos otanta havainto- eli tilastoyksikkö ikä paino pituus muuttujia mittaaminen 22 v 78 kg 179 cm muuttujien havaittuja arvoja Kuva 1: Era ita tilastotieteen peruska sitteita. 6

8 1.3 Tilastollisen tutkimuksen vaiheet Tilastollisen tutkimuksen tarkoituksena on muodostaa mahdollisimman hyvä mielikuva havaintoaineistosta, siinä esiintyvistä säännönmukaisuuksista ja vaihteluista. Tilastollisiin tutkimuksiin liittyviä vaiheita voidaan jaotella mm. seuraavasti: 1. Suunnittelu a) tutkimusongelman valinta ja rajaaminen b) tutkimusjoukon valinta c) tutkimusasetelman määrittely d) muuttujat ja mittausmenetelmät e) aineiston keruun ja ATK-käsittelyn suunnittelu f) eettiset kysymykset g) tilastomenetelmien alustava valinta h) tulosten raportointi ja julkaiseminen i) kustannusarvio ja aikataulu 2. Aineiston (data) hankinta- ja muokkausvaihe 3. Aineiston tarkastelu (IDA = initial data analysis) Kuvaileva tilastotiede: - graafiset esitykset - taulukot - tunnusluvut 4. Tilastollisten mallien sovittaminen aineistoon Tilastollinen päättely 5. Raportointi 7

9 2 HAVAINTOAINEISTON HANKINTA 2.1 Valmiit aineistot Joissakin tapauksissa on mahdollista, että tutkija saa tarvitsemansa havaintoaineiston valmiina tai laskemalla ja yhdistelemällä valmiista aineistoista. Tärkeimpiä valmiiden aineistojen lähteitä ovat säännöllisesti ilmestyvät tilastojulkaisut, joita tuottavat mm. valtion eri virastot, erityisesti Tilastokeskus, samoin kunnat, yksityiset liikeyritykset, pankit, vakuutuslaitokset sekä erilaiset yhteisöt. Tilastokeskuksen julkaisuista mainittakoon mm. Suomen tilastollinen vuosikirja, Suomen virallisen tilaston (SVT) sarjat, Tilastokatsaukset ja Tilastolliset tiedonannot. Tietojen poimiminen voi tapahtua myös tilastotietokannoista. Tietokantoja pitävät kansalliset ja kansainväliset järjestöt ja laitokset sekä kaupalliset yritykset. Esimerkiksi Euroopan unionilla on useita tutkijoita palvelevia tietokantoja. Tilastokeskuksen tietokannoista mainittakoon avoimen datan StatFin-tietokantapalvelu ja maksullinen aikasarjatietokanta ASTIKA. Tietokantojen käyttö on usein maksullista. Valmiisiin tilastoihin on suhtauduttava kriittisesti. Tietojen luotettavuus on tarkistettava ja mahdollisista erikoistermeistä, symboleista ja tunnusluvuista on otettava selvää, ennen kuin ryhtyy käyttämään tilastoa. Yleensä tutkijan on tuotettava havaintoaineistonsa itse hankkimalla havaintoyksiköt ja mittaamalla näistä tarvitsemiensa muuttujien arvot. Otantatutkimus tarjoaa tällöin keinoja analyysikelpoisten aineistojen saamiseksi. 2.2 Otantatutkimus Otanta, otantatutkimus (sample survey) on laajasti käytetty tilastollinen menetelmä hankittaessa tietoja populaatioista, joita ei voida tai ei haluta kokonaisuudessaan tutkia. Otannassa on kysymyksessä tietojen tuottaminen populaatiosta tutkimalla vain osa koko joukosta. Kokonaistutkimuksessa (census) sen sijaan tutkitaan koko populaatio. Otantatutkimusta puoltavat mm. seuraavat seikat: 1) Jos populaatio on suuri, saadaan tiedot otannalla halvemmalla ja nopeammin kuin kokonaistutkimuksella. 8

10 2) Otantatutkimuksessa on mahdollista hankkia yksityiskohtaisempaa tietoa tutkittavista yksiko ista kuin kokonaistutkimuksessa. 3) Jos populaatio on a a reto n tai muuten hyvin suuri, otanta on ainoa mahdollisuus. 4) Jos esimerkiksi laaduntarkkailussa tutkittava tuote tuhoutuu, kun sen ominaisuuksia tutkitaan, kokonaistutkimus ei tule kysymykseen. Toisaalta otantatutkimuksessa syntyy nk. satunnaisvirhetta (random error ), joka aiheutuu siita, etta tutkitaan vain osa populaatiosta. Satunnaisvirheen suuruuteen vaikuttavat populaation heterogeenisuus, otoskoko, otoksen valintamenetelma seka estimointitapa (= miten lasketaan arvio populaation tuntemattomalle ominaisuudelle, parametrille, esim. keskiarvo). Satunnaisvirhetta voidaan pienenta a mm. otoskokoa suurentamalla. Satunnaisvirheen suuruutta voidaan arvioida tilastotieteellisin keinoin. Nk. systemaattisia virheita eli harhaa (bias) aiheuttavat mm. vastaamatta ja tta minen, virheelliset mittausva lineet ja tietojen ka sittelyvaiheessa tehta va t virheet. Systemaattisia virheita esiintyy seka kokonais- etta otantatutkimuksissa. Otantatutkimuksissa niiden pienenta miseen voidaan kuitenkin yleensa kiinnitta a enemma n huomiota kuin kokonaistutkimuksessa. A. Tavoitteena selvittää parametrin arvo (esim. pituuden keskiarvo) isossa populaatiossa B. Asetelman periaate: otanta Populaatio Otos C. Malli havainnoille: Otostunnusluku = parametrin arvo populaatiossa + harha + satunnaisvirhe D. Harhattomuuden edellytykset: - satunnaisotanta - ei katoa - oikeat mittaustulokset Kuva 2: Otantatutkimuksen periaate. 9

11 Otannan tavoitteena on poimia populaatiosta mahdollisimman edustava otos, jotta otoksen perusteella voitaisiin tehda populaatiota koskevia pa a telmia. Esimerkkeina otantaa hyo dynta vista tutkimuksista mainittakoon mm. puolueiden kannatusta koskevat tutkimukset, kulutustutkimukset, satoennusteet ja tilastollinen laadunvalvonta. 2.3 Otannan suunnittelu ja toteutus Kaikki otantatutkimukset sisa lta va t era ita yhteisia suunnittelu- ja tyo vaiheita. Seuraavassa niita luonnehditaan lyhyesti. Populaation oletetaan olevan a a rellinen. 1) Selviteta a n mahdollisimman tarkasti tutkimuksen tavoitteet; mita tietoja halutaan, kenelta kysyta a n ja mihin tietoja ka yteta a n. 2) Ma a ra ta a n populaatio. Kohdepopulaatio (target population) on se joukko, josta ollaan kiinnostuneita. Kehikkopopulaatio (frame population) on se joukko, josta otos valitaan. Kehikkopopulaatio ei ka yta nno ssa ole aina ta sma lleen sama kuin kohdepopulaatio. Kehikkopopulaatiossa esiintyy alipeittoa (undercoverage), jos siita puuttuu kohdepopulaation yksiko ita, mutta siina voi olla myo s ylipeittoa (overcoverage), jos siina on mukana kohdepopulaatioon kuulumattomia havaintoyksiko ita. Otoksen perusteella tehta va t pa a telma t koskevat tarkasti ottaen vain kehikkopopulaatiota. kohdepopulaatio alipeitto otos ylipeitto kehikkopopulaatio Kuva 3: Populaation ma a ra ytyminen. 3) Ma a ra ta a n alkeisyksikko eli alkio (elementary unit) ja otantayksikko (sampling unit). Otos poimitaan otantayksiko ita ka ytta en. Otantayksikko na saattaa olla alkio tai joukko alkioita (katso esimerkiksi ryva sotanta). Varsinaiset mittaukset tehda a n alkeisyksiko ista. 10

12 4) Laaditaan kehikko (frame). Kehikko on otantayksiköistä koostuva luettelo, kartta tai muu selitys, jonka perusteella otos poimitaan. 5) Valitaan tietojen keräysmenetelmä. Menetelmän valintaan vaikuttavat lähinnä tarkoituksenmukaisuus-, luotettavuus- ja kustannusnäkökohdat. Kyseeseen tulevat esimerkiksi henkilökohtainen haastattelu, puhelinhaastattelu ja postikysely. Kyselyn tekeminen on mahdollista myös sähköpostin ja wwwsivujen välityksellä. Internetin kautta tehtävät kyselyt ovatkin yleistymässä, mutta niihin liittyy ongelmiakin (Pohdi, millaisia?). Suunnitelmallista kysely- ja haastattelututkimusta nimitetään survey-tutkimukseksi. Englanninkielinen termi survey tarkoittaa sellaisia kyselyn, haastattelun ja havainnoinnin muotoja, joissa aineistoa kerätään standardoidusti ja joissa kohdehenkilöt muodostavat otoksen tietystä populaatiosta. Standardoituvuus tarkoittaa sitä, että jos haluaa esimerkiksi saada selville, mikä koulutus vastaajilla on, tätä asiaa on kysyttävä kaikilta vastaajilta täsmälleen samalla tavalla. Hyvän kyselylomakkeen laatiminen onkin aikaa viepää puuhaa. Lomakkeen kysymysten on oltava selviä ja yksikäsitteisiä ja on kerättävä vain tutkimuksen kannalta tarpeellista tietoa. Kyselylomakkeen laatimisesta tarkemmin esim. seuraavista kirjoista: Tarja Heikkilä: Tilastollinen tutkimus ja Sirkka Hirsjärvi, Pirkko Remes ja Paula Sajavaara: Tutki ja kirjoita. 6) Päätetään otantamenetelmästä. Otantamenetelmällä tarkoitetaan tapaa, jolla otos valitaan kehikkopopulaatiosta. Ns. todennäköisyysotantaan perustuville otantamenetelmille on ominaista, että jokaisella kehikkopopulaation yksiköllä on tiedossa oleva positiivinen todennäköisyys tulla poimituksi otokseen. Poimintatodennäköisyyden ei tarvitse olla sama kaikilla yksiköillä. Tärkeimmät todennäköisyysotannan toteuttavat otantamenetelmät ovat yksinkertainen satunnaisotanta, systemaattinen otanta, ositettu otanta ja ryväsotanta, jotka esitellään tarkemmin kappaleessa 2.4. On myös mahdollista käyttää em. menetelmiä erilaisina yhdistelminä ja suorittaa otanta monessa vaiheessa. Jos tutkija valitsee populaatiosta oman harkintansa mukaan osajoukon, puhutaan harkintaotannasta (judgemental sampling) ja itse osajoukkoa sanotaan näytteeksi (judgment sample) tai mukavuusotokseksi (convenience sample). Siihen, mitä otantamenetelmää käytetään, vaikuttavat mm. tutkimuksen tavoitteet, tutkimuksen muuttujat, populaation maantieteellinen sijainti, käytettävissä oleva kehikko (rekisterit, luettelot), budjetti. 11

13 7) Päätetään otoskoko. Otoksen kokoon vaikuttaa, miten tarkkoja tuloksia halutaan; miten pienistä populaation osajoukoista halutaan tietoja ja miten heterogeeninen populaatio on tutkittavien muuttujien osalta. Yleensä tarkkuus paranee, kun otoskoko kasvaa. Todennäköisyyslaskenta tarjoaa keinoja sopivan otoskoon määräämiseksi (käsitellään myöhemmin luottamusvälien yhteydessä). Käytännön otantatilanteissa otoskokoon vaikuttavat myös kustannukset, käytettävissä oleva aika, työvoima yms. 8) Suoritetaan otoksen poiminta, tietojen keräys ja tarkistus. Vastaamatta jättäminen eli kato (nonresponse) saattaa vääristää tutkimuksen tuloksia, sillä vastaamatta jättäneet ovat yleensä joiltakin ominaisuuksiltaan erilaisia kuin kyselyyn vastanneet. Kato on suurin kirjekyselyissä. Katoa voi yrittää pienentää esimerkiksi liittämällä kyselyn mukaan motivoivan saatekirjeen, tekemällä kyselylomakkeesta mahdollisimman houkuttelevan ja suorittamalla uusintakyselyn niille, jotka eivät ensimmäiseen kyselyyn vastanneet. Otantatutkimuksen tulosten analyysivaiheessa on aina pyrittävä selvittämään vastaamatta jättämiseen mahdollisesti vaikuttaneet tekijät, jotta ne voitaisiin ottaa huomioon tulosten erittelyssä ja tulkinnasssa. 9) Analysoidaan saatu aineisto. 10) Raportoidaan tulokset. 2.4 Otantamenetelmiä Otantamenetelmistä esitellään yksinkertainen satunnaisotanta, systemaattinen otanta, ositettu otanta ja ryväsotanta. Tarkastelun ulkopuolelle jäävät mm. PPS-otanta ja peräkkäisotanta Yksinkertainen satunnaisotanta Yksinkertainen satunnaisotanta (simple random sampling, lyhyesti YSO) on otannan perusmenetelmä. Oletetaan, että populaatiossa on N otantayksikköä. Otokseen halutaan poimia n yksikköä. YSO:n vaiheet: 1) Muodostetaan kehikko. 2) Numeroidaan kehikon otantayksiköt juoksevasti 1:stä N:ään. 3) Otokseen tulevat poimitaan arpomalla laskimen satunnaislukugeneraattorin (RANDOM-näppäin), tietokoneen tai satunnaislukutaulukon (LII- 12

14 TE 1) avulla. Jos otanta suoritetaan palauttamatta (without replacement), kerran valittua ei voi valita uudelleen. Jos otanta suoritetaan palauttaen (with replacement), sama otantayksikkö voi tulla valituksi useamman kerran otokseen. Yleensä otanta suoritetaan palauttamatta Systemaattinen otanta Systemaattinen otanta (systematic sampling, lyhyesti SO) on käyttökelpoinen otantamenetelmä, jos otantayksiköt ovat jo valmiissa järjestyksessä jonkin sellaisen ominaisuuden suhteen, joka ei vaikuta tutkittaviin muuttujiin, esim. aakkosjärjestys ja asiakasjono. SO:n vaiheet: 1) Muodostetaan kehikko. 2) Lasketaan poiminta- eli otantaväli k = N/n (pyöristetään lähimmäksi kokonaisluvuksi) 3) Poimitaan satunnaisesti k:n ensimmäisen otantayksikön joukosta yksi ja siitä eteenpäin joka k:s yksikkö tai (harvemmin käytetty!) valitaan satunnaisesti yksi otantayksikkö kehikosta ja siitä lähtien eteenja taaksepäin joka k:s otantayksikkö. Systemaattinen otanta on suosittu otantamenetelmä, koska se on yleensä nopeasti ja helposti toteutettavissa. Jos populaatiossa kuitenkin esiintyy jaksottaista vaihtelua ja jakson pituus on sama kuin poimintaväli, menetelmän käyttö ei ole suositeltavaa, sillä tällöin tuloksiin aiheutuu systemaattista virhettä Ositettu otanta Ositetussa otannassa (stratified sampling, lyhyesti OO) populaatio jaetaan ennakkoinformaation perusteella toisensa poissulkeviin osajoukkoihin eli ositteisiin (strata). Sen jälkeen jokaisesta ositteesta otetaan otos esimerkiksi YSO:lla tai SO:lla ja näin saadut otokset yhdistetään yhdeksi otokseksi. Ositettu otanta on yksinkertaista satunnaisotantaa ja systemaattista otantaa parempi otantamenetelmä mm. seuraavissa tilanteissa: 13

15 1) Populaation tiedetään olevan heterogeeninen jonkin tutkimustulosten kannalta merkityksellisen tekijän suhteen. Suorittamalla osittaminen kyseessä olevan tekijän arvojen perusteella voidaan parantaa otoksesta saatavien tulosten tarkkuutta. 2) Ositteita halutaan käsitellä toisistaan erillään, eri populaatioina. 3) Populaation pienten ryhmien edustajat halutaan mukaan otokseen. 4) Populaatio saattaa olla valmiiksi jaettu erilaisiin alaryhmiin (hallinnollisiin organisaatioihin, haarakonttoreihin yms.). Tätä valmista ositusta on tällöin järkevä käyttää hyväksi. OO:n vaiheet: 1) Muodostetaan ositteet O 1, O 2,..., O p, joissa otantayksiköitä on vastaavasti N 1, N 2,..., N p ; N 1 + N N p = N. 2) Jokaisesta ositteesta poimitaan oma otos esim. YSO:lla tai SO:lla otoskokojen ollessa n 1, n 2,..., n p 3) Saadut otokset yhdistetään yhdeksi otokseksi, jonka koko on n = n 1 + n n p. Ositekohtaisia otoskokoja n 1 + n n p määrättäessä voidaan käyttää 1) tasaista kiintiöintiä (equal allocation), jolloin jokaisesta ositteesta valitaan yhtä monta otantayksikköä, 2) suhteellista kiintiöintiä (proportional allocation), jolloin jokaisesta ositteesta valitaan prosentuaalisesti yhtä paljon, 3) optimaalista kiintiöintiä (optimum allocation), jolloin eri ositteisiin käytetään erilaista otantasuhdetta ottamalla huomioon ositteen koko, hajonta ja otannan yksikkökustannukset (hankala toteuttaa!). 14

16 Esimerkki ositetun otannan suorittamisesta suhteellista kiintiöintiä käyttäen (Heikkilä, 1998) Ryväsotanta Ryväsotannan (cluster sampling) käyttöön on lähinnä kaksi syytä: 1) alkeisyksikkötasoinen poiminta on liian kallista esimerkiksi maantieteellisistä syistä, 2) alkeisyksiköistä ei ole käytettävissä kehikkoa. Ryväsotannassa populaatio jaetaan ensin toisensa poissulkeviin ryhmiin, ryppäisiin (cluster) ja näitä pidetään ns. ensiasteen otantayksikköinä. Tyypillisiä väestöpopulaation ryppäitä ovat kunta, äänestysalue, kylä ja kotitalous. Ryppäistä poimitaan otos esim. YSO:lla, SO:lla tai OO:lla. Yksiasteisessa ryväsotannassa otokseen valituista ryppäistä otetaan lopulliseen otokseen kaikki alkeisyksiköt, kaksiasteisessa ryväsotannassa käytetään vielä otantaa ensimmäisessä vaiheessa poimittujen ryppäiden sisällä. Jakamalla ryppäät osaryppäisiin ja osaryppäät vielä mahdollisesti alemman asteen osaryppäisiin voidaan yleisesti määritellä k-asteinen ryväsotanta. 15

17 Esimerkki yksiasteisen ryväsotannan suorittamisesta (Heikkilä, 1998) Kiintiöpoiminta Kiintiöpoimintaa (quota sampling) käytetään esimerkiksi markkinointitutkimuksissa ja vaaligallupeissa. Etukäteen päätetään, kuinka monta miestä ja naista ja kuinka monta henkeä eri ikäryhmistä otetaan mukaan näytteeseen ja haastatteluja jatketaan kunnes kiintiöt ovat täynnä. Menetelmä on harkintaan perustuvaa otantaa, koska haastattelija valitsee vastaajan, vaikkakin annettujen ohjeiden mukaisesti. 16

18 3 MUUTTUJIEN MITTAAMINEN 3.1 Muuttuja, muuttujan arvot ja mittaaminen Muuttujalla (variable) tarkoitetaan kuten aiemmin on jo todettu jotain havaintoyksikköön liittyvää ominaisuutta. Nimensä mukaisesti muuttujan arvot vaihtelevat eri havaintoyksiköillä. Esim. 3.1 Jos havaintoyksikkönä on ihminen, mahdollisia muuttujia ovat mm. sukupuoli, ikä, ammatti, pituus, paino ja painoindeksi. Jos havaintoyksikkönä on kunta, mahdollisia muuttujia ovat mm. asukasluku, kunnallisveroprosentti, alle 18-vuotiaiden suhteellinen osuus väestöstä ja kokonaispintaala. Muuttujia merkitään usein pienillä kirjaimilla x, y, z jne. Muuttujan saamia arvoja eri havaintoyksiköillä merkitään symbolisesti alaindeksin avulla. Esimerkiksi merkintä x i tarkoittaa muuttujan x arvoa i. havaintoyksiköllä. Jos muuttujia on useita, käytetään yleensä indeksoitua merkintää jo itse muuttujista esim. x 1, x 2,..., x p, jolloin muuttujan arvoihin viitattaessa joudutaan käyttämään kaksoisindeksointia. Esimerkiksi merkintä x ij tarkoittaa i. havaintoyksikön arvoa muuttujalla x j. Muuttujat voivat olla joko perusmuuttujia tai johdettuja muuttujia. Jos havaintoyksikkönä on ihminen, perusmuuttujia ovat esim. paino ja pituus. Sen sijaan painoindeksi = paino/pituus 2 (kg/m 2 ) on johdettu muuttuja. Hyvin tavallista on, että alkuperäisistä muuttujista joudutaan laskemaan uusia, johdettuja muuttujia erilaisten muunnosten avulla. Mittaamisella (mittauksella) tarkoitetaan muuttujan arvon (mittaluvun tai symbolin) määrittämistä eri havaintoyksiköille. Mittaaminen on tilastotieteessä käsitettävä laajemmin kuin vain jonkin klassisen mittavälineen, metrinmitan tai puntarin, käytöksi. Tilastotieteessä mitata = määrätä ja esimerkiksi mielipiteen kirjaaminen haastattelututkimuksessa on tässä laajassa mielessä ymmärrettynä mittaamista. Jotkut muuttujat ovat helposti mitattavissa, esimerkiksi sukupuoli tai pituus. Joillekin muuttujille sopivan mittarin laatiminen saattaa olla hyvinkin vaikeaa. Miten pitäisi mitata vaikkapa henkilön älykkyyttä, uskonnollisuutta tai tehokkuutta? 17

19 3.2 Mitta-asteikot Muuttujat voidaan jakaa mittaustason perusteella nelja a n eri mitta-asteikkoon: luokittelu-, ja rjestys-, va limatka- ja suhdeasteikon muuttujiin. Muuttujan mitta-asteikolla on keskeinen merkitys mm. tilanteeseen soveltuvan tilastomenetelma n valinnassa. Luokittelu- ja ja rjestysasteikkoa sanotaan kvalitatiivisiksi asteikoiksi, koska muuttujien arvot kuvaavat ta llo in vain tilastoyksiko iden laadullisia piirteita. Va limatka- ja suhdeasteikkoa sanotaan puolestaan kvantitatiivisiksi asteikoiksi, koska ta llo in muuttujien arvot kuvaavat ma a ra a ja siten kyseisten muuttujien arvojen mittaaminen tuottaa luontevasti lukuja. Mitta-asteikko ei Luokitteluasteikko Onko havaintoyksiköiden luokkien välillä järjestystä? on laatua? Järjestysasteikko Mitataanko sopimuksenvarainen määrää? Välimatka-asteikko Onko nollakohta sopimuksenvarainen vai onko se absoluuttinen? absoluuttinen Suhdeasteikko Kuva 4: Muuttujien mitta-asteikot. Luokitteluasteikko (eli laatuero- eli nominaaliasteikko) Muuttuja on luokitteluasteikkoa (nominal scale), jos sen arvot voidaan ainoastaan luokitella yksika sitteisesti toisistaan eroaviin luokkiin. alhaisin mittaustaso, luokkien va lille ei voida ma a ritella mieleka sta ja rjestysta, mittaluvut ja symbolit voidaan vaihtaa vapaasti toisiin, laskutoimitukset eiva t ole mielekka ita. Esimerkiksi henkilo n sukupuoli, siviilisa a ty ja silmien va ri. 18

20 Järjestysasteikko (ordinaaliasteikko) Muuttuja on järjestysasteikkoa (ordinal scale), jos sen arvot voidaan luokittelun lisäksi asettaa mielekkääseen järjestykseen jonkin preferenssin mukaan. jokaiseen luokkaan liitetään järjestysluku, luokkien väliset erot eivät ole välttämättä yhtä suuria, luokkien järjestysluvut voidaan vaihtaa toisiin, mutta järjestyksen on säilyttävä, laskutoimitukset eivät ole mielekkäitä. Esimerkiksi mielipidemittauksissa käytetyt muuttujat, joissa vastausvaihtoehtoina esitettyyn väitteeseen ovat 1. täysin eri mieltä, 2. jokseenkin eri mieltä, 3. ei samaa mieltä eikä eri mieltä, 4. jokseenkin samaa mieltä, 5. täysin samaa mieltä. Välimatka-asteikko (intervalliasteikko) Muuttuja on välimatka-asteikkoa (interval scale), jos luokittamisen ja järjestykseen asettamisen lisäksi havaintoarvojen erotuksilla on mielekäs tulkinta. asteikon nollakohta on sopimuksenvarainen, ei absoluuttinen nollakohta (= alin mahdollinen muuttujan arvo), yhteen- ja vähennyslasku muuttujan arvoille sallittuja, kerto- ja jakolasku ei. Esimerkiksi lämpötilan mittaaminen Celsius- ja Fahrenheit-asteina. 19

21 Suhdeasteikko Muuttuja on suhdeasteikkoa (ratio scale), jos välimatka-asteikon ominaisuuksien lisäksi muuttujalla on absoluuttinen nollapiste. korkein mittaustaso, mittalukuja voidaan suoraan verrata toisiinsa eli määrätä mittalukujen suhde, kaikki laskutoimitukset sallittuja. Esimerkiksi paino, pituus ja pinta-ala. Huom. 1 Välimatka- ja suhdeasteikolliset muuttujat erottaa usein toisistaan siitä, että välimatka-asteikollinen muuttuja voi saada (ainakin periaatteessa) negatiivisia arvoja. Sen sijaan suhdesasteikollinen muuttuja ei voi saada negatiivisia arvoja, koska mitattava ominaisuus häviää mittarin nollakohdassa. Huom. 2 Mitä korkeampi on muuttujan mitta-asteikko, sitä enemmän on tarjolla menetelmiä muuttujan arvojen analysoimiseksi. Esimerkiksi keskiarvon laskeminen ei ole sallittua luokittelu- ja järjestysasteikolla. Huom. 3 Joissakin tapauksissa muuttujan mittaustaso asettuu edellä mainittujen mitta-asteikkojen väliin. Tavallinen on tilanne, jossa mittaustaso on järjestys- ja välimatka-asteikon välissä. Tällöin muuttujalle yleensä käytetään välimatka-asteikolle soveltuvia menetelmiä. Muuttujat voidaan jakaa myös epäjatkuviin eli diskreetteihin (discrete) ja jatkuviin (continuous) muuttujiin. Muuttuja on epäjatkuva tietyllä välillä, jos se muuttuu hyppäyksittäin eli se voi saada tällä välillä vain äärellisen määrän arvoja, esimerkiksi lasten lukumäärä perheessä. Kvalitatiiviset muuttujat ovat yleensä epäjatkuvia muuttujia. Muuttuja on jatkuva tietyllä välillä, jos se voi saada tällä välillä minkä tahansa arvon, esimerkiksi pituus. Mittaustarkkuus asettaa omat rajoituksensa jatkuvan muuttujan havaittuihin arvoihin. Mittaustarkkuutta voidaan yleensä parantaa, mutta se jää aina rajalliseksi. Esimerkiksi pituutta voidaan mitata metreissä, senteissä, millimetreissä jne. 20

22 3.3 Mittauksen luotettavuus ja mittausvirheet Mittauksen luotettavuutta kuvataan kahdella käsitteellä: validiteetilla (validity) ja konsistenssilla (consistency). Yhdessä ne muodostavat mittauksen kokonaisluotettavuuden. Validiteetti on mittarin kyky mitata sitä, mitä halutaan mitata. Yksittäisen muuttujan mittauksen (tai mittausmenetelmän) validiteetilla tarkoitetaan usein harhattomuutta. Mittauksen sanotaan olevan validia eli harhatonta, jos se ei systemaattisesti yli- tai aliarvioi muuttujan todellista arvoa eli jos mittaukseen ei sisälly systemaattista virhettä (systematic error) eli harhaa (bias). Systemaattisia virheitä mittaustuloksiin voivat aiheuttaa huonosti laadittu mittari, mittaaja, mittaustilanne, tietojen käsittelyvaihe, otantatutkimuksissa myös esimerkiksi kato (vastaamatta jättäminen) ja/tai peittovirhe (yli- tai alipeitto). Konsistenssi tarkoittaa mittausten toistettavuutta, tarkkuutta. Konsistenssi on sitä parempi, mitä vähemmän tulokset poikkeavat toisistaan, kun mittaus toistetaan samoilla havaintoyksiköillä, samoissa olosuhteissa ja niin, että mittauksen kohteena olevan muuttujan arvo ei muutu. Toisin sanoen, konsistenssi on sitä parempi mitä pienempi on mittauksen satunnaisvirhe (random error). Otantatutkimukseen liittyy aina otannasta aiheutuvaa satunnaisvirhettä eli otantavirhettä. Lisäksi satunnaisvirheitä voivat aiheuttaa mittari, mittaaja, mitattava kohde, mittaustilanne, tietojen käsittelyvaihe ym. Tarkimpiinkin laboratoriomittauksiin sisältyy satunnaisvirhettä! Huom. 1 Validiteetin ja konsistenssin ei välttämättä tarvitse liittyä toisiinsa. Mittauksen konsistenssi voi olla hyvä, mutta validiteetti huono. Toisaalta validiin mittaukseen voi liittyä suuri satunnaisvirhe. Ks. Kuva 5. Huom. 2 Konsistenssin sijasta käytetään usein termiä reliabiliteetti (reliability = luotettavuus) ja sanotaan, että mittaus on reliaabelia (luotettavaa), jos satunnaisvirhe on pieni. Tämä termi ei ole kuitenkaan suositeltava siihen sisältyvän käsitesekaannuksen vaaran vuoksi. Vaikka mittauksen konsistenssi olisikin hyvä, sitä ei voi pitää kovin luotettavana, jos sen validiteetti on huono. Vasta kun mittaus on sekä validia että tarkkaa (pieni satunnaisvirhe), se on luotettavaa! 21

23 Kuva 5 (Mellin, 1996) esittää neljän taidoiltaan erilaisen pistooliampujan tuloksia 10 laukauksen sarjassa. Ampumataulun keskusta vastaa mittauksen kohdetta eli mitattavan ominaisuuden todellista arvoa. Yksi laukaus vastaa yhtä mittausta. Kommentoi tuloksia! Kuva 5: Validiteetti ja konsistenssi. 22

24 4 HAVAINTOAINEISTON KUVAILU 4.1 Havaintomatriisi Havaintomatriisiksi (data matrix) kutsutaan havaintoaineiston taulukkomuotoista esitystapaa, joka koostuu riveistä ja sarakkeista. Havaintomatriisi on yleisessä muodossa seuraava: Muuttujat (p kpl) x 1 x 2... x j... x p a 1 x 11 x x 1j... x 1p a 2 x 21 x x 2j... x 2p Havainto yksiköt (n kpl) a i x i1 x i2... x ij... x ip Havaintoyksikön a i profiili..... eli havaintovektori eli tietue a n x n1 x n2... x nj... x np Muuttujan x j arvojen vektori Edellä merkintä x ij = muuttujan x j arvo havaintoyksiköllä a i Kunta- Maa-ala Asukasluku Asukkaita/ numero nimi (km 2 ) maa-ala Akaa Alajärvi Alavieska Alavus Esim. 4.1 Osa suomalaisia kuntia koskevaa havaintoaineistoa. Kun havaintomatriisin sisältämä informaatio pyritään tiivistämään mahdollisimman havainnolliseen ja helposti luettavaan muotoon, käytetään kuvailevaa tilastotiedettä eli taulukoita, graafisia esityksiä ja tunnuslukuja. 23

25 4.2 Yhden muuttujan jakauman graafiset ja taulukkomuotoiset esitykset Pistekuvio ja runko-lehti -kuvio muuttujan tulee olla vähintään välimatka-asteikkoa, sopivat muuttujan jakauman alustaviin tarkasteluihin. Esim. 4.2 Kahdenkymmenenviiden vastasyntyneen lapsen syntymäpituudet (cm) olivat: 45, 51, 50, 55, 54, 49, 52, 54, 52, 51, 51, 49, 48, 50, 51, 50, 51, 47, 53, 48, 51, 49, 51, 53 ja 53. Pistekuvio (dot plot) käytetään yleensä vain, kun havaintoja on vähän, muuttujan arvot sijoitetaan lukusuoralle, soveltuu myös ryhmien vertailuun. A B tyttö syntymäpituus (cm) poika syntymäpituus (cm) Kuva 6: Esimerkin 4.2 syntymäpituuden jakauma A) koko aineistossa ja B) sukupuolittain piste-kuvion avulla esitettynä. Runko-lehti -kuvio (stem and leaf plot) sopii suurellekin aineistolle, muuttujan arvot esitetään suuruusjärjestyksessä, 24

26 esityksen runko-osalle valitaan ka ytetyn mittayksiko n sopiva monikerta: esimerkiksi ykko set, kymmenet, sadat jne, lehtiosaan merkita a n mittaluvun rungolta poisja a nyt osa: esimerkiksi desimaalit, ykko set, kymmenet jne, lehtiosalla esiteta a n yleensa vain yksi numero/havaintoyksikko. The decimal point is at the The decimal point is 1 digit(s) to the right of the Kuva 7: Esimerkin 4.2 syntyma pituuden jakauma kahden erilaisen Rohjelmalla tehdyn runko-lehti -kuvion avulla esitettyna. Seka pistekuviosta etta runko-lehti -kuviosta voi tehda pa a telmia jakauman muodosta, sijainnista ja hajonnasta. Ne myo s paljastavat nopeasti mahdolliset virheelliset ja poikkeavat arvot (outliers) Yksiulotteinen frekvenssijakauma eli suora jakauma Muuttujan x yksiulotteisella frekvenssijakaumalla tarkoitetaan alla esitetyn kaltaista taulukkoa x:n luokat E1 E2... Frekvenssi f1 f2... Suhteellinen frekvenssi (%) %f1 %f2... Ei... fi... %fi... Er Yhteensa fr n %fr 100 Frekvenssi fi kertoo luokkaan Ei kuuluvien lukuma a ra n. Suhteellinen frekvenssi (%) kertoo luokkaan Ei kuuluvien prosenttiosuuden. 25

27 ka y kaikilla mitta-asteikoilla, luokittelu- ja ja rjestysasteikon muuttujalla luokat yleensa valmiina, va limatka- ja suhdeasteikon muuttujille joutuu yleensa ensin suorittamaan arvojen luokittelun. Luokittelussa on hyva muistaa seuraavat ohjeet: jos mahdollista, tasava linen luokitus, sopiva luokkien lukuma a ra lo ytyy yleensa va lilta 3 n 23n, ei mielella a n avoimia luokkia alkuun ja/tai loppuun, luokkava lin pituudeksi sopivan pyo rea luku, esim. 1, 5 tai 10 yksikko a. luokan todellinen alaraja = luokan pyo ristetty alaraja - mittaustarkkuus/2 luokan todellinen yla raja = luokan pyo ristetty yla raja + mittaustarkkuus/2 luokkava lin pituus = luokan todellinen yla raja luokan todellinen alaraja luokkakeskus = (luokan todellinen alaraja + luokan todellinen yla raja)/2 ns. pyöristetyt luokkarajat: mahdolliset mittaluvut: 45-49" 50-54" 55-59" ns. todelliset luokkarajat: [44.5, 49.5[ [49.5, 54.5[ paino (kg) [54.5, 59.5[ Kuva 8: Luokkarajoista: luokitellaan painon havaintoarvoja mittaustarkkuuden ollessa havaintoaineistossa 1 kg. Paino (kg) Yhteensa Frekvenssi Suhteellinen frekvenssi (%) Esim. 4.3 Era a n naisopiskelijaryhma n painon yksiulotteinen frekvenssijakauma. 26

28 4.2.3 Pylväskuvio ja piirakkakuvio Pylväskuvio (bar chart) sopii mm. yksiulotteisen frekvenssijakauman graafiseksi esitykseksi, jos tarkasteltava muuttuja x on luokittelu- tai järjestysasteikkoa, suositus: pylväiden väli % pylvään leveydestä, luokitteluasteikon muuttujalla pylväät on syytä laittaa suuruusjärjestykseen, järjestysasteikon muuttujalla pylväiden järjestystä ei saa vaihtaa, joko vaaka- tai pystypylväskuvio. Esim. 4.4 Asuntojen talotyypin jakauma Oulun kaupungissa (Lähde: Oulun kaupungin tilastollinen vuosikirja 2013). Suhteellinen Talotyyppi Frekvenssi frekvenssi (%) Erillinen pientalo Rivi- tai ketjutalo Asuinkerrostalo Muu tai tuntematon Yhteensä Esitetään talotyypin jakauma pylväskuviona. Asuinkerrostalo Erillinen pientalo Rivi tai ketjutalo Muu tai tuntematon prosenttiosuus Kuva 9: Asuntojen talotyypin jakauma Oulun kaupungissa

29 Piirakkakuvio (pie chart) ympyrä jaetaan sektoreihin ja sektoreiden pinta-alat ovat suoraan verrannollisia kuvattaviin arvoihin, sopii vain prosenttijakauman kuvaamiseen luokittelu- ja järjestysasteikon muuttujille, tieteelliseen esitykseen epätarkka esitysmuoto, sektorit pitäisi laittaa suuruusjärjestykseen, korkeintaan kuusi sektoria, esteettisesti vetoava muoto ja näyttävyys. Asuinkerrostalo Muu tai tuntematon Rivi tai ketjutalo Erillinen pientalo Kuva 10: Asuntojen talotyypin jakauma Oulun kaupungissa Histogrammi, frekvenssimonikulmio ja janakuvio Histogrammi (histogram) - sopii yksiulotteisen frekvenssijakauman graafiseksi esitykseksi, jos tarkasteltava muuttuja x on välimatka- tai suhdeasteikkoa. - tasavälisen luokituksen tilanteessa pylvään korkeus kuvaa havaintojen lukumäärän tai suhteellisen osuuden kyseisessä luokassa. 28

30 15 frekvenssi paino (kg) Kuva 11: Esimerkin 4.3 painojakauma histogrammin avulla esitettynä. Huom. Histogrammissa suorakulmioiden pinta-alojen tulee olla verrannollisia vastaaviin frekvensseihin. Jotta ei-tasavälisen luokituksen tapauksessa näin olisi, on käytettävä ns. korjattuja frekvenssejä (frekvenssitiheyksiä), merk. h i. h i = (f i perusluokkavälin pituus)/ (i. luokan luokkavälin pituus) Perusluokkaväliksi valitaan yleensä lyhin luokka. Katso luentoesimerkki. Frekvenssimonikulmio (frequency polygon) sopii yksiulotteisen frekvenssijakauman graafiseksi esitykseksi, jos tarkasteltava muuttuja x on välimatka- tai suhdeasteikkoa, saadaan, kun yhdistetään pisteet (X i, f i ), missä X i ja f i ovat luokan E i luokkakeskus ja frekvenssi, monikulmion molemmat päätepisteet sijaitsevat x-akselilla ns. nollaluokkien luokkakeskuksissa, 15 frekvenssi paino (kg) Kuva 12: Esimerkin 4.3 painojakauma frekvenssimonikulmion avulla esitettynä. 29

31 Janakuvio (janadiagrammi) voidaan käyttää, jos muuttuja x on diskreetti ja vähintään välimatkaasteikkoa ja saa vain muutamia erillisiä arvoja. korostaa kuvattavan muuttujan diskreettiä luonnetta Esim. 4.5 Eräässä taloyhtiössä sijaitsevien asuntojen huoneistotyypin jakauma oli seuraava: Huoneiden Suhteellinen lukumäärä Frekvenssi frekvenssi (%) Yhteensä Alla kyseinen jakauma janakuvion avulla esitettynä. frekvenssi asunnon huoneiden lukumäärä Kuva 13: Taloyhtiössä sijaitsevien asuntojen huoneistotyypin jakauma Laatikko-jana -kuvio (boxplot, box and whiskers plot) voidaan muodostaa välimatka- ja suhdeasteikon muuttujille, määrätään (yksinkertaisimmassa versiossa!) minimin, maksimin, mediaanin sekä ala- ja yläkvartiilin avulla (ks. mediaanista ja kvartiileista luvusta 4.3.1), 30

32 sopii käytettäväksi erityisesti silloin, kun halutaan vertailla muuttujan jakaumia eri ryhmissä, voidaan muodostaa vaaka- tai pystykuviona. tytöt outlier pojat min Q 1 Md Q 3 max syntymäpituus (cm) Kuva 14: Esimerkin 4.2 syntymäpituuksien sukupuolittaiset jakaumat Summajakauma ja summakäyrä Summajakauman (cumulative frequency distribution) muodostaminen on mielekästä vähintään järjestysasteikkoa oleville muuttujille, summajakauman graafinen esitystapa, summakäyrä (cumulative curve), edellyttää välimatka- tai suhdeasteikon muuttujaa. Summafrekvenssi F i kertoo, kuinka monta havaintoa kuuluu kyseiseen luokkaan ja sitä edeltäviin luokkiin. Kun tunnetaan muuttujan frekvenssijakauma, summajakauman muodostaminen on hyvin helppoa (yksi lisäsarake taulukkoon). Ns. absoluuttisten summafrekvenssien lisäksi voidaan ilmoittaa myös suhteelliset summafrekvenssit. x:n luokat Frekvenssi Suht. frekvenssi (%) Summafrekvenssi Suht. summafrekvenssi E 1 f 1 %f 1 F 1 = f 1 %F 1 = %f 1 E 2 f 2 %f 2 F 2 = f 1 + f 2 %F 2 = %f 1 + %f E r f r %f r F r = n %F r = 100 yht. n 100 Summakäyrä saadaan yhdistämällä janoilla pisteet (luokan E i todellinen yläraja, luokan E i summafrekvenssi tai prosenttinen summafrekvenssi). Summakäyrä lähtee x-akselilta ensimmäisen luokan todellisesta alarajasta. 31

33 Esim. 4.6 Muodostetaan esimerkin 4.3 naisopiskelijaryhmän painon yksiulotteinen frekvenssi- ja summajakauma ja esitetään se graafisesti. Suhteellinen Summa- Suhteellinen summa- Paino (kg) Frekvenssi frekvenssi (%) jakauma jakauma (%F) Yhteensä summafrekvenssi pituus (cm) Huom. Jos kyseessä on diskreetti, vähintään välimatka-asteikkoa oleva muuttuja, joka saa vain muutamia erillisiä arvoja, summajakauma esitetään graafisesti porraskuvion avulla. Esim. 4.7 Muodostetaan esimerkin 4.5 asuntojen huoneistotyypin yksiulotteinen frekvenssi- ja summajakauma ja esitetään se graafisesti. Huoneiden Suhteellinen Summa- Suhteellinen summalukumäärä Frekvenssi frekvenssi (%) frekvenssi frekvenssi (%F) Yhteensä

34 prosenttinen summafrekvenssi asunnon huoneiden lukumäärä Kuva 15: Taloyhtiön asuntojen huoneistotyypin prosenttinen summajakauma. 4.3 Yhden muuttujan jakaumaa kuvaavia tunnuslukuja Edellä käsiteltyjen graafisten ja taulukkomuotoisten esitysten lisäksi muuttujan jakaumaa on tapana luonnehtia erilaisten tunnuslukujen avulla. Yhden muuttujan jakauman tunnusluvut voidaan jakaa sijaintia (location), hajontaa (dispersion, spread, variability), vinoutta (skewness) ja huipukkuutta (kurtosis) kuvaaviin. Näistä yleisimmin käytössä ovat sijaintia ja hajontaa kuvaavat tunnusluvut Sijainnin tunnusluvut Sijainnin tunnusluvut, lyhyesti sijaintiluvut, kuvaavat nimensä mukaisesti jollakin tavalla jakauman sijaintia. Sijaintilukuihin luetaan keskiluvut ja fraktiilit. Keskiluvut ilmaisevat jakauman keskimääräistä tai tyypillistä arvoa tai luokkaa. Keskilukuja ovat mm. moodi, mediaani, aritmeettinen keskiarvo, geometrinen keskiarvo ja harmoninen keskiarvo. Moodi eli tyyppiarvo (mode) Mo Moodi on se muuttujan arvo (tai luokka), joka esiintyy useimmin. Toisin sanoen, se muuttujan arvo (tai luokka), jonka frekvenssi on suurin. käy kaikilla mitta-asteikoilla, ainoa luokitteluasteikolle sopiva keskiluku, 33

35 käytetään lähinnä luokittelu- ja järjestysasteikon muuttujille, ei ole aina yksikäsitteinen. Huom. Jos kyseessä on välimatka- tai suhdeasteikkoa oleva muuttuja, jonka arvot on tasavälisesti luokiteltu, i) moodiksi voidaan ottaa suurinta frekvenssiä vastaavan luokan ns. moodiluokan luokkakeskus tai ii) määrätä moodi graafisesti histogrammista. Mediaani (median) Md Tarkastellaan vähintään järjestysasteikon muuttujan x suuruusjärjestykseen asetettuja havaintoarvoja x (1), x (2),..., x (n). x (1) = pienin arvo,..., x (n) = suurin. a) Jos n on pariton, mediaani on keskimmäinen havaintoarvo (tai vastaava luokka). Md = x ((n+1)/2) b) Jos n on parillinen, mediaani on jompikumpi keskimmäisistä havaintoarvoista (tai niitä vastaavista luokista) järjestysasteikolla; vähintään välimatkaasteikkoa olevalle muuttujalle mediaani on kahden keskimmäisen havaintoarvon keskiarvo. Md = (x (n/2) + x (n/2+1) )/2 Huom. Jos kyseessä on välimatka- tai suhdeasteikkoa oleva muuttuja, jonka arvot on luokiteltu, i) mediaaniksi voidaan ottaa mediaaniluokan (se luokka, jossa summafrekvenssi ensimmäisen kerran vähintään n/2 (50%)) luokkakeskus tai ii) määrätä mediaani graafisesti summakäyrän avulla. Alakvartiili (lower quartile) Q 1 ja yläkvartiili (upper quartile) Q 3 Alakvartiili ja yläkvartiili ovat mediaanin luonteisia sijaintia kuvaavia tunnuslukuja. 34

36 Alakvartiili = se muuttujan arvo, jota pienempiä on korkeintaan neljäsosa (25 %) muuttujan arvoista ja jota suurempia on korkeintaan kolme neljäsosaa (75%) muuttujan arvoista. Yläkvartiili = se muuttujan arvo, jota pienempiä on korkeintaan kolme neljäsosaa (75%) muuttujan arvoista ja jota suurempia on korkeintaan neljäsossa (25%). Kvartiilien määrääminen havaintoaineistosta tapahtuu periaatteessa samalla tavalla kuin mediaanin määrääminen. Katso luentoesimerkki. prosenttinen summafrekvenssi % 50 % 25 % Q 1 Md Q 3 paino (kg) Kuva 16: Esimerkki kvartiilien määräämisestä luokitellun aineiston tapauksessa. Alakvartiili, mediaani ja yläkvartiili jakavat aineiston neljään yhtä suureen osaan (tosin laskennallisista syistä aivan tarkasti näin ei kuitenkaan kaikkien muuttujien kohdalla ole!) ja näiden kolmen tunnusluvun ryhmää kutsutaan kvartiileiksi. Samaa ideaa voidaan yleistää ja puhua kvintiileistä, kun aineisto jaetaan viidesosiin, desiileistä, kun aineisto jaetaan kymmenesosiin jne. Yhteisellä nimellä näitä aineiston osiin jakavia tunnuslukuja sanotaan fraktiileiksi (fractiles). p-prosentin fraktiili on sellainen muuttujan arvo, että sitä pienempiä on korkeintaan p prosenttia ja sitä suurempia on korkeintaan 100 p prosenttia. 35

37 Aritmeettinen keskiarvo (mean) x Vähintään välimatka-asteikon muuttujan x havaintoarvojen x 1, x 2,..., x n aritmeettinen keskiarvo x on x = 1 n (x 1 + x x n ) = 1 n n x i. Luokitellulle aineistolle aritmeettinen keskiarvo lasketaan kaavalla i=1 x = 1 n (f 1X 1 + f 2 X f r X r ) = 1 n r f i X i, i=1 jossa X i on i. luokan luokkakeskus ja f i vastaava frekvenssi. i = 1, 2,..., r. Geometrinen keskiarvo G ja harmoninen keskiarvo H soveltuvat käytettäväksi vain suhdeasteikolla, käytetään joissain erikoistapauksissa esim. indeksilukujen yhteydessä. Olkoon muuttujan x havaintoarvot x 1, x 2,..., x n. x:n geometrinen keskiarvo G määritellään G = n x 1 x 2... x n ja x:n harmoninen keskiarvo H H = 1 ( ) = n n n x 1 x 2 x n i=1. 1 Kun geometrisesta keskiarvosta otetaan logaritmi, saadaan x i log G = 1 n n log x i, i=1 josta nähdään, että log G on lukujen log x i aritmeettinen keskiarvo. Huom. Aina pätee, että H G x. 36

38 Aritmeettista keskiarvoa laskettaessa ovat keskiarvon määräävässä summassa painavimmassa asemassa suuret havaintoarvot ja lähellä nollaa olevat arvot ovat miltei merkityksettömiä. Harmonisessa keskiarvossa on eri havaintojen merkitys päinvastainen, sillä yhteenlasku rakentuu havaintoarvojen käänteislukuihin. Geometrinen keskiarvo suhtautuu suuruusluokkaeroihin tasapuolisesti. Yhteenveto keskiluvuista Valittaessa sopivaa keskilukua erityisesti välimatka- tai suhdeasteikkoa olevalle muuttujalle on hyvä muistaa, että aritmeettinen keskiarvo on herkkä poikkeaville arvoille, mediaani ei. Niinpä, jos aineistossa on poikkeavia arvoja, aritmeettisen keskiarvon lisäksi/sijasta kannattaa keskilukuna käyttää mediaania. Mediaani on helppo ymmärtää, olipa jakaumassa poikkeavia arvoja tai ei; mediaania pienempiä ja suurempia on yhtä monta, koska mediaani on keskimmäinen havaintoarvo. Esimerkkinä tulojakaumat Hajontaluvut Hajontaluvut pyrkivät kuvaamaan havaintoarvojen vaihtelun määrää. Hajontalukuja ovat mm. vaihteluväli, vaihteluvälin pituus, kvartiiliväli, kvartiilivälin pituus, keskihajonta, varianssi, keskipoikkeama, variaatiokerroin ja entropiasuhde. Vaihteluväli W ja vaihteluvälin pituus (range) w Vaihteluväli voidaan määrätä vähintään järjestysasteikkoa olevalle muuttujalle. W = (pienin arvo, suurin arvo) Jos muuttuja on välimatka- tai suhdeasteikkoa ja luokiteltu, pienimmäksi arvoksi otetaan ensimmäisen varsinaisen luokan todellinen alaraja ja suurimmaksi arvoksi viimeisen varsinaisen luokan todellinen yläraja. Vaihteluvälin pituus voidaan määrätä, jos muuttuja on vähintään välimatkaasteikkoa. w = suurin arvo pienin arvo 37

39 Kvartiiliväli Q ja kvartiilivälin pituus (interquartile range) Q Kvartiiliväli voidaan määrätä vähintään järjestysasteikkoa olevalle muuttujalle: Q = (Q 1, Q 3 ) = (alakvartiili, yläkvartiili) Jos muuttuja on välimatka- tai suhdeasteikkoa ja luokiteltu, kvartiilit voi määrätä graafisesti summakäyrän avulla (katso sivu 34). Kvartiilivälin pituus voidaan määrätä, jos muuttuja on vähintään välimatkaasteikkoa: Q = Q 3 Q 1 Keskihajonta eli standardipoikkeama (standard deviation) s, varianssi (variance) s 2 ja variaatiokerroin (coefficient of variation) V Vähintään välimatka-asteikon muuttujan x havaintoarvojen x 1, x 2,..., x n keskihajonta on s = 1 n 1 n (x i x) 2 i=1 Täten n:n luvun keskihajonta saadaan määräämällä lukujen niiden omasta keskiarvosta määrättyjen poikkeamien neliöiden summa, jakamalla summa (n 1):llä ja ottamalla osamäärästä neliöjuuri. Huom. 1 Perustelu sille, että jakajana käytetään n:n sijasta (n 1):tä, on luonteeltaan teoreettinen ja siihen palataan myöhemmin estimoinnin yhteydessä. Itse asiassa valinnalla n tai (n 1) ei ole kovin suurta vaikutusta keskihajonnan arvoon ja sitä vähemmän, mitä suurempi on n. Huom. 2 s:n kaava voidaan esittää myös muodossa ( n ) 2 ( n s = 1 x i ) x 2 i n 1 i=1 n i=1 38

40 Huom. 3 Olkoon y i = ax i + b, ȳ = a x + b ja s y = a s x. i = 1, 2,..., n, a ja b reaalilukuja. Tällöin Luokitellulle aineistolle keskihajonta lasketaan kaavalla s = 1 n 1 r f i (X i x) 2, i=1 jossa X i on i. luokan luokkakeskus ja f i vastaava frekvenssi. i = 1, 2,..., r. Keskihajonnan neliötä s 2 sanotaan varianssiksi. Varianssilla on käyttöä erityisesti teoreettisissa tarkasteluissa. Keskihajonta ja varianssi (kuten myös aiemmin käsitellyt hajontaluvut) ovat muuttujan mittayksiköstä riippuvia. Variaatiokerroin V = s/ x Variaatiokerroin on sen sijaan mittayksikösta riippumaton hajontaluku. Variaatiokertoimen avulla voidaankin vertailla eri mittayksiköissä mitattujen muuttujien vaihtelun suuruutta esimerkiksi karhujen, koirien ja kolibrien painojen vaihtelua. Variaatiokertoimen käyttö edellyttää suhdeasteikollista mittausta. Standardointi Keskiarvon ja keskihajonnan avulla voidaan muodostaa muuttujan x ns. standardoidut arvot merk. z i, z i = x i x, i = 1, 2,..., n. s Standardoitu arvo z i ilmaisee havaintoarvon x i ja aineiston keskiarvon välisen etäisyyden keskihajontaa yksikkönä käyttäen. Standardoitu muuttuja z on riippumaton alkuperäisen muuttujan x mittayksiköstä. Standardoitujen arvojen avulla voidaan vertailla esimerkiksi henkilön suorituksia eri testeissä tai kokeissa. Voidaan osoittaa, että z = 0 ja s z = 1. 39

41 4.3.3 Vinous- ja huipukkuusluvut Va hinta a n va limatka-asteikkoa olevan muuttujan x jakauman muotoa voidaan kuvailla vinousmitan g1 (skewness) ja huipukkuusmitan g2 (kurtosis) avulla. Vinousmitta g1 ja huipukkuusmitta g2 ma a ritella a n kaavoilla g1 = m3 s3 ja g2 = m4 3, s4 n jossa mk = 1X (xi x )k on nk. k. keskusmomentti ja s on keskihajonta. n i=1 Symmetriselle jakaumalle g1 = 0, oikealle vinolle (right-skewed ) jakaumalle positiivinen ja vasemmalle vinolle (left-skewed ) jakaumalle negatiivinen. vasemmalle vino g1 < 0 (likimain) symmetrinen g1» 0 oikealle vino g1 > 0 Huipukkuusmitta g2 = 0 normaalijakaumalle, positiivinen positiivisesti huipukkaalle (leptokurtic) jakaumalle ja negatiivinen negatiivisesti huipukkaalle (platykurtic) jakaumalle. HUIPUKKUUS normaalijakauman kaltainen: g2 = 0 negatiivisesti huipukas: g2 < 0 positiivisesti huipukas: g2 < 0 40

42 5 TODENNA KO ISYYSLASKENTAA 5.1 Todenna ko isyyden ka site Satunnaisilmio [satunnaiskoe] on ilmio, johon liittyy useita eri tulosmahdollisuuksia ja tarkastelijan kannalta epa varmuutta siita, mika tulos on ollut tai tulee olemaan. Ta ta satunnaisilmio o n liittyva a epa varmuutta pyrita a n arvioimaan todenna ko isyyksien (probabilities) avulla. Ennen todenna ko isyys-ka sitteen tarkempaa ma a rittelya otetaan ka ytto o n seuraavat satunnaisilmio o n liittyva t merkinna t ja nimitykset: E = perusjoukko eli otosavaruus (sample space) = kaikkien mahdollisten tulosten joukko = alkeistapahtumien joukko E:n osajoukkoja sanotaan tapahtumiksi (event), merk. A, B, C jne. Sanotaan, etta tapahtuma A esiintyy, jos satunnaisilmio n tulos on sellainen, etta se kuuluu tapahtumaa A vastaavaan tulosjoukkoon. E = varma tapahtuma = mahdoton tapahtuma A B = A tapahtuu tai B tapahtuu tai molemmat tapahtuvat A B = A ja B tapahtuu A = Ac = A:n komplementti = A ei tapahdu Edella mainittuja tapahtumia voidaan havainnollistaa Venn-diagrammien avulla. E E E AC A B AÈB A B AÇB A AC Esimerkkeja satunnaisilmio ista ja niihin liittyvista tapahtumista a) Heiteta a n noppaa kerran ja tarkastellaan saatavaa silma lukua. E ={1, 2, 3, 4, 5, 6} Esimerkiksi A ={silma luku parillinen} = {2, 4, 6} 41

43 b) Heitetään kolikkoa kahdesti ja tarkkaillaan saatavaa tulosparia. E = {(kr,kr),(kr,kl),(kl,kr),(kl,kl)} Esimerkiksi A = {ainakin yksi klaava}= {(kr,kl),(kl,kr),(kl,kl)} c) Valitaan yksi arpa sadan arvan joukosta ja tarkastellaan saatavan arpalipun numeroa. E = {1, 2, 3,..., 100} Esimerkiksi A = {numero väliltä 77-86} d) Valitaan haastateltava satunnaisesti 1000 henkilön joukosta ja tarkastellaan esitettyyn asennekysymykseen saatavaa vastausta. E = {täysin samaa mieltä, joks. samaa mieltä, ei samaa eikä eri mieltä, joks. eri mieltä, täysin eri mieltä} Esimerkiksi A = {joks. tai täysin eri mieltä} Huom. Alkeistapaukset voidaan useissa satunnaisilmiöissä valita eri tavoin. On olemassa useita erilaisia todennäköisyyden tulkintoja. Itse asiassa todennäköisyys on syvällinen filosofinen käsite, jonka tulkinnasta on kirjoitettu kokonaisia kirjoja. Rajankäynti eri tulkintojen välillä käy lähinnä seuraavan kysymyksen perusteella: Onko kaikki epävarmuus mitattavissa? Voiko kaikkea epävarmuutta kuvata todennäköisyyden avulla? Jos ei, niin missä tilanteessa voi? Seuraavassa esitellään lyhyesti kolme yleisintä todennäköisyyden tulkintaa: klassinen todennäköisyys, frekvenssitodennäköisyys ja subjektiivinen todennäköisyys. Klassinen todennäköisyys Oletetaan, että perusjoukossa E on n kappaletta tulosmahdollisuuksia (alkeistapahtumia), jotka ovat yhtä mahdollisia (yhtä todennäköisiä, symmetrisiä) ja oletetaan, että tapahtumaan A johtaa k kappaletta näistä tulosmahdollisuuksista (eli A:lla on k suotuista tulosta). Tällöin tapahtuman A todennäköisyys, merk. P(A), on P(A) = k n = A:lle suotuisten tulosten lkm kaikkien tulosten lkm Klassinen todennäköisyys sopii vain harvoihin tilanteisiin (peli- ja arpomistilanteet). Frekvenssitodennäköisyys (tilastollinen todennäköisyys) Frekvenssitodennäköisyyden käsitettä voidaan käyttää tilanteissa, joissa tarkasteltava satunnaisilmiö on luonteeltaan toistokoe eli sellainen koe, että 42

44 se voidaan haluttaessa toistaa samankaltaisissa olosuhteissa mielivaltaisen monta kertaa. Toistetaan koetta n kertaa. Olkoon silloin f n (A) = A:n sattumisten lkm n toistossa ja P n (A) = f n(a) n Jos n:n kasvaessa P n (A) lähestyy jotakin lukua, merk. P(A), niin tätä lukua sanotaan tapahtuman A todennäköisyydeksi. Useat empiiriset ilmiöt voidaan kuvitella toistokokeen tuottamiksi. Esim. kaikki edellä annettujen esimerkkien satunnaisilmiöt voidaan ajatella toistokokeiksi. Ongelmana frekvenssitodennäköisyyttä käytettäessä on, miten tunnistaa samankaltaiset olosuhteet. Subjektiivinen todennäköisyys Subjektiivisen todennäköisyyden tulkinnan mukaan todennäköisyys ei ole millään tavalla objektiivinen vaan aina täysin subjektiivinen, henkilön omia uskomuksia tai uskon astetta ilmentävä käsite. Tämän tulkinnan mukaan aina kun henkilö joutuu tilanteeseen, johon hänen kannaltaan liittyy epätietoisuutta joidenkin asioiden tai tapahtumien suhteen, hän arvioi erilaisten vaihtoehtojen todennäköisyydet täysin subjektiivisesti omien tietojensa ja käsitystensä perusteella. Subjektiivinen todennäköisyys sopii kaikkiin ilmiöihin, ei vain toistokokeen kaltaisiin ilmiöihin. Ongelmana on, että sen arvo riippuu monesta arvaamattomasta tekijästä. 5.2 Todennäköisyyslaskennan laskusääntöjä Sekä klassisella todennäköisyydellä että frekvenssitodennäköisyydellä on seuraavat perusominaisuudet: 1) 0 P(A) 1 2) Jos tapahtumat A ja B ovat toisensa poissulkevia (mutually exclusive) ts. A B =, niin P(A B) = P(A) + P(B) 3) P(E) = 1 ts. varman tapahtuman todennäköisyys = 1 Huom. Myös subjektiivisen todennäköisyyden oletetaan toteuttavan edellä mainitut ominaisuudet. 43

45 Ominaisuuksien 1) - 3) avulla voidaan johtaa seuraavat tulokset (laskusäännöt): a) P( ) = 0 ts. mahdottoman tapahtuman todennäköisyys = 0 b) P(Ā) = P(Ac ) = 1 P(A) c) P(A B) = P(A) + P(B) P(A B) (yleinen yhteenlaskusääntö) d) Jos A B, niin P(A) P(B) e) Jos tapahtumat A 1, A 2,..., A k ovat pareittain toisensa poissulkevia eli mitkään kaksi tapahtumaa eivät voi esiintyä samanaikaisesti, niin P(A 1 A 2 A k ) = P(A 1 ) + P(A 2 ) + + P(A k ) Ehdollinen todennäköisyys Taskastellaan kahta samaan satunnaisilmiöön liittyvää tapahtumaa A ja B. Todennäköisyyttä, että A tapahtuu, kun B on tapahtunut, sanotaan ehdolliseksi todennäköisyydeksi ja merkitään P(A B) (luetaan: A:n todennäköisyys ehdolla B). Ehdolliselle todennäköisyydelle pätee, jos P(B) > 0 P(A B) = P(A B) P(B) Ehdollisen todennäköisyyden kaavasta saadaan yleinen kertolaskusääntö: P(A B) = P(B)P(A B) Tapahtumia A ja B sanotaan riippumattomiksi, jos P(A B) = P(A), mikä on yhtäpitävä sen kanssa, että P(B A) = P(B) samoin kuin sen kanssa, että P(A B) = P(A)P(B) (kertolaskusääntö riippumattomille tapahtumille) Yleistys: Jos A 1, A 2,..., A k ovat riippumattomia tapahtumia, P(A 1 A 2 A k ) = P(A 1 )P(A 2 )... P(A k ). Huom. Tapahtumien toisensa poissulkevuus ja tapahtumien riippumattomuus eivät tarkoita samaa asiaa. Päinvastoin: toisensa poissulkevat tapahtumat eivät välttämättä ole riippumattomia. 44

46 Edellä on tarkasteltu aina yhtä satunnaisilmiötä ja tähän ilmiöön liittyviä tapahtumia. Toisaalta voidaan monesti ajatella ilmiön muodostuvan yhdisteenä kahdesta tai useammasta ilmiöstä, jolloin voidaan puhua yhdistetystä ilmiöstä. Yhdistetyn ilmiön tarkasteleminen yhtenä itsenäisenä ilmiönä on mahdollista, mutta yhdistetyn ilmiön todennäköisyyksiä määrättäessä saattaa olla hyödyllistä ajatella ilmiö yhdisteenä useammasta eri ilmiöstä. Yhdistetyn ilmiön osailmiöt voivat olla toistensa suhteen joko riippumattomia tai riippuvia. Satunnaisilmiöt ovat riippumattomia, jos ilmiöiden tulokset tai niiden esiintyminen eivät riipu toisistaan. Esimerkiksi yksinkertainen satunnaisotanta palauttamalla tuottaa toisistaan riippumattomia havaintoja. Silloin, kun yhdistetyn ilmiön osailmiöiden ajatellaan ajallisesti seuraavan toisiaan, voi ajallisesti edeltävän ilmiön tai ajallisesti edeltävien ilmiöiden tuloksista riippua, mitä tai millä todennäköisyydellä eri tuloksia voi myöhemmissä ilmiöissä esiintyä. Osailmiöiden sanotaan tällöin olevan toisistaan riippuvia. Esimerkiksi yksinkertainen satunnaisotanta palauttamatta tuottaa toisistaan riippuvia havaintoja. 45

47 5.3 Satunnaismuuttujat ja todenna ko isyysjakaumat Tarkastellaan jotain satunnaiskoetta (-ilmio ta ). Siihen liittyva satunnaismuuttuja (random variable) on mika tahansa numeerinen muuttuja, jonka arvon (suuruuden) satunnaiskokeen tulos ma a ra a. Satunnaismuuttujia merkita a n ta lla kurssilla (erotukseksi niiden arvoista ja ei-satunnaisista muuttujista) isoilla kirjaimilla, esim. X, Y, Z jne. Satunnaismuuttujan X arvoja ovat x1, x2,... ja niita merkita a n pienilla kirjaimilla ilman alleviivausta Diskreetit eli epa jatkuvat satunnaismuuttujat ja niiden todenna ko isyysjakaumat Satunnaismuuttujaa X sanotaan diskreetiksi eli epa jatkuvaksi (discrete), jos X:n mahdollisten arvojen joukko on a a rellinen tai numeroivasti a a reto n. Esim. kaikki lukuma a ria osoittavat satunnaismuuttujat ovat diskreetteja. Diskreetin satunnaismuuttujan X todenna ko isyysjakauma (probability distribution) muodostuu muuttujan mahdollisista arvoista x1, x2,... ja niihin liittyvista pistetodenna ko isyyksista p1, p2,..., jossa p1 = P(X = x1 ), p2 = P(X = x2 ), jne. Huom. Todenna ko isyyksien summan X pi tulee aina olla = 1. i Jos satunnaismuuttujalla X on a a rellinen ma a ra arvoja, todenna ko isyysjakauma voidaan esitta a seuraavassa muodossa: xi pi x1 p1 x2 p2 x3 p xk pk P 1 X:n todenna ko isyysjakauma esiteta a n graafisesti janadiagrammin avulla. todennäköisyys p3 p4 p2 p1 pk x1 x2 x3 x4 x 46 xk

48 X:n kertyma funktioksi F (cumulative distribution function) sanotaan funktiota, joka liitta a jokaiseen reaalilukuun todenna ko isyyden, etta X saa x:n suuruisen tai sita pienemma n arvon ts. F (x) = P(X x) = X pi xi x ja se esiteta a n tarkemmin seuraavasti: 0, p1, p1 + p 2, F (x) =... 1, kun x < x1 kun x1 x < x2 kun x2 x < x3 kun x xk Huom. Kertyma funktio on ei-va heneva, oikealta jatkuva ja jokaisella x:n arvolla 0 F (x) F(x) x1 x2 x3 x4 x7 x X:n tunnusluvut: Odotusarvo (mean) : µ = E(X) = k X xi p i i=1 2 2 Varianssi (variance): σ = D (X) = k X 2 (xi µ) pi = k X i=1 Keskihajonta (standard deviation) : σ = D(X) = x2i pi µ2 i=1 σ2 Muut tunnusluvut, esimerkiksi moodi, mediaani ja fraktiilit, lasketaan samaan tapaan kuin aikaisemmin. 47

49 Satunnaismuuttujien funktiot Olkoon g(x) satunnaismuuttujan X jokin funktio, esim. g(x) = X 2, g(x) = 3X 4, g(x) = ax + b, jossa a ja b ovat mielivaltaisia reaalilukuja. Tällöin g(x) on myös itse satunnaismuuttuja ja sen todennäköisyysjakauma määräytyy X:n todennäköisyysjakauman avulla. Jos g on kahden tai useamman satunnaismuuttujan funktio, esimerkiksi g(x, Y ) = X + Y, g(x 1, X 2,..., X n ) = X 1 + X X n, g on myös nyt satunnaismuuttuja ja sen todennäköisyysjakauma määräytyy kyseisten satunnaismuuttujien yhteistodennäköisyysjakauman avulla. Satunnaismuuttujien funktioita koskevia tuloksia odotusarvon ja varianssin osalta 1) E(a) = a, a on reaalilukuvakio, 2) E(aX + b) = ae(x) + b, a ja b reaalilukuvakioita, 3) E(X + Y ) = E(X) + E(Y ), 4) E(X 1 + X X n ) = E(X 1 ) + E(X 2 ) + + E(X n ), 5) Jos X ja Y ovat riippumattomia, E(X Y ) = E(X) E(Y ), 6) D 2 (a) = 0, 7) D 2 (ax + b) = a 2 D 2 (X), 8) Jos X ja Y ovat riippumattomia, D 2 (X + Y ) = D 2 (X) + D 2 (Y ), 9) Jos X 1, X 2,..., X n ovat riippumattomia, D 2 (X 1 + X X n ) = D 2 (X 1 ) + D 2 (X 2 ) + + D 2 (X n ). Huom. Edellä mainitut tulokset ovat voimassa sekä diskreeteille että jatkuville satunnaismuuttujille. 48

50 5.3.2 Bernoulli-jakauma Tarkastellaan toistokoetta E ja sen tapahtumaa A. Suoritetaan koe E yhden kerran ja määritellään satunnaismuuttuja Y siten, että { 1, jos A esiintyy Y = 0, jos A ei esiinny ts. A c esiintyy Tarkasteltavassa kokeessa on siis vain kaksi tulosvaihtoehtoa: nolla tai yksi. Oletetaan lisäksi, että P(A) = P(Y = 1) = p, jolloin P(A c ) = P(Y = 0) = 1 p = q. Y :n jakaumaa sanotaan nyt Bernoulli-jakaumaksi parametrilla p, merk. Y Bern(p). Y :n todennäköisyysjakauma on siis muotoa: y i 0 1 p i 1 p p 1 Odotusarvo ja varianssi ovat E(Y ) = 1 p + 0 (1 p) = p ja D 2 (Y ) = (1 p) 2 p + (0 p) 2 (1 p) = p (1 p) Esim. 4.1 Heitetään noppaa kerran ja tarkastellaan tapahtumaa A = {silmäluku 5}. Määritellään { 1, jos A esiintyy ts. silmäluku 5 Y = 0, jos A ei esiinny ts. silmäluku jokin muu kuin 5 P(A) = P(Y = 1) = p = 1/6 ja Y Bern(1/6) E(Y ) = 1/6 = ja D 2 (Y ) = 1/6(1 1/6) = Muita diskreettejä jakaumia ovat mm. Binomijakauma ja Poisson-jakauma, jotka käsitellään Tilastotieteen jatkokurssilla (806119P). 49

51 5.3.3 Jatkuvat satunnaismuuttujat ja niiden todennäköisyysjakaumat Satunnaismuuttujaa X sanotaan jatkuvaksi (continuous), jos se voi saada mitä tahansa reaalilukuarvoja joltakin reaalilukuväliltä esim. pituus. Koska X:n mahdollisten arvojen joukko on näin ollen ääretön, ei X:n todennäköisyysjakaumaa voida esittää samalla tavalla kuin diskreetille satunnaismuuttujalle luettelemalla muuttujan mahdolliset arvot ja niihin liittyvät todennäköisyydet. Jatkuvan satunnaismuuttujan todennäköisyysjakauma ilmaistaan tiheysfunktion merk. f(x) (probability density function) tai kertymäfunktion F (x) (cumulative distribution function) avulla. Tiheysfunktion käsitettä voidaan intuitiivisesti havainnollistaa seuraavasti: Olkoon X jatkuva satunnaismuuttuja esim. jonkin tehtävän suorittamiseen kuluva aika. Ajatellaan piirretyksi X:n arvojen luokitukseen perustuva histogrammi (seuraavan sivun kuva a) siten, että kunkin välin kohdalle piirretty pylväs pinta-alaltaan kuvaa todennäköisyyttä sille, että X saa arvon kyseiseltä väliltä. Jotta kaikkien pylväiden pinta-alojen summa olisi = 1, kunkin pylvään korkeuden tulee olla = ko. luokan suhteellinen frekvenssi ko. luokan luokkavälin pituus = ko. luokan suhteellinen frekvenssitiheys (relative frequency density) Kuva b on muodostettu samoin kuin kuva a, mutta X:n luokitus on tiheämpi. Jos kuvassa a luokkavälin pituus on 10 sekuntia, kuvassa b se on 5 sekuntia. Kun luokitus suoritetaan aina vain tiheämpänä, histogrammin pylväiden huiput asettuvat yhä tarkempaan tietyn jatkuvan käyrän muotoon. Tämä jatkuva käyrä on X:n tiheysfunktion kuvaaja (kuva c) ja siten käyrää kuvaava funktio = X:n tiheysfunktio. 50

52 Tiheysfunktiolla f(x) on seuraavat ominaisuudet: 1) f(x) 0 kaikilla x:n arvoilla, 2) Todennäköisyys, että X saa esim. välille [a, b] kuuluvan arvon lasketaan pinta-alana, joka jää tiheysfunktion f(x) ja x-akselin väliin rajoina a ja b ts. P(a X b) = b a f(x)dx. 3) f(x):n ja x-akselin väliin jäävän alueen pinta-ala = 1 ts. P( X + ) = + f(x)dx = 1. 51

53 Huom. Jatkuvan satunnaismuuttujan X minkä tahansa yksittäisen arvon x todennäköisyys on = 0 ts. P(X = x) = 0 (Miksi?). Tästä syystä esim. P(X a) = P(X < a) ja P(a X b) = P(a < X b) = P(a X < b) = P(a < x < b). Jatkuvan satunnaismuuttujan X kertymäfunktio F määritellään samaan tapaan kuin diskreetille satunnaismuuttujalle, mutta lasketaan tiheysfunktiosta integroimalla. F (x) = P(X x) = x f(t)dt. Näin ollen kertymäfunktion F arvo pisteessä x on tiheysfunktion kuvaajan ja x-akselin kohdan x vasemmalle puolelle rajaaman alueen ala. 52

54 Huom. P(X a) = 1 P(X a) = 1 F (a) P(a X b) = P(X b) P(X a) = F (b) F (a). Kertymäfunktion F (x) kuvaaja on yhtenäinen ykkösen korkeudelle nouseva käyrä. Huom. Jos tunnetaan jatkuvan satunnaismuuttujan X kertymäfunktio F, X:n tiheysfunktio f(x) saadaan derivoimalla, f(x) = F (x). 53

55 Tiheysfunktion f(x) ja kertymäfunktion F (x) yhteyttä havainnollistaa seuraava kuvio: X:n tunnusluvut: odotusarvo (mean): µ = E(X) = varianssi (variance): σ 2 = D 2 (X) = (x µ) 2 f(x)dx = xf(x)dx keskihajonta (standard deviation): σ = D(X) = σ 2 x 2 f(x)dx µ 2 Huom. σ 2 = E(X µ) 2 = E(X 2 ) µ 2. 54

56 5.3.4 Eräitä jatkuvia jakaumia 1. Normaalijakauma (normal distribution) tärkein ja käytetyin jakauma, esitti ensimmäisenä De Moivre ( ), myöhemmin Marquis de Laplace ( ) ja Carl Friedrich Gauss ( ), normaalijakaumaa kutsutaan joskus myös Gaussin jakaumaksi. Satunnaismuuttuja X noudattaa normaalijakaumaa parametrein µ ja σ 2, merk. X N(µ, σ 2 ), jos X:n tiheysfunktio on muotoa f(x) = 1 σ (x µ) 2 2π e 2σ 2, jossa < x <, π = , e = , µ = E(X) = X:n odotusarvo, σ 2 = D 2 (X) = X:n varianssi. Normaalijakauma: µ = 4, σ = 1 f(x) x Normaalijakauma: µ = 8, σ = 1 f(x) x Normaalijakauma: µ = 8, σ = 2 f(x) x Kuva 5.2 Normaalijakauman tiheysfunktion kuvaajia eri odotusarvoilla ja variansseilla. 55

57 Normaalijakaumaa, jonka odotusarvo on 0 ja varianssi on 1, sanotaan normitetuksi (normeeratuksi) eli standardinormaalijakaumaksi (standardoiduksi normaalijakaumaksi) (standard normal distribution). N(0, 1)-jakaumaa noudattavaa satunnaismuuttujaa merkitään yleensä Z-kirjaimella. Jos Z N(0, 1), sen tiheysfunktiota merkitään ϕ(z)(= φ(z)) ja kertymäfunktiota Φ(z), jossa ϕ(z) = 1 e z2 2 2π ja Φ(z) = z 1 2π e t2 2 dt. φ(z) z Φ(z) z Normeeraus: Jos X N(µ, σ 2 ), niin standardoidun muuttujan Z jakaumalle pätee Z = X µ σ N(0, 1). 56

58 N(0, 1)-jakaumaan liittyviä todennäköisyyksiä P(Z z) = Φ(z) tai P(Z z) = 1 Φ(z) on taulukoitu eri z:n arvoilla ja näiden taulukoiden avulla voidaan käsitellä mitä tahansa normaalijakaumia. Tällä kurssilla käytetään taulukkoa, joka antaa todennäköisyyksiä P(Z z) (taulukko 1, LIITE 2). Huom. N(0, 1)-jakauma on symmetrinen nollan suhteen ja tästä syystä P(Z z) = P(Z z) ja P(Z z) = 1 P(Z z). Esim. 5.2 Olkoon Z N(0, 1). Määrää seuraavat todennäköisyydet: a) P(Z 1.47) b) P(Z 1.25) c) P(Z 1.52) d) P( 1.5 Z 2) Havainnollista laskelmiasi graafisesti. Esim. 5.3 Olkoon X N(127, 22 2 ). Määrää P(X < 150). Koska X ei noudata N(0, 1)-jakaumaa, on tehtävä muunnos Z = X , 57

59 jonka jälkeen voidaan käyttää taulukkoa 1, LIITE 2. P(X < 150) = ( ) X P < = P(Z < 1.05) = 1 P(Z > 1.05) = = x yhtäsuuret pinta alat = z Esim. 5.4 Älykkyysosamäärän (IQ) tiedetään noudattavan koko väestössä likimain normaalijakaumaa N(100, 24 2 ). a) Mikä on todennäköisyys, että satunnaisesti valitun henkilön älykkyysosamäärä on vähintään 148 (= Mensan jäseneksi pääsyn raja)? b) Mikä on todennäköisyys, että satunnaisesti valitun henkilön älykkyysosamäärä on välillä ? c) Määrää jakauman alakvartiili eli se älykkyyspistemäärä, jota pienemmän arvon saa 25 % väestöstä. 58

60 Normaalijakaumaa koskevia tuloksia: 1) Jos X N(µ, σ 2 ), niin Y = ax +b N(aµ+b, a 2 σ 2 ), a ja b mielivaltaisia vakioita 2) Jos X 1, X 2,..., X n ovat riippumattomia ja X i N(µ i, σ 2 i ), i = 1, 2,..., n, niin summamuuttuja S = X 1 + X X n noudattaa normaalijakaumaa parametrein µ 1 + µ µ n ja σ σ σ 2 n. 3) Keskeinen raja-arvolause (central limit theorem) Olkoot X 1, X 2,..., X n riippumattomia satunnaismuuttujia, joilla jokaisella on oma jakaumansa (yleensä tuntematon) ja olkoon muuttujien odotusarvot µ 1, µ 2,..., µ n ja varianssit σ 2 1, σ 2 2,..., σ 2 n. Silloin hyvin yleisten ehtojen vallitessa summamuuttuja S = X 1 + X X n noudattaa likimain normaalijakaumaa parametrein µ 1 + µ µ n ja σ σ σ 2 n, kun n on riittävän suuri (yleensä > 30). 2. t-jakauma Olkoot satunnaismuuttujat Y, Z 1, Z 2,..., Z n riippumattomia ja N(0, 1)-jakautuneita. Tällöin satunnaismuuttujan T = 1 n Y n i=1 Z i 2 jakaumaa sanotaan (Studentin) t-jakaumaksi vapausasteella n (degrees of freedom), merk. T t(n). t-jakauman tiheysfunktion lauseke on hankala (ei esitetä). 59

61 f(x) N(0,1) vapausaste=15 vapausaste=3 vapausaste= x Kuva 5.3 t-jakauman tiheysfunktion kuvaajia eri vapausasteilla. Huom. t-jakauma lähestyy N(0, 1)-jakaumaa, kun n. T -jakaumaan liittyviä todennäköisyyksiä P(T t) on taulukoitu (Taulukko 2, LIITE 3). T-jakaumalla on käyttöä erityisesti tilastollisen päättelyn yhteydessä. Muita tärkeitä jatkuvia jakaumia ovat mm. tasainen jakauma, eksponenttijakauma, χ 2 -jakauma ja F -jakauma. 60

62 6 TILASTOLLINEN PÄÄTTELY Tilastollista päättelyä (statistical inference) käytetään tilanteissa, joissa otoksen perusteella tehdään päätelmiä populaatiosta. Täsmällisemmin sanottuna tilastollista päättelyä suoritettaessa halutaan tehdä päätelmiä tutkittavan muuttujan/tutkittavien muuttujien populaatiojakaumasta/-jakaumista otoksen/otosten perusteella. Tilastollinen päättely on luonteeltaan induktiivista; yksittäisestä laajempaan yleistävää ja siihen liittyy aina epävarmuutta. Tilastollisessa päättelyssä tätä epävarmuutta pyritään hallitsemaan todennäköisyyslaskennan avulla. Ennen varsinaisia päättelyn menetelmiä piste-estimointia (point estimation), väliestimointia (interval estimation) ja merkitsevyystestausta (significance testing) esitellään tilastollisessa päättelyssä tärkeät käsitteet satunnaisotos (simple ramdom sample), otossuure eli otostunnusluku (statistic), otantajakauma (sampling distribution) ja tilastollinen malli (statistical model). 6.1 Satunnaisotos, tilastollinen malli, otossuure ja otantajakauma n satunnaismuuttujan X 1, X 2,..., X n jonoa sanotaan satunnaisotokseksi satunnaismuuttujasta X (satunnaismuuttujan X todennäköisyysjakaumasta), jos X 1, X 2,..., X n ovat riippumattomia ja jokainen X i, i = 1, 2,..., n, noudattaa samaa jakaumaa kuin X. Satunnaisotoksen voi ajatella syntyvän toistokokeen avulla seuraavasti: Olkoon X tiettyyn toistokokeeseen liittyvä satunnaismuuttuja. Toistetaan koetta n kertaa siten, että toistot ovat toisistaan riippumattomia. Tällöin toistoja vastaavat satunnaismuuttujat X 1, X 2,..., X n muodostavat satunnaisotoksen. Tilannetta voidaan vielä havainnollistaa seuraavalla kuviolla: populaatio x X X 1, X 2,..., X n 61

63 Olennaista satunnaisotokselle on siis, että 1) X 1, X 2,..., X n ovat riippumattomia ja 2) jokainen X i, i = 1, 2,..., n, noudattaa samaa jakaumaa kuin X. Huom. X:n todennäköisyysjakauma on itse asiassa sama kuin muuttujan x suhteellinen frekvenssijakauma populaatiossa. Jotta satunnaisotoksen ehdot täyttyisivät, otos olisi poimittava äärellisestä populaatiosta yksinkertaisella satunnaisotannalla (YSO) palauttaen. Äärettömän populaation tapauksessa ei ole väliä, suoritetaanko otanta palauttaen vai palauttamatta. Esim. 6.1 Valitaan suomalaisten miesten joukosta kymmenen miehen otos YSO:lla palauttaen ja tarkkaillaan muuttujaa pituus (= x). Tällöin tulee määritellyksi kymmenen satunnaismuuttujaa: X 1 on satunnaismuuttuja, joka saa arvokseen ensimmäisenä otokseen valittavan miehen pituuden x 1, X 2 on satunnaismuuttuja, joka saa arvokseen toisena otokseen valittavan miehen pituuden x 2,. X 10 on satunnaismuuttuja, joka saa arvokseen 10:ntenä otokseen valittavan miehen pituuden x 10. Koska otos valitaan YSO:lla palauttaen kyseessä on 10-kertainen toistokoe, jossa toistot ovat toisistaan riippumattomia. Tällöin X 1, X 2,..., X 10 ovat riippumattomia ja noudattavat samaa jakaumaa kuin x-muuttuja populaatiossa. Jos oletetaan, että X N(177, 12 2 ), niin myös jokainen X i N(177, 12 2 ), i = 1, 2,..., 10. (X 1, X 2,..., X 10 ) on siis satunnaisotos jakaumasta N(177, 12 2 ). Kun satunnaismuuttujat X 1, X 2,..., X n saavat otannassa tietyt arvot x 1, x 2,..., x n, sanotaan saatua havaintoaineistoa satunnaisotoksen realisaatioksi tai havaituksi otokseksi. Tilastollisen päättelyn menetelmät edellyttävät, että populaatiosta (konkreettisesta tai hypoteettisesta) valittua havaintoaineistoa on voitava pitää satunnaisotoksen realisaationa, vaikka otantaa ei olisikaan suoritettu YSO:lla. Käytännössä tämä tarkoittaa sellaista havaintoaineistoa, joka on valittu riittävät satunnaisuuskriteerit täyttävällä tavalla. 62

64 Satunnaisotoksen (X 1, X 2,..., X n ) avulla muodostettuja suureita sanotaan otossuureiksi eli otostunnusluvuiksi (sample statistic tai statistic). Esimerkkejä otossuureista: X = 1 n X i, n S 2 = i=1 1 n 1 n (X i X) 2, i=1 Z = X µ 0 σ/ n, jne. Koska otossuure on satunnaismuuttujien funktio, on se itse myös satunnaismuuttuja, jolla on oma todennäköisyysjakaumansa. Otossuureen todennäköisyysjakaumasta käytetään nimitystä otantajakauma (sampling distribution). Eräitä otantajakaumia: 1) Jos (X 1, X 2,..., X n ) on satunnaisotos normaalijakaumasta N(µ, σ 2 ), on otoskeskiarvon X = 1 n X i otantajakauma normaalijakauma N(µ, σ2 n n ) ts. i=1 X N(µ, σ2 ). Otoskeskiarvon otantajakauman keskihajontaa σ n X = σ n sanotaan keskiarvon keskivirheeksi (standard error, SE( X)). Seuraava kuva havainnollistaa otoskoon vaikutusta otoskeskiarvon jakaumaan. X:n jakauma, kun n=9 X:n jakauma, kun n=4 X:n jakauma, kun n=2 N(µ, σ 2 ) x Kuva 6.1 Populaation jakauma N(µ, σ 2 ) ja otoskeskiarvon X otantajakauma kolmella eri otoskoolla. 63

65 2) Jos (X 1, X 2,..., X n ) on satunnaisotos jakaumasta, jonka odotusarvo on µ ja varianssi σ 2, on otoskeskiarvon X = 1 n X i otantajakauma likimain n normaalijakauma N(µ, σ2 ) ts. X n N(µ, σ 2 ) likimain, jos n on riittävän n suuri. i=1 Tulos perustuu keskeiseen raja-arvolauseeseen. Yleisesti voidaan todeta, että otoskeskiarvon otantajakauma on likimain normaalijakauma jo melko pienillä otoskoilla (otoskoko 30). Otoskoon vaikutusta X:n jakaumaan havainnollistaa seuraava kuva. Kuva 6.2 Otoskeskiarvon X otantajakaumia kolmen erilaisen populaation tapauksessa ja kolmella eri otoskoolla. 64

66 3) Jos (X 1, X 2,..., X n ) on satunnaisotos Bernoulli-jakaumasta Bern(π), missä { 1, jos ominaisuus A esiintyy X i = 0, jos ominaisuus A ei esiinny π = P(X i = 1) = ominaisuuden A omaavien suhteellinen frekvenssi populaatiossa, on suhteellisen osuuden n P = i=1 n X i = T n = ominaisuuden A omaavien lkm otoksessa n otantajakauma likimain normaalijakauma N(π, 1 π(1 π)), jos n on riittävän n suuri. Tämäkin tulos perustuu keskeiseen raja-arvolauseeseen. Tilastollisen mallin valinta tarkoittaa yksinkertaistavien teoreettisten oletusten tekemistä jakaumasta, josta satunnaisotos on peräisin. Ne mahdolliset jakaumat, jotka oletuksien tekemisen jälkeen jäävät jäljelle, muodostavat tilastollisen mallin (statistical model). Tilastollisen mallin muodostava jakaumien joukko (jakaumaperhe) on muodoltaan enemmän tai vähemmän rajoitettu sen mukaan, mitä sovellustilanteesta entuudestaan tiedetään tai ollaan valmiita olettamaan. Malli esitetään usein muodoltaan tunnetun todennäköisyysjakauman avulla, mutta tämän jakauman parametrit ovat tuntemattomia. Mallin valintaan vaikuttavia tekijöitä ovat mm. aikaisemmat tulokset, teoriat ja selitysmallit, havaintojen hankintatapa, muuttujien mittaasteikko jne. Esimerkkejä tilastollisista malleista: Normaalijakaumamalli: (X 1, X 2,..., X n ) on satunnaisotos jakaumasta N(µ, σ 2 ), missä µ ja σ 2 ovat tuntemattomia parametreja. Satunnaisotoksen perusteella voidaan tehdä jakauman sijaintia µ ja hajontaa σ koskevia päätelmiä. Muuttujan täytyy olla vähintään välimatka-asteikkoa. Bernoulli-jakaumamalli: (X 1, X 2,..., X n ) on satunnaisotos jakaumasta Bern(π), missä π on tuntematon parametri. Päätelmät koskevat π:tä. Muuttuja on 2-luokkainen. Parametriton malli: Ei tehdä lainkaan tai tehdään vain lieviä oletuksia jakaumasta, josta satunnaisotos (X 1, X 2,..., X n ) on peräisin. Päätelmät koskevat esimerkiksi jakauman mediaania. 65

67 Tilastollisen päättelyn avulla voidaan tutkia seuraavia ongelmia: 1) Onko valittu malli yhteensopiva havaintoaineiston kanssa? Täytyykö mallia suurentaa eli luopua joistakin rajoittavista oletuksista? (yhteensopivuustestit) 2) Jos malli on oikea, mitä voidaan sanoa tuntemattomien parametrien arvoista? Mitkä ovat ne parametrien arvot, joita aineisto tukee? (estimointi) 3) Näyttääkö siltä, että mallia voidaan pienentää eli oletuksia lisätä? Onko aineisto sopusoinnussa jonkin nollahypoteesin kanssa? (merkitsevyystestit) 6.2 Estimointi Piste-estimointi Piste-estimoinnissa määrätään otoksen perusteella yksi luku, jonka voi perustellusti uskoa olevan lähellä perusjoukon parametrin tuntematonta arvoa. Olkoon (X 1, X 2,..., X n ) satunnaisotos jakaumasta, jonka tuntematon parametri on θ. Satunnaisotoksen avulla muodostettua otostunnuslukua T n = t(x 1, X 2,..., X n ) sanotaan θ:n piste-estimaattoriksi (estimator), merk. Θ = T n, jos θ:aa estimoidaan sen perusteella. Havaitusta otoksesta laskettua T n :n arvoa t n sanotaan θ:n piste-estimaatiksi (estimate), merk. ˆθ = t n. Samalle tuntemattomalle parametrille voidaan esittää useita estimaattoreita. Seuraavassa on lueteltu hyvän estimaattorin ominaisuuksia: 1) Harhattomuus (unbiasedness) Estimaattori on harhaton (unbiased), jos sen odotusarvo = estimoitava parametri. Toisin sanoen T n on θ:n harhaton estimaattori, jos E(T n ) = θ. 2) Tehokkuus (efficiency) Estimaattori on tehokas (efficient), jos sillä on suhteellisen pieni varianssi. Tehokkuus on suhteellinen ominaisuus. Sanotaan, että joku estimaattori on tehokas suhteessa johonkin toiseen estimaattoriin. 3) Tarkentuvuus (consistency) Estimaattori on tarkentuva (consistent), jos sen todennäköisyys olla lähellä estimoitavaa parametria kasvaa, kun otoskoko kasvaa. 66

68 4) Tyhjentävyys (sufficiency) Estimaattori on tyhjentävä (sufficient), jos se käyttää hyväkseen kaiken otoksen antaman informaation. Voidaan osoittaa, että otoskeskiarvo X on populaation odotusarvon µ harhaton, tehokkain, tarkentuva ja tyhjentävä estimaattori, ainakin kun X on normaalijakautunut Väliestimointi Väliestimoinnissa määrätään otoksen perusteella reaalilukuväli, ns. luottamusväli, jonka alle populaation tuntematon parametri suurella todennäköisyydellä peittyy. Olkoon (X 1, X 2,..., X n ) satunnaisotos jakaumasta, jonka tuntematon parametri on θ. Satunnaisotoksen avulla muodostettua satunnaisväliä (A, B) sanotaan θ:n 100(1 α)%:n luottamusväliksi (confidence interval), jos (A, B) peittää parametrin θ todennäköisyydellä 1 α ts. P(A θ B) = 1 α. 1 α on ns. luottamustaso (confidence level). α:ksi valitaan yleensä 0.05 (5%) tai 0.01 (1%), jolloin vastaavasti lasketaan 95%:n tai 99%:n luottamusväli. Huom. Sanonta θ kuuluu väliin (A, B) esim. 95%:n todennäköisyydellä, on sallittu vain silloin, kun tarkastellaan satunnaisväliä (A, B) ts. silloin kun tarkastellaan luottamusvälin kaavaa. Havaitun otoksen perusteella laskettuun luottamusväliin (a, b) ei todennäköisyystulkintaa enää voi liittää, koska kyseessä ei enää ole satunnaisväli. Esim. jos parametrin θ 95%:n luottamusväliksi on havaitusta otoksesta saatu väli (50, 65), θ (kiinteä, tuntematon luku) joko on tai ei ole lasketulla välillä, toteutuneeseen väliin sinänsä ei enää liity mitään satunnaisuutta. Frekvenssitodennäköisyyteen perustuva luottamusvälin tulkinta: Jos populaatiosta poimittaisiin toistuvasti yhtä suuria satunnaisotoksia ja kustakin otoksesta laskettaisiin parametrin θ 100(1 α)%:n luottamusväli, niin otosten lukumäärän kasvaessa niiden luottamusvälien prosentuaalinen osuus, jotka todella peittävät θ:n arvon, lähestyy lukua 100(1 α). Tätä tulkintaa havainnollistaa seuraava kuvio. Käytännössä luottamusvälejä lasketaan vain yksi ja tällainen yksittäinen luottamusväli voidaan Coxin ja Snellin (1981) mukaan tulkita siten, että se sisältää sellaiset parametrin θ ajateltavissa olevat arvot θ, joiden kanssa otoksesta saadut tulokset ovat kohtalaisesti yhteensopivia eivätkä ainakaan pahasti ristiriidassa. Yksittäinen luottamusväli voidaan myös lyhyesti tulkita siten, että θ kuuluu lasketulle välille 100(1 α)%:n varmuudella. 67

69 95 %:n lv.: 99 %:n lv.: otos 10: x=10.69 otos 1: x=9.75 θ^ θ^ otos 2: x=10.08 θ^ θ^ otos 3: x=10.43 θ^ θ^ otos 4: x=10.5 θ^ θ^ otos 5: x=10.09 θ^ θ^ otos 6: x=10.8 θ^ θ^ otos 7: x=10.8 θ^ θ^ otos 8: x=9.85 θ^ θ^ otos 9: x=10.93 θ^ θ^ θ^ θ^ θ:n luottamusväli θ^: θ:n piste estimaatti θ θ θ: arvioinnin kohteena oleva parametri Eräitä yleisesti käytettyjä luottamusvälejä: 1. Oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos normaalijakaumasta N(µ, σ 2 ), missä µ on tuntematon, mutta σ 2 on tunnettu. µ:n 100(1 α)%:n luottamusväli on ( ) σ X z α/2 n, X σ + z α/2 n jossa z α/2 on sellainen vakio, että Z N(0, 1) P(Z z α/2 ) = α/2. Huom. 1 Kun α = 0.05, P(Z z 0.05/2 ) = Taulukko 1 z 0.05/2 = 1.96 Kun α = 0.01, P(Z z 0.01/2 ) = Taulukko 1 z 0.01/2 = 2.58 Huom. 2 µ:n 100(1 α)%:n luottamusvälin pituus, merk. d on σ d = 2z α/2 n, z α/2 σ n on ns. virhemarginaali. 68

70 2. Oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos normaalijakaumasta N(µ, σ 2 ), missä µ ja σ 2 ovat tuntemattomia ja σ 2 estimoidaan otoskeskihajonnalla S x µ:n 100(1 α)%:n luottamusväli on ( ) S x X t α/2, X S x + t α/2 n n jossa t α/2 on sellainen vakio, että T t(n 1) P(T t α/2 ) = α/2. t α/2 saadaan taulukon 2 avulla, vapausasteluku f = n 1. t α/2 z α/2, kun n on suuri (> 30). Huom. σ on populaation keskihajonta, S x on otoksesta laskettu keskihajonta. 3. Oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos Bernoulli-jakaumasta Bern(π), jossa π on tuntematon. { 1, jos yksilöllä i on ominaisuus A X i = 0, jos yksilöllä i ei ole ominaisuutta A π = P(X i = 1) = ominaisuuden A omaavien suhteellinen frekvenssi populaatiossa. π:n likimääräinen 100(1 α)%:n luottamusväli, kun n on suuri, on (P z α/2 P (1 P )/n, P + zα/2 P (1 P )/n ), jossa z α/2 on sellainen vakio, että Z N(0, 1) P(Z z α/2 ) = α/2. P = T n = ominaisuuden A omaavien suhteellinen frekvenssi otoksessa. Huom. 1 π:n likimääräisen 100(1 α)%:n luottamusvälin pituus, kun n on suuri, on d = 2z α/2 P (1 P )/n, z α/2 P (1 P )/n on ns. virhemarginaali. Huom. 2 Jos on määrättävä otoskoko n siten, että π:n esim. 95%:n luottamusvälin pituus on tietyn suuruinen (tai korkeintaan tietyn suuruinen), annetaan P :n (tuntematon) arvoksi 0.5 tai lähinnä 0.5:ttä oleva etukäteisarvio. 69

71 6.3 Merkitsevyystestaus Tilastollinen hypoteesi on väite populaation jakaumasta. Useimmiten väite koskee jotakin jakauman tuntematonta parametria. Merkitsevyystestauksessa määritellään aina kaksi hypoteesia: nollahypoteesi, jota merkitään H 0 :lla ja vastahypoteesi (vaihtoehtoinen hypoteesi), jota merkitään H 1 :llä. H 0 ja H 1 on muodostettava siten, että jompi kumpi on välttämättä voimassa. Nollahypoteesi on usein yksinkertainen, tarkasti määrätty, ns. testattava hypoteesi. Vastahypoteesi on epämääräisempi, suuntaa antava, esim. H 0 : µ = 100, H 1 : µ > 100. Merkitsevyystestin tavoitteena on populaatiojakaumasta saatujen havaintojen avulla selvittää, onko havaintoaineisto sopusoinnussa H 0 :n kanssa vai tarjoaako se näyttöä sitä vastaan eli H 1 :n puolesta. Merkitsevyystestin vaiheet: 1) Valitaan sopiva tilastollinen malli. 2) Asetetaan hypoteesit H 0 ja H 1. 3) Valitaan tilanteeseen sopiva testisuure (testimuuttuja) T (jokin otostunnusluku). Testisuureen otantajakauma, kun H 0 on tosi (voimassa), oletetaan tunnetuksi. Esim. testisuure voi olla muotoa T = Z = X µ 0 σ/ n N(0, 1), kun H 0 on tosi. 4) Lasketaan havaitusta otoksesta testisuureen arvo t. 5) Määrätään ns. P -arvo (= P -value, observed significance level, tail probability, havaittu merkitsevyystaso). P -arvo = todennäköisyys, että testisuure saa havaitun arvon t tai siitä vielä poikkeavampia arvoja, kun H 0 on tosi. H 1 H 1 H 1 /H 0 H 0 H 0 H 0 H P arvo 70

72 P -arvo määrätään aina testisuureen H 0 :n mukaisesta jakaumasta. Huom. P -arvo ei tarkoita todennäköisyyttä sille, että H 0 on tosi. 6) Johtopäätösten tekeminen Merkitsevyystestaus voidaan tehdä monissa testaustilanteessa joko kaksi- tai yksisuuntaisena. Yleensä valitaan kaksisuuntainen testaus. Esim. a) Hypoteesit: { H 0 : µ = 100 = µ 0 H 1 : µ > 100 (1-suuntainen) testisuureen jakauma, kun H 0 on tosi P -arvo = P(T t H 0 ) P arvo t b) Hypoteesit: { H 0 : µ = 100 = µ 0 H 1 : µ < 100 (1-suuntainen) P -arvo = P(T t H 0 ) P arvo t 71

73 { H 0 : µ = 100 = µ 0 c) Hypoteesit: H 1 : µ 100 (2-suuntainen) P arvo t t P -arvo = P(T t tai T t H 0 ) Eräs ohje (Cox ja Snell, 1981) tulkita P -arvoja sellaisenaan pelkän arvon perusteella on seuraavanlainen: Jos P -arvo > 0.1 (10%) (ns. suuri P -arvo), niin havaintoaineisto on (kohtuullisesti) sopusoinnussa H 0 :n kanssa. Jos P -arvo on lähellä lukua 0.05 (5%), niin havaintoaineisto on jossain määrin H 0 :aa vastaan ja tukee H 1 :tä. Jos P -arvo < 0.01 (1%) (ns. pieni P -arvo), niin havaintoaineisto on selvästi H 0 :aa vastaan ja tukee H 1 :tä. P -arvon suuruuden lisäksi P -arvon tulkintaan ja testistä tehtäviin johtopäätöksiin vaikuttavat mm. seuraavat seikat: 1) Otoskoko. 2) Havaintojen hankintatapa (otantamenetelmä, koejärjestely ym.). 3) Miten suurta poikkeamaa H 0 :n mukaisesta parametrin arvosta pidetään sisällöllisesti tärkeänä tai tieteellisesti merkittävänä. 4) Onko tehtävä konkreettinen päätös H 0 :n ja H 1 :n osoittamien toimintavaihtoehtojen välillä ja mitkä ovat päätösvaihtoehtojen seuraukset eri hypoteesien vallitessa ja erityisesti, miten haitallista on toimia jonkin hypoteesin mukaan, jos tämä hypoteesi sattuukin olemaan väärä. 72

74 Erityisesti otoskokoon on P-arvon tulkinnassa syytä kiinnittää huomiota. Jos otoskoko on suuri, saadaan testissä herkästi (suurella todennäköisyydellä) pieni P -arvo, vaikka testattavan parametrin oikea arvo poikkeaa vain hyvin vähän H 0 :n mukaisesta parametrin arvosta eikä tällä erolla useinkaan ole käytännössä merkitystä. Eräiden tutkijoiden mielestä suuresta otoksesta saatu pieni P -arvo on epäinformatiivinen ja suorastaan harhaanjohtava. Toisaalta, jos otoskoko on hyvin pieni, testissä ei ole mahdollista saada tai ei ainakaan herkästi saada riittävän pientä ts. H 1 :tä tukevaa P -arvoa, vaikka todellisuudessa testattavan parametrin arvo poikkeaa H 0 :n mukaisesta arvosta huomattavasti ja tällä erolla olisi jo käytännössäkin merkitystä. Pienellä otoskoolla suuri P -arvo onkin syytä tulkita siten, että havaintoaineisto on riittämätön johtopäätösten tekemiseen kummankaan hypoteesin puolesta, ellei muuta perusteltua lisäinformaatiota tutkittavasta ilmiöstä ole käytettävissä. Vain jos otoskoko on kohtalaisen suuri, suuri P -arvo voidaan tulkita siten, että havaintoaineisto tukee selvästi H 0 :aa. Monissa tilastotieteen oppikirjoissa testistä tehtävät johtopäätökset esitetään siinä hengessä, että testin perusteella tehdään päätös, kumpi hypoteeseista H 0 vai H 1 hyväksytään ja jatkossa toimitaan tehdyn päätöksen mukaisesti. Tämä ns. tilastollinen hypoteesin testaus on käyttökelpoinen tilastollisen testiteorian matemaattisessa esityksessä, mutta jyrkät hyväksymis- /hylkäämispäätökset eivät kuitenkaan yleensä ole sopivia tieteenteossa. Päätöstä tehtäessä voidaan tehdä kahdenlaisia virheitä: päätös H 0 jää voimaan H 1 hyväksytään todellinen H 0 tosi % 1. lajin virhe tilanne H 1 tosi 2. lajin virhe % Todennäköisyyttä P(H 0 hylätään H 0 on tosi) = P(1. lajin virhe) sanotaan riskitasoksi eli merkitsevyystasoksi α ja se valitaan etukäteen. P(H 0 jää voimaan H 1 on tosi) = β = P(2. lajin virhe). α ja β riippuvat toisistaan siten, että toisen pienetessä toinen kasvaa. Ns. varovaisuusperiaatteen mukaan päähuomio kiinnitetään 1. lajin virheen todennäköisyyteen eli α:aan ja α:ksi valitaan pieni luku esim. 0.05, 0.01 tai Testin voimakkuus = 1 β = P(H 0 hylätään H 1 on tosi). Monissa testaustilanteissa on mahdollista testata samaa nollahypoteesia erilaisten testisuureiden avulla. Voimakkuusfunktiota käytetään hyväksi testisuureiden paremmuusvertailussa. 73

75 Huom. 1 Merkitsevyystestistä on mahdollista muodostaa riskitason α tilastollinen testi seuraavasti: Jos P -arvo < α, H 0 hylätään riskitasolla α. Jos P -arvo > α, H 0 jää voimaan riskitasolla α. Huom. 2 Hyvin yleinen käytäntö P -arvojen tulkinnassa ja testituloksia raportoitaessa on ollut seuraava: Jos P -arvo > 0.05, tulos ei ole tilastollisesti merkitsevä (merk. N.S.) Jos 0.01 < P -arvo < 0.05, tulos on tilastollisesti merkitsevä (merk., significant) Jos < P -arvo < 0.01, tulos on tilastollisesti hyvin merkitsevä ( merk., highly significant) Jos P -arvo < 0.001, tulos on tilastollisesti erittäin merkitsevä (merk., very highly significant) Tämä esitystapa ei laajasta käytöstä huolimatta ole suositeltava mm. siihen liittyvien käsitteellisten sekaannusten vuoksi. Ensinnäkään ei ole mielekästä tehdä suurta laadullista eroa esim. P -arvojen ja välillä, jos otoskoot ovat samat. Kumpikin P -arvo voidaan tulkita siten, että havaintoaineisto on jossain määrin H 0 :aa vastaan. Toiseksi hyvin tavallinen on se käsitteellinen sekaannus, että tilastollisesti merkitsevän tuloksen ymmärretään tarkoittavan samaa kuin käytännön kannalta merkitsevä tai tieteellisesti merkittävä tulos. Testattaessa jonkin parametriestimaatin poikkeamaa nollahypoteesin mukaisesta parametrin arvosta poikkeaman tilastollinen merkitsevyys ja poikkeaman käytännön merkitsevyys ovat kaksi eri asiaa. Siitä, että poikkeama on tilastollisesti merkitsevä, ei välttämättä seuraa, että poikkeama olisi käytännön kannalta merkittävä tai päinvastoin. (ks. P -arvon tulkinnasta aikaisemmin). Poikkeaman suuruuden ja käytännön merkitsevyyden arvioinnissa on syytä käyttää piste- ja väliestimointia. 74

76 6.4 Testaus eräissä perusasetelmissa Yhden jakauman sijainnin tarkastelu Tarkastellaan yhden muuttujan x jakauman sijaintia yhdessä populaatiossa. Päätelmät tehdään satunnaisotoksen (X 1, X 2,..., X n ) avulla. Oletetaan normaalijakaumamalli ts. oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos jakaumasta N(µ, σ 2 ). µ on tuntematon, σ 2 voi olla a) tunnettu tai b) tuntematon. Päätelmät koskevat parametria µ (= populaation keskiarvo, odotusarvo). Lähtötilanteen voi kuvata seuraavalla kaaviolla: populaatio x X (X 1, X 2,..., X n ) Olet. X N(µ, σ 2 ) a) Oletetaan, että σ 2 on tunnettu Hypoteesit: H 0 : µ = µ 0 (tunnettu vakio) µ > µ 0 näistä valitaan H 1 : µ < µ 0 ko. tilanteeseen µ µ 0 sopivin Huom. Jos tutkijalla ei ole ennakolta minkäänlaista käsitystä siitä, kumpaan suuntaan µ 0 :sta populaation keskiarvo poikkeaa (jos poikkeaa), valitaan 2- suuntainen hypoteesi H 1. Testisuure: Z = X µ 0 σ/ n N(0, 1), kun H 0 on tosi. P -arvo määrätään N(0, 1)-jakaumasta (taulukko 1). 75

77 b) Oletetaan, että σ 2 on tuntematon Hypoteesit kuten kohdassa a) Testisuure: T = X µ 0 S x / n t(n 1), kun H 0 on tosi. S x on otoksesta laskettu keskihajonta. P -arvo määrätään t-jakaumasta (taulukko 2). µ:n luottamusvälit edellä mainituissa tilanteissa on esitelty luvussa Jos oletetaan parametriton malli ts. ei tehdä oletuksia x:n jakaumasta, kyseeseen tulevat merkkitesti ja Wilcoxonin yhden otoksen testi (ei esitellä tällä kurssilla). Esim. 6.2 Viidestätoista satunnaisesti valitusta AB-merkkisesta tuoremehutölkistä mitattiin C-vitamiinipitoisuus ja saatiin seuraavat tulokset (mg/100 ml): 17.3, 18.2, 16.8, 16.9, 17.0, 18.1, 19.5, 20.2, 19.8, 20.3, 18.6, 21.0, 17.9, 21.5, 16.9 Tuoremehun valmistaja ilmoittaa mehun sisältävän C-vitamiinia keskimäärin 20.0 mg/100 ml. Oleta normaalijakaumamalli ja tutki valmistajan väitettä sopivalla testillä. Täydennä tarkasteluasi sopivalla luottamusvälillä. 1) Oletetaan, että C-vitamiinipitoisuus x N(µ, σ 2 ), missä µ ja σ 2 ovat tuntemattomia ja oletetaan 15 suuruinen satunnaisotos tästä jakaumasta. Kaaviolla: populaatio x X X 1, X 2,..., X 15 Olet. X N(µ, σ 2 ) µ ja σ 2 tuntemattomia 76

78 2) Hypoteesit: H 0 : µ = 20.0 H 1 : µ 20.0 ts. mehun C-vitamiinipitoisuus on keskimäärin 20.0 mg/100 ml ts. mehun C-vitamiinipitoisuus ei ole keskimäärin 20.0 mg/100 ml 3) Testisuure: T = X µ 0 S x / n t(n 1), kun H 0 on tosi. 4) Testisuureen arvon laskeminen: x = , s x = , n = 15, µ 0 = 20.0 Sijoitetaan kaavaan t = / 15 = ) P -arvon määrääminen: P -arvo = P(T tai T H 0 ) = 2P(T H 0 ) vapausasteluku f = n 1 = 15 1 = 14 Taulukko 2, LIITE < P arvo < ) Johtopäätös: Aineisto on selvästi H 0 :aa vastaan ja tukee H 1 :stä. Mehun C- vitamiinipitoisuus ei näytä saadun aineiston perusteella olevan keskimäärin 20.0 mg /100 ml. Lasketaan vielä µ:lle 95 %:n luottamusväli kaavalla ( ) S x X t 0.05/2, X S x + t 0.05/2, n n Taulukko 2, LIITE 3 t 0.05/2 = (f = 14), x = , s x = , n =

79 Sijoitetaan kaavaan ( , ) ( , ) (17.8mg/100ml, 19.6mg/100ml) Tulkinta: Saatu väli sisältää sellaiset µ:n (=keskimääräinen C-vitamiinipitoisuus) arvot, joiden kanssa otoksesta saadut tulokset ovat kohtalaisesti yhteensopivia eivätkä ainakaan pahasti ristiriidassa. Lyhyesti väli voidaan tulkita niin, että µ on 95%:n varmuudella lasketulla välillä. Tilanteen a) mukainen esimerkki luentoesimerkkinä Yhden suhteellisen osuuden tarkastelu Oletetaan Bernoulli-jakaumamalli ts. oletetaan, että (X 1, X 2,..., X n ) on satunnaisotos Bernoulli-jakaumasta Bern(π), missä π on tuntematon. { 1, jos yksilöllä i on ominaisuus A X i = 0, jos yksilöllä i ei ole ominaisuutta A π = P(X i = 1) = ominaisuuden A omaavien suhteellinen frekvenssi populaatiossa (tuntematon). Lähtötilanteen voi kuvata seuraavalla kaaviolla: populaatio x X (X 1, X 2,..., X n ) Olet. X Bern(π) π = P(X = 1) Hypoteesit : H 0 : π = π 0 tunnettu vakio π > π 0 näistä valitaan H 1 : π < π 0 ko. tilanteeseen π π 0 sopivin 78

80 Kun n on suuri ja π ei ole kovin lähellä yhtä tai nollaa (peukalosääntö: nπ > 5 ja n(1 π) > 5) binomijakaumaa voidaan approksimoida normaalijakaumalla. Normaalijakauma-approksimaatiota käyttäen yhden otoksen suhteellisen osuuden testisuureeksi saadaan Z = P π 0 π0 (1 π 0 ) N(0, 1) likimain, kun H 0 on tosi. n P = T n = ominaisuuden A omaavien suhteellinen frekvenssi otoksessa. P -arvo määrätään N(0, 1)-jakaumasta (taulukko 1). π:n luottamusväli on esitelty luvussa

81 KIRJALLISUUTTA Grönroos, M Johdatus tilastotieteeseen. Helsinki: Oy Finn Lectura Ab. Heikkilä, T Tilastollinen tutkimus. Helsinki: Oy Edita Ab. Helenius, H Tilastollisten menetelmien perustiedot. Salo: Statcon. Helsinki: Yliopistopaino. Hirsjärvi, S., Remes, P. & Sajavaara, P Tutki ja kirjoita. 6. painos. Helsinki: Tammi. Kuusela, V Tilastografiikan perusteet. Helsinki: Oy Edita Ab. Mellin, I Johdatus tilastotieteeseen. 1. kirja Tilastotieteen johdantokurssi. Helsinki: Yliopistopaino. Nummenmaa, T., Konttinen, R., Kuusinen, J. & Leskinen, E Tutkimusaineiston analyysi. Porvoo: WSOY. Ranta, E., Rita, H, & Kouki, J Biometria, tilastotiedettä ekologeille. 3. korj. painos. Helsinki: Yliopistopaino. Wild, C. J. & Seber, A. F Chance Encounters. A First Course in Data Analysis and Inference. New York: John Wiley & Sons. 80

82 KAAVAKOKOELMA x = 1 n n x i, i=1 x = 1 n r f i X i (1) i=1 G = n x 1 x 2... x n (2) H = n n 1 (3) i=1 x i s = s x = 1 n 1 s = n (x i x) 2, (4) i=1 ( n ) 2 ( n 1 x i ) x 2 i n 1 i=1, s = 1 n n 1 i=1 r f i (X i x) 2 V = s/ x (5) i=1 z i = x i x s (6) P(A B) = P(A B) P(B) (7) µ = E(X) = σ 2 = D 2 (X) = k x i p i, (8) i=1 k (x i µ) 2 p i = i=1 k x 2 i p i µ 2 (9) X N(µ, σ 2 ), f(x) = 1 σ (x µ) 2 2π e 2σ 2 (10) i=1 (11) 81

83 Z = X µ 0 σ/ n, Z N(0, 1), kun H 0 on tosi, (12) ( X z α/2 σ n, X + z α/2 σ n ) (13) T = X µ 0 S x / n, T t(n 1), kun H 0 on tosi, (14) ( ) S x X t α/2, X S x + t α/2 (15) n n Z = P π 0, Z N(0, 1) likimain, kun H 0 on tosi, (16) π0 (1 π 0 ) n ) (P z α/2 P (1 P )/n, P + zα/2 P (1 P )/n (17) 82

84 LIITE 1: satunnaislukutaulukko 83

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä

Lisätiedot

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164 86118P JOHDATUS TILASTOTIETEESEEN Harjoituksen 3 ratkaisut, viikko 5, kevät 19 1. a) Havaintomatriisissa on viisi riviä (eli tilastoyksikköä) ja neljä saraketta (eli muuttujaa). Hannu mies LTK 18 Johanna

Lisätiedot

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N 11.9.2018/1 MTTTP1, luento 11.9.2018 KERTAUSTA Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N Populaation yksikkö tilastoyksikkö, havaintoyksikkö Otos populaation

Lisätiedot

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Kvantitatiiviset menetelmät

Kvantitatiiviset menetelmät Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Til.yks. x y z

Til.yks. x y z Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen Ilkka Mellin Tilastolliset menetelmät Osa 1: Johdanto Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2007) 1 ja mittaaminen >> Tilastollisten aineistojen kerääminen Mittaaminen

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen TKK (c) Ilkka Mellin (2005) 1 Tilastollisten aineistojen kuvaaminen Havaintoarvojen jakauma Tunnusluvut Suhdeasteikollisten muuttujien tunnusluvut

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Johdatus tilastotieteeseen ja mittaaminen TKK (c) Ilkka Mellin (2004) 2 ja mittaaminen: Mitä opimme? 1/3 Tilastollisen tutkimuksen kaikki mahdolliset kohteet

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

Tilastollisten aineistojen kuvaaminen

Tilastollisten aineistojen kuvaaminen Ilkka Mellin Tilastolliset menetelmät Osa 1: Johdanto Tilastollisten aineistojen kuvaaminen TKK (c) Ilkka Mellin (2007) 1 Tilastollisten aineistojen kuvaaminen >> Havaintoarvojen jakauma Tunnusluvut Suhdeasteikollisten

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas f 332 = 3 Kvartiilit(302, 365, 413) Kvartiilit: missä sijaitsee keskimmäinen 50 % aineistosta? Kvartiilit(302, 365, 413) Keskiarvo (362.2) Keskiarvo

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,

Lisätiedot

Tilastollisen tutkimuksen vaiheet

Tilastollisen tutkimuksen vaiheet Tilastollisen tutkimuksen vaiheet Jari Päkkilä Johdatus tilastotieteeseen Matemaattisten tieteiden laitos TILASTOLLISEN TUTKIMUKSEN TARKOITUS Muodostaa mahdollisimman hyvä mielikuva havaintoaineistosta,

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Otannasta ja mittaamisesta

Otannasta ja mittaamisesta Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,

Lisätiedot

1 TILASTOMATEMATIIKKA... 2 2 TILASTOTIETEEN PERUSKÄSITTEITÄ... 3 3 MUUTTUJAT... 6 4 FREKVENSSIJAKAUMA... 8 5 AINEISTON LUOKITTELU...

1 TILASTOMATEMATIIKKA... 2 2 TILASTOTIETEEN PERUSKÄSITTEITÄ... 3 3 MUUTTUJAT... 6 4 FREKVENSSIJAKAUMA... 8 5 AINEISTON LUOKITTELU... SISÄLLYSLUETTELO 1 TILASTOMATEMATIIKKA... 2 1.1 JOHDANTO... 2 1.2 LINKKEJÄ... 2 1.3 LÄHTEET... 2 2 TILASTOTIETEEN PERUSKÄSITTEITÄ... 3 2.1 HAVAINTOAINEISTO... 3 2.2 POPULAATIO... 3 2.3 OTOS... 3 2.4 HAVAINTOAINEISTON

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia. 806109P TILASTOTIETEEN PERUSMENETELMÄT I 1. välikoe 11.3.2011 (Jari Päkkilä) VALITSE VIIDESTÄ TEHTÄVÄSTÄ NELJÄ JA VASTAA VAIN NIIHIN! 1. Valitse kohdissa A-F oikea (vain yksi) vaihtoehto. Oikeasta vastauksesta

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Harjoittele tulkintoja

Harjoittele tulkintoja Harjoittele tulkintoja Syksy 9: KT (55 op) Kvantitatiivisen aineiston keruu ja analyysi SPSS tulosteiden tulkintaa/til Analyysit perustuvat aineistoon: Haavio-Mannila, Elina & Kontula, Osmo (1993): Suomalainen

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Til.yks. x y z 1 2 1 20.3 2 2 1 23.5 9 2 1 4.7 10 2 2 6.2 11 2 2 15.6 17 2 2 23.4 18 1 1 12.5 19 1 1 7.8 24 1 1 9.4 25 1 2 28.1 26 1 2-6.2 33 1 2 33.

Til.yks. x y z 1 2 1 20.3 2 2 1 23.5 9 2 1 4.7 10 2 2 6.2 11 2 2 15.6 17 2 2 23.4 18 1 1 12.5 19 1 1 7.8 24 1 1 9.4 25 1 2 28.1 26 1 2-6.2 33 1 2 33. Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta... JHS 160 Paikkatiedon laadunhallinta Liite III: Otanta-asetelmat Sisällysluettelo 1. Johdanto... 2 2. Todennäköisyysotanta... 2 2.1 Yksinkertainen satunnaisotanta... 3 2.2 Ositettu otanta... 3 2.3 Systemaattinen

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas MUITA HAJONNAN TUNNUSLUKUJA Varianssi, variance (s 2, σ 2 ) Keskihajonnan neliö Käyttöä enemmän osana erilaisia menetelmiä (mm. varianssianalyysi),

Lisätiedot

TUTKIMUSKURSSI I (407040A-02), OSA A), KVANTITATIIVISEN TUTKIMUKSEN PERUSKURSSI, TILASTOLLISET ANALYYSIMENETELMÄT

TUTKIMUSKURSSI I (407040A-02), OSA A), KVANTITATIIVISEN TUTKIMUKSEN PERUSKURSSI, TILASTOLLISET ANALYYSIMENETELMÄT TUTKIMUSKURSSI I (407040A-02), OSA A), KVANTITATIIVISEN TUTKIMUKSEN PERUSKURSSI, TILASTOLLISET ANALYYSIMENETELMÄT Jouni Peltonen, 2016 jouni.peltonen@oulu.fi ktk331 Jouni Peltonen Miten kurssi suoritetaan,

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää? Seuraavassa muutamia lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4,

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Teema 3: Tilastollisia kuvia ja tunnuslukuja Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin

Lisätiedot

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. 1/11 4 MITTAAMINEN Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. Mittausvirhettä johtuen mittarin tarkkuudesta tai häiriötekijöistä Mittarin

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.

Lisätiedot

5. Keskiluvut. luokan väliin, ei sen määrääminen tuota vaikeuksia. Näin on seuraavissa esimerkeissä:

5. Keskiluvut. luokan väliin, ei sen määrääminen tuota vaikeuksia. Näin on seuraavissa esimerkeissä: 22 5. Keskiluvut Kaikkein pisimmälle on informaation tiivistämisessä menty silloin, kun otosta kuvataan vain yhdellä luvulla, joka mahdollisimman hyvin edustaa kaikkia otoksen arvoja. Tällaisia lukuja

Lisätiedot

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa Sisältö Kvantitatiivinen metodologia verkossa Perusteiden Kertaus Pekka Rantanen Helsingin yliopisto Tilastollinen analyysi Tilastotieteen tavoitteet Kvantitatiivisen tutkimuksen peruskäsitteitä Tilastollisten

Lisätiedot

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO 8.9.2016/1 MTTTP1 Tilastotieteen johdantokurssi Luento 8.9.2016 1 JOHDANTO Tilastotiede menetelmätiede, joka käsittelee - tietojen hankinnan suunnittelua otantamenetelmät, koejärjestelyt, kyselylomakkeet

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45. Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 8.8% 8.9%.%.% 9.7%.7% Etelä Länsi Itä Oulu Lappi Ahvenanmaa Länsi Etelä Itä Oulu Lappi Ahvenanmaa Läänien

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa: Lisätehtäviä (siis vanhoja tenttikysymyksiä) 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15,

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila 2.2.2011

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila 2.2.2011 Kuvioita, taulukoita ja tunnuslukuja Aki Taanila 2.2.2011 1 Tilastokuviot Pylväs Piirakka Viiva Hajonta 2 Kuviossa huomioitavia asioita 1 Kuviolla tulee olla tarkoitus ja tehtävä (minkä tiedon haluat välittää

Lisätiedot

3 Mittaamisen taso ja tilaston keskiluvut

3 Mittaamisen taso ja tilaston keskiluvut 3 Mittaamisen taso ja tilaston keskiluvut Tämä tutkimus on sellainen, että (jos nyt jänisten laskua voidaan mittaamiseksi kutsua) mittaamisessa on eroteltavissa neljä erilaista mittaamisen tasoa, mittausasteikkoa.

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma

Lisätiedot

b1) harhattomuutta, b2) helppoutta, b3) herkkyyttä, b4) mitta-asteikkoa, b5) standardointia, b6) tarkkuutta.

b1) harhattomuutta, b2) helppoutta, b3) herkkyyttä, b4) mitta-asteikkoa, b5) standardointia, b6) tarkkuutta. 806109P TILASTOTIETEEN PERUSMENETELMÄT I 1. välikoe 9.3.2012 (Jari Päkkilä) VALITSE VIIDESTÄ TEHTÄVÄSTÄ NELJÄ JA VASTAA VAIN NIIHIN! 1. Valitse kohdissa A-F oikea (vain yksi) vaihtoehto. Oikeasta vastauksesta

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

Luottamusvälit. Normaalijakauma johnkin kohtaan

Luottamusvälit. Normaalijakauma johnkin kohtaan Luottamusvälit Normaalijakauma johnkin kohtaan Perusjoukko ja otanta Jos halutaan tutkia esimerkiksi Suomessa elävien naarashirvien painoa, se voidaan (periaatteessa) tehdä kahdella tavalla: 1. tutkimalla

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas OTOSTAMISEEN LIITTYVIÄ ONGELMIA Otostamisen ongelmat liittyvä satunnaistamisen epäonnistumiseen Ongelmat otantakehyksen määrittämisessä Väärän otantamenetelmän

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Harjoitus 2, viikko 38, syksy 2012 1. Tutustu liitteen 1 kuvaukseen Suuresta bränditutkimuksesta v. 2009. Mikä tämän kuvauksen perusteella on ko.

Lisätiedot

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus Mitä jäi mieleen viime viikosta? Mitä mieltä olet tehtävistä, joissa GeoGebralla työskentely yhdistetään paperilla jaettaviin ohjeisiin

Lisätiedot

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro Lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4, 3, 3, 8, 3, 9, 11, 19,

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden 1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 5.10.2017/1 MTTTP1, luento 5.10.2017 KERTAUSTA Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla todennäköisyydellä,

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KATO (MISSING DATA, ATTRITION) Kun otostetuista havaintoyksiköistä saavutetaan (mitataan) vain osa, tarkoittaa kato sitä osaa tutkittavista tai mittauksista,

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Kvantitatiivisen aineiston analyysi

Kvantitatiivisen aineiston analyysi Kvantitatiivisen aineiston analyysi Liiketalouden tutkimusmenetelmät SL 2014 Kvantitatiivinen vs. kvalitatiivinen? tutkimuksen lähtökohtana ovat joko tiedostetut tai tiedostamattomat taustaoletukset (tieteenfilosofiset

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas AINEISTON TARKASTELU JA MUOKKAUS AINA ennen varsinaista analyysia suoritetaan aineiston tarkastelu ja muokkaus, data-analyysi Tavoitteena:

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2016/1 MTTTP1, luento 6.10.2016 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

7. laskuharjoituskierros, vko 10, ratkaisut

7. laskuharjoituskierros, vko 10, ratkaisut 7. laskuharjoituskierros, vko 10, ratkaisut D1. a) Oletetaan, että satunnaismuuttujat X ja Y noudattavat kaksiulotteista normaalijakaumaa parametrein E(X) = 0, E(Y ) = 1, Var(X) = 1, Var(Y ) = 4 ja Cov(X,

Lisätiedot