1 Johdatus tilastolliseen päättelyyn

Koko: px
Aloita esitys sivulta:

Download "1 Johdatus tilastolliseen päättelyyn"

Transkriptio

1 Tilastollisen päättelyn perusteet Jarkko Isotalo - Y130 Johdatus tilastolliseen päättelyyn syksy Johdatus tilastolliseen päättelyyn 1.1 Tilastotieteestä tieteenä Tilastotiede on matemaattinen tieteenala, joka sisältää tieteellisesti kehitettyjä menetelmiä ja toimintatapoja tietoaineistojen hankkimiseen, kuvailemiseen ja tietojen analysoimiseen. Tilastotiedettä käytetään erityisesti numeeristen tietoaineistojen eli datojen keräämiseen ja analysoimiseen. Toisinaan tilastotiedettä voidaankin modernimmin kutsua esimerkiksi data-analyysiksi, mikä kuvastaa, että tilastotiede ei ole oppi tilastoista vaan on itse asiassa laajempi tieteenala. Tilastotieteen tehtävänä on kehittää menetelmiä reaalimaailman satunnaisilmiöiden kuvaamiseen, selittämiseen ja ennustamiseen. Tilastotiede onkin todennäköisyyslaskentaan perustuva menetelmätiede, joka tarjoaa menetelmiä ja toimintatapoja muiden tieteenalojen käyttöön. Nykyisin tilastotiedettä käytetään apuvälineenä kaikilla tieteenaloilla tilanteissa, missä tutkimusongelman ratkaisemiseksi tarvitaan tietoaineiston analysoimista tai missä päätöksentekoon liittyy jonkinlaista satunnaisuutta. Tilastotieteessä kehitetyt menetelmät voidaan karkeasti luokitella kolmeen eri osa-alueeseen: - otanta- ja koesuunnittelumenetelmät (engl. sampling and experimental design), - kuvaileva tilastotiede (engl. descriptive statistics), - tilastollinen päättely (engl. statistical inference). Otanta- ja koesuunnittelumenetelmien avulla voidaan päättää, kuinka tietoa hankitaan ja kerätään kun tutkitaan tai tehdään päätelmiä satunnaisilmiöistä erilaisten rajoitteiden vallitessa. Eli otanta- ja koesuunnittelumenetelmien avulla voidaan päättää esimerkiksi, mitä tietoa mitataan, kuinka paljon tietoa kerätään ja mistä havaintoyksiköistä tietoa mitataan. Kuvailevan tilastotieteen avulla pyritään kuvailemaan olemassa olevaa tietoaineistoa erilaisten graasten esitysten ja aineistosta laskettujen tunnuslukujen ja taulukoiden perusteella. Kuvailevan tilastotieteen menetelmien avulla pyritään täten alustavasti tiivistetysti esittämään tietoaineistossa olevien eri muuttujien (ja havaintoyksiköiden) saamien arvojen jakaumia ja muuttujien (ja havaintoyksiköiden) mahdollisia riippuvuussuhteita. Tilastollisessa päättelyssä pyritään puolestaan tekemään yleisiä johtopäätelmiä satunnaisilmiöiden käyttäytymisestä tietoaineiston perusteella. Erityisesti satunnaisilmiötä kuvaavien muuttujien käyttäytymisestä ja muuttujien riippuvuuksien suhteista pyritään tilastollisessa päättelyssä tekemään johtopäätelmiä. Johtopäätelmät tehdään erilaisten

2 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 2 todennäköisyyslaskentaan perustuvien tilastollisten testien ja analysointimenetelmien avulla. Tilastotieteen alaan voidaan katsoa kuuluvan niin tilastotieteen teorian tutkiminen kuin jo tunnettujen tilastollisten menetelmien soveltaminen reaalimaailman tutkimusongelmiin. Suurin osa tilastotieteen käytöstä on nimenomaan soveltavaa tilastotiedettä. Erityisesti sovelletussa tilastotieteessä tilastollisilla ohjelmistoilla on tärkeä rooli. Käytännössä tietoaineistojen analysoimiseen lähes aina tarvitaan tilastollisen ohjelmiston käyttöä. Ohjelmistot eivät kuitenkaan koskaan anna valmiita johtopäätelmiä, vaan ohjelmistoja tulee osata käyttää yhdessä tilastollisten teorioiden kanssa. 1.2 Tilastollisen päättelyn peruskäsitteet Satunnaisilmiö ja todennäköisyys Tilastotieteen käyttötarve syntyy erilaisista tutkimus- ja päätäntätilanteista, joihin liittyy jonkinlaista epävarmuutta ja satunnaisuutta. Alla on esitetty esimerkkejä tutkimustilanteista, missä tilastotiedettä voidaan käyttää osana tutkimusongelman ratkaisua. Esimerkki Tuottaako uusi vehnälajike suuremman sadon kuin vanha lajike? 2. Kuinka männyn korkeus riippuu männyn rinnankorkeudelta (130 cm) mitatusta ympärysmitasta? 3. Kuinka tyytyväisiä ovat Ladonlukon ruokalassa lounastavat opiskelijat lounasateriaan? 4. Ovatko varpuset yhtä suuria keskustassa ja Herttoniemessä? 5. Nostaako BRCA1 geenin mutaatio rintasyövän esiintymisriskiä? 6. Millä todennäköisyydellä vuotias henkilö valitsee valmismaksalaatikkoa ostaessaan mielummin rusinattoman maksalaatikon verrattuna perinteiseen rusinalliseen maksalaatikkoon? Yhteistä yllä oleville esimerkeille on se, että jokaisen tutkimusongelman ratkaisemiseksi tarvitaan luultavimmin joko kokeellisesti tai havainnoinnin avulla mitattua tietoa tutkimuskohteesta. Eli tutkimusongelmien ratkaisemiseksi tarvitaan empiirista tutkimusta. Lisäksi yhteistä yllä oleville esimerkeille on myös se, että jokaiseen tutkimusongelmaan liittyy jokin reaalimaailman satunnaisilmiö. Esimerkiksi yksittäisestä pellosta saadun vehnäsadon määrän voidaan katsoa olevan satunnaisilmiö, jota ei pystytä täysin hallitsemaan jo sään vaikutuksenkin takia. Tilastotiedettä käytetäänkin nimenomaan reaalimaailman satunnaisilmiöiden kuvaamiseen, selittämiseen ja osittaiseen ennustamiseen kerätyn tietoaineiston perusteella. Satunnaisilmiö voidaan määritellä seuraavasti.

3 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 3 Määritelmä 1.1 (Satunnaisilmiö). Satunnaisilmiö on mikä tahansa reaalimaailman ilmiö, johon liittyy useita eri tulosmahdollisuuksia sekä epävarmuutta ilmiön tulokseen. Satunnaisilmiön tulosta ei voida täysin ennustaa ennen tuloksen toteutumista. Satunnaisilmiöllä voidaan siis katsoa olevan useita eri tulosmahdollisuuksia ennen kuin ilmiö todellisuudessa toteutuu. Satunnaisilmiön kaikkien mahdollisten tulosten joukkoa kutsutaan perusjoukoksi, jota voidaan esim. merkitä kirjaimella E. Perusjoukko voi sisältää äärellisen määrän eri tulosvaihtoehtoja tai äärettömän määrän. Jos esimerkiksi jollakin satunnaisilmiöllä on 5 eri mahdollista tulosmahdollisuutta ennen toteutumistaan, niin silloin satunnaisilmiön perusjoukko on muotoa E = {e 1, e 2, e 3, e 4, e 5 }, missä e k kuvaa yksittäistä tulosmahdollisuutta (kutsutaan myös alkeistapaukseksi), k = 1, 2,..., 5. Satunnaisilmiöitä tarkasteltaessa usein ollaan kiinnostuneita joistakin perusjoukon E osajoukoista. Osajoukkoja kutsutaan tapahtumiksi ja niitä voidaan merkitä esim. kirjaimilla A, B, C,... Esimerkiksi perusjoukon E = {e 1, e 2, e 3, e 4, e 5 } tilanteessa yksi mahdollinen kiinnostava tapahtuma A voisi olla esim. muotoa A = {e 2, e 3, e 5 }. Vastaavanlaisesti perusjoukosta E voidaan muodostaa useita muita tapahtua. Satunnaisilmiöitä tarkasteltaessa usein ollaan erityisen kiinnostuneita erilaisten tapahtumien esiintymistodennäköisyyksistä. Tapahtumien A, B, C,... todennäköisyyksiä toteutua merkitään todennäköisyyslaskennassa seuraavasti: P (A), P (B), P (C),.... Perusjoukosta E muodostettavan jokaisen mahdollisen tapahtuman todennäköisyys on luku välillä [0, 1]. Mitä suurempi on tapahtuman todennäköisyys on, sitä luultavimmin satunnaisilmiö saa toteutuessaan tuloksekseen sellaisen tulosvaihtoehdon, mikä sisältyy tapahtumaan. Esimerkiksi, jos tapahtuman A = {e 2, e 3, e 5 } todennäköisyydelle P (A) on voimassa P (A) = 0.68, niin silloin satunnaisilmiö saa toteutuessaan tuloksekseen jonkin arvoista e 2, e 3 tai e 5 68 prosentin todennäköisyydellä. Todennäköisyyslaskennassa perusjoukon E todennäköisyys on aina P (E) = 1 eli 100 % ja vastaavasti tyhjän joukon = {} todennäköisyys on P ( ) = 0.

4 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 4 Esimerkki 1.2. Tarkastellaan tutkimusongelmaa, missä halutaan selvittää vuotiaiden henkilöiden mieltymystä valita valmismaksalaatikkoa ostaessaan mielummin rusinaton maksalaatikko perinteisen rusinallisen maksalaatikon sijaan. Tällöin tutkimusongelman satunnaisilmiö on henkilön päätös valita ostostilanteessa joko rusinaton tai rusinallinen valmismaksalaatikko. Alkeistapahtumat ovat siis muotoa e 1 = rusinaton maksalaatikko valitaan, e 2 = perinteinen rusinallinen maksalaatikko valitaan, ja täten perusjoukko on muotoa E = {e 1, e 2 }. Jos erityisesti halutaan arvio tapahtumalle, että henkilö valitsee ostostilanteessa rusinattoman maksalaatikon, niin silloin kiinnostuksen kohteena on tapahtuman A = {e 1 } todennäköisyyden P (A) suuruus. Kahden erillisen alkeistapauksen tilanteessa on intuitiivisesti selvää, että tapahtuman B = {e 2 } todennäköisyys on muotoa P (B) = 1 P (A) Parametrit ja päättely Käytännössä lähes aina johonkin yksittäiseen satunnaisilmiöön liittyvien tapahtumien A, B, C,... todennäköisyydet P (A), P (B), P (C),... ovat todellisuudessa tuntemattomia. Esimerkiksi jos tarkastellaan uuden vehnälajikkeen satomäärää yksittäisestä pellosta käyttäen satomäärän mittarina kilogrammaa per hehtaari, niin tapahtuman A = "Satomäärä on suurempi kuin 3600 kg/ha mutta pienempi kuin 3800 kg/ha" todennäköisyydelle P (A) on vaikea antaa arviota ennen kuin uuden lajikkeen satomääriä on kokeellisesti tutkittu. Toisaalta eri tapahtumien todennäköisyyksien rakenteista voidaan usein tehdä erilaisia oletuksia, kun huomioidaan tarkasteltavan satunnaisilmiön perusominaisuuksia. Esimerkiksi uuden vehnälajikkeen tilanteessa voi olla järkevää olettaa, että verrattaessa tapahtumien A = "Satomäärä on suurempi kuin 3600 kg/ha mutta pienempi kuin 3800 kg/ha" B = "Satomäärä on suurempi kuin 3800 kg/ha mutta pienempi kuin 4000 kg/ha" todennäköisyyksiä P (A) ja P (B), niin on voimassa epäyhtälö P (A) > P (B). Eli voi olla järkevää olettaa, että yksittäisen pellon satomäärä uuden vehnälajikkeen tilanteessa todennäköisemmin tulee kuulumaan välille kg/ha kuin välille kg/ha. Uuden tutkimusongelman tilanteessa tilastollisessa päättelyssä lähtökohtaisesti siis katsotaan, että yksittäiseen satunnaisilmiöön liittyvien kaikkien erilaisten tapahtumien A, B, C,... todennäköisyykset P (A), P (B), P (C),... ovat tuntemattomia. Tilastollisessa päättelyssä lähes aina kuitenkin tehdään erilaisia oletuksia tapahtumien todennäköisyyksien P (A), P (B), P (C),... rakenteista. Tällaiset oletukset todennäköisyyksien

5 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 5 rakenteista ovat osa niin sanottua satunnaisilmiön tilastollista mallinnusta. Tilastollisessa päättelyssä usein tehdään oletuksia todennäköisyyksistä siten, että todennäköisyyksien funktionaaliset esitysmuodot oletetaan olevan tiedossa, mutta funktionaalisten rakenteiden oletetaan kuitenkin vielä riippuvan joistakin tuntemattomista parametreista θ 1, θ 2,..., θ p. Eli kun eri tapahtumien A, B, C,... todennäköisyyksien oletetaan riippuvat tuntemattomista parametreista θ 1, θ 2,..., θ p oletetun rakenteen kautta, niin tapahtumien todennäköisyyksiä voidaan merkitä seuraavasti P (A; θ 1, θ 2,..., θ p ), P (B; θ 1, θ 2,..., θ p ), P (C; θ 1, θ 2,..., θ p ),..., jotta käy konkreettisesti selväksi todennäköisyyksien riippuvuus tuntemattomista parametreista. Usein tilastollisessa päättelyssä käytetään kreikkalaisia kirjaimia kuvaamaan tuntemattomia parametreja. Yleisemmin parametrit voidaan tilastollisessa päättelyssä määritellä seuraavasti. Määritelmä 1.2 (Parametrit). Tilastollisessa päättelyssä parametrit ovat tuntemattomia lukuja, joilla on vaikutusta tarkasteltavan satunnaisilmiön eri tapahtumien todennäköisyyksien arvoihin. Tilastollisessa päättelyssä alkuperäinen satunnaisilmiöön liittyvä sanallinen tutkimuskysymys tai -ongelma muunnetaan usein tuntemattomien parametrien arvoihin liittyväksi tutkimusongelmaksi. Tätä parametreihin liittyvää muunnettua tutkimusongelmaa pyritään sitten ratkomaan hankkimalla tietoaineistoa eli dataa kyseisestä satunnaisilmiöstä. Hankitun datan perusteella pyritään sitten arvioimaan ja analysoimaan, mitä arvoja tuntemattomat parametrit voisivat olla. Esimerkki 1.3. Tarkastellaan edelleen tutkimusongelmaa, missä halutaan selvittää vuotiaiden henkilöiden mieltymystä valita valmismaksalaatikkoa ostaessaan mielummin rusinaton maksalaatikko perinteisen rusinallisen maksalaatikon sijaan. Erityisesti voidaan siis olla kiinnostuneita tutkimaan, millä todennäköisyydellä yksittäinen henkilö valitsee ostostilanteessa rusinattoman maksalaatikon. Tämä alkuperäinen sanallinen tutkimusongelma voidaan muuntaan tuntemattoman parametrin arvioimisongelmaksi kun merkitään tapahtuman A = {e 1 } todennäköisyyttä P (A) tuntemattomalla parametrilla P (A) = θ, kun siis A = {e 1 } = { rusinaton maksalaatikko valitaan }. Mielenkiintoista saattaisi olla arvioida, voisiko tuntematon parametri θ olla arvoltaan esim. θ = 0.5. Tällöin tutkittaisiin siis, olisiko rusinattomien ja rusinallisten valmismaksalaatikoiden kysyntä yhtä suurta vuotiaiden keskuudessa.

6 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo Populaatio ja satunnaisotos Jokainen satunnaisilmiö tapahtuu jossain paikassa tai ajassa ja toisaalta jollekin yksilölle tai asialle. Satunnaisilmiön havainnoinnin tai mittauksen kohteita voidaankin kutsua havaintoyksiköiksi tai tilastoyksiköiksi. Esimerkiksi tarkasteltaessa vehnäsadon määrää, yksittäistä viljelykertaa jossakin pellossa (tai toisinaan viljelykerta peltosarakeessa) voidaan pitää tutkimuksen havaintoyksikkönä. Tilastotieteessä populaatioksi kutsutaan sitä havaintoyksiköiden joukkoa, joille tarkasteltavan satunnaisilmiön voidaan olettaa toteutuvan jossain vaiheessa tai tilassa. Määritelmä 1.3 (Populaatio). Tilastollisessa päättelyssä populaatio on sellaisten havaintoyksiköiden joukko, missä joukon jokaisen havaintoyksikön voidaan olettaa saavan jossain vaiheessa tai tilassa toteutuneen tuloksen tarkasteltavan satunnaisilmiön suhteen. Populaatio voi olla joko äärellinen, konkreettinen joukko havaintoyksiköitä tai ääretön niin sanottu hypoteettinen populaatio. Aina jako äärelliseen tai äärettömään populaatioon ei ole itsestään selvyys vaan saattaa riippua itse asiassa tutkimusongelmasta. Esimerkiksi tutkittaessa uuden lajikkeen vehnäsatoa, yksittäisiä peltoja joissa tutkimus voidaan toteuttaa on todellisuudessa äärellinen määrä. Kuitenkin päättelyn kannalta voidaan ajatella havaintoyksiköiden koostuvan yksittäisistä viljelykerroista, joita voidaan tehdä valitussa koepellossa tai jossain muussa pellossa nyt ja tulevaisuudessa äärettömän monta kertaa. Täten vehnäsatojen tutkimuksen tilanteessa populaation voidaan ajatella olevan hypoteettinen. Yleensä tutkimusongelmissa on mukana tekijöitä tai asioita, joiden arvojen muodostamien luokkien suhteen satunnaisilmiön käyttäytymistä halutaan tarkastella. Tällöin tekijöiden tai asioiden arvojen perusteella muodostuu erillisiä populaatioita (voidaan kutsua myös osapopulaatioksi), joissa tarkasteltavan satunnaisilmiön käyttätyminen voi olla erilaista. Esimerkiksi vehnän satomääriä tutkittaessa uusi ja vanha vehnälajike muodostavat omat osapopulaationsa siten, että osapopulaatioilla voi olla erisuuruiset parametrit ja siten erilaiset esiintymistodennäköisyydet tarkasteltaville tapahtumille. Jos näin on, niin tämä tarkoittaa, että vehnälajike vaikuttaa jollain tavalla satomääriin. Osapopulaatioiden tilanteessa tutkimusongelmat yleensä liittyvät juuri eri populaatioiden parametrien vertailemiseen. Eli jos i 1 on havaintoyksikkö populaatiosta Ω 1 ja i 2 on havaintoyksikkö populaatiosta Ω 2, niin satunnaisilmiön eri tapahtumien A, B, C,... todennäköisyyksille P i1 (A), P i1 (B), P i1 (C),... havaintoyksikön i 1 suhteen ja todennäköisyyksille P i2 (A), P i2 (B), P i2 (C),... havaintoyksikön i 2 suhteen voi olla voimassa epäyhtälöt P i1 (A; θ 1, θ 2,..., θ p ) P i2 (A; ψ 1, ψ 2,..., ψ p ) P i1 (B; θ 1, θ 2,..., θ p ) P i2 (B; ψ 1, ψ 2,..., ψ p ) P i1 (C; θ 1, θ 2,..., θ p ) P i2 (C; ψ 1, ψ 2,..., ψ p ). =.

7 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 7 koska populaatiohin Ω 1 ja Ω 2 liittyville parametreille θ 1, θ 2,..., θ p ja ψ 1, ψ 2,..., ψ p voi olla voimassa jokin epäyhtälöistä θ 1 ψ 1, θ 2 ψ 2,.. θ p ψ p. Esimerkki 1.4. Tutkimusongelmana on tutkia, onko Helsingissä toimivien ruokakauppaketjujen hinnoissa eroa. Erityisesti halutaan tutkia, onko Alepa, K-market, Lidl, S-market ja Siwa kauppojen keskimääräisissä hinnoissa eroja ketjujen suhteen. Yksittäisen ruokakaupan hintatasoa päätettiin mitata opiskelijaystävällisen ruokakorin hinnan perusteella. Opiskelijaystävällisen ruokakorin katsottiin sisältävän seuraavat tuotteet: perunoita aamupalan verran, tonnikalaa ja makaronia lounaslautasen verran, riisiä ja valmislihapullia päivällisen verran, ananaspurkki iltaherkutteluun ja energiajuoma yövalvomiseen. Tutkimuksen kokonaispopulaation muodostavat Helsingissä sijaitsevat Alepa, K-market, Lidl, S-market ja Siwa ketjujen kaupat. Alla on olevassa kartassa on esitetty kaikkien ketjujen eri kauppojen sijainnit. Yhteensä eri ketjujen kauppoja on osapopulaatioissa seuraavasti: Alepa K-market Lidl S-market Siwa Alepa K market Lidl S market Siwa

8 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 8 Usein tilastollisessa päättelyssä tarkastellaan kerätyn aineiston pohjalta, ovatko eri populaatioiden parametrit samoja vai ei tarkasteltavan satunnaisilmiön tapauksessa. Jos osapopulaatioiden parametrit näyttävät datan perusteella poikkeavan toisistaan, voidaan tehdä päätelmiä, että erillisiä populaatioita muodostavat tekijät tai asiat vaikuttavat satunnaisilmiön käyttäytymiseen. Tilastotieteessä satunnaisilmiöön liittyvä päättely perustuu yleensä hankittuun tietoaineistoon eli dataan. Täten tärkeä kysymys on, kuinka dataa satunnaisilmiöstä kerätään. Tietoa voidaan hankkia populaation havaintoyksiköistä. Yleensä on mahdotonta tutkia koko populaatiota edes ääreellisen populaation tilanteessa, joten päättelyn tulee perustua valittuun osaan populaation havaintoyksiköistä. Tilastollisessa päättelyssä otokseksi kutsutaan sitä osaa populaation havaintoyksiköitä, joista kokeellisesti mitataan tai muuten havainnoidaan tarkasteltavan satunnaisilmiön toteutunut tulos. Lisäksi mikäli otokseen valikoituvat havaintoyksiköt poimitaan satunnaisesti populaatiosta, kutsutaan otokseen valikoituneiden havaintoyksiköiden joukkoa satunnaisotokseksi populaatiosta. Määritelmä 1.4 (Satunnaisotos). Tilastollisessa päättelyssä satunnaisotos on populaatiosta satunnaisesti valikoitu havaintoyksiköiden osajoukko niin, että jokaisesta osajoukon havaintoyksiköstä mitataan tai havainnoidaan tarkasteltavan satunnaisilmiön toteutuva tulos. Havaintoyksiköiden poimimiseen satunnaisesti populaatiosta on olemassa useita menetelmiä, joita otantamenetelmissä tarkemmin tarkastellaan. Tärkein otantatapa on niin sanottu yksinkertainen satunnaisotanta, missä populaation jokaisella havaintoyksiköllä on yhtäsuuri todennäköisyys valikoitua satunnaisotokseen. Koesuunnittelutyyppisessä tilanteessa satunnaisotoksen poiminta hypoteettisesta populaatiosta voidaan katsoa toteutuvan kunhan satunnaisilmiön tulokseen ei millään lailla pyritä subjektiivisesti vaikuttamaan. Käytännön tutkimusongelmissa lähes aina satunnaisilmiön käyttäytymistä halutaan tutkia useiden eri populaatioiden tapauksessa. Tällöin on tärkeää pyrkiä poimimaan satunnaisotoksia jokaisesta erillisestä populaatiosta. Näistä osapopulaatioista poimittuja satunnaisotoksia yhdistämällä saadaan sitten muodostettua varsinainen tietoaineisto, jonka perusteella päätelmiä tehdään.

9 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 9 Esimerkki 1.5. Jatketaan Helsingissä toimivien ruokakauppaketjujen hintatasoeroavuuksien tarkastelua. Koska kokonaispopulaatio sisältää 153 kauppaa, opiskelijaystävällisen ruokakorin hinnan selvittäminen jokaisesta kaupasta voi olla liian kallista. Täten tutkimusongelmaa voidaan yrittää selvittää ottamalla esim. kolmen kaupan satunnaisotos jokaisen ruokaketjun muodostamasta osapopulaatiosta. Yksinkertaisen satunnaisotoksen avulla saadaan seuraavat ruokakaupat, joista voidaan selvittää ruokakorin hinta. Otokseen valikoituneiden kauppojen hintatasojen perusteella voidaan sitten tehdä päätelmiä, onko kauppojen keskimääräisissä hinnoissa eroja ketjujen suhteen. Nimi Osoite Alepa Sturenkatu 27 Alepa Sturenkatu 40 Alepa Korvatunturintie 2 K-market Puutarhurinkuja 2 K-market Tyynylaavantie 5 K-market Esterinportti 2 Lidl Ratapihantie 3 Lidl Malminkauppatie 18 Lidl Ristipellontie 9 S-market Aleksis Kiven katu 11 S-market Hietalahdenranta 7 S-market Kantelettarentie 1 Siwa Tehtaankatu 1 Siwa Eerikinkatu 39 Siwa Pihlajatie Alepa K market Lidl S market Siwa 1.3 Muuttujat ja niiden ominaisuuksia Mittaaminen ja muuttujat Satunnaisilmiötä tarkasteltaessa tutkitaan yleensä erityisesti jotakin satunnaisilmiön ominaisuutta tai piirrettä, jota voidaan käytännössä mitata tai havainnoida silloin kun satunnaisilmiön tulos toteutuu. Yleisesti mittaamisella tarkoitetaan sellaista menettelyä tai sääntöä, missä jollekin ominaisuudelle annetaan ominaisuutta kuvaava (numeerinen) arvo. Tilastollisissa tutkimuksissa myös eri populaatioiden piirteitä ja ominaisuuksien eroavuuksia halutaan yleensä mitata tai kuvailla. Tilastotieteessä mittaaminen kohdistuu erityisesti yksittäisten havaintoyksiköiden ominaisuuksien mittaamiseen. Havaintoyksiköstä mitattavissa olevia ominaisuuksia kutsutaan tilastotieteessä muuttujiksi. Tilastollisissa tutkimuksissa käytössä oleva tietoaineisto eli data koostuu muuttujien arvoista, joita on mitattu otokseen poimituista havaintoyksiköistä.

10 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 10 Määritelmä 1.5 (Muuttuja). Tilastotieteessä muuttuja on tarkasteltavan satunnaisilmiön tai populaation ominaisuus, joka voidaan mitata kaikista populaatioon kuuluvista havaintoyksiköistä siinä vaiheessa kun satunnaisilmiön tulos havaintoyksikölle toteutuu. Tutkittaessa jonkin satunnaisilmiön käyttäytymistä on tärkeää, että satunnaisilmiöstä mitataan tutkimusongelman kannalta oikeita ominaisuuksia ja että nämä oikein valitut ominaisuudet mitataan vieläpä oikein. Vastaavasti jos tutkimusongelmana on tarkastella joidenkin tekijöiden tai asioiden vaikutusta tarkasteltavan satunnaisilmiön käyttäytymiseen, on tärkeää, että tekijöiden tai asioiden ominaisuuksia (populaatioiden ominaisuuksia) mitataan oikein. Mittausmenetelmän validiteetilla eli pätevyydellä tarkoitetaan mittausmenetelmän kykyä mitata sitä, mitä sillä on tarkoitus mitata. Mittausmenetelmän reliabiliteetilla eli luotettavuudella tarkoitetaan puolestaan mittausmenetelmän kykyä antaa ei-sattumanvaraisia mittaustuloksia. Esimerkiksi mitattaessa henkilöltä hänen pituutensa tai pellosta vehnäsadon määrä, kyseiset mittaustulokset kuvaavat suhteellisen pätevästi ja luotettavasti juuri niitä ominaisuuksia, joita mittaamisella halutaankin mitata. Sen sijaan jos esimerkiksi tutkimusongelmana on selvittää henkilöiden asennetta hernekeittoa kohtaan, niin käytettävällä mittarilla voi olla helpommin vaikutusta lopulliseen päättelyyn. Esimerkiksi seuraavat kysymysmuotoiset mittarit { (a) Kyllä 1. Suostutko syömään hernekeittoa? (b) En (a) Kyllä, joka tilanteessa 2. Suostutko syömään hernekeittoa? (b) Vain jos pannukakkua saa jälkiruuaksi (c) En saattavat antaa niin erilaiset datat samasta otoksesta, että datojen perusteella voidaan päätyä tekemään luonteeltaan erityyppiset päättelyt henkilöiden asenteista hernekeittoa kohtaan. Eli yllä olevat kysymykset 1. ja 2. tarkalleen ottaen lopulta mittaavat hieman eri hernekeittoon liittyviä ominaisuuksia. Toisaalta sama henkilö saattaa vastata kysymykseen 1. (b) "En", mutta vaihtaa samoissa olosuhteissa kysymykseen 2. vastaukseksi (b) "Vain jos pannukakkua saa jälkiruuaksi". Eli kysymykset eivät anna mittaustarkkuudeltaan mahdollisesti niin luotettavia mittaustuloksia kuin mitä esimerkiksi henkilön pituutta mitatessa saadaan. Satunnaisilmiön ja populaatioiden ominaisuudet voivat mittaamisen suhteen olla alkuperäisesti joko numeerisia tai laadullisia. Tilastollisen tutkimuksen yhteydessä muuttujat yleensä ovat numeerisia. Täten usein ominaisuuksien alkuperäiset laadulliset arvot koodataan numeerisiksi muuttujiksi tutkimuksen yhteydessä. Esimerkiksi tutkittaessa vaikuttaako vehnälajike satomäärään, eri vehnälajikkeet ovat laadullisia nimikkeitä, joille tutkimuksessa voidaan antaa tarvittaessa numeroarvoiset koodit.

11 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo Satunnaismuuttujat ja taustamuuttujat Tilastollisessa tutkimuksessa tarkasteltavat muuttujat voivat liittyä siis joko tutkittavan satunnaisilmiön ominaisuuksiin tai populaation ominaisuuksien kuvaamiseen tai yleisemmin havaintoyksiköiden taustaominaisuuksien kuvaamiseen. Satunnaisilmiön ominaisuukseen liittyvää muuttujaa kutsutaan satunnaismuuttujaksi. Satunnaismuuttujaa merkitään tällä kurssilla kirjaimella Y. Satunnaisilmiö aina tapahtuu jollekin havaintoyksikölle i. Satunnaismuuttuja voi saada eri tulosmahdollisuuksia ennen kuin satunnaismuuttujan toteutunut arvo mitataan tai havainnoidaan havaintoyksiköstä i. Satunnaismuuttujan eri tulosmahdollisuudet toteutuvat joillakin todennäköisyyksillä, missä nämä todennäköisyydet voivat käytännössä riippua joistakin tuntemattomista parametreista θ 1, θ 2,..., θ p. Havaintoyksikköön i liittyvää satunnaismuuttujan toistaiseksi toteutumatonta arvoa merkitään tällä kurssilla kirjaimella Y i. Tilastotieteessä havaintoyksikön toistaiseksi toteutumatonta arvoa Y i kutsutaan itsessään myös satunnaismuuttujaksi. Täten satunnaismuuttuja käsitteellä voidaan nähdä olevan kaksoismerkitys tilastollisessa päättelyssä: satunnaismuuttuja tarkoittaa yleistä satunnaisilmiön ominaisuuteen liittyvää muuttujaa, mutta toisaalta se myös tarkoittaa yksittäisen havaintoyksikön i toistaiseksi toteutumatonta arvoa Y i satunnaisilmiön suhteen. Jos havaintoyksiköstä i pystytään jossain vaiheessa mittaamaan tai havainnoimaan satunnaismuuttujan toteutunut arvo, merkitään sitä kirjaimella y i. Jos satunnaisilmiön ominaisuus on alkuperältään laadullinen, koodaamalla ominaisuudesta saadaan muodostettua numeroarvoinen satunnaismuuttuja. Määritelmä 1.6 (Satunnaismuuttuja). Satunnaismuuttuja on satunnaisilmiön ominaisuuteen liittyvä numeerisia arvoja saava muuttuja, missä muuttujan jokainen mahdollinen arvo tai arvojen joukko voi toteutua tietyllä todennäköisyydellä. Havaintoyksiköön i liittyvää satunnaismuuttujaa merkitään kirjaimella Y i ja satunnaismuuttujan Y i toteutunutta arvo kirjaimella y i. Tilastollisessa päättelyssä taustamuuttujalla tarkoitetaan kaikkia sellaisia muuttujia, jotka liittyvät populaation ominaisuuksien kuvaamiseen tai yleisemmin havaintoyksiköiden taustaominaisuuksien kuvaamiseen. Taustamuuttuja on lähtökohtaisesti ei-satunnainen muuttuja, jonka arvo jokaiselle populaation havaintoyksikölle i voidaan mitata tai havainnoida jo ennen kuin tarkasteltava satunnaisilmiö toteutuu kyseiselle havaintoyksikölle. Tällä kurssilla erityisesti taustamuuttujia (myöhemmin myös toisinaan satunnaismuuttujia) merkitään kirjaimilla X 1, X 2,..., X k, jos tutkimukseen liittyy k kappaletta eri taustamuuttujia. Havaintoyksiköstä i mitattuja tai havaittuja arvoja muuttujien X 1, X 2,..., X k suhteen merkitään puolestaan kirjaimilla x i1, x i2,..., x ik. Huom! Tilastollisen tutkimuksen onnistumisen kannalta on ensisijaisen tärkeää, että tutkija itse ymmärtää, mitkä muuttujat ovat hänen tutkimuksessaan satunnaismuuttujia ja mitkä muuttujat ovat tutkimuksessa taustamuuttujia.

12 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 12 Tilastollisia menetelmiä käytetään usein tilanteessa, missä halutaan tutkia syy-seuraus suhdetta joidenkin tekijöiden ja muuttujien välillä. Jos tarkasteltavaan tutkimusongelmaan liittyy olennaisesti tarve selittää, kuinka jotkut tietyt tekijät tai asiat vaikuttavat joihinkin tapahtumiin, pitää tutkimuksen muuttujat osata jaotella selittäviin ja selitettäviin muuttujiin. Syy-seuraus tilanteissa oletetaan, että selittävät muuttujat selittävät, kuinka selitettävät muuttujat käyttäytyvät. Muuttujien jako satunnais- ja taustamuuttujiin on läheisesti yhteydessä muuttujien jakoon selitettäviin ja selittäviin muuttujiin. Taustamuuttujat ovat aina selittäviä muuttujia tilastollisessa tutkimuksessa. Toisaalta selitettävä muuttuja on tilastollisessa päättelyssä aina jokin satunnaismuuttuja. Osa satunnaismuuttujista voi olla kuitenkin myös selittäviä muuttujia. Tällöin katsotaan, että selitettävän satunnaismuuttujan toteutuva arvo riiippuu ehdollisesti siitä, mitä toteutuneita arvoja selittävät satunnaismuuttujat ovat jo saaneet.

13 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 13 Esimerkki 1.6. Palataan tutkimusongelmaa, missä halutaan selvittää henkilöiden todennäköisyyttä ostaa joko rusinaton tai rusinallinen valmismaksalaatikko. Olkoon nyt erityisenä tutkimusongelmana se, että eroaako vuotiaiden ja toisaalta yli 30 vuotiaiden henkilöiden todennäköisyys ostaa rusinaton maksalaatikko toisistaan. Nyt maksalaatikon valintaan liittyvät alkeistapahtumat e 1 = rusinaton maksalaatikko valitaan, e 2 = perinteinen rusinallinen maksalaatikko valitaan, yksittäisen henkilön i tilanteessa voidaan koodata satunnaismuuttujaksi Y i siten, että satunnaismuuttujan Y i toteutunut arvo y i saa lukuarvon { 1, kun e 1 toteutuu henkilön i tapauksessa, y i = 0, kun e 2 toteutuu henkilön i tapauksessa. Vastaavasti henkilön ikää voidaan merkitä taustamuuttujalla X, joka voidaan koodata henkilön i tilanteessa esim. seuraavasti: { 1, kun henkilö i on vuotias, x i = 0, kun henkilö i on yli 30 vuotias. Rusinattoman maksalaatikon valintatodennäköisyyttä voidaan tarkastella iän mukaan ositetuissa populaatioissa. Merkitään tapahtuman Y i = 1 todennäköisyyttä vuotiaiden (18-30 vuotiaiden muodostamassa populaatiossa) tilanteessa tuntemattomalla parametrilla P (Y i = 1 x i = 1) = θ N ja saman tapahtuman todennäköisyyttä yli 30 vuotiaiden tilanteessa (yli 30 vuotiaiden muodostamassa populaatiossa) tuntemattomalla parametrilla P (Y i = 1 x i = 0) = θ V. Täten ja yli 30 vuotiaiden todennäköisyys ostaa rusinaton maksalaatikko on yhtäsuuri, jos on voimassa parametreille θ N ja θ V, että θ N = θ V. Tilastollisen päättelyn tehtävänä on arvioida tietoaineiston pohjalta, olisiko yhtäsuuruus θ N = θ V todella voimassa. Kannattaa huomata, että yhtäsuuruus θ N = θ V ei tarkoita, että olisi voimassa θ N = θ V = 0.5 Eli vaikka ja yli 30 vuotiaiden todennäköisyys ostaa rusinatonta maksalaatikkoa olisi täysin sama, voi yleisesti todennäköisyys ostaa rusinaton maksalaatikko poiketa todennäköisyydestä ostaa rusinallinen maksalaatikko.

14 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo Muuttujien mitta-asteikot Satunnais- ja taustamuuttujia voidaan luokitella monella tapaa ja erityisesti niin kutsuttujen mitta-asteikkojen perusteella. Mitta-asteikko kuvaa, millä tasolla muuttujan mittaukset on tehty. Käytetty mitta-asteikko vaikuttaa siihen, mitä tilastollisia menetelmiä muuttujan analysoimisessa voidaan käyttää. Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin eli kvalitatiivisiin muuttujiin ja numeerisiin eli kvantitatiivisiin muuttujiin. Muuttuja on kategorinen, jos muuttujan arvojen perusteella havaintoyksiköt jakautuvat tarkasteltavan ominaisuuden suhteen äärelliseen määrään toisensa poissulkeviin luokkiin. Muuttuja on puolestaan numeerinen, jos havaintoyksiköiden saamat arvot muuttujan suhteen ovat luonnollisesti reaalisia lukuarvoja. Kategoriset muuttujat voidaan lisäksi jakaa mitta-asteikon perusteella nominaali- eli luokitteluasteikollisiin muuttujiin ja ordinaali- eli järjestysasteikollisiin muuttujiin. Kategorinen muuttuja on luokitteluasteikollinen, jos muuttajan saamia eri arvoja, eli luokkia, ei voida laittaa mielekkääseen järjestykseen. Esimerkiksi muuttujat kuten henkilön siviilisääty, vehnälajike ja mielipide valitseeko rusinallisen vai rusinattoman maksalaatikon ovat kategorisia luokitteluasteikollisia muuttujia. Kategorinen muuttuja on puolestaan järjestysasteikollinen, jos muuttajan saamat eri arvot eli luokkat voidaan jossain mielessä laittaa luonnolliseen järjestykseen. Esimerkiksi muuttujat kuten koulutustaso tai mielipide esim. 5 luokkaisena muuttujana (erittäin hyvä, hyvä, keskikertainen, huono, erittäin huono) rusinattoman maksalaatikon mausta ovat kategorisia järjestysasteikollisia muuttujia. Kategoriset muuttujat voidaan koodata numeerisesti, mutta numeroarvoilla ei ole määrällistä tulkintaa. Ne ovat vain luokkien nimiä tai kertovat luokkien luonnollisen järjestyksen. Numeeriset muuttujat voidaan puolestaan jakaa mitta-asteikon perusteella suhde- ja intervalli- eli välimatka-asteikollisiin muuttujiin. Jos numeerisen muuttujan arvo nolla vastaa mitattavan ominaisuuden "katoamista", niin muuttuja on suhdeasteikollinen muuttuja. Jos muuttujan arvolla nolla ei ole tätä tulkintaa, niin muuttuja on intervalliasteikollinen muuttuja. Esimerkiksi muuttujat kuten paino kiloina tai pituus metreinä ovat suhdeasteikollisia muuttujia kun taas muuttujat kuten taimikon istutusvuosi tai lämpötila Celsius-asteikolla ovat intervalliasteikollisia muuttujia. Suhdeasteikollisen muuttujan tilanteessa muuttujan arvojen suhteilla on mielekäs tulkinta kun taas intervalliasteikollisen muuttujan tilanteessa voidaan lähinnä verrata muuttujan arvojen eroja, mutta ei suhteita. Kun suhdeasteikollista muuttujaa voidaan mitata vai yhtä tiettyä mittayksikköä käyttämällä, voidaan muuttujan katsoa olevan mitattavissa absoluuttisella asteikolla. Esimerkiksi erilaiset lukumääriä kuvaavat muuttujat ovat absoluuttisella asteikolla mitattavia muuttujia. Numeeristen muuttujien jakaminen mitta-asteikon perusteella ei yleensä ole kuitenkaan niin tärkeää kuin kategoristen muuttujien tilanteessa. Usein samoja tilastollisia menetelmiä voidaan käyttää suhde- ja intervalliasteikollisiin muuttujiin. Numeeriset muuttujat voidaan toisaalta jakaa diskreetteihin (epäjatkuviin) ja jatkuviin muuttujiin. Muuttuja on diskreetti muuttuja, jos se voi saada arvokseen äärellisen määrän erisuuria arvoja tai äärettömän määrän siten, että arvot ovat numeroitavissa positiivisia kokonaislukuja käyttäen. Jatkuva muuttuja voi puolestaan saada mitä tahansa

15 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 15 reaaliarvoja tietyllä välillä. Kaikkia kategorisia muuttujia voidaan numeerisen koodauksen jälkeen pitää itse asiassa diskreettinä muuttujina. Jako diskreetteihin ja jatkuviin muuttujiin on tilastotieteessä tärkeä, koska tällä jaolla on usein merkitystä käytettävän tilastollisen analysointimenetelmän valintaan Havaintomatriisi Tilastotieteessä satunnaisilmiöön liittyvä päättely perustuu siis yleensä hankittuun tietoaineistoon eli dataan. Tietoa voidaan hankkia populaation havaintoyksiköistä joko kokeellisesti tai havainnoinnin avulla. Kokeellisessa tutkimuksessa pyritään usein koejärjestelyn avulla selvittämään, kuinka jotkut selittävät tekijät vaikuttavat havaintoyksiköiden käyttäytymiseen selitettävien muuttujien suhteen. Kokeellisia tutkimuksia ovat esimerkiksi viljelykokeet, lääketieteelliset kokeet, oppimiskokeet ja käytettävyyskokeet. Tutkimusaineisto voidaan kerätä myös joko kysely- tai haastattelututkimuksen avulla. Erilaiset mielipide- ja markkinointitutkimukset toteutetaankin kysely- tai haastattelututkimuksen avulla. Toisinaan tietoaineisto voi olla jo valmiina olemassa tai saadaan yhdistelemällä tietoa useammasta tietolähteestä. Esimerkiksi valtion ja kuntien tilastot ja monet avoimet tietokannat ovat kaikkien käytettävissä. Toisaalta tietoa nykyään kerätään automaattisesti muiden prosessien yhteydessä. Esimerkiksi paikannin ostoskärryssä tallentaa automaattisesti kuluttajan liikkeitä ruokakaupassa. Automatisointuneesta tiedonkeräyksestä onkin seurannut, että tietoaineistot voivat olla valtavia ja niiden analysoimiseen tarvitaan tehokkaita tietokoneita ja ohjelmistoja. Tietoaineiston keruumenetelmästä riippumatta datan voidaan katsoa koostuvan muuttujien arvoista, joita on mitattu otokseen valikoituneista havaintoyksiköistä. Olkoon satunnaisotoksessa n kappaletta havaintoyksiköitä ja tarvittaessa voidaan merkitään näitä havaintoyksikköitä kirjaimilla a 1, a 2,... a n (tai ihan vaan numeroilla 1, 2,..., n). Jokaisesta otokseen valikoituneesta havaintoyksiköstä a i on aineistossa olemassa vähintään yhdestä satunnaismuuttujasta Y havaittu toteutunut arvo y i. Eli satunnaismuuttujan Y suhteen aineisto koostuu havainnoista y 1, y 2,..., y n. Lisäksi jos tutkimukseen liittyy k kappaletta eri taustamuuttujia X 1, X 2,..., X k, niin otokseen valikoituneesta havaintoyksiköstä a i on olemassa mitattuja tai havaittuja arvoja x i1, x i2,..., x ik muuttujien X 1, X 2,..., X k suhteen. Kokonaisuudessaan käytettävissä oleva tietoaineisto kannattaa yleensä esittää havaintomatriisi muodossa Y X 1 X 2... X k a 1 y 1 x 11 x x 1k a 2 y 2 x 21 x x 2k a n y n x n1 x n2... x nk missä yksittäinen rivi kuvaa yksittäisen havaintoyksikön saamia arvoja tarkasteltavien muuttujien suhteen ja missä yksittäinen sarake kuvaa yksittäisen muuttujan arvoja eri havaintoyksiköille.

16 syksy 2013 Johdatus tilastolliseen päättelyyn Y130 - Jarkko Isotalo 16 Esimerkki 1.7. Tutkimusongelmana on tutkia, miten eri tomaattilajike ja tomaattien istutustiheys vaikuttavat tomaattisatoon. Tutkimusongelman ratkaisemiseksi tehtiin istutuskokeiden, joiden perusteella saatiin alla olevan taulukon mukaiset tulokset. Taulukko: Tomaattien satomäärät (1000 kiloa/ha) eri lajikkeilla ja eri istutustiheyksin. Istutustiheys (1000 tainta/ha). Istutustiheys 10 Istutustiheys 20 Istutustiheys 30 Istutustiheys 40 Lajike 1 7.9, 9.2, , 12.8, , 12.6, , 10.8, 12.5 Lajike 2 8.1, 8.6, , 12.7, , 14.4, , 12.5, 14.5 Lajike , 16.1, , 18.5, , 20.8, , 18.4, 18.9 (a) Mikä muuttujista on selitettävä muuttuja ja mitkä selittäviä muuttujia? (b) Hahmottele aineisto havaintomatriisimuotoon. (c) Mikä on aineistossa havaintoyksikkö? (d) Millä mitta-asteikolla muuttujien arvoja on mitattu?

17 Tilastollisen päättelyn perusteet Jarkko Isotalo - Y130 Yhden muuttujan kuvailevaa tilastotiedettä syksy Yhden muuttujan kuvailevaa tilastotiedettä 2.1 Kuvaileva tilastotiede päättelyn apuna Kuvailevan tilastotieteen avulla pyritään siis kuvailemaan olemassa olevaa tietoaineistoa eli dataa erilaisten graasten esitysten ja aineistosta laskettujen tunnuslukujen ja taulukoiden perusteella. Kuvailevan tilastotieteen menetelmien avulla pyritään tiivistetysti esittämään tietoaineistossa olevien eri muuttujien saamien arvojen jakaumia ja muuttujien mahdollisia riippuvuussuhteita. Erityisesti kuvailevan tilastotieteen avulla pyritään kuvailevaan, kuinka selitettävien satunnaismuuttujien havaitut arvot käyttäytyvät selittävien muuttujien suhteen. Kuvailevan tilastotieteen avulla pyritään saamaan jonkinlainen alustava käsitys, kuinka tutkimusongelman kannalta tärkeät muuttujat käyttäytyvät. Usein kuvailevan tilastotieteen avulla pystytään tekemään alustavia päätelmiä selitettävien satunnaismuuttujien riippuvuusta selittävien taustamuuttujien suhteen. Kuvaileva tilastotiede täten toimii varsinaisen tilastollisen päättelyn apuna ja selkiyttäjänä. Datan kuvailevan analyysin tulisikin yleensä olla sopusoinnussa lopullisten päättelyiden kanssa. Jos näin ei ole, on syytä varmistaa, onko tilastolliset päätelmät tehty oikein vai onko kuvailevassa analyysissa ollut jotain virheitä tai huomaamattomia tekijöitä. 2.2 Diskreetin muuttujan frekvenssijakauma Yksi tärkeimmistä tavoista kuvailla tietoaineisto on muodostaa aineiston muuttujista frekvenssijakaumia ja tehdä frekvenssijakaumista graasia esityksiä. Frekvenssijakauman muodostamistavat ja graaset esitystavat ovat erilaisia diskreeteille (joihin kuuluu myös kaikki kategoriset muuttujat) ja jatkuville muuttujille. Diskreetin muuttujan frekvenssijakauma koostuu muuttujan mahdollisista arvoista (luokista) ja jokaiseen arvoon liittyvästä havaitusta frekvenssistä. Diskreetin muuttujan jonkin tulosmahdollisuuden frekvenssi on kokonaisluku, joka ilmoittaa, kuinka monta kertaa kyseinen tulosmahdollisuus on toteutunut havaitussa tietoaineistossa. Muuttujan frekvenssijakauma kertoo muuttujan kaikkien mahdollisten arvojen frekvenssit. Frekvenssijakaumia voidaan tehdä sekä aineiston satunnaismuuttujille että taustamuuttujille. Frekvenssijakaumaa voidaan satunnaismuuttujan tilanteessa matemaattisesti kuvailla seuraavasti. Olkoon datassa n havaittua arvoa diskreetista satunnaismuuttujasta Y. Eli olkoon tietoaineiston havaintoyksiköistä havaittu satunnaismuuttujien Y 1, Y 2,..., Y n toteutuneet arvot y 1, y 2,..., y n. Olkoon jokaiseen aineiston havaintoyksiköön i liittyvän

18 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 2 satunnaismuuttujan Y i perusjoukko muotoa E = {e 1, e 2,..., e m }. Tällöin tulosmahdollisuuden e k (k = 1, 2,..., m) frekvenssi f k on niiden toteutuneiden arvojen lukumäärä jotka ovat arvoltaan yhtä kuin e k. Eli f k = I(y 1 = e k ) + I(y 2 = e k ) + + I(y n = e k ), (2.1) missä indikaattorifunktiolle I on voimassa { 1, kun y i = e k, I(y i = e k ) = 0, kun y i e k. (2.2) Frekvenssijakauma voidaan sitten esittää taulukkona Arvo Frekvenssi e 1 f 1 e 2 f 2. e m. f m Varsinaisen frekvenssin f k lisäksi on usein hyödyllistä esittää tulosmahdollisuuden e k suhteellinen frekvenssi p k = f k n, prosentuaaalinen frekvenssi 100 p k, summafrekvenssi F k = f 1 + f f k, suhteellinen summafrekvenssi P k = F k n = p 1 + p p k, prosentuaaalinen summafrekvenssi 100 P k. (2.3a) (2.3b) (2.3c) (2.3d) (2.3e) Summafrekvenssit ovat yleensä hyödyllisiä vain jos muuttuja on määritelty vähintään järjestysasteikolla. Tällöin tulosmahdollisuudet E = {e 1, e 2,..., e m } voidaan laittaa luonnolliseen järjestykseen. Luokitteluasteikollisessa tilanteessa tulosmahdollisuuksia ei voida laittaa mihinkään mielekkääseen järjestykseen ja täten summafrekvenssin käyttökelpoisuus on melko rajallinen. Frekvenssitaulukossa kaikki mahdolliset frekvenssit voidaan esittää seuraavasti: e k f k p k 100 p k F k P k 100 P k e 1 f 1 p p 1 F 1 P P 1 e 2 f 2 p p 2 F 2 P P 2.. e m f m p m 100 p m F m P m 100 P m Vastaanlaisesti taustamuuttujista voidaan laskea erilaisia frekvenssejä. Frekvenssijakaumat esitetään usein graasesti käyttäen tilanteeseen sopivaa esitystapaa. Diskreettien muuttujien yhteydessä käytetään yleisesti pylväsdiagrammeja tai piirakkakuvioita eli sektoridiagrammeja kuvaamaan graasesti frekvenssijakaumaa. Graanen esitys voi perustua varsinaisiin frekvensseihin f k, suhteellisiin frekvensseihin p k tai prosentuaalisiin frekvensseihin 100p k.

19 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 3 Esimerkki 2.1. Kyselytutkimuksen avulla haluttiin selvittää, kuinka onnellisina maatalousyrittäjät elämänsä kokevat. Tutkimuksessa kysyttiin yrittäjältä hänen omaa onnellisuuttaan seuraavasti: (a) En ole onnellinen Kuinka onnellisena koet nykyisen elämäntilanteesi? (b) Olen melko onnellinen (c) Olen erittäinen onnellinen Kyselytutkimukseen vastasi 57 maatalousyrittäjää, joiden vastaukset onnellisuuteen olivat seuraavanlaisia: b, b, b, b, a, c, b, b, b, b, a, c, b, c, a, c, b, a, c, b, c, a, b, c, c, b, a, b, c, a c, b, b, b, b, c, b, c, b, a, c, b, b, c, a, a, c, b, c, b, b, a, c, b, b, c, b. Ylläolevan aineiston perusteella saadaan seuraavanlainen frekvenssitaulukko ja graaset esitykset. Frekvenssit Suht. frekvenssit Suht. summafrekvenssit Ei onnellinen Melko onnellinen Erittäin onnellinen Pylväsdiagrammi Piirakkakuvio Frekvenssi b c a a b c Pylväsdiagrammissa esitetään siis diskreetin muuttujan arvojen frekvenssit pylväiden korkeuksina. Pylväsdiagrammissa pylväät piirretään erilleen toisistaan, sillä kyse on erillisiä arvoja saavasta diskreetistä muuttujasta. Piirakkakuvio puolestaan kuvaa muuttujan arvojen jakautumista ympyrän sektoreiden pinta-alana. Jokaisen arvon pinta-alan suuruus riippuu arvon suhteellisen frekvenssin suuruudesta. Useimmissa tapauksissa pylväsdiagrammi on piirakkadiagrammia suositeltavampi graanen esitys. Tämä siksi, että pylväiden korkeuksia on monesti helpompi verrata toisiinsa kuin ympyrän sektoreiden pinta-aloja.

20 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 4 Esimerkki 2.2. Tarkastellaan tutkimusongelmaa, missä halutaan selvittää vuotiaiden henkilöiden mieltymystä valita valmismaksalaatikkoa ostaessaan mielummin rusinaton maksalaatikko perinteisen rusinallisen maksalaatikon sijaan. Olkoon maksalaatikon valintaan liittyvät alkeistapahtumat e 1 = rusinaton maksalaatikko valitaan, e 2 = perinteinen rusinallinen maksalaatikko valitaan, koodattu satunnaismuuttujan Y arvoiksi { 1, kun e 1 toteutuu henkilön i tapauksessa, y i = 0, kun e 2 toteutuu henkilön i tapauksessa. Alla on esitetty aineisto, mikä sisältää läheisessä ruokamarketissa havainnoitujen 43 nuoren maksalaatikon ostajan toteutuneet valinta-arvot: 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, Muodosta aineistosta frekvenssijakauma. 2. Piirrä frekvensseistä pylväsdiagrammi ja piirakkakuvio.

21 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo Jatkuvan muuttujan frekvenssijakauma Jatkuvan muuttujan tilanteessa frekvenssijakauma voidaan tehdä vasta kuin alkuperäisen muuttujan arvot on luokiteltu pienempään määrään luokkia. Luokituksella tarkoitetaan sitä, että muuttujan arvoalue jaetaan toisensa poissulkeviin luokkaväleihin, jotka kattavat muuttujan koko arvoalueen. Yleisimmin käytetään tasaväliluokitusta, jolloin muuttujan arvoalue jaetaan yhtä pitkiin väleihin. Tällöin siis jokainen luokkaväli on yhtä pitkä. Jatkuvan muuttujan frekvenssijakauma koostuu siten luokitelluista väleistä ja jokaiseen väliin liittyvästä havaitusta frekvenssistä. Luokkavälin frekvenssi on kokonaisluku, joka ilmoittaa kuinka monta muuttujan havaittua arvoa kuuluu kyseiselle luokkavälille tietoaineistossa. Jatkuvan muuttujan frekvenssijakauma kertoo muuttujan kaikkien luokkavälien frekvenssit. Luokituksen valinta vaikuttaa siihen, miltä jatkuvan muuttujan lopullinen frekvenssijakauma näyttää. Jos luokkavälejä on liian vähän suhteessa datan havaittuihin arvoihin, frekvenssijakauma tiivistään muuttujaan liiittyvän informaation liian tiiviiksi. Toisaalta jos luokkaväleja on liian paljon tai luokitusta ei ole lainkaan tehty, frekvenssijakauma ei tällöin ilmaise muuttujan olennaisia piirteitä, johon frekvenssijakauman teolla kuitenkin pyritään. Ohjeistuksena voisi sanoa, että luokkavälien määrän tulisi olla 5-15 välillä riippuen datan otoskoosta. Luokkavälejä voidaan käyttää myös silloin, kun diskreetti muuttuja saa useita eri arvoja laajalla arvoalueella. Jatkuvan muuttujan tilanteessa frekvenssijakaumaa voidaan matemaattisesti kuvailla seuraavasti. Olkoon datassa n havaittua arvoa jatkuvasta satunnaismuuttujasta Y. Eli olkoon tietoaineiston havaintoyksiköistä havaittu jälleen satunnaismuuttujien Y 1, Y 2,..., Y n toteutuneet arvot y 1, y 2,..., y n. Olkoon nyt q 1, q 2, q 3,..., q r sellaisia luokkavälejä muodostavia lukuja, joille voimassa epäyhtälöt q 1 < q 2 < q 3 < < q r, q 1 <y i < g r, kaikille y i. (2.4a) (2.4b) Tällöin luokkavälien (q 1, q 2 ], (q 2, q 3 ],..., (q r 1, q r ] frekvenssit f 1, f 2,..., f r 1 kuvaavat lukumäärinä kuinka toteutuneet arvot y 1, y 2,..., y n jakautuvat luokkiin (q 1, q 2 ], (q 2, q 3 ],..., (q r 1, q r ]. Eli, kaikille k = 1, 2,..., r 1, f k = I(y 1 (q k, q k+1 ]) + I(y 2 (q k, q k+1 ]) + + I(y n (q k, q k+1 ]), (2.5) missä indikaattorifunktiolle I on voimassa { 1, kun y i kuuluu välille (q k, q k+1 ], I(y i (q k, q k+1 ]) = 0, kun y i ei kuulu välille (q k, q k+1 ]. (2.6) Frekvenssijakauma voidaan sitten esittää taulukkona Luokkaväli Frekvenssi (q 1, q 2 ] f 1 (q 2, q 3 ] f 2.. (q r 1, q r ] f r 1

22 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 6 Jälleen varsinaisen frekvenssin f k lisäksi on usein hyödyllistä esittää luokkavälin (q k, q k+1 ] suhteellinen frekvenssi p k = f k n, prosentuaalinen frekvenssi 100 p k, summafrekvenssi F k = f 1 + f f k, suhteellinen summafrekvenssi P k = F k n = p 1 + p p k, prosentuaalinen summafrekvenssi 100 P k. (2.7a) (2.7b) (2.7c) (2.7d) (2.7e) Tarkalleen ottaen arvoja q 1, q 2, q 3,..., q r voidaan kutsua todellisiksi luokkarajoiksi. Tämä siksi, että käytännössä usein varsinaisessa frekvenssitaulukossa saatetaan luokkaväleinä esittää todellisista luokkarajoista pyöristettyjä luokkavälejä. Varsinaiset frekvenssit f k tulee aina laskea todellisten luokkarajojen perusteella. Lisäksi käytännössä on usein järkevää valita todelliset luokkarajat siten, että ne ovat mittaustarkkuutta tarkempia, jolloin ei tule vaaraa, että sama havainto y i vahinkossa luokiteltaisiin kahteen eri luokkaan. Luokkavälin (q k, q k+1 ] keskikohtaa q k+1 q k kutsutaan luokkakeskukseksi. Jos 2 luokkavälien pituudet q k+1 q k ovat yhtä suuria kaikille k = 1, 2,..., r 1, niin silloin kyseessä on tasaväliluokitus.

23 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 7 Esimerkki 2.3. Vähittäiskauppaketju suunnittelee perustuvansa ruokakaupan asuinalueelle. Tätä varten yrityksen johto haluaa selvittää markkinoiden suuruutta alueella kysymällä kotitalouksilta, kuinka paljon kuukaudessa ne käyttävät rahaa ruokamenoihin. Yrityksen johto poimi satunnaisesti alueella asuvien kotitalouksien joukosta 40 kotitalouden otoksen ja selvitti kuinka paljon kotitaloudet käyttävät keskimäärin kuukaudessa ruokaostoksiin rahaa. Alla on esitetty otokseen valikoituneiden kotitalouksien ilmoitukset ruokamenojen suuruudesta kuukaudessa euroina Muodosta aineistosta luokiteltu frekvenssijakauma, jonka luokkaväleinä ovat (400, 600], (600, 800], (800, 1000], (1000, 1200], (1200, 1400], (1400, 1600]. Tee frekvenssitaulukkoon kaikki mahdolliset frekvenssit 2. Mitä ovat frekvenssijakauman luokkakeskukset?

24 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 8 Jatkuvan muuttujan tilanteessa frekvenssijakauma voidaan esittää graasesti esim. histogrammin tai frekvenssimonikulmion avulla. Lisäksi summafrekvenssejä voidaan esittää summakäyrän avulla. Esimerkki 2.4. Tarkastellaan aineistoa faithful.txt, mikä liittyy Yellowstonen kansallispuistossa Yhdysvalloissa sijaitsevan Old Faithful geysiirin aktiivisuuteen. Aineistossa muuttuja Y = eruptions kuvaa lähteen purkautumisen kestoaikaa minuutteina. Muuttujan frekvenssijakaumaa voidaan graasesti kuvailla histogrammin, frekvenssimonikulmion ja summakäyrän avulla. eruptions waiting Frekvenssi Histogrammi eruptions Frekvenssimonikulmio Frekvenssi Suhteellinen summafrekvenssi Suhteellinen summakäyrä eruptions eruptions

25 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 9 Histogrammi piirretään siis siten, että se muodostuu toisiinsa kiinni olevista suorakulmioista, joiden leveys on luokkavälin pituus ja korkeus luokkavälin frekvenssi. Lisäksi suorakulmioiden äärimmäisen pisteet leveyssuunnassa ovat todellisten luokkarajojen kohdalla ja usein voidaan myös kunkin suorakulmion kohdalle kirjoittaa luokkakeskuksen arvo. Frekvenssimonikulmio piirretään puolestaan yhdistämällä viivalla pisteet, jotka muodostuvat luokkakeskuksista ja luokkavälien frekvensseistä. Frekvenssimonikulmiossa lisäksi ajatellaan, että ensimmäisen luokkavälin alapuolella ja viimeisen luokkavälin yläpuolella on luokkavälit, joiden frekvenssit ovat nolla. Tällä tavalla frekvenssimonikulmio lähtee vaaka-akselilta ja palaa sinne. Summakäyrä piirretään siis summafrekvensseistä, yleensä suhteellisista tai prosentuaalisista summafrekvensseistä. Summakäyrää piirrettäessä yhdistetään pisteet, jotka muodostuvat todellisista luokkarajoista sekä summafrekvensseistä. Suhteellisia frekvenssejä ja suhteellisia summafrekvenssejä voidaan käyttää apuna, kun halutaan muodostaa alustavia arvioita eri tapahtumien todennäköisyyksistä. Esimerkiksi luokkavälin (q k, q k+1 ] suhteellinen frekvenssi p k on eräänlainen arvio todennäköisyydelle, että satunnaismuuttuja Y saa toteutuessaan arvon, mikä kuuluu välille (q k, q k+1 ]. Vastaavasti suhteellinen summafrekvenssi P k on eräänlainen arvio todennäköisyydelle, että satunnaismuuttuja Y saa toteutuessaan arvon, mikä on arvoltaan enintään q k+1 suuruinen.

26 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 10 Esimerkki 2.5. Tarkastellaan aiempaan tutkimustilannetta, missä vähittäiskauppaketju suunnittelee perustuvansa ruokakaupan asuinalueelle. Tarkastellaan frekvenssitaulukon graasta esitystä ja todennäköisyyksien arvioimista. 1. Piirrä lasketuista prosentuaalisista frekvensseistä histogrammi. 2. Piirrä suhteellisista summafrekvensseistä summakäyräkuvio. 3. Suhteellisten frekvenssien perusteella arvioi, mitä on todennäköisyys, että yksittäisen kotitalouden ruokamenot ovat (a) vähemmän kuin 1200 euroa kuussa, (b) enemmän kuin 600 euroa, mutta vähemmän kuin 1000 euroa.

27 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo Yhden muuttujan otostunnuslukuja - keskitunnusluvut Tilastotieteessä tarkasteltavien muuttujien jakaumaa pyritään usein kuvailemaan erilaisten otostunnuslukujen avulla. Otostunnusluvut lasketaan datasta, satunnaisotoksesta, muuttujien havaituista arvoista. Erityisesti satunnaismuuttujista tulisi laskea aina otostunnuslukuja. Käytetyimpiä ja tärkeimpiä otostunnuslukuja ovat muuttujan jakauman "keskimääräistä" sijaintia kuvaavat keskitunnusluvut ja muuttujan arvojen vaihtelun suuruutta kuvaavat hajontatunnusluvut. Jakauman sijaintia tai painopistettä kuvaavilla otostunnusluvuilla mitataan siis muuttujan "keskimääräistä" paikkaa, suuruutta tai laatua. Käytetyimpiä keskitunnuslukuja ovat otosmoodi, otosmediaani ja otoskeskiarvo. Usein sana otos jää käytännön kielessä pois puhuttaessa otostunnusluvuista. Algoritmi 2.1 (Otosmoodi). Satunnaismuuttujan Y otosmoodi lasketaan seuraavasti: 1. Jos satunnaismuuttuja Y on jatkuva muuttuja, muodostetaan luokkavälit (q k, q k+1 ]. 2. Lasketaan satunnaismuuttujan tulosmahdollisuuksien e k tai luokkavälien (q k, q k+1 ] frekvenssit f k satunnaisotoksen toteutuneiden arvojen y 1, y 2,..., y n perusteella. 3. Otosmoodi on se tulosmahdollisuus e k tai luokkavälin (q k, q k+1 ] luokkakeskus q k+1 q k 2, missä frekvenssi f k on suurin. 4. Jos suurin mahdollinen frekvenssi toteutuu samanaikaisesti usealle tulosmahdollisuudelle tai luokkavälille, tällöin otosmoodeja on useampia. Mikäli suurin mahdollinen frekvenssi on enintään 1, niin silloin otosmoodia ei määritellä. Otosmoodi voidaan siis laskea niin kategorisista kuin numeerisista muuttujista. Silloin kun muuttuja on jatkuva (tai diskreetti muuttuja, jolla paljon eri tulosmahdollisuuksia), otosmoodi riippuu siitä, kuinka luokkavälit (q k, q k+1 ] on muodostettu. Erityisesti pienillä otoksilla (kun esim. n < 15) otosmoodin arvo vaihtuu herkästi riippuen mihin tulosmahdollisuuteen tai luokkaväliin pieni joukko toteutuneita arvojen eniten kasautuu. Otosmediaani ja otoskeskiarvo voidaan puolestaan laskea vain numeerisista muuttujista. Otosmediaani on toteutuneista arvoista y 1, y 2,..., y n se luku, jota pienempiä ja suurempia arvoja on yhtä paljon. Otoskeskiarvo on taas toteutuneiden arvojen aritmeettinen keskiarvo.

28 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 12 Algoritmi 2.2 (Otosmediaani). Satunnaismuuttujan Y otosmediaani lasketaan seuraavasti: 1. Järjestetään satunnaisotoksen toteutuneet arvot y 1, y 2,..., y n nousevaan järjestykseen y (1), y (2),..., y (n), missä on voimassa y (1) y (2) y (n). Eli merkintä y (i) tarkoittaa, että y (i) on se joukon y 1, y 2,..., y n lukuarvo, joka on i:neksi suurin toteutuneiden arvojen y 1, y 2,..., y n joukossa. 2. Jos otoskoko n on pariton, niin otosmediaani sijaitsee nousevaan järjestykseen järjestettyjen arvojen keskimmäiseltä paikalta n+1. Eli otosmediaani on luku 2 y ( n+1 2 ). 3. Jos otoskoko n on parillinen, niin otosmediaani on nousevaan järjestykseen järjestettyjen arvojen kahden keskimmäisen arvon keskiarvo y ( n 2 ) + y ( n +1) 2. 2 Otosmediaani on siinä mielessä hyvä keskimääräistä sijaintia kuvaava tunnusluku, että se ei ole kovinkaan herkkä yksittäisille pienille tai suurille havaintoarvoille. Täten otosmediaani on robusti keskimääräisen sijainnin tunnusluku. Otosmediaani voidaan käyttää varauksin kuvaamaan keskimääräistä sijantia myös järjestysasteikollisen muuttujan tilanteessa. Algoritmi 2.3 (Otoskeskiarvo). Satunnaismuuttujan Y otoskeskiarvo lasketaan seuraavasti: 1. Lasketaan satunnaisotoksen toteutuneet arvot y 1, y 2,..., y n yhteen n y i = y 1 + y y n. i=1 2. Jaetaan toteutuneiden arvojen summa satunnaisotoksen koolla n: ȳ = n i=1 y i n = y 1 + y y n. n Otoskeskiarvo on käytetyin muuttujan keskimääräistä sijaintia kuvaava tunnusluku.

29 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 13 Myöhemmin tullaan huomaamaan, että otoskeskiarvolla on tärkeä rooli tilastollisessa päättelyssä, erityisesti normaalisti jakautuneiden satunnaismuuttujien tilanteessa. Otoskeskiarvon huono puoli on siinä, että sen arvo vaihtuu suhteellisen herkästi, mikäli aineistoon lisätään tai poistetaan yksittäinen poikkeavan suuri tai pieni arvo. Joskus sijaintitunnusluvuksi voidaankin laskea esim. r-trimmattu otoskeskiarvo ȳ [r], missä toteutuneista arvoista y 1, y 2,..., y n ensiksi poistetaan r-kappaletta pienimpiä ja r-kappaletta suurimpia arvoja ja sitten jäljellä jääneistä arvoista lasketaan aritmeettinen keskiarvo. Esimerkki 2.6. Helsingin kaupunki järjestää kesäisin matkailijoille bussikiertoajeluita. Matkailutoimisto on kiinnostunut tutkimaan, kuinka suosittuja bussikiertoajelut ovat. Seuraavassa on 8 eri kiertoajeluun osallistuneiden matkustajien lukumäärät. 9,11,7,12,6,11,10,13 Mikä on tutkimuksen satunnaismuuttuja Y? Laske yllä olevista satunnaismuuttujan toteutuneista arvoista seuraavat otostunnusluvut. 1. Otosmoodi: 2. Otosmediaani: 3. Otoskeskiarvo ȳ: Tilastollisen päättelyn yhteydessä muuttujille usein tehdään erilaisia muunnoksia. Jos satunnaismuuttujan Y havaituille arvoilla y 1, y 2,..., y n tehdään lineaariset muutokset w i = ay i + b, i = 1, 2,..., n, (2.8) niin silloin havaintojen w 1, w 2,..., w n otoskeskiarvo w on muotoa w = aȳ + b. (2.9)

30 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo Yhden muuttujan tunnuslukuja - hajontaluvut Tietoaineistossa muuttujien saamat arvot vaihtelevat havaintoyksiköstä toiseen. Erityisesti satunnaismuuttujien arvojen tulee vaihdella, muuten muuttuja ei ole satunnainen! Tätä vaihtelun voimakkuutta voidaan mitata erilaisten hajontatunnuslukujen avulla. Hajontatunnuslukuja voidaan mitata vain numeerisista muuttujista. Kategoristen, erityisesti luokitteluasteikollisten, muuttujien vaihtelua on hankala frekvenssijakaumaa enempää mitata. Yksinkertaisin hajontatunnusluku on vaihteluvälin pituus otoksessa. Algoritmi 2.4 (Vaihteluvälin pituus otoksessa). Satunnaismuuttujan Y vaihteluvälin pituus otoksessa lasketaan seuraavasti: 1. Järjestetään satunnaisotoksen toteutuneet arvot y 1, y 2,..., y n nousevaan järjestykseen y (1), y (2),..., y (n). 2. Vaihteluvälin pituus on pienimmän y (1) ja suurimman y (n) arvon erotus y (n) y (1). Satunnaismuuttujan toteutuneiden arvojen perusteella voidaan laskea niin sanottuja otoskvantiileja. Esimerkiksi otosmediaani on itse asiassa muuttujan 50% otoskvantiili. Otosmediaani jakaa toteutuneet arvot siten, että arvoista (teoriassa) 50% on pienempiä kuin otosmediaani ja arvoista 50% suurempia kuin otosmediaani. Tätä 50% otoskvantiilia kutsutaan myös toiseksi otoskvartiiliksi ja voidaan merkitä kirjaimella Q 2. Eli otosmediaani on yhtä kuin Q 2. Muuttujan arvojen vaihtelun voimakkuuden kannalta on hyödyllistä kuvailla, mitä on arvoltaan 25% otoskvantiili, eli ensimmäinen otoskvartiili Q 1 ja 75% otoskvantiili, eli kolmas otoskvartiili Q 3. Satunnaismuuttujan 25% otoskvantiili Q 1 on siis sellainen luku, että (teoriassa) 25% toteutuneista arvoista y 1, y 2,..., y n pienempiä kuin Q 1 luku ja 75% on suurempia kuin Q 1. Vastaanvanlaisella logiikalla 75% otoskvantiili Q 3 jakaa toteutuneet arvot pienempiin ja suurempiin arvoihin. Muuttujan arvojen vaihtelun voimakkuutta voidaan nyt mitata otoskvartiilivälin pituuden Q 3 Q 1 avulla. Alla on esitetty täsmällinen algoritmi, minkä avulla otoskvartiilit Q 1 ja Q 3 voidaan laskea ja siten pituus Q 3 Q 1 saadaan muodostettua.

31 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 15 Algoritmi 2.5 (Otoskvartiilivälin pituus). Satunnaismuuttujan Y otoskvartiilivälin pituus lasketaan seuraavasti: 1. Järjestetään satunnaisotoksen toteutuneet arvot y 1, y 2,..., y n nousevaan järjestykseen y (1), y (2),..., y (n). 2. Lasketaan otoskvartiiliin Q 1 liittyvä paikka P 1 = n+1 4 ja otoskvartiiliin Q 3 liittyvä paikka P 3 = 3(n+1) Jos P 1 on kokonaisluku, niin silloin Q 1 = y (P1 ). Jos P 3 on kokonaisluku, niin silloin Q 3 = y (P3 ). 4. Jos P 1 ei ole kokonaisluku, niin pyöristetään luku P 1 seuraavaan alempaan kokonaislukuun K 1 = P 1. Otoskvartiili Q 1 on tällöin Q 1 = y (K1 ) + (P 1 K 1 )(y (K1 +1) y (K1 )). 5. Jos P 3 ei ole kokonaisluku, niin pyöristetään luku P 3 seuraavaan alempaan kokonaislukuun K 3 = P 3. Otoskvartiili Q 3 on tällöin Q 3 = y (K3 ) + (P 3 K 3 )(y (K3 +1) y (K3 )). 6. Lasketaan otoskvartiilivälin pituus Q 3 Q 1. Otoskvartiilejä käytetään myös niin sanotussa viiden luvun yhteenvedossa, mikä koostuu järjestyksessä otostunnusluvuista (y (1), Q 1, Q 2, Q 3, y (n) ), (2.10) eli otoksen minimiarvosta, alakvartiilista Q 1, mediaanista, yläkvartiilista Q 3 ja maksimiarvosta. Viiden luvun yhteenveto tiivistää muuttujan otosjakauman viiteen tunnuslukuun. Graasesti viiden luvun yhteenveto kuvataan boxplotin eli laatikko-jana - diagrammin avulla. Maksimiarvo Q 3 Mediaani y Q 1 Minimiarvo

32 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 16 Esimerkki 2.7. Helsingin kaupunki järjestää kesäisin matkailijoille bussikiertoajeluita. Matkailutoimisto on kiinnostunut tutkimaan, kuinka suosittuja bussikiertoajelut ovat. Seuraavassa on 8 eri kiertoajeluun osallistuneiden matkustajien lukumäärät. 9,11,7,12,6,11,10,13 Laske yllä olevista satunnaismuuttujan toteutuneista arvoista seuraavat otostunnusluvut. 1. Vaihteluvälin pituus otoksessa: 2. Otoskvartiilivälin pituus Q 3 Q 1 : 3. Hahmottele otostunnuslukujen perusteella muuttujalle boxplot kuvio:

33 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 17 Yleisin hajontatunnusluku on puolestaan otoskeskihajonta. Otoskeskihajonta kuvaa toteutuneiden arvojen y 1, y 2,..., y n keskimääräistä poikkeavuutta muuttujan keskimääräisestä sijainnista, kun keskimääräisen sijainnin tunnuslukuna käytetään otoskeskiarvoa. Otoskeskihajontaa merkitään usein kirjaimella s ja se saadaan laskettua kaavalla s = n i=1 (y i ȳ) 2. (2.11) n 1 Käsinlaskettaessa otoskeskihajonnan laskennassa kannattaa käyttää kaavaa ( n i=1 s = y2 i ) nȳ2. (2.12) n 1 Otoskeskihajonnan neliötä s 2 = n i=1 (y i ȳ) 2 n 1 (2.13) kutsutaan otosvarianssiksi ja erityisesti otosvarianssilla on suuri merkitys tilastollisen päättelyn teoriassa. Algoritmi 2.6 (Otoskeskihajota). Satunnaismuuttujan Y otoskeskihajonta lasketaan seuraavasti: 1. Lasketaan satunnaisotoksen toteutuneista arvoista y 1, y 2,..., y n otoskeskiarvo ȳ. 2. Lasketaan jokaisen toteutuneen arvon neliö y 2 i ja summataan neliöt yhteen n i=1 y2 i. 3. Lasketaan erotus ( n ) nȳ 2. i=1 y 2 i 4. Lasketaan otosvarianssi 5. Lasketaan lopputulos s 2 = ( n i=1 y2 i ) nȳ 2. n 1 s = ( n s 2 i=1 = y2 i ) nȳ2. n 1 Otoskeskihajonta s on aina positiivinen luku. Otoskeskihajonta on otoskeskiarvon tavoin herkkä yksittäisille poikkeavan suurille ja pienille havaintoarvoille. Lisäksi jos satunnaismuuttujan Y havaituille arvoilla y 1, y 2,..., y n tehdään lineaariset muutokset w i = ay i + b, i = 1, 2,..., n, (2.14)

34 syksy 2013 Yhden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 18 niin silloin havaintojen w 1, w 2,... w n otoskeskihajonta s w on muotoa s w = a s y, (2.15) missä alaindeksi kuvataan, minkä muuttujan suhteen otoskeskihajontoja lasketaan. Otoskeskihajonnan ja otoskeskiarvon avulla voidaan sitten laskea niin sanottu otosvariaatiokerroin (engl. coecient of variation): cv = s y ȳ. (2.16) Variaatiokerroin on hajontaluku, joka soveltuu esimerkiksi tilanteisiin, missä halutaan vertailla havaintoarvoiltaan hyvin erilaisten osapopulaatioiden otoshajontoja keskenään. Otosvariaatiokerroin on käyttökelpoinen, jos halutaan vertailla esim. hiirien ja norsujen korvien kokoon suhteellisia hajontoja keskenään. Esimerkki 2.8. Helsingin kaupunki järjestää kesäisin matkailijoille bussikiertoajeluita. Matkailutoimisto on kiinnostunut tutkimaan, kuinka suosittuja bussikiertoajelut ovat. Seuraavassa on 8 eri kiertoajeluun osallistuneiden matkustajien lukumäärät. 9,11,7,12,6,11,10,13 Laske yllä olevista satunnaismuuttujan toteutuneista arvoista seuraavat otostunnusluvut. 1. Otosvarianssi: 2. Otoskeskihajonta: 3. Otosvariaatiokerroin:

35 Tilastollisen päättelyn perusteet Jarkko Isotalo - Y130 Kahden muuttujan kuvailevaa tilastotiedettä syksy Kahden muuttujan kuvailevaa tilastotiedettä 3.1 Kuvaileva tilastotiede usean muuttujan tilanteessa Tilastollisia menetelmiä käytetään usein tilanteissa, missä halutaan tutkia syy-seuraus suhteita joidenkin tekijöiden tai muuttujien välillä. Usein siis tilastollisia menetelmiä tarvitaan tilanteessa, missä satunnaismuuttujan Y katsotaan riippuvan jollain tavalla selittävistä muuttujista X 1, X 2,..., X k. Selittävät muuttujat X 1, X 2,..., X k voivat puolestaan olla ei-satunnaisia taustamuuttujia tai satunnaisia selittäviä muuttujia, joidenka vaikutusta Y :n arvoihin halutaan tutkia. Tässä luvussa tarkastellaan kuvailevan tilastotieteen menetelmiä tilanteessa, missä selitettävän satunnaismuuttujan Y arvojen katsotaan riippuvan selittävän muuttujan X arvoista. Kuvailevat menetelmät (kuten myös päättelyn menetelmät) riippuvat siitä, minkälaisia muuttujia Y ja X ovat. Satunnaismuuttuja Y voi olla jatkuva numeerinen muuttuja tai diskreetti kategorinen muuttuja. Vastaavanlaisesti selittävä muuttuja X voi olla numeerinen tai kategorinen. Tässä luvussa rajoitutaan lähinnä siis tilanteisiin, missä selittäviä muuttujia on yksi. Usein todellisuudessa selittäviä muuttujia voi olla useita. Tämä pitääkin aina pitää mielessä, kun tarkastellaan yhden selittävän muuttujan tilanteessa tehtyjä kuvailevia analyysejä. Yhden selittävän muuttujan tarkasteluilla saadaan kuitenkin jo peruskäsitys, mitä tilastolliset analyysit todellisuudessa ovat ja tämän käsityksen avulla on helpompi ymmärtää tilastollisia analyysejä ja mallinnusta myös usean selittävän muuttujan tilanteessa. 3.2 Numeerinen satunnaismuuttuja Y ja kategorinen selittävä muuttuja X Oletetaan nyt, että tarkasteltava satunnaismuuttuja Y on joko jatkuva numeerinen satunnaismuuttuja tai diskreetti numeerinen satunnaismuuttuja, joka voi saada useita eri tulosmahdollisuuksia. Lisäksi oletetaan, että selittävä muuttuja X on kategorinen muuttuja, joka voi saada äärellisen määrän eri arvoja (tai diskreetti numeerinen muuttuja, jolla vain äärellinen määrä eri tulosmahdollisuuksia). Nyt jokaisen havaintoyksikön tapauksessa selittävän muuttujan X voidaan olettaa saavan h kappaletta erilaisia arvoja x j, (j = 1, 2,..., h). Koodataan selittävän muuttujan X saamat arvot x j numeroiksi x 1 = 1, x 2 = 2,..., x h = h. Selittävän muuttujan X perusteella havaintoyksiköiden kokonaispopulaatio voidaan täten jakaa arvojen x 1 = 1, x 2 = 2,..., x h = h perusteella h:n eri osapopulaatioon.

36 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 2 Tällaisessa tutkimustilanteessa voidaan ajatella, että jokaisesta osapopulaatiosta j = 1, 2,..., h on poimittu satunnaisesti n j havaintoyksikköä, joista sitten on mitattu selitettävän muuttujan Y toteutunut arvo. Täten tietoaineiston selitettävän muuttujan Y toteutuneita arvoja voidaan merkitä seuraavasti: y ij =muuttujan Y i:nes havaittu arvo osapopulaatiosta j, kun i = 1, 2,..., n j, j = 1, 2,..., h. Havaittu tietoaineisto siten muodostuu selitettävän muuttujan arvoista X = 1 : y 11, y 21,..., y n1 1, X = 2 : y 12, y 22,..., y n2 2,. X = h : y 1h, y 2h,..., y nh h, jotka voidaan halutessa esittää myös havaintomatriisimuodossa X Y 11 1 y y y n y n y y y n y n h h y 1h 2h h y 2h 3h h y 3h... n h h h y nh h. Tietoaineiston havaittujen arvojen y ij voidaan ajatella nyt olevan toteutuneita arvoja satunnaismuuttujista Y ij. Kuvailevan tilastotieteen avulla pyritään nyt saamaan käsitys, kuinka havaitut arvot y ij käyttäytyvät selittävän muuttujan X muodostamissa osapopulaatioissa j = 1, 2,..., h. Toteutuneiden arvojen käyttäytymistä eri osapopulaatiossa voidaan kuvailla laskemalla jokaisen luokan j osadatasta y 1j, y 2j,..., y nj j ehdollisia frekvenssijakaumia ja keski- ja hajontatunnuslukuja, ja sitten vertailemalla näitä eri ehdollisia otostunnuslukuja eri luokkien j tilanteissa.

37 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 3 Esimerkiksi jos satunnaismuuttujien Y ij arvot on luokiteltu luokkaväleihin (q 1, q 2 ], (q 2, q 3 ],..., (q r 1, q r ], niin tällöin osapopulaation j tilanteessa luokkavälin (q k, q k+1 ] (k = 1, 2,..., r 1) frekvenssi f kj on niiden toteutuneiden arvojen y 1j, y 2j,..., y nj j lukumäärä jotka kuuluvat luokkavälille (q k, q k+1 ]. Eli f kj = I(y 1j (q k, q k+1 ]) + I(y 2j (q k, q k+1 ]) + + I(y nj j (q k, q k+1 ]). (3.1) Frekvenssijakaumat voidaan sitten esittää taulukkona (kutsutaan ristiintaulukoksi ): Luokkaväli Frekv., kun X = 1 Frekv., kun X = 2... Frekv., kun X = h (q 1, q 2 ] f 11 f f 1h (q 2, q 3 ] f 21 f f 2h..... (q r 1, q r ] f (r 1)1 f (r 1)2... f (r 1)h Summa n 1 n 2... n h Samassa taulukossa voidaan esittää myös osadatoista laskettuja ehdollisia suhteellisia ja prosenttuaalisia frekvenssejä, sekä erilaisia ehdollisia summafrekvenssejä myös. Lisäksi frekvenssitaulukon perusteella (erityisesti ehdollisten suhteellisten frekvenssien perusteella) voidaan graasesti esittää osapopulaatioiden frekvenssijakaumia käyttäen histogrammeja, frekvenssimonikulmioita ja summakäyriä esitystapana. Vertailemalla laskettuja ehdollisia suhteellisia frekvenssejä voidaan tehdä alustavia arvioita siitä, vaikuttaako selittävän muuttujan X arvo selitettävän muuttujan Y käyttäytymiseen. Jos ehdolliset suhteelliset frekvenssijakaumat poikkeavat luokkien j suhteen, voidaan katsoa, että selitettävän muuttujan Y arvot riippuvat selittävän muuttujan X arvoista. Tälläisen riippuvuuden tarkempi analysointi kuuluu kuitenkin tilastollisen päättelyn puolelle ja täten pelkän kuvailevan analyysin perusteella ei pidä tehdä liian voimakkaita päätelmiä muuttujien riippuus tai syy-seuraus suhteista. Vastaavasti selittävän muuttujan X jokaisen luokan j osadatasta y 1j, y 2j,..., y nj j voidaan laskea erilaisia ehdollisia otostunnuslukuja, joita sitten luokittain vertailemalla voidaan tehdä alustavia arvioita selittävän muuttujan X vaikutuksesta selitettävän muuttujan Y arvoihin. Esimerkiksi jos jokaisen osapopulaation j tilanteessa (j = 1, 2,..., h) lasketaan osadatasta y 1j, y 2j,..., y nj j otoskeskiarvo, otosmediaani ja otoskeskihajonta, voidaan lasketut otostunnusluvut ilmoittaa taulukkona: Tunnusluku X = 1 X = 2... X = h Otoskeskiarvo ȳ 1 ȳ 2... ȳ h Otosmediaani Q 21 Q Q 2h Otoskeskihajonta s 1 s 2... s h Otostunnuslukutaulukon perusteella voidaan sitten alustavasti vertailla, vaihtelevatko satunnaismuuttujan Y keskisijainnit tai hajonnat selittävän muuttujan X luokkien mukaan. Jos toteutuneista arvoista y ij on laskettu osapopulaatioittain ehdollisia viiden numeron yhteenvetoja, voidaan nämä graasesti esittää boxplot kuvioiden avulla.

38 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 4 Esimerkki 3.1. Tutkimuksessa tutkittiin uuden vehnälajikkeen vaikutusta satoisuuteen. Vertailukohteena oli vanha yleisesti viljelty lajike. Kokeessa käytettiin satunnaistettuja koeruutuja, joissa lajikkeita kasvatettiin. Seuraavassa on esitetty tutkimuksessa mitatut satoisuudet (kg/hehtaari): Uusi lajike 3964, 4012, 4176, 4049, 3969, 4152, 4041, 4213, 4273, 4019 Vanha lajike 3703, 3977, 3985, 3795, 3988, 3762, 3710, 3948, 4071, 3773 Kuvaile sopivien taulukoiden, kuvioiden ja tunnuslukujen avulla näyttäisikö lajikkeiden välillä olevan keskisijainnin tai hajonnan suhteen eroja.

39 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo Numeerinen satunnaismuuttuja Y ja numeerinen selittävä muuttuja X Oletetaan nyt, että tarkasteltava satunnaismuuttuja Y ja selittävä muuttuja X ovat joko jatkuvia numeerisia muuttujia tai diskreettejä numeerisia muuttujia, jotka voivat saada useita eri tulosmahdollisuuksia. Tällaisessa tutkimustilanteessa voidaan ajatella, että jokaisesta tietoaineiston havaintoyksiköstä i (i = 1, 2,..., n) on mitattu kummankin muuttujan X ja Y suhteen toteutuneet arvot x i ja y i. Tällöin siis tietoaineisto koostuu muuttujien X ja Y toteutuneista havaintopariarvoista (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ), jotka voidaan halutessa esittää myös havaintomatriisimuodossa X Y 1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n Jos tutkimusongelman kannalta on selvää, että muuttuja X on tutkimusongelmassa selittävä muuttuja, niin tietoaineiston havaittujen arvojen y i voidaan ajatella nyt olevan toteutuneita arvoja satunnaismuuttujista Y i sillä ehdolla, että selittävän muuttujan X arvo on asetettu tai ensiksi toteutunut arvoksi x i. Tätä ehdollisuutta voidaan toisinaan korostaa sillä, että kirjoitetaan satunnaismuuttuja Y i ehdollisessa muodossa Y i X i = x i. Kuvailevan tilastotieteen avulla pyritään tässä tilanteessa saamaan käsitys, minkälaisia toteutuneita arvoja y i selitettävä muuttuja Y saa kun selittävä muuttuja X on saanut arvokseen x i. Yksi tapa kuvailla muuttujien X ja Y välistä riippuvuutta on luokitella X muuttujan havaitut arvot x 1, x 2,..., x n joidenkin luokkavälien avulla h:n eri luokkaan ja sitten suorittaa luokitellun X:n tilanteessa kuvailevaa analyysia edellisen luvun tavoin. Usein on kuitenkin hyödyllistä tarkastella muuttujien X ja Y välistä riippuvuutta ilman mitään luokituksia. Tällöin kuvailevan analyysin kannalta on tärkeää piirtää muuttujista X ja Y pisteparvi. Esimerkiksi seuraavasta aineistosta saadaan alla oleva pisteparvikuvio. X Y y x

40 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 6 Pisteparvikuvion lisäksi muuttujien X ja Y välistä lineaarista riippuvuutta voidaan kuvailla otoskorrelaatiokertoimen r xy avulla n i=1 r xy = (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 (y i ȳ) = s xy, (3.2) 2 s x s y n i=1 (x i x) 2 n i=1 (y i ȳ) 2 missä s x = ja s n 1 y = ovat muuttujien X ja Y otoskeskihajontoja ja s xy muuttujien X ja Y välinen n 1 otoskovarianssi s xy = n i=1 (x i x)(y i ȳ) n 1 = ( n i=1 x iy i ) n xȳ. (3.3) n 1 Algoritmi 3.1 (Otoskorrelaatiokerroin). Muuttujien X ja Y välinen otoskorrelaatiokerroin lasketaan seuraavasti: 1. Lasketaan satunnaisotoksen toteutuneista arvoista (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) otoskeskiarvot x, ȳ ja otoskeskihajonnat s x, s y. 2. Lasketaan tulosumma n i=1 x iy i. 3. Lasketaan otoskovarianssi s xy = ( n i=1 x iy i ) n xȳ. n 1 4. Lasketaan otoskorrelaatiokerroin r xy = s xy s x s y. Otoskorrelaatiokertoimella on seuraavia ominaisuuksia: 1. Positiivinen otoskorrelaatiokertoimen r xy arvo merkitsee, että muuttujien välillä on positiivista riippuvuutta. Eli kun X muuttujan arvo kasvaa, Y muuttujan arvo nousee myös. Negatiivinen otoskorrelaatiokertoimen r xy arvo merkitsee, että muuttujien välillä on negatiivista riippuvuutta. Eli kun X muuttujan arvo kasvaa, Y muuttujan arvo laskee. 2. Otoskorrelaatiokertoimen r xy arvoksi voi tulla luku -1 ja 1 välillä. Jos r xy :n arvo on lähellä nollaa, muuttujien välillä ei ole lineaarista riippuvuutta. Jos r xy :n arvo on lähellä arvoa 1, niin muuttujien välillä on erittäin vahvaa positiivista lineaarista riippuvuutta. Jos r xy :n arvo on lähellä arvoa -1, niin muuttujien välillä on erittäin vahvaa negatiivista lineaarista riippuvuutta. Otoskorrelaatiokertoimen

41 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 7 arvolle voidaan tehdä seuraava karkea luokittelu: 0.3 r xy 0.3 : ei merkittävää lineaarista riippuvuutta, 0.3 < r xy 0.5 : heikkoa positiivista lineaarista riippuvuutta, 0.5 < r xy 0.8 : positiivista lineaarista riippuvuutta, 0.8 < r xy 1 : vahvaa positiivista lineaarista riippuvuutta, 0.5 r xy < 0.3 : heikkoa negatiivista lineaarista riippuvuutta, 0.8 r xy < 0.5 : negatiivista lineaarista riippuvuutta, 1 r xy < 0.8 : negatiivista lineaarista riippuvuutta. 3. Otoskorrelaatiokerroin r xy mittaa ainostaan muuttujien X ja Y välistä lineaarista riippuvuutta. Muuttujien välillä voi kuitenkin olla myös muunlaistakin riippuvuutta kuin lineaarista. 4. Otoskorrelaatiokerroin r xy on otoskeskiarvon ja otoskeskihajonnan tavoin herkkä yksittäisille poikkeaville havainnolle. Arvioi seuraavien pisteparvien perusteella, mikä on muuttujien X ja Y välinen otoskorrelaatio? x y x y x y x y

42 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 8 Esimerkki 3.2. Yhdysvaltalainen metsäntutkimusryhmä halusi arvoida kuinka Black Cherry puun (Prunus serotina) rinnankorkeudelta (130 cm) mitattu ympärysmitta korreloi puun tilavuuden kanssa. Tutkimusryhmä mittasi 6 puusta ympärysmitan (cm) ja tilavuuden (m3) ja sai seuraavan aineiston: ympärysmitta: 28.19, 36.07, 27.94, 45.72, 52.32, tilavuus: 0.64, 0.90, 0.44, 1.44, 2.18, Piirrä aineistosta pisteparvi. 2. Laske aineiston kummastakin muuttujasta otoskeskiarvot. 3. Laske aineiston kummastakin muuttujasta otoskeskihajonnat. 4. Laske aineistosta neliösumma n i=1 x iy i. 5. Laske muuttujien ympärysmitta ja tilavuus välisen otoskorrelaatiokertoimen r xy arvo.

43 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo Kategorinen satunnaismuuttuja Y ja kategorinen selittävä muuttuja X Seuraavaksi oletetaan, että tarkasteltava satunnaismuuttuja Y ja selittävä muuttuja X ovat molemmat kategorisia muuttujia, jotka voivat saada äärellisen määrän eri arvoja (tai diskreettejä numeerisia muuttujia, joilla vain äärellinen määrä eri tulosmahdollisuuksia). Jokaisen havaintoyksikön tapauksessa selittävän muuttujan X voidaan olettaa siis saavan h kappaletta erilaisia arvoja x j, (j = 1, 2,..., h). Selittävän muuttujan X saamat arvot x j koodataan jälleen numeroiksi x 1 = 1, x 2 = 2,..., x h = h. Selittävän muuttujan X perusteella havaintoyksiköiden kokonaispopulaatio voidaan siis jakaa arvojen x 1 = 1, x 2 = 2,..., x h = h perusteella h:n eri osapopulaatioon. Kannattaa huomata, että tässä tilanteessa (ja jo aiemminkin luvussa 3.2) merkintä x j tarkoittaa nimenomaan muuttujan X yhtä tulosmahdollisuutta, eikä havaintoyksikön i saamaa havaittua arvoa x i. Hyvin usein tilastotieteessä erilaisilla merkinnöillä on kaksoismerkitys. Tässä kohtaan nyt merkinnällä x on tavallaan kaksoismerkitys. Koska kuitenkin kategorisen selittävän muuttujan tilanteessa havaintoyksikköön i liittyvän havaitun arvon x i informaatio sisältyy myös alaindeksiin y ij, niin merkinnällä x i ei ole tässä tilanteessa merkittävää käyttöarvoa. Kategoristen muuttujien tutkimustilanteessa voidaan siis ajatella, että jokaisesta osapopulaatiosta j = 1, 2,..., h on poimittu satunnaisesti n j havaintoyksikköä, joista sitten on mitattu selitettävän muuttujan Y toteutunut arvo. Täten tietoaineiston selitettävän muuttujan Y toteutuneita arvoja voidaan merkitä seuraavasti: y ij =muuttujan Y i:nes havaittu arvo osapopulaatiosta j, kun i = 1, 2,..., n j, j = 1, 2,..., h. Havaittu tietoaineisto siten muodostuu selitettävän muuttujan arvoista X = 1 : y 11, y 21,..., y n1 1, X = 2 : y 12, y 22,..., y n2 2,. X = h : y 1h, y 2h,..., y nh h, jotka voidaan halutessa siis esittää myös havaintomatriisimuodossa

44 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 10 X Y 11 1 y y n y n y y n y n h h y 1h 2h h y 2h... n h h h y nh h. Tietoaineiston havaittujen arvojen y ij voidaan ajatella nyt olevan toteutuneita arvoja satunnaismuuttujista Y ij, missä jokaisen satunnaismuuttujan Y ij perusjoukko on muotoa E = {e 1, e 2,..., e m }. Kahden kategorisen muuttujan tilanteessa kuvaileva analyysi perustuu ristiintaulukoihin ja ristiintaulukoista piirrettyjen pylväs- ja piirakkakuvioiden tekemiseen ja arvioimiseen. Ristiintaulukko sisältää satunnaismuuttujien Y ij tulosmahdollisuuden e k (k = 1, 2,..., m) ehdolliset frekvenssit f kj osapopulaatioiden j = 1, 2,..., h tilanteissa. Eli toteutuneiden arvojen y 1j, y 2j,..., y nj j ehdollinen frekvenssi f kj tulosmahdollisuudelle e k on indikaattorifunktioiden summa f kj = I(y 1j = e k ) + I(y 2j = e k ) + + I(y nj j = e k ), (3.4) missä indikaattorifunktiolle I on voimassa { 1, kun y ij = e k, I(y ij = e k ) = 0, kun y ij e k. (3.5) frekvenssit ovat tärkeitä kuvaile- Erityisesti ehdolliset suhteelliset frekvenssit p kj = f kj n j vaa vertailua tehtäessä. Frekvenssijakaumat voidaan sitten esittää ristiintaulukkona: X = 1 X = 2 X = h f k1 p k1 f k2 p k f kh p kh Y e 1 f 11 p 11 f 12 p f 1h p 1h e 2 f 21 p 21 f 22 p f 2h p 2h e m f m1 p m1 f m2 p m f mh p mh Summa n 1 1 n n h 1

45 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 11 Vertailemalla laskettuja ehdollisia suhteellisia frekvenssejä voidaan tehdä alustavia arvioita siitä, vaikuttaako selittävän muuttujan X arvo selitettävän muuttujan Y käyttäytymiseen. Jos ehdolliset suhteelliset frekvenssijakaumat poikkeavat luokkien j suhteen, voidaan katsoa, että selitettävän muuttujan Y arvot riippuvat selittävän muuttujan X arvoista. Tarkempi riippuvuuden testaaminen tapahtuu kuitenkin sitten myöhemmin tilastollisen päättelyn yhteydessä. Esimerkki 3.3. Kyselytutkimuksen avulla haluttiin selvittää, kuinka onnellisina maatalousyrittäjät elämänsä kokevat. Tutkimuksessa kysyttiin yrittäjältä hänen omaa onnellisuuttaan seuraavasti: (a) En ole onnellinen Kuinka onnellisena koet nykyisen elämäntilanteesi? (b) Olen melko onnellinen (c) Olen erittäinen onnellinen Kyselytutkimukseen vastasi 28 maitotilayrittäjää (M) ja 29 viljatilayrittäjää (V), joiden vastaukset onnellisuuteen olivat seuraavanlaisia: y: b b b b a c b b b b a c b c a c b a c x: V V M M M V M V V M M V M V V M V M V y: b c a b c c b a b c a c b b b b c b c x: M M M V V V V M M M M V V M V M M V V y: b a c b b c a a c b c b b a c b b c b x: V M M V M V M V M V V M V M V M V M V Aineiston perusteella saadaan seuraavanlainen frekvenssitaulukko ja graaset esitykset. Maitotila Viljatila Frekv. Suht. frekv. Frekv. Suht. frekv. Ei onnellinen Melko onnellinen Erittäin onnellinen Summa Suhteelliset frekvenssit Suhteelliset frekvenssit Maitotila Viljatila c b a Ei onnellinen Melko onnellinen Erittäin onnellinen Maitotila Viljatila

46 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 12 Esimerkki 3.4. Tarkastellaan tutkimusongelmaa, missä halutaan selvittää vuotiaiden ja toisaalta yli 30 vuotiaiden henkilöiden mieltymystä valita valmismaksalaatikkoa ostaessaan mielummin rusinaton maksalaatikko perinteisen rusinallisen maksalaatikon sijaan. Olkoon maksalaatikon valintaan liittyvät alkeistapahtumat e 1 = rusinaton maksalaatikko valitaan, e 2 = perinteinen rusinallinen maksalaatikko valitaan, koodattu satunnaismuuttujan Y arvoiksi { 1, kun e 1 toteutuu henkilön i tapauksessa osapopulaatiossa j, y ij = 0, kun e 2 toteutuu henkilön i tapauksessa osapopulaatiossa j. Tutkimusongelmana on tutkia eroaako vuotiaiden ja yli 30 vuotiaiden henkilöiden mieltymys valita rusinaton maksalaatikko perinteisen rusinallisen maksalaatikon sijaan. Alla on esitetty aineisto, mikä sisältää läheisessä ruokamarketissa havainnoitujen 43 nuoren vuotiaan maksalaatikon ostajan toteutuneet valinta-arvot ja 54 yli 30 vuotiaan toteutuneet valinta-arvot: vuotiaat:1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1. yli 30 vuotiaat:1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 1. Muodosta aineistosta frekvenssijakaumataulukko. 2. Piirrä ehdollisista suhteellisista frekvensseistä sopivat pylväsdiagrammit ja piirakkakuviot.

47 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 13 Toisinaan kun selittävä muuttuja X ja selitettävä muuttuja Y ovat järjestysasteikollisia muuttujia, voi muuttujien X ja Y eri tulosmahdollisuuksien lukumäärät suhteessa otoksen kokoon olla niin suuria, ettei ristiintaulukon avulla pystytä kuvailemaan muuttujien välistä riippuvuutta järkevästi. Tällöin siis ristiintaulukko saattaa sisältää esimerkiksi useita nolla tai yhden havainnon frekvenssejä, mitkä tekevät hyödyllisten analyysien tekemisen ristiintaulukon perusteella mahdottomaksi. Tällaisessa tilanteessa ristiintaulukkoa hyödyllisempää on kuvailla aineistoa esimerkiksi jitter-pisteparven avulla ja laskea X ja Y muuttujien väliltä Spearmanin järjestyskorrelaatiokertoimen arvo. Muuttujien X ja Y välinen Spearmanin järjestyskorrelaatiokerroin rs xy lasketaan käyttäen tavallisen otoskorrelaatiokertoimen kaavaa, kunhan muuttujien X ja Y toteutuneet arvot x 1, x 2,..., x n ja y 1, y 2,..., y n ovat ensiksi korvattu havaintojen järjestysluvuilla. Eli merkitään havainnon x i järjestyslukupaikkaa u i :lla, kun toteutuneet arvot x 1, x 2,..., x n on järjestetty nousevaan järjestykseen. Vastaavasti merkitään havainnon y i järjestyslukupaikkaa v i :lla, kun toteutuneet arvot y 1, y 2,..., y n on järjestetty nousevaan järjestykseen. Spearmanin järjestyskorrelaatiokerroin rs xy saadaan sitten laskettua kaavalla n i=1 rs xy = (u i ū)(v i v) n i=1 (u i ū) 2 n i=1 (v i v) = s uv, (3.6) 2 s u s v missä s uv on järjestyslukujen u 1, u 2,..., u n ja v 1, v 2,..., v n välinen otoskovarianssiarvo. Spearmanin järjestyskorrelaatiokerroin rs xy saa siis tavallisen otoskorrelaatiokertoimen tavoin arvoja väliltä -1 ja 1. Järjestyskorrelaatiokerrointa rs xy voidaan käyttää myös ihan tavallisten numeeristen muuttujien tilanteessa otoskorrelaatiokertoimen tilalla varsinkin, jos jompikumpi muuttujista X tai Y on saanut poikkeavan suuria tai pieniä toteutuneita arvoja. Järjestysasteikollisten muuttujien X ja Y tilanteessa muuttujien välistä riippuvuutta voidaan mitata myös Kendallin tau-b ja tau-c nimisten korrelaatiokertoimen tyylisten otostunnuslukujen perusteella. Näiden otostunnuslukujen tarkempi tarkastelu jätetään omatoimisuuden varaan.

48 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 14 Esimerkki 3.5. Juustoihin liittyvässä aistitutkimuksessa haluttiin selvittää koehenkilöiden näkemyksiä uuden juustotuotteen miellyttävyydestä. Kokeen aluksi henkilöille kerrottiin ennakkotietoja juuston laadusta ja tämän jälkeen heiltä kysyttiin kysymys: 1. Annetun informaation perusteella, uskotko pitäväsi tuotteen mausta? Erittäin epämiellyttävä Erittäin miellyttävä Tämän jälkeen koehenkilöille annettiin maistettavaksi juustopala, jonka jälkeen heiltä kysyttiin kysymys: 2. Kuinka paljon pidät tuotteen mausta? Erittäin epämiellyttävä Erittäin miellyttävä Koehenkilöistä saatiin kysymysten suhteen seuraava aineisto: Kysymys 1.: Kysymys 2.: Kysymys 1.: Kysymys 2.: Piirrä aineistosta jitter-pisteparvi. 2. Laske aineistosta muuttujien välinen Spearmanin järjestyskorrelaatiokerroin rs xy.

49 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo Kategorinen satunnaismuuttuja Y ja numeerinen selittävä muuttuja X Viimeisessä tutkimustilanteena oletetaan siis, että tarkasteltava satunnaismuuttuja Y on kategorinen, jolla on äärellinen määrä eri tulosvaihtoehtoja, ja selittävä muuttuja X on numeerinen muuttuja, joka voi saada useita eri arvoja. Tällaisessa tutkimustilanteessa voidaan taas ajatella, että jokaisesta tietoaineiston havaintoyksiköstä i (i = 1, 2,..., n) on mitattu kummankin muuttujan X ja Y suhteen toteutuneet arvot x i ja y i. Tällöin siis tietoaineisto koostuu muuttujien X ja Y toteutuneista havaintopariarvoista (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ), jotka voidaan halutessa esittää myös havaintomatriisimuodossa X Y 1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n Nyt siis tietoaineiston havaittujen arvojen y i voidaan ajatella olevan toteutuneita arvoja koodatuista diskreeteistä satunnaismuuttujista Y i sillä ehdolla, että selittävän muuttujan X arvo on asetettu tai ensiksi toteutunut arvoksi x i. Kuvailevan analyysin osalta tällaisessa tutkimustilanteessa usein on kuitenkin hyödyllistä luokitella selittävä muuttuja X luokkaväleihin ja sen jälkeen muodostaa edellisen luvun tavoin ristiintaulukko selitettävän muuttujan Y ehdollisista frekvensseistä f kj selittävän muuttujan X luokkavälien j = 1, 2,..., r 1 suhteen. Eli olkoon selittävän muuttujan X arvoalue luokiteltu luokkaväleihin (q 1, q 2 ], (q 2, q 3 ],..., (q r 1, q r ], niin tällöin luokkavälin j tilanteessa satunnaismuuttujan Y tulosmahdollisuuden e k ehdollinen frekvenssi f kj on niiden toteutuneiden havaintoparien (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) lukumäärä jotka kuuluvat X:n suhteen luokkavälille (q j, q j+1 ] ja Y :n suhteen ovat saaneet arvoksi tulosmahdollisuuden e k : f kj = I(y 1 = e k x 1 (q j, q j+1 ]) + I(y 2 = e k x 2 (q j, q j+1 ]) I(y n = e k x n (q j, q j+1 ]). (3.7) Ehdolliset frekvenssijakaumat voidaan sitten esittää ristiintaulukkona: X (q 1, q 2 ] X (q 2, q 3 ] X (q r 1, q r ] f k1 p k1 f k2 p k f k(r 1) p k(r 1) Y e 1 f 11 p 11 f 12 p f 1(r 1) p 1(r 1) e 2 f 21 p 21 f 22 p f 2(r 1) p 2(r 1) e m f m1 p m1 f m2 p m f m(r 1) p m(r 1) Summa n 1 1 n n (r 1) 1

50 syksy 2013 Kahden muuttujan kuvailevaa tilastotiedettä Y130 - Jarkko Isotalo 16 Kuvailevaa analyysiä voidaan nyt tehdä edellisen luvun tavoin vertaamalla ehdollisia suhteellisia frekvenssejä p kj eri luokkavälien j suhteen. Numeerisen selittävän muuttujan tilanteessa ehdollisista suhteellisista frekvensseistä p kj voidaan myös piirtää kasvukäyräkuvioita käyttäen apuna luokkavälien (q j, q j+1 ] luokkakeskuksia q j+1 q j. Koska 2 ehdollisille suhteellisille frekvensseille p 1j + p 2j + + p mj = 1, niin kuvioissa (ja toisinaan muuallakin) riittää, että esittää tulosmahdollisuuksien e 1, e 2,..., e m 1 ehdolliset suhteelliset frekvenssit. Viimeisimmän tulosmahdollisuuden e m suhteelliset frekvenssit saadaan laskettua sitten muiden tulosmahdollisuuksien suhteellisten frekvenssien avulla. Esimerkki 3.6. Tutkimuksessa tutkittiin hiilidisuldia sisältävän torjunta-aineen vaikutusta hinkalokuoriaisen torjuntaan. Kokeissa tutkittiin, kuinka hiilidisuldin pitoisuus torjuntaaineliuoksessa vaikuttaa hinkalokuoriaisen eloonjäämiseen. Kokeissa aina 30 hinkalokuoriaista altistettiin tietyn ajan hiilidisuldia sisältävälle torjunta-aineelle ja hinkalokuoriaisten kuolleisuus mitattiin. Alla olevassa frekvenssitaulukossa on esitetty hinkalokuoriaisten kuolleisuuden ja eloonjäämisen lukumäärät ja suhteelliset frekveksit torjuntaaineen eri hiilidisuldipitoisuuksilla (mg/litra). X = 0 X = 1 X = 2 X = 3 X = 4 f k0 p k0 f k1 p k1 f k2 p k2 f k3 p k3 f k4 p k4 Kuolleita Selviytyi Yhteensä C. I. Bliss, (1935).The calculation of the dosage-mortality curve. Annals of Applied BIology, 22, Alla on esitetty kasvukäyräkuviona kuolleisuuden suhteelliset frekvenssit hiilidisuldipitoisuuksien suhteen. Hinkalokuoriaisten suhteellinen kuolleisuus Suhteellinen frekvenssi Hiilidisulfidipitoisuus (mg/litra)

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N 11.9.2018/1 MTTTP1, luento 11.9.2018 KERTAUSTA Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N Populaation yksikkö tilastoyksikkö, havaintoyksikkö Otos populaation

Lisätiedot

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. 1/11 4 MITTAAMINEN Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. Mittausvirhettä johtuen mittarin tarkkuudesta tai häiriötekijöistä Mittarin

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Johdatus tilastotieteeseen ja mittaaminen TKK (c) Ilkka Mellin (2004) 2 ja mittaaminen: Mitä opimme? 1/3 Tilastollisen tutkimuksen kaikki mahdolliset kohteet

Lisätiedot

Otannasta ja mittaamisesta

Otannasta ja mittaamisesta Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO 8.9.2016/1 MTTTP1 Tilastotieteen johdantokurssi Luento 8.9.2016 1 JOHDANTO Tilastotiede menetelmätiede, joka käsittelee - tietojen hankinnan suunnittelua otantamenetelmät, koejärjestelyt, kyselylomakkeet

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen Ilkka Mellin Tilastolliset menetelmät Osa 1: Johdanto Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2007) 1 ja mittaaminen >> Tilastollisten aineistojen kerääminen Mittaaminen

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

Todennäköisyys (englanniksi probability)

Todennäköisyys (englanniksi probability) Todennäköisyys (englanniksi probability) Todennäköisyyslaskenta sai alkunsa 1600-luvulla uhkapeleistä Ranskassa (Pascal, Fermat). Nykyisin todennäköisyyslaskentaa käytetään hyväksi mm. vakuutustoiminnassa,

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Todennäköisyyslaskennan käsitteitä Satunnaisuus ja deterministisyys Deterministisessä ilmiössä alkutila määrää lopputilan yksikäsitteisesti. Satunnaisilmiö puolestaan arpoo - yhdestä alkutilasta voi päätyä

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164 86118P JOHDATUS TILASTOTIETEESEEN Harjoituksen 3 ratkaisut, viikko 5, kevät 19 1. a) Havaintomatriisissa on viisi riviä (eli tilastoyksikköä) ja neljä saraketta (eli muuttujaa). Hannu mies LTK 18 Johanna

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja.

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja. Luku 1 Johdanto 1.1 Todennäköisyys ja tilastotiede Kurssi käsittelee todennäköisyyslaskentaa ja tilastotiedettä. Laaditaan satunnaisilmiöille todennäköisyysmalleja. Miten hyvin mallit kuvaavat todellisuutta?

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Satunnaismuuttujat ja todennäköisyysjakaumat Mitä tänään? Jos satunnaisilmiötä halutaan mallintaa matemaattisesti, on ilmiön tulosvaihtoehdot kuvattava numeerisessa muodossa. Tämä tapahtuu liittämällä

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää

Lisätiedot

Teema 7: Todennäköisyyksien laskentaa

Teema 7: Todennäköisyyksien laskentaa Teema 7: Todennäköisyyksien laskentaa Teemassa 6 tutustuttiin todennäköisyyden ja satunnaisuuden käsitteisiin sekä todennäköisyyslaskennan perusteisiin. Seuraavaksi tätä aihepiiriä syvennetään perehtymällä

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Kvantitatiivisen aineiston analyysi

Kvantitatiivisen aineiston analyysi Kvantitatiivisen aineiston analyysi Liiketalouden tutkimusmenetelmät SL 2014 Kvantitatiivinen vs. kvalitatiivinen? tutkimuksen lähtökohtana ovat joko tiedostetut tai tiedostamattomat taustaoletukset (tieteenfilosofiset

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta... JHS 160 Paikkatiedon laadunhallinta Liite III: Otanta-asetelmat Sisällysluettelo 1. Johdanto... 2 2. Todennäköisyysotanta... 2 2.1 Yksinkertainen satunnaisotanta... 3 2.2 Ositettu otanta... 3 2.3 Systemaattinen

Lisätiedot

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus Mitä jäi mieleen viime viikosta? Mitä mieltä olet tehtävistä, joissa GeoGebralla työskentely yhdistetään paperilla jaettaviin ohjeisiin

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30. FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.

Lisätiedot

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Kertymäfunktio TKK (c) Ilkka Mellin (2005) 1 Kertymäfunktio Kertymäfunktio: Määritelmä Diskreettien jakaumien kertymäfunktiot Jatkuvien jakaumien kertymäfunktiot TKK (c)

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Väliestimointi TKK (c) Ilkka Mellin (2005) 1 Väliestimointi Todennäköisyysjakaumien parametrien estimointi Luottamusväli Normaalijakauman odotusarvon luottamusväli Normaalijakauman

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila Kalvoissa käytetään materiaalia P. Palon vuoden 2005 kurssista. 07.09.2007 Antti Rasila () SovTodB 07.09.2007 07.09.2007 1 / 24 1 Todennäköisyyslaskennan

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 20. syyskuuta 2007 Antti Rasila () TodB 20. syyskuuta 2007 1 / 17 1 Kolmogorovin aksioomat σ-algebra Tapahtuman todennäköisyys 2 Satunnaismuuttujat Todennäköisyysjakauma

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas OTOSTAMISEEN LIITTYVIÄ ONGELMIA Otostamisen ongelmat liittyvä satunnaistamisen epäonnistumiseen Ongelmat otantakehyksen määrittämisessä Väärän otantamenetelmän

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Kertymäfunktio TKK (c) Ilkka Mellin (2007) 1 Kertymäfunktio >> Kertymäfunktio: Määritelmä Diskreettien jakaumien

Lisätiedot

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Harjoitus 2, viikko 38, syksy 2012 1. Tutustu liitteen 1 kuvaukseen Suuresta bränditutkimuksesta v. 2009. Mikä tämän kuvauksen perusteella on ko.

Lisätiedot

Järvitesti Ympäristöteknologia T571SA 7.5.2013

Järvitesti Ympäristöteknologia T571SA 7.5.2013 Hans Laihia Mika Tuukkanen 1 LASKENNALLISET JA TILASTOLLISET MENETELMÄT Järvitesti Ympäristöteknologia T571SA 7.5.2013 Sarkola Eino JÄRVITESTI Johdanto Järvien kuntoa tutkitaan monenlaisilla eri menetelmillä.

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=11585 &idx=2&uilang=fi&lang=fi&lvv=2015

https://www10.uta.fi/opas/opintojakso.htm?rid=11585 &idx=2&uilang=fi&lang=fi&lvv=2015 25.10.2016/1 MTTTP5, luento 25.10.2016 1 Kokonaisuudet, joihin opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=11585 &idx=2&uilang=fi&lang=fi&lvv=2015 2 Osaamistavoitteet Opiskelija osaa

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin) 1/10 Tehtävä 1 2 3 4 5 6 7 8 9 10 Yhteensä Pisteet (tarkastaja merkitsee) Kokeessa on kymmenen tehtävää, joista jokainen on erillisellä paperilla. Jokaisen tehtävän maksimipistemäärä on 6 pistettä. Ratkaise

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi

Lisätiedot

1 TILASTOMATEMATIIKKA... 2 2 TILASTOTIETEEN PERUSKÄSITTEITÄ... 3 3 MUUTTUJAT... 6 4 FREKVENSSIJAKAUMA... 8 5 AINEISTON LUOKITTELU...

1 TILASTOMATEMATIIKKA... 2 2 TILASTOTIETEEN PERUSKÄSITTEITÄ... 3 3 MUUTTUJAT... 6 4 FREKVENSSIJAKAUMA... 8 5 AINEISTON LUOKITTELU... SISÄLLYSLUETTELO 1 TILASTOMATEMATIIKKA... 2 1.1 JOHDANTO... 2 1.2 LINKKEJÄ... 2 1.3 LÄHTEET... 2 2 TILASTOTIETEEN PERUSKÄSITTEITÄ... 3 2.1 HAVAINTOAINEISTO... 3 2.2 POPULAATIO... 3 2.3 OTOS... 3 2.4 HAVAINTOAINEISTON

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia. 806109P TILASTOTIETEEN PERUSMENETELMÄT I 1. välikoe 11.3.2011 (Jari Päkkilä) VALITSE VIIDESTÄ TEHTÄVÄSTÄ NELJÄ JA VASTAA VAIN NIIHIN! 1. Valitse kohdissa A-F oikea (vain yksi) vaihtoehto. Oikeasta vastauksesta

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot