MONISTE 2 Kirjoittanut Elina Katainen

Samankaltaiset tiedostot
Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Sovellettu todennäköisyyslaskenta B

1.9 Harjoituksia. Frekvenssijakaumien harjoituksia. MAB5: Tilastotieteen lähtökohdat. a) Kaikki aakkoset b) Kirjaimet L, E, M, C, B, A ja i.

Tilastollisten aineistojen kerääminen ja mittaaminen

Otannasta ja mittaamisesta

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Kandidaatintutkielman aineistonhankinta ja analyysi

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

tilastotieteen kertaus

Matematiikka vuosiluokat 7 9

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

7. laskuharjoituskierros, vko 10, ratkaisut

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Diagrammeja ja tunnuslukuja luokkani oppilaista

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

KESKEISET SISÄLLÖT Keskeiset sisällöt voivat vaihdella eri vuositasoilla opetusjärjestelyjen mukaan.

1.1 Funktion määritelmä

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3. Kaksiulotteiset jakaumat: ristiintaulukointi

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

LIITE 1 VIRHEEN ARVIOINNISTA

Tekijät: Tarja Kokkila, Maija Salmivaara OuLUMA, sivu 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

pitkittäisaineistoissa

Matemaatikot ja tilastotieteilijät

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Harjoitus 7: NCSS - Tilastollinen analyysi

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto Aineiston kuvaus Riippuvuustarkastelut...4

MATEMAATTIS- LUONNONTIETEELLINEN OSAAMINEN

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

1. Tilastollinen malli??

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Kvantitatiivisen aineiston analyysi

Matemaatiikan tukikurssi

Testejä suhdeasteikollisille muuttujille

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Til.yks. x y z

LIITE 1 VIRHEEN ARVIOINNISTA

Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus. Intelin osakekurssi. (Pörssi-) päivä n = 20 Intel_Volume. Auringonpilkkujen määrä

LABORAATIOSELOSTUSTEN OHJE H. Honkanen

Otoskoko 107 kpl. a) 27 b) 2654

Tietokoneohjelmien käyttö laadullisen aineiston analyysin apuna

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

1 Johdatus tilastolliseen päättelyyn

pitkittäisaineistoissa

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Kenguru 2012 Junior sivu 1 / 8 (lukion 1. vuosi)

OSA 1: YHTÄLÖNRATKAISUN KERTAUSTA JA TÄYDENNYSTÄ SEKÄ FUNKTIO

kymmenjärjestelmä-käsitteen varmentaminen, tutustuminen 60-järjestelmään kellonaikojen avulla

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

Osa 2: Otokset, otosjakaumat ja estimointi

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

2.5 Liikeyhtälö F 3 F 1 F 2

Kvantitatiiviset menetelmät

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Til.yks. x y z

LIITE 1 VIRHEEN ARVIOINNISTA

3 Mittaamisen taso ja tilaston keskiluvut

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Tehtävä 1. Hypoteesi: Liikuntaneuvonta on hyvä keino vaikuttaa terveydentilaan. Onko edellinen hypoteesi hyvä tutkimushypoteesi? Kyllä.

INDUKTIIVISEN PÄÄTTELYN HARJOITUSPAKETTI ENSIMMÄISELLE LUOKALLE

POHDIN - projekti. Funktio. Vektoriarvoinen funktio

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Luku 7. Verkkoalgoritmit. 7.1 Määritelmiä

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Tehtävät 1/11. TAMPEREEN YLIOPISTO Informaatiotieteiden tiedekunta Valintakoe Matematiikka ja tilastotiede. Sukunimi (painokirjaimin)

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

pisteet Frekvenssi frekvenssi Yhteensä

Ellei tutkijalla ole käsitystä mittauksensa validiteetista ja reliabiliteetista, ei johtopäätöksillä

TIETOINEN HAVAINTO, TIETOINEN HAVAINNOINTI JA TULKINTA SEKÄ HAVAINNOLLISTAMINEN

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tässä osassa ei käytetä laskinta. Kaikkiin tehtäviin laskuja tai perusteluja näkyviin, ellei muuta ole mainittu.

Transkriptio:

MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi muuttujat voidaan tyypitellä sen perusteella, kuinka kehittyneellä mitta-asteikolla muuttujien arvot on mitattu. Muuttujan mitta-asteikolla on ratkaiseva merkitys siihen, millaisia tilastollisia menetelmiä voidaan kyseisestä muuttujasta tehtyihin havaintoihin soveltaa. Mitta-asteikosta riippuu, millaisilla matemaattisilla laskutoimituksilla on mielekäs tulkinta, kun ajatellaan alkuperäistä tilastoyksiköiden kuvaamaa ominaisuutta. Seuraava kaavio kuvaa muuttujien luokittelua: Kategoriset muuttujat jakavat tilastoyksiköt toisensa poissulkeviin luokkiin. Ne kuvaavat yksiköiden laadullisia ominaisuuksia. Tällaisia muuttujia ovat esim. ihmisten siviilisääty, ammatti, sosiaalinen asema, suhtautuminen tiettyyn väitteeseen tai kaupungin sijaintilääni, kalleuspaikka, elinkeinorakenne, jne. Kategoristen muuttujien arvot ovat joitakin luokkia. Jos ei voida löytää mitään empiirisesti mielekästä sääntöä, jolla kategorisen muuttujan arvot voidaan laittaa järjestykseen (esim. paremmuus-, suuruus-, kauneus-, kovuusjärjestykseen), muuttuja on laatuero- eli nominaaliasteikollinen. Jos taas tällainen sääntö on olemassa ja se on empiirisesti mielekäs, muuttuja on järjestys- eli ordinaaliasteikollinen. Esim. kyselyssä voi olla vaihtoehtoina täysin samaa mieltä, jokseenkin samaa mieltä, jokseenkin eri mieltä ja täysin eri mieltä. Näissä voidaan ajatella olevat järjestys sen mukaan, kuinka voimakkaasti henkilö on samaa mieltä väitteestä. Kategoriset muuttujat on tapana koodata numeroin, etenkin jos aineistoa käsitellään tietokoneella. Näillä koodinumeroilla ei kuitenkaan ole lukujen tulkintaa siinä mielessä, että edes peruslaskutoimitukset niillä eivät olisi mielekkäitä (poikkeuksena ovat kaksi-arvoiset eli dikotomiset muuttujat). Tämä on kategoristen ja numeeristen muuttujien keskeisin ero. Tilastolliset ohjelmat eivät kuitenkaan erota numeroita ja numeroita, joten niillä voi kyllä laskea erilaisia tunnuslukuja kategorisistakin muuttujista. Se ei kuitenkaan oikeuta luvattomien tunnuslukujen käyttämiseen tai esittämiseen.

Numeeriset muuttujat ovat sellaisia, että niiden arvot ovat jo havaintoja tehtäessä luonnostaan reaalilukuja. Numeerisen muuttujan arvo on joko lukumäärä tai mittauksen tulos. Jos muuttujan arvo nolla vastaa tarkasteltavan ominaisuuden absoluuttista nollapistettä eli tilannetta, jossa ominaisuus häviää, muuttuja on suhdeasteikollinen. Jos arvolla nolla tätä tulkintaa ei ole, muuttuja on välimatka- eli intervalliasteikollinen. Esim. paino kilogrammoina on tyypillinen suhdeasteikollinen muuttuja. Kun paino on 0 kg, ominaisuus häviää. Jos toinen esine painaa 10 kg ja toinen 20 kg, painojen suhde on 20/10=2. Tällä suhteella on nyt empiirisesti mielekäs tulkinta. Tällaista tulkintaa ei ole intervalliasteikollisella muuttujalla. Lämpötila Celsius-asteina on yksi esimerkki välimatka-asteikollisesta muuttujasta. Kun lämpötila on 0 astetta, ei ominaisuus häviä. Jos toisen esineen lämpötila on 10 astetta ja toisen 20 astetta, ei niiden lämpötilojen suhteella ole sellaista mielekästä tulkintaa, että toinen esine olisi kaksi kertaa niin lämmin kuin toinen. Välimatka-asteikolla ja suhdeasteikolla on sellainen yhteinen piirre, että mittayksikkö ei ole kiinnitetty. Jos numeerisen muuttujan arvolla nolla on suhdeasteikollisen muuttujan nolla-arvon tulkinta ja lisäksi mittaus voi tapahtua vain tiettyä mittaasteikkoa käyttäen, muuttujan asteikko on absoluuttinen. Tavallisin absoluuttisella asteikolla mitattava muuttuja on lukumäärä. Ajatus muuttujan mitta-asteikosta on usein käytännössä tulkintakysymys. Mittaasteikon valista on kuitenkin tärkeää, koska se on yhteys empiirisen reaalimaailman ja matemaattisen manipuloinnin välillä. Mitta-asteikko määrää millaisilla matemaattisilla toimenpiteillä on järkevä perustelu ja tulkinta. Tekijä, vaste Tilastolliset muuttujat voidaan jakaa myös sen perusteella, millainen asema muuttujalla on havaintosuunnitelmassa eli miten muuttujan arvot tilastoyksiköillä ja arvojen jakauma koko aineistoa kerättäessä määräytyy. Koska tilastollisessa tarkastelussa mielenkiinnon kohteena ovat usein jakaumat, tämä jako on tulkinnallisesti tärkeä. Tämä jako on täysin riippumaton mitta-asteikon mukaan tapahtuvasta jaottelusta. Seuraava kaavio kuvaa tätä jaottelua:

Tekijät (factors, controlled variables) ovat muuttujia, joiden arvoihin aineistossa ei sisälly satunnaisuutta, jota taas sisältyy vasteiksi (responses, random variables) luokiteltaviin muuttujiin. Tekijän arvot ovat tutkijan kiinnittämiä ja arvojen jakauma on tutkijan tiedossa jo ennen varsinaista havaintojen tekoa. Arvojoukko ja jakaumamääräytyvät havaintosuunnitelman perusteella. Käsittelytekijän (treatment factor) ja lohkotekijän (block factor) ero on siinä, määrääkö tutkija kunkin yksittäisen tilastoyksikön kohdalla muuttujan arvon vai ei. Vasteet ovat muuttujia, joiden arvoista ja jakaumasta tutkijalla ei ole tietoa, ennen kuin hän on ne havaintoja tehdessään kirjannut. Koska erilaiset tilastolliset kysymykset liittyvät aina jakaumiin, ne koskevat aina joitakin vasteiden jakaumia eivätkä koskaan tekijöiden jakaumia. KUVAILEVA TILASTOTIEDE Tässä osassa tarkastellaan lähemmin kuvailevan eli deskriptiivisen tilastotieteen menetelmiä. Näiden menetelmien olennainen yhteinen piirre on, että niiden avulla luonnehditaan tarkasteltavana olevan havaintoaineiston piirteitä. Menetelmiä voidaan käyttää millaisiin aineistoihin hyvänsä, koska tarkoituksena ei ole suorittaa muodollista aineiston ulkopuolelle tapahtuvaa päättelyä. Koska tämän osan kysymyksenasettelut toistuvat tietyssä mielessä tilastollisen päättelyn menetelmien esittelyn yhteydessä otosaineistojen tilanteessa, voidaan jo tässä vaiheessa ajatella aineistojen olevan otoksia, mitä ne useimmiten käytännössä ovat. 1 Frekvenssijakauma ja sen graafiset havainnollistukset Jakauman käsite on keskeinen puhuttaessa tilastollisista menetelmistä ja niiden soveltamisesta. Tilastolliset menetelmät ylipäätään kohdistuvat joidenkin jakaumien erilaisten piirteiden tarkastelemiseen. Tarkasteluissa tärkeä asema on frekvenssijakauman (frequency distribution) käsitteellä. Frekvenssijakauman käsitteellä tarkoitetaan muuttujan erisuurien arvojen esiintymisten lukumääriä (frekvenssejä) tarkasteltavana olevassa tilastoyksiköiden joukossa. Tilastollisen muuttujan frekvenssijakauma esitetään taulukkona, jossa on muuttujan erisuuret arvot ja niihin liittyvät frekvenssit. Kategoriset muuttujat Esimerkki 1 Taulukossa on esitetty maanosien frekvenssijakauma eli kuinka monta aineistossa olevaa maata kuuluu kuhunkin maanosaan. Tässä aineistossa tilastoyksikkö on siis yksi maa.

Laatueroasteikollisen muuttujan tapauksessa luokkien esitysjärjestyksellä taulukossa ei ole merkitystä, mutta järjestysasteikollisen muuttujan luokat on syytä kirjoittaa asiaan kuuluvaan järjestykseen. Usein on hyvä esittää taulukossa myös suhteelliset frekvenssit f i /n (suhteellinen frekvenssijakauma) ja/tai prosentuaaliset frekvenssit 100f i /n (prosentuaalinen frekvenssijakauma).jompaa kumpaa näistä on tarpeen käyttää erityisesti silloin, kun vertaillaan kahteen tai useampaan eri havaintoaineistoon perustuvia saman muuttujan jakaumia, ja eri havaintoaineistoissa havaintojen lukumäärät ovat erisuuret. Esimerkki 2 Taulukoissa on esitetty ammattiryhmien frekvenssit, suhteelliset frekvenssit ja prosentuaaliset frekvenssit miehille ja naisille eli kuinka monta miestä tai naista tässä aineistossa kuuluu kuhunkin ammattiryhmään. Tässä aineistossa tilastoyksikkö on siis yksi henkilö. Kategoristen muuttujien frekvenssijakauma voidaan esittää graafisesti hyvin monella eri tavalla. Tässä tarkastellaan vain muutamaa tavallisinta tapaa., jotka ovat yksinkertaisia ja selkeitä. Kun jatkossa puhutaan frekvenssijakauman graafisesta esittämisestä, sen voidaan yhtä hyvin ymmärtää tilanteesta riippuen suhteellisen tai prosentuaalisen frekvenssijakauman esittämistä. Tämä tarkoittaa piirrosta laadittaessa vain esityksen skaalausta. Tavallisimmin kategorisen muuttujan frekvenssijakaumaa havainnollistetaan pylväsdiagrammilla. Siinä tarkasteltavan muuttujan jokaisen luokan frekvenssiä vastaa pylväs, joka on piirretty joko pysty- tai vaakasuoraan. Pylvään korkeus tai pituus kuvaa luokan frekvenssiä. Pylväiden tulee olla yhtä leveitä, koska visuaalinen vaikutelma syntyy pylväiden pinta-alojen välityksellä. Koska halutaan korostaa muuttujan kategorisuutta, pylväät on hyvä piirtää irti toisistaan (hyvä sääntö on, että pylväiden väli on puolet pylvään leveydestä). Kuvion luettavuutta voidaan parantaa esittämällä pylväiden päällä tai vieressä vastaavat frekvenssit tai esittämällä kuvio koordinaatistossa, etenkin jos pylväitä on paljon tai ne ovat hyvin saman pituisia. Aineistoja vertaillessa pylväikköjä voidaan piirtää rinnakkain tai "seläkkäin" ja käyttää värejä tai varjostusta aineistojen erottamiseksi.

Esimerkki 3 Alla olevissa kuvioissa on piirretty kahdella eri tavalla esimerkin 2 prosentuaaliset frekvenssijakaumat pylväsdiagrammilla. Useampia aineistoja vertailtaessa on piirrettävä yksi pylväs vastaamaan kutakin aineistoa. Pylväiden tulee olla yhtä leveitä ja jos aineistot ovat eri kokoisia, on käytettävä suhteellisia tai prosentuaalisia frekvenssejä. Samaa periaatetta voidaan soveltaa myös muihin kuvioihin kuin pylväisiin. Erittäin yleinen ja havainnollinen on ns. piirakkakuvio (ympyrädiagrammi, sektoridiagrammi), jossa frekvenssit on esitetty ympyrän sektoreina ja sektorien pintaalat suhtautuvat toisiinsa kuten esitettävänä olevat frekvenssit. Aineistojen vertailussa on käytettävä samansäteisiä ympyröitä ja suhteellisia tai prosentuaalisia frekvenssejä Piirakkakuviota ei suositella käytettäväksi mikäli luokkia on enemmän kuin kuusi.

Esimerkki 4 Alla olevissa kuvioissa on esimerkin 2 prosentuaaliset frekvenssijakaumat esitettynä ositettujen pylväiden ja piirakkakuvioiden avulla. (Korjaus 23.5.14/RL)