Teema 3: Tilastollisia kuvia ja tunnuslukuja



Samankaltaiset tiedostot
Harjoittele tulkintoja

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

2. Aineiston kuvailua

Kandidaatintutkielman aineistonhankinta ja analyysi

Tilastolliset toiminnot

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen

Sovellettu todennäköisyyslaskenta B

Lauri Tarkkonen: Erottelu analyysi

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Frequencies. Frequency Table

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

TUTKIMUSOPAS. SPSS-opas

SPSS OPAS. Metropolia Liiketalous

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Teema 5: Ristiintaulukointi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Määrällisen aineiston esittämistapoja. Aki Taanila

MONISTE 2 Kirjoittanut Elina Katainen

Til.yks. x y z

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

SPSS ohje. Metropolia Business School/ Pepe Vilpas

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Til.yks. x y z

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Perusnäkymä yksisuuntaiseen ANOVAaan


ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Harjoitus 2: Matlab - Statistical Toolbox

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Määrällisen aineiston esittämistapoja. Aki Taanila

SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Kvantitatiiviset menetelmät

pisteet Frekvenssi frekvenssi Yhteensä

2. Aineiston kuvaaminen graafisesti 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Menetelmät tietosuojan toteutumisen tukena - käytännön esimerkkejä. Tilastoaineistot tutkijan työvälineenä - mahdollisuudet ja rajat 2.3.

Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Kvantitatiivinen genetiikka moniste s. 56

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

Kvantitatiivisen tutkimuksen peruskurssi (5 op) - ay407040a

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Teema 8: Parametrien estimointi ja luottamusvälit

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

FSD3028. Julkiseen työnvälitykseen ilmoitettujen avointen työpaikkojen rekisteriaineisto Koodikirja

Hypermedian jatko-opintoseminaari

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastotieteen johdantokurssi [MTTTP1] Lukuvuosi

Hoitotyön henkilöstövoimavarojen hallinnan mallintaminen kansallisesti yhtenäisillä tunnusluvuilla

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Kirjastoasiointien tuottama hiilikuorma pääkaupunkiseudulla

Ohjeita tilastollisen tutkimuksen toteuttamiseksi opintojaksolla. TILTP1 ( SPSS for Windows -ohjelmiston avulla

pitkittäisaineistoissa

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tehtävät 1/11. TAMPEREEN YLIOPISTO Informaatiotieteiden tiedekunta Valintakoe Matematiikka ja tilastotiede. Sukunimi (painokirjaimin)

FSD2404. Naistutkimus - Kvinnoforskning -lehden ensimmäinen vuosikymmen Koodikirja

#tilastomooc, osa 1 (s.2017): pisteet ja arvosanat (N=374)

FSD2275. Äänestäminen ja puolueiden valintaperusteet eduskuntavaaleissa Koodikirja

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Sisällysluettelo SISÄLLYSLUETTELO...6 LYHYT SANASTO VASTA-ALKAJILLE JOHDATUS PARAMETRITTOMIIN MENETELMIIN...9

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastotieteen johdantokurssi [MTTTP1]

Tilastotieteen johdantokurssi [MTTTP1]

Vertailutestien tulosten tulkinta Mikä on hyvä tulos?

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Ohjeita kvantitatiiviseen tutkimukseen

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

FSD2404. Naistutkimus - Kvinnoforskning -lehden ensimmäinen vuosikymmen Koodikirja

MTTTP1, luento KERTAUSTA

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

FSD2511. Julkiseen työnvälitykseen ilmoitettujen avointen työpaikkojen rekisteriaineisto Koodikirja

Estimointi. Vilkkumaa / Kuusinen 1

Kvantitatiiviset menetelmät

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

Transkriptio:

Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin muuttuja: yhtä asiaa koskevat mitatut ja koodatut tiedot esim. kyselylomakkeen yhden kysymyksen vastaukset Aineiston tyypillisin esitystapa: havaintomatriisi vaakariveinä havainnot, pystyriveinä muuttujat NYT21-aineiston ensimmäiset 2 havaintoa ja 13 muuttujaa: hav ika suk ammatti tulot puo usk val var vas hei lyo kii 1 18 2 opiskelija 9 8 4 1 1 2 21 2 opiskelija/kouluavustaja 3 12 2 1 1 1 1 3 38 2 opiskelija 7 12 3 1 1 1 4 24 2 opiskelija 4 8 2 1 1 5 21 2 opiskelija/kouluavustaja - - - 6 24 1 myyjä 16-2 1 1 1 1 7 19 2 opiskelija - 2 4 1 1 1 8 3 2 kotiäiti 4 12 2 1 1 1 1 9 19 1 opiskelija - - 1 1 1 1 1 1 17 2 opiskelija - - 1 1 1 1 1 11 21 2 opiskelija 2 3 1 1 1 12 22 2 opiskelija 1 12 2 1 1 1 1 13 22 2 toimistotyöntekijä 9 2 5 1 1 1 1 14 27 1 opiskelija - 8 3 1 1 15 25 1 opiskelija 12 13 4 1 1 1 1 1 16 27 1 insinööri 132-4 1 1 1 17 19 2 opiskelija - - 3 1 1 1 1 18 47 2 emäntä 1 2 2 1 1 1 19 29 2 lomasihteeri 12 1 2 1 1 1 2 23 2 opiskelija 12 4 1 Tilastoaineiston eri tyyppiset muuttujat Muuttujan tyypistä riippuu, millaisilla tilastollisilla kuvilla ja tunnusluvuilla sitä on mielekästä kuvailla ja tiivistää. määrälliset (kvantitatiiviset) muuttujat: jatkuvat muuttujat (esim. ikä, pituus, paino jne.) (vain vähän samoja arvoja) diskreetit muuttujat (esim. mielipideasteikot, lukumäärät) (paljonkin samoja arvoja) käytännössä mittaaminen ja tietokoneelle tallettaminen on mahdollista vain äärellisellä tarkkuudella ( kaikki diskreettiä ) muuttujan voi kuitenkin tulkita jatkuvaksi, jos sen taustalla on jatkuva ilmiö tai asia (kuten ikä) laadulliset (kvalitatiiviset) muuttujat (kaikki diskreettejä): järjestystason (ordinaaliset) muuttujat (esim. koulutus) luokittelutason (kategoriset) muuttujat (esim. sukupuoli) määrällisistä muuttujista saa luokittelemalla laadullisia, muttei toisinpäin (kannattaa siis mitata mahdollisimman tarkasti!)

Yleinen tavoite: aineiston tiivistäminen Tilastollisten menetelmien yleinen tavoite on tiivistää aineistoon sisältyvää informaatiota kuviksi ja tunnusluvuiksi. tiivistäminen (ja muu analysointi) edellyttää ehdottomasti kunnollista aineistoon tutustumista tutustumisen ja tiivistämisen kannalta keskeistä: jakauman kuvaaminen graafisesti (ja tunnuslukuina) (empiirinen) jakauma: aineiston yhden muuttujan kaikki (mitatut ja koodatut) arvot tiivistämiseen paljon muitakin keinoja: muuttujien yhdistely, esim. summamuuttujien muodostaminen (mielekästä vain, jos arvojen yhteenlaskeminen mielekästä) monimuuttujamenetelmät (ei käsitellä tällä kurssilla) Seuraavaksi: keskeisimpiä kuvia ja tunnuslukuja. Kuvat on piirretty muokatusta WebOodin rekisteriaineistosta Survo-ohjelmistolla. Aineisto on anonymisoitu muuttamalla tunnisteet (opiskelijanumerot) tunnistamattomiksi. Tilastolliset kuvat 1: laatikkokuva Ikä (vuosina) tulkitaan tässä jatkuvaksi muuttujaksi: Osallistujien (N=43) ikäjakauma 2 25 3 35 4 45 vuotta tiivistää jakauman muutaman tunnusluvun avulla yksityiskohdat tarkemmin tunnuslukujen yhteydessä

Tilastolliset kuvat 2a: histogrammi Ikä edelleen jatkuva, luokkavälinä mittaustarkkuus (1 vuosi): Osallistujien (N=43) ikäjakauma 7 6 4 3 2 1 2 25 3 35 4 45 vuotta jatkuvuus: pylväät kiinni toisissaan, vaaka-akseli sama kuin ed. pystyakseli kuvaa havaintojen lukumäärää eli frekvenssiä Tilastolliset kuvat 2b: histogrammi Ikä edelleen jatkuva, luokkavälinä nyt 5 vuotta: Osallistujien (N=43) ikäjakauma 2 2 1 1 2 25 3 35 4 45 vuotta tiivistys selkiyttää, mutta osa informaatiosta häviää yli 33-vuotiaat: lukumäärään nähden liikaa luokkia

Tilastolliset kuvat 3: pylväskuva Ikä ei enää jatkuva vaan järjestetty neljään luokkaan: Osallistujien (N=43) ikäjakauma 2 2 1 1 17-22 v 23-27 v 28-32 v 33 v tai yli muuttuja voitaisiin koodata esimerkiksi numeroin 1, 2, 3, 4 jos pelkkä luokittelu, pylväät hyvä laittaa suuruusjärjestykseen Tilastolliset kuvat 4: piirakkakuva Mielekäs vain osuuksien esittämiseen, tässä ikäluokitukset (%): Osallistujien (N=43) ikäjakauma (%) 17-22 v 23-27 v 56.6% 5.7% 8.2% 28-32 v 29.5% 33 v tai yli prosenttien yhteydessä on mainittava lukumäärä (N) 3-ulotteiset piirakat ja pylväät on parasta hylätä

Tilastolliset tunnusluvut 1: keskiarvo Kun tiivistetään tietoja tunnusluvuiksi, on muistettava: osa informaatiosta menetetään (vrt. kuvat 2a,b) yksittäinen tunnusluku ei kerro läheskään kaikkea ensin kuvia, vasta sen jälkeen tunnuslukuja (jos tarpeen) Yleisin kaikista tunnusluvuista on keskiarvo: muuttujan arvojen summa jaettuna havaintojen lukumäärällä mielekäs vain, jos arvojen yhteenlaskeminen mielekästä soveltuu ainoastaan määrällisille muuttujille pelkkä keskiarvo ei riitä (ei kerro mitään vaihtelusta) vaihtelua kuvaa keskihajonta (johon palataan Teemassa 4) Tilastolliset tunnusluvut 2: mediaani ym. Monessa tapauksessa keskiarvoa käyttökelpoisempi on mediaani: suuruusjärjestetyn muuttujan keskimmäinen arvo arvoilla ei lasketa: soveltuu myös järjestystasolle ei herkkä suurillekaan poikkeamille (toisin kuin keskiarvo) pelkkä mediaani ei riitä (ei kerro mitään vaihtelusta) vaihtelua kuvaa joukko muita järjestystunnuslukuja: esim. muuttujan pienin ja suurin arvo Usein puhutaan 5-lukuisesta yhteenvedosta: pienin arvo, alakvartiili (25 %), mediaani ( %), yläkvartiili (75 %), suurin arvo nämä tunnusluvut voidaan esittää graafisesti laatikkokuvana (kuvassa 1 on lisäksi merkitty keskiarvo rastilla) huomaa, että laatikossa tällöin puolet havainnoista

Tunnusluvut: esimerkkinä kurssin osallistujat Tunnuslukuja Survo-ohjelmistolla (STAT): Basic statistics: JK8S N=43 Variable: ikä ikä vuosina min=17 in obs.#17 (13-2-17) max=46 in obs.#69 (11-2-69) mean=23.2347 stddev=5.311987 Descriptive skewness=2.166878 Statistics kurtosis=5.44894 lower_q=2 median=22 upper_q=25 Descriptive Statistics Tunnuslukuja SPSS-ohjelmistolla (Descriptives): ikä Valid N (listwise) ikä Valid N (listwise) Statistics N ikä Mean N Median Minimum Mean Maximum Median Percentiles Minimum Maximum Percentiles Statistics Valid Missing Valid Missing 25 75 25 75 N Minimum Maximum Mean 43 17. 46. 23.2347 5.311987 Std. N 43 Minimum Maximum Mean Deviation 43 17. 46. 23.2347 5.311987 43 Tunnuslukuja ikä SPSS-ohjelmistolla (Frequencies): 43 23.2347 43 22. 23.2347 17. 22. 46. 2. 17. 22. 46. 25. 2. 22. 25. Std. Deviation