3 Mittaamisen taso ja tilaston keskiluvut



Samankaltaiset tiedostot
Sovellettu todennäköisyyslaskenta B

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1 TILASTOMATEMATIIKKA TILASTOTIETEEN PERUSKÄSITTEITÄ MUUTTUJAT FREKVENSSIJAKAUMA AINEISTON LUOKITTELU...

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Tilastolliset toiminnot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kvantitatiiviset menetelmät

Til.yks. x y z

MONISTE 2 Kirjoittanut Elina Katainen

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Tilastollisten aineistojen kuvaaminen

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Til.yks. x y z

Sovellettu todennäköisyyslaskenta B

5. Keskiluvut. luokan väliin, ei sen määrääminen tuota vaikeuksia. Näin on seuraavissa esimerkeissä:

Tehtävä 1. Hypoteesi: Liikuntaneuvonta on hyvä keino vaikuttaa terveydentilaan. Onko edellinen hypoteesi hyvä tutkimushypoteesi? Kyllä.

TILASTO- JA TALOUSMATEMATIIKKA s. 1

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

Kvantitatiiviset tutkimusmenetelmät maantieteessä

1.1 Tilastotieteen peruskäsitteitä

Huippu Kertaus Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Harjoitus 2: Matlab - Statistical Toolbox

TILASTOT: johdantoa ja käsitteitä

Kandidaatintutkielman aineistonhankinta ja analyysi

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

7. laskuharjoituskierros, vko 10, ratkaisut

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

1.9 Harjoituksia. Frekvenssijakaumien harjoituksia. MAB5: Tilastotieteen lähtökohdat. a) Kaikki aakkoset b) Kirjaimet L, E, M, C, B, A ja i.

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Määrällisen aineiston esittämistapoja. Aki Taanila

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

pisteet Frekvenssi frekvenssi Yhteensä

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

tilastotieteen kertaus

Määrällisen aineiston esittämistapoja. Aki Taanila

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Aluksi Kahden muuttujan lineaarinen yhtälö

Tilastoja yleisurheillen

2.1. Tehtävänä on osoittaa induktiolla, että kaikille n N pätee n = 1 n(n + 1). (1)

Kenguru 2012 Junior sivu 1 / 8 (lukion 1. vuosi)

Taloyhtiöiden jätehuoltopalvelut

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

LIITE 1 VIRHEEN ARVIOINNISTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Teema 5: Ristiintaulukointi

14 Jatkuva jakauma. Käsitellään kuitenkin ennen täsmällisiä määritelmiä johdatteleva

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Otannasta ja mittaamisesta

Muuttujien määrittely

LIITE 1 VIRHEEN ARVIOINNISTA

Kenguru 2012 Student sivu 1 / 8 (lukion 2. ja 3. vuosi)

TILASTOT JA TODENNÄKÖISYYS

1 Raja-arvo. 1.1 Raja-arvon määritelmä. Raja-arvo 1

Ma Tänään tutustumme sanomalehteen ja sen eri osastoihin.

Menettelytapa vertailtavuuden parantamiseksi

Ohjelmoinnin perusteet Y Python

1 Jalkapallo 100 0, % Vastaus: 81 % Esimerkki 1. Desimaaliluvun muuntaminen prosenttiluvuksi: 0,81 = 81 % 2 Prosentti- ja potenssilaskenta

MATEMATIIKKA 5 VIIKKOTUNTIA

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

A-OSA. Kyseessä on binomitodennäköisyys. 30 P(Tasan 10 sadepäivää ja muut 20 poutapäiviä) 0,35 (1 0,35) ,35 0, ,

Tuen tarpeen tunnistaminen

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

Tehtävät 1/11. TAMPEREEN YLIOPISTO Informaatiotieteiden tiedekunta Valintakoe Matematiikka ja tilastotiede. Sukunimi (painokirjaimin)

1 Ensimmäisen asteen polynomifunktio

Muista merkitä vastauspaperiin oma nimesi ja tee etusivulle pisteytysruudukko. Kaikkiin tehtävien ratkaisuihin välivaiheet näkyviin!

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Estimointi. Vilkkumaa / Kuusinen 1

2. Sähköisiä perusmittauksia. Yleismittari.

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta Toteuta Pythonilla seuraava ohjelma:

Kenguru 2019 Benjamin 6. ja 7. luokka

Turun seitsemäsluokkalaisten matematiikkakilpailu Tehtävät ja ratkaisut

LYHYT MATEMATIIKKA PRELIMINÄÄRIKOE

Matin alkuvuoden budjetti

Tarkasteluja lähtötason merkityksestä opintomenestykseen. MAMK:n tekniikassa

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

4. Oheisessa 4x4 ruudukossa jokainen merkki tarkoittaa jotakin lukua. Mikä lukua salmiakki vastaa?

Diagrammeja ja tunnuslukuja luokkani oppilaista

Tilastollisten aineistojen kerääminen ja mittaaminen

Ratkaisut Summa on nolla, sillä luvut muodostavat vastalukuparit: ( 10) + 10 = 0, ( 9) + 9 = 0,...

LIITE 1 VIRHEEN ARVIOINNISTA

Nimitys Symboli Merkitys Negaatio ei Konjuktio ja Disjunktio tai Implikaatio jos..., niin... Ekvivalenssi... jos ja vain jos...

Transkriptio:

3 Mittaamisen taso ja tilaston keskiluvut Tämä tutkimus on sellainen, että (jos nyt jänisten laskua voidaan mittaamiseksi kutsua) mittaamisessa on eroteltavissa neljä erilaista mittaamisen tasoa, mittausasteikkoa. Näistä tasoista on toisilla niin sanotusti syvyyttä enemmän kuin toisilla. Mittausasteikosta riippuen tulokset kertovat enemmän tai vähemmän tutkittavasta asiasta, mutta toisaalta tutkimuskohdekin saattaa asettaa rajat, millä syvyydellä kiinnostuksen kohdetta voidaan tutkia. LUOKITUS eli NOMINAALIASTEIKKO: tilastoyksiköstä voidaan vain todeta, mihin luokkaan se mitattavan ominaisuuden puolesta kuuluu. Itse mitattavaa ominaisuutta ei yleensä voida ilmaista lukuarvona. Esim. 1 Ihmisen veriryhmä, sukupuoli, äidinkieli, sukan väri, purjealuksen tyyppi. JÄRJESTYS eli ORDINAALIASTEIKKO: mittaustulokset voidaan asettaa järjestykseen, mutta ei ilmaista luvulla. Esim. 2 Maastojuoksukilpailun tulokset, kun käytettävissä ei ole kelloa: voittaja Aili, toinen Jaani, kolmas Jaakko,... VÄLIMATKA- eli INTERVALLIASTIKKO: tilastoyksiköihin liittyviä mittaustuloksia voidaan verrata erotuksiensa puolesta, mutta asteikolta puuttuu absoluuttinen nollapiste. Esim. 3 Edellisen esimerkin, ilmeisesti yhteislähdöllä alkaneen maastojuoksukilpailun tulokset ilmoitetaan, kuinka monta sekuntia osanottaja tuli voittajaa jälkeen maaliin: Aili 0, Jaani 3.4, Jaakko 13.2,... Jos maastojuoksukilpailu toistetaan vaikka samoissakin olosuhteissa, kilpailujen tuloksia tai yksittäisen juoksijan henkilökohtaisia juoksuaikoja ei voida verrata toisiinsa. Tietysti voidaan kysyä, miten on mahdollista mitata maaliinsaapumisaikoja alkaen siitä, kun voittaja on urakkansa tehnyt, mutta ei saada kaikkien osanottajien kokonaisjuoksuaikoja. Tällaista nollapisteetöntä asteikkoa käytetään kuitenkin lähes jokaista aika ajoin kiinnostavassa lämpötilan mittauksessa. Vastaväite Onhan Celsius-asteikolla nollapiste voidaan heti kumota toteamalla, että se

ei ole niin sanotusti absoluuttinen. Kerran oli eräässä sanomalehdessä talvisen, pitkäkestoisen pakkassäällä sattuneen sähkökatkoksen seurauksia kuvaileva uutinen, jossa sanottiin asunnon lämpötilan laskeneen 11 Celsiusasteseen, kun asukkaat tavallisesti oleskelivat 22:ssa. Toimittaja kirjoitti: Kyllä minäkin huolestuisin, jos asuntoni lämpötila laskisi puoleen normaalista. Mitähän kyseinen toimittaja olisi kirjoittanut, jos asunnon lämpötila olisi laskenut tasan nollaan (Celsiusasteeseen)? Lisäksi on fysiikasta kiinnostuneille syytä huomauttaa, että ideaalikaasun tilayhtälöä sovellettaessa on erittäin kohtalokasta syöttää lämpötila celsiusasteina. Mitä lähempänä lämpötila on jään sulamispistettä (normaalipaineessa), sitä hullumpia tuloksia saadaan. SUHDEASTEIKKO: Mitta-asteikolla on absoluuttinen nollapiste. Tämä on täydellisin mittaamisen taso. Esimerkiksi kelpaa maastojuoksukilpailun lopputulos täydellisin juoksuajoin. Monet opetusharjoittelun käyneet kritisoivat ankarasti kasvatustieteen opintoja hyödyttömiksi, mutta eivät ne ole kaikilta osin merkityksettömiä. Eräässä kirjassa nimittäin kritisoitiin, kuinka ihmiset arjessa käyttävät sanontoja, joiden merkitys ei yllä edes alimman tilastotieteellisen mittaamisen tasolle. Esim. 4 a) Mieheni viettää kanssani aikaa liian vähän. Netissä vaan pyörii. b) Teidän Tiinalla on liian tiukat farkut c) Suomessa on avioeroja aivan liikaa. Jos Sinulla on mahdollisuus osallistua tällaiseen keskusteluun, esitä varovainen (?) vastakysymys: a) Montako tuntia (viikossa) vaatisit henkilökohtaista aikaa? b) Mikähän tulisi Tiinan farkkujen numero olla? Lökäpöksyt vai? c) Kuinka monta avioeroa vuodessa olisi sopiva määrä Suomen oloissa? Voin vakuuttaa, että keskustelu terävöityy melko paljon vastakysymyksesi jälkeen. Voit ääritapauksessa varautua jopa pahoinpitelyyn ellet pääse karkuun. Kun sanotaan, että avioeroja on aivan liikaa, niin eihän ilmaisu täytä edes luokitusasteikon tasovaatimusta. Kun ihmisestä määritetään hänen veriryhmänsä, tulos on yksinkäsitteisen selvä ja merkittävissä tilastoon. Joku terveysministeri voi asiantuntijalausuntoihin tukeutuen asettaa, tai lähinnä suositella alkoholin

käytön rajat, mutta loppujen lopuksi kuka määrittelee yksikäsitteiset rajat vuosittaisille avioeroille asteikolla i) liian vähän ii) sopivasti ja iii) liian paljon. Millä mittaamisen tasolla Puttosen jänislaskenta oli suoritettu? Esim. 5 Osa jotakin laajempaa terveystutkimusta saattaisi olla kysely, jossa tiedustellaan kohdehenkilöiden viikoittain aktiivisen liikuntaan (tai matematiikan kotitehtävien suorittamiseen) käyttämää aikaa. Tällöin voitaisiin tutkia, onko liikunnan määrä (tai sen puute) yhteydessä jonkin sairauden esiintymiseen kohdejoukossa (tai onko kotitehtäviin käytetyllä ajalla kuinkakin tiukka yhteys matematiikassa menestymiseen). Alla oleva taulukko 2 on laadittu 26 henkilön viikoittaisesta aktiiviliikunnasta, ajat ovat tunteja, pyöristetyt 30 minuutin tarkkuuteen. Taulukko 2. Viikoittainen liikunta 1½ 3 1 0 0 3 2 1 1 1 ½ 2½ 2½ 3 4 2 2 3 2 1 ½ 0 ½ 2 3 1 Luokitellaan ja esitetään graafisesti: LUOKKA tukkimiehen kirjanpito f 0 3 ½ 3 1 6 1½ 1 2 5 2½ 2 3 5 3½ 0

4 1 Histogrammi on pylväsdiagrammi, jossa pylväät ovat kiinni toisissaan. Huomaa pylväiden sijainti vaaka-akseliin nähden. Liikuntaan käytetty aika on esimerkiksi yksi tunti sellaisilla henkilöillä, jotka ulkoilevat enemmän kuin 45 minuuttia mutta alle 1 h 15 minuuttia. 0 ½ 1 1½ 2 2½ 3 3½ 4 6 5 4 3 2 1 0 Sarja1 Kuva 2. Histogrammi, liikuntaharrastuksen jakauma Tilastoa luonnehditaan eritasoisilla tunnusluvuilla, jotka jaetaan tavallisesti ns. keskilukuihin ja hajontalukuihin. Tilaston laadinnassa käytetty mittaamisen taso määrää, minkätasoisia tunnuslukuja voidaan määrittää. Tilaston keskilukuja on kolme Aritmeettinen keskiarvo saadaan jakamalla havaintoarvojen summa niiden lukumäärällä Mediaani (M) on havaintoarvoista keskimmäinen, kun havaintoarvot on asetettu suuruusjärjestykseen. Jos havaintoarvoja on parillinen määrä, mediaani on kahden keskimmäisen keskiarvo (milloin keskiarvo voidaan

laskea) taikka sitten joidenkin teoriakirjojen mukaan kumpi tahansa keskimmäisistä arvoista. Tyyppiarvo eli moodi (Mo) on se havaintoarvo, jonka frekvenssi on suurin eli jota tilastossa esiintyy eniten. Luokitellusta aineistosta tyyppiarvoa ilmoitettaessa voi esittää frekvenssiltään suurimman luokan luokkakeskuksen tai koko luokan luokkarajoin ilmaistuna. Esim. 6 Edellisen esimerkin tilaston tyyppiarvo Mo = 1 h, koska sen frekvenssi on suurin. Koska havaintoarvoja (tilastoyksiköitä) on 26 kpl, niistä keskimmäisiä on kaksi, 13. ja 14. sen jälkeen, kun lukuajat ovat suuruusjärjestyksessä. Luokissa 0, ½ ja 1 h on yhteensä 12 havaintoarvoa, joten 13. havaintoarvo on 1½ h ja 14. on 2 h. Tilaston Md on nyt joko 1½ tai 2 tunnin lukuaika tai näiden keskiarvo 1h 45 min. Aritmeettisen keskiarvon osannee jokainen laskea. Mikäli tilaston mittaaminen on suoritettu luokitusasteikon tasolla, sille voi keskiluvuista ilmoittaa ainoastaan tyyppiarvon. Järjestysasteikon tasolla mitatulle aineistolle pystyy ilmoittamaan sekä tyyppiarvon että mediaanin. Välimatka- ja suhdeasteikon tasolla mitatulle aineistolle voidaan ilmoittaa kaikki kolme keskilukua. Tilaston keruussa jonkin seikan mitatut lukuarvot saattavat olla mitatut niin tarkasti, ettei ole mielekästä määrittää jokaisen mittaustuloksen frekvenssiä, ja tällöin käytetään ns. aineiston luokittelua. Havaintoaineisto koko laajuudeltaan jaetaan yleensä tasalevyisiin luokkiin, jolloin luokitellussa frekvenssitaulukossa yksittäisen tiedon tarkka informaatio katoaa, ja sen, esimerkiksi keskiarvoa laskettaessa, katsotaan sijaitsevan luokan keskuksessa. Kurssin loppupuolella vastaantulevan todennäköisyysjakauman kertymäfunktiota ajatellen on tässä yhteydessä syytä tutustua myös ns. summafrekvensseihin. Esim. 7 Erään kokeen pistemäärät jakaantuivat seuraavalla sivulla olevan taulukon 3 mukaisesti. Aineisto on siinä jo luokiteltu. Sikäli kun koepisteet ovat olleet kokonaislukuja, esimerkiksi luokkaan 40 < x < 45 kuuluvat 13 arvoa saattavat olla vaikka jokainen mitä tahansa

luvuista 41, 42, 43, 44 tai 45, mutta ajatellaan niiden sijaitsevan luokkakeskuksessa, joka on 43 (onko tarkkaan ottaen). Aiemmin esillä olleissa taulukoissa on ollut vain frekvenssisarake f. Taulukossa 3 näet kolme muutakin saraketta otsikoin sf (summafrekvenssi), p (prosentuaalinen osuus) ja sp (prosenttien summa). Taulukko 3. Koearvosanat x f sf p sp 0 < x < 10 2 2 0,63 0,63 10 < x < 15 18 20 5,70 6,33 15 < x < 20 29 49 9,18 15,51 20 < x < 25 59 108 18,67 34,18 25 < x < 30 84 192 26,58 60,76 30 < x < 35 67 259 21,20 81,96 35 < x < 40 39 298 12,34 94,30 40 < x < 45 13 311 4,11 98,42 45 < x < 50 5 316 1,58 100,00 316 Sarakkeessa sf oleva luku, esimerkiksi 259 kertoo sen, että pistemäärän 35 tai tätä pienemmän sai täsmälleen 259 opiskelijaa, ja samalla rivillä sp sarakkeessa oleva luku 81.96 antaa tiedon, että korkeintaan tämän pistemäärän sai hivenen vajaa 82 prosenttia opiskelijoista. Piirretään suhteellisten frekvenssien summakäyrä:

sp 120 100 80 60 40 20 0 0 20 40 60 pistemäärä Kuva 3. Suhteellisten frekvenssien summakäyrä. Mediaanin määritys. Jos tilaston mittaaminen on suoritettu vähintään välimatka-asteikon tasolla, niin suhteellisten frekvenssien summakäyrältä löydetään arvoa sp = 50% vastaava havainto-arvo (siis mediaani) yllä olevan käytännön mukaisesti: pystyakselin 50% pisteestä summakäyrälle ammutun nuolen ja summakäyrän leikkauspiste projisoidaan vaakaakselille. Arvio jää tässä kohden hieman karkeaksi, mutta Md lienee 26 27 pisteen tuntumassa. Tämä on tietystikin arvio ja olettaa pistemäärien jakaantuneen kuhunkin luokkaan suunnilleen tasaisesti.