1 TILASTOMATEMATIIKKA... 2 2 TILASTOTIETEEN PERUSKÄSITTEITÄ... 3 3 MUUTTUJAT... 6 4 FREKVENSSIJAKAUMA... 8 5 AINEISTON LUOKITTELU...



Samankaltaiset tiedostot
Sovellettu todennäköisyyslaskenta B

Til.yks. x y z

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Tilastollisten aineistojen kerääminen ja mittaaminen

Til.yks. x y z

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

MONISTE 2 Kirjoittanut Elina Katainen

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tilastolliset toiminnot

3 Mittaamisen taso ja tilaston keskiluvut

Kvantitatiiviset menetelmät

TILASTO- JA TALOUSMATEMATIIKKA s. 1

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

1.1 Tilastotieteen peruskäsitteitä

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Kandidaatintutkielman aineistonhankinta ja analyysi

Tilastollisten aineistojen kuvaaminen

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

5. Keskiluvut. luokan väliin, ei sen määrääminen tuota vaikeuksia. Näin on seuraavissa esimerkeissä:

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Huippu Kertaus Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

tilastotieteen kertaus

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Matin alkuvuoden budjetti

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla

Luottamusvälit. Normaalijakauma johnkin kohtaan

Ma8 Todennäköisyys ja tilastot

pisteet Frekvenssi frekvenssi Yhteensä

Määrällisen aineiston esittämistapoja. Aki Taanila

Tehtävä 1. Hypoteesi: Liikuntaneuvonta on hyvä keino vaikuttaa terveydentilaan. Onko edellinen hypoteesi hyvä tutkimushypoteesi? Kyllä.

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Harjoitus 2: Matlab - Statistical Toolbox

1.9 Harjoituksia. Frekvenssijakaumien harjoituksia. MAB5: Tilastotieteen lähtökohdat. a) Kaikki aakkoset b) Kirjaimet L, E, M, C, B, A ja i.

Mat Tilastollisen analyysin perusteet, kevät 2007

TUTKIMUSKURSSI I (407040A-02), OSA A), KVANTITATIIVISEN TUTKIMUKSEN PERUSKURSSI, TILASTOLLISET ANALYYSIMENETELMÄT

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

2.4 Muuttujien luokittelemisesta

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Mat Tilastollisen analyysin perusteet, kevät 2007

Teema 5: Ristiintaulukointi

Matemaatikot ja tilastotieteilijät

Tehtävät 1/11. TAMPEREEN YLIOPISTO Informaatiotieteiden tiedekunta Valintakoe Matematiikka ja tilastotiede. Sukunimi (painokirjaimin)

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TILASTOT: johdantoa ja käsitteitä

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

Määrällisen aineiston esittämistapoja. Aki Taanila

LIITE 1 VIRHEEN ARVIOINNISTA

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa

Tilastoja yleisurheillen

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Testit järjestysasteikollisille muuttujille

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Ohjeita kvantitatiiviseen tutkimukseen

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

1 Jalkapallo 100 0, % Vastaus: 81 % Esimerkki 1. Desimaaliluvun muuntaminen prosenttiluvuksi: 0,81 = 81 % 2 Prosentti- ja potenssilaskenta

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

7. laskuharjoituskierros, vko 10, ratkaisut

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen aineisto Luottamusväli

Ohjeita kvantitatiiviseen tutkimukseen

LIITE 1 VIRHEEN ARVIOINNISTA

Sovellettu todennäköisyyslaskenta B

Tilastolliset jakaumat, niiden esittäminen ja tunnusluvut

Ohjeita kvantitatiiviseen tutkimukseen

Estimointi. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

Esimerkki 1: auringonkukan kasvun kuvailu

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Teema 3: Tilastollisia kuvia ja tunnuslukuja

LIITE 1 VIRHEEN ARVIOINNISTA

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2. a- ja b-kohdat selviä, kunhan kutakuinkin tarkka, niin a-kohta 1 p b-kohta 1 p

Transkriptio:

SISÄLLYSLUETTELO 1 TILASTOMATEMATIIKKA... 2 1.1 JOHDANTO... 2 1.2 LINKKEJÄ... 2 1.3 LÄHTEET... 2 2 TILASTOTIETEEN PERUSKÄSITTEITÄ... 3 2.1 HAVAINTOAINEISTO... 3 2.2 POPULAATIO... 3 2.3 OTOS... 3 2.4 HAVAINTOAINEISTON KERÄÄMISTAVAT... 6 3 MUUTTUJAT... 6 3.1 MITTA-ASTEIKOT... 7 3.2 JATKUVA VAI DISKREETTI?... 8 4 FREKVENSSIJAKAUMA... 8 5 AINEISTON LUOKITTELU... 9 6 DIAGRAMMIT... 11 7 TUNNUSLUVUT... 14 1

1 TILASTOMATEMATIIKKA 1.1 Johdanto Tilastotiede on saanut alkunsa väestö- ja talousaloja kuvaavista tilastoista. Tilastollisilla menetelmillä on tärkeä asema yhteiskunnallisten toimintojen suunnittelussa, lääketieteen tutkimuksessa, yritysten toimintojen kehittämisessä se monilla muilla aloilla. Tietojenkäsittelyn kehittyminen on tehnyt tilastoista niin yleisiä ja jokapäiväisiä asioita, että ne ovat jatkuvasti esillä lehdissä, internetissä ja televisiossa. Tilastoja on esimerkiksi talouselämästä, urheilusta, politiikasta ja säätilojen muutoksista. Jokaisen kansalaisen perustaitoihin kuuluu tänä päivänä osata lukea ja tulkita tilastoja. Tämän vuoksi tulee tuntea tiettyjä tilastotieteen perusasioita sekä opetella tilastojen lukemista taulukoina, kuvioina ja erilaisten tunnuslukujen avulla. Pohdintatehtävä 1.1.1 Mieti millaisia käyttötarpeita voi olla a) työttömyystilastoilla b) hintatilastoilla? 1.2 Linkkejä Suomen suurin tilastojen tuottaja on valtion ylläpitämä Tilastokeskus. Sen lisäksi virallisia tilastoja tekevät monet muut valtion virastot ja laitokset sekä kunnat, liikelaitokset ja monet järjestöt. Tilastollisia tutkimuksia tehdään myös yritysten omiin tarpeisiin. Tilastokeskus (www.stat.fi), Väestörekisterikeskus (www.vaestorekisterikeskus.fi), Stakes (www.stakes.fi), Suomen ympäristökeskus (www.ymparisto.fi), Suomen elokuvasäätiö (www.ses.fi) 1.3 Lähteet Helakorpi, Ansaharju ja Söderström (1999) Origo. WSOY oppimaterialit. Hemmo, Taskinen ja Vahviainen (2004) Sigma, Tilastot ja todennäköisyys. TAMMI oppimateriaalit. Karjalainen Leila (2001) Liiketalouden matematiikka 1. Gummerus. 2

Karvonen, Käenniemi, Möller ja Poskela (2001) ProbleMatikka. Otava oppimateriaalit. Kettunen, Laakkonen ja Salminen (2007) Numerotaito. WSOY oppimateriaalit. Peltola ja Vuorenmaa (2006) Näppärästi numeroilla. WSOY oppimateriaalit. 2 TILASTOTIETEEN PERUSKÄSITTEITÄ 2.1 Havaintoaineisto Tilastot eivät synny itsestään vaan ne täytyy kerätä. Useimmiten tilastot muodostuvat suuresta määrästä numerotietoja. Tilastollista tutkimusta varten kerättyä tietoa kutsutaan havaintoaineistoksi tai tilastoaineistoksi. Havainnollisuuden vuoksi aineisto esitetään yleensä taulukoituna tai kuvioiden avulla. Havaintoaineisto koostuu havaintoyksiköistä (tilastoyksiköistä) ja niiden ominaisuuksista eli muuttujista. Jos tutkitaan esimerkiksi luokan oppilaiden koulumatkojen pituuksia ja kengän numeroa, oppilaat ovat havaintoyksikköjä, ja koulumatkan pituus ja kengän numero ovat muuttujia. 2.2 Populaatio Se joukko, johon tutkimus kohdistuu, on nimeltään perusjoukko eli populaatio. Populaatio voi olla esimerkiksi kaupungin asukkaat, Kajaanin Ammattikorkeakoulun opiskelijat, radiossa soitetut kappaleet, tietokoneiden sovellusohjelmat, esikouluiässä olevat lapset jne. Jos havaintoaineistoon kuuluu kaikki perusjoukon havaintoyksiköt, sitä kutsutaan kokonaisaineistoksi. 2.3 Otos Koko perusjoukkoa on usein mahdotonta tai ainakin kovin työlästä tutkia. Tästä syystä kokonaisaineiston sijasta tutkitaan usein otosta. Otos on sellainen osa perusjoukon havaintoyksiköistä, jotka on kerätty jollain otantamenetelmällä. Otantamenetelmät ovat erilaisia tapoja poimia havaintoyksiköitä perusjoukosta niin, että otos kuvaisi perusjoukkoa 3

mahdollisimman hyvin. Jos havaintoyksiköt poimitaan perusjoukosta jollain muulla tavalla kuin otantamenetelmällä, kerättyä aineistoa kutsutaan näytteeksi. 2.3.1 Yksinkertainen satunnaisotanta arvonta Otannan perusmenetelmä on yksinkertainen satunnaisotanta. Yksinkertaisessa satunnaisotannassa jokaisella alkiolla on yhtä suuri todennäköisyys tulla poimituksi otokseen. Yksinkertainen satunnaisotanta valitaan arpomalla. 2.3.2 Systemaattinen otanta - joka k:s Systemaattinen otanta sopii käytettäväksi silloin, kun perusjoukkoa ei tarkkaan pystytä määrittämään, esimerkiksi liikkeen asiakastutkimus ovensuukyselynä, liikennetutkimus maantiellä jne.. Systemaattisessa otannassa valitaan ensin poimintaväli. Jos perusjoukon koko on tiedossa, niin poimintaväli saadaan jakamalla perusjoukon koko halutulla otoskoolla. Jos poimintaväliksi valitaan k, niin seuraavaksi arvotaan k:n ensimmäisen tilastoyksikön joukosta yksi ja sen jälkeen poimitaan järjestyksessä joka k:s. tilastoyksikkö. Menetelmä sopii käytettäväksi myös silloin, jos käytettävissä on luettelo perusjoukon jäsenistä. Luettelosta voidaan poimia otos systemaattista otantaa käyttäen. 2.3.3 Ositettu otanta - avainryhmien edustus taattu 4

Esimerkki 2.3.3.1. Jos tutkimuksen tarkoituksena on vertailla Suomessa asuvia suomenkielisiä ja ruotsinkielisiä, niin yksinkertaisella satunnaisotannalla arvottu otos luultavasti sisältäisi aika vähän ruotsinkielisiä. Vertailua varten ruotsinkielisiä pitäisi kuitenkin olla niin paljon, että voitaisiin tehdä kaikkia Suomessa asuvia ruotsinkielisiä koskevia päätelmiä. Ratkaisu on ositettu otanta, jossa arvotaan otos erikseen suomenkielisistä ja erikseen ruotsinkielisistä. Jos halutaan nimenomaan verrata kyseisiä ryhmiä toisiinsa, niin käytetään tasaista kiintiöintiä: suomenkielisiä arvotaan mukaan yhtä monta kuin ruotsinkielisiäkin. Tällöin otoksesta ei tietenkään suoraan voi tehdä kaikkia Suomessa asuvia koskevia päätelmiä, ainoastaan päätelmiä suomenkielisistä ja ruotsinkielisistä. Ositetussa otannassa voidaan osittavana muuttujana käyttää mitä tahansa tutkimuksen kannalta tärkeää muuttujaa, kuten ikäryhmä, sukupuoli, asuinseutu jne.. 2.3.4 Ryväsotanta Ryväsotannassa perusjoukon alkiot ryhmitellään ryppäisiin. Vain osa ryppäistä pääsee mukaan otokseen. Esimerkki 2.3.4.1. Oppilaitoksen opiskelijoista voidaan poimia otos arpomalla ensin otos luokkahuoneista, jolloin luokkahuoneet ovat nk. ryppäitä. Arvotuissa luokkahuoneissa käydään sitten suorittamassa kysely. Otoksessa pitäisi myös huomioida päivä ja iltaopiskelijat. Tämän voisi toteuttaa arpomalla otos luokkahuoneista päiväsaikaan ja toinen otos ilta-aikaan. Tässä yhdistetään ryväsotantaan ositettu otanta, jolla taataan päivä- ja iltaopiskelijoiden edustus. 5

Esimerkki 2.3.4.2. Jos tutkitaan tänä vuonna peruskoulun aloittavia, niin voidaan poimia ensin otos kouluista, jolloin koulut ovat ryppäitä. Tämän jälkeen arvotaan kustakin otokseen tulleesta koulusta tietty määrä tutkimuksen kohderyhmään kuuluvia oppilaita. Jos poimituista ryppäistä tutkitaan kaikki ryppäisiin kuuluvat alkiot, puhutaan yksiasteisesta ryväsotannasta. Jos poimituista ryppäistä valitaan vain osa alkioista tutkittavaksi, niin kyseessä on kaksiasteinen ryväsotanta. 2.4 Havaintoaineiston keräämistavat Havaintoaineistoa voidaan kerätä monella eri tavalla: kyselyllä, haastattelulla, havainnoimalla, systemaattisella koejärjestelyllä ja valmiista tietokannasta. Tavan valitseminen riippuu siitä, millaista tietoa halutaan kerätä. 3 MUUTTUJAT Tilastollinen muuttuja on kvantitatiivinen (eli määrällinen) jos sen luonnollinen kuvaustapa on reaaliluku. Jos muuttujaa ei kuvata reaaliluvulla (tai luku on vain tietty koodiarvo), muuttujaa sanotaan kvalitatiiviseksi (eli laadulliseksi) muuttujaksi. Esimerkki 3.1. Seuraavan lomakkeen muuttujista ovat kvalitatiivisia ikä ja pituus sekä kvantitatiivisia sukupuoli ja mielipide kouluruoasta. Sukupuoli mies nainen Ikä Pituus Mielipide kouluruoasta 1 Ruoka on huonoa. 2 Ruoka on melko hyvää. 3 Ruoka on erinomaista 6

3.1 Mitta-asteikot Muuttujat voidaan jaotella neljään luokkaan mitta-asteikon mukaan: 1) laatu- eli nominaaliasteikko 2) järjestys- eli ordinaaliasteikko, 3) välimatka- eli intervalliasteikko sekä 4) suhdelukuasteikko. 3.1.1. Nominaali- eli laatuasteikko Nominaali- eli laatuasteikolla havainnot luokitellaan kahteen tai useampaan luokkaan samanlaisuutensa tai erilaisuutensa perusteella. Mittauksen kohteet ovat siinä mielessä tasaarvoisia, ettei millään luokalla ole enempää mitattavaa ominaisuutta kuin toisella luokalla. Luokkia ei siis voi laittaa järjestykseen mitattavan ominaisuuden suhteen. Esimerkkejä: työllinen/työtön/ työvoimaan kuulumaton, kaupunki/maalaiskunta, suomalainen/ruotsalainen/norjalainen. 3.1.2. Ordinaali- eli järjestysasteikko Ordinaali- eli järjestysasteikolla mitattavasta kohteesta voidaan sanoa, onko sillä mitattavaa ominaisuutta enemmän, yhtä paljon vai vähemmän kuin toisella kohteella. Järjestysasteikko on kuin venyvä mittanauha. Nauhan pituudesta riippumatta kohteet ovat oikeassa järjestyksessä. Kohteiden välisillä etäisyyksillä ei sen sijaan ole merkitystä. Esimerkkinä ordinaaliasteikosta ovat paljon käytetyt asenneskaalat: täysin eri mieltä/jokseenkin eri mieltä/ei osaa sanoa/jokseenkin samaa mieltä/täysin samaa mieltä. 3.1.3. Intervalli- eli välimatka-asteikko Järjestyksen lisäksi intervalli-asteikolla on mielekästä verrata välimatkoja. Lämpömittari sisältää tällaisen asteikon. 0-piste on mielivaltainen: Celsiuksen nolla on Fahrenheitin 32 astetta. Kuitenkin lämpötilan nousu -20 asteesta -10 asteeseen on yhtä suuri kuin nousu +10 asteesta +20 asteeseen. Toinen esimerkki intervalliasteikosta on kalenteri, jolla mitataan aikaa päivissä. 3.1.4.Suhdeasteikko 7

Lisäämällä intervalliasteikkoon absoluuttinen nollapiste päästään suhdeasteikkoon. Tähän luokkaan kuuluvia muuttujia ovat pituus, paino, perheen tulot, yleensä raha- ja lukumäärämitat. 3.2 Jatkuva vai diskreetti? Välimatka- ja suhdelukuasteikolliset muuttujat voivat olla jatkuvia tai epäjatkuvia eli diskreettejä. Jatkuva muuttuja voi saada mitä tahansa arvoja tietyllä välillä, esimerkkinä henkilön pituus. Diskreetti muuttuja, esimerkiksi kengän numero, voi saada vain tiettyjä arvoja. 4 FREKVENSSIJAKAUMA Havaintoaineiston keräämisen jälkeen aineisto käsitellään niin, että kaikki olennainen tieto saadaan näkyviin. Aineiston käsittely aloitetaan yleensä frekvenssien laskemisella. 4.1 Frekvenssi Frekvenssi on muuttujan arvojen esiintymiskertojen lukumäärä. Esimerkki 4.1. Opettaja kerää havaintoaineiston kysymällä luokan oppilailta heidän sisarustensa lukumäärän. Kahdenkymmenenkahden oppilaan sisarusten lukumäärät olivat 0 3 2 2 1 1 1 1 1 2 1 2 1 0 1 2 1 0 2 1 1 3 Opettaja laskee muuttujan arvojen esiintymiskerrat tukkimiehen kirjanpidolla frekvenssien määrittämiseksi. Sisarusten Frekvenssi f 0 3 lukumäärä 1 11 2 6 3 2 Tällä tavalla laadittu taulukko, jossa esiintyvät muuttujien arvot ja niihin liittyvät frekvenssit, on nimeltään frekvenssijakauma. 8

4.2 Suhteellinen frekvenssi Suhteellinen frekvenssi kertoo esiintymiskertojen määrän prosentteina. Esimerkki 4.2. Edellisen esimerkin suhteelliset frekvenssit. Sisarusten Frekvenssi f Suhteellinen frekvenssi f lukumäärä 0 3 % 3/22 = 0,136... 14 % 1 11 11/22 = 0,5 = 50 % 2 6 6/22 = 0,2727... 27 % 3 2 2/22 = 0,0909... 9 % Havaintoyksiköitä yhteensä 22 Suhteellisten frekvenssien avulla on helpompi vertailla keskenään aineistoja, joissa havaintoyksiköitä on eri määrä. 5 AINEISTON LUOKITTELU 5.1 Luokittelu Kun muuttujien arvoja on niin paljon, että niitä ei ole mielekästä ilmoittaa frekvenssitaulukossa yksittäisinä arvoina, ne luokitellaan sopiviin luokkiin. Luokkien määrä on harkinnanvarainen. Teknisillä aloilla luokkien määrä lasketaan kaavalla 3 n eli otetaan havaintojen lukumäärästä kuutiojuuri ja pyöristetään se ylempään kokonaislukuun. Jos luokkia on paljon, saadaan tarkempi tulos kuin harvalla luokkavälillä. Esimerkki 5.1. Seuraavassa on erään luokan oppilaiden pituudet senttimetreinä: 154 178 162 156 168 168 174 175 182 187 189 173 158 170 179 175 164 153 165 167 172 158 Lukusuoralle sijoitetuista pisteistä nähdään, mille välille pituudet asettuvat ja moneenko luokkaan aineisto kannattaa jakaa. 9

Sitten aineisto luokitellaan ja lasketaan sen frekvenssit. Luokka f f % 151-160 5 23 % 161-170 7 32 % 171-180 7 32 % 181-190 3 14 % 5.2 Todelliset luokkarajat Luokitellun jatkuvan muuttujan luokkarajat eivät ole todellisia luokkarajoja. Todellisissa luokkarajoissa otetaan huomioon mahdolliset lukuarvon pyöristykset. Esimerkki 5.2. Pituus 161 cm voi todellisuudessa olla 160,5 cm - 161,4 cm. Kaikki nämä pituudet pyöristyvät 161 senttimetriin. Esimerkin 5.1 todelliset luokkarajat siis ovat Luokka Todellinen alaraja Todellinen yläraja 151-160 150,5 160,5 161-170 160,5 170,5 171-180 170,5 180,5 181-190 180,5 190,5 5.3 Luokkakeskus Luokitellussa aineistossa tarvitaan usein yksi lukuarvo edustamaan kutakin luokkaa. Tällainen arvo on luokan keskimmäinen arvo eli luokan todellisen alarajan ja todellisen ylärajan keskiarvo: 10

Luokkakeskus = (todellinen alaraja + todellinen yläraja) / 2 Esimerkki 5.3. Esimerkin 5.1 luokan 161-170 luokkakeskus on siis (160,5 + 170,5) / 2 = 165,5. 5.4 Luokkavälin pituus Luokkavälin pituus on todellisten luokkarajojen erotus. Esimerkki 5.4. Luokkavälin pituus esimerkissä 5.1 on 170,5-160,5 = 10,0. 6 DIAGRAMMIT Frekvenssijakauman perusteella voi olla hankala muodostaa kokonaiskuvaa tarkasteltavasta tilanteesta. Tilastokuvaajilla eli diagrammeilla on tarkoitus havainnollistaa tietoa. 6.1 Pylväsdiagrammi Pylväsdiagrammilla kuvataan diskreettiä muuttujaa. Pylvään korkeus määräytyy frekvenssin tai suhteellisen frekvenssin mukaan. Pylväät piirretään erillisinä. Pystypylväitä käytetään silloin, kun molemmat muuttujat ovat määrää mittaavia. 6.2 Palkkidiagrammi 11

Pylväsdiagrammin sijasta voidaan diskreettiä muuttujaan kuvata myös palkkidiagrammilla. Palkin pituus määräytyy frekvenssin tai suhteellisen frekvenssin mukaan. Palkit piirretään erillisinä. Vaakapylväitä suositellaan käytettäväksi silloin, kun toinen kuvattava muuttuja on tyypiltään laadullinen. 6.3 Sektoridiagrammi Sektoridiagrammilla kuvataan diskreetin muuttujan suhteellisia frekvenssejä. Sektorin keskuskulman suuruus määräytyy suhteellisen frekvenssin mukaan. 6.4 Histogrammi Histogrammilla voidaan esittää jatkuvien muuttujien jakaumia. Ne soveltuvat yhden muuttujan jakauman kuvailuun. Pylvään korkeus ilmaisee pylvään luokkaan kuuluvien havaintojen määrän 12

(eli frekvenssin). Pylväät piirretään yhteen siten, että pylvään keskikohdassa on luokkakeskus ja reunoilla todelliset luokkarajat. 6.5 Viivadiagrammi Viivadiagrammissa yhdistetään viivalla luokkakeskusten kohdalle merkityt frekvenssipisteet. Jakauman hännät päätyvät 0-tasolle. Viivadiagrammit soveltuvat parhaiten vaihtelun tai kehityssuunnan esittämiseen tietyn ajanjakson aikana. Viivadiagrammia kutsutaan myös frekvenssimonikulmioksi. 13

7 TUNNUSLUVUT Frekvenssit ja diagrammit eivät aina riitä tilastojen havainnollistamiseksi. Tämän vuoksi havaintoaineistoa voidaan kuvata erilaisilla tunnusluvuilla. 7.1 Keskiarvo, Keskiarvo ilmaisee muuttujan arvojen keskimääräisen suuruuden. Se lasketaan jakamalla muuttujan arvojen summa arvojen lukumäärällä. Esimerkki 7.1. Kokkiopiskelijan päästötodistuksessa oli äidinkieli 3, englanti 4, matematiikka 5, tietotekniikka 5 ja liikunta 1. Mikä oli näiden aineiden keskiarvo? = (3 + 4 + 5 + 5 + 1) / 5 = 3,6 Luokitellussa aineistossa käytetään keskiarvonlaskemisessa luokkakeskuksia. Esimerkki 7.2. Esimerkin 5.1 oppilaiden pituuksien keskiarvo lasketaan kertomalla kunkin luokan luokkakeskus sen frekvenssillä ja jakamalla frekvenssien summalla: Luokka (cm) f luokkakeskus 151-160 5 (cm) 155,5 161-170 7 165,5 171-180 7 175,5 181-190 3 185,5 Yhteensä, n 22 = (5 155,5 + 7 165,5 + 7 175,5 + 3 185,5)/22 = 169,1 (cm). 14

7.2 Mediaani, Md Mediaani ilmaisee keskimmäisen muuttujan arvon. Aineisto on laitettava suuruusjärjestykseen ennen mediaanin määrittämistä, joten muuttujan on oltava vähintään järjestysasteikollinen. Jos muuttujan arvoja on parillinen määrä, käytetään mediaanina kahden keskimmäisen muuttujan arvon keskiarvoa. Esimerkki 7.3. Esimerkin 7.1 kokkiopiskelijan arvosanojen 1, 3, 4, 5, 5 keskimmäinen arvo eli mediaani Md = 4. Luokitellussa aineistossa mediaani on sen luokan luokkakeskus, joka jakaa muuttujan arvot kahteen yhtä suureen osaan. Esimerkki 7.4. Esimerkin 5.1 oppilaiden pituudet olivat Luokka (cm) f luokkakeskus 151-160 5 (cm) 155,5 161-170 7 165,5 171-180 7 175,5 181-190 3 185,5 n 22 Koska muuttujan arvoja on yhteensä 22 (ts. n = 22), keskimmäiset muuttujan arvot ovat yhdestoista ja kahdestoista arvo. Nämä muuttujan arvot ovat mediaaniluokassa 161-170 cm, joten mediaani Md = 165,5 cm. 7.3 Moodi, Mo Tyyppiarvo eli moodi (Mo) on muuttujan yleisin arvo. Moodin frekvenssi on siis suurin. Esimerkki 7.5. Opiskelijan todistuksen arvosanat jakautuivat seuraavasti: 15

Eniten on arvosanoja 3 (6 kpl), joten se on moodi: Mo = 3. 7.4 Vaihteluvälin pituus, R Hajontaluvut kertovat, kuinka lähellä keskiarvoa muuttujan arvot ovat. Kahdella muuttujalla voi olla sama keskiluku (esimerkiksi keskiarvo), mutta niiden hajonta voi olla täysin erilainen. Hajontalukuja käytetään erityisesti silloin, kun halutaan vertailla kahta jakaumaa. Yksinkertaisin hajontaluku on vaihteluvälin pituus, R. Se on muuttujan suurimman ja pienimmän arvon erotus. Luokitetulla aineistolla vaihteluväli lasketaan ylimmän luokan ylärajan ja alimman luokan alarajan erotuksena. 7.5 Keskihajonta, s Tarkemmin muuttujan arvon hajontaa kuvaa keskihajonta. Se on havaintojen keskimääräinen poikkeama keskiarvosta. Keskihajontaa laskettaessa otetaan huomioon jokainen havainto ja sen erotus havaintojen keskiarvosta. Mitä lähempänä keskiarvoa ja toisiaan havaintoarvot ovat, sitä pienempi keskihajonta on. Otoksen keskihajonnan kaava on missä x i :t ovat havaintoarvoja, on keskiarvo ja n on havaintojen lukumäärä. Useimmissa laskimissa on näppäimet sekä otoksen (jaetaan arvolla n-1) että perusjoukon (jaetaan arvolla n = N) keskihajonnan laskemiseksi. Excelissä funktio keskihajonta laskee hajonnan otoksen perusteella ja funktio keskihajontap perusjoukon hajonnan. Esimerkki 7.6. Erään luokan oppilaiden arvosanat englannissa ja matematiikassa jakautuivat seuraavasti: 16

Keskiluvut englannissa: = 7,81, Md = 8 ja Mo = 9 Keskiluvut matematiikassa: = 7,88, Md = 8 ja Mo = 8 Englannin arvosanojen vaihteluvälin pituus R englanti = 10-4 = 6 ja matematiikan arvosanojen vaihteluvälin pituus R matematiikka = 10-5 = 5. Excelillä lasketut keskihajonnat ovat s englanti = 1,8 ja s matematiikka = 1,3. Vaikka keskiluvut eivät juuri poikkea englannin ja matematiikan arvosanojen jakaumien välillä, jakaumien hajontaluvuista huomaa, että arvosanat matematiikassa ovat jakautuneet lähemmäs jakauman keskiarvoa kuin englannissa. 17