Tilastollisen tutkimuksen läahtäokohtana on havaintoaineisto,

Samankaltaiset tiedostot
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Til.yks. x y z

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Til.yks. x y z

Sovellettu todennäköisyyslaskenta B

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Sovellettu todennäköisyyslaskenta B

Kvantitatiiviset tutkimusmenetelmät maantieteessä

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Kvantitatiiviset menetelmät

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tilastollisten aineistojen kuvaaminen

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

pisteet Frekvenssi frekvenssi Yhteensä

Teema 3: Tilastollisia kuvia ja tunnuslukuja

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MONISTE 2 Kirjoittanut Elina Katainen

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Kandidaatintutkielman aineistonhankinta ja analyysi

5. Keskiluvut. luokan väliin, ei sen määrääminen tuota vaikeuksia. Näin on seuraavissa esimerkeissä:

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Harjoitus 2: Matlab - Statistical Toolbox

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

tilastotieteen kertaus

1 TILASTOMATEMATIIKKA TILASTOTIETEEN PERUSKÄSITTEITÄ MUUTTUJAT FREKVENSSIJAKAUMA AINEISTON LUOKITTELU...

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Tilastolliset toiminnot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Otannasta ja mittaamisesta

805306A Johdatus monimuuttujamenetelmiin, 5 op

Otoskoko 107 kpl. a) 27 b) 2654

Sovellettu todennäköisyyslaskenta B

Tilastollisten aineistojen kerääminen ja mittaaminen

LIITE 1 VIRHEEN ARVIOINNISTA

7. laskuharjoituskierros, vko 10, ratkaisut

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Estimointi. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Luento JOHDANTO

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollinen aineisto Luottamusväli

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

1.1 Tilastotieteen peruskäsitteitä

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

Osa 2: Otokset, otosjakaumat ja estimointi

Mittaustekniikka (3 op)

7. Normaalijakauma ja standardipisteet

TILASTO- JA TALOUSMATEMATIIKKA s. 1

Testejä suhdeasteikollisille muuttujille

3 Mittaamisen taso ja tilaston keskiluvut

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Harjoittele tulkintoja

MTTTP1, luento KERTAUSTA

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Huippu Kertaus Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

LIITE 1 VIRHEEN ARVIOINNISTA

Matemaatikot ja tilastotieteilijät

riippumattomia ja noudattavat samaa jakaumaa.

Ohjeita kvantitatiiviseen tutkimukseen

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Testit laatueroasteikollisille muuttujille

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

LIITE 1 VIRHEEN ARVIOINNISTA

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

HAVAITUT JA ODOTETUT FREKVENSSIT

3.7 Todennäköisyysjakaumia

TUTKIMUSKURSSI I (407040A-02), OSA A), KVANTITATIIVISEN TUTKIMUKSEN PERUSKURSSI, TILASTOLLISET ANALYYSIMENETELMÄT

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa

Matematiikan johdantokurssi, syksy 2016 Harjoitus 11, ratkaisuista

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Jatkuvat satunnaismuuttujat

Esimerkki 1: auringonkukan kasvun kuvailu

Testit järjestysasteikollisille muuttujille

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Transkriptio:

II Havaintoaineisto ja sen kuvailu Tilastollisen tutkimuksen läahtäokohtana on havaintoaineisto, josta tavoitteena on johtaa tilastollisen päaäattelyn keinoin yleistäaviäa tuloksia esimerkiksi päaäatäoksentekoa varten. Havaintoaineiston hankintaan perehdytäaäan tarkemmin kappaleessa 4, mutta jo täassäa vaiheessa mäaäaritelläaäan joitakin peruskäasitteitäa. Tutkimusobjekti, tilastoyksikkäo, havaintoyksikkäo on yksikkäo, josta mittaukset tehdäaäan. Kaikkien tutkimuksen kohteena olevien tilastoyksikäoiden joukko muodostavat populaation eli perusjoukon. YleensÄa havaintoaineisto koostuu mittauksista, jotka on toteutettu vain osalle perusjoukon yksikäoistäa eli alkioista. Jos täamäa osajoukko on koottu tiettyjen tilastollisten periaatteiden mukaan, sanotaan sitäa otokseksi. 8

2.1 Havaintoaineistojen päaäatyypit Havaintoaineisto (data) voi olla numeerista tai luokitteluun perustuvaa kvalitatiivsta aineistoa. Se on tyypillisesti joko aikasarja- tai poikkileikkausaineistoa. Aineisto voi olla myäos näaiden yhdistelmäa, paneeliaineisto. Aikasarja muodostuu peräakkäaisitäa havainnoista (mittauksista), jotka on koottu samasta kohteesta(ihminen, yritys, valtio, jne) Poikkileikkaus aineisto muodostuu mittauksista, jotka on tehty tietylläa ajanhetkelläa useasta kohteesta (tilastoyksikäostäa). YhdistelmÄaaineisto Useasta tilastoyksikäostäa kootaan peräakkäaisinäa ajanjaksoina havaintomittauksia. 9

Esim. HEX-indeksin päaiväatuotot ajanjaksolta 1.7.1987{7.9.2001 on esimerkki aikasarjaaineistosta. Alla on sarjan loppupäaäa (1.8.2001{ 7.9.2001). Hex Closing Index and index returns [Aug 1, 2001-- Sepember 7, 2001] Date Close Return 1-Aug-01 7904.9-1.0689 2-Aug-01 8004.2 1.2479 3-Aug-01 7948.5-0.6979 6-Aug-01 7892.9-0.7017 7-Aug-01 7829.9-0.8018 8-Aug-01 7553.4-3.5949 9-Aug-01 7224.2-4.4556 10-Aug-01 7146.4-1.0838 13-Aug-01 7219.7 1.0203 14-Aug-01 7246.9 0.3771 15-Aug-01 7065.4-2.5371 16-Aug-01 6925.0-2.0077 17-Aug-01 6616.0-4.5646 20-Aug-01 6618.8 0.0432 22-Aug-01 6753.4 2.0127 23-Aug-01 6743.3-0.1498 24-Aug-01 6886.7 2.1048 27-Aug-01 6779.2-1.5731 28-Aug-01 6675.2-1.5461 29-Aug-01 6489.8-2.8175 30-Aug-01 6127.8-5.7396 31-Aug-01 6261.7 2.1613 3-Sep-01 6268.6 0.1113 4-Sep-01 6342.1 1.1647 5-Sep-01 5964.9-6.1308 6-Sep-01 5755.6-3.5729 7-Sep-01 5727.1-0.4957 10

Esim. PÄorssin päaäalistan hintojen muutokset edellisestäa päaiväastäa 7.9.2001onesimerkki poikkileikkausaineistosta. Listan alku näayttäaäa seuraavlta Helsinki Stock Exchange September 7, 2001 (Prices are in Euros) Share Bid Ask Close Change(%) Volume (EUR) Alandsbanken A 16 16.45 16.4 0.00 0 Ålandsbanken B 15.92 16 16 0.00 0 CapMan Oyj B 1.85 1.9 1.9-0.52 13,480.00 Conventum Oyj 1.51 1.72 1.5 0.00 0 Mandatum Pankki B 10.33 0 10.33 0.00 5,268.30 Nordea AB FDR 6.28 6.31 6.28-2.64 2,673,184.47 OKO A 12.55 12.65 12.55-1.88 126,008.80 Sampo A 9.2 9.29 9.2-2.65 19,203,226.87 Sampo A/B-opt 98 11.9 12.94 12-4.00 2,712.50 Pohjola A 19.1 20 19.5-4.88 20,377.50 Pohjola B 19.5 20 20-4.72 1,561,127.71 Citycon Oyj 0.94 0.96 0.94-1.05 19,050.00 11

2.3 Havaintomatriisi TilastoyksikÄoiden ominaisuuksita (muuttujista) tehdyt mittaustulokset kootaan havaintomatriisiksi. Oletetaan, ettäa tutkimuksen kohteena on n tilastoyksikkäoäa a 1,a 2,...,a n, joista mitataan p muuttujaa, x 1,x 2,...,x p. TilastoyksikÄon a i mittaustulosta muuttujalla x j merkitäaäan yleisesti symbolilla x ij. Havaintomatriisi on täalläoin yleisesti muotoa a 1 a 2. a i. a n x 1 x 2... x j... x p x 11 x 12... x 1j... x 1p x 21 x 22... x 2j....... x 2p. x i1 x i2... x ij....... x ip. x n1 x n2... x nj... x np n p matriisi. Havaintoarvon x ij ensimmäainen indeksi i on rivi-indeksi ja toinen, j, sarakeindeksi. 12

Esim. Tarkastellaan aiempaa kaupankäayntipäaiväan tapahtumia. Yritysten osakkeet ovat tilastoyksikkäojäa jakaupankäayntiin liittyväat muuttujat, kuten kuten hinta, osto- ja myyntitrarjous, volyymi, jne ovat muuttujia. Esim. Oheisessa (Excel) taulukossa on kulutustilastoja Euroopan maista vuodelta 2000. Tilastollisessa tutkimuksessa mittaaminen ymmäarretäaäan laajasti. Esimerkiksi siviilsäaäadyn tai koulutustason merkitsemistäa muistiin ihmisiäa koskevassa tutkimuksessa sanotaan myäos mittaamiseksi. 13

2.4 Mitta-asteikoista Sen mukaan millaisia (matemaattisia) ominaisuuksia muuttujan mittaustuloksilla on mäaäaräaytyy sen mitta-asteikko. Stevensin mukaan käaytäannäoksi on tullut mäaäaritelläa neljäa asteikkotyyppiäa: nominaali-, ordinaali-, intervalli- ja suhdeasteikko. NÄamÄa ovat hierarkisia (nominaali suhde) siten, ettäa ylemmäan mitta-asteikolla on kaikki alemman asteikon ominaisuudet. Mitta-asteikko ratkaisee sen, millaisia tilastolisia menetelmiäa aineiston analysoinnissa voidaan käayttäaäa! Nominaali- eli luokitteluasteikko Jos tilastoyksikäot voidaan jakaa ominaisuuden (muuttujan) x suhteen vain luokkiin, on muuttujan x mitta-asteikkon nominaaliasteukko. Stevens, S.S. (1946). On theory of scales of measurement. Science, 103, 677{680. 14

TÄallÄoin 1. Jokaisesta tilastoyksikäostäa a i ja a k voidaan päaäattäaäa, ovatko ne x:n suhteen samanlaisia (kuuluvat samaan luokkaan). 2. Jokainen tilastoyksikkäo kuuluu x:n suhteen yhteen ja vain yhteen luokkaan. Nominaaliasteikon mittari ilmaisee siis vain, ovatko tilastoyksikäot samanlaisia vai erilaisia ominaisuuden x suhteen. Muita merkityksiäa lukujen tai muiden symbolien arvoilla ei ole. Esim. Auton merkki, yrityksen kotipaikkakunta ja henkiläon synnyinkunta ovat esimerkkejäa luokitteluasteikon muuttujista. 15

Ordinaali- eli jäarjestysasteikko Luokitteluominaisuuden lisäaksi ordinaaliasteikollisen muuttujan suhteen tilastoyksikäoiden väalilläa vallitsee myäos jokin jäarjestysrelaatio. Esim. asennemittauksessa muuttujan, jonka tuloksina ovat "parempi", "vaikeampi", "kovempi", jne, ovat jäarjestysasteikollisia mittauksia. Kuitenkaan jäarjestysasteikolliseen mittalukuun liitetty arvo ei ilmaise kvantitatiivista mäaäaräaäa, vaan ainoastaan sen suhteen voidaan tilastoyksikäot asettaa jäarjestykseen. TÄallÄoin, esimerkiksi, jos tulokset ilmaistaan luvuilla "1 = paras", "2 = toiseksi paras", jne, ei esimerkiksi lukujen erotus kerro paremmuuden mäaäaräaäa. NiinpÄa aritmeettiset laskutoimitukset eiväat johda (yleensäa) mielekkäaisiin tuloksiin ordinaaliasteikon mittaksilla. 16

Mielipidekysymykset, joihin vastaukset ovat muotoa "1 = täaysin samaa mieltäa", "2 = jokseenkin samaa mieltäa", "3 = en osaa sanoa", "4 = jokseenkin eri mieltäa", "5 = täaysin eri mieltäa" ovat tyypillisiäa ordinaaliasteikon mittauksia. TÄallÄoin esimerkiksi 5:n ja 4:n erotus ei kuvaa mielipiteen mäaäaräallistäa eroa siten, ettäa se voitaisiin tulkita olevan yhtäa paljon kuin henkiläoiden väalilläa, jotka ovat valinneet vaihtoehdot 2 ja 3. TÄaten erotusten verailu ei ole ole mielekäastäa. Intervalli- eli väalimatka-asteikko Edellisten ominaisuuksien lisäaksi intervalliasteikollisen mittauksen erotukset ovat vertailukelpoisia keskenäaäan. Toisin sanoen kahden tilastoyksikäon a i ja a j väallistäa eroamuuttujan x suhteen kuvaa niiden mittalukujen x i ja x j väalinen erotus. 17

Esim. LÄampÄotilan mittaus Celsius- tai Fahrenheitasteikolla on tyypillinen esimerkki väalimatkaasteikollisesta mittauksesta. Erotukset kuvaavat läampäotilojen eroja asteina. Asteikkojen väalilläa päatee muuntosuhde F =32+ 9 5 C, jossa C on läampäotila C-asteina ja F läampäotila F-asteina. Aritemeettiset operaatiot ja lineaariset muunnokset, muotoa y = a + bx, jossa b>0 ovat sallittuja intervalliasteikollisille muuttujille. Intervalliasteikollisilla mittauksilla ei kuitenkaan ole absoluuttista nollakohtaa, jossa kyseinen ominaisuus häaviäaäa, esimerkkinäa läampäomittarin nollakohta tai kalenteriajan nollavuosi. 18

Huom. Verailut, kuten "kaksikertaa suurempi", eiväat ole mielekkäaitäa intervalliasteikollisella mittarilla. Intervalliasteikolla voidaan soveltaa läahes kaikkia tilastollisia menetelmiäa. Suhde-asteikko Jos intervalliasteikon vaatimusten lisäaksi muuttujalla x on lisäaksi olemassa nollapiste, jossa tarkasteltava ominaisuus häaviäaäa, päaäastäaäan suhdeasteikolliseen mittariin. Fysikaaliset ominaisuudet, kuten paino, pituus, ikäa, palkka, jne, ovat suhdeasteikollisia muuttujia. Sallittu muunnos on muotoa y = bx, jossa b>0. Origon siirto ei siis käay päainsäa, jos mittausten fysikaalinen informaatiosisäaltäo halutaan säailyttäaäa. 19

Reliabiliteetti ja validiteetti Mittaamisessa esiintyy käaytäannäossäa läahes aina mittausvirheitäa. Sanotaan, ettäa mittarin reliabiliteetti (pysyvyys, luotettavuus) on huono, jos mittauksiin liittyy paljon satunnaivirhettäa (toistomittauksissa tulokset vaihtelevat paljon). Mittarin validiteetti liittyy siihen, mittaako mittari sitäa mitäa on tarkoitus mitata. Jos se ei, mittari ei ole validi. Esim. Yrityksen kannattavuutta mittaavat tilinpäaäatäostunnusluvut, kuten ROI, käayttäokateprosentti, tulosprosentti, jne. Valideja? Reliaabeleja? 20

2.5 Havaintoaineiston kuvailu Havaintoaineiston hankinnan jäalkeen ensimmäaisessäa vaiheessa pyritäaäan saamaan yleiskuva aineistosta muodostamalla jakaumakuvioita ja tuottamalla erilaisia tunnuslukuja (sample statistics), joilla voidaan tiivistetysti kuvailla aineiston oleellisia piirteitäa. (A) Empiiriset jakaumat Yksiulotteiset empiiriset jakaumat Ohessa on havaintoaineisto virvoitusjuomapurkkien täayttäoprosessista tehdyistäa mittauksista (data). 21

Tarkastellaan purkin täayttäoastetta (taytto). SilmÄamÄaÄarÄainen tarkastelu jo osoittaa, ettäa täayttäoaste vaihtelee jonkin verran. Parempi kuva täastäa saadaan tarkastelemalla sen jakaumia. Frekvenssijakauma Frekvenssijakuma saadaan luokittelemalla vaihteluväali sopivasti ja laskemalla havaintojen lukumäaäaräat kussakin luokassa. KÄasitteitÄa: Muuttujan x j arvot x 1j,...,x nj muodostavat x j :n jakaumavektorin. TilastoyksikkÄoÄon a i liittyväat havainnot x i1,...,x ip muodostavat havaintovektorin. Esimerkiksi edelläa muuttujanx 2 = "taytto" jakaumavektori on 33.38, 33.16,...,33.07, 32.41 ja toiseen havaintoon a 2 liittyväa havaintovektori on 1.98, 33.16, 39.34. 22

Havaintoarvojen luokittelusäaäantäojäa (tasaväalinen) 1. MÄaÄarÄaÄa luokkien lukumäaäaräa, c. ErÄas säaäantäo onc 3 n. Apuna voidaan käayttäaäa myäos oheista taulukkoa: n Luokkien lkm, c < 16 Ei riittäaväasti havaintoja 16 31 5 32 63 6 64 127 7 128 255 8 256 511 9 512 1023 10 Sturges, H.S. (1926). The choise of a class interval. Journal of the American Statistical Association, 21, 65{66. 2. Etsi suurin (x max )japienin(x min ) havaintoarvo ja mäaäaräaäa niiden erotus, josta saadaan havainojen vaihteluväalin pituus (range), R = x max x min. 3. MÄaÄarÄaÄa luokkaväalin pituus = R c joka pyäoristetäaäan yläospäain havaintojen mittaustarkkuuteen (mittaustarkkuus d = kahden peräakkäaisen mahdollisen havaintoarvon erotus) (jos sattuu olemaan alkujaan jo samalla tarkkuudella kuin mittaustarkkuus, niin valitaan luokkaväalin pituudeksi + d). 4. MÄaÄarÄatÄaÄan luokkarajat siten, ettäa ensimmäaisen luokan todellinen alaraja alittaa pienimmäan havainnon yhtäa paljon kuin viimeisen luokan todellinen yläaraja ylittäaäa suurimman havainnon. TÄahÄan päaäastäaäan, kun valitaan L 1 = x min (c R)/2 (HT. Osoita todeksi). Jos L 1 on samalla tarkkuudella kuin havainnot, niin kasvatetaan alarajaa d/2:lla. Huom. PyÄoristetty luokkaraja ilmoitetaan mittaustarkkuudella. TÄaten esim. L 1 = L 1 +d/2 ja U 1 = U1 d/2, jossa L 1 ensimmäaisen luokan pyäoristetty alaraja ja U 1 pyäoristetty yläaraja. Luonnollisesti päatee Uk 1 = L k. 5. Luokkarajat (todelliset) saadaan lisäaäamäalläa edellisen luokan todelliseen alarajaan. 23

Esim. Virvoitusjuoma purkkien täayttäoasteen frekvenssijakauma: n = 30, joten taulukon mukaan sopiva luokkien lukumäaäaräa on c = 5. Pienin ja suurin havainto ovat x min =32.4 ja x max =34.1, joten 34.1 32.4 = 0.339 0.4 yläospäain pyäoristettynäa. 5 Mittaustarkkuuden ollessa d = 0.1, saadaan ensimmäaisen luokan todelliseksi alarajaksi L 1 = x min d/2 =32.35. Frekvenssijakaumaksi tulee lopulta Luokka f k F k p k P k 32.4{32.7 3 3 10.0 10.0 32.8{33.1 7 10 23.3 33.3 33.2{33.5 10 20 33.3 66.7 33.6{33.9 6 26 20.0 86.7 34.0{34.3 4 30 13.3 100.0 YhteensÄa 30 100.0 Huom. Luokkarajat on pyäoristetty mittaustarkkuuteen (alaraja yläospäain ja yläaraja alaspäain). Todelliset luokkarjat ovat näaiden väalissäa. 24

Kumulatiivinen frekvenssijakauma saadaan summaamalla luokan k ja sen edeltäaväat frekvenssit F k = f 1 + + f k = k j=1 f j, jossa f j on luokan j frekvenssi (havaintojen lukumäaäaräa), k =1,...,c (summausoperaattori ). Summafrekvenssi kertoo kuinka monta havaintoa saa pienemmäan tai korkeintaan yhtäasuuren arvon kuin luokan k (todellinen) yläaraja. Esim. Ks. virvoitusjuomaesimerkki. 25

Prosenttijakauma Prosenttijakauma saadaan muuttamalla frekvenssit prosenteiksi p k =100 f k n, jossa f k on luokan k frekvenssi (havaintojen lukumäaäaräa). Kumulatiivinen prosenttijakauma saadaan puolestaan P k = k p j j=1 joka ilmaisee prosentteina havaintojen kertymäan luokkan k yläarajaan asti. Esim. Jatkoa 26

Histogramma Jakaumat voidaan esittäaäa myäos usealla eri tavalla kuvioina. Yksi käaytetyimmistäa on histogramma, joka saadaan piiretäamäalläa suorakaiteet, joiden kantana on x-akselilla todelliset luokkarajat ja korkeutena vastaavat absoluuttiset (frekvenssihistogramma) tai prosentuaaliset (prosenttihistogramma) frekvenssit. TÄayttÄoasteen frekvenssihistogramma Virvoitusjuomapullojen täyttöasteen jakauma (n = 30) 12 10 10 Havaintojen lkm 8 6 4 3 7 6 4 2 0 32.3--32.6 32.7--33.0 33.1--33.4 33.5--33.8 33.9--34.2 Täyttöaste (cl) 27

Frekvenssimonikulmio saadaan yhdistäamäalläa luokkakeskuksien ja frekvenssien koordinaatit (lisäatäaäan lisäaksi jakauman molempiin päaihin nollaluokat). Luokkakeskukset saadaan luokkarajojen keskiarvona e k =(L k + U k )/2 Virvoitusjuomapullojen täyttöasteen jakauma (n = 30) 12 10 Havaintojen lkm 8 6 4 2 0 31.9--32.2 32.3--32.6 32.7--33.0 33.1--33.4 33.5--33.8 33.9--34.2 34.3--34.7 Täyttöaste (cl) 28

SummakÄayrÄa (prosenttisummat) saadaan yhdistäamäalläa luokkien todelliset yläarajat ja vastaavat (prosenttiset) summafrekvenssit. Virvoitusjuomapullojen täyttöasteen summakäyrä (%) 100 80 Prosenttia 60 40 20 0 32.25 32.65 33.05 33.45 33.85 34.25 Täyttöaste (cl) SummakÄayrÄastÄa voidaan arvioida esimerkiksi: "kuinka monessa prosentissa pulloista on yli 33.6 cl juomaa", "kuinka monessa on alle 33.0 cl" tai "minkäa mäaäaräan alle jäaäa puolet pulloista", jne. 29

Stem-and-leaf diagrammi ("Runko-ja-juuri" diagrammi) Stem-and-leaf kuviossa havaintoaineisto jäarjestetäaäan riveittäain siten, ettäa siitäa muodostuu myäos jakaumakuvio. Kunkin rivin ensimmäaine luku muodostaa rungon ja seuraavat ovat lehtiäa. Kuvio muodostetaan seuraavasti: 1. Valitse sopivat runkoluvut (stem numbers). Tavallisesti yksi tai kaksi ensimmäaistäa lukujen numeroa. 2. NimetÄaÄan rivit runkolukujen mukaan 3. Reprodusoidaan havaintoaineisto liittäamäalläa kunkin havaintoluvun runkoa seuraava numero lehtiosana vastaavaalle runkoriville. NÄain muodostuu jakaumaa muistuttava kuvio. Esim. Virvoitusjoumapullojen täayttäoaineiston Stem-and-leaf diagrammi. Valitaan rungoksi lukujen kokonaisosa: Saadaan 32 78864 33 422618314025070611551 34 0100 Huom. TÄallÄa kertaadiagrammissaonjäaljelläa kaikki havaintoaineiston informaatio. NÄain ei aina väalttäamäattäa tapahdu. 30

(B) Empiirisen jakauman tunnuslukuja B.1. Keskilukuja Moodi (Mo), eli tyyppiarvo tarkoittaa lukua, joka esiintyy useimmin. Luokitellussa aineistossa moodiluokka on luokka, jolla on suurin frekvenssi. Esim. Juoma-ainestossa luku 33.1 esiintyy useimmin (viisi kertaa), joten Mo = 33.1. Moodin ominaisuuksia: { soveltuu kaikille mitta-asteikoille {eioleväalttäamäattäa yksikäasitteinen {helpomäaäarittäaäa Mediaani (Md), on luku, jota pienempiäa ja suurempia havaintoarvoja on yhtäa paljon. Mediaani saadaan jäarjestäamäalläa havinnot suuruusjäarjestykseen ja valitsemalla keskimmäainen, jos n on pariton ja kahden keskimmäaisen havaintoarvon keskiarvo, jos n on parillinen. 31

Esim. Lukujen 390, 395, 400, 401, 406, 408, 410, 415, 450 mediaani on (9 + 1)/2 =5. havainto, eli Md = 406. Esim. Virvoitusjuoma-aineistossa n = 30, siis parillinen. Kaksi keskimmäaistäa havaintoa ovat taytto-muuttujalla molemmat 32.2, joten Md = 32.2 Ominaisuuksia: { jakaa aineiston kahteen yhtäasuureen osaan {soveltuuväahintäaäan jäarjestysasteikollisille muuttujille {eioleherkkäa poikkeaville ÄaÄarihavainnoille {helppoarvioidaprosenttikäayräastäa. Keskiarvo (Aritmeettinen keskiarvo) soveltuu väahintäaäan intervalliasteikollisille muuttujille. Havaintojen x 1,...,x n keskiarvo ¹x on ¹x = 1 n n x i. YleistyksenÄa saadaan painotettu keskiarvo ¹x w = n w i x i, jossa w i > 0 ja n w i =1. 32

Ominaisuuksia: 1. Jos y i = a + bx i, niin ¹y = a + b¹x. 2. n (x i ¹x) =0. 3. Okoon m ryhmäaäa, ja ryhmäastäa k on n k havaintoa muuttujasta x. OlkoonryhmÄan k keskiarvo ¹x k, silloin yhdistetyn aineiston keskiarvo on ¹x = n 1¹x 1 + + n m ¹x m n 1 + + n m jossa n = n 1 +...+ n m. = 1 n m k=1 n k ¹x k, 4. Jos x i = y i + z i + + v i,niin¹x =¹y +¹z + +¹v. HT. Osoita todeksi ylläa olevat väaittäamäat. 33

Esim. Juoma-aineistossa täaytäon keskiarvo on ¹x =(33.4+33.2+ +32.4)/30 = 33.3. Geometrinen keskiarvo Geometrinen keskiarvo sopii erityisesti aikasarjaaineiston hintasarjojen keskimäaäaräaisen muutoksen kuvaamiseen. Oletetaan, ettäa x i > 0 kaikilla i =1,...,n. Havaintojen x i geometrinen keskiarvo ¹x g mäaäaritelläaäan lukuna ¹x g =(x 1 x 2 x n ) 1 n Huom. MerkitÄaÄan y i =lnx i, jolloin ¹y = 1 n n ln x i on logaritmoitujen havaintojen aritmeettinen keskiarvo, josta geometrinen keskiarvo saadaa eksponenttifunktiomuunnoksella, ¹x g = e ln ¹y. TÄassÄa ln on luonnollinen (e-kantainen) logaritmi. Huom. PÄatee ¹x ¹x g. 34

Esim. Osakkeen kurssin vuoden päaäatäoshinta kuudelta viimeiseltäa vuodelta oli 120, 120, 80, 60, 90, 130. MikÄa on keskimäaäaräainen vuosimuutos? MÄaÄaritelmÄan mukaan vuosimuutos on R t =100 P t P t 1 P t 1, t =2, 3,..., jossa P t on osakkeen hinta hetkelläa t. YllÄa olevista havainnoista R 1 = 100(120 120)/120 = 0.0,R 2 = 100(80 120)/120 33.3%,...R 6 = 100(130 90)/90 44.4%. TÄaten aritmeettinen keskiarvo ¹R = 7.22%. Geometrinen keskiarvo hintamuutoksille saadaan ln(1+0.01 ¹R g )= (ln(p 2 /P 1 )+...+ln(p 6 /P 5 ))/5 =0.016009 Joten ¹R g =100(exp(ln(1 + 0.01R g )) 1) =1.61% Vrt. aritmeettiseen keskiarvoon! MistÄa ero johtuu? Kumpi antaa oikean kuvan keskimäaäaräaisestäa hintamuutoksesta? (Vastaus: Geometrinen keskiarvo. Miksi?) Painotettu geometrinen keskiarvo ¹x gw = x w 1 1 xw n n = n jossa w i > 0, n w i =1. x w i i, 35

Harmoninen keskiarvo Oletetaa, ettäa x voi saada vain positiivisia arvoja. Havaintojen x 1,...,x n harmoninen keskiarvo mäaäaritelläaäan kaavalla ¹x h = n n 1 xi, jonka yleistyksenäa painotettu harmoninen keskiarvo ¹x hw = 1 n w i, x i jossa w i > 0 ja n w i =1. Esim. Oletetaan, ettäa junakulkeeensimmäaiset 50 km nopeudella 120 km/h, seuraavat 150 km nopeudella 80 km/h ja seuraavat 150 km nopeudella 100 km/h. MikÄa onkeskinopeus? Aritmeettinen keskiarvo: ¹x = 1 (120 + 80 + 100) = 100. 3 Painotettu keskiarvo: ¹x w =(50 120 + 150 80 + 150 100)/350 94.3. Geometrinen keskiarvo: ¹x g =(120 80 100) 1 3 98.6. Painotettu geometrinen keskiarvo: ¹x gw =120 50/350 80 150/350 100 150/350 93.3. Harmoninen keskiarvo: ¹x h = 3 1/120 + 1/80 + 1/100 97.3. Painotettu harmoninen keskiarvo antaa oikean vastauksen (miksi?): ¹x hw = 350 50/120 + 150/80 + 150/100 92.3. 36

B.2. Hajontalukuja Hajontaluvuilla kuvataan havaintoaineistossa olevaa vaihtelua. Entropia Olkoon x luokitteluasetikon muuttuja, jolla on M luokaa. Olkoon luokan i suhteellinen frekvenssi p i. Muutujan x entropia mäaäaritelläaäan lukuna H = M jossa A =1/ ln(2). p i log 2 (p i )=0. PÄatee M p i log 2 (p i )= A M p i ln(p i ), Jos p i =0mÄaÄaritellÄaÄan M 1 p i log 2 (p i ) M log 2(1/M )=log 2 M. Skaalaamalla log 2 M:llÄa saadaan hajontaluku (suhteellinen entropia) H 1 = H log 2 M, jolle päatee 0 H 1 1. 37

Esim. Teollisuuden alan kannattavuus jakaantui seuraavasti TÄallÄoin Kannattavuus Prosenttia Huono 12 Keskinkertainen 52 HyvÄa 27 Erinomainen 9 YhteensÄa 100 H 1 = 1 1.6471 [0.12 ln(0.12) + +0.09 ln(0.09)] ln(4) ln(4) 0.84. Hajonta on kohtalaisen suuri (max = 1). 38

VaihteluvÄali ja vaihteluväalin pituus Olkoon x väahintäaäan jäarjestysasteikollinen. Havaintojen x 1,...,x n vaihteluväali on (x min,x max ), jossa x min =min(x 1,...,x n ) ja x max = max(x 1,...,x n ). VaihteluvÄalin pituus on R = x max x min. KvartiilivÄali ja -poikkeama Havaintojen x 1,...,x n (väahintäaäan jäarjestysasteikolisia) alakvartiili Q 1 on havaintoarvo, jota pienempiäa havaintojaon25prosenttiaja yläakvartiili Q 3 havaintoarvo, jota suurempia havaintoja on 25 prosenttia (pienempiäa 75 prosenttia). TÄaten alakvartiili, mediaani ja yläakvartiili jakavat havaintoaineiston neljäanneksiin (kvartaaleihin). KvartiilivÄali on (Q 1,Q 3 ) ja kvartiilipoikkeama mäaäaritelläaäan lukuna Q = 1 2 (Q 3 Q 1 ). 39

Yleisesti mäaäaritelläaäan p-prosentin fraktiili x p (havainto)arvoksi, jota pienempiäa on p prosenttia havainnoista. Esim. Juomapurkkiaineistosta saadaan (Excel-taulukko) Aika Taytto min 1.94 32.4 max 2.05 34.1 R 0.11 1.7 Q 1 1.98 33.0 Q 3 2.02 33.6 Q 0.02 0.3 40

Varianssi ja keskihajonta Oletetaan, ettäa x on väahintäaäan intervalliasteikollinen. Havaintojen x 1,...,x n (n>1) varianssi on s 2 = 1 n (x i ¹x) 2. n 1 Keskihajonta mäaäaritelläaäan varianssin positiivisena neliäojuurena s =+ s 2,toisinsanoen s = 1 n 1 n (x i ¹x) 2. Se, ettäa jakajana on n 1 perustellaan myäohemmin. PÄatee: n joten (x i ¹x) 2 = n s 2 = 1 n 1 x 2 i n¹x2 = n x 2 i 1 n n x i 1 n 2 n x i. 2 n x i, 41

Esim. Virvoitusjuomapullojen täayttäoasteen keskiarvo ja keskihajonta (Excel-taulukko) n =30, x i =997.8 ja x 2 i = 33194.9, joten ¹x = 1 n n x i = 997.8 30 33.3 n s 2 = 1 n 1 x2 i 1 n n x 2 i ja = 1 29 33194.9 (997.8) 2 0.208 30 s = 0.208 0.456. Keskihajonta on käaytetyin hajontaluku. Huom. PÄatee n (x i ¹x) 2 n (x i a) 2 kaikilla a IR. TÄaten keskiarvo on neliäosumman (varianssin) mielessäa läahimpäanäa kaikkia havaintoja. 42

Ominaisuuksia: (a) s 2 0, jossa yhtäasuuruus päatee ainoastaan, kun x 1 = = x n. (b) Keskihajonta on samassa mittayksikäossäa kuinhavain- not. (c) Jos y i = a + bx i,niins 2 y = b 2 s 2 x ja s y = b s x, jossa s x on x-havaintojen keskihajonta. Huom. Jos käaytettäavissäa on kaikki perusjoukon N havaintoa, lasketaan varianssi kaavalla jossa σ 2 = 1 N N µ = 1 N on populaatiokeksiarvo. (x i µ) 2, N x i Luokitellusta aineistosta varianssi saadaan laskettua kaavalla: s 2 = 1 m f i (x i ¹x) 2, n 1 jossa f i on luokan i frekvenssi ja x i on luokan i luokkakeskus. 43

Keskihajonnan tulkinnasta: PÄatee: Muuttujan x arvoista korkeintaan 100/c 2 prosenttia poikkeaa keskiarvosta enemmäan kuin c s verran, missäa c on jokin annettu luku (Tsebyshevin lause). Toisin sanoen havainnoista väahintäaäan 100(1 1/c 2 )%onväalilläa ¹x ± cs. TÄamÄa tulos pitäaäa paikkansa aina. Empiirisesti kuitenkin saadaan huomattavasti kapeammat väalit. YleensÄa päatee: Havainnoista {n. 68% on väalilläa ¹x ± s {n. 95% on väalilläa ¹x ± 2s {n. 99.7% on väalilläa ¹x ± 3s Esim. Oletetaan, ettäa väaestäon keskipituus on 178cm ja keskihajonta 10cm. Silloin Tsebysevin rajojen mukaan päatee, ettäa jos valitaan c = 2, niinväahintäaäan 75% väaestäostäa on sellaisia, joiden pituus on on väalilläa 178 ± 2 10 = 178 ± 20cm. Empiirisen tuloksen mukaan täalle väalille kuitenkin melko varmsti sijoittuu 95% väaestäostäa. 44

Standardoidut havaintoarvot: Olkoon havaintojen x 1,...,x n keskiarvo ¹x ja keskihajonta s. TekemÄallÄa muunnokset z i = x i ¹x s saadaan havainnot, joille päatee: ¹z =0ja s z = 1. TÄatÄa muunnoista sanotaan standardoinniksi. Esim. Opiskelija sai matematiikan kokeist arvosanan 8.5 ja Äaidinkielen kokeesta arvosanan 9. Matematiikassa luokan keskiarvo oli 7.7 ja keskihajonta 1.5. ÄaidinkielessÄa keskiarvo oli 8.1 ja keskihajonta 1.8. Kummassa kokeessa oppilas menestyi suhteellisesti paremmin? Standardoimalla: z 1 = 8.5 7.7 1.5 =0.53 z 2 = 9 8.1 =0.5. 1.8 Menestys on ollut suhteellisesti aavistuksen parempi matematiikan kokeessa. 45

Variaatiokerroin Varianssi ja keskihajonta riippuvat mittayksikäostäa. Vaihtelun suhteellista suuruutta voidaan mitata tapauksissa, joissa (suhdeasteikon) muuttuja x voi saada vain positiivisia arvoja variaatiokertoimella (coe±cient of variation) V = s ¹x. TÄallÄa mitalla voidaan tutkia esimerkiksi vaihteleeko elefanttien paino suhteellisesti enemmäan kuin ihmisten paino. 46

B.3. Muita jakaumaa luennehtivia tunnuslukuja Keskiluvut kuvaavaat jakauman sijaintia, hajontaluvut vaihtelun suuruutta. NÄaiden lisäaksi voidaan kuvata myäos jakauman vinoutta ja huipukkuutta omilla tunnusluvuilla. Vinous (Skewness) Havaintoaineiston jakauman vinoutta voidaan mitata tunnusluvulla 1 n s 3 = n (x i ¹x) 3 s 3. Huipukkuus (Kurtosis) Jakauman huipukkuutta mitataan tunnusluvulla 1 n s 4 = n (x i ¹x) 4 s 4. 47