TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Samankaltaiset tiedostot
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

Til.yks. x y z

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Til.yks. x y z

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

pisteet Frekvenssi frekvenssi Yhteensä

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisten aineistojen kuvaaminen

Kvantitatiiviset tutkimusmenetelmät maantieteessä

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Kvantitatiiviset menetelmät

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollinen aineisto Luottamusväli

Estimointi. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

Harjoittele tulkintoja

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Harjoitus 2: Matlab - Statistical Toolbox

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

7. laskuharjoituskierros, vko 10, ratkaisut

MTTTP1, luento KERTAUSTA

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi. Otantajakauma

5 Lisa materiaali. 5.1 Ristiintaulukointi

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 7: NCSS - Tilastollinen analyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Teema 5: Ristiintaulukointi

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Matemaatikot ja tilastotieteilijät

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

2. Aineiston kuvailua

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

805306A Johdatus monimuuttujamenetelmiin, 5 op

RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Ohjeita kvantitatiiviseen tutkimukseen

Osa 2: Otokset, otosjakaumat ja estimointi

Kyllä. Kyllä. Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testit laatueroasteikollisille muuttujille

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

dx=5&uilang=fi&lang=fi&lvv=2014

MONISTE 2 Kirjoittanut Elina Katainen

Luottamusvälit. Normaalijakauma johnkin kohtaan

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Transkriptio:

TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas

f 332 = 3

Kvartiilit(302, 365, 413) Kvartiilit: missä sijaitsee keskimmäinen 50 % aineistosta?

Kvartiilit(302, 365, 413) Keskiarvo (362.2) Keskiarvo ja mediaani: ovatko lähellä toisiaan?

HAJONTALUVUT Kuvaavat havaintojen jakautumista (yleensä) keskilukujen ympärille: miten laajalle alueelle havainnot ovat hajaantuneet Tärkeä merkitys kun arvioidaan tutkimuksen luotettavuutta (heterogeenisuus) Yleensä pätee: mitä yhtenäisempi aineisto on (= pieni hajonta), sitä luotettavampia tulokset ovat Käytetyimmät tunnusluvut on määritelty vain järjestysasteikollisista muuttujista eteenpäin

VAIHTELUVÄLIIN PERUSTUVAT TUNNUSLUVUT Vaihteluväli Kuvaa välin, jonka rajaavat muuttujan pienin arvo (min) ja suurin arvo (max) Merkitään [min, max] Luokitellun aineiston kanssa käytetään todellisia luokkarajoja näille arvoille Mitta-asteikko: vähintään järjestyslukuasteikko Esim. Miesten pituuden vaihteluväli on [168, 177] Vaihteluvälin pituus, range (R) Havaintoaineiston suurimman ja pienimmän arvon erotus Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden vaihteluvälin pituus on R= 171 168 = 9. Näihin tunnuslukuihin vaikuttavat poikkeavat havainnot 168 170 171 173 174 174 174 177

KVARTIILEIHIN PERUSTUVAT HAJONTALUVUT Kvartiiliväli, interquartile[q 1, Q 3 ] Kuvaa välin, jonka rajaavat ala- ja yläkvartiili Mitta-asteikko: vähintään järjestysasteikko Esim. miesten pituuden kvartiiliväli on [170, 174] Kvartiilivälin pituus, interquartilerange[q r ] Ylä-ja alakvartiilinvälinen erotus Q r = Q 3 Q 1 Kertoo kuinka pitkällä välillä keskimmäinen 50 % aineistosta sijaitsee Vaihteluvälin pituutta vakaampi hajonnan mitta Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden kvartiilivälinpituus on Q r = 174-170 = 4 Kvartiilipoikkeama, semi-interquartile range(q) Kvartiilivälin pituus jaettuna kahdella (Q = Q r / 2) Ilmoittaa välin, jolla keskimmäinen 25 % aineistosta sijaitsee Kvartiilivälin pituutta vakaampi hajonnan mitta (vinot jakaumat) Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden kvartiilipoikkeamaon Q= 4 / 2 = 2 168 170 171 173 174 174 174 177

KESKIHAJONTA, STANDARD DEVIATION Tunnusluvun symbolit s(otos), σ(perusjoukko) Useimmin käytetty hajonnan mitta Kertoo havaintojen keskimääräisestä jakautumisesta keskiarvon ympärille Lasketaan kaavalla: x i on tapauksen ihavaintoarvo (i= 1,, n) x on keskiarvo non otoksen koko Kokonaistutkimuksessa korvataan n 1 perusjoukon koolla N Poikkeavat havainnot vaikuttavat haitallisesti Mitta-asteikko: vähintään välimatka-asteikko

MIESTEN PITUUDEN KESKIHAJONTA Koehenkilö Pituus Keskiarvo: 1 174 2 174 3 171 4 177 5 168 6 170 7 174 8 173 Σ 1381

MIESTEN PITUUDEN KESKIHAJONTA Koehenkilö Pituus Erotus keskiarvosta (x i x) Keskiarvo: 1 174 172.625 = 1.38 2 174 1.38 3 171-1.63 4 177 4.38 5 168 4.63 6 170-2.63 7 174 1.38 8 173 0.38 Σ 1381 0.00

MIESTEN PITUUDEN KESKIHAJONTA Koehenkilö Pituus Erotus keskiarvosta (x i x) Erotuksen neliö (x i x) 2 Keskiarvo: 1 174 172.625 = 1.38 2 = 1.89 2 174 1.38 1.89 3 171-1.63 2.64 4 177 4.38 19.14 5 168 4.63 21.39 6 170-2.63 6.89 7 174 1.38 1.89 8 173 0.38 0.14 Σ 1381 0.00 55.88 Keskihajonta:

KESKIHAJONNAN TULKINTA Yhden keskihajonnan etäisyydellä keskiarvosta eli välillä [x s, x+s] sijaitsee 68.2 % jakauman havainnoista Kahden keskihajonnan etäisyydellä keskiarvosta eli välillä [x 2 s, x+2 s] sijaitsee 95.4 % jakauman havainnoista Kolmen keskihajonnan etäisyydellä keskiarvosta eli välillä [x 3 s, x+3 s] sijaitsee 99.8 % jakauman havainnoista Seuraavaksi tarkastellaan esimerkkinä polven ojennusvoimamuuttujan jakaumaa.

POLVENOJENNUSVOIMA(NEWTON) 108 293 341 395 426 160 295 341 397 426 170 297 347 400 432 184 299 354 400 433 196 300 355 400 436 199 308 355 401 447 201 311 359 401 449 211 314 359 404 454 214 318 360 404 454 221 322 363 405 487 235 325 367 407 489 236 325 368 408 506 240 327 378 408 521 243 332 379 411 533 249 332 379 412 538 257 332 380 413 541 262 334 383 413 552 275 335 387 415 599 280 338 389 417 601 282 340 393 419 629 Järjestetty aineisto, puuttuvat tapaukset poistettu (n = 100)

POLVENOJENNUSVOIMA(NEWTON) Keskihajonta: n. 99 N Noin 68 % havainnoista pitäisi siis löytyä väliltä [362 99, 362+99] = [263, 461] Havainnoista: Pienempiä kuin 263 on 17 kpl Suurempia kuin 461 on 11 kpl Yhteensä: 28 kpl (28 %) Otoksessa välille siis sijoittuu 100 % 28 % = 72 % havainnoista Vastaavasti kahden keskihajonnan sisälle [164, 560] sisältyy 95 % tapauksista Kolmen keskihajonnan sisälle [66, 659] sijoittuvat kaikki tapaukset (100 %)

KESKIHAJONNAN TULKINTA Kun normaalijakauma on sellainen, että sen keskiarvo on nolla ja keskihajonta on 1, sanotaan jakaumaa standardoiduksi normaalijakaumaksi Kaikki normaalijakaumat (ts. myös sellaiset, joissa keskiarvo ei ole nolla ja hajonta yksi) voidaan laskennallisesti muuntaa standardoituun muotoon Tällöin standardoidun jakauman yksiköksi tulee keskihajontayksikkö

KESKIHAJONTAYKSIKKÖ Miesten pituuden keskiarvo oli 172.625 cm ja keskihajonta 2.83 cm. Esim. jos tiedetään, että tutkittavan arvo on puolen keskihajonnan päässä keskiarvosta, mikä on havaintoarvo? Jos tapaus on keskiarvon alapuolella: x= 172.625 ½ 2.83 = 171.21 cm Jos tapaus on keskiarvon yläpuolella: x= 172.625 + ½ 2.83 = 174.04 cm Painon keskiarvo on 70 ja keskihajonta 5, mikä oli sellaisen tutkittavan havaintoarvo, joka oli puolen keskihajontayksikön päässä keskiarvon yläpuolella y= 70 + ½ 5 = 72.5 Havaintoarvo voidaan muuntaa keskihajontayksiköksi kaavalla z i = (x i x)/s(standardoitu muuttuja) Tällöin esim. (171.21 172.625)/2.83 = -1/2 Mitä hyötyä tästä on (vrt. frekvenssit ja prosentit)?

KESKIHAJONTAYKSIKKÖ Tärkeitä lukuja standardoidun normaalijakauman kohdalla ovat: Havainnoista sijaitsee välillä ja välin ulkopuolella 95 % [-1.96, 1.96] 5 % 99 % [-2.58, 2.58] 1 % 99.9 % [-3.29, 3.29] 0.1 % Näitä rajakohtia käytetään myöhemmin tilastollisen päätöksenteon yhteydessä (väliestimointi)

MUITA HAJONNAN TUNNUSLUKUJA Varianssi, variance(s 2, σ 2 ) Keskihajonnan neliö Käyttöä enemmän osana erilaisia menetelmiä (mm. varianssianalyysi), vähän käyttöä tunnuslukuna Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden varianssi on s 2 = 7.98 Variaatiokerroin, coefficient of variation Suhteellisen hajonnan mitta Mittayksiköstä riippumaton Lasketaan keskihajonnan suhteena keskiarvoon: V= s/ x Ilmoitetaan tavallisesti prosentteina: V 100 Mitta-asteikko: suhdeasteikko Esim. miesten pituuden variaatiokerroin on V= 2.83/172.63 = 0.016 eli pituuden havaintoarvot vaihtelevat keskimäärin n. 2 % keskiarvon ympärillä. 168 170 171 173 174 174 174 177 s= 2.83

JAKAUMAN MUOTO Vinous, skew(g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma) Vertailuarvona: g 1 < 2, jos jakauman symmetrisyydessä ei ole selkeitä ongelmia Jos g 1 on positiivinen jakauma on vino oikealle (häntä oikealla) Jos g 1 on negatiivinen vinous on vasemmalle (häntä vasemmalla) Merkitsevyystesti: g 1 /[s.e.(g 1 )] < 2, jos vinous ei ole tilastollisesti merkitsevää. Luottamusväli: Jos väli g 1 ±2 s.e.(g 1 ) sisältää nollan, vinous ei ole tilastollisesti merkitsevää. Esim. miesten pituuden vinous g 1 = -0.62 ja sen keskivirhe on 0.564 Ei ylitä vertailuarvoa Ei tilastollisesti merkitsevä, koska merkitsevyystestin arvoksi saadaan -0.62 / 0.564 = -1.10, luottamusväli: -0.62 ±2 0.564 = [-1.748, 0.508] sisältää nollan Jakaumaa voidaan pitää symmetrisenä perusjoukossa

JAKAUMAN MUOTO Huipukkuus, kurtosis(g 2, γ 2 ) Kertoo jakauman terävyydestä tai latteudesta symmetrisyydestä (mm. suhteessa normaalijakaumaan) Vertailuarvona on nolla, joka vastaa jakaumaa (mm. normaalijakauma) Vertailuarvona: g 2 < 2, jos jakaumassa ei ole merkittäviä ongelmia huipukkuuden suhteen Positiivinen g 2 tarkoittaa, että jakaumalla on terävä huippu Negatiivinen g 2 tarkoittaa, että jakauma on lattea Merkitsevyystesti ja luottamusväli kuten vinouden tunnusluvulla Esim. miesten pituuden huipukkuusg 2 = 0.41 ja sen keskivirhe on 1.09 Ei ylitä vertailuarvoa Ei tilastollisesti merkitsevä, koska merkitsevyystestin arvoksi saadaan 0.41 / 1.09 = 0.38, luottamusväli: -0.41 ±2 1.09 = [-1.77, 2.59] sisältää nollan Perusjoukon jakaumaa ei siis pidetä huipukkaana

ESIMERKKI Masentuneisuuden oireet Götegorgilaiset 75-vuotiaat Miehet, NORA-tutkimus, 1989. 1.306/0.217 = 6.018 > 2 1.890/0.431 = 4.385 > 2 Positiivinen vinous: Jakauman häntä on oikealla.

SUHTEELLINEN OSUUS, PROPORTION Symboli: otoksessa p, perusjoukossa Havaintoryhmän frekvenssin f osuus koko aineistosta Lasketaan: p= f / n, missä fsisältää sen ryhmän frekvenssin, josta ollaan kiinnostuneita ja n on otoskoko Suhteellinen osuus vaihtelee välillä [0, 1] Prosenttiosuus saadaan kertomalla suhteellinen osuus sadalla: p 100 Mitta-asteikko: vähintään luokitteluasteikko Esim. tutkimukseen osallistui 284, ja heistä 106 oli miehiä. Miesten suhteellinen osuus oli siis p= 106 / 284 = 0.37 (eli 37 %)

ESIMERKKEJÄ Havaintoaineistossa oli käytettävissä 690 tutkittavaa ja vastausprosentin kerrottiin olleen n. 80.8 %. Kuinka paljon tutkittavia oli alun perin otostettu? p = f / n 0.808 = 690 / n n= 690 / 0.808 = 854 Kuinka moni jätti vastaamatta? 1 0.808 = 0.192 (ts. 19.2 % ei vastannut) 854 0.192 = 164 jätti vastaamatta (myös: 854 690 = 164) Havaintoaineisto koostui n= 50 tutkittavasta. Alkumittauksessa 15 tutkittavalla havaittiin liikuntavaikeuksia. Seurantamittauksessa vaikeuksia oli 12:ta. Mikä oli muutoksen suunta ja suuruus prosenttimuodossa ilmaistuna. 1: p 1 = 15 / 50 = 0.30 (30 %); p 2 = 12 /50 = 0.24 (24 %); eli muutos oli p 2 p 1 = 24 30 = -6 prosenttiyksikköä, ts. laskua oli 6 prosenttiyksikköä (Huom! Vähennetään aina seurannan prosentit alkumittauksen prosenteista) 2: (p 2 p 1 ) / p 1 = (24 30) / 30 = -6 / 30 = -0.2 (-20 %), eli laskua oli n. 20 prosenttia

LAATIKKO-JANA KUVIO(BOX PLOT) Q 3 Md Q 1 -Kuvaa ryhmittäin jatkuvan muuttujan jakauman keskeisiä piirteitä - Laatikko kuvaa kvartiilien rajaamaa aluetta (keskimmäinen 50 % havainnoista), joka jaetaan kahteen osaan mediaanin kohdalta

LAATIKKO-JANA KUVIO(BOX PLOT) Q 3 Md Q 1 - Laatikon molemmin puolin erotetaan laskennalliset minimi-ja maksimiarvot (vaakasuorat janat) -Janat ovat 1.5 kertaa (laskennallisen) kvartiilivälin pituuden verran laatikon ylä- ja alapuolella - Laskennallisuuden takia Etäisyys laatikkoon voi olla erilainen laatikon alaja yläpuolella

LAATIKKO-JANA KUVIO(BOX PLOT) Q 3 Md Q 1-1.5 3 kertaa kvartiilivälin pituuden etäisyydellä laatikosta: poikkeava havainto (outlier) - yli 3 kertaa kvartiilivälin pituuden etäisyydellä laatikosta: erittäin poikkeava havainto (extreme) *

LAATIKKO-JANA KUVIO(BOX PLOT) Q 3 Md Q 1 Kuviosta nähdään mm.: - Miesten jakauman keskikohta on naisia korkeampi -Miesten hajonta näyttää olevan hieman suurempaa kuin naisilla - Naisten jakauma on keskittynyttiiviimmin jakauman keskikohtaan - Naisilla osa havainnoista on merkitty poikkeaviksi

KUN PITÄÄ TIIVISTÄÄ MUUTTUJAN JAKAUMAN TIETOA Mitta-asteikko Jatkuva Nominaali Ordinaali Raportoi Luokkafrekvenssit Tarkista vinous ja huipukkuus Molemmat < 2 Ainakin toinen > 2 Virhe datassa tms. Muokkaa Selvitä syy Vino/huipukas jakauma Poikkeava havainto Raportoi Keskiarvo ja -hajonta Raportoi Mediaani ja kvartiilivälin pituus Jos tarkasteltavana on alaryhmiä (miehet / naiset tms.), käy vaiheet läpi kullekin ryhmälle erikseen.

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Luokittelu- ja järjestysasteikko: Ristiintaulukko Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Arvoparin frekvenssi näkyy taulukon soluista Ehdolliset frekvenssit: kiinnitetään yksi maamuuttujan luokka (esim. Suomi) ja tarkastellaan sukupuolijakaumaa

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Riviprosentit: esim. 100 119 / 355 = 33.52 %

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Luokitteluasteikko: Ristiintaulukko Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 (34 %) 236 (66 %) 355 (100 %) Ruotsi (2) 159 (43 %) 209 (57 %) 368 (100 %) Tanska (3) 222 (46 %) 259 (54 %) 481 (100 %) Yhteensä 500 704 1204 Riviprosentit: esim. 100 119 / 355 = 33.52 % Suomessa otos painottui selkeämmin naisiin (vain noin kolmannes oli miehiä)

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Sarakeprosentit: esim. 100 119 / 500 = 23.80 %

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 (24 %) 236 (34 %) 355 Ruotsi (2) 159 (32 %) 209 (30 %) 368 Tanska (3) 222 (44 %) 259 (37 %) 481 Yhteensä 500 (100 %) 704 (100 %) 1204 Sarakeprosentit: esim. 100 119 / 500 = 23.80 % Miehistä vähiten oli suomalaisia, naisista pienin osuus oli ruotsalaisilla

RISTIINTAULUKON GRAAFINEN ESITYS Huono: Vaikea erottaa pylväitten keskinäisiä korkeuksia 300 250 200 150 Miehet 100 Naiset 50 0 Suomi Ruotsi Tanska Naiset Miehet

RISTIINTAULUKON GRAAFINEN ESITYS 300 250 200 150 100 Mies Nainen 50 0 Suomi Ruotsi Tanska Maa

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 147 9 175 174 10 173 173 156

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva Regressiosuora