Tilastotieteen johdantokurssi kevät2017

Koko: px
Aloita esitys sivulta:

Download "Tilastotieteen johdantokurssi kevät2017"

Transkriptio

1 Tilastotieteen johdantokurssi kevät JOHDANTO 1.1. Mitä on tilastotiede? Ks. esim Millainen tämä kurssi on? ei-matemaattinen + käytännönläheinen + aineisto- ja ohjelmistokeskeinen + menetelmien soveltamiseen tähtäävä = nöyrästi työtä tekemällä opettelemista ja katsomalla mihin se riittää 1

2 2. MITTAAMINEN 2.1. Muuttujista T u t k i m u s o n g e l m a n mukaisesti määräytyvät y k s i k ö t, joihin kohdistetaan mittauksia, ja o m i n a i s u u d e t, joita sitten näistä yksiköistä mitataan. Mittausten kohteena olevia yksiköitä kutsutaan t i l a s t o y k s i k ö i k s i eli havaintoyksiköiksi. Tilastoyksikkönä on usein ihminen, joskus myös kunta, valtio, perhe tai esim. konkurssi, tapaturma... Se mittaustapa eli "mittari", jolla ominaisuuden mittaluku saadaan mitatuksi kullekin tilastoyksikölle, on m u u t t u j a. Mittaluku on muuttujan a r v o. Mitatut luvut tallennetaan siten, että tietyn muuttujan arvot ovat allekkain (sarakkeena) ja tietyn tilastoyksikön saamat arvot rinnakkain (rivinä). Näin muodostuva taulukko on h a v a i n t o m a t r i i s i Esim. sukupuoli ikä... asenne tilyks tilyks tilyks

3 Muuttujat voidaan jakaa kahteen ryhmään sen mukaan, mitataanko "l a a d u l l i s e s t i " vai "m ä ä r ä l l i s e s t i ". HUOM. tarkasteltava ominaisuus sinänsä on yleensä erittäin selvästi joko laadullinen tai määrällinen ja mittaus yleensä sen mukainen. Tilastollisessa tutkimuksessa voidaan laadullinen ominaisuus mitata määrällisesti ja päinvastoin. Jälkimmäinen vaihtoehto on huomattavasti helpompaa, ja sitä harrastetaankin siksi aivan liikaa! K v a l i t a t i i v i s e n muuttujan arvot ilmaisevat tilastoyksiköiden osalta ainoastaan l a a t u - tai s u u r u u s l u o k a n k.o. ominaisuuden suhteen. K v a n t i t a t i i v i s e n muuttujan arvot ilmaisevat k.o. ominaisuuden m ä ä r ä n tilastoyksiköillä (tiettynä mitta-yksikkönä: kg,, kpl, %, v, pist,...). 3

4 Muuttujien ryhmitteleminen: (sopimuksen varainen, käytössä Tilastotieteen johdantokurssilla / Saloranta) Mittaustason mukaan: kvantitatiivinen (määrää/laatua) määrällisesti mittaava tarkan (arvioidun) määrän ilmaiseva mittayksiköllinen "numeerinen" jatkuva-arvoinen (ei aina) kvalitatiivinen (määrää/laatua) laadullisesti mittaava luokan tai tason ilmaiseva mittayksikötön "kategorinen" epäjatkuva (aina) Käyttötarkoituksen mukaan: y-muuttuja selitettävä tutkittava vaste riippuva rivimuuttuja x-muuttuja selittävä tausta tekijä ryhmittelevä sarakemuuttuja 4

5 2.2. Mitta-asteikot Tilastotieteessä lukuja käytetään eritasoisissa merkityksissä ilmaisemaan mitattavaa ominaisuutta. Mittaluku voi olla: Ilmaisu: 1) luokka > laatuero 2) järj.numero > järjestys 3) määrä (ei 0-pistettä) > välimatka 4) -,, - (on 0-piste) > suhdeluku Nämä neljä mittaamisen tasoa jakavat muuttujat a s t e i k k o t y y p p e i h i n a) kvalitatiiviset: 1) Laatuero- eli nominaaliasteikko N 2) Järjestys- eli ordinaaliasteikko J b) kvantitatiiviset: 3) Välimatka-eli intervalliasteikko I 4) Suhdeluku-eli suhdeasteikko S 5

6 Mitta-asteikon huomaamista helpottava ohje: Saadaanko mittaustulos mittayksikköinä? Kvantitatiivinen Kvalitatiivinen Voiko suhteuttaa? Onko järjestys? Suhde Interv. Järj. Nomin. S I J N 6

7 Mitta-asteikkojen ilmaisuvoima : S I suhde J välimatka välimatka N järjestys järjestys järjestys laatuero laatuero laatuero laatuero Saman ominaisuuden mittaaminen kaikilla neljällä eri asteikolla: Ikä Levikki Varallisuus Nom. ppkkvv pääpaikka pääas.muoto Järj. vvkkpp kpl-luokka -luokka Int. arv.iän muutos ero keskivirhe v. ed.vuoteen määräiseen Suhde vuosina kpl:eina /vuosi 7

8 3. YKSIULOTTEINEN JAKAUMA Tarkastellaan havaintomatriisin yhtä saraketta: sivsaaty 3 4 Tarkoituksena "jalostaa" havainto- 4 matriisiin tallennettu tieto helpom- 4 min ymmärrettävään muotoon Kvalitatiiviset muuttujat Esim. sivsaadyn arvojen esiintymis- 4 tiheydestä ei saa yleiskuvaa pelkän 1 alkuperäisen sarakkeen perusteella, 1 varsinkin jos n on kovin suuri. 1 4 Tietyn arvon esiintymistiheys eli 1 niiden tilastoyksiköiden l k m, 2 joilla muuttuja saa k.o. arvon, on 4 nimeltään f r e k v e n s s i. 1 8

9 2 Kvalitatiivisen muuttujan jakauman 3 tekeminen on hyvin helppoa, koska 1 ns. l u o k a t ovat jo valmiina 1 (tietenkin voi tulla tarve yhdistellä 4 alkuperäisiä luokkia toisiinsa). 1 4 Esim. sivsaadyn arvojen frekvenssit ja kum% Yhteensä

10 Esimerkkejä jakaumataulukoista g) juontipaikka Frequency Percent Valid Percent Cumulative Percent Valid kotona 86 31,3 32,2 32,2 kylässä 65 23,6 24,3 56,6 kapakassa ,2 39,3 95,9 muualla 11 4,0 4,1 100,0 Total ,1 100,0 Missing System 8 2,9 Total ,0 juontipaikka Lkm % Kum. lkm Kum-% kotona kylässä kapakassa muualla Yht

11 Esimerkkejä jakaumataulukoista f) poliittinen kanta Frequency Percent Valid Percent Cumulative Percent Valid vas 52 18,9 18,9 18,9 kesk 17 6,2 6,2 25,1 oik 53 19,3 19,3 44,4 vihr 59 21,5 21,5 65,8 sit 31 11,3 11,3 77,1 eos 63 22,9 22,9 100,0 Total ,0 100,0 poliittinen kanta Lkm % Kum. lkm Kum-% vasemmistoon keskustaan oikeistoon vihreisiin sitoutumattomiin en osaa/halua sanoa Yht

12 Esimerkkejä jakaumataulukoista e) arvio Tarja Halosesta Frequency Percent Valid Percent Cumulative Percent Valid onnistuneet 87 31,6 31,6 31,6 melko hyvät ,5 41,5 73,1 keskinkert 57 20,7 20,7 93,8 melko huonot 13 4,7 4,7 98,5 epäonnistuneet 4 1,5 1,5 100,0 Total ,0 100,0 arvio Tarja Halosesta Lkm % Kum. lkm Kum-% onnistuneet melko hyvät keskinkertaiset melko huonot epäonnistuneet Yht

13 Esimerkkejä jakaumataulukoista d) ikäluokka Frequency Percent Valid Percent Cumulative Percent Valid ,1 1,1 1, ,0 28,0 29, ,6 35,6 64, ,2 26,2 90, ,1 9,1 100,0 Total ,0 100,0 ikäluokka Lkm % Kum. lkm Kum-% Yht

14 3.2 Kvantitatiiviset muuttujat Kvantitatiivisille muuttujille pitää (tarkkoina arvoina tallentamisen jälkeen) määrätä luokkien ala- ja ylärajat jakaumataulukon esittämistä varten. S o p i v a n luokittelutavan löytäminen vaatii ensi alkuun seuraavien valintojen tekemistä: - tasavälinen vai epätasavälinen? - kuinka monta luokkaa tai miten pitkä(t) luokkaväli(t)? - mihin kohtiin luokkarajat? Epätasavälinen luokkajako sopii muuttujille, joiden arvot kasautuvat tiettyihin erityisiin kohtiin tai sisältävät harvinaisen pieniä/suuria poikkeustapauksia. Esim. KYSELY-aineiston AMAARA -muuttujalla on molemmat edellä mainitut ominaisuudet. Arvo 0 on erityinen (absolutisti?) ja ns.kasautumiskohta, jota ei ole syytä mennä yhdistämään edes kohtuullisen pieniin -määriin. Huom. epäsymmetriselle sopii epätasavälinen ja symmetriselle tasavälinen luokittelu. Luokkien lukumäärälle on olemassa *ohjearvo, mutta toisaalta luokan pituudeksi pitäisi valita tasaluku 1, 2, 5, 10, 20, 25, 50, 100,200,250,... * matemaattinen ohjearvo on kuutiojuuri n:stä 14

15 Luokkarajojen kohdentamiseen voidaan antaa joitakin yleisiä ohjeita: -Luettavuuden kannalta on luokkien rajojenkin hyvä olla tasalukuja. -Epätasavälisessä luokituksessa luokkarajat suositellaan asetettavaksi sopivasti tiettyihin "kriittisiin" kohtiin tutkimuksen tavoitteita silmällä pitäen, kuten -luokat alkoholinkäyttö- tai lkm-luokat harrastuneisuustutkimuksessa: 0, 1, 10,... tai 0, 1, 7,... krt/vk. Epätasavälisten luokkien muodostamisen nyrkkisääntö: luokan prosenttiosuus ei saisi luokan pidentämisen ansiosta ylittää sitä lyhyemmän luokan prosenttiosuutta! Toteutus: Tilasto-ohjelmalla yksiulotteinen jakaumataulukko ja/tai histogrammikuvio ensin ilman luokitusta ja niitä/sitä silmäilemällä oikeaoppiset luokkarajat. Yhteenveto (kvant. muuttujat): Luokitellun yksiulott. jakauman tarkoitus on havainnollistaa alkuperäistä muuttujan arvojen jakautumista eli havaintomatriisin saraketta, joten hyvä luokitustapa on siis sellainen, että sen avulla muodostetun jakauman m u o t o on mahdollisimman lähellä alkuperäistä eli jakaumaa, jossa muuttujan jokainen arvo* on omana luokkanaan. * jokainen esiintyvä luku kuitenkin niin, että se on (kuvion akselilla) kohdistettu oikealle paikalleen 15

16 Esimerkkejä jakaumataulukoista c) euroja alkoholiin viikossa Frequency Percent Valid Percent Cumulative Percent Valid ,4 12,4 12,4 0, ,3 39,4 51,8 5, ,1 25,2 77,0 10, ,6 15,7 92,7 20, ,2 6,2 98,9 50, ,1 1,1 100,0 Total ,6 100,0 Missing System 1,4 Total ,0 alkoholieurot Lkm % Kum. lkm Kum-% Yht

17 Esimerkkejä jakaumataulukoista b) näin monta kolmesta symbolista Frequency Percent Valid Percent Cumulative Percent Valid ,5 18,5 18, ,3 23,3 41, ,4 28,4 70, ,8 29,8 100,0 Total ,0 100,0 näin monta kolmesta symbolista Lkm % Kum. lkm Kum-% Yht

18 Esimerkkejä jakaumataulukoista a) kontaktiopetusta Frequency Percent Valid Percent Cumulative Percent Valid ,5 2,6 2, ,5 15,0 17, ,3 24,0 41, ,3 36,3 77, ,3 15,7 93, ,4 4,5 98, ,4,4 98, ,5 1,5 100,0 Total ,1 100,0 Missing System 8 2,9 Total ,0 luennot+harj/vk Lkm % Kum. lkm Kum-% Yht

19 % 3.3 Jakauman graafinen esitys a) Kvantitatiivinen muuttuja, joka on luokiteltu tasavälisesti: 40 luennot+harj/vk

20 % b) Kvantitatiivinen muuttuja, jota ei ole ollut syytä luokitella: 35 näin monta kolmesta symbolista

21 c) Kvantitatiivinen muuttuja, joka on luokiteltu epätasavälisesti: alkoholieurot % 21

22 d) Järjestysasteikollinen muuttuja, joka on tehty luokittelemalla kvantitatiivinen ominaisuus etukäteen: ikäluokka % 22

23 e) Järjestysasteikollinen muuttuja, joka on vähintään 3-luokkainen: arvio Tarja Halosesta 0 % 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 % 100 % onnistuneet melko hyvät keskinkertaiset melko huonot epäonnistuneet 23

24 f) Nominaaliasteikollinen muuttuja, joka on vähintään 5-luokkainen: poliittinen kanta vasemmistoon keskustaan oikeistoon vihreisiin sitoutumattomiin en osaa/halua sanoa % 24

25 g) Nominaaliasteikollinen muuttuja, joka on korkeintaan 5-luokkainen tai jonka yksi luokka on n. 50% tai yli: juontipaikka kotona kylässä kapakassa muualla 25

26 4. YKSIULOTTEISEN JAKAUMAN TUNNUSLUVUT Usein halutaan yhden muuttujan arvoista vielä jalostetumpaa tietoa kuin mitä frekvenssi-, %-, kum.frekv. tai kum.%-jakaumista saadaan. Tällöin muuttujan tilastollisia ominaisuuksia pyritään kuvaamaan nk. t u n n u s l u v u i l l a. Niistä tärkeimmät ovat: muuttujan keskimääräistä arvoa kuvaavat k e s k i l u v u t ja muuttujan arvojen vaihtelua mittaavat h a j o n t a l u v u t Lisäksi on olemassa eräitä vähemmän käytettyjä tunnuslukuja mm. k k u u vin o u s - ja h u i p u s- luvut (skewness) (kurtosis). 26

27 Ennen keski- ja hajontalukujen esittämistä määritellään tunnusluku, joka on tyypiltään vähän niiden väliltä : Sellainen luku, jota pienempiä muuttujan havaituista arvoista on p %, on ns. p %:n f r a k t i i l i. (percentile) Prosenttilukujen 25, 50 ja 75 fraktiilit ovat erityisiä, koska ne jakavat aineiston tilastoyksiköiden lukumäärän suhteen neljään yhtä suureen osaan. 25%:n (merk. Q1) ja 75%:n fraktiili (Q3) ovat ns. a l a - ja y l ä k v a r t i i l i. (lower and upper quartiles) Huom. 50%:n fraktiili on sama kuin Md, joka on eräs tärkeä keskiluku. Raportoinnissa pitää yrittää välttää saman asian kahteen kertaan esittämistä samassa yhteydessä. Suositus onkin, että Md esitetään Md:nä eikä 50%:n fraktiilina. 27

28 4.1. Keskiluvut M o o d i (Mo) on se muuttujan arvo tai luokka, jolla on suurin frekvenssi (ts. on "tyypillisin"). Esim. sukupuolen arvoista 2, 2, 1, 1, 2, 1, 1, 1, 2 moodi on 1 (mies). - Moodi ei aina ole yksikäsitteinen + Moodi on keskilukuna mahdollinen kaikilla mitta-asteikoilla M e d i a a n i (Md) on sellainen luku, että sitä pienempiä ja suurempia muuttujan havaittuja arvoja on aineistossa yhtä monta eli noin n/2 kpl. Esim. iän arvojen (n=9) 39, 21, 22, 36, 20, 21, 20, 20, 30 mediaani on = 21, mutta iän arvojen (n=8) 39, 21, 22, 36, 21, 20, 20, 30 mediaani on (21+22)/2 = 21,5. Muuttujan k e s k i a r v o (mean) saadaan laskemalla x:n arvot (n kpl) yhteen ja jakamalla summa niiden lukumäärällä eli x = n i=1 x i n 28

29 Esim. iän arvoista (n=9) _ x = ( ) / 9 25,4. Keskiluvut esitettiin "huonommuusjärjestyksessä". Kuitenkin erittäin *vinojen frekvenssijakaumien kohdalla mediaani on keskiarvoa käyttökelpoisempi. Huom. vasemmalle tai oikealle *vino on oikeastaan paremmin sanottuna vasemmalle tai oikealle *loiveneva, *venynyt. Keskilukujen käyttö mittaustasoittain: S I Erik. ka:t J x x 2-luok J N Md Md Md Mo Mo Mo Mo 29

30 4.2. Hajontaluvut V a i h t e l u v ä l i n p i t u u s (= w) on suurimman ja pienimmän arvon erotus. Esim. iän w = = 19. K v a r t i i l i p o i k k e a m a Q = (Q3 - Q1) / 2 on eli ylä- ja alakvartiilin erotuksen puolikas. Esim. Iän kvartiilipoikkeama Q = (33 20,5)/2 = 6,25. Keskihajonta (s) (standard deviation) on varianssin (s 2 ) neliöjuuri (variance) s 2 = n i=1(x i x ) 2 n 1 Esim. iän arvojen (n=9 ja keskiarvo 25,4) 39, 21, 22, 36, 20, 21, 20, 20, 30 ja s = s 2 s 2 = (39 25,4) 2 + (21 25,4) (30 25,4) 2 / (9 1)~57, jolloin s = 57~7,5 30

31 V a r i a a t i o k e r r o i n (cv) on mittayksiköstä riippumaton ja siten käyttökelpoinen verrattaessa eri muuttujien vaihtelujen suuruutta. Se saadaan lasketuksi jakamalla keskihajonta keskiarvolla eli cv = s x Variaatiokerroin ilmaisee keskihajonnan suhteellisen osuuden keskiarvosta. Sen arvo ilmoitetaan yleensä kahdella desimaalilla ja tulkitaan prosenttilukuna. Esim. iän cv = 7,5 / 25,4 = 0,29 eli 29%. Hajontalukujen käyttö mittaustasoittain: S I cv J väh. 3-luokk. s s N Q Q Q??? w w w 31

32 Esim. Kysely-aineiston kvantitatiivisten muuttujien tunnusluvut Tunnusluvut Kysely Tilastotieteen perusteet-kursseilla syksy05&kevät06 Muuttuja Lkm Keskiarvo Mediaani Keskihajonta Minimi Alakvartiili Yläkvartiili Maksimi aloitusvuosi ,9 104,5 2,6 75,5 103,5 105,5 105,5 luennot+harj/vk ,6 18,0 6,6 3,0 13,0 20,0 40,0 alkoholieurot ,0 5,0 16,1 0,0 3,0 10,0 200,0 vastauslukukausi ,5 48,0 0,5 47,0 47,0 48,0 48,0 Esim. Biostat-aineiston kvantitatiivisten muuttujien tunnusluvut Tunnusluvut OSABIOSTAT Muuttuja Lkm Keskiarvo Mediaani Keskihajonta Minimi Alakvartiili Yläkvartiili Maksimi ika 30 23,3 21,0 5,7 19,0 20,0 22,8 39,0 pituus ,0 173,5 10,3 156,0 160,5 178,8 189,0 paino 30 61,6 63,0 9,8 45,0 53,3 69,8 80,0 systvp ,6 120,0 9,3 105,0 116,3 130,0 140,0 diastvp 30 79,1 80,0 6,4 70,0 75,0 82,3 90,0 pulssi 30 73,7 73,0 12,1 45,0 66,0 80,0 100,0 kyynar 30 27,6 27,5 2,6 24,0 25,0 29,8 32,0 vyotaro 30 74,4 75,0 7,8 61,0 67,3 79,8 90,0 aidinika 29 28,3 27,0 6,7 17,0 24,0 31,0 44,0 syntpai 24 34,2 34,0 5,7 22,0 31,0 36,0 48,0 32

33 Esim. Kysely-aineiston kvalitatiivisten muuttujien tunnuslukuja Yksiulotteinen jakauma Kysely Tilastotieteen perusteet-kursseilla syksy05&kevät06 sukupuoli Lkm % mies nainen Yht ikäluokka Lkm % Kum. lkm Kum-% Yht siviilisääty Lkm % avioliitossa avoliitossa leski tai eronnut 1 0 naimaton Yht

34 juontipaikka Lkm % kotona kylässä kapakassa muualla 11 4 Yht arvio Tarja Halosesta Lkm % Kum. lkm Kum-% onnistuneet melko hyvät keskinkertaiset melko huonot epäonnistuneet Yht poliittinen kanta Lkm % vasemmistoon keskustaan 17 6 oikeistoon vihreisiin sitoutumattomiin en osaa/halua sanoa Yht

35 5. KAHDEN MUUTTUJAN VÄLINEN RIIPPUVUUSTARKASTELU Tarkoitus kuvata muuttujien välisiä tilastollisia r i i p p u v u u k s i a (mahdollisia vaikutuksia toisiinsa). Ns. k a k s i u l o t t e i n e n jakauma voidaan kuvata jollakin seuraavista kolmesta erilaisesta esitystavasta: K o n t i n g e n s s i t a u l u k k o ("ristiintaulukko") on mahdollista muodostaa, olivatpa muuttujat mitä mitta-asteikkoa tahansa. (C) K o r r e l a a t i o d i a g r a m m i ("pisteparvi") soveltuu vain, jos molemmat muuttujat ovat kvantitatiivisia. (r) Jos vain selitettävä muuttuja (y) on kvantitatiivinen, niin kontingenssitaulukon sijasta kannattaa käyttää riippuvuustarkastelumenetelmänä ns. ryhmäkeskiarvoja. (y:t) ("laatikko-viikset"-kuvio) 35

36 Esim. BIOSTAT-aineiston SYSTVPmuuttujan (y) keskiarvot erikseen SUKUP-muuttujan (x) ryhmissä: = miesten keskimääräisen systolisen verenpaineen vertaaminen naisten keskimääräiseen systoliseen verenpaineeseen keskiarvojen avulla. Miehet (44 kpl) Naiset (36 kpl) y = 129, 1 y = 119, 3 Tulkinta: Keskiarvot poikkeavat hieman toisistaan. Miesten keskimääräinen yläpaine on n. 10 Hgm:ä korkeampi (johtuen ehkä epäterveellisemmistä elintavoista tms.). 36

37 Systvp:n kvartiilivertailu sukupuolittain (Box and whiskers plot) 180,00 160,00 140,00 120,00 100,00 systvp Maksimi 165,00 150,00 Yläkvartiili 140,00 125,00 Mediaani 127,00 120,00 Alakvartiili 120,00 110,00 Minimi 110,00 105,00 80,00 mies nainen 60,00 40,00 20,00 0,00 mies sukup nainen 37

38 Riippuvuustarkastelumenetelmien paremmuusjärjestys : 1. r Korrelaatio 2. y:t Keskiarvot 3. C Kontingenssi 38

39 Menetelmien käyttösuositukset eritasoisille muuttujapareille: Paras (Vaihtoehdot) Selitettävä y kvant Riippuva y kvant Selittäjä r ( y:t, C ) x kvant Ryhmittelevä y:t ( C ) x kval Rivimuuttuja Sarakemuuttuja C ( ei mikään ) y kval x kumpi tahansa 39

40 Ns. takorautaohje : 40

41 Seuraavalla sivulla esitettävään ns. rautalankaohjeeseen on merkitty vain paras menetelmä. Joissakin tilanteissa on joskus kuitenkin parempi vaihtoehto valita huonompi menetelmä!!! 41

42 Käyttösuositus (toinen tapa) eritasoisille muuttujapareille 42

43 Esim. Paras menetelmä Biostat- aineiston muuttujapareille 43

44 5.2. KORRELAATIODIAGRAMMI Kvantitatiivisten muuttujien x ja y välistä riippuvuutta voidaan tarkastella siten, että kuvataan jokaisen tilastoyksikön saamat arvot x i ja y i koordinaatiston pisteenä. Pisteiden ( x i, y i ) joukkoa sanotaan korrelaatiodiagrammiksi. 44

45 Esim. painon ja systvp:n korrelaatiodiagrammi (Scatter) 45

46 5.1. KONTINGENSSITAULUKKO Kontingenssitaulukon käyttö edellyttää, että molemmat muuttujat ovat luokiteltuja. Kvantitatiivinen muuttuja pitää siis ensin luokitella. Usein taulukoitavat muuttujat ovat kuitenkin kvalitatiivisia (ainakin y), jolloin luokat ovat jo valmiina. 46

47 Esim. muuttujien SUKUPUOLI (x) ja TUPAKOINTI (tässä nyt y:nä) välinen ristiintaulukointi. mies nainen Yht. polttaa 14 lopettanut 12 ei koskaan 54 Yhteensä

48 mies nainen Yht. polttaa lopettanut ei koskaan Yhteensä

49 mies nainen Yht. polttaa lopettanut ei koskaan Yhteensä

50 Riippuvuustarkastelun pohjana ovat siis y:n j a k a u m a t x:n l u o k i s s a, ja riippuvuuden havaitsemiseksi ne on (kuten edellisellä sivulla tehtiinkin) syytä esittää rinnakkain prosentteina (= %:t laskettuna järkevään suuntaan"). 50

51 Ja jos sarakkeissa olevien y:n prosentti- jakaumien alle vielä lisätään x:n kunkin luokan tilastoyksiköiden lukumäärä (N), niin saadaan ns. Vancouver-ohjeiden mukainen ristiintaulukko: 51

52 Esim. muuttujien SUKUPUOLI (x) ja TUPAKOINTI (tässä nyt y:nä) välinen ristiintaulukointi mies nainen Yht. polttaa lopettanut ei koskaan Yhteensä N

53 Vaakapalkkivertailu ( Stacked Bars) 53

54 6. RIIPPUVUUSLUVUT ja käytettävien menetelmien vaatimukset Riippuvuutta mittaavia tunnuslukuja eli r i i p p u v u u s l u k u j a ovat mm. k o n t i n g e n s s i k e r r o i n ja k o r r e l a a t i o k e r r o i n. Riippuvuuden voimakkuutta voidaan varsinaisten riippuvuuslukujen lisäksi mitata myös r y h m äk e s k i a r v o j e n (ks. luku 5) avulla seuraavasti: 54

55 "mitä enemmän y:n keskiarvot poikkeavat toisistaan x:n luokissa (= ryhmien välillä), sitä enemmän x:llä ja y:llä on tilastollista riippuvuutta eli x näyttäisi vaikuttavan y:hyn". Käyttökelpoisen riippuvuusluvun valinnasta ks. luku 5. 55

56 (Tako)rauta(lanka)ohjeiden täsmennys: mikäli riippuvuus on korrelaatiodiagrammin "käyräviivaisuuden" (tai muuttujien kvalitatiivisuuden) perusteella e p ä l i n e a a r i s t a, pitää korrelaatiotarkastelun sijaan käyttää jotakin muuta sopivampaa riippuvuustarkastelumenetelmää! 56

57 Erilaisia riippuvuuden ilmenemis- muotoja on (karkea jako) neljä: a) positiivinen lineaarinen riippuvuus b) negatiivinen lineaarinen riippuvuus c) ei mitään riippuvuutta d) epälineaarinen riippuvuus Huom: jos siis edes toinen muuttujista on kvalitatiivinen, niin mahdollisesti ilmenevä riippuvuus on epälineaarista. 57

58 a) P o s i t i i v i n e n lineaarinen riippuvuus tarkoittaa, että mitä suurempi x sitä suurempi y (tai mitä pienempi x sitä pienempi y). Korrelaatiodiagrammi on tällöin "nouseva" soikio, jonka kapeus ilmaisee riippuvuuden määrän. 58

59 b) N e g a t i i v i n e n lineaarinen riippuvuus tarkoittaa, että mitä suurempi x sitä pienempi y (tai mitä pienempi x sitä suurempi y). Korrelaatiodiagrammi on tällöin "laskeva" soikio, jonka kapeus ilmaisee riippuvuuden määrän. 59

60 c) E i m i t ä ä n riippuvuutta, jos korrelaatiodiagrammi on pyöreä tai tasaisesti hajallaan, ryhmäkeskiarvot ovat yhtäsuuret, y:n %-jakaumat ovat yhtenevät... d) E p ä l i n e a a r i s t a riippu- vuutta on, jos ei a), b) eikä c). 60

61 Kvantitatiivisten muuttujien x ja y välinen riippuvuus a) 61

62 Kvantitatiivisten muuttujien x ja y välinen riippuvuus b) 62

63 Kvantitatiivisten muuttujien x ja y välinen riippuvuus c) 63

64 Kvantitatiivisten muuttujien x ja y välinen riippuvuus d) 64

65 6.2 KORRELAATIOKERROIN Korrelaatiokerroin r ilmaisee vain l i n e a a r i s e n eli suoraviivaisen riippuvuuden määrän. 65

66 Korrelaatiokertoimen r laskemista varten määrätään ensin x:n ja y:n ns. kovarianssi s xy = n i=1 (x i x )(y i y ) n 1 jolloin r xy = s xy s x s y eli kovarianssi jaetaan kummankin muuttujan keskihajonnalla. 66

67 Huom. -1 r +1 Korrelaatiokertoimen etumerkki ilmaisee onko lineaarinen riippuvuus negatiivista vai positiivista, ja mitä kauempana sen lukuarvo on 0:sta, sitä voimakkaampaa se on. 67

68 Lähellä nollaa oleva korrelaatiokerroin ilmaisee siis ainoastaan sen verran, että lineaarista riippuvuutta ei ole, mutta se voi silti olla tyypiltään *epälineaarista. Korrelaatiokertoimen "kriittinen arvo ns. tilastollisen merkitsevyyden raja joillakin erisuuruisilla otoskoon arvoilla: eli n = r = ±0,36 ±0,30 ±0,20 ±0,14 ±0,09 ±0,06 68

69 *Esim. vaikka kuviosta d laskettu r 0, niin riippuvuus on kuitenkin voimakasta mutta "käyräviivaista". Riippuvuus pitäisikin tällöin tutkia ryhmäkeskiarvojen tai ristiintaulukoinnin avulla, tai vielä paremmin (=tehokkaammin): laskemalla korrelaatiokerroimet niiden x:n arvojen, joiden kohdalla on "mutka, avulla muodostetuissa ryhmissä erikseen (eli menetelmänä ns. osakorrelaatiot). 69

70 6.1 KONTINGENSSIKERROIN Muuttujien x ja y kontingenssitaulukkoon liittyen y r i i p p u u x : stä, jos y:n %-jakaumat x:n luokissa. p o i k k e a v a t selvästi toisistaan Riippumattomuuden vallitessa ne ovat samanlaiset sekä keskenään että yhteensä-%:ien (= y:n yksiulotteisen %-jakauman) kanssa. 70

71 Kuvitellaan tilanne, jossa vallitsee täydellinen riippumattomuus x:n ja y:n välillä, sekä merkitään tämän teoreetti- sen ristiintaulukon frekvenssejä eij :llä. Huom. nämä teoreettiset luvut eli nk. o d o t e t u t f r e k v e n s s i t eij saadaan lasketuksi, kun kerrotaan vastaavat reunafrekvenssit ja jaetaan n:llä. 71

72 Esim. muuttujien SUKUPUOLI (x) ja TUPAKOINTI (y) välinen ristiintaulukko (= havaitut frekvenssit fij ): mies nainen Yht. polttaa lopettanut ei koskaan Yhteensä

73 Vastaavat odotetut frekvenssit saadaan: e 11 = 14 44/80 = 7,7 joten e 12 = 6,3 e 21 = 12 44/80 = 6,6 joten e 22 = 5,4 e 31 näin ollen=29,7 ja siis e 32 =24,3. Täyttämällä esimerkkitaulukon ruudut havaittujen frekvenssien sijaan nyt näillä teoreettisilla odotetuilla frekvensseillä saadaan luvun alussa kuviteltu taulukko: 73

74 muuttujien SUKUPUOLI (x) ja TUPAKOINTI (y) välinen ristiintaulukko mies nainen Yht. polttaa 14 lopettanut 12 ei koskaan 54 Yhteensä

75 muuttujien SUKUPUOLI (x) ja TUPAKOINTI (y) välinen ristiintaulukko (= odotetut frekvenssit eij ): mies nainen Yht. polttaa 7,7 6,3 14 lopettanut 6,6 5,4 12 ei koskaan 29,7 24,3 54 Yhteensä

76 Tehtävä: muodosta SUKUPUOLEN (x) ja TUPAKOINNIN (y) välisen ristiintaulukon odotettujen frekvenssien sarake-%t: mies nainen Yht. polttaa 17 lopettanut 15 ei koskaan 58 Yhteensä

77 Tehtävä: muodosta SUKUPUOLEN (x) ja TUPAKOINNIN (y) välisen ristiintaulukon odotettujen frekvenssien sarake-%t: mies nainen Yht. polttaa lopettanut ei koskaan Yhteensä

78 Muuttujien välistä riippuvuutta mittaavan k o n t i n g e n s s i - k e r t o i m e n C määräämiseksi lasketaan ensin nk. χ 2 -arvo (lue: "kii toiseen"), joka ilmaisee kontingenssitaulukon ja odotettujen frekvenssien muodostaman taulukon välisen eron suuruuden χ 2 = ((f ij e ij ) 2 /e ij ) 78

79 Sellaisenaan χ 2 -arvo ei sovellu riippuvuus- luvuksi, koska kontingenssitaulukon rivien ja sarakkeiden lukumäärät vaikuttavat sen suuruuteen. Riippuvuuslukuna käytetäänkin sen avulla laskettavaa kontingenssikerrointa C = χ 2 (χ 2 + n). 79

80 Esim. SUKUPUOLI - ja TUPAKOINTI - muuttujien kontingenssikerroin: χ 2 = (9 7, 7) 2 7, 7 + (5 6, 3) 2 6, 3 +(9 6, 6) 2 6, 6 + (3 5, 4) 2 5, 4 +(26 29, 7) 2 29, 7 +(28 24, 3) 2 24, 3 = 3, 45 C = 3, 45/(3, ) = 0, 20 80

81 Kontingenssikertoimen tulkinta on hieman konstikkaampi kuin korrelaatiokertoimen, ja asia jätetäänkin tässä yhteydessä silleen, muttei pelkästään konstikkuuden takia. Tilasto-ohjelman avulla saadaan nimittäin riippuvuus testatuksi suoraan χ 2 - arvolla, kunhan ristiintaulukointimenetelmän vaatimukset (tässä tapauksessa odotettujen frekvenssien osalta) täyttyvät. 81

82 ja käytettävien menetelmien vaatimukset Korrelaatiodiagrammi on harhaanjohtava, jos muuttujilla ei ole riittävästi sirontaa. Korrelaatiokertoimeen vaikuttaa paljon yksi poikkeuksellisen suuri (tai pieni) havainto, mutta sellainen onkin syytä poistaa tarkastelusta määrittelemällä se missing-arvoksi. 82

83 Ryhmäkeskiarvojen vertailu ei ole luotettavaa, jos mukana on liian pieniä ryhmiä. Pienimmässäkin ryhmässä pitäisi tilastoyksiköitä olla vähintään "kymmenkunta". Ryhmien keskihajontojen (varianssien) pitäisi keskiarvotestauksen luotettavuuden kannalta olla samaa suuruusluokkaa (eli ryhmien homogeenisia y:n suhteen). 83

84 Ristiintaulukoitavien muuttujien reunajakaumissa ei myöskään saisi olla liian pieniä ryhmiä, jottei enempää kuin 20% odotetuista frekvensseistä jäisi alle viiden eikä yksikään alle yhden. Mutta jos jää, niin voi yrittää yhdistellä taulukoitavien muuttujien luokkia tai tehdä alusta alkaen uudet luokittelut. 84

85 7. Hypoteesien testaus a) Korrelaatio Testausta varten asetetaan nollahypoteesi H 0 : x ei korreloi y:n kanssa eli = 0. Jos x on *tilastollisesti merkitsevä selittäjä, päästään hylkäämään nollahypoteesi. (* otoksesta laskettu r poikkeaa riittävästi nollasta) Ennen johtopäätöksen tekoa tarkistettava, että menetelmän vaatimukset toteutuvat. 85

86 b) Keskiarvot Testausta varten asetetaan nollahypoteesi H 0 : y ei riipu x:stä eli µ 1 = µ 2 =... = µ k. Jos x on *tilastollisesti merkitsevä selittäjä, päästään hylkäämään nollahypoteesi. (* otoksesta lasketut y:t poikkeavat riittävästi toisistaan) Ennen johtopäätöksen tekoa tarkistettava, että menetelmän vaatimukset toteutuvat. 86

87 c) Kontingenssi Testausta varten asetetaan nollahypoteesi H 0 : y ei riipu x:stä eli χ 2 = 0. Jos x on *tilastollisesti merkitsevä selittäjä, päästään hylkäämään nollahypoteesi. (* y:n jakaumat poikkeavat riittävästi toisistaan) Ennen johtopäätöksen tekoa tarkistettava, että menetelmän vaatimukset toteutuvat. 87

88 Tilastollinen testaus perustuu epäsuoraan päättelysääntöön reductio ad absurdum (ns. päättely mahdottomaan ). Esimerkki: kvant y:n keskiarvojen eron testaus kval x:n kahden ryhmän välillä (perusjoukossa) H 0 : µ 1 = µ 2. H 0 µ 1 - µ 2 = 0 otoskeskiarvojen erotuksella (sen lisäksi, että se noudattaa normaalijakaumaa,koska otoksista lasketut keskiarvot ja myös niiden erotus noudattavat aina normaalijakaumaa jollakin keskiarvolla ja -hajonnalla), on keskiarvona nyt nimenomaan 0. 88

89 aineistosta laskettu kahden ryhmän keskiarvojen erotus y 1 - y 2 on kaiken todennäköisyyden mukaan lähellä 0:aa, MUTTA JOS SE EI OLE (siis keskiarvot ovat selvästi toisistaan poikkeavat), niin päättelyketjumme on päätynyt ns. absurdum - tilaan, eli lähtökohtamme H 0 on epätosi. Tosioletuksesta alkavasta ja epätositilaan päätyvästä päättelystä (esim. äskeisessä esimerkkitilanteessa) TOSI TOSI TOSI EPÄTOSI seuraa aina, että alkuoletus on epätosi. 89

90 No kuinka lähellä 0:aa sen y 1 y 2 :n sitten pitäisi olla, jottei tilasta tulisi absurdum? (yleensä tutkija toivoo päätyvänsä siihen!) Sen pitää olla ns. 95%:n varmuusvälillä. Eli kaiken todennäköisyyden mukaan on käytännössä 95%:n varmuudella. Mitä kauemmaksi 0:sta testattavana oleva erotus menee, sitä pienempi on ns. p-arvo. (yleensä tutkija toivoo pientä p-arvoa!) 90

91 95%:n varmuusvälin ulkopuolelle joutuminen tarkoittaa, että p-arvo < 0,05 jolloin y:n keskiarvojen eron voidaan sanoa olevan ns. tilastollisesti merkitsevä (huomaa se). Tällöin riski tehdä väärä päätelmä, kun sanotaan ryhmien keskiarvoissa olevan eroa perusjoukossa (otoskeskiarvojen avulla testattuna), on pienempi kuin 5%, joka tilastotieteilijän mielestä on riittävän pieni. 91

92 Edellä mainittiin, että otoskeskiarvo noudattaa aina (ainakin lähes) normaalijakaumaa. Se tarkoittaa, että jos tehtäisiin (olisi varaa eli rahaa tehdä) samasta perusjoukosta riittävästi eli noin 30 otosta, ja esitettäisiin y:n kaikkien laskettujen 30 keskiarvon aineisto murtoviivana (line), niin jakauma olisi muodoltaan likimain normal curve. Edellä esitetyssä tilanteessa sanotaan, että y:n otantajakauma on normaalijakauma. 92

93 Huom. Otoksen avulla jonkin tunnusluvun (esim. perusjoukon keskiarvon) ns. luottamusvälin estimoimiseksi tarvitaan otoksesta laskettu keskihajonta sekä todennäköisyyslaskentaa. Onneksi koneet hoitavat nykyisin ne asiat, ja tutkija pärjää, kun muistaa seuraavan: jos hajonta on pieni eli vaihtelu vähäistä, niin luottamusväli on kapea ja estimointi tarkkaa (sekä vastaavasti päinvastoin). 93

Til.yks. x y z

Til.yks. x y z Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 26.9.2017/1 MTTTP1, luento 26.9.2017 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2017/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

Til.yks. x y z 1 2 1 20.3 2 2 1 23.5 9 2 1 4.7 10 2 2 6.2 11 2 2 15.6 17 2 2 23.4 18 1 1 12.5 19 1 1 7.8 24 1 1 9.4 25 1 2 28.1 26 1 2-6.2 33 1 2 33.

Til.yks. x y z 1 2 1 20.3 2 2 1 23.5 9 2 1 4.7 10 2 2 6.2 11 2 2 15.6 17 2 2 23.4 18 1 1 12.5 19 1 1 7.8 24 1 1 9.4 25 1 2 28.1 26 1 2-6.2 33 1 2 33. Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 25.9.2018/1 MTTTP1, luento 25.9.2018 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA 19.3.2019/1 MTTTP1, luento 19.3.2019 KERTAUSTA Varianssi, kaava (2) http://www.sis.uta.fi/tilasto/mtttp1/syksy2018/kaavat.pdf n i i n i i x x n x n x x n s 1 2 2 1 2 2 1 1 ) ( 1 1 Mittaa muuttujan arvojen

Lisätiedot

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1) 20.9.2018/1 MTTTP1, luento 20.9.2018 KERTAUSTA JA TÄYDENNYSTÄ Tunnusluvut 1) Sijainnin tunnuslukuja Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1) Muita sijainnin tunnuslukuja ala- ja yläkvartiili,

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

Harjoittele tulkintoja

Harjoittele tulkintoja Harjoittele tulkintoja Syksy 9: KT (55 op) Kvantitatiivisen aineiston keruu ja analyysi SPSS tulosteiden tulkintaa/til Analyysit perustuvat aineistoon: Haavio-Mannila, Elina & Kontula, Osmo (1993): Suomalainen

Lisätiedot

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää? Seuraavassa muutamia lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4,

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3

Lisätiedot

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164 86118P JOHDATUS TILASTOTIETEESEEN Harjoituksen 3 ratkaisut, viikko 5, kevät 19 1. a) Havaintomatriisissa on viisi riviä (eli tilastoyksikköä) ja neljä saraketta (eli muuttujaa). Hannu mies LTK 18 Johanna

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas f 332 = 3 Kvartiilit(302, 365, 413) Kvartiilit: missä sijaitsee keskimmäinen 50 % aineistosta? Kvartiilit(302, 365, 413) Keskiarvo (362.2) Keskiarvo

Lisätiedot

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012 Korrelaatiokerroin Hanna Heikkinen 23. toukokuuta 2012 Matemaattisten tieteiden laitos Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Kvantitatiiviset menetelmät

Kvantitatiiviset menetelmät Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden

Lisätiedot

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. 1/11 4 MITTAAMINEN Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. Mittausvirhettä johtuen mittarin tarkkuudesta tai häiriötekijöistä Mittarin

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro Lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4, 3, 3, 8, 3, 9, 11, 19,

Lisätiedot

Määrällisen aineiston esittämistapoja. Aki Taanila

Määrällisen aineiston esittämistapoja. Aki Taanila Määrällisen aineiston esittämistapoja Aki Taanila 24.4.2017 1 Kategoriset muuttujat Lukumääriä Prosentteja (muista n-arvot) Pylväitä 2 Yhteenvetotaulukko (frekvenssitaulukko) TAULUKKO 1. Asunnon tyyppi

Lisätiedot

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa: Lisätehtäviä (siis vanhoja tenttikysymyksiä) 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15,

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989.

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas MUITA HAJONNAN TUNNUSLUKUJA Varianssi, variance (s 2, σ 2 ) Keskihajonnan neliö Käyttöä enemmän osana erilaisia menetelmiä (mm. varianssianalyysi),

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N 11.9.2018/1 MTTTP1, luento 11.9.2018 KERTAUSTA Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N Populaation yksikkö tilastoyksikkö, havaintoyksikkö Otos populaation

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto Kynä-paperi -harjoitukset Taina Lehtinen 43 Loput ratkaisut harjoitustehtäviin 44 Stressitestin = 40 s = 8 Kalle = 34 pistettä Ville = 5 pistettä Z Kalle 34 8 40 0.75 Z Ville 5 8 40 1.5 Kalle sijoittuu

Lisätiedot

Teema 5: Ristiintaulukointi

Teema 5: Ristiintaulukointi Teema 5: Ristiintaulukointi Kahden (tai useamman) muuttujan ristiintaulukointi: aineiston analysoinnin ja tulosten esittämisen perusmenetelmä usein samat tiedot esitetään sekä taulukkona että kuvana mahdollisen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

Määrällisen aineiston esittämistapoja. Aki Taanila

Määrällisen aineiston esittämistapoja. Aki Taanila Määrällisen aineiston esittämistapoja Aki Taanila 7.11.2011 1 Muuttujat Aineiston esittämisen kannalta muuttujat voidaan jaotella kolmeen tyyppiin: Kategoriset (esimerkiksi sukupuoli, koulutus) Asteikolla

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto...2. 2 Aineiston kuvaus...3. 3 Riippuvuustarkastelut...4

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto...2. 2 Aineiston kuvaus...3. 3 Riippuvuustarkastelut...4 TILTP1 Tilastotieteen johdantokurssin harjoitustyö Tampereen yliopisto 5.11.2007 Perttu Kaijansinkko (84813) perttu.kaijansinkko@uta.fi Pääaine matematiikka/tilastotiede Tarkastaja Tarja Siren 1 Johdanto...2

Lisätiedot

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä. Tilastollinen tietojenkäsittely / SPSS Harjoitus 3 Tällä harjoituskerralla tarkastellaan harjoituksissa 2 tehtyjä SPSS-havaintoaineistoja KUNNAT, kyselya ja kyselyb. Aineistoihin tutustutaan mm. erilaisten

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45. Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 8.8% 8.9%.%.% 9.7%.7% Etelä Länsi Itä Oulu Lappi Ahvenanmaa Länsi Etelä Itä Oulu Lappi Ahvenanmaa Läänien

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä. Tilastollinen tietojenkäsittely / SPSS Harjoitus 3 Tällä harjoituskerralla tarkastellaan harjoituksissa 2 tehtyjä SPSS-havaintoaineistoja KUNNAT, kyselya ja kyselyb. Jos epäilet, että aineistosi eivät

Lisätiedot

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Teema 3: Tilastollisia kuvia ja tunnuslukuja Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää

Lisätiedot

7. Normaalijakauma ja standardipisteet

7. Normaalijakauma ja standardipisteet 33 7. Normaalijakauma ja standardipisteet Aiemmin olemme esittäneet joitakin variaabelin jakaumia histogrammien ja frekvenssipolygonien muodossa. Jos kuvittelemme, että mittaamme varsin tarkasti ja jatkuvaksi

Lisätiedot

5 Lisa materiaali. 5.1 Ristiintaulukointi

5 Lisa materiaali. 5.1 Ristiintaulukointi 5 Lisa materiaali 5.1 Ristiintaulukointi 270. a) Aineiston koko nähdään frekvenssitaulukon oikeasta alakulmasta: N = 559. Tilastotieteen johdantokurssille osallistui yhteensä 559 opiskelijaa. Huomaa: Opiskelijoiden

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2015/1 MTTTP1, luento 6.10.2015 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 5.10.2017/1 MTTTP1, luento 5.10.2017 KERTAUSTA Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla todennäköisyydellä,

Lisätiedot

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Ka6710000 TILASTOLLISEN ANALYYSIN PERUSTEET 2. VÄLIKOE 9.5.2007 / Anssi Tarkiainen Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Tehtävä 1. a) Gallupissa

Lisätiedot

Ohjeita kvantitatiiviseen tutkimukseen

Ohjeita kvantitatiiviseen tutkimukseen 1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 2 KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI Sisältö: 1. Frekvenssi- ja prosenttijakaumat.2

Lisätiedot

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. 6.10.2016/1 MTTTP1, luento 6.10.2016 KERTAUSTA JA TÄYDENNYSTÄ Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria. Muodostetaan väli, joka peittää parametrin etukäteen valitulla

Lisätiedot

2. Aineiston kuvailua

2. Aineiston kuvailua 2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien

Lisätiedot

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSOPAS. SPSS-opas TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien

Lisätiedot

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON? SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?...7 TILASTO...7 TILASTOTIEDE...8 HISTORIAA...9 TILASTOTIETEEN NYKYINEN ASEMA...9 TILASTOLLISTEN MENETELMIEN ROOLIT ERI TYYPPISET AINEISTOT JA ONGELMAT...10

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas Ilman Ruotsia: r = 0.862 N Engl J Med 2012; 367:1562-1564. POIKKEAVAN HAVAINNON VAIKUTUS PAIRWISE VAI LISTWISE? Kun aineistossa on muuttujia, joilla

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas RIIPPUVUUS ALARYHMISSÄ Riippuvuus saattaa olla erilaista jos samassa aineistossa on esim. tutkittavia molemmista sukupuolista Yhteys saattaa olla erilaista

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Otannasta ja mittaamisesta

Otannasta ja mittaamisesta Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1 Estimointi - tehdään päätelmiä perusjoukon ominaisuuksista (keskiarvo, riskisuhde jne.) otoksen perusteella - mitä suurempi otos, sitä tarkemmat estimaatit Otokseen perustuen määritellään otantajakaumalta

Lisätiedot

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila 2.2.2011

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila 2.2.2011 Kuvioita, taulukoita ja tunnuslukuja Aki Taanila 2.2.2011 1 Tilastokuviot Pylväs Piirakka Viiva Hajonta 2 Kuviossa huomioitavia asioita 1 Kuviolla tulee olla tarkoitus ja tehtävä (minkä tiedon haluat välittää

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10 SISÄLTÖ 1 TILASTOJEN KÄYTTÖ 7 Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10 Tilastoaineisto 11 Peruskäsitteitä 11 Tilastoaineiston luonne 13 Mittaaminen

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset) LIITE Vinkkejä lopputyön raportin laadintaan Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset) 1. Johdanto Kerro johdannossa lukijalle, mitä jatkossa

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas AINEISTON TARKASTELU JA MUOKKAUS AINA ennen varsinaista analyysia suoritetaan aineiston tarkastelu ja muokkaus, data-analyysi Tavoitteena:

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

Estimointi. Otantajakauma

Estimointi. Otantajakauma Otantajakauma Otantajakauma kuvaa jonkin parametrin arvojen (esim. keskiarvon) jakauman kaikille tietyn kokoisille otoksille. jotka perusjoukosta voidaan muodostaa Histogrammissa otantajakauman parametrin

Lisätiedot

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on? Tilastollinen tietojenkäsittely / SPSS Harjoitus 4 Tarkastellaan ensin aineistoa KUNNAT. Koska kyseessä on kokonaistutkimus, riittää, että tutkit tunnuslukujen arvoja ja teet niiden perusteella päätelmiä.

Lisätiedot

5. Keskiluvut. luokan väliin, ei sen määrääminen tuota vaikeuksia. Näin on seuraavissa esimerkeissä:

5. Keskiluvut. luokan väliin, ei sen määrääminen tuota vaikeuksia. Näin on seuraavissa esimerkeissä: 22 5. Keskiluvut Kaikkein pisimmälle on informaation tiivistämisessä menty silloin, kun otosta kuvataan vain yhdellä luvulla, joka mahdollisimman hyvin edustaa kaikkia otoksen arvoja. Tällaisia lukuja

Lisätiedot

Kvantitatiiviset menetelmät

Kvantitatiiviset menetelmät Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 V ls. Uusintamahdollisuus on rästitentissä.. ke 6 PR sali. Siihen tulee ilmoittautua WebOodissa 9. 8.. välisenä aikana. Soveltuvan

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen TKK (c) Ilkka Mellin (2005) 1 Tilastollisten aineistojen kuvaaminen Havaintoarvojen jakauma Tunnusluvut Suhdeasteikollisten muuttujien tunnusluvut

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot