Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Samankaltaiset tiedostot
1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

pisteet Frekvenssi frekvenssi Yhteensä

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Näillä sivuilla Tilastomatematiikan esimerkit, joissa käsitellään tietokoneen käyttöä tilastollissa operaatioissa, on tehty Excel versiolla.

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

1 PROSENTTILASKENTAA 7

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Ohjeita kvantitatiiviseen tutkimukseen

Sovellettu todennäköisyyslaskenta B

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tilastollinen aineisto Luottamusväli

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

SPSS-perusteet. Sisältö

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Harjoitus 2: Matlab - Statistical Toolbox

Todennäköisyyden ominaisuuksia

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Sovellettu todennäköisyyslaskenta B

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

30A02000 Tilastotieteen perusteet

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

1 PROSENTTILASKENTAA 7

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

MTTTP1, luento KERTAUSTA

Til.yks. x y z

Normaalijakaumasta johdettuja jakaumia

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

Estimointi. Vilkkumaa / Kuusinen 1

MTTTP1, luento KERTAUSTA

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Väliestimointi (jatkoa) Heliövaara 1

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

5 Lisa materiaali. 5.1 Ristiintaulukointi

TILP150 Sanasto. Johdanto. Päivitetty 9. toukokuuta 2010

805306A Johdatus monimuuttujamenetelmiin, 5 op

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Yleistetyistä lineaarisista malleista

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Määrällisen aineiston esittämistapoja. Aki Taanila

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Luento JOHDANTO

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Teema 8: Parametrien estimointi ja luottamusvälit

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Määrällisen aineiston esittämistapoja. Aki Taanila

Todennäköisyyslaskenta. β versio. Todennäköisyyslaskenta. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio. Ilkka Mellin (2006) I

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

1. Tilastollinen malli??

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

OPETUSSUUNNITELMALOMAKE

OPETUSSUUNNITELMALOMAKE

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisten aineistojen kuvaaminen

Til.yks. x y z

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Harjoitus 7: NCSS - Tilastollinen analyysi

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Sovellettu todennäköisyyslaskenta B

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastomatematiikan materiaali

Moniulotteisia todennäköisyysjakaumia

MTTTP1, luento KERTAUSTA

Transkriptio:

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ 7 Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10 Tilastoaineisto 11 Peruskäsitteitä 11 Tilastoaineiston luonne 13 Mittaaminen 14 Tilastotietojen hankinta 20 Valmiit tilastot 20 Aineiston kerääminen 21 Otannan suorittaminen 23 2 TILASTOJEN ESITTÄMINEN 29 Taulukointi 29 Luokittelu 31 Kaksiulotteinen taulukko 33 Taulukon ulkoasu ja muotoilu 35 Taulukointi tietokoneella 37 Graafinen esittäminen 47 Kuviotyypit 48 Pylväskuviot ja histogrammit 50 Ympyräkaavio eli sektorikuvio 56 Murtoviivakuvio 57 Parvikuvio 60 Teemakartat 61 Visuaalisia näkökohtia 62 Kuvaajien piirtäminen 64 3 TUNNUSLUKUJA 70 Sijaintilukuja 70 Keskiarvo 70 Mediaani 73 Fraktiilit 74 Moodi 76 Hajontalukuja 82 Vaihteluväli 82 Kvartiiliväli 83 Keskihajonta 84

Varianssi 86 Variaatiokerroin 86 Standardoitu muuttuja 87 Muita tunnuslukuja 87 Vinous 87 Huipukkuus 88 Keskiarvon luottamusväli 88 Keskivirhe 89 Tunnuslukuja kuvaavia graafisia esityksiä 91 Tunnusluvut tietokoneella 93 4 TILASTOLLINEN RIIPPUVUUS 101 Korrelaatio 101 Ristiintaulukointi ja kontingenssikerroin 102 Spearmanin järjestyskorrelaatiokerroin 103 Hajontakuvio ja Pearsonin korrelaatiokerroin 105 Riippuvuuden tutkiminen tietokoneella 111 Regressio 116 Lineaarinen regressiomalli 116 Regressiosuora tietokoneella 119 5 AIKASARJAT 122 Aikasarjan vaihtelukomponentit 125 Trendin arviointi ja tasoitus 127 Kausivaihtelut 130 Indeksit 133 Yksinkertainen indeksi 133 Ryhmäindeksit 134 Näennäinen muutos ja reaalinen muutos 135 6 TODENNÄKÖISYYSLASKENTAA 143 Kombinatoriikkaa 144 Tuloperiaate 144 Permutaatio 146 Variaatio 147 Kombinaatio 148 Todennäköisyys 152 Todennäköisyyden tilastollinen määrittely 152 Todennäköisyyden klassinen määrittely 153 Todennäköisyyden yleinen määrittely 155 Laskusääntöjä 155 Vastatapahtuman todennäköisyys 156 Yhteenlaskusääntö 157

Kertolaskusääntö 158 Ehdollinen todennäköisyys 160 Kokonaistodennäköisyys ja Bayesin kaava 161 Todennäköisyysjakaumia 169 Satunnaismuuttuja ja todennäköisyysjakauma 169 Kertymäfunktio 170 Todennäköisyysjakauman tunnuslukuja 171 Epäjatkuvia todennäköisyysjakaumia 173 Binomijakauma 173 Poisson-jakauma 176 Jatkuvia todennäköisyysjakaumia 177 Normaalijakauma 179 Eksponenttijakauma 183 7 TILASTOLLINEN PÄÄTTELY 188 Estimointi 189 Luottamusväli 189 Tilastolliset testit 193 Testaukseen liittyviä käsitteitä 193 Testin valinta 195 Testauksen päävaiheet 195 Jakauman normaalisuuden tutkiminen 196 Riippuvuuden testaaminen 198 χ 2 -riippumattomuustesti 198 Korrelaatiokertoimen testaus 200 Keskiarvotestejä 202 Kahden otoksen keskiarvojen T-testi 202 Muita testejä 206 χ 2 -yhteensopivuustesti 207 8 TEHTÄVIEN VASTAUKSIA 212 LIITTEET 1 Kunnat 2003 217 2 Terveys-aineisto 219 3 Eri mitta-asteikon muuttujille soveltuvat tunnusluvut, riippuvuusluvut ja testit 221 4 Tilastollisen tutkimuksen vaiheet 222 5 Hakusanasto 223

KAKSIULOTTEINEN TAULUKKO Edellä olevat taulukot olivat yksiulotteisia eli niissä tarkasteltiin vain yhtä ominaisuutta eli yhden muuttujan arvoja. Tutkittaessa tilastoyksiköistä samanaikaisesti kahden eri muuttujan arvoja muodostetaan kaksiulotteinen jakauma eli suoritetaan ristiintaulukointi. Tällaisia kaksiulotteisia jakaumia tarvitaan erityisesti silloin, kun halutaan tutkia kahden muuttujan välistä riippuvuutta eli sitä, onko toisen muuttujan arvoilla vaikutusta toisen muuttujan arvoihin. Kaksiulotteista taulukkoa käytetään myös muulloin kuin varsinaisessa ristiintaulukoinnissa. Esim. 2.4 Seuraavassa taulukossa on vuonna 2003 valittujen kansanedustajien lukumäärät sukupuolen ja iän mukaan (lähde: Tilastokeskus): Ikäryhmä 20 29 30 39 40 49 50 59 60 69 Yhteensä Miehet 2 12 27 72 12 125 Naiset 4 28 23 14 6 75 Yhteensä 6 405086 18 2 0 Taulukossa oleva luku 2 ilmoittaa, että 2 kansanedustajaa on miehiä, joiden ikä on 20-29 vuotta. Luvut 2, 12,..., 4, 28,..., 6 ovat siis frekvenssejä, niin sanottuja solufrekvenssejä. Ikä on sarakemuuttuja ja sukupuoli rivimuuttuja. Luvut 125, 75, 6, 40, 50, 86 ja 18 ovat reunafrekvenssejä. Esimerkiksi reunafrekvenssi 75 ilmoittaa, että kansanedustajista 75 on naisia ja reunafrekvenssi 40 ilmoittaa, että 40 kansanedustajaa on iältään 30-39 vuotta. Kun kaksiulotteinen jakauma esitetään suhteellisina frekvensseinä eli prosenttijakaumana, niin prosentit lasketaan yleensä riveittäin tai sarakkeittain, joskus myös koko havaintomäärästä. Valinta tapahtuu sen mukaan, mitä halutaan ilmentää. Seuraavassa esimerkissä suhteelliset frekvenssit on laskettu kaikilla kolmella mainitulla tavalla. Kun prosenttiosuudet on laskettu riveittäin, prosenttijakauma ilmentää ikäjakaumaa sukupuolittain. Sarakkeittain lasketut prosenttiosuudet puolestaan ilmaisevat sukupuolijakauman kussakin ikäryhmässä. Reunafrekvenssit ilmoittavat koko aineiston jakauman.

TAULUKOINTI TIETOKONEELLA Tietokoneohjelmille on ominaista, että saman lopputuloksen voi saada aikaan useammalla kuin yhdellä tavalla. Tässä esitetyt toimenpiteet eivät siis ole ainoita mahdollisia. Ohjelmienkin käytön opastuksessa varsinainen tarkoitus on tilastollisten toimenpiteiden tuottaminen ei ohjelmistojen esittely. Excel Lajittelu eli tilastoaineiston järjestäminen jonkin muuttujan arvojen mukaan on nopeinta tehdä työkalurivien komennoilla: Osoittimen ollessa lajittelun perusteena olevan sarakkeen jossakin solussa valitaan, jos järjestys halutaan pienimmästä suurimpaan (tai tekstimuotoisissa aakkosjärjestykseen). lajittelee aineiston suurimmasta pienimpään. Lajitteluperusteita voi olla myös useita. Ne voi määrittää peräkkäin tai valinnalla Tiedot, Lajittele... Suorat jakaumat Lukumääriä ja prosenttiosuuksia lasketaan seuraavassa Excelin pivot-taulukkoon. Osoittimen ollessa havaintomatriisin jossakin solussa valitaan Tiedot Pivot-taulukko ja -kaavioraportti... Havaintomatriisin sijainti Muodostettavan taulukon sijainti Asettelunäkymä (voidaan sivuuttaa)

TEHTÄVIÄ 2-16 Myydyimmät kotimaiset albumit Suomessa vuonna 2002 olivat (lähde: Tilastokeskus): Esittäjä Bomfunk Mcs Eri esittäjiä Gimmel Kwan Nightwish Smurffit Albumi Myyntimäärä kpl Burning Sneakers 49 348 Suomirokkia 7 42 986 Lentoon 83 346 The Die Is Cast 51 173 Century Child 58 600 RapRockHitit Vol. 10 53 982 Esitä aineisto graafisesti. 2-17 Esitä tehtävän 2-6 frekvenssijakaumat graafisesti. 2-18 Kuvaa aineiston Terveys muuttujien terveys, ruokailu ja liikunta frekvenssijakaumat graafisesti. 2-19 Suomessa asuvien ulkomaan kansalaisten suurimmat ryhmät sukupuolittain 1.1.2003 (lähde: Tilastokeskus): Maa, jonka kansalainen Venäjä Viro Ruotsi Somalia Irak Miehet 9308 5222 4509 2247 1866 Naiset 15028 7206 3528 2290 1554 Esitä aineisto graafisesti niin, että kuvio korostaa a) sukupuolten välistä vertailua b) kutakin kansallisuutta. 2-20 Piirrä histogrammit Kunnat 2003 -aineiston muuttujista tulotaso, korkea-asteen koulutus ja lasten osuus. 2-21 15-24-vuotiaiden ajankäyttö oli erään tutkimuksen mukaan seuraava: Käytetty aika h/vrk Ansiotyö 1,75 Kotityö 1,90 Nukkuminen 9,07 Opiskelu 2,37 TV:n katselu 2,20 Sosiaalinen kanssakäyminen 1,50 Liikunta + muut harrastukset 1,70 Muu toiminta 3,52 Havainnollista ajankäytön jakaantumista sekä pylväskuviolla että ympyräkuviolla. Vertaile esityksiä.

Koska tiheysfunktion kuvaaja on symmetrinen odotusarvon µ suhteen, niin P(x µ) = 0,5 ja P(x µ) = 0,5 Todennäköisyysmassa on keskittynyt odotusarvon ympärille seuraavan kuvion mukaisesti: 99,73 % 95,45 % 68,27 % µ 3σ µ 2σ µ σ µ µ + σ µ + 2σ µ + 3σ Kuvion mukaan 68,27 % muuttujan arvoista poikkeaa odotusarvosta korkeintaan keskihajonnan verran suuntaan tai toiseen ja 99,73 % muuttujan arvoista on korkeintaan 3 keskihajonnan mitan päässä odotusarvosta. Esim.6.33 Erään varusmiesryhmän Cooperin testin tulokset noudattivat likimain normaalijakaumaa siten, että odotusarvo (keskiarvo) oli 2498 m ja keskihajonta 264 m. Tämän mukaan puolet varusmiehistä juoksi enintään 2498 m. Noin 68 % osallistujista juoksi 2498 m ± 264 m eli 2234 m 2762 m.

Tällöin saatiin seuraava tulos: Ensimmäinen testi (Levene) on varianssitesti. Sen merkitsevyyden (0,806) perusteella voidaan päätellä, että varianssit perusjoukossa ovat likimain yhtä suuret. Tällöin varsinainen T-testi luetaan ylemmältä riviltä. Koska p-arvo (hylkäämisvirheen todennäköisyys) on 0,302, nollahypoteesi jää voimaan. Testin perusteella tyttöjen ja poikien suoriutumista kielellistä valmiutta vaativissa tehtävissä voidaan pitää perusjoukossa likimain yhtä hyvänä. Saatu ero keskiarvoissa voi siis johtua sattumasta.

Painotettu keskiarvo 72 Palkki 48, 50 Parametrinen testi 195 Parvikuvio 48, 60 p-arvo 194 Pearsonin korrelaatiokerroin 106 Permutaatio 146 Perusjoukko 11, 188 Piirakkakakuvio 56 Pistekuvio 60 Pivot-taulukko 37 Poisson-jakauma 176 Populaatio 11 Profiili 12 Prosenttipiste 70, 74 Pylväskuvio 48, 50 Pylväsryhmä 48 Pystypylväs 48, 50, 51 Regressio 116 Regressiokerroin 118 Regressiosuora 116 Reunafrekvenssi 33 Riippumaton muuttuja 116 Riippumaton tapahtuma 159 Riippuva muuttuja 116 Riskitaso 194 Ristiintaulukointi 33, 41, 102 Rivimuuttuja 33 Riviyksikkö 36, 41 Ryhmitellyt pylväät 53 Ryväsotanta 24 Sarakemuuttuja 33 Satunnaiskoe, -ilmiö 143 Satunnaismuuttuja 169 Satunnaisvaihtelu 125, 126 Sektorikuvio 48, 56 Selite 49 Selitettävä muuttuja 109, 116 Selittävä muuttuja 109, 116 Selitysaste 110, 118 Selityskerroin 110, 118 Sijaintiluku 70 Solufrekvenssi 33 Spearmanin järjestyskorrelaatiokerroin 103 Standardipoikkeama 84 Standardoitu muuttuja 87 Suhdannevaihtelu 125 Suhdeasteikko 15 Suhteellinen frekvenssi 30 Suhteellinen kiintiöinti 24 Summafrekvenssi 30 Summakäyrä 59, 75 Summapylväs 53 Suora jakauma 30 Systemaattinen otanta 24 Taulukointi 29 Tavoiteperusjoukko 21 Teemakartta 48, 61 Testimuuttuja 194 Tiheysfunktio 169, 177 Tilasto 7 Tilastokeskus 20 Tilastollinen riippuvuus 101 Tilastollinen testi 193 Tilastotiede 7 Tilastoyksikkö 12 Todennäköisyys 143, 152 Todennäköisyysjakauma 169 Trendi 123, 127 Trendisuora 116 T-testi 202, 203 Tuloperiaate 144 Tunnusluku 70 Tyyppiarvo 70, 76 Vaakapylväs 48, 50 Vaihteluväli 82 Vapausaste 194 Variaatio 147 Variaatiokerroin 82, 86 Varianssi 86, 171 Vastahypoteesi 193 Vastatapahtuma 156 Vertailu 93 Vinous 87 Virhejana 91, 94 Välimatka-asteikko 15 Wilcoxonin testi 206 Yksinkertainen satunnaisotanta 23 Yksiulotteinen jakauma 30 Ympyräkaavio 48, 56 χ 2 -testi 198, 207 Liite 5 2/2