Tilastollisen analyysin perusteet
Sisältö
Tavoitteet Kurssilla tavoitteena on saada perusvalmiudet tietokoneavusteiseen tilastolliseen analyysiin ja tilastolliseen päättelyyn.
Kurssin sisältö Johdatus tilastolliseen analyysiin, lokaatio ja hajonta, yksinkertaiset testit, tilastollinen riippuvuus ja korrelaatio, regressioanalyysi, varianssianalyysi,...
Kurssin käytännöt, suoritus Kurssin suoritus koostuu harjoituksista (6p) ja tentistä (24p). Kurssilla läpipääsyyn vaaditaan vähintään yhteispisteet 15p tai tentistä vähintään 12p. Kurssin arvosana määräytyy kurssin yhteispisteiden mukaan seuraavasti: läpipääsyraja ylitetty -> 1, yhteispisteet vähintään 16 -> 2, yhteispisteet vähintään 19 -> 3, yhteispisteet vähintään 22 -> 4, yhteispisteet vähintään 25 -> 5. Huomaa, että arvosanaa 5 ei ole mahdollista saada pelkällä tentillä.
Kurssin käytännöt, luennot Erityisesti tällä kurssilla luennoilla käymisestä hyötyy paljon. Jos opiskelija ei pääse luennoille, niin hänen tulee kysellä luentomuistiinpanoja muilta opiskelijoilta. Luennot: To 12.15-14.00 luentosali C (Y205) (viikot 01-06, 08-13).
Kurssin käytännöt, harjoitukset Harjoitukset ovat osa kurssin suoritusta ja harjoitusryhmiä on useita (H01- H08). Harjoituksissa on käytössä R-ohjelmisto. Opiskelijoiden tulee olle paikalla valmiina ja tietokone avattuna harjoitusten alkaessa. Harjoituksiin ei saa tulla myöhässä. Jokaisen viikon harjoitusten ensimmäinen tehtävä on kotitehtävä ja se tulee olla tehtynä itsenäisesti vain kynää, paperia ja tarvittaessa laskinta (ei tietokonetta) käyttäen kotona ennen harjoitusryhmän alkua. Harjoituksissa vaaditaan aktiivista osallistumista. Jos on tehnyt kotitehtävän JA osallistuu harjoituksiin aktiivisesti, niin pisteitä kertyy 0.5p per harjoituskerta. Jos osallistuu harjoituksiin aktiivisesti, mutta kotitehtävä on jäänyt tekemättä, niin pisteitä kertyy 0.25p. Huomioi, että kotitehtäväpisteitä saa, vaikka ratkaisu ei olisikaan oikein tai täydellinen. Riittää, että on yrittänyt tosissaan. Harjoituspisteet ovat voimassa vuoden 2016 loppuun asti.
Kurssin käytännöt, harjoitusryhmät H01 Ti 10.15-12.00 Y344 (viikot 01-06, 08-13) H02 Ti 12.15-14.00 U351 (viikot 01-06, 08-13) H03 Ti 14.15-16.00 U344 (viikot 01-06, 08-13) H04 To 14.15-16.00 Maari-B (viikko 01), Ke 12.15-14.00 Y344 (viikot 02-06, 08-13) H05 Ma 12.15-14.00 Maari-A (viikot 01-06, 08-12), Ti 12.15-14.00 Y344 (viikko 13) H06 Pe 8.15-10.00 U351 (viikot 01-06, 08-11, 13), To 8.15-10.00 Maari-A (viikko 12) H07 Pe 14.15-16.00 U344 (viikot 01-06, 08-11, 13), To 14.15-16.00 U344 (viikko 12) H08 Ma 16.15-18.00 Y344 (viikot 01-06, 08-12), Ti 16.15-18.00 Y344 (viikko 13) Jos opiskelija ei pysty osallistumaan yhteenkään harjoitusryhmistä ja hän haluaa kuitenkin tehdä harjoitustehtäviä, hänen tulee olla yhteydessä kurssin pääassistenttiin (matias.heikkila(a)aalto.fi) ennen ensimmäisten harjoitusten alkua.
Kurssin käytännöt, tentti Kurssin tentissä pääpaino on luennoilla käsitellyissä asioissa. Tällä kurssilla tentissä saa olla mukana kirjoitusvälineet, ylioppilaslautakunnan hyväksymä laskin (muisti tyhjennettynä) ja A4-kokoinen "lunttilappu". Lapun tulee olla käsinkirjoitettu, tekstiä saa olla vain toisella puolella ja lapun oikeassa yläkulmassa tulee olla opiskelijan nimi. Huomioi, että tentissä ei jaeta kaavakokoelmia, joten kirjoita vaikeasti muistettavat kaavat lappuusi! Kaavakokoelmia ei tenttiin saa ottaa, mutta jos tentissä tarvitaan numeerisia taulukoita, niin ne annetaan kysymyspaperin liitteenä. Ensimmäinen tentti järjestetään ma 4.4. kello 9-12 ja toinen tentti on ti 24.5. kello 9-12.
Tilastollinen tutkimus Tilastollinen tutkimus on havaintoaineistojen keräämistä, organisointia, analysointia ja tulkintaa. Tilastollisen tutkimuksen avulla selitetään ympäröivää maailmaa ja erilaisia ilmiöitä ja sitä käytetään apuna monenlaisessa päätöksenteossa. Tilastotieteen menetelmät ja mallit ovat matemaattisia ja perustuvat todennäköisyyslaskentaan.
Tilastotieteen tutkimus Tilastotieteen tutkimus on uusien tilastollisten menetelmien luomista ja kehittämistä, ja olemassa olevien tilastollisten menetelmien ominaisuuksien tutkimista. Tilastotieteen tutkimuksen avulla luodaan työkaluja tilastollisen tutkimuksen tarpeisiin.
Tilastotiede Tilastollisen tutkimuksen voidaan katsoa alkaneen antiikin Babylonian, Egyptin ja myöhemmin Rooman valtakunnan väestönlaskennasta. Tietoa kerättiin valtion tarpeisiin mm. syntyvyydestä. Sana statistics (tilastotiede) tulee latinankielisestä sanasta statisticum collegium (valtioneuvosto).
Populaatio ja otos Tilastollinen perusjoukko eli populaatio koostuu kaikista mahdollisista kiinnostuksen kohteena olevista yksilöistä. (Esim. yliopisto-opiskelijat Suomessa.) Tilastollinen otos on populaation osajoukko. (Esim. 200 satunnaisesti valittua yliopisto-opiskelijaa.) Tutkimuksen kohteiksi valittuja perusjoukon alkioita kutsutaan havaintoyksiköiksi. (Esim. yksi Aalto-yliopiston opiskelija.)
Havaintoaineisto Tilastollinen aineisto koostuu tutkimuksen kohteita kuvaavien muuttujien havaituista arvoista. Esimerkkejä: lämpötila, pituus, rahamäärä, korko (jatkuvia kvantitatiivisia muuttujia) sukupuoli, asuinpaikka, väri, viallisuus (luokitteluasteikollisia kvalitatiivisia muuttujia) kouluarvosanat, vaatteiden koko (s, m, l), koulutustaso (diskreettejä järjestysasteikollisia muuttujia)
Kuvaileva tilastotiede Kuvaileva tilastollinen analyysi on havaitun aineiston esittämistä joko numeerisesti tai graafisesti. Kuvaileva tilastollinen tutkimus pitää sisällään aineistojen organisointia, kuvailua, yhteenvetoja, tunnuslukujen laskemista ja tilastografiikkaa.
Päättely Tilastollisessa päättelyssä pyritään yleistämään aineiston perusteella saatuja tuloksia eli kertomaan populaatiosta havaintoaineiston avulla. Tilastollinen päättely perustuu matemaattisiin malleihin ja todennäköisyyslaskentaan. Tilastollinen päättely pitää sisällään esimerkiksi tilastollista testausta.
Tilastollisen tutkimuksen vaiheet Tilastollinen tutkimusprojekti voidaan yleensä jakaa seuraaviin vaiheisiin: 1. Populaation ja kiinnostavien muuttujien määritteleminen (tavoite). 2. Aineiston keruun suunnittelu. Otoksen tulee edustaa populaatiota! 3. Aineiston kerääminen. 4. Aineiston organisointi. 5. Aineiston kuvailu, graafinen esittäminen ja tunnuslukujen laskeminen. 6. Tilastollinen päättely havaintoaineiston pohjalta. Myös tehtyjen oletusten pitävyyttä tulee tarkastella! 7. Mahdollisten virheiden ja puutteiden tarkastelu. 8. Tutkimuksen ja sen tulosten raportointi.
Erilaisia tilastollisia tutkimuksia Tilastollisia tutkimuksia voidaan toteuttaa monin eri tavoin. Tutkimuskysymysten asettaminen, populaatio, tavoitteet ja käytettävät resurssit vaikuttavat menetelmien valintaan.
Erilaisia tilastollisia tutkimuksia Havainnoiva tutkimus (Havainnoivassa tutkimuksessa tehdään havaintoja muuttamatta olosuhteita. Esim. mitataan lämpötilaa, ja esim. verrataan keuhkosyövän riskiä tupakoitsijoilla ja tupakoimattomilla.) Kokeellinen tutkimus (Kokeellisen tutkimuksen perusasetelmassa mitataan yhden käsiteltävän muuttujan vaikutusta toiseen muuttujaan. Esim. tarkastellaan limsamainoksen vaikutus myyntiin, ja esim. verrataan allergialääkkeen tehoa placebon tehoon.)
Erilaisia tilastollisia tutkimuksia Simuloinnit (Simuloinneissa käytetään matemaattisia malleja ja luodaan tilanteita, jotka vastaavat haluttuja olosuhteita tai prosesseja. Esim. ilmastomalleihin liittyvät tietokonesimuloinnit, ja esim. dummy nukkejen käyttö kolaritutkimuksissa.) Kysely- ja haastattelututkimukset (Kyselytutkimuksissa tarkoituksena on saada koottua populaatiota edustavalta joukolta vastauksia samoihin kysymyksiin. Esim. ovensuukyselyt vaalitulosten ennustamiseksi, ja esim. junankäyttäjien tyytyväisyystutkimus ennen VR:n lippu-uudistusta ja sen jälkeen.)
Tilastollisen tutkimuksen ongelmia Voiko tilastoihin luottaa? Miksi saadaan outoja tuloksia?
Määritelmä, Tapahtuma-avaruus Kaiken perustana on epätyhjä tapahtuma-avaruus (otosavaruus) Ω. Tapahtuma on tapahtuma-avaruuden osajoukko A Ω.
Määritelmä, Sigma-algebra Joukon Ω osajoukkojen joukkoperhe F on sigma-algebra tapahtuma-avaruudelle Ω, jos 1. F. 2. Jos A F, niin A c F. 3. Jos A 1, A 2,.., A i,... F, niin i A i F.
Määritelmä, Todennäköisyysmitan aksioomat Olkoon Ω epätyhjä joukko, ja olkoon F sigma-algebra joukossa Ω. Tällöin kuvaus P : F [0, 1] on todennäköisyysmitta, jos 1. Kaikilla A F, P(A) [0, 1] 2. P(Ω) = 1 3. Kaikille sellaisille A 1, A 2,.., A i,... F, joilla A j A i =, i j, pätee P( i A i ) = i P(A i).
Seurauksia e.o. aksioomista P(A) = 1 P(A c ). P(B C) = P(B) + P(C) P(B C).
Esimerkki Kun heitetään kahta noppaa, niin tapahtuma-avaruus Ω = {(1, 1), (1, 2),..., (6, 6)}. Tapahtuma "molemmat nopat > 2" on A = {ω Ω ω 1 > 2, ω 2 > 2}. Tässä esimerkissä P({ω}) = 1/36 kaikille ω Ω.
Määritelmä, Ehdollinen todennäköisyys Oletetaan, että P(B) 0. Tapahtuman A todennäköisyys ehdolla B, P(A B), on todennäköisyys tapahtumalle A sillä ehdolla, että tapahtuma B on jo tapahtunut. Ehdollinen todennäköisyys, A ehdolla B, määritellään kaavalla P(A B) = P(B A). P(B)
Esimerkki Todennäköisyys sille, että ensimmäisestä nopan silmäluku on 3 (tap. A) ehdolla että toisen nopan silmäluku on 4 (tap. B): P(A B) = P(B A)/P(B) = (1/36)/(6 1/36) = 1/6.
Määritelmä, Riippumattomuus Tapahtumat A 1,..., A n ovat riippumattomia, jos kaikilla 1 i 1 < i 2 <... < i k n P(A i1... A ik ) = P(A i1 ) P(A ik ).
Esimerkki Noppaesimerkissä P(A B) = 1/36 ja toisaalta P(A)P(B) = 1/36, kaikilla A, B, (A, B) Ω.
Satunnaismuuttujista
Reaalilukuarvoinen satunnaismuuttuja X on kuvaus tapahtuma-avaruudelta reaaliluvuille, ts. X = X(ω) : Ω R. Hieman täsmällisemmin: Olkoon Ω epätyhjä joukko, ja olkoon F sigma-algebra joukossa Ω. Olkoon X = X(ω) : Ω R funktio. Jos {ω X(ω) r} F, kaikilla r R, niin tällöin X on satunnaismuuttuja.
Esimerkki Esimerkkinä noppien silmälukujen summa, X : {(1, 1),..., (6, 6)} {2,..., 12}, X(ω) = ω 1 + ω 2. Huomaa kuitenkin, että noppaesimerkissä myös identiteettifunktio määrittää satunnaismuuttujan - tällöin satunnaismuuttuja on kaksiulotteinen (vektori).
Määritelmä, Satunnaismuuttujan todennäköisyysfunktio Satunnaismuuttujan X todennäköisyysfunktio P X määritellään todennäköisyysmitan P avulla seuraavasti: P X (A) = P({ω : X(ω) A}).
Määritelmä, Kertymäfunktio Todennäköisyysmitan P avulla määritellään satunnaismuuttujalle X kertymäfunktio F X (x) = P({ω Ω : X(ω) x}) (tai lyhyesti = P X (X x)).
Satunnaismuuttuja Käytännössä tilastollista tutkimusta tehtäessä tarkastellaan juurikin satunnaismuuttujia ja niiden todennäköisyyksiä. Havaitsemme siis tuloksen X(ω), mutta alkeistapaus ω Ω on jossakin taustalla piilossa. Näin ollen tilastollinen analyysi perustuu todennäköisyysmittaan P X eikä mittaan P.
Määritelmä, Tiheysfunktio ja pistetodennäköisyysfunktio Jatkuvan satunnaismuuttujan X tiheysfunktio f X (x), on sen kertymäfunktion derivaatta, f X (x) = d dx F X (x). (Huom. Tiheysfunktio ei ole aina olemassa.) Diskreetin satunnaismuuttujan tiheysfunktiota vastaa pistetodennäköisyysfunktio p X (x) = P(X = x), joka kertoo diskreetin satunnaismuuttujan todennäköisyyden saada arvo x.
Usein satunnaismuuttujat määritellään suoraan määrittelemällä niiden tiheys- ja/tai kertymäfunktio.
Esimerkki diskreetti X: esim. Binomi- tai Poisson-jakautunut jatkuva X: esim. tasa-, normaali-, tai eksponenttijakautunut
Määritelmä, riippumattomuus Olkoot X 1,..., X n jatkuvia satunnaismuuttujia, joilla on tiheysfunktiot f X1 (x 1 ),..., f Xn (x n ) ja yhteinen tiheysfunktio f X1,...,X n (x 1,..., x n ). Jos f X1,...,X n (x 1,..., x n ) = f X1 (x 1 ) f Xn (x n ), niin muuttujat X 1,..., X n ovat riippumattomia. Diskreetit muuttujat ovat riippumattomia, jos p X1,...,X n (x 1,..., x n ) = p X1 (x 1 ) p Xn (x n ).
Numeerinen esimerkki riippumattomuudesta Olkoot satunnaisumuuttujilla X ja Y yhteinen tiheysfunktio { x + y, 0 x 1, 0 y 1 f (x, y) = 0, muuten. Ovatko satunnaismuutuujat riippumattomia? Nyt ja f (x) = f (y) = 1 0 1 0 (x + y)dy = x + 1 2, 0 < x < 1 (x + y)dy = y + 1 2, 0 < y < 1. Jos satunnaismuuttujat ovat riippumattomia, niin f (x, y) = f (x) f (y). Valitaan x=1/3 ja y=1/3. Nyt f (x, y) = x + y = 1/3 + 1/3 = 2/3 f (x) f (y) = (x + 1/2) (y + 1/2) = 5/6 5/6 = 25/36 2/3. Satunnaismuutujat ovat toisistaan riippuvia.
Numeerinen esimerkki riippumattomuudesta Olkoot satunnaismuuttujilla X ja Y yhteinen pistetodennäköisyys funktio 1, x {1, 2}, y {1, 2} p(x, y) = 4. 0, muuten Nyt p(x) = y {1,2} p(x, y) = 1/4 + 1/4 = 1 2, x {1, 2}, ja muulloin p(x) = 0. Vastaavasti p(y) = x {1,2} p(x, y) = 1/4 + 1/4 = 1 2, y {1, 2}, ja muulloin p(y) = 0.
Jos satunnaismuuttujat ovat riippumattomia, niin p(x, y) = p(x) p(y). Nyt ja p(x) p(y) = 1 2 1 2 = 1 = p(x, y), x {1, 2}, y {1, 2} 4 p(x) p(y) = 0 = p(x, y), muuten. Satunnaismuuttujat ovat riippumattomia!
Ehdollinen jakauma Olkoot Z 1,..., Z n ja Y 1,..., Y m jatkuvia satunnaismuuttujia, joilla on tiheysfunktiot f Z1,...,Z n (z 1,..., z n ), f Y1,...,Y m (y 1,..., y m ) ja f Z1,...,Z n,y 1,...,Y m (z 1,..., z n, y 1,..., y m ). Tällöin f Y1,...,Y m Z 1,...,Z n (y 1,..., y m z 1,..., z n ) = f Z 1,...,Z n,y 1,...,Y m (z 1,..., z n, y 1,..., y m ), f Z1,...,Z n (z 1,..., z n ) kun f Z1,...,Z n (z 1,..., z n ) > 0. Diskreeteille muuttujille p Y1,...,Y m Z 1,...,Z n (y 1,..., y m z 1,..., z n ) = p Z 1,...,Z n,y 1,...,Y m (z 1,..., z n, y 1,..., y m ), p Z1,...,Z n (z 1,..., z n ) kun p Z1,...,Z n (z 1,..., z n ) > 0.
Määritelmä, Odotusarvo Olkoon X jatkuva satunnaismuuttuja. Jos h(x) f X (x)dx <, niin satunnaismuuttujan h(x) odotusarvo on (reaaliluku) E[h(X)] = h(x)f X (x)dx. Olkoon X diskreetti satunnaismuuttuja, jonka arvojoukko on I. Jos x I h(x) p X (x) <, niin satunnaismuuttujan h(x) odotusarvo on E[h(X)] = h(x)p X (x). x I
Esimerkki X:n odotusarvo E[X] saadaan asettamalla h(x) = X. X:n varianssi var[x] saadaan asettamalla h(x) = E[(X E[X]) 2 ]. X:n k:s momentti E[X k ] saadaan asettamalla h(x) = X k.
Numeerinen esimerkki odotusarvoista Olkoon X jatkuva satunnaismuuttuja, jolla on tieysfunktio { 1, 0 x 1 f X (x) = 0, muualla. Halutaan odotusarvo E[X], joten asetetaan h(x) = X ja sijoitetaan E[h(X)] = h(x)f X (x)dx = x f X (x)dx = Olkoon X diskreetti satunnaimuuttuja, jonka pistetodennälöisyysfunktio 1 p X (x) = P(X = x) = 1 30 x 2, x = {0, 1, 2, 3, 4} Asettamalla h(x)=x ja sijoittamalla, saadaan satunnaismuuttujan odotusarvo: 0 x 1dx = 1 2. E[h(X)] = x p X (x) = 0 0+1 1 30 +2 4 30 +3 9 16 +4 30 30 = 10 3
Lause, Laskusääntöjä odotusarvolle ja varianssille Olkoot X 1,..., X n satunnaismuuttujia, joilla on äärelliset odotusarvot ja varianssit, ja olkoot a, b R. Tällöin E[ n i=1 X i] = n i=1 E[X i] E[aX i + b] = ae[x i ] + b var[ax i + b] = a 2 var[x i ] Olkoot X 1,..., X n riippumattomia. Tällöin E[X 1 X 2 X n ] = E[X 1 ]E[X 2 ] E[X n ] var[ n i=1 X i] = n i=1 var[x i]
J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. J. Crawshaw, J. Chambers: A Concise Course in Advanced Level Statistics, Nelson Thornes Ltd 2013. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html.