Tilastollisen päättelyn perusteet

Tilastollisen päättelyn perusteet Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Motivointiako? opiskelijoiden, jotka kammoavat matematiikkaa tai eivät katso ehtivänsä tai haluavansa tehdä harjoitustehtäviä, neuvon ajoissa siirtymään opiskelemaan jotain pehmeämpää tiedettä. Anders Ekholm, Johdatus tn-laskentaan (1997) 1

Ilmiöiden luonteesta Deterministinen ilmiö Ilmiön alkutilan perusteella voidaan ennustaa tarkasti sen lopputila eli tulos Satunnaisilmiö Alkutilasta ei voi tarkasti ennustaa tulosta, mutta tulosvaihtoehtojen esiintyminen ei ole mielivaltaista Epävarmuus Ilmiöön liittyvää epävarmuutta voidaan kuvata todennäköisyyksien avulla Todennäköisyys on epävarmuuden numeerinen mitta Päätetään, että tapahtuman uskottavuus on luku väliltä [0,1] 0 = mahdoton tapahtuma 1 = varma tapahtuma 2

Todennäköisyyden subjektiivisuus? Uskottavuus on tapahtuman (subjektiivinen) todennäköisyys Mittaa henkilökohtaista uskottavuuden astetta tapahtuman toteutumiselle Toistettavissa oleville tapahtumille todennäköisyys on tulkittavissa tapahtuman suhteelliseksi frekvenssiksi Millä todennäköisyydellä Häkkinen voittaa seuraavan F1-osakilpailun? Todennäköisyyslaskenta Todennäköisyyslaskenta muodostaa matemaattisen mallin satunnaisilmiöiden käyttäytymiselle Väistämätön ominaispiirre on kurssin teoreettisuus, sitä eivät kevennä pikantit esimerkit todennäköisyyslaskennan sovelluksista arkielämään tai luonnontieteisiin, siinä ei anneta malleja rationaaliselle päätöksenteolle tai kokeellisesti kerätyn aineiston, datan, analyysille eikä kritikoida epärationaalista päätöksentekoa. Pekka Tuominen, Todennäköisyyslaskenta II (1977) 3

Todennäköisyysmalli Satunnaisilmiöiden todennäköisyysmallissa on kaksi osaa: Mahdollisten tulosvaihtoehtojen kuvaus Tulosvaihtoehtoihin liittyvien todennäköisyyksien kuvaus Perusjoukko S on kaikkien mahdollisten tulosvaihtoehtojen joukko Perusjoukko, jossa satunnaisilmiötä tarkastellaan Tapahtuman todennäköisyys Mikä tahansa satunnaisilmiön tulosvaihtoehtojen joukko on tapahtuma Tapahtuma on perusjoukon osajoukko Nopan heitossa perusjoukko S = { 1,2,3,4,5,6 } Tapahtuma A voisi olla esimerkiksi: A = Nopan silmäluku on parillinen = { 2,4,6 } Tapahtuman A todennäköisyyttä merkitään P(A):lla 4

Todennäköisyyden peruslait Tapahtuman A todennäköisyys P(A) on luku 0:n ja 1:n välissä: 0 P(A) 1 Perusjoukon S todennäköisyys on 1: P(S) = 1 Erillisten tapahtumien A ja B yhdisteen todennäköisyys on niiden tn:ien summa: P(A tai B) = P(A) + P(B) Erikoistapaus äärettömälle perusjoukolle pätevästä aksioomasta Todennäköisyyden lakeja Todennäköisyys on normeerattu täydellisesti additiivinen mitta Todennäköisyydelle voidaan perustella erilaisia sääntöjä, kuten esim. Yleinen yhteenlaskusääntö Komplementtitapahtuman todennäköisyys Ehdollinen todennäköisyys Tulosääntö ja riippumattomuus Kokonaistodennäköisyys ja Bayesin kaava 5

Ehdollinen todennäköisyys Mikä on tapahtuman A:n todennäköisyys sillä ehdolla, että B on tapahtunut? Tätä tn:ää kutsutaan A:n ehdolliseksi todennäköisyydeksi ehdolla B ja sitä merkitään: P(A B) Olkoon E kiinnostuksen kohteena oleva tapahtuma ja H siihen liittyvä taustatietämys Tällöin P(E H) on tapahtuman E (subjektiivinen) tn ennakkoehdoilla H H:n voi käsittää käytettävissä olevaksi aineistoksi Satunnaismuuttuja Satunnaismuuttuja on kuvaus perusjoukosta reaaliakselille Satunnaismuuttuja on muuttuja, jonka arvot määräytyvät todennäköisyyksien avulla Satunnaismuuttujalla on jakauma, joka määrää minkälaisilla tn:illä erilaisia arvoja saadaan 6

Tilastotiede & todennäköisyysteoria Tilastotieteessä on tavoitteena tehdä johtopäätöksiä ilmiöstä havaintoaineiston perusteella Havaintoaineiston ajatellaan kuvastavan yleisempää tilannetta Yleistämisen takia ei voida olla varmoja johtopäätöksien oikeellisuudesta Epävarmuutta hallitaan todennäköisyyksiä (todennäköisyysteorian keinoja) käyttäen Tilastollinen päättely? Frekventistinen tilastollinen päättely Eilispäivän havainnot analysoidaan tänään laaditulla tai tänään korjatulla mallilla ja raportoidaan luottamuksena reaalimaailman tilasta Luottamus perustuu ilmiön oletettuun tilastolliseen stabiliteettiin ja periaatteelliseen mahdollisuuteen toistaa aineistonkeruu huomenna ja kaikkina seuraavina päivinä Bayes-päättely Toissapäivänä kvantifioitu uskomus muuntuu eilispäivän empiiristen havaintojen perusteella tämän päivän kvantifioiduksi uskomukseksi 7

Frekventistisiä lähtökohtia.. Tilastollisen muuttujan havaitut arvot voidaan tulkita satunnaismuuttujan arvoiksi Vaikka satunnaisilmiön tulos ei olisikaan suoraan numeerinen, voidaan tulos aina kuitenkin koodata numeeriseksi Tn-teoria antaa mallin vaihtelulle, jos ilmiön taustalla olevan perusjoukon olosuhteet pysyvät samana Tulosvaihtoehtojen suhteellisen frekvenssin stabiliteetti ilmiön toistuessa mahdollistaa satunnaisilmiöiden mielekkään tutkimisen Tunnusluku Mikä tahansa tilastollisen muuttujan havaintoarvoista laskettava luku on tunnusluku havaintoarvojen summa, keskiarvo, hajonta, korrelaatiokerroin jne. Tunnusluvut ovat havaintoarvojen funktioina satunnaismuuttujia 8

Todennäköisyysjakauma Satunnaismuuttujan todennäköisyysjakauma on sääntö, joka kertoo, millä todennäköisyyksillä satunnaismuuttuja saa arvonsa voidaan määritellä satunnaismuuttajan saamien arvojen ja niiden todennäköisyyksien avulla antamalla sääntö (tilastollinen malli), jonka perusteella ko. satunnaisilmiön tapahtumiin voidaan liittää todennäköisyydet Kertymäfunktio Satunnaismuuttujan X kertymäfunktio F(x) määritellään kaavalla P(X x) = F(x) F(x) kuvaa paljonko todennäköisyysmassaa on kertynyt vasemmalta pisteeseen x saakka satunnaismuuttujan X kertymäfunktion F(x) avulla voidaan määrätä kaikki satunnaismuuttujaan X liittyvät todennäköisyydet: kertymäfunktio määrittelee ko. satunnaismuuttujan todennäköisyysjakauman 9

Kertymäfunktion ominaisuuksia F(- ) = 0 F(+ ) = 1 Funktio F(x) on ei-vähenevä: F(x 1 ) F(x 2 ), jos x 1 x 2 Funktio F(x) on oikealta jatkuva: F(x+h) F(x), jos h 0 oikealta Todennäköisyysjakauman kuvailu Koko jakaumaa tylsä tarkastella joka tilanteessa Jakauman ominaisuuksia voi yrittää tiivistää jakaumaa sopivasti kuvaileviin lukuihin odotusarvo varianssi vinous huipukkuus 10

Odotusarvo Satunnaismuuttujan X odotusarvo E(X) kuvaa X:n todennäköisyysjakauman paikkaa samaan tapaan kuin (painotettu) aritmeettinen keskiarvo kuvaa muuttujan havaittujen arvojen jakauman paikkaa Odotusarvo sijoittuu jakauman painopisteeseen Odotusarvon ominaisuuksia Vakion odotusarvo: Jos X = a (vakio), niin E(X) = a. Lineaarimuunnoksen odotusarvo: Olkoot a ja b vakioita ja olkoon Y = a+ bx. Tällöin E(Y) = a + be(x). 11

Varianssi Jakauman paikan lisäksi kiinnostuksen kohteena on usein jakauman keskittyneisyys (hajaantuneisuus) Satunnaismuuttujan X jakauman hajaantuneisuutta voidaan kuvata jakauman varianssin avulla: var(x) = E[X-E(X)] 2 = E(X 2 ) - [E(X)] 2 tai paremminkin sen standardipoikkeaman std(x) eli varianssin neliöjuuren avulla Varianssin ominaisuuksia Vakion varianssi: Jos X = a (vakio), niin var(x) = 0. Lineaarimuunnoksen varianssi: Olkoot a ja b vakioita ja olkoon Y = a + bx. Tällöin var(y) = b 2 var(x). 12

Variaatiokerroin Satunnaismuuttujan hajonnan mittana voidaan käyttää variaatiokerrointa C(X) = std(x) / E(X) Saadaan eri suuruusluokkaa olevien (positiivisten) satunnaismuuttujien hajonnat vertailukelpoisiksi Satunnaismuuttujien oltava vertailtavissa! Monta satunnaismuuttujaa? Tarkasteltaessa samanaikaisesti montaa satunnaismuuttujaa, on lähtökohtana niiden yhteisjakauma Satunnaismuuttujien välillä voi olla riippuvuuksia! Reunajakaumien perusteella voidaan määrätä yhteisjakauma vain kun komponentit ovat toisistaan riippumattomia satunnaismuuttujia 13

Lineaarinen riippuvuus Satunnaismuuttujien X ja Y lineaarisen riippuvuuden mittana käytetään niiden välistä kovarianssia cov(x,y) = E[(X-E(X))(Y-E(Y))] = E(XY)-E(X)E(Y) Kovarianssin arvo riippuu muuttujien mittaasteikosta eikä sen vaihteluväli ole rajoitettu Korrelaatiokerroin Satunnaismuuttujien X ja Y välinen korrelaatiokerroin on niitä vastaavien standardoitujen satunnaismuuttujien tulon odotusarvo: cor(x,y) = E([(X-E(X))/std(X)][(Y-E(Y))/std(Y)]) = cov(x,y)/[std(x)std(y)] korrelaatiokerroin välillä [-1,1] riippumattomuudesta seuraa, että sekä kovarianssi että korrelaatio ovat nollia ei päde yleisesti toisinpäin 14

Summan odotusarvo ja varianssi Satunnaismuuttujien X ja Y odotusarvoille pätee: E(X+Y) = E(X) + E(Y) Satunnaismuuttujien X ja Y summan varianssi voidaan aina lausua X:n ja Y:n varianssien ja kovarianssien avulla: var(x+y) = var(x) + var(y) + 2cov(X,Y) riippumattomien satunnaismuuttujien tapauksessa var(x+y) = var(x) + var(y) Otosjakauma? Havaitut arvot satunnaismuuttujan toteutuneita arvoja Havaittujen arvojen jakaumaan voidaan liittää empiirinen todennäköisyysjakauma Havaintoja tuottava todennäköisyysjakauma tuntematon Voidaan tehdä erilaisia oletuksia Parametriset menetelmät Ei-parametriset menetelmät 15

Parametrinen vai ei-parametrinen Parametrinen lähestymistapa Oletetaan, että satunnaismuuttuja noudattaa jotain tiettyä parametrista jakaumaperhettä Jakaumaperhe määrää jakauman tyypin, parametrit tarkan muodon Ei-parametrinen lähestymistapa Satunnaismuuttujalle ei oleteta mitään tiettyä jakaumaa Parametreina kaikki havainnot Bernoulli-jakauma Todennäköisyysmalli, jossa tulosvaihtoehdot 0 = ei tapahdu 1 = tapahtuu Todennäköisyydet P(tapahtuu) = p P(ei tapahdu) = 1-p X B(p) Satunnaismuuttuja X noudattaa Bernoulli-jakaumaa parametrillä p (0 p 1). 16

Binomijakauma Olkoot X 1,X 2,,X n ovat riippumattomia satunnaismuuttujia ja X i B(p), i = 1,2,,n Jos Y = X 1 +X 2 + +X n, niin Y Bin(n,p) Y noudattaa binomijakaumaa parametrein n, p Kuinka monta onnistumista n:ssä kokeessa, jos yhdessä kokeessa onnistumisen tn on p P ( Y E(Y) = np var(y) = np(1-p) n = k ) = p k 1 p k ( ) n k Binomijakauma, kun n on iso Valitaan p=0.5 ja n>>1000000 Keskistetään: E(X)=0 Standardoidaan: var(x)=1 Tulokseksi saadaan symmetrinen kellomainen käyrä Standardoitu normaalijakauma 17

Normaalijakauma X N(µ,σ 2 ), E(X)=µ, var(x)=σ 2 f ( x) 1 2π 1 e x µ 2 = σ σ Yllä oleva tiheysfunktio määrittelee kokonaisen parven normaalijakaumia, kun vakioille µ ja σ annetaan erilaisia arvoja 2 Normaalijakauman keskeinen asema tilastotieteessä johtuu siitä, että monien satunnaismuuttujien on havaittu noudattavan normaalijakaumaa empiirisesti Keskeinen raja-arvolause Olkoot satunnaismuuttujasta X tehtyjen riippumattomien havaintojen X 1, X 2,, X n odotusarvo E(X i )=µ ja varianssi var(x i )=σ 2 kaikille i. Tällöin havaintoarvojen aritmeettinen keskiarvo X = n 1 n X i i= 1 on suurille havaintojen lukumäärille n approksimatiivisesti normaalinen N(µ,σ 2 /n). 18

Normaalijakauman yhteyksiä muihin jakaumiin χ 2 -jakauma Jos satunnaismuuttujat X 1, X 2,, X k noudattavat standardoitua normaalijakaumaa ja ovat keskenään korreloimattomia, noudattaa niiden neliösumma U = X 12 + X 22 + + X 2 k χ 2 -jakaumaa vapausastein k: U χ 2 (k) t-jakauma Olkoon satunnaismuuttujan X jakauma standardoitu normaalijakauma N(0,1) ja satunnaismuuttujan U jakauma χ 2 (k). Oletetaan lisäksi, että ne ovat stokastisesti riippumattomia. Silloin satunnaismuuttuja X t = U / k noudattaa t-jakaumaa vapausastein k: t t(k) F-jakauma Olkoot satunnaismuuttujat U χ 2 (k) ja V χ 2 (m) riippumattomia. Silloin satunnaismuuttuja U / k F = V / m noudattaa F-jakaumaa vapausastein k ja m: F F(k, m) Multinormaalijakauma Olkoot Z 1, Z 2,, Z p riippumattomia, standardoitua normaalijakaumaa N(0,1) noudattavia muuttujia. Muodostetaan uudet muuttujat X 1, X 2,, X p Z-muuttujien lineaarisina yhdistelminä X 1 =c 11 Z 1 +c 12 Z 2,+ +c 1p Z p + µ 1 X 2 =c 21 Z 1 +c 22 Z 2,+ +c 2p Z p + µ 2... X p =c p1 Z 1 +c p2 Z 2,+ +c pp Z p + µ p eli matriisimuodossa X = CZ + m. Muuttujien X 1, X 2,, X n yhteisjakaumaa sanotaan multinormaalijakaumaksi ja sen määrittelevät täydellisesti parametrit m ja C. Itse asiassa jakauman määrittelemiseksi riittää tuntea odotusarvovektorin m ohella kovarianssimatriisi S = CC. Multinormaalijakauman voi aina ajatella syntyvän (0,1)-normaalisista muuttujista kolmessa vaiheessa. Ensin tehdään muuttujittain venytyksiä ja kutistuksia, sitten kierretään koordinaatistoa ja lopuksi siirretään jakauman keskipiste pois origosta. 19

Estimointi Oletetaan, että havainnot noudattavat tutkimuksen kohteena olevan ilmiön satunnaisia piirteitä kuvaavassa tn-mallissa määriteltyä tn-jakaumaa Oletetaan, että satunnaismuuttujan havaitut arvot ovat peräisin tietystä jakaumaperheestä Jakauman tarkan muodon määräävät parametrit pyritään estimoimaan havaintojen perusteella Parametrin estimaattori Valitaan sopiva havaintojen funktio (tunnusluku), joka kuvastaa parametria eli on parametrin estimaattori Merkitään tuntemattoman parametrin a estimaattoria â:lla ( hatulla ) Estimaattori on havaintojen funktiona satunnaismuuttuja! Parametrin a estimaattorilla â on todennäköisyysjakauma, johon (parametrinen) tilastollinen päättely suurelta osin perustuu 20

Hyvin estimaattorin ominaisuuksia (1/2) Harhattomuus Jos E(â) = a, niin estimaattori â on harhaton Tyhjentävyys â on tyhjentävä, jos se käyttää kaiken otokseen sisältyvän parametria a koskevan informaation Järjestystunnusluku on triviaali tyhjentävä tunnusluku Hyvin estimaattorin ominaisuuksia (2/2) Tarkentuvuus â on tarkentuva, jos estimaattorin â arvot lähestyvät parametrin a todellista arvoa siinä mielessä, että suuret poikkemat todellisesta arvosta tulevat yhä epätodennäköisemmiksi otoskoon kasvaessa Tehokkuus Olkoot â 1 ja â 2 kaksi parametrin a harhatonta estimaattoria. Tällöin â 1 on tehokkaampi kuin â 2, jos var(â 1 ) var(â 2 ) 21

Estimointimenetelmiä Suurimman uskottavuuden menetelmä â on parametrin a suurimman uskottavuuden estimaattori (maximum likelihood estimator), jos se maksimoi otoksen X 1, X 2,, X n todennäköisyyden Maksimoidaan riippumattomien samaa - parametrista a riippuvaa - jakaumaa noudattavien havaintojen yhteisjakauma (uskottavuusfunktio) parametrin a suhteen Derivoidaan uskottavuusfunktio a:n suhteen ja määrätään a:n arvo maksimia vastaavassa derivaatan nollakohdassa Lisää estimointimenetelmiä Pienimmän neliösumman menetelmä (Ordinary Least Squares) minimoidaan jäännösvaihtelutermien neliösummaa maksimoidaan mallin ja aineiston yhteensopivuutta Momenttimenetelmä asetetaan otosmomentit vastaamaan jakauman momentteja ja näin saatujen yhtälöiden avulla estimoidaan parametrit Bayes-estimointi priori uskottavuus posteriori 22

Piste-estimointi Lasketaan havainnoista vastaava (otos)tunnusluku, jota sitten käytetään parametrin estimaattina Mallin parametreilla on yleensä tutkittavan ilmiön ominaisuuksiin liittyvät tulkinnat Väliestimointi Estimaattori on satunnaismuuttuja, joten siihen liittyy epävarmuutta Väliestimoinnissa parametrille määrätään havainnoista riippuva väli, joka peittää tietyllä, tutkijan valittavissa olevalla todennäköisyydellä tuntemattoman parametrin arvon ko. väliä kutsutaan luottamusväliksi ja tutkijan valitsemaan todennäköisyyttä luottamustasoksi luottamustaso kuvaa eräässä mielessä sitä varmuutta, jonka voimme havaintojen perusteella saada siitä, että tuntematon parametrin arvo sijaitsee luottamusvälillä 23