MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

Osa 2: Otokset, otosjakaumat ja estimointi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

Tilastollinen aineisto Luottamusväli

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

9. laskuharjoituskierros, vko 12-13, ratkaisut

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Maximum likelihood-estimointi Alkeet

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Uskottavuuden ominaisuuksia

Normaalijakaumasta johdettuja jakaumia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harjoitus 2: Matlab - Statistical Toolbox

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

2. Uskottavuus ja informaatio

5.7 Uskottavuusfunktioon perustuvia testejä II

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Todennäköisyyden ominaisuuksia

Testejä suhdeasteikollisille muuttujille

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

031021P Tilastomatematiikka (5 op) viikko 4

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Sovellettu todennäköisyyslaskenta B

Tutkimustiedonhallinnan peruskurssi

Tilastollisia peruskäsitteitä ja Monte Carlo

Parametrin estimointi ja bootstrap-otanta

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Sovellettu todennäköisyyslaskenta B

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät Ratkaisuehdotuksia

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Luottamusvälit. Normaalijakauma johnkin kohtaan

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

11 Raja-arvolauseita ja approksimaatioita

Sovellettu todennäköisyyslaskenta B

Transkriptio:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 4 Tilastollisen aineiston kuvaileminen, mallintaminen ja estimointi Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Sisältö Johdanto Tilastollisen aineiston kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi Suurimman uskottavuuden estimaattori

Sisältö Johdanto Tilastollisen aineiston kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi Suurimman uskottavuuden estimaattori

Mitä tilastotiede on? Tilastotiede soveltaa sekä kehittää metodeja ja malleja, joita voidaan käyttää tutkiatteassa reaalimaailman satunnaisilmiöitä. Menetelmät ja mallit perustuvat todennäköisyysteorian lainalaisuuksiin. Tilastotiedettä voidaan soveltaa aina, kun saatavilla on kvantifioitavaa aineistoa. Mikä tahansa aineistojoukko, joka kuvaa jotakin reaalimaailman imiötä on potentiaalinen tilastotieteen tutkimuskohde.

Tilastollinen aineisto Populaatio on joukko, joka sisältää kaikki mahdolliset tilastollisen kokeen kohteet. Yksikkö on populaation alkio. Havainto on havaittu arvo, joka liitetään yksikköön. Tilastollinen aineisto on kaikista havainnoista koostuva kokoelma. Esim: Tutkitaan suomalaisten pituuksia ja mitataan sitä varten 2000 satunnaisesti valittua suomalaista. Silloin Populaatio on kaikki suomalaiset. Yksikkö on kuka tahansa suomalainen. Havainto on kenen tahansa mitatun suomalaisen pituus. Tilastollinen aineisto koostuu kaikista mitatuista pituuksista.

Yleiskatsaus Aineiston kuvailemiseen käytettäviä menetelmiä: Kuvaajat Tunnusluvut (esim. keskiarvo, varianssi, kovarianssi) Tilastolliset mallit Tilastolliseen päättelyyn käytettäviä menetelmiä Tilastolliset mallit Tilastollinen estimointi Tilastollinen testaus

Sisältö Johdanto Tilastollisen aineiston kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi Suurimman uskottavuuden estimaattori

Tilastollinen aineisto Tilastollisen kokeen aineisto kerätään yleensä taulukkoon eli aineistokehikkoon, jonka rivit vastaavat tilastollisen kokeen havaintoja sarakkeet vastaavat tilastollisen kokeen muuttujia Muuttujat voivat olla laadullisia tai määrällisiä laadullisen muuttujan arvot jaotellaan luokkiin (esim. aurinkoista, sateista, pilvistä ) määrällisen muuttujan arvot ovat lukuja

Tilastollinen aineisto Hav. X 1 X 2 X m 1 X 1,1 X 1,2 X 1,m 2 X 2,1 X 2,2 X 1,m 3 X 3,1 X 3,2 X 1,m....... n X n,1 X n,2 X n,m Taulukko : Aineistokehikko, jossa on n havaintoa ja m muuttujaa.

Laadullinen muuttuja Arvot jaotellaan luokkiin, jotka usein numeroidaan kokonaisluvuilla. Esim. Miten kuljet työmatkat? 1 = Bussilla 2 = Polkupyörällä 3 = Muulla tavoin Huom Numeroidun laadullisen muuttujan keskiarvo ei yleensä tarkoita mitään. Numeroidun laadullisen muuttujan mediaanilla voi olla merkitys, mikäli arvot voidaan järjestää.

Esimerkki: Laadullinen muuttuja Hav. Matkustustapa 1 Bussi 2 Joku muu 3 Joku muu 4 Bussi 5 Polkupyörä Taulukko : Aineistokehikko, jossa on 5 havaintoa ja muuttuja matkustutapa. Muuttujan keskiarvo olisi 1 (1 + 3 + 3 + 1 + 2) = 2, 5 mutta tässä ei ole järkeä, koska muuten bussin ja jonkun muun keskiarvo olisi polkupyörä.

Määrällinen muuttuja Määrällinen muuttuja saa arvoja reaalilukujen osajoukossa. Määrällinen muuttuja voidaan muuntaa laadulliseksi jakamalla arvot luokkiin. Esim Satunnaisesti valitun suomalaisen työssäkäyvän työaika (min/vrk) on määrällinen muuttuja, joka saa arvoja joukossa [0, 1440]. Tämä voidaan jakaa luokkiin esim. L 1 = (0, 60] L 2 = (60, 120]... L 24 = (1380, 1440]

Esimerkki: Määrällinen aineisto Hav. Aika (min/päivä) Ryhmä 1 516 L9 2 513 L9 3 497 L9 4 477 L8 5 423 L8 Taulukko : Aineistokehikko, jossa on 5 havaintoa ja määrällinen muuttuja aika. Viimeisessä sarakkeessa on luokitellut arvot. Näiden viiden havainnon keskiarvo on 1 (516 + 513 + 497 + 477 + 423) = 485.2, 5 joka on noin 8 tuntia 5 minuuttia.

Esimerkki: Isien ja poikien pituudet I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P 165 152 165 171 179 174 178 178 184 187 174 168 171 174 165 178 178 184 173 165 178 170 172 176 178 181 170 161 168 170 182 173 179 179 175 199 180 168 173 173 161 161 166 171 181 172 177 178 173 192 173 168 169 172 169 178 181 183 175 165 177 170 175 175 178 182 158 162 167 170 185 173 179 179 178 155 157 172 173 172 165 161 167 170 180 174 179 177 172 192 174 167 170 172 168 177 183 182 158 168 156 172 175 175 177 180 161 163 167 171 161 176 184 178 184 184 160 171 173 173 167 159 167 171 182 173 180 178 185 196 181 169 169 173 167 177 184 182 160 169 160 174 175 175 177 182 166 164 167 170 163 176 186 179 151 165 163 170 173 174 155 163 167 172 186 172 181 178 159 156 159 170 173 173 169 178 170 186 164 169 163 172 175 176 182 181 165 163 171 170 165 175 163 181 186 185 162 171 173 173 160 163 167 171 160 175 183 179 173 189 160 170 172 172 169 179 172 187 162 168 162 172 175 176 183 181 169 164 169 171 166 176 164 180 173 182 166 171 174 173 166 163 167 170 162 177 183 178 165 180 163 171 173 172 174 177 175 186 164 167 165 173 176 175 184 180 169 164 171 171 167 177 167 182 160 166 164 171 174 173 164 163 170 172 166 177 192 178 187 191 162 172 173 174 173 178 177 186 164 168 164 173 177 176 184 182 151 165 171 170 168 175 170 180 168 155 164 171 176 173 168 164 169 171 164 176 164 181 160 157 165 171 175 173 173 178 177 186 168 169 167 174 177 177 164 184 160 166 171 171 167 176 170 181 181 183 171 173 176 173 170 163 171 170 169 177 169 180 159 163 166 171 176 172 173 180 179 185 168 168 168 172 178 176 170 184 163 167 173 170 167 177 174 182 173 180 170 159 176 174 150 166 171 171 167 176 167 181 178 159 165 171 175 174 175 179 184 185 167 169 167 173 178 175 172 182 163 167 173 170 170 176 174 181 166 157 165 169 176 174 160 166 169 171 167 176 170 181 181 187 174 175 175 174 175 179 185 186 170 168 168 172 181 177 173 183 164 165 173 170 170 175 173 182 179 171 176 167 178 173 162 167 173 172 168 177 170 182 181 169 166 158 176 173 175 179 173 188 171 169 168 173 181 175 176 183 166 167 174 170 171 176 174 182 174 164 162 174 177 172 163 166 172 171 169 176 173 181 176 158 163 163 177 173 176 178 174 190 171 168 171 173 182 176 175 184 168 167 175 171 173 176 174 181 157 161 164 172 179 173 164 166 174 172 169 177 171 180 178 166 168 168 179 172 177 177 181 188 174 169 170 172 163 179 178 183 168 167 177 171 172 176 175 181 165 161 168 171 181 173 165 165 173 171 169 175 172 181 166 163 175 167 178 174 177 178 183 189 172 169 170 173 166 178 178 183 170 165 178 172 174 176 175 182 168 162 168 171 183 174 169 165 175 172 172 176 175 180 158 159 164 170 180 174 179 179 190 189 172 169 169 173 168 179 180 184 173 165 177 171 174 175 178 180 151 162 169 171 184 173 167 166 175 171 174 176 176 181 162 161 168 170 179 173 178 179 181 191 174 168 171 174 167 178 181 184 174 167 178 172 174 176 177 182 159 162 168 170 160 177 171 165 177 170 172 176 175 180 167 161 167 170 184 173 180 177 174 196 178 169 170 173 166 177 183 182 156 169 155 173 175 176 178 180 162 162 167 172 162 174 170 166 179 169 172 177 177 181 173 160 169 171 184 174 181 179 153 154 155 170 173 174 169 179 185 184 161 168 159 174 175 175 178 181 164 163 170 170 164 175 172 165 178 170 173 176 179 182 157 162 167 170 159 176 181 178 162 158 159 172 173 174 171 178 173 186 162 167 163 174 176 175 181 181 167 164 170 169 166 175 177 166 185 172 176 175 178 181 162 162 169 171 162 175 182 177 160 169 163 171 172 173 171 178 175 186 163 168 163 173 175 176 179 181 168 164 169 170 167 175 159 169 160 173 174 176 178 180 165 164 171 172 164 176 186 177 163 149 163 170 173 173 173 177 175 186 165 168 165 174 175 175 184 181 179 162 170 171 168 175 162 169 160 174 174 176 180 181 167 162 170 171 165 175 162 180 188 178 162 171 174 172 172 180 177 186 164 168 165 174 177 175 186 180 158 165 170 170 167 175 164 168 162 173 174 176 181 182 169 164 169 172 166 176 168 181 183 180 164 170 174 174 173 178 181 187 168 168 168 172 177 176 164 185 164 166 172 171 169 175 165 168 164 174 174 175 184 181 175 163 171 170 167 176 168 181 155 165 164 170 175 173 176 177 183 185 169 168 168 173 179 176 170 183 163 166 172 170 171 176 164 168 164 174 179 176 186 180 157 166 171 170 168 175 171 180 166 179 173 173 175 173 175 179 185 185 169 167 169 173 179 175 172 184 165 166 171 170 171 175 167 169 168 174 178 175 190 182 163 165 173 171 167 177 169 180 183 176 164 162 176 173 176 178 167 190 171 169 168 174 180 176 174 184 166 166 173 170 170 175 166 167 167 173 178 176 171 184 162 167 172 171 170 176 173 181 181 165 168 160 174 173 174 177 174 188 171 169 167 174 181 176 176 184 166 166 174 170 174 177 167 168 168 174 178 176 171 183 165 165 173 170 171 177 172 180 166 175 166 167 178 174 176 178 180 189 171 168 170 174 183 175 174 183 168 167 174 171 172 176 170 167 166 173 181 177 172 184 166 165 173 170 171 175 173 180 175 177 177 171 177 174 178 178 184 188 172 169 171 174 161 179 177 182 168 164 176 172 173 176 169 167 167 174 180 176 176 183 165 166 175 171 172 175 174 180 164 159 166 171 178 172 177 179 184 188 174 168 170 174 165 179 178 184 171 165 177 172 172 175 169 169 170 173 183 176 175 184 167 167 176 170 172 175 176 181 163 161 166 172 182 174 178 179 175 192 172 167 169 174 167 178 179 184 172 167 178 171 172 175 172 167 169 174 190 175 178 183 168 167 176 170 174 176 176 181 169 161 168 171 184 174 180 177 187 193 176 169 171 172 168 177 180 183 178 166 179 172 176 176 173 169 170 173 165 177 177 184 170 165 179 170 172 177 177 181 170 160 168 170 183 174 180 177 178 199 177 169 170 173 169 178 182 184 161 169 160 172 175 177 172 168 170 173 167 178 179 184 172 166 178 172 174 175 178 181 158 162 168 170 155 176 181 179 173 157 152 171 172 173 168 179 185 184 162 167 161 173 175 176 174 168 170 174 167 178 181 184 175 164 179 170 174 176 177 182 162 163 168 170 160 176 184 178 164 177 158 171 174 174 170 177 173 186 163 168 164 174 175 177 176 169 170 172 167 178 184 183 158 167 159 172 175 176 178 180 166 163 168 170 164 177 185 179 154 158 162 171 172 173 170 178 172 187 164 168 163 174 175 176 182 169 172 173 167 179 184 183 159 167 160 172 174 175 180 181 167 164 170 170 166 176 164 181 190 181 162 170 173 173 172 179 176 186 165 169 164 172 175 175 159 171 173 173 171 179 172 185 162 169 161 174 176 176 179 181 168 163 170 170 165 177 165 181 179 182 164 170 172 174 173 178 179 186 167 169 164 174 178 175 164 171 172 173 171 177 173 186 166 169 162 174 174 176 184 181 172 162 171 172 166 176 167 180 155 166 164 170 175 172 174 177 181 187 167 169 168 173 179 176 164 170 174 172 172 179 175 185 164 169 164 174 174 175 182 180 153 167 171 172 167 176 171 180 166 183 166 170 176 174 173 178 184 187 168 168 167 173 178 175 162 170 172 174 174 178 178 186 167 168 165 174 177 176 185 181 160 165 171 172 168 175 171 180 181 181 165 173 176 174 176 179 183 185 171 169 167 173 177 175 166 170 175 173 174 177 182 187 168 168 167 174 179 175 168 183 161 167 173 171 171 176 172 182 182 164 176 171 176 174 176 178 164 188 169 168 167 173 181 176 165 170 176 173 173 180 180 185 168 169 168 174 178 175 171 183 165 164 174 170 169 175 173 182 159 166 172 160 175 173 174 179 172 189 169 168 169 173 181 177 167 176 175 173 176 178 183 186 167 169 169 173 178 176 172 183 165 165 172 170 171 175 174 180 181 177 165 171 177 174 175 179 178 188 170 169 170 174 185 177 174 175 176 174 175 178 160 189 171 168 166 173 181 176 175 182 165 165 173 170 171 176 172 180 169 165 176 175 177 173 177 179 180 188 173 168 170 174 166 179 169 157 176 173 176 178 173 189 170 169 170 173 181 177 176 183 168 167 175 171 173 175 176 182 171 155 165 170 178 172 177 177 185 189 172 168 171 174 168 178 165 167 174 174 176 179 178 187 171 169 170 173 184 176 177 183 168 166 175 171 172 175 176 181 159 160 165 171 179 173 179 179 175 191 174 167 170 174 166 179 177 175 177 173 177 177 180 188 172 167 170 174 164 178 178 184 169 165 179 172 173 175 176 182 165 162 167 171 184 173 181 179 184 194 176 167 170 172 167 179 Taulukko : 1000 havaintoparia Pearsonin isä-poika pituusaineistosta.

Height Son 140 150 160 170 180 190 200 140 150 160 170 180 190 200 Father

Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Histogram of Fathers 140 150 160 170 180 190 200 Height

Histogram of Sons Density 0.00 0.02 0.04 0.06 140 150 160 170 180 190 200 Height

Määrällisen muuttujan tunnuslukuja Keskiarvo (eli otoskeskiarvo) n m(x) = 1 n i=1 x i Otosvarianssi s 2 (x) = 1 n 1 n (x i m(x)) 2 i=1 Otoskeskihajonta s(x) = s 2 (x) Huom Yo. luvut lasketaan suoraan havaitusta aineistosta, joten niillä ei ole mitään tekemistä minkään todennäköisyysjakauman kanssa. R: mean(x), var(x), sd(x)

Järjestystunnuslukuja Järjestetyn muuttujan (määrällinen tai järjestetty laadullinen) havainnoista x = (x 1,..., x n ), voidaan laskea tason p (0, 1) kvantiili Q(p): Q(0.25) on alakvartiili Q(0.5) on mediaani Q(0.75) on yläkvartiili Tällöin 25 % havainnoista on alakvartiilin alapuolella Puolet havainnoista sijaitsee mediaanin alapuolella 25 % havainnoista on yläkvartiilin yläpuolella R: quantile(x,p), summary(x), median(x)

Sisältö Johdanto Tilastollisen aineiston kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi Suurimman uskottavuuden estimaattori

Tilastokokeen stokastinen malli Otantatutkimus Tutkittavan muuttujan arvo havaitaan n:n alkion osajoukossa ja halutaan päätellä tutkittavan muuttujan (tuntematon) jakauma f (x) koko populaatiossa. Stokastinen malli Tilastokokeen tulosta mallinnetaan satunnaisvektorilla (X 1,..., X n ), jonka alkiot ovat riippumattomat ja noudattavat (tuntematonta) jakaumaa f (x). Stokastinen malli on tarkka, kun: Havaitut alkiot on valittu tasaisen satunnaisesti ja riippumattomasti. Havaittujen alkioiden lukumäärä on pieni suhteessa perusjoukon kokoon.

Tilastokokeen stokastisen mallin soveltaminen Ongelma Otantatutkimuksessa on havaittu muuttujan arvot (x 1,..., x n ). Miten voidaan havainnoista päätellä tutkittavan muuttujan (tuntematon) jakauma koko populaatiossa? Ratkaisu Tehdään arvaus, että tuntematon jakauma on f (x). Jos arvaus on (likimain) oikea, niin otannan tulosta voidaan (likimain) mallintaa satunnaisvektorilla (X 1,..., X n ), jonka alkiot ovat riippumattomat ja noudattavat jakaumaa f (x). Stokastiikan menetelmillä johdetaan tn, että (X 1,..., X n ) saa (likimain) arvon (x 1,..., x n ). Jos saatu tn 0, hylätään arvaus todennäköisin syin.

Aineiston ja stokastisen mallin tunnusluvut Stokastiikan menetelmillä johdetaan tn, että (X 1,..., X n ) saa (likimain) arvon (x 1,..., x n ). Lasketaan tunnusluku g(x 1,..., x n ) aineistosta Tutkitaan, millä tn:llä satunnaisluku g(x 1,..., X n ) on likimain g(x 1,..., x n ) Tunnusluku on funktio g : R n R. Esim Keskiarvo m(x) = 1 n n i=1 x i Otosvarianssi s 2 (x) = 1 n 1 n i=1 (x i m(x))

Aineiston ja stokastisen mallin keskiarvot Havainnot (x 1,..., x n ) Stokastinen malli (X 1,..., X n ) n n m(x) = 1 n i=1 x i m(x ) = 1 n i=1 X i E(m(x)) = m(x) Var(m(x)) = 0 E(m(X )) = Var(m(X )) = 1 n σ2 = 1 n x f (dx) = µ (x µ) 2 f (x)dx. Huom Stokastisen mallin keskiarvo on satunnaisluku, jonka odotusarvo on µ ja varianssi σ 2 /n.

Aineiston ja stokastisen mallin otosvarianssit Havaittu aineisto (x 1,..., x n ) s 2 (x) = 1 n 1 n (x i m(x)) 2 i=1 E(s 2 (x)) = s 2 (x) Var(s 2 (x)) = 0 Stokastinen malli (X 1,..., X n ) s 2 (X ) = 1 n 1 E(s 2 (X )) = σ 2 = n (X i m(x )) 2 i=1 Var(s 2 (X )) =... (x µ) 2 f (x)dx.

Stokastisen mallin sopivuus aineistoon Kun on havaittu aineisto (x 1,..., x n ) ja arvattu jakauma f (x), Miten lasketaan tn, että m(x ) m(x)? Miten lasketaan tn, että s 2 (X ) s 2 (x)? Tulee selvittää stokastista mallia vastaavien tunnuslukujen m(x ) ja s 2 (X ) jakaumat

Stokastisen mallin tunnusluvun jakauma Fakta Kun satunnaisvektorin (X 1,..., X n ) komponentit ovat riippumattomat ja noudattavat jakaumaa f (x), niin tunnusluvun g(x 1,..., X n ) jakauma saadaan kaavasta Pr(a < g(x 1,..., X n ) < b) = f (u 1 ) f (u n ) du 1 du n, g 1 (a,b) missä g 1 (a, b) = {u R n : g(u) (a, b)}. Huom (Arvattu) tiheysfunktio f (x) määrää tunnusluvun jakauman Vastaava kaava pätee diskreeteille jakaumille, kun integraalit vaihdetaan summiksi ja tiheydet pistetodennäköisyyksiksi. Yo. kaava on monissa käytännön tilanteissa hyödytön, koska moniulotteinen integraali on vaikea laskea.

Normaalijakautuneen mallin tunnusluvut Fakta Kun satunnaisvektorin (X 1,..., X n ) komponentit ovat riippumattomat ja noudattavat N(µ, σ 2 )-jakaumaa, niin Keskiarvo m(x ) = 1 n noudattaa N(µ, σ 2 /n)-jakaumaa. Normalisoitu otosvarianssi n 1 σ 2 s2 (X ) = n i=1 X i n ( Xi m(x ) i=1 noudattaa χ 2 (n 1)-jakaumaa ( khii toiseen ) R: pnorm(x,mu,sigma), pchisq(x,n-1) σ ) 2

Esim. Isien pituudet: Keskiarvo On väitetty, että 1900-luvun alussa isien pituudet (cm) noudattavat N(µ, σ 2 )-jakaumaa, missä µ = 171 ja σ = 7. Pearsonin keräämälle n = 1078 havainnon otokselle x = (x 1,..., x n ) m(x) = 171.9, s 2 (x) = 48.75, s(x) = 6.98. Jos väite ok, niin m(x ) N(µ, σ1 2), missä σ 1 = σ/ n = 0.213. ( m(x ) µ Pr(m(X ) > m(x)) = Pr > m(x) µ ) σ 1 σ 1 ( ) m(x) µ = 1 pnorm = 7.6 10 6. Väite voidaan siis hylätä todennäköisin syin. R: pnorm(x) σ 1

Esim. Isien pituudet: Keskiarvo On väitetty, että 1900-luvun alussa isien pituudet (cm) noudattavat N(µ, σ 2 )-jakaumaa, missä µ = 171 ja σ = 7. Pearsonin keräämälle n = 1078 havainnon otokselle x = (x 1,..., x n ) m(x) = 171.9, s 2 (x) = 48.75, s(x) = 6.98. Jos väite ok, niin n 1 σ s 2 (X ) χ 2 (n 1), jolloin 2 ( n 1 Pr(s 2 (X ) s 2 (x)) = Pr σ 2 s 2 (X ) n 1 σ 2 = pchisq ( n 1 σ 2 s 2 (x), n 1 Väitettä ei siis voida hylätä todennäköisin syin. R: pchisq(x,n-1) ) s 2 (x) ) 0.458

Sisältö Johdanto Tilastollisen aineiston kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi Suurimman uskottavuuden estimaattori

Normaalijakauman parametrien estimointi Havaittu määrällisen muuttujan arvot x = (x 1,..., x n ). Pohjaoletus: Havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Miten estimoidaan tuntemattomat parametrit µ ja σ 2 aineistosta? Estimaattoreina käytetään yleensä keskiarvoa ja otosvarianssia: m(x ) = 1 n n i=1 X i ja s 2 (X ) = 1 n 1 n (X i m(x )) 2. i=1 Jos pohjaoletus pätee, niin E(m(X )) = µ ja E(s 2 (X )) = σ 2. Näin ollen m(x ) ja s 2 (X ) ovat parametrien µ ja σ 2 harhattomat estimaattorit.

Miten estimoidaan normaalijakauman N(µ, σ 2 ) odotusarvoparametri µ ja sille luottamusväli?

Normaalijakauman t-testisuure Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat N(µ, σ 2 )-jakautuneet komponentit m(x ) = 1 n n i=1 X i s 2 (X ) = 1 n n 1 i=1 (X i m(x )) 2 Fakta N(µ, σ 2 )-jakautuneen stokastisen mallin t-testisuure t(x ) = m(x ) µ s(x )/ n noudattaa Studentin t-jakaumaa vapausastein n 1.

Studentin t-jakauma Jatkuva satunnaisluku X noudattaa Studentin t-jakaumaa vapausastein n, jos sillä on tiheysfunktio muotoa f (x) = c (1 + x 2 n ) n+1 2. Studentin t-jakauma on symmetrinen: Kaikilla x > 0 pätee 1 F (x) = Pr(X > x) = Pr(X < x) = F ( x) Pr( X > x) = 2 Pr(X > x) Tiheysfunktio ja kertymäfunktio R:llä: dt(x, n) ja pt(x, n)

Studentin t-jakauma t distributions f(x) 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 x Kuva : Studentin t-jakaumia vapausastein n = 1 (sininen), n = 2 (vihreä), n = 5 (punainen)ja n = (musta).

Normaalijakauman odotusarvon luottamusväli Fakta Jos satunnaisvektorilla X = (X 1,..., X n ) on riippumattomat N(µ, σ 2 )-jakautuneet komponentit, niin satunnaisväli ( ) s(x ) s(x ) m(x ) t 1 α/2, m(x ) + t n 1 α/2 n peittää parametrin µ tn:llä 1 α, missä t 1 α/2 = qt(1 α/2, n 1) on n 1 vapausasteen Studentin t-jakauman tason 1 α/2 kvantiili.

Normaalijakauman odotusarvon luottamusväli: Tulkinta Havaittu määrällisen muuttujan arvot x = (x 1,..., x n ). Aineistosta laskettu luottamustason 1 α luottamusväli on ( ) s(x) s(x) m(x) t 1 α/2, m(x) + t n 1 α/2 n Pohjaoletus: Havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Tulkinta: Aineistosta laskettu estimaatti ˆµ = m(x) aina kuuluu yo. välille Tuntematon parametri µ joko kuuluu tai ei kuulu yo. välille Jos pohjaoletus pätee, niin satunnainen väli ( ) s(x ) s(x ) m(x ) t 1 α/2, m(x ) + t n 1 α/2 n peittää tuntemattoman parametrin µ tn:llä 1 α.

Miten estimoidaan normaalijakauman N(µ, σ 2 ) varianssiparametri σ 2 ja sille luottamusväli?

Normaalijakauman varianssin χ 2 -testisuure Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat N(µ, σ 2 )-jakautuneet komponentit m(x ) = 1 n n i=1 X i s 2 (X ) = 1 n n 1 i=1 (X i m(x )) 2 Fakta Stokastiseen malliin perustuva testisuure χ 2 (X ) = (n 1)s2 (X ) σ 2 noudattaa χ 2 -jakaumaa vapausastein n 1.

Khii toiseen -jakauma Jatkuva satunnaisluku X 0 noudattaa χ 2 -jakaumaa vapausastein n, jos sillä on tiheysfunktio muotoa { c x n 2 1 e x/2, x > 0, f (x) = 0, x 0. χ 2 -jakauma ei ole symmetrinen: F (x) = 0 kaikilla x < 0. Tiheysfunktio ja kertymäfunktio R:llä: dchisq(x, n) ja pchisq(x, n)

χ 2 -jakauma Chi squared distribution f(x) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 2 4 6 8 10 x Kuva : χ 2 -jakaumien tiheysfunktioita vapausastein n = 1 (musta), n = 2 (punainen), n = 3 (vihreä) and n = 5 (sininen).

Normaalijakauman varianssin luottamusväli Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat N(µ, σ 2 )-jakautuneet komponentit Fakta Satunnaisväli ( (n 1)s 2 (X ) c 1 α/2, (n 1)s 2 ) (X ) c α/2 peittää parametrin σ 2 tn:llä 1 α, missä c 1 α/2 = qchisq(1 α/2, n 1), c α/2 = qchisq(α/2, n 1), ovat n 1 vapausasteen χ 2 -jakauman tasojen 1 α/2 ja α/2 kvantiilit.

Normaalijakauman varianssin luottamusväli: Tulkinta Havaittu määrällisen muuttujan arvot x = (x 1,..., x n ). Aineistosta laskettu luottamustason 1 α varianssin luottamusväli on ( (n 1)s 2 (x) (n 1)s 2 ) (x), c 1 α/2 c α/2 Pohjaoletus: Havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Tulkinta: Aineistosta laskettu estimaatti ˆσ 2 = s 2 (x) aina kuuluu yo. välille Tuntematon parametri σ 2 joko kuuluu tai ei kuulu yo. välille Jos pohjaoletus pätee, niin satunnainen väli ( (n 1)s 2 (X ) c 1 α/2, (n 1)s 2 (X ) c α/2 peittää tuntemattoman parametrin σ 2 tn:llä 1 α. )

Normaalijakauman parametrien estimointi Yhteenveto Tuntemattomien parametrien µ ja σ 2 :n piste-estimaatit: m(x) = 1 n n i=1 x i ja s 2 (x) = 1 n 1 n (x i m(x)) 2. i=1 Aineistosta laskettu luottamustason 1 α luottamusväli µ:lle: ( ) s(x) s(x) m(x) t 1 α/2, m(x) + t n 1 α/2 n Aineistosta laskettu luottamustason 1 α luottamusväli σ 2 :lle: ( (n 1)s 2 (x) (n 1)s 2 ) (x), c 1 α/2 c α/2 Luottamuskertoimet: t 1 α/2 = qt(1 α/2, n 1), c 1 α/2 = qchisq(1 α/2, n 1), c α/2 = qchisq(α/2, n 1).

Sisältö Johdanto Tilastollisen aineiston kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi Suurimman uskottavuuden estimaattori

Bernoullijakauman parametrin estimointi Tehdään n riippumatonta otosta palauttaen suuresta perusjoukosta. Merkitään { 1, jos alkio i kuuluu joukkoon A, X i = 0, muuten Halutaan estimoida osajoukon A alkioiden suhteellinen osuus p koko perusjoukon alkioista. Käytetään estimaattoria ˆp(X ) = 1 n n X i = i=1 lkm(havaitut alkiot joukossa A) n Tämä on tuntemattoman parameterin p harhaton estimaattori, sillä E(ˆp(X )) = p.

Bernoullijakauman testisuure Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat Ber(p)-jakautuneet komponentit Kun n on suuri ja p ei ole kovin lähellä nollaa tai ykköstä, niin stokastisen mallin pohjalta määritelty testisuure ˆp(X ) p ˆp(X )(1 ˆp(X ))/n noudattaa likimain N(0, 1)-jakaumaa.

Bernoullijakauman luottamusväli Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat Ber(p)-jakautuneet komponentit Kun n on suuri ja p ei ole kovin lähellä nollaa tai ykköstä, niin satunnainen väli ( ) ˆp(X )(1 ˆp(X )) ˆp(X )(1 ˆp(X )) ˆp(X ) z, ˆp(X ) + z n n peittää parametrin p likimain todennäköisyydellä 1 α, missä z = qnorm(1 α/2) on N(0, 1) jakauman tason 1 α/2 tason kvantiili.

Sisältö Johdanto Tilastollisen aineiston kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi Suurimman uskottavuuden estimaattori

Suurimman uskottavuuden function Oletetaan, että on kerätty havainnot x = (x 1, x 2,..., x n ) satunnaismuuttujista X 1, X 2,..., X n, joilla on yhteistiheysfunktio f (x; θ), missä θ on jakauman parametri. Havaintoihin liittyvä Suurimman uskottavuuden funktio on L(θ) = f (x 1,..., x n ; θ), joka on parametrin θ funktio, kun havainnot x = (x 1,..., x n ) on kiinnitetty. Huom Jos X 1, X 2,..., X n ovat riippumattomia, niin L(θ) = f (x; θ) = n f i (x i ; θ), missä f i (x i ; θ) on satunnaismuuttujan X i tiheysfunktio kaikilla i = 1,..., n. i=1

Suurimman uskottavuuden estimaattori Oletetaan, että X 1,..., X n ovat riippumattomia satunnaismuuttujia. Suurimman uskottavuuden estimaattori ˆΘ = ˆΘ(X 1,..., X n ) on satunnaismuuttuja, jolle ˆΘ = argmax θ f (X 1,..., X n ; θ) f (X 1,..., X n ; ˆΘ) = max f (X 1,..., X n ; θ). θ Kun havainnot x 1,..., x n on tehty, voidaan laskea suurimman uskottavuuden estimaatti ˆθ. joka toteuttaa yhtälön ˆθ = ˆΘ(x 1,..., x n ), L(ˆθ) = f (x 1,..., x n ; ˆθ) = max f (x 1,..., x n ; θ). θ

Suurimman uskottavuuden estimaatin etsiminen Suurimman uskottavuuden estimaatti ˆθ on usein jokin seuraavista: Funktion L epäjatkuvuuspiste Funktion L määrittelyoukon reunapiste Piste, jossa funktion L derivaatta on 0. Sen sijaan, että maksimoidaan L, on usein helpompaa maksimoida logaritminen uskottavuusfunktio l(θ) = log(l(θ)), sillä logaritmi muuntaa tulot summiksi ja derivoinit on siten helpompaa. Tämän maksimointi on yhtäpitävää funktion L maksimoinnin kanssa, sillä L on ei-negatiivinen ja logaritmi on aidosti kasvava välillä (0, ).

Suurimman uskottavuuden estimaattori normaalijakaumalle Olkoot x 1,..., x n reaalisaatioita riippumattomista N(µ, σ 2 )-jakautuneista satunnaismuuttujista X 1,..., X n, eli X i :n tiheysfunktio on f (x i ; µ, σ 2 ) = 1 ( σ 2π exp 1 ( ) xi µ 2 ) 2 σ kaikilla i ja joillekin µ (, ), σ > 0. Huom Normaalijakaumalle parametri θ on kaksiulotteinen vektori θ = (µ, σ 2 ).

... Suurimman uskottavuuden estimaattori normaalijakaumalle Uskottavuusfunktio annetulle x = (x 1,..., x n ) on L(µ, σ 2 ) = f (x 1 ; µ, σ 2 )f (x 2 ; µ, σ 2 ) f (x n ; µ, σ 2 ) ( 1 = exp 1 n ) σ n (2π) n 2 2σ 2 (x i µ) 2 ja log-uskottavuusfunktio on l(µ, σ 2 ) = log L(µ, σ 2 ) i=1 = n 2 log(σ2 ) n 2 log(2π) 1 2σ 2 n (x i µ) 2 i=1

Uskottavuusfunktion maksimin etsiminen l(µ, σ 2 ) = n 2 log(σ2 ) n 2 log(2π) 1 2σ 2 n (x i µ) 2 (1) Derivoidaan µ:n suhteen ja asetetaan derivaatta nollaksi: 0 =: µ l(µ, σ2 ) = 1 n σ 2 (x i µ). Nyt saadaan ratkaistuksi ˆµ = 1 n n i=1 x i = m(x). (2) Korvataan µ arolla ˆµ = m(x) funktiossa l: l(m(x), σ 2 ) = n 2 log(σ2 ) n 2 log(2π) 1 n 2σ 2 (x i m(x)) 2. (3) Derivoidaan σ 2 :n suhteen ja asetetaan derivaatta nollaksi: 0 =: σ 2 l(µ, σ2 ; x) = n 2σ 2 + 1 n 2σ 4 (x i m(x)) 2. i=1 i=1 i=1 i=1 Ratkaisu: ˆσ 2 = 1 n n i=1 (x i m(x)) 2 = n 1 n s2 (x).

Suurimman uskottavuuden estimaattori normaalijakaumalle Parametrin µ SU-estimaattori muuttujille (X 1,..., X n ) ˆM = m(x ) = 1 n n i=1 X i on harhaton, tehokas (sillä on pienein varianssi harhattomien estimaattoreiden joukossa) ja johdonmukainen (ˆµ µ). N ( ) µ, σ2 n -jakautunut Parametrin σ 2 SU-estimaattori ˆΣ 2 = 1 n n (X i m(x )) 2 on i=1 harhainen: E(Σ 2 ) = n 1 n σ2, mutta johdonmukainen. on χ 2 (n 1)-jakautunut. n ˆΣ 2 σ 2

Huom Estimaattori on satunnaismuuttuja ja estimaatti on estimaattorin realisaatio. Estimaatti ei ole satunnainen. Tilastotieteen kirjallisuudessa näitä ei aina ole selkeästi eroteltu, koska oletuksena on, että analysoidaan jotakin aineistoa, eli taustalla olevien satunnaismuuttujien X 1,..., X n havaittuja realisaatioita x 1,..., x n.

Ensi viikolla aiheena tilastollinen hypoteesin testaus...

Aineistolähteet Luentokalvot pohjautuvat osittain kurssin edellisten vuosien (Ilkka Mellin, Milla Kibble, Juuso Liesiö) luentokalvoihin. Esityksessä käytetyt kuvat Guinness-tuoppi: Image courtesy of Sami Keinänen Wikimedia Commons.