MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
|
|
- Jaana Hakala
- 6 vuotta sitten
- Katselukertoja:
Transkriptio
1 MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 4 Tilastollisen datan kuvaileminen, mallintaminen ja estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Kevät 2016
2 Sisältö Johdanto Tilastollisen datan kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi (suurilla n) Suurimman uskottavuuden estimaattori
3 Sisältö Johdanto Tilastollisen datan kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi (suurilla n) Suurimman uskottavuuden estimaattori
4 Mitä tilastotiede on? Tilastotiede soveltaa sekä kehittää metodeja ja malleja, joita voidaan käyttää tutkittaessa reaalimaailman satunnaisilmiöitä. Menetelmät ja mallit perustuvat todennäköisyysteorian lainalaisuuksiin. Tilastotiedettä voidaan soveltaa aina, kun saatavilla on kvantifioitavaa dataa. Mikä tahansa datajoukko, joka kuvaa jotakin reaalimaailman ilmiötä on potentiaalinen tilastotieteen tutkimuskohde.
5 Tilastollinen data Populaatio on joukko, joka sisältää kaikki mahdolliset tilastollisen kokeen kohteet eli yksiköt Havainto on havaittu arvo, joka liitetään yksikköön. Tilastollinen datajoukko on kaikista havainnoista koostuva kokoelma. Esim: Tutkitaan suomalaisten pituuksia ja mitataan sitä varten 2000 satunnaisesti valittua suomalaista. Silloin Populaatio on kaikki suomalaiset. Yksikkö on kuka tahansa suomalainen. Havainto on kenen tahansa mitatun suomalaisen pituus. Tilastollinen aineisto koostuu kaikista mitatuista pituuksista.
6 Yleiskatsaus Datan kuvailemiseen käytettäviä menetelmiä: Kuvaajat Tunnusluvut (esim. keskiarvo, kvantiilit, korrelaatio) Tilastolliset mallit Tilastolliseen päättelyyn käytettäviä menetelmiä Tilastolliset mallit Tilastollinen estimointi Tilastollinen testaus
7 Sisältö Johdanto Tilastollisen datan kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi (suurilla n) Suurimman uskottavuuden estimaattori
8 Tilastollinen data Tilastollisen analyysin kohteena oleva data on usein tapana tallettaa taulukkoon eli datakehikkoon, jonka rivit vastaavat kohteesta tehtyjä havaintoja sarakkeet vastaavat tutkittavan ilmiön muuttujia Muuttujat voivat olla laadullisia tai määrällisiä laadullisen muuttujan arvot jaotellaan luokkiin (esim. aurinkoista, sateista, pilvistä ) määrällisen muuttujan arvot ovat lukuja
9 Tilastollinen aineisto Hav. X 1 X 2 X m 1 X 1,1 X 1,2 X 1,m 2 X 2,1 X 2,2 X 1,m 3 X 3,1 X 3,2 X 1,m n X n,1 X n,2 X n,m Taulukko: Aineistokehikko, jossa on n havaintoa ja m muuttujaa.
10 Laadullinen muuttuja Arvot jaotellaan luokkiin, jotka toisinaan numeroidaan kokonaisluvuilla (vaikkapa tietokoneelle tallentamisen helpottamiseksi tai muusta syystä). Esim. Miten kuljet työmatkat? 1 = Bussilla 2 = Polkupyörällä 3 = Muulla tavoin Huom Numeroidun laadullisen muuttujan keskiarvo ei yleensä tarkoita mitään. Numeroidun laadullisen muuttujan mediaanilla voi olla merkitys, mikäli arvot voidaan järjestää.
11 Esimerkki: Laadullinen muuttuja Hav. Matkustustapa 1 Bussi 2 Joku muu 3 Joku muu 4 Bussi 5 Polkupyörä Taulukko: Aineistokehikko, jossa on 5 havaintoa ja muuttuja matkustutapa. Edellä valitulla numeroinnilla muuttujan keskiarvo olisi 1 ( ) = 2, 5 mutta tässä ei ole järkeä, koska muuten bussin ja jonkun muun keskiarvo olisi polkupyörä.
12 Määrällinen muuttuja Määrällinen muuttuja saa arvoja reaalilukujen osajoukossa. Määrällinen muuttuja voidaan muuntaa laadulliseksi jakamalla arvot luokkiin. Esim Satunnaisesti valitun suomalaisen työssäkäyvän työaika (min/vrk) on määrällinen muuttuja, joka saa arvoja joukossa [0, 1440]. Tämä voidaan jakaa luokkiin esim. L 1 = (0, 60] L 2 = (60, 120]... L 24 = (1380, 1440]
13 Esimerkki: Määrällinen aineisto Hav. Aika (min/päivä) Ryhmä L L L L L8 Taulukko: Datakehikko, jossa on 5 havaintoa ja määrällinen muuttuja aika. Viimeisessä sarakkeessa on luokitellut arvot. Havaittujen aikojen keskiarvo on 1 ( ) = min 5 eli noin 8 tuntia 5 minuuttia.
14 Esimerkki: Isien ja poikien pituudet I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P I P Taulukko: 1000 havaintoparia Pearsonin isä-poika pituusaineistosta.
15 Height Son Father
16 Density Histogram of Fathers Height
17 Histogram of Sons Density Height
18 Määrällisen muuttujan tunnuslukuja Määrällisen muuttujan havaituista arvoista x = (x 1,..., x n ) voidaan laskea tunnusluvut: Keskiarvo (eli otoskeskiarvo) m(x) = 1 n n i=1 x i Otosvarianssi s 2 (x) = 1 n n 1 i=1 (x i m(x)) 2 Otoskeskihajonta s(x) = s 2 (x) Huom Yo. luvut lasketaan suoraan havaitusta datasta, joten niillä ei ole mitään tekemistä minkään todennäköisyysjakauman kanssa. R: mean(x), var(x), sd(x)
19 Järjestystunnuslukuja Järjestetyn muuttujan (määrällinen tai järjestetty laadullinen) havainnoista x = (x 1,..., x n ), voidaan laskea tason p (0, 1) kvantiili Q(p): Q(0.25) on alakvartiili Q(0.5) on mediaani Q(0.75) on yläkvartiili Tällöin 25 % havainnoista on alakvartiilin alapuolella Puolet havainnoista sijaitsee mediaanin alapuolella 25 % havainnoista on yläkvartiilin yläpuolella R: quantile(x,p), summary(x), median(x)
20 Sisältö Johdanto Tilastollisen datan kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi (suurilla n) Suurimman uskottavuuden estimaattori
21 Tilastokokeen stokastinen malli Otantatutkimus Tutkittavan muuttujan arvo havaitaan n:n alkion osajoukossa ja halutaan päätellä tutkittavan muuttujan (tuntematon) jakauma f (x) koko populaatiossa. Stokastinen malli Tilastokokeen tulosta (ennen mittausten tekemistä) mallinnetaan satunnaisvektorilla (X 1,..., X n ), jonka alkiot ovat riippumattomat ja noudattavat (tuntematonta) jakaumaa f (x). Stokastinen malli on tarkka, kun: Havaitut alkiot on valittu tasaisen satunnaisesti ja riippumattomasti. Havaittujen alkioiden lukumäärä on pieni suhteessa populaation kokoon.
22 Tilastokokeen stokastisen mallin soveltaminen Ongelma Otantatutkimuksessa on havaittu muuttujan arvot (x 1,..., x n ). Miten voidaan havainnoista päätellä tutkittavan muuttujan (tuntematon) jakauma koko populaatiossa? Ratkaisu Tehdään arvaus, että tuntematon jakauma on f (x). Jos arvaus on (likimain) oikea, niin otannan tulosta voidaan (likimain) mallintaa satunnaisvektorilla (X 1,..., X n ), jonka alkiot ovat riippumattomat ja noudattavat jakaumaa f (x). Stokastiikan menetelmillä johdetaan tn, että (X 1,..., X n ) saa (likimain) arvon (x 1,..., x n ). Jos saatu tn 0, hylätään arvaus todennäköisin syin.
23 Datajoukon ja stokastisen mallin tunnusluvut Stokastiikan menetelmillä johdetaan tn, että (X 1,..., X n ) saa (likimain) arvon (x 1,..., x n ). Lasketaan tunnusluku g(x 1,..., x n ) datasta Tutkitaan, millä tn:llä satunnaisluku g(x 1,..., X n ) on likimain g(x 1,..., x n ) Tunnusluku on funktio g : R n R. (Idea: sääntö, jolla n havainnon aineistosta lasketaan yksi luku ) Esim Keskiarvo m(x) = 1 n n i=1 x i Otosvarianssi s 2 (x) = 1 n n 1 i=1 (x i m(x)) 2
24 Stokastisen mallin otoskeskiarvo Tilastokokeen stokastisen mallin X = (X 1,..., X n ) otoskeskiarvo m(x ) = 1 n n i=1 X i on satunnaisluku, jonka odotusarvo on E[m(X )] = E [ 1 n ] n X i = 1 n i=1 n E[X i ] = 1 n i=1 n µ = µ i=1 ja varianssi on Var[m(X )] = Var [ 1 n ] n X i i=1 = 1 n 2 Var [ n i=1 X i ] = 1 n 2 n i=1 σ 2 = σ2 n, missä E[X i ] = µ ja Var[X i ] = σ 2. Huom. Yllä käytettiin satunnaislukujen X 1,..., X n riippumattomuutta.
25 Stokastisen mallin otosvarianssi Tilastokokeen stokastisen mallin X = (X 1,..., X n ) otosvarianssi tuntuisi luontevalta määritellä kaavalla s 2 0 (X ) = 1 n n i=1 (X i m(x )) 2. Tämä on satunnaisluku, jonka odotusarvoksi saadaan yleiskaavojen 1 n (X i m(x )) 2 = 1 n Xi 2 m(x ) 2 n n i=1 i=1 Var[Y ] = E[Y 2 ] (E[Y ]) 2 ja otoskeskiarvon ominaisuuksien E[m(X )] = µ, Var[m(X )] = σ 2 /n avulla [ ] E[s0 2 1 n (X )] = E Xi 2 m(x ) 2 = E[X1 2 ] E[m(X ) 2 ] n i=1 = Var[X 1 ] + (E[X 1 ]) 2 Var[m(X )] (E[m(X )]) 2 = σ 2 + µ 2 σ 2 /n µ 2 = (1 1/n)σ 2. Tarkempi varianssiparametrin σ 2 estimaattori saadaan määrittelemällä otosvarianssi kaavalla s 2 (X ) = 1 n n 1 i=1 (X i m(x )) 2, jolloin [ ] n E[s 2 n (X )] = E n 1 s2 0 (X ) = n 1 (1 1/n)σ2 = σ 2
26 Datajoukon ja stokastisen mallin keskiarvot Havainnot (x 1,..., x n ) Stokastinen malli (X 1,..., X n ) n n m(x) = 1 n i=1 x i m(x ) = 1 n i=1 X i E(m(x)) = m(x) Var(m(x)) = 0 E(m(X )) = Var(m(X )) = 1 n σ2 = 1 n x f (x)dx = µ (x µ) 2 f (x)dx. Yllä µ ja σ 2 ovat arvatun jakauman f (x) odotusarvo ja varianssi (jotka lasketaan matemaattisesti, datasta riippumatta). Stokastisen mallin keskiarvo m(x ) on satunnaisluku, jonka odotusarvo on µ ja varianssi σ 2 /n.
27 Datajoukon ja stokastisen mallin otosvarianssit Havaittu aineisto (x 1,..., x n ) s 2 (x) = 1 n 1 n (x i m(x)) 2 i=1 E(s 2 (x)) = s 2 (x) Var(s 2 (x)) = 0 Stokastinen malli (X 1,..., X n ) s 2 (X ) = 1 n 1 E(s 2 (X )) = σ 2 = n (X i m(x )) 2 i=1 Var(s 2 (X )) = (x µ) 2 f (x)dx. Huom Stokastisen mallin otosvarianssi s 2 (X ) on satunnaisluku, jonka odotusarvo on σ 2.
28 Stokastisen mallin sopivuus dataan Kun on havaittu datajoukko (x 1,..., x n ) ja arvattu jakauma f (x), Miten lasketaan tn, että m(x ) m(x)? Miten lasketaan tn, että s 2 (X ) s 2 (x)? jne. jne. muille tunnusluvuille... Tulee selvittää stokastista mallia vastaavien tunnuslukujen m(x ) ja s 2 (X ) jakaumat
29 Stokastisen mallin tunnusluvun jakauma Fakta Kun satunnaisvektorin (X 1,..., X n ) komponentit ovat riippumattomat ja noudattavat jakaumaa f (x), niin tunnusluvun g(x 1,..., X n ) jakauma saadaan kaavasta Pr(a < g(x 1,..., X n ) < b) = ) f (u 1 ) f (u n ) du 1 du n, g ((a,b) 1 missä g 1( (a, b) ) = {u R n : g(u) (a, b)} on välin (a, b) alkukuva kuvauksessa g. Huom (Arvattu) tiheysfunktio f (x) määrää tunnusluvun jakauman stokastisessa mallissa Vastaava kaava pätee diskreeteille jakaumille, kun integraalit vaihdetaan summiksi ja tiheydet pistetodennäköisyyksiksi. Yo. kaava on monissa käytännön tilanteissa hyödytön, koska moniulotteinen integraali on vaikea laskea.
30 Normaalijakautuneen mallin tunnusluvut Fakta Kun satunnaisvektorin (X 1,..., X n ) komponentit ovat riippumattomat ja N(µ, σ 2 )-jakautuneet, niin Keskiarvo m(x ) = 1 n noudattaa N(µ, σ 2 /n)-jakaumaa. Normalisoitu otosvarianssi n 1 σ 2 s2 (X ) = n i=1 X i n ( Xi m(x ) i=1 noudattaa χ 2 (n 1)-jakaumaa ( khii toiseen, kts. alla) R: pnorm(x,mu,sigma), pchisq(x,n-1) σ ) 2
31 Esim. Isien pituudet: Keskiarvo On väitetty, että 1900-luvun alussa isien pituudet (cm) ovat N(µ, σ 2 )-jakautuneet parametrein µ = 171 ja σ = 7. Pearsonin keräämälle n = 1078 havainnon otokselle m(x) = 171.9, s 2 (x) = 48.75, s(x) = Jos väite ok, niin m(x ) N(µ, σ1 2), missä σ 1 = σ/ n = ( ) m(x ) µ Pr(m(X ) 171.9) = Pr σ = 1 pnorm (4.32) = Jos väite olisi totta, niin tn havaita 1078 alkion datajoukosta otoskeskiarvo on hyvin pieni ( ). = Väite voidaan hylätä todennäköisin syin. R: pnorm(x)
32 Sisältö Johdanto Tilastollisen datan kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi (suurilla n) Suurimman uskottavuuden estimaattori
33 Normaalijakauman parametrien estimointi Havaittu määrällisen muuttujan arvot x = (x 1,..., x n ). Pohjaoletus: Havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaislukujen realisaatioita. Miten estimoidaan tuntemattomat parametrit µ ja σ 2 aineistosta? Estimaattoreina käytetään yleensä keskiarvoa ja otosvarianssia: m(x ) = 1 n n i=1 X i ja s 2 (X ) = 1 n 1 n (X i m(x )) 2. i=1 Jos pohjaoletus pätee, niin E(m(X )) = µ ja E(s 2 (X )) = σ 2. Näin ollen m(x ) ja s 2 (X ) ovat parametrien µ ja σ 2 harhattomat estimaattorit.
34 Odotusarvon estimaatin tarkkuus ja luotettavuus? Pohjaoletus: Havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Havaituista arvoista x = (x 1,..., x n ) voidaan laskea estimaatti tuntemattomalle odotusarvolle µ m(x) = 1 n n? x i µ i=1 Miten tarkka tämä estimaatti on? Miten luotettava tämä estimaatti on? Toisin sanoen: Miten estimoidaan normaalijakauman N(µ, σ 2 ) odotusarvoparametri µ ja sille luottamusväli?
35 Normaalijakauman t-testisuure Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat N(µ, σ 2 )-jakautuneet komponentit m(x ) = 1 n n i=1 X i s 2 (X ) = 1 n n 1 i=1 (X i m(x )) 2 Fakta N(µ, σ 2 )-jakautuneen stokastisen mallin t-testisuure t(x ) = m(x ) µ s(x )/ n noudattaa Studentin t-jakaumaa vapausastein n 1.
36 Studentin t-jakauma Jatkuva satunnaisluku X noudattaa Studentin t-jakaumaa vapausastein n, jos sillä on tiheysfunktio muotoa f (x) = c (1 + x 2 ) n+1 2. n Studentin t-jakauma on symmetrinen: Kaikilla x > 0 pätee 1 F (x) = Pr(X > x) = Pr(X < x) = F ( x) Pr( X > x) = 2 Pr(X > x) Tiheysfunktio ja kertymäfunktio R:llä: dt(x, n) ja pt(x, n) Toinen ekvivalentti määritelmä tälle jakaumalle t(n) on seuraava: Jos Y, X 1, X 2,..., X n ovat riippumattomia N(0, 1)-jakaumaa noudattavia satunnaislukuja, niin satunnaisluvun T = Y / n j=1 X j 2 jakauma on t(n). 1 n
37 Studentin t-jakauma t distributions f(x) x Kuva: Studentin t-jakaumia vapausastein n = 1 (sininen), n = 2 (vihreä), n = 5 (punainen)ja n = (musta).
38 Normaalijakauman odotusarvon luottamusväli Fakta Jos satunnaisvektorilla X = (X 1,..., X n ) on riippumattomat normaalijakautuneet komponentit, niin satunnaisväli ( ) s(x ) s(x ) m(x ) t 1 α/2, m(x ) + t n 1 α/2 n peittää (tuntemattoman) parametrin µ tn:llä 1 α, missä t 1 α/2 = qt(1 α/2, n 1) on Studentin t(n 1)-jakauman tason 1 α/2 kvantiili.
39 Esim. Isien pituudet On väitetty, että 1900-luvun alussa isien pituudet (cm) noudattavat normaalijakaumaa. Pearsonin keräämälle n = 1078 havainnon otokselle m(x) = 171.9, s 2 (x) = 48.75, s(x) = Lasketaan datasta luottamusväli luottamustasolla 1 α = 99%: ( ) s(x) s(x) m(x) t 1 α/2, m(x) + t 1 α/2 n n ( = , ) = (171.35, ) Jos väite on totta, niin (ennen kokeen suorittamista tiedetään että) havainnoista laskettu luottamusväli peittää tuntemattoman parametrin µ tn:llä 99%. R: qt(1-0.01/2, 1077) = 2.58.
40 Normaalijakauman odotusarvon luottamusväli: Tulkinta Havaitusta datajoukosta x = (x 1,..., x n ) laskettu luottamusväli luottamustasolla 99% on ( m(x) t s(x) n, ) s(x) m(x) + t n Pohjaoletus: Havainnot ovat riippumattomien normaalijakautuneiden satunnaismuuttujien realisaatioita. Tulkinta: Datasta laskettu estimaatti ˆµ = m(x) aina kuuluu yo. välille Tuntematon parametri µ joko kuuluu tai ei kuulu yo. välille Jos pohjaoletus ok, niin stokastista mallia X = (X 1,..., X n ) vastaava satunnaisväli ( ) s(x ) s(x ) m(x ) t 0.995, m(x ) + t n n peittää tuntemattoman parametrin µ tn:llä 99%.
41 Varianssin estimaatin tarkkuus ja luotettavuus? Pohjaoletus: Havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaislukujen realisaatioita. Havaituista arvoista x = (x 1,..., x n ) voidaan laskea estimaatti tuntemattomalle varianssille σ 2 s 2 (x) = 1 n 1 n (x i m(x)) 2? σ 2 i=1 Miten tarkka tämä estimaatti on? Miten luotettava tämä estimaatti on? Toisin sanoen: Miten estimoidaan normaalijakauman N(µ, σ 2 ) varianssiparametri σ 2 ja sille luottamusväli?
42 Normaalijakauman varianssin χ 2 -testisuure Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat N(µ, σ 2 )-jakautuneet komponentit m(x ) = 1 n n i=1 X i s 2 (X ) = 1 n n 1 i=1 (X i m(x )) 2 Fakta Stokastiseen malliin perustuva testisuure χ 2 (X ) = (n 1)s2 (X ) σ 2 noudattaa χ 2 -jakaumaa vapausastein n 1.
43 Khii toiseen -jakauma Jatkuva satunnaisluku X 0 noudattaa χ 2 -jakaumaa vapausastein n, jos sillä on tiheysfunktio muotoa { c x n 2 1 e x/2, x > 0, f (x) = 0, x 0. χ 2 -jakauma ei ole symmetrinen: F (x) = 0 kaikilla x < 0. Tiheysfunktio ja kertymäfunktio R:llä: dchisq(x, n) ja pchisq(x, n) Toinen ekvivalentti määritelmä tälle jakaumalle χ 2 (n) on seuraava: Jos X 1, X 2,..., X n ovat riippumattomia N(0, 1)-jakaumaa noudattavia satunnaislukuja, niin satunnaisluvun X = n j=1 X j 2 jakauma on χ 2 (n).
44 χ 2 -jakauma Chi squared distribution f(x) x Kuva: χ 2 -jakaumien tiheysfunktioita vapausastein n = 1 (musta), n = 2 (punainen), n = 3 (vihreä) and n = 5 (sininen).
45 Normaalijakauman varianssin luottamusväli Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat N(µ, σ 2 )-jakautuneet komponentit Fakta Satunnaisväli ( (n 1)s 2 (X ) c 1 α/2, (n 1)s 2 ) (X ) c α/2 peittää parametrin σ 2 tn:llä 1 α, missä c 1 α/2 = qchisq(1 α/2, n 1), c α/2 = qchisq(α/2, n 1), ovat n 1 vapausasteen χ 2 -jakauman tasojen 1 α/2 ja α/2 kvantiilit.
46 Normaalijakauman varianssin luottamusväli: Tulkinta Havaittu määrällisen muuttujan arvot x = (x 1,..., x n ). Aineistosta laskettu luottamustason 1 α varianssin luottamusväli on ( (n 1)s 2 (x) (n 1)s 2 ) (x), c 1 α/2 c α/2 Pohjaoletus: Havainnot ovat riippumattomien N(µ, σ 2 )-jakautuneiden satunnaismuuttujien realisaatioita. Tulkinta: Aineistosta laskettu estimaatti ˆσ 2 = s 2 (x) aina kuuluu yo. välille Tuntematon parametri σ 2 joko kuuluu tai ei kuulu yo. välille Jos pohjaoletus pätee, niin satunnainen väli ( (n 1)s 2 (X ) c 1 α/2, (n 1)s 2 (X ) c α/2 peittää tuntemattoman parametrin σ 2 tn:llä 1 α. )
47 Normaalijakauman parametrien estimointi Yhteenveto Tuntemattomien parametrien µ ja σ 2 :n piste-estimaatit: m(x) = 1 n n i=1 x i ja s 2 (x) = 1 n 1 n (x i m(x)) 2. i=1 Aineistosta laskettu luottamustason 1 α luottamusväli µ:lle: ( ) s(x) s(x) m(x) t 1 α/2, m(x) + t n 1 α/2 n Aineistosta laskettu luottamustason 1 α luottamusväli σ 2 :lle: ( (n 1)s 2 (x) (n 1)s 2 ) (x), c 1 α/2 c α/2 Luottamuskertoimet: t 1 α/2 = qt(1 α/2, n 1), c 1 α/2 = qchisq(1 α/2, n 1), c α/2 = qchisq(α/2, n 1).
48 Sisältö Johdanto Tilastollisen datan kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi (suurilla n) Suurimman uskottavuuden estimaattori
49 Bernoullijakauman parametrin estimointi Tehdään n satunnaisotosta palauttaen suuresta populaatiosta. Merkitään { 1, jos alkio i kuuluu joukkoon A, X i = 0, muuten Halutaan estimoida osajoukon A alkioiden (tuntematon) suhteellinen osuus p. Käytetään estimaattoria ˆp(X ) = 1 n n X i = i=1 lkm(havaitut alkiot joukossa A) n Tämä on tuntemattoman parameterin p harhaton estimaattori, sillä E(ˆp(X )) = p.
50 Bernoullijakauman testisuure Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat Ber(p)-jakautuneet komponentit Fakta Kun n on suuri ja p ei ole kovin lähellä nollaa tai ykköstä, niin stokastisen mallin pohjalta määritelty testisuure ˆp(X ) p ˆp(X )(1 ˆp(X ))/n noudattaa likimain N(0, 1)-jakaumaa.
51 Bernoullijakauman luottamusväli Stokastinen malli Satunnaisvektori X = (X 1,..., X n ), jolla riippumattomat Ber(p)-jakautuneet komponentit Kun n on suuri ja p ei ole kovin lähellä nollaa tai ykköstä, niin satunnainen väli ( ) ˆp(X )(1 ˆp(X )) ˆp(X )(1 ˆp(X )) ˆp(X ) z, ˆp(X ) + z n n peittää parametrin p likimain todennäköisyydellä 1 α, missä z = qnorm(1 α/2) on N(0, 1)-jakauman tason 1 α/2 tason kvantiili.
52 Sisältö Johdanto Tilastollisen datan kuvaileminen Tilastokokeen stokastinen malli Normaalijakauman parametrien estimointi Bernoullijakauman parametrin estimointi (suurilla n) Suurimman uskottavuuden estimaattori
53 Uskottavuusfunktio Oletetaan, että on kerätty havainnot x = (x 1, x 2,..., x n ) satunnaismuuttujista X 1, X 2,..., X n, joilla on yhteistiheysfunktio f (x; θ), missä θ on jakauman tuntematon parametri. Mikä parametrin θ arvo uskottavimmin selittäisi havainnot? Idea: Jos parametrin arvo olisi θ, niin todennäköisyys että satunnaisluvut X 1,..., X n ovat likimain havaintojen mukaiset olisi ) Pr (X 1 x 1,..., X n x n θ f (x 1,..., x n ; θ). Havaintoihin liittyvä uskottavuusfunktio on L(θ) := f (x 1,..., x n ; θ). (parametrin θ funktio, kun havainnot x 1,..., x n on kiinnitetty) Huom Jos X 1, X 2,..., X n ovat riippumattomia, niin n L(θ) = f (x 1,..., x n ; θ) = f i (x i ; θ), i=1 missä f i (x i ; θ) on satunnaismuuttujan X i tiheysfunktio.
54 Suurimman uskottavuuden estimaattori Datasta x = (x 1,..., x n ) laskettu suurimman uskottavuuden estimaatti (tuntemattomalle) parametrille θ on luku ˆθ(x) = argmax θ f (x 1,..., x n ; θ) joka maksimoi uskottavuusfunktion L(θ) = f (x 1,..., x n ; θ) arvon. Tilastokokeen stokastisesta mallia X = (X 1,..., X n ) vastaava suurimman uskottavuuden estimaattori on satunnaisluku, joka saadaan sijoittamalla funktion x ˆθ(x) syötteeksi satunnaisvektori X : ˆθ(X ) = argmax θ f (X 1,..., X n ; θ).
55 Suurimman uskottavuuden estimaatin etsiminen Suurimman uskottavuuden estimaatti ˆθ on usein jokin seuraavista: Funktion L epäjatkuvuuspiste Funktion L määritteljoukon reunapiste Piste, jossa funktion L derivaatta on 0. Sen sijaan, että maksimoidaan L, on usein helpompaa maksimoida logaritminen uskottavuusfunktio l(θ) = log(l(θ)). Koska log(x) on aidosti kasvava funktio, saavuttavat l(θ) ja L(θ) maksiminsa samassa pisteessä.
56 Suurimman uskottavuuden estimaattori normaalijakaumalle Olkoot x 1,..., x n reaalisaatioita riippumattomista N(µ, σ 2 )-jakautuneista satunnaismuuttujista X 1,..., X n, eli X i :n tiheysfunktio on f (x i ; µ, σ 2 ) = 1 ( σ 2π exp 1 ( ) xi µ 2 ) 2 σ kaikilla i ja joillekin µ (, ), σ > 0. Huom Normaalijakaumalle parametri θ on kaksiulotteinen vektori θ = (µ, σ 2 ).
57 ... Suurimman uskottavuuden estim. normaalijakaumalle Uskottavuusfunktio annetulle x = (x 1,..., x n ) on L(µ, σ 2 ) = f (x 1 ; µ, σ 2 )f (x 2 ; µ, σ 2 ) f (x n ; µ, σ 2 ) ( 1 = exp 1 n ) σ n (2π) n 2 2σ 2 (x i µ) 2 ja log-uskottavuusfunktio on l(µ, σ 2 ) = log L(µ, σ 2 ) i=1 = n 2 log(σ2 ) n 2 log(2π) 1 2σ 2 n (x i µ) 2 i=1
58 Uskottavuusfunktion maksimin etsiminen l(µ, v) = n 2 log(v) n 2 log(2π) 1 2v n (x i µ) 2 i=1 (merkittiin selkeyden vuoksi v = σ 2 ) (1) Derivoidaan µ:n suhteen ja vaaditaan derivaatta nollaksi: 0 =? µ l(µ, v) = 1 n (x i µ). v i=1 Gradientin nollakohta (µ, v) = (ˆµ, ˆv) toteuttaa siis: ˆµ = 1 n n i=1 x i = m(x). (ratkaistiin yhtälöstä µ l(ˆµ, ˆv) = 0) (2) Derivoidaan v:n suhteen ja vaaditaan derivaatta nollaksi: 0 =? n l(µ, v) = v 2v + 1 n 2v 2 (x i µ) 2. i=1 Gradientin nollakohta (µ, v) = (ˆµ, ˆv) toteuttaa siis myös: ˆv = 1 n n i=1 (x i ˆµ) 2 = n 1 n s2 (x). (ratkaistiin v l(ˆµ, ˆv) = 0) Löydettiin suurimman uskottavuuden estimaatti normaalijakaumalle: ( ˆθ(x) = (ˆµ(x), ˆσ 2 (x)) = m(x), n 1 ) n s2 (x).
59 Suurimman uskottavuuden estimaattori normaalijakaumalle Normaalijakautuneelle satunnaisvektorille X = (X 1,..., X n ): parametrin µ SU-estimaattori n ˆµ(X ) = m(x ) = 1 n i=1 X i on harhaton E[ˆµ(X )] = µ ja tarkentuva (ˆµ(X ) µ kun n ). parametrin σ 2 SU-estimaattori ˆσ 2 (X ) = 1 n n (X i m(x )) 2 i=1 on harhainen (E[ˆσ 2 (X )] = n 1 n σ2 σ 2 ) mutta tarkentuva.
60 Huom Estimaattori on satunnaismuuttuja ja estimaatti on vastaava havainnoista laskettava realisaatio. Estimaatti ei ole satunnainen. Tilastotieteen kirjallisuudessa näitä ei aina ole selkeästi eroteltu, koska oletuksena on, että analysoidaan jotakin aineistoa, eli taustalla olevien satunnaismuuttujien X 1,..., X n havaittuja realisaatioita x 1,..., x n.
61 Ensi viikolla aiheena tilastollinen hypoteesin testaus...
62 Aineistolähteet Luentokalvot pohjautuvat osittain kurssin edellisten vuosien (Lasse Leskelä, Kalle Kytölä, Heikki Seppälä, Ilkka Mellin, Milla Kibble, Juuso Liesiö) luentokalvoihin. Esityksessä käytetyt kuvat Guinness-tuoppi: Image courtesy of Sami Keinänen Wikimedia Commons.
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 4 Tilastollisen aineiston kuvaileminen, mallintaminen ja estimointi Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 5 Tilastollisten hypoteesien testaaminen Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotEstimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 5 Tilastollisten hypoteesien testaaminen Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 5 Tilastollisten hypoteesien testaaminen Kalle Kytölä, Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotTilastotieteen kertaus. Kuusinen/Heliövaara 1
Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa
Lisätiedottilastotieteen kertaus
tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla
LisätiedotTilastollinen aineisto Luottamusväli
Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 2 Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todeäköisyyslaskea ja tilastotietee peruskurssi 4A Satuaisotata ja parametrie estimoiti Lasse Leskelä Matematiika ja systeemiaalyysi laitos Perustieteide korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Tilastollisen merkitsevyyden testaus (+ jatkuvan parametrin Bayes-päättely) Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden
LisätiedotJohdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Väliestimointi TKK (c) Ilkka Mellin (2005) 1 Väliestimointi Todennäköisyysjakaumien parametrien estimointi Luottamusväli Normaalijakauman odotusarvon luottamusväli Normaalijakauman
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotTilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1
Tilastolliset menetelmät Osa 1: Johdanto Johdanto tilastotieteeseen KE (2014) 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä ja malleja, joiden avulla reaalimaailman ilmiöistä voidaan
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
Lisätiedot9. laskuharjoituskierros, vko 12-13, ratkaisut
9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t
LisätiedotMTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)
21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastollisen merkitsevyyden testaus Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3A Normaaliapproksimaatio Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3A Satunnaismuuttujien summa ja keskihajonta Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
Lisätiedot7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025
26.3.2019/1 MTTTP1, luento 26.3.2019 7.4 Normaalijakauma (kertausta ja täydennystä) Z ~ N(0, 1), tiheysfunktion kuvaaja 0,5 0,4 0,3 0,2 0,1 Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96)
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastollisen merkitsevyyden testaus Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
Lisätiedot/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:
4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 2A Satunnaismuuttujan odotusarvo Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotTilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
LisätiedotEstimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio
17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla
LisätiedotTilastollinen päättömyys, kevät 2017 Harjoitus 6B
Tilastollinen päättömyys, kevät 7 Harjoitus 6B Heikki Korpela 8. helmikuuta 7 Tehtävä. Monisteen teht. 6... Olkoot Y,..., Y 5 Nµ, σ, ja merkitään S 5 i Y i Y /4. Näytä, että S/σ on saranasuure eli sen
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu
10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2
Lisätiedot/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:
2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 2A Satunnaismuuttujan odotusarvo Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi
Lisätiedot806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.
806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ
LisätiedotTodennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1
Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen
LisätiedotJohdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin
LisätiedotTilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
LisätiedotNormaalijakaumasta johdettuja jakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma
LisätiedotJohdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
LisätiedotHarjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat
Lisätiedot5.7 Uskottavuusfunktioon perustuvia testejä II
5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa
LisätiedotIlkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio
Ilkka Mellin Todennäköisyyslaskenta Osa : Satunnaismuuttujat ja todennäköisyysjakaumat Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (7) 1 Momenttiemäfunktio ja karakteristinen funktio
LisätiedotTässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:
4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan
LisätiedotMaximum likelihood-estimointi Alkeet
Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X
LisätiedotTilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
LisätiedotGripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta
MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,
LisätiedotUskottavuuden ominaisuuksia
Luku 9 Uskottavuuden ominaisuuksia 9.1 Tyhjentävyys T yhjentävyys (Fisher 1922) luonnehtii täsmällisesti havaintoihin sisältyvän informaation kvantitatiivisesti. Parametrin θ estimaatti T(x) on tyhjentävä
LisätiedotTodennäköisyyden ominaisuuksia
Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset
LisätiedotOtoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden
1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma
LisätiedotLisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia
Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma
LisätiedotJohdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (5) 1 Momenttiemäfunktio ja karakteristinen funktio Momenttiemäfunktio Diskreettien jakaumien momenttiemäfunktioita
LisätiedotJos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden
1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
Lisätiedotl (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on
HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka
LisätiedotTodennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3
Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Aiheet: Satunnaisvektorit ja moniulotteiset jakaumat Tilastollinen riippuvuus ja lineaarinen korrelaatio Satunnaisvektorit ja moniulotteiset
LisätiedotTilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
LisätiedotJohdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
LisätiedotParametrin estimointi ja bootstrap-otanta
Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista
Lisätiedot2. Uskottavuus ja informaatio
2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö
LisätiedotAalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,
Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 017 Laskuharjoitus 4, Kotitehtävien palautus Mycourses:iin PDF-tiedostona
LisätiedotLuku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017
Luku 1 Bayesläiset estimaattorit Lasse Leskelä Aalto-yliopisto 18. lokakuuta 217 1.1 Bayesläiset piste-estimaatit Tarkastellaan datalähdettä, joka tuottaa tiheysfunktion f(x θ) mukaan jakautuneita riippumattomia
Lisätiedotedellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾
ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II G. Gripenberg Aalto-yliopisto 11. helmikuuta 2015 G. Gripenberg (Aalto-yliopisto) MS-A0502 Todennäköisyyslaskennan ja tilastotieteen
LisätiedotYksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1
Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 21. syyskuuta 2007 Antti Rasila () TodB 21. syyskuuta 2007 1 / 19 1 Satunnaismuuttujien riippumattomuus 2 Jakauman tunnusluvut Odotusarvo Odotusarvon ominaisuuksia
LisätiedotTilastollisia peruskäsitteitä ja Monte Carlo
Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia
Lisätiedot3.6 Su-estimaattorien asymptotiikka
3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä
LisätiedotTestejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
LisätiedotHY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.
HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia Tehtäväsarja I 1. Jatkoa Harjoitus 8A tehtävään 3. Muodosta odotusarvolle µ approksimatiivinen
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman
Lisätiedot031021P Tilastomatematiikka (5 op) viikko 4
031021P Tilastomatematiikka (5 op) viikko 4 Jukka Kemppainen Mathematics Division Tilastollinen aineisto Tilastolliset menetelmät ovat eräs keino tutkia numeerista havaintoaineistoa todennäköisyyslaskentaa
LisätiedotSallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,
Todennäköisyyslaskenta, 2. kurssikoe 7.2.22 Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu.. Satunnaismuuttujien X ja Y yhteistiheysfunktio on
LisätiedotVALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170
VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain
LisätiedotTilastollinen päättely II, kevät 2017 Harjoitus 2A
Tilastollinen päättely II, kevät 07 Harjoitus A Heikki Korpela 3. tammikuuta 07 Tehtävä. (Monisteen tehtävä.3 Olkoot Y,..., Y n Exp(λ. Kirjoita vastaava tilastollisen mallin lauseke (ytf. Muodosta sitten
Lisätiedotriippumattomia ja noudattavat samaa jakaumaa.
12.11.2015/1 MTTTP5, luento 12.11.2015 Luku 4 Satunnaisotos, otossuure ja otosjakauma 4.1. Satunnaisotos X 1, X 2,, X n on satunnaisotos, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. Sanonta
LisätiedotLuottamusvälit. Normaalijakauma johnkin kohtaan
Luottamusvälit Normaalijakauma johnkin kohtaan Perusjoukko ja otanta Jos halutaan tutkia esimerkiksi Suomessa elävien naarashirvien painoa, se voidaan (periaatteessa) tehdä kahdella tavalla: 1. tutkimalla
LisätiedotMiten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?
21.3.2019/1 MTTTP1, luento 21.3.2019 7 TILASTOLLISEN PÄÄTTELYN PERUSTEITA Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä
LisätiedotP(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
LisätiedotYksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1
Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin
Lisätiedot