Todennäköisyyden ominaisuuksia

Samankaltaiset tiedostot
Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen aineisto Luottamusväli

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Korrelaatiokertoinen määrittely 165

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

30A02000 Tilastotieteen perusteet

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastomatematiikka Kevät 2008

tilastotieteen kertaus

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

031021P Tilastomatematiikka (5 op) viikko 5

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

4.0.2 Kuinka hyvä ennuste on?

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

3.6 Su-estimaattorien asymptotiikka

Todennäköisyyslaskun kertaus. Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Satunnaismuuttujien muunnokset ja niiden jakaumat

Moniulotteisia todennäköisyysjakaumia

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Jatkuvia jakaumia

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

8.1 Ehdolliset jakaumat

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskenta sivuaineopiskelijoille

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

JATKUVAT JAKAUMAT Laplace-muunnos (Laplace-Stieltjes-muunnos)

Testit laatueroasteikollisille muuttujille

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Teema 8: Parametrien estimointi ja luottamusvälit

Normaalijakaumasta johdettuja jakaumia

031021P Tilastomatematiikka (5 op) viikko 3

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Sovellettu todennäköisyyslaskenta B

Harjoitus 2: Matlab - Statistical Toolbox

1. Tilastollinen malli??

Testejä suhdeasteikollisille muuttujille

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Satunnaismuuttujien mittausasteikot 93

4. Todennäköisyyslaskennan kertausta

Regressioanalyysi. Kuusinen/Heliövaara 1

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Moniulotteiset satunnaismuuttujat ja jakaumat

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Jatkuvat satunnaismuuttujat

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

9. laskuharjoituskierros, vko 12-13, ratkaisut

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

031021P Tilastomatematiikka (5 op) viikko 4

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Transkriptio:

Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5)

Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset e i yhtä todennäköisiä: P(A) = N A /N (6) Kun alkeistapaukset eivät yhtä todennäköisiä, Geometrinen (tasainen) todennäköisyys: Yleinen tapaus P(A) = e i A P(e i ) (7) P(A) = m(a)/m(s) (8) P(A) = A f (t)dt, (9) missä f (t) on taustalla olevan satunnaismuuttujan jakaumaa kuvaava tiheysfunktio.

Ehdollinen todennäköisyys P(A i B) = P(A i )P(B A i )/P(B) (14) Ehdollisen todennäköisyyden määritelmä: Komplementti: P(A B) = P(A B) P(B) (10) P(A B) = 1 P(A B) (11) Riippumattomuus: A ja B riippumattomia P(A B) = P(A)P(B). Edellisen yleistys: Tapahtumat A i riippumatttomat jos P( i A i ) = P(A i ) (12) i Kokonaistodennäköisyys ja Bayesin kaava: Olkoon A i A j =, S = i A i P(B) = i P(A i )P(B A i ) (13)

Kombinatoriikkaa n alkiota voidaan järjestää (valita) n (n 1) (n 2) 2 1 = n! eri tavalla (eri järjestyksessä). k alkiota voidaan valita n:n alkion joukosta n (n 1) (n 2) (n k + 1) = n! (n k)! eri tavalla kun valintajärjestyksellä on väliä. ( ) n k alkiota voidaan valita n:n alkion joukosta k eri tavalla kun järjestyksellä ei ole väliä. Erityisesti viimeksimainittua ominaisuutta käytetään kun lasketaan mm. lottoarvonnan todennäköisyyksiä. = n! k!(n k)!

Jakaumat Kertymäfunktio: F (x) = P(X x) (15) Diskreetti satunnaismuuttuja F (x) = x i x P(X = x i ) = x i x p(x i ) (16) Jatkuva satunnaismuuttuja F (x) = x f (t)dt (17)

Odotusarvo ja varianssi Diskreetti satunnaismuuttuja µ = E(X ) = i x i P(X = x i ) = i x i p(x i ) (18) σ 2 = D 2 (X ) = E((X µ) 2 ) = i (x i µ) 2 p(x i ) (19) Jatkuva satunnaismuuttuja µ = E(X ) = tf (t)dt (20) σ 2 = D 2 (X ) = E((X µ) 2 ) = (t µ) 2 f (t)dt (21)

Odotusarvon ja varianssin ominaisuuksia E(X ± Y ) = E(X ) ± E(Y ) (22) Oletetaan että X ja Y riippumattomia: E(aX ) = ae(x ) (23) D 2 (X ± Y ) = D 2 (X ) + D 2 (Y ) (24) D 2 (ax ) = a 2 D 2 (X ) (25)

Odotusarvon ja varianssin ominaisuuksia n n E( a i X i ) = a i E(X i ) (26) Oletetaan että X 1,..., X n riippumattomia: n D 2 ( a i X i ) = n ai 2 D 2 (X i ) (27) Diskreetti sat.muut X: E(g(X )) = i g(x i )P(X = x i ) = i g(x i )p(x i ) (28) Jatkuva sat.muut X: E(g(X )) = g(t)f (t)dt (29)

Diskreettejä jakaumia Binomijakauma (X Bin(n, p)) Pistetodennäköisyys ( n P(X = k) = k ) p k (1 p) n k (30) Odotusarvo ja varianssi E(X ) = np, D 2 (X ) = np(1 p) (31) Poisson-jakauma (X Poisson(λ) tai X Po(λ)) Pistetodennäköisyys P(X = k) = λk k! e λ (32) Odotusarvo ja varianssi E(X ) = λ, D 2 (X ) = λ (33)

Jatkuvia jakaumia Eksponentiaalijakauma (X Exp(λ)) Tiheys- ja kertymäfunktio f (x) = λe λx, F (x) = 1 e λx, (x > 0) (34) Odotusarvo ja varianssi E(X ) = 1/λ, D 2 (X ) = 1/λ 2 (35) Tasajakauma (X Tas(a, b) tai X U(a, b)) Tiheys- ja kertymäfunktio f (x) = 1/(b a), F (x) = (x a)/(b a), (a x b) (36) Odotusarvo ja varianssi E(X ) = (a + b)/2, D 2 (X ) = (b a) 2 /12 (37)

Normaalijakauma (X N(µ, σ 2 )) Tiheysfunktio Odotusarvo ja varianssi f (x) = 1 2πσ e (x µ)2 2σ 2 (38) E(X ) = µ, D 2 (X ) = σ 2, X E(X ) D 2 (X ) N(0, 1) (39) Todennäköisyydet (kertymäfunktion arvot) haettava taulukosta/numeerisesti laskien. Symmetrinen odotusarvonsa suhteen Kun lasketaa toisistaan riippumattomia normaalijakautuneita sat. muuttujia yhteen, on lopputulos normaalijakautunut satunnaismuuttuja. Varianssi ja odotusarvo toki yleensä muuttuu.

Keskeinen raja-arvo lause (KRL) KRL kertoo oleellisesti että satunnaismuuttujia yhteenlaskettaessa lopputuloksena on lähes normaalijakautunut satunnaismuuttuja, jos yhteenlaskettavia on paljon. Yhteenlaskettaville satunnaismuuttujille täytyy asettaa kuitenkin ehtoja, mutta ehdot ovat melko heikkoja. Kaikki alla esitetyt ehdot eivät ole edes aina välttämättömiä. Lause Olkoon X 1, X 2,, X n riippumattomia satunnasmuuttujia ja µ i = E(X i ) <, σ 2 i = D 2 (X i ) <. Olkoon lisäksi rn 3 = E( X i µ i 3 r ) < ja lim n n n σ2 i = 0. kaikille n. Tällöin satunnaismuuttujan Z n = n X i jakauma lähestyy normaalijakaumaa kun n.

Luottamusvälit Jakauman p-piste: F (x p ) = p Parametrin θ 2-puoleiset luottamusvälit lausekkeesta x α/2 T θ (X 1,..., X n ) x 1 α/2 (40) Huom! Sat. muut. T θ (X 1,..., X n ) jakauma täytyy tuntea jotta saadaan pisteet x α/2 ja x 1 α/2. Yksipuoleiset luottamusvälit lausekkeista: x α T θ (X 1,..., X n ), x 1 α T θ (X 1,..., X n ) (41) Esim: Oletetaan että σ 2 = D 2 (X i ) tunnetaan ja E(X i ) = µ ja X i riippumattomia toisistaan. T µ (X 1,..., X n ) = X E(X ) D 2 (X ) = X µ σ/ n a N(0, 1) (42)

Hypoteesin testaus 1 Oletetaan että H 0 on voimassa 2 Otoksen X 1,..., X n realisaatiosta x 1,..., x n lasketaan testisuureen realisaatio t = T θ (x 1,..., x n ). 3 H 0 hylätään jos t sijoittuu (hylkäys)alueelle jolle sat. muuttujan T θ (X 1,..., X n ) on liian epätodennäköistä kuulua. Hylkäysrajat ja testisuureeet siten että mitä kauempana otoksen realisaatiosta laskettu tulokset ja H 0 :n väittämä ovat toisistaan, sitä epätodennäköisempää on saada tämän suuntaisia testisuureen arvoja. Hylkäysrajat käytännössä samat kuin luottamusvälien yhteydessä käytetyt p-pisteet x α/2,...... Huom. Testisuureen lausekkeessa ei tarvitse esiintyä parametria θ, se voi olla myös testisuureen jakauman parametrina, tai sitten parametria ei esiinny ollenkaan (ei parametriset testit)

Testisuureita Odotusarvo µ. Ehdot: 1. Varianssi σ 2 tunnetaan. 2. X i N(µ, σ 2 ) tai n suuri X µ σ/ n a N(0, 1) (43) Odotusarvo µ. Ehdot: 1. X i N(µ, σ 2 ) tai n suuri X µ S/ n a t(n 1) (44) Suhteellinen osuus p. Ehdot: n suuri (np(1 p) > 9) P p p(1 p)/n a N(0, 1) (45) P p P(1 P)/n a t(n 1) a N(0, 1) (46)

Jakaumien yhteensopivuuden testaus ( noudattaako data oletettua jakaumaa) H 0 : Sat. muuttuja noudattaa jakaumaa F H 1 : Sat. muuttuja ei noudatta jakaumaa F Ehdot: Korkeintaan 20% odotetuistafrekvensseistä e i alle 5 Kaikki odotetutfrekvenssit yli 2, n > 50. Havainnot riippumattomia Testisuure: χ 2 = k (f i e i ) 2 e i a χ 2 (k 1 l) (47) Odotetut frekvenssit kaavasta e i = nπ i, missä π i on luokan odotettu todennäköisyys l on datasta estimoitavien oletetun jakauman parametrien lkm.

Muuttujien riippumattomuus (ristiintaulukoimalla) H 0 : Muuttujat riippumattomia toisistaan. H 1 : Muuttujat eivät riippumattomia toisistaan. Ehdot: Korkeintaan 20% odotetuistafrekvensseistä e ij alle 5. Kaikki odotetutfrekvenssit yli 2. n > 50. Havainnot riippumattomia. Testisuure χ 2 = k m (f ij e ij ) 2 j=1 e i j a χ 2 ((k 1)(m 1)) (48) Odotetut frekvenssit rivi ja sarakesummien avulla: e ij = r i c j /n.

Lineaarinen regressio Malli : Y = β 0 + β 1 X + ε Kertoimille β 0 ja β 1 voidaan laskea estimaatit b 0 ja b 1 pienimman neliosumman (LSQ) menetelmällä. Kertoimille β 0 ja β 1 voidaan laskea luottamusvälejä ja suorittaa hypoteesitestejä. Mallia voidaan käytttää mm. ennustamiseen ja ennusteille voidaan laskea luottamusvälejä. Tilastollisessa testauksessa tehdään yleensä oletus mallin täydellisyydestä : E(Y X = a) = β 0 + β 1 a Jäännöstermi ε ja X :n riippumattomia. Pienellä datalla käytännössä oletettava ε N(0, σ 2 ). Suurella määrällä dataa normaalijakautuneisuudesta voidaan tinkiä (KRL). Kun edelliset oletukset voimassa, mallin selitysaste R 2 verrannollinen jäännöstermin hajontaan σ. Siis täydelliselläkin mallilla voi olla huono selitysaste.

Lineaarinen regression laskukaavoja Momenttisummat ( n n ) SS XY = X i Y i Y i /n (49) X i) ( n SS XX = SS YY = Kertoimien estimaattorit n n X 2 i Y 2 i ( n ) 2 X i /n (50) ( n ) 2 Y i /n (51) ˆβ 1 = SS XY /SS XX (52) ˆβ 0 = Y ˆβ 1 X (53)

Lineaarinen regression laskukaavoja ja testisuureita Kokonaisvaihtelun komponentit SSD = SSXY 2 /SS XX (54) SST = SS YY (55) SSE = SST SSD (56) Mallin selitysaste R 2 = SSD/SST (57) Mallin hajontaestimaattorit S 2 = SSE/(n 2) (58) S( ˆβ 1 ) = S/ SS XX (59) S( ˆβ 0 ) = S 1 n + X 2 SS XX (60)

Lineaarinen regression laskukaavoja ja testisuureita Regressiosuoran y = β 0 + β 1 X estimaattori pisteessä X = a ŷ = ˆβ 0 + ˆβ 1 a (61) Regressiosuoran hajonnan (vaihtelun) estimaattori 1 (a X )2 S(ŷ) = S + (62) n SS XX Regressiosuoran ennusteen virheen Y ŷ hajonnan estimaattori pisteessä X = a S(Y ŷ) = S 1 + 1 n + (a X )2 SS XX (63)

Lineaarinen regression laskukaavoja ja testisuureita Testisuureita Mallin kertoimille: ˆβ i β i S( ˆβ i ) t(n 2) (64) Regressiosuoralle (ennusteen odotusarvolle µ = E(ŷ)) ŷ µ S(ŷ) t(n 2) (65) Ennustus virheelle Y ŷ (kun X = a) Y ŷ t(n 2) (66) S(Y ŷ) Huom. virheen luottamusrajojen lisäksi y.o. testisuureella saadaan luottamusrajat myös Y :lle, joka antaa siis oleellisesti ennusteen sille millä välillä Y liikkuu kun X = a.

Lisää hypoteesien testauksesta Riskitaso α on suurin sallittu todennäköisyys sille että H 0 hylätään vaikka se on tosi. Testin voimakkuus on todennäköisyys sille että H 0 hylätään kun se ei ole tosi (riippuu testattavan parametrin todellisesta arvosta) Testisuureen P-arvo eli merkitsevyystaso on pienin riskitaso jolla H 0 olisi tullut hylätyksi. H 0 hylätään jos P < α. H 0 jää voimaan jos P α.