Otokset MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssi Lueot, osa II Kaksi hyödyllista jakaumaa 3 Estimoiti G. Gripeberg 4 Luottamusvälit Aalto-yliopisto. helmikuuta 05 5 Hypoteesie testaus 6 Korrelaatio ja regressio G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II / 78 Otos Tavoitteea o saada tietoa satuaismuuttujasta X. Teemme koetta, esim. mittauksia, jotka atavat tuloksiksi x, x,..., x ja katsomme, että x j o satuaismuuttuja X j saama arvo. Satuaismuuttujat X,..., X muodostavat otokse, joka koko o, ja luvut x, x,..., x muodostavat havaitu otokse. Oletetaa tavallisesti ja eriksee saomatta että satuaismuuttujat X, X,..., X ovat riippumattomia ja että iillä o sama jakauma joka o sama kui tutkittava satuaismuuttuja X jakauma. Mitta-asteikot Laatueroasteikko: Luokkia ilma luoallista järjestystä. Järjestysasteikko: Luokkia joilla o luoollie järjestys. Välimatka-asteikko: Numeerisia arvoja, erotukset merkityksellisiä, olla mielivaltaie. Suhdeasteikko: Numeerisia arvoja, luoollie ollakohta. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 3 / 78 Huom! Oletus, että otokse satuaismuuttujat X j ovat riippumattomia edellyttää, että käytämme poimitaa takaisipaolla mutta tämä ehto harvoi täyttyy. Mutta käytäössä tulee esii mota muuta paljo vakavampaa ogelmaa ku yritetää ottaa otos ii että oletukset ovat edes suuri piirtei voimassa ja tämä o tärkeä seikka, jota ei tässä käsitellä! Havaitoarvoje jakauma ja se kuvaamie Otokse havaituista arvoista x, x,..., x voidaa muodostaa diskreetti todeäköisyysjakauma, s. empiirie jakauma site, että PrH = x = { j : x j = x } joka siis o tasaie diskreetti jakauma jos kaikki havaitoarvot poikkeavat toisistaa. Tätä jakaumaa voidaa odotusarvo, mediaai, muide kvattiilie ym. lisäksi kuvata pylväsdiagrammilla tai histogrammilla tilateesta riippue. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 4 / 78
Pylväsdiagrammi Jos otokse havaitoarvoje mitta-asteikko o laatuero- tai järjestysasteikko ja/tai alkuperäie satuaismuuttuja o diskreetti voidaa havaitut otosarvot x, x,..., x esittää pylväsdiagrammmia missä jokaise pylvää y k korkeus o havaittu frekvessi f k = { j : x j = y k }. Histogrammi Jos satuaismuuttuja o jatkuva ja havaitoarvoje mitta-asteikko o välimatkatai suhdeasteikko voidaa havaitut otosarvot x, x,..., x esittää histogrammia eli luokiteltuia frekvesseiä site, että valitaa luokkarajat a 0 < a <... < a m, lasketaa frekvessit f k = { j : a k < x j a k } ja 3 4 3 y y y 3 y 4 0.5.5 3.5 4.5 ämä esitetää suorkaiteia, joide pita-alat ovat verraollisia frekvesseihi. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 5 / 78 Aritmeettie keskiarvo Jos X j, j =,..., o otos satuaismuuttujasta X ii se aritmeettie keskiarvo o ja X = X j, EX = EX ja VarX = VarX, koska odotusarvo o lieaarie, riippumattomie satuaismuuttujie summa variassi o variassie summa ja VarcX = c VarX. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 6 / 78 Otosvariassi Jos X j, j =,..., o otos satuaismuuttujasta X ii se otosvariassi o S = X j X, ja jos VarX < ES = VarX, jote otosvariassi o variassi harhato estimaattori ja tämä o syy siihe, että imittäjässä o eikä. Huom Jos x, x,..., x ovat havaittuja arvoja otoksesta satuaismuuttujasta X ii äide keskiarvo o x = x j ja havaittu otosvariassi o s = x j x. Jos Matlab/Octavessa havaiot o vektorissa x ii keskiarvo lasketaa komeolla meax ja otosvariassi komeolla varx. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 7 / 78 χ -jakauma Jos satuaismuuttujat X j N0,, j =,,..., ovat riippumattomia ja C = ii saomme, että C o χ -jakautuut :llä vapausasteella eli C χ. Silloi EC = ja VarC = ja C:llä o tiheysfuktio och f C x = 0 då x < 0. X j f C t = t e t, t 0. Γ G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 8 / 78
Normaalijakauma otosvariassi Jos X j, j =,,..., o otos Nµ, σ -jakautueesta satuaismuuttujasta ii otosvariassille pätee t-jakauma σ S χ. Jos Z N0, ja C χ m ovat riippumattomia ja W = Z m C ii saomme, että W o t-jakautuut m:llä vapausasteella eli W tm. Silloi EW = 0 jos m > ja VarW = m m f t = Γ m+ mπ Γ m jos m > ja W :llä o tiheysfuktio + t m m+, t R. Otos ormaalijakaumasta Jos X j, j =,,..., o otos Nµ, σ -jakautueesta satuaismuuttujasta ii X µ S t. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 9 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 0 / 78 Piste-estimaatti ja estimaattori Oletamme, että tiedämme tai uskomme että X o satuaismuuttuja, jolla o pistetodeäköisyysfuktio tai tiheysfuktio f x, θ missä parametri θ joka myös voi olla vektori o tutemato. Mite voimme estimoida parametri θ? Otamme havaitu otokse x j, j =,...,. Laskemme estimaati ˆθ = gx, x,..., x missä g o joki fuktio. Huomaa, että ˆθ o luku tai vektori ku taas ˆΘ = gx, X,..., X o satuaismuuttuja. Joskus saalla estimaattori tarkoitetaa fuktiota g ja joskus satuaismuuttujaa ˆΘ. Väliestimaatti Se sijaa että parametri estimaatiksi otetaa luku tai vektori voidaa myös laskea väli, jolla arvioidaa parametri sijaitseva. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II / 78 Momettimeetelmä, esimerkki Satuaismuuttujasta X o saatu havaiot 0.46, 0.0, 0.9, 0.09, 0.46 ja 0.6. Meillä o syytä uskoa, että X o Expλ-jakautuut mutta parametriä λ emme tue. Mite voimme laskea parametrille estimaati? Koska tiedämme, että EX = λ ii o luoolista käyttää momettimeetelmää, eli laskemme havaitoarvoje keskiarvo ja saamme x = 6 6 Koska λ = EX = 0.46 + 0.0 + 0.9 + 0.09 + 0.46 + 0.6 = 0.6 6 estimaatiksi tulee ˆλ = 0.6 3.8. Ekspoettijakauma tapauksessa voimme siis ottaa parametri estimaattoriksi X missä X o otoskeskiarvo. Estimaattori o siis satuaismuuttuja ku taas estimaatti o havaitoarvoista laskettu luku. Tämä estimaattori ei ole harhato koska EX > λ mutta ku kasvaa se lähestyy oikeata arvoa eli lim Pr λ X j > ɛ = 0 kaikilla ɛ > 0. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II / 78
Suurimma uskottavuude meetelmä, esimerkki Matkustat vieraasee kaupukii ja letoketällä äet kolme taksiautoa, joide umerot ovat 57, 3 ja 758. Motako taksiautoa o tässä kaupugissa? Oletamme, että kaupugissa o N taksiautoa joide umerot ovat,,..., N ja että todeäköisyys että letoketällä olevalla taksilla o umero j o N kaikilla j =,,..., N. Jos haluamme käyttää momettimeetelmää ii laskemme esi joukossa {,..., N} tasaisesti jakautuee satuaismuuttuja odotusarvo ja se o EX = N i= i N = NN+ N = N+, josta seuraa, että N = EX. Sitte laskemme havaitoje keskiarvo x = 3 57 + 3 + 758 = 309.33 jolloi estimaatiksi saamme ˆN = 309.33 68 mikä o selvästi liia piei luku. Toie mahdollisuus o käyttää suurimma uskottavuude periaatetta: Jos taksiautoja o N ii todeäköisyys, että äet auto umerolla 57 o N, samalla todeäköisyydellä äet auto umerolla 3 ja auto umerolla 758, olettae, että N 758 koska muute todeäköisyys, että äet auto umerolla 758 o 0. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 3 / 78 Suurimma uskottavuude meetelmä, esimerkki, jatk. Näi olle LN = Pr äet umerot 57, 3 ja 758 = N 3, N 758, 0, N < 758. Suurimma uskottavuude meetelmä mukaisesti valitsemme estimaati ˆN site että uskottavuusfuktio LN o mahdollisimma iso, eli tässä tapauksessa ˆN = 758. Vastaava tulos pätee yleisestiki, eli jos X, X,..., X k o otos tasajakaumasta joukossa {,,..., N} tai jatkuvassa tapauksessa välillä [0, N] ii N: suurimma uskottavuude estimaattori o ˆN = maxx, X,..., X k. Tämä o harhaie estimaattori koska selvästiki E ˆN < N mutta mikä EmaxX, X,..., X k oikei o? G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 4 / 78 Suurimma uskottavuude meetelmä, esimerkki, jatk. Nyt PrmaxX, X,..., X k m = PrX j m, j =,..., k = m N josta seuraa, että PrmaxX, X,..., X k = m = m k N m k N ja odotusarvoksi tulee E maxx, X,..., X k N m k m k = m N N josta voi päätellä, että m= k k + N < EmaxX, X,..., X k < Näi olle parempi estimaattori N:lle voisi olla k + k maxx, X,..., X k, k k + N +. joka o harhato jatkuvassa tapauksessa. Näi olle parempi estimaatti taksiautoje lukumäärälle olisi 4 3 758 0. k Momettimeetelmä Jos satuaismuuttuja X pistetodeäköisyys- tai tiheysfuktio f X t, θ o sellaie, että θ voidaa esittää odotusarvo EX fuktioa eli θ = hex ii parametri θ momettiestimaattori o ˆΘ = h X j. Jos parametri, tai parametrit, voidaa esittää muodossa hex, EX ii estimaattoriksi valitaa ˆΘ = h X j, Xj. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 5 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 6 / 78
Suurimma uskottavuude periaate Jos todeäköisyysjakauma pistetodeäköisyys- tai tiheysfuktio o f x, θ ii parametri θ suurimma uskottavuude estimaatti θ valitaa site, että L θ, x, x,..., x = max Lθ, x, x, x, θ missä Lθ, x, x, x = f x, θ f x, θ... f x, θ o s. uskottavuusfuktio ja x j, j =,..., o havaittu otos satuaismuuttujasta joka pistetodeäköisyys- tai tiheysfuktio o f x, θ. Diskreetissä tapauksessa Lθ, x, x, x o todeäköisyys, että saadaa havaittu otos x j, j =,..., ku parametri arvo o θ. Jatkuvassa tapauksessa h Lθ, x,..., x o pieillä positiivisilla h: arvoilla suuri piirtei todeäköisyys, että saadaa havaittu otos y j, j =,..., site, että y j x j < h kaikilla j. Ekspoettijakauma parametri luottamusväli, esimerkki Oletamme, että meillä o otos Expλ-jakaumasta site, että otokse koko o 50 ja keskiarvo 0.8. Momettimeetelmällä saamme silloi parametrille λ estimaati ˆλ = 0.8 =.5 mutta tässä o kyse siitä, että mite voimme määrittää väli site, että jos laskemme moella otoksella ja tällä samalla meetelmällä mota tällaista väliä, ii suuri piirtei esim. 95% tapauksista ovat sellaisia, että parametri kuuluu välii, joka olemme siiä tapauksessa laskeeet havaitoarvoista. Tätä varte tarvitsemme satuaismuuttuja, joka jakauma aiaki approksimatiivisesti o täysi tuettu eikä siis riipu mistää tutemattomista parametreistä. Keskeise väliarvolausee ojalla tällaiseksi jakaumaksi otetaa usei ormaalijakauma N0, ja äi teemme ytki. Uohdamme hetkeksi umeroarvot ja oletamme että meillä o otos X, X,..., X 50 satuaismuuttujasta X Expλ. Otoskeskiarvo X = 50 X j odotusarvo o silloi EX = EX = λ ja variassi VarX = 50 VarX = 50. λ G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 7 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 8 / 78 Ekspoettijakauma parametri luottamusväli, esimerkki, jatk. Jos o riittävä iso ii X λ 50λ a N0,. Jos Z N0, ii Pr F N0, 0.05 Z FN0, 0.975 = Pr.96 Z.96 = 0.95, jote Nyt Pr.96 X λ.96 0.95. 50λ.96 X λ.96 50λ.96 50 X λ +.96 50, X G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 9 / 78 Ekspoettijakauma parametri luottamusväli, esimerkki, jatk. jote todeäköisyys että λ o satuaismuuttujie 0.7 X X myös 0.95. Näi olle ekspoettijakauma parametri 95%: approksimatiivie luottamusväli ku otoskoko o 50 o [ 0.7 X,.8 ]. X ja.8 välillä o Tässä tapauksessa havaituksi luottamusväliksi tulee [0.9,.6]. Ekspoettijakauma kohdalla ei ole erityise hakalaa saada epäyhtälöt parametrille, mutta jos äi olisi ollut kute o asia laita esim Beroulli-jakauma kohdalla olisimme voieet variassi lausekkeessa λ käyttää λ: estimaattoria X jolloi luottamusväliksi olisi tullut [ X +.96 X, 0.78 X.96 = X X,.38 ], X 50 50 jolloi havaituksi luottamusväliksi tässä tapauksessa olisi tullut [0.97,.73]. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 0 / 78
Luottamusväli Todeäköisyysjakauma parametri θ luottamusväli luottamustasolla α o väliestimaattori site, että I X, X,..., X = [LX, X,..., X, UX, X,..., X ] Pr θ I X, X,..., X = α. Usei saaa luottamusväli käytetää myös välistä I x, x,..., x, missä siis satuaismuuttujat X j o korvattu havaituilla arvoilla x j, j =,...,. Huom! Tavallisesti luottamusväli valitaa symmetriseksi site, että Prθ < LX, X,..., X = Prθ > UX, X,..., X = α. Usei joutdutaa tyytymää siihe, että luottamusvälii liittyvät ehdot ovat voimassa aioastaa approksimatiivisesti. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II / 78 Odotusarvo luottamusväli ku X Nµ, σ Jos X, X,..., X o otos, joka keskiarvo o X ja otosvariassi S, Nµ, σ -jakautueesta satuaismuuttujasta ii [ ] S X F t S α, X + F t α, o µ: symmetrie luottamusväli luottamustasolla α. Miksi? Jos W o t -jakautuut ja merkitää t α = F t α = F t α ii Pr t α W t Jos yt W = X µ S ja vai jos X α = α. ii t α W t α jos S t α µ X + S t α. α α α t α t α G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II / 78 Todeäköisyyde p luottamusväli ku jakauma o Beroullip Jos X, X,..., X o otos Beroullip-jakautueesta satuaismuuttujasta ja otoskeskiarvo o X ii X X X F N0, α X X, X + F N0, α o todeäköisyyde p approksimatiivie luottamusväli luottamustasolla α. Miksi? Jos Z o approksimatiivisesti N0, -jakautuut ja merkitää z α = F N0, α ii Pr z α Z z α α. Nyt a N0, mutta p korvataa imittäjässä se estimaattorilla X ja X p p p jos Z = X X p X X X X z ii z α Z z α täsmällee silloi ku α p X + X X z α. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 3 / 78 Huom! Usei käytetty merkitä o t α = t α m = F tm α = Ftm α, mikä siis tarkoittaa, että jos X o tm jakautuut satuaismuuttuja, ii PrX t α = PrX t α = α ja Pr X t α = α. Vastaava merkitä N0, -jakaumalle o z α. Variassi luottamusväli ku jakauma o Nµ, σ Jos X, X,..., X o otos Nµ, σ -jakautueesta satuaismuuttujasta ja otosvariassi o S ii [ ] S α F χ S α, F χ o variassi σ symmetrie luottamusväli luottamustasolla α. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 4 / 78
Hypoteesi testaus Testataa oko syytä hylätä hypoteesi H 0, s. ollahypoteesi se perusteella, että saadut tulokset ovat hyvi epätodeäköisiä jos ollahypoteesi o voimassa vai oko kaikki vai seuraus sattumasta? Nollahypoteesi o tavallisesti jokilaie vastaväite, joka kumoamiseksi tarvitaa perusteluita. Laskuje suorittamise kaalta o oleellista, että ollahypoteesiksi valitaa riittävä yksiselitteie väite, esim. θ = θ 0 eikä θ θ 0 joka o liia epämääräie. Usei riittää, että ollahypoteesillä o yksiselitteie ääritapaus, esim. θ = θ 0 jos ollahypoteesi o θ θ 0. Nollahypoteesii voidaa lisätä muita oletuksia jakaumista, riippumattomuudesta je., joilla kaikilla voi olla merkitystä tulokse kaalta mutta joita ei välttämättä pyritä kumoamaa tässä testissä. Hypoteesi testaus, jatk. Ku otos o otettu ja havaittu, lasketaa testimuuttujalle arvo ja tämä testimuuttuja valitaa site, että jos ollahypoteesi pätee ii se jakauma o aiaki suuillee joki stadardijakauma. Nollahypoteesi perusteella lasketaa todeäköisyys, s. p-arvo, että tämä testimuuttuja saa arvo, joka poikkeaa ollahypoteesi perusteella odotetusta vähitää yhtä paljo kui havaittu otos. Jos p-arvo o pieempi kui aettu merkitsevyystaso hylätää ollahypoteesi. Merkitsevyystaso o siis todeäköisyys usei likiarvo ja jos ollahypoteesi sisältää epäyhtälöitä, yläraja todeäköisyydelle, että ollahypoteesi hylätää vaikka se olisi voimassa. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 5 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 6 / 78 Esimerkki: Kolikoheitto Haluamme selvittää oko todeäköisyys, että tulos o klaava o 0.5 tai jotai muuta ku heitämme tiettyä kolikkoa. Tästä syystä heitämme tätä kolikkoa 400 kertaa ja saamme 70 klaavaa ja 30 kruuaa. Mitä johtopäätöksiä voimme äide tuloste perusteella vetää? Tässä tapauksessa valitsemme ollahypoteesiksi H 0 : p = 0.5 missä siis p = PrT. Nollahypoteesiksi emme voisi valita p 0.5 koska se ojalla emme voisi laskea mitää ja epäyhtälö p 0.5 olisi ollut perusteltu jos olisimme epäilleet, että p > 0.5 jolloi saatuje tuloste perusteella olisimme voieet todeta ettei mitää puhu ollahypoteesia vastaa. Vastaavasti p 0.5 olisi ollut perusteltu jos olisimme epäilleet tai toivoeet, että p olisi pieempi kui 0.5 mutta se seikka että saimme vähemmä kui 0.5 400 klaavaa olisi harhaajohtava peruste valita ollahypoteesiksi p 0.5. Seuraavaksi oletamme siis että ollahypoteesi H 0 : p = 0.5 o voimassa ja että eri heittoje tulokset ovat toisistaa riippumattomia. Nyt todeäköisyys 400 70 0.5 70 0.5 30 = 0.00044 että saamme täsmällee 70 klaavaa o epäoleaie mutta se sijaa todeäköisyys G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 7 / 78 Esimerkki: Kolikoheitto, jatk. että saamme korkeitaa 70 klaavaa o oleaie ja se o 70 400 0.5 j 0.5 400 j = 0.0056 j j=0 Koska odotusarvo o 00 ja ollahypoteesi o p = 0.5 ii 30 tai sitä suurempi lukumäärä klaavoja olisi yhtä poikkeava tulos jote s. p-arvoksi tulee p = Pr korkeitaa 70 tai vähitää 30 klaavaa = 0.0056 = 0.003. Tästä voimme vetää johtopäätökse, että o hyvi epätodeäköistä että olisimme saaeet äi vähä klaavoja jos klaava todeäköisyys todella o 0.5 ja tämä voi esittää myös site, että koska p < 0.0 hylkäämme ollahypoteesi merkitsevyystasolla %. Mutta jos merkitsevyystasoksi olisi valittu 0.% ii silloi emme hylkäisi ollahypoteesia. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 8 / 78
Esimerkki: Kolikoheitto, jatk. Jos emme halua laskea biomijakaumalla voimme käyttää ormaaliapproksimaatiota esim. site että satuaismuuttuja X j saa arvo jos j:essä heitossa tulee klaava, muute 0 jolloi 400 X j o klaavoje lukumäärä ja keskiarvo X iide osuus. X p p p 400 a N0,, jos p o klaava todeäköisyys. Huomaa, että ku käytämme ormaaliapproksimaatiota o yhdetekevää käytämmekö keskiarvoa Beroulli-jakautueista muuttujista tai summaa 400 X j jolloi imittäjässä o p p400 joka o biomijakautuut satuaismuuttuja. Esimerkki: Kolikoheitto, jatk. Koska ollahypoteesi mukaa p = 0.5 ii tämä testimuuttuja saa arvo 70 400 0.5 = 3. 0.5 0.5 400 Koska testimuuttuja itseisarvoltaa suuret arvot ovat poikkeavia ii p-arvo o p = Pr Z 3 = F N0, 3 = 0.007. Vaikka ormaaliapproksimaatiolla avulla saatu p-arvo poikkeaa tarkasta arvosta suuruusluokka o aiva sama ja samoi johtopäätökset. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 9 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 30 / 78 Normaalijakautuut satuaismuuttuja, odotusarvo testaus Jos X j, j =,,..., o otos satuaismuuttujasta X joka o Nµ, σ -jakautuut ja ollahypoteesi o µ = µ 0 tai µ µ 0 tai µ µ 0 ii testimuuttujaksi valitaa X µ 0 S t, missä X o otoskeskiarvo ja S otosvariassi. Huom! Normaalijakaumaoletuksesta seuraa, että tämä ei ole approksimatiivie jakauma jote piei otoskoko ei välttämättä ole ogelmallie. Esimerkki Oliko maaliskuu 04 poikkeuksellie sademäärä suhtee? Maaliskuussa 04 sademäärät olivat joillaki mittausasemilla seuraavat: 3 4 5 6 7 8 9 0 Sademäärä 33 7 30 8 8 4 3 34 Vastaavat keskiarvot vuosilta 98 00 olivat 3 4 5 6 7 8 9 0 Keskiarvo 39 37 38 36 36 6 35 9 30 Nyt o järkevää laskea mite paljo vuode 04 keskiarvot poikkeavat pitkäaikaisista keskiarvoista ja erotukset ovat seuraavat 3 4 5 6 7 8 9 0 Erotus -6-0 -8-4 -8-4 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 3 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 3 / 78
Esimerkki, jatk. Koska kysytää oliko maaliskuu 04 poikkeuksellie sademäärä suhtee ii ollahypoteesiksi valitaa väite ettei se ollut. Nollahypoteesiksi ei voi valita että vuosi 04 oli poikkeuksellie koska se perusteella ei voi laskea mitää eikä kysymyksee sisältyyt mitää siitä millä tavalla sademäärät olisivat olleet poikkeuksellisia jote mitää sellaista ei ole syytä ottaa ollahypoteesiikaa. Nollahypoteesi o siis, että erotus vuode 04 ja pitkäaikaise keskiarvo välillä o Nµ, σ -jakautuut missä µ = 0 ja että ämä erotukset eri paikkakuilla ovat riippumattomia, mikä ehkä o kyseealaista. Erotuste keskiarvo o 4.8 ja otosvariassi 4.733. Näi olle testimuuttuja W = X 0 saa arvo.3496. Koska ollahypoteesi ojalla S 0 testimuuttuja W o t0 jakautuut ii p-arvoksi tulee p = Pr W 0.3496 0 = PrW.3496 tai W.3496 = F t9.3496 + F t9.3496 = F t9.3496 = 0.043333, jote hylkäämme ollahypoteesi merkitsevyystasolla 0.05. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 33 / 78 Esimerkki, jatk Jos olisi kysytty oliko maaliskuussa 04 sademäärä poikkeusellise piei ii ollahypoteesiksi olisimme valieet väittee ettei se ollut eli että erotuste jakauma o Nµ, σ missä µ 0. Testimuuttuja olisi ollut täsmällee sama mutta p-arvoksi olisi saatu p = PrW.3496 = F t9.3496 = 0.0667. Jos olisi kysytty oliko maaliskuussa 04 sademäärä poikkeusellise suuri ii ollahypoteesiksi olisimme taas valieet väittee ettei se ollut eli että erotuste jakauma o Nµ, σ missä yt µ 0. Testimuuttuja olisi ollut täsmällee sama ja koska keskiarvo o egatiivie tämä o täysi ollahypoteesi mukaista eikä sitä pidä hylätä. Tällaisissa tapauksissa ei otosvariassiakaa tarvitse laskea, riittää että laskemme keskiarvo. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 34 / 78 Osuus tai todeäköisyys, ormaaliapproksimaatio Jos X j, j =,,..., o otos satuaismuuttujasta X joka o Beroullip-jakautuut ja ollahypoteesi o p = p 0 tai p p 0 tai p p 0 ii testimuuttujaksi valitaa X p 0 p 0 p 0 a N0,. Aiva yhtä hyvi voidaa otoksesta laskea summa Y = X j joka o Bi, p jakautuut ja testimuuttuja joka siis ei muutu kirjoitetaa silloi muodossa Y p 0 p0 p 0 a N0,. Huom! Tässä tapauksessa jakauma o approksimatiivie ja yleesä katsotaa, että approksimaatio o riittävä hyvä jos mip 0, p 0 0. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 35 / 78 p-arvo, hylkäysalue, tm- tai N0, -testimuuttuja Oletetaa, että testimuuttuja U o tm- tai approksimatiivisesti N0, -jakautuut jolloi se kertymäfuktio o F U ja se testissä saa arvo u. Jos vaihtoehto ollahypoteesille o kaksisuutaie, eli ollahypoteesi o muotoa µ = µ 0, p = p 0 je., eli jos tulokset ovat täsmällee ollahypoteesi mukaisia aioastaa ku testimuuttuja o 0 ii p-arvo o PrU u tai U u = F U u. Nollahypoteesi hylätää merkitsevyystasolla α jos p < α eli jos testimuuttuja arvo o hylkäysalueella, u α u α, missä u α = FU α = FU α. α α u α u α G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 36 / 78
p-arvo, hylkäysalue, tm- tai N0, -testimuuttuja, jatk. Jos vaihtoehto ollahypoteesille o yksisuutaie ja ollahypoteesi o muotoa µ µ 0, p p 0 je., eli jos tulokset ovat täsmällee ollahypoteesi mukaisia ku testimuuttuja o 0 ii p-arvo o PrU u = F U u. Nollahypoteesi hylätää merkitsevyystasolla α jos p < α eli jos testimuuttuja arvo o hylkäysalueella u α, missä u α = F α = F α. U U p-arvo, hylkäysalue, tm- tai N0, -testimuuttuja, jatk. Jos vaihtoehto ollahypoteesille o yksisuutaie ja ollahypoteesi o muotoa µ µ 0, p p 0 je., eli jos tulokset ovat täsmällee ollahypoteesi mukaisia jos testimuuttuja o 0 ii p-arvo o PrU u = F U u. Nollahypoteesi hylätää merkitsevyystasolla α jos p < α eli jos testimuuttuja arvo o hylkäysalueella, u α missä u α = F α = F α. U U α α u α u α G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 37 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 38 / 78 Normaalijakauma, kaksi otosta, sama variassi, odotusarvoje vertailu Jos X j, j =,,..., x ja Y j, j =,,..., y ovat riippumattomia otoksia satuaismuuttujista X ja Y missä X Nµ x, σ ja Y Nµ y, σ ja ollahypoteesi o µ x = µ y tai µ x µ y tai µ x µ y ii testimuuttujaksi valitaa X Y t x + y. x Sx + y Sy x + y x + y G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 39 / 78 Esimerkki Vuosia 660-740 sytyi Pariisissa 377 649 tyttöä ja 393 535 poikaa ja samaa aikaa sytyi Lotoossa 698 900 tyttöä ja 737 687 poikaa. Oko tyttöje osuuksissa eroja? Olkoo X j satuaismuuttuja, joka arvo o jos lapsi j Pariisissa o tyttö ja 0 jos hä o poika. Vastaavasti Y j o satuaismuuttuja, joka arvo o jos lapsi j Lotoossa o tyttö ja 0 jos hä o poika. Lisäksi oletamme, että kaikki ämä satuaismuutujat ovat riippumattomia ja että PrX j = = p P ja PrY j = = p L. Nollahypoteesi o tässä tapauksessa H o : p P = p L. Nollahypoteesi perusteella emme tiedä mikä p P = p L o mutta voimme laskea estimaati ˆp tälle todeäköisyydelle toeteamalla, että kaike kaikkiaa sytyi 07 77 lasta ja äistä yhteesä 076 549 oli tyttöjä 076 549 jote ˆp = 0.4876. Tiedämme myös keskiarvot havaituista 07 77 muuttujista ja e ovat x = 0.4897 ja y = 0.4865. Satuaismuuttuja X variassi o oi P P missä P = 7784 o Pariisissa sytyeide laste lukumäärä. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 40 / 78 P
Esimerkki, jatk. Samoi satuaismuuttuja Y variassi o oi P P L = 7784 o Lotoossa sytyeide laste lukumäärä. Näi olle satuaismuuttuja X Y variassi o oi P P + P P jote testimuuttuuja P L X Y Z = P P P + L o suuri piirtei N0, -jakautuut. Tässä tapauksessa testimuttuja arvoksi tulee L missä 0.48970 0.48650 z = 0.4876 0.4876 7784 + = 4.5350. 436587 Nyt tämä testi p-arvo o p Pr Z 4.535 = F N0, 4.5350 = 0.00000576, eli voimme hyvi perustei hylätä ollahypoteesi. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 4 / 78 Kahde osuude tai todeäköisyyde vertailu Jos X j, j =,,..., x ja Y j, j =,..., y ovat riippumattomia otoksia satuaismuuttujista X ja Y missä X Beroullip x ja Y Beroullip y ja ollahypoteesi o p x = p y tai p x p y tai p x p y ii testimuuttujaksi valitaa missä X Y a N0, P P x + y P = xx + y Y x + y. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 4 / 78 Yhteesopivuus Jos X j, j =,..., o otos satuaismuuttujasta X joka arvojoukko o m k= A k missä joukot A k ovat pistevieraita ja ollahypoteesi o H 0 : PrX A k = p k, k =,..., m ii testimuuttujaksi valitaa C = m O k p k a χ m, p k k= missä O k o jouko { j : X j A k } alkiode lukumäärä. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 43 / 78 p-arvo, hylkäysalue, χ -testimuuttuja Oletetaa että testimuuttuja C o approksimatiivisesti χ k-jakautuut ja saa arvo c. Jos vaihtoehto ollahypoteesille o yksisuutaie ja pieet testimuuttuja arvot ovat sopusoiussa ollahypoteesi kassa ii p-arvo o PrC c = F χ kc. Nollahypoteesi hylätää merkitsevyystasolla α jos p < α eli jos testimuuttuja arvo o hylkäysalueella F χ k α,. Jos vaihtoehto ollahypoteesille o yksisuutaie ja suuret testimuuttuja arvot ovat sopusoiussa ollahypoteesi kassa ii p-arvo o PrC c = F χ kc. Nollahypoteesi hylätää merkitsevyystasolla α jos p < α eli jos testimuuttuja arvo o hylkäysalueella 0, F χ k α. Jos vaihtoehto ollahypoteesille o kaksisuutaie ii p-arvo o mif χ kc, F χ kc. Nollahypoteesi hylätää merkitsevyystasolla α jos p < α eli jos testimuuttuja arvo o hylkäysalueella 0, F χ k α Fχ k α,. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 44 / 78
Esimerkki: Kolikoheitto toisella tavalla Kute aikaisemmassa esimerkissä olemme heittäeet kolikkoa 400 kertaa ja saaeet 70 klaavaa ja 30 kruuaa. Otamme taas ollhypoteesiksi H 0 : p = 0.5 missä p = PrT eli klaava todeäköisyys ja tässä tapauksessa muotoa p 0.5 oleva ollahypoteesi ei ole mahdollie. Kirjoitamme havaitut lukumäärät taulukkoo T H 70 30 ja laskemme χ -yhteesopivuustesti testimuuttuja C = m arvo joka o c = 70 400 0.5 400 0.5 + 30 400 0.5 400 0.5 k= O k p k p k = 30 00 + 30 00 = 9. Nyt C o suuillee χ -jakautuut ja aiostaa C: suuret arvot ovat ristiriidassa ollahypoteesi kassa jote testi p-arvo o Esimerkki: Kolikoheitto toisella tavalla, jatk. p = PrC 9 = F χ 9 = 0.007. Mistä yt johtuu, että saimme täsmällee sama tulokse kui aikaisemmi ku käytimme ormaaliapproksimaatiota? Jos Y Bi, p ii Y p Y p + = p p Y p = p + = p Y p p Y p p p = + Y + p p Y p p p, eli χ -testi testimuuttuja o biomijakauma ormaaliapproksimaatio eliö ja χ jakautuut satuasimuuttuja o määritelmä mukaa N0, -jakautuee satuaismuuttuja eliö. Jos χ -testissä luokkie lukumäärä m o suurempi kui ii o huomattavasti vaikeampaa osoittaa, että C a χ m. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 45 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 46 / 78 Esimerkki, yhteesopivuus, χ -testi Haluamme testaamalla selvittää oko satuaismuuttuja X Y, missä X N0, ja Y N0, ovat riippumattomia, tiheysfuktio f t = π jolloi siis kyse olisi s. Cauchy-jakaumasta. +t Jos f o tiheysfuktio ii kertymäfuktio o F t = π arctat + ja jos U o satuaismuuttuja joka kertymäfuktio o F ii PrU a k, a k ] = p k =, k =,,... 8 8 Esimerkki, yhteesopivuus, χ -testi, jatk. Jos yt otamme otokset x,..., x 00 satuaismuuttujasta X ja y,..., y 00 satuasimuuttujasta Y ja laskemme moiko luvuista x j y j kuuluu välii a k, a k ] ii saamme seuraavat tulokset: A k,.44].44, ], 0.44] 0.44, 0] O K 7 A k 0, 0.44] 0.44, ],.44].44, ] O K 8 8 3 9 jos eli a 0 =, a k = F k 8, k =,,..., 7, a 8 =, Tässä tapauksessa valitsimme välit site, että PrU a k, a k ] = 8 jote p k = 00 8 =.5 kaikilla k =,..., 8. χ -testi testimuuttuja C = m k= O k p k p k saa arvo [a 0, a,..., a 8 ] = [,.44,, 0.44, 0, 0.44,,.44, ]. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 47 / 78 7.5.5.5.5 c = + + +.5.5.5.5 8.5 8.5 3.5 9.5 + + + + = 8.48..5.5.5.5 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 48 / 78
Esimerkki, yhteesopivuus, χ -testi, jatk. Nyt C o suuillee χ 8 jakautuut ja aiostaa C: suuret arvot ovat ristirridassa ollahypoteesi kassa jote testi p-arvo o p = PrC 8.48 = F χ 78.48 = 0.9. Normaalijakautuut satuaismuuttuja, variassi testaus Jos X j, j =,,..., o otos satuaismuuttujasta X joka o Nµ, σ -jakautuut ja ollahypoteesi o σ = σ0 tai σ σ0 tai σ σ0 ii testimuuttujaksi valitaa Näi olle meidä ei pidä hylätä ollahypoteesia. Huomaa, että hyvi piei testiarvo, joka seurauksea p-arvo olisi suuillee, ei merkitse välttämättä vahvaa tukea ollahypoteesille, vaa pikemmi herättää epäilykse, että umerot olisi peukaloitu paremma yhteesopivuude saavuttamiseksi. missä S otosvariassi. S σ 0 χ, G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 49 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 50 / 78 Kahde odotusarvo vertailu, yleie tapaus Tietystä prosessista kerättii mittausdataa tuottee laadu varmistamiseksi ja prosessii tehtii muutoksia jotta mitatu suuree eli laadu variassi pieeisi. Tässä oistuttii mutta arveltii että samaaikaisesti myös laatu eli mitattu suure kasvoi. Tämä asia selvittämiseksi tehtii mittauksia ee muutoksia ja iide jälkee: Otoskoko Keskiarvo Otosvariassi Ee 0 4.50 0.08 Jälkee 50 4.56 0.04 Tässä meillä o otokset X, X,..., X 0 ja Y, Y,..., Y 50 ja oletamme että kaikki ämä satuaismuuttujat ovat riippumattomia, satuaismuuttujilla X j o sama jakauma ja samoi satuaismuuttujilla Y j o sama jakauma. Se sijaa meidä ei tarvitse tässä tapauksessa olettaa että e olisivat ormaalijakautueita ja koska variassit eivät ole samoja emme voisi käyttää t-jakautuutta satuaismuuttujaa mutta kuiteki sellaisia, että keskiarvot X ja Y ovat suuillee ormaalijakautueita keskeise raja-arvolausee ojalla. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 5 / 78 Kahde odotusarvo vertailu, yleie tapaus, jatk. Silloi myös X Y a N µ X µ Y, σ X 0 + σ Y. 50 Tässä tapauksessa valitsemme ollahypoteesiksi µ X µ Y vastaväitteeä arveluille, että laatu parai eli µ Y > µ X. Emme tiedä mitä σ X ja σ Y ovat mutta voimme estimoida e otosvariasseilla S X ja S Y jote testimuuttujaksi otamme Z = X Y S x 0 + S Y 50 a N0,. Testimuuttuja arvoksi tulee.6 ja koska testimuuttuja suuret positiiviset arvot ovat sopusoiussa ollahypoteesi kassa ii p-arvoksi tulee p = PrZ.6 F N0,.6 = 0.0044, eli hylkäämme ollahypoteesi merkitsevyystasolla 0.0. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 5 / 78
Mikä o p-arvo jakauma jos ollahypoteesi pätee? p-arvo o yleesä luku mutta jos emme laske testimuuttuja arvolla vaa otamme testimuuttuja satuaismuuttujaa, ii silloi p-arvoki o satuaismuuttuja. Lisäksi oletamme tässä, että meillä o testimuuttuja joka o jatkuva ei siis esim. biomijakauma tapauksia. Mahdollisista approksimaatioista seuraa, että alla oleva tuloski o approksimatiivie. Tarkastelemme esi tapausta missä ollahypoteesi o muotoa θ θ 0 eli aioastaa suuret positiiviset testimuuttuja arvot johtavat ollahypoteesi hylkäämisee. Jos U o testimuuttuja ii p-arvo o P = F U U. Koska P = F U Y t täsmällee silloi ku F U U t eli U F U t ii P: kertymäfuktio o F P t = PrP t = Pr U F U t = Pr U F U t = F U F U t = t = t, eli kyseessä o tasajakauma. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 53 / 78 Mikä o p-arvo jakauma jos ollahypoteesi pätee? jatk. Sama tulos saadaa jos ollahypoteesi o muotoa θ θ 0. Jos ollahypoteesi o muotoa θ = θ 0 ja testimuuttuja o U ii p-arvo o P = mif U U, F U U. Nyt F u U t täsmälle silloi ku U FU t ja F uu t täsmälle silloi ku U F U t jote F P t = PrP t = Pr P t, F U U = Pr F U U t + Pr = Pr U F U t + Pr + Pr P t, F U u > F U u t U F U t = F U F U t + F U F U t = t + t = t, jote tässäki tapauksessa kyse o tasajakaumasta. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 54 / 78 Korrelaatio Satuaismuuttujie X ja Y välie korrelaatiokerroi o X CovX, Y E EX Y EY ρ XY = CorX, Y = =, VarX VarY VarX VarY ja jos X j, Y j, j =,..., o otos satuaismuuttujasta X, Y ii otoskorrelaatiokerroi o R xy = X j X Y j Y S xy X j X =, Y j Y Sx Sy missä ja S x = S xy = X j X Y j Y, X j X, S y = Y j Y. Otoskorrelaatokertoime jakauma Jos X j, Y j, i =,..., o otos ormaalijakautueesta satuaismuuttujasta X, Y joka korrelaatiokerroi o ρ xy = 0 ja σ x > 0, σ y > 0 ii pätee R xy R xy t. Jos X j, Y j, i =,..., o otos ormaalijakautueesta satuaismuuttujasta X, Y ja < ρ xy < ja σx > 0, σy > 0 ii pätee + l Rxy + a N R l ρxy, xy ρ XY 3 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 55 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 56 / 78
Pieimmä eliösumma meetelmä ku y b 0 + b x Jos oletetaa, että muuttujie x ja y välie yhteys voidaa esittää muodossa y b 0 + b x, pisteet x j, y j, j =,..., o aettu ja halutaa määrittää b 0 ja b site, että y j b 0 b x j o mahdollisimma piei ii voi olla hyödyllistä esi laskea keskiarvot x = x j ja y = y j ja sitte miimoida eliösummaa f b 0, b = y j y b 0 b x j x. Koska x j x = y j y = 0 ii f b b 0, b = b 0 jote 0 optimaalisuusehto f b b 0, b = 0 ataa tulokseksi b 0 = 0. Nyt 0 f 0, b b = yj y b x j x x j x ja yhtälöllä f 0, b b = 0 o ratkaisu b = x j xy j y x j x = s xy s x. Pieimmä eliösumma meetelmä, jatk. Parametri b 0 lausekkeessa y = b 0 + b x o silloi b 0 = y b x. Huom Edellä olevissa laskuissa ei esiityyt satuaismuuttujia, mutta voidaa hyvi ajatella, että muuttujie x ja y välillä vallitsee riippuvuus, joka o muotoa y = β 0 + β x mutta ku esim mitataa y-muuttuja arvoja esiityy satuaisia virheitä, josta seuraa että mitatut arvot ovatki y j = β 0 + β x j + ε j, j =,..., missä ε j ovat satuaismuuttujia. Lausekkee y j b 0 b x j eikä joki toise lausekkee miimoiti o järkevää imeomaa jos oletetaa, ettei x j -arvoissa ole virheitä ja kaikki poikkeamat suorasta johtuvat virheellisistä y j -arvoista. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 57 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 58 / 78 Esimerkki Meillä o seuraavat havaiot: x.0.9.7 3. 3.8 4.7 5. 5.5 y -0.8-0.4-0.0 0.9..3.7. Esi voimme laskea keskiarvot ja e ovat Esimerkki, jatk. Näi olle b = s xy sx = 0.6405, b 0 = y b x =.485. x = 3.4875, y = 0.75. Sitte meidä pitää laskea x: otosvariassi ja muuttujie x ja y otoskovariassi ja saamme s x = s xy = x j x =.584, x j xy j y =.6. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 59 / 78 Pisteet ja suora äyttävät seuraavalaisilta: G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 60 / 78
Regressio Oletetaa, että jos x o aettu ii satuaismuutuja Y o Y = β 0 + β x + ε missä ε o satuaismuuttuja eri satuaismuuttuja eri x: arvoilla. Otos o tällaisessa tapauksessa muotoa x j, Y j, j =,..., missä ε j = Y j β 0 β x j ovat riippumattomia satuaismuuttujia joilla o sama jakauma, joka tavallisesti oletetaa oleva N0, σ. Pieimmä eliösumma meetelmällä joka o järkevä täsmällee silloi ku ε N0, σ saadaa seuraavat estimaattorit kertoimille β, β 0 ja jääösvariassille σ : B = S xy sx, B 0 = Y B x, S = Y j B 0 B x j. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 6 / 78 Regressio, testimuuttujia Oletetaa, että ε j N0, σ, j =,..., ovat riippumattomia ja Y j = β 0 + β x j + ε j, j =,...,. Silloi B 0 N β 0, σ + x sx, σ B N β, sx, S σ χ. Testimuuttujia voidaa käyttää B 0 β 0 W 0 = S + W = B β S s x x s x t. t, G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 6 / 78 Estimaattorie väliset yhteydet Edellä olevista määritelmistä seuraa myös ja samat kaavat pätevät estimaateilleki, että ja S = S y R xy, B S Sx R xy = B Sy, S x = R xy. Rxy Tästä tuloksesta seuraa myös että ollahypoteesie β = 0 ja ρ xy = 0 testaukset atavat samat tulokset ku oletuksea o ormaalijakauma. Luku r xy eli satuaismuuttuja R xy havaittu arvo saotaa oleva regressiomalli selitysaste. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 63 / 78 Estimaattorie väliset yhteydet, miksi? Koska B = Sxy, B sx 0 = Y B x, S = Y j B 0 B x j ja S xy = R xy s x S y ii S = jote = B B0 + B x j y j = B x j x y j y x j x B x j xy j y + = B Sx B S xy + Sy S xy Sx = Sx 4 y j y S xy S x + S y = S y R xys y = S y R xy, S = S y R xy. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 64 / 78
Estimaattorie väliset yhteydet, miksi? jatk. Koska määritelmä mukaa ii Tästä seuraa, että B S s x = S xy Sy = sx Rxy = B s x R xy S = B s x Rxy Rxy. B B R xys x koska B ja R xy ovat samamerkkiset. R xy s x, = R xy, Rxy Liikee-esimerkki Tilastokeskukse mukaa liiketeessä kuolleide lukumäärät vuosia 000 03 olivat 004 005 006 007 008 009 00 0 0 03 375 379 336 380 344 79 7 9 55 48 Tässä tapauksessa o edullista ottaa x-muuttujaksi vuosiluku josta väheetää 04 jolloi taulukko äyttää tällaiselta: x -0-9 -8-7 -6-5 -4-3 - - y 375 379 336 380 344 79 7 9 55 48 Tästä otoksesta voimme laskea seuraavat estimaatit: x y sx sy s xy 5.5 36 9.667 77.8889 45.5556 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 65 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 66 / 78 Liikee-esimerkki, regressiosuora Nyt saamme regressiomalli Y j = β 0 + β x j + ε j parametrie estimaateiksi b = s xy sx = 5.879, b 0 = y b x = 8.67, r xy = s xy s x s y = 0.997. Suora ja datapisteet äyttävät seuraavalaisilta: G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 67 / 78 Liikee-esimerkki, β : testaus Nyt voimme laskea jääösvariassi estimaati joko suoraa alkuperäisestä datasta kaavalla s = 0 0 mutta yleesä o helpompaa laskea kaavalla y j b 0 b x j, s = s y r xy = 9 8 77.8889 0.997 = 59.35. Nyt voimme testata ollahypoteesia β = 0 jolloi testimuuttujaa o W = B 0 S ja tämä testimuuttuja saa arvo s x w = 5.879 59.35 9 9.667 t0, = 6.387. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 68 / 78
Liikee-esimerkki, β : testaus, jatk. Koska ollahypoteesi oli β = 0 eikä esimerkiksi β 0 mikä voisi olla hyvi perusteltu, ii p-arvoksi tulee Liikee-esimerkki, β 0 : testaus p = F t8 6.387 = 0.0006, Jos haluamme testata hypoteesia, β 0 00 ii käytämme testimuuttujaa Liikee-esimerkki, β 0 : testaus, jatk. 8.67 00 w 0 = =.846. 59.35 0 + 5.5 0 9.667 Koska ollahypoteesi oli β 0 00 ii aioastaa testimuuttuja isot positiiviset arvo ovat ristiriidassa ollahypoteesi kassa, eli se vaihtoehto o yksisuutaie, jote p-arvo o W 0 = B 0 β 0 S + x s x t. p = F t8.846 = 0.054, ja emme hylkää ollahypoteesia edes merkitsevyystasolla 0.05. Ku sijoitamme edellä lasketut arvot tähä kaavaa, ii saamme testimuuttuja arvoksi G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 69 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 70 / 78 Liikee-esimerkki, parametrie luottamusvälit Parametrie β 0 ja β luottamusvälit määritellää ja lasketaa samalla tavalla kui ormaalijakautuee satuaismuuttuja luottamsusväli, eli jos meidä pitää määrittää 99%: luottamusväli parametrille β ii esi toteamme, että koska W = B β S s x t ja F t8 0.995 = Ft8 0.005 = 3.3554 ii Pr 3.3554 B β S s x Koska 3.3554 B β S 3.3554 = 0.005 0.005 = 0.99. 3.3554 täsmällee silloi ku Liikee-esimerkki, parametrie luottamusvälit, jatk. B 3.3554 Pr β [ S s x B 3.3554 β B + 3.3554 S sx, B + 3.3554 S s x S ii s x Ku sijoitamme aikaisemmi lasketut estimaatit tähä, ii saamme 99%: luottamusväliksi [ ] 59.35 59.35 5.879 3.3554, 5.879 + 3.3554 9 9.667 9 9.667 ] = 0.99. = [ 4.95, 7.468 ]. s x G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 7 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 7 / 78
Normaalijakaumie ehdolliset jakaumat, selitysaste Jos X, Y o ormaalijakautuut ii σ Y X = x N µ Y + ρ Y XY σ X x µ X, ρ XY σ Y, eli missä EY X = x = µ Y + ρ XY σ Y σ X x µ X = β 0 + β x, σ Y β = ρ XY = σ XY σ X σx, β 0 = µ Y β µ X. Pieimmä eliösumma meetelmällä saamme aiva vastaavasti parametrie β 0 ja β estimaateiksi s y b = r xy = s xy s x sx, b 0 = y b x. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 73 / 78 Normaalijakaumie ehdolliset jakaumat, selitysaste, jatk. Jos X, Y o ormaalijakautuut ii voimme siis kirjoittaa missä Y = β 0 + β x + ε ε N0, ρ XY σ Y. Tässä siis jääösvariassi ρ XY σ Y o se osa Y : variassista, jota ei voida selittää riipuvuudella muuttujasta x ja se osuus jolla Y : variassi pieeee o ρ XY σ Y σy = ρ XY. Aalogisesti tämä kassa saomme, että malli Y j = b 0 + b x j selitysaste o r xy. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 74 / 78 Iterpoloiti tai ekstrapoloiti Jos o tehty mittauksia ja saatu tulokset x j, y j, j =,..., ii usei halutaa myös tietää mikä olisi y: arvo jos x = x 0. Eräs usei järkevä tapa vastata tähä kysymyksee o olettaa, että y b 0 + b x, määrittää b 0 ja b ja sitte laskea b 0 + b x 0. Yksikertaie tapa suorittaa tämä lasku o, että korvataa luvut x j, j =,..., luvuilla x j x 0 ja sitte ormaalii tapaa lasketaa b 0 : estimaatti. Tämä lisäksi voidaa testata parametria β 0 koskevia hypoteesejä regressiomallissa Y = β 0 + β x + ε. Liikee-esimerkki, parametrie jakauma Jos oletetaa, että Y j = β 0 + β x j + ε j missä satuaismuuttujat ε j ovat riippumattomia ja N0, σ -jakautueita, ii voidaa osoittaa, että B 0 ja B ovat ormaalijakautueita odotusarvoilla β 0 ja β ja variasseilla σ ja σ sx + x. sx Toie tapa saada käsitys siitä mite luotettavia lasketut estimaatit ovat o seuraava: Oletamme että kaskiulotteise satuaismuuttuja X, Y jakauma o havaittu empiirie jakauma, eli PrX, Y = x j, y j =, j =,,..., 0, 0 missä pisteet x j, y j tulevat havaitusta otoksesta. Sitte geeroimme tästä jakaumasta otoksia ja laskemme iistä estimaatit jolloi voimme saada käsitykse äide estimaattie jakaumista. Tässä o kaksi virhelähdettä: Emme tue alkuperäise satuaismuuttuja todellista jakaumaa vaa käytämme approksimaatiota ja emme laske kertymäfuktiota tai tiheysfuktiota tarkasti vaa luotamme simuloitii. G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 75 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 76 / 78
Liikee-esimerkki, parametrie jakauma, jatk. Voimme laskea esimerkiksi seuraavalla tavalla: x=004:03-04; y=[375 379 336 380 344 79 7 9 55 48]; =sizex,; m=000; b=zeros,m;b0=b;r=b;s=b; for :m jj=floor*rad,+; xx=xjj; yy=yjj; c=cov[x,y ];bj=c,/varxx; b0j=meayy-bj*meaxx; rj=bj*sqrtvarxx/varyy; sj=-/-*varyy*-rj*rj; ed Liikee-esimerkki, parametrie jakauma, jatk. Tällä tavalla simuloidut estimaattie b 0, b s ja r xy jakaumat äyttävät tällaisilta: G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 77 / 78 G. Gripeberg Aalto-yliopisto MS-A050 Todeäköisyyslaskea ja tilastotietee peruskurssilueot,. helmikuuta 05 osa II 78 / 78