Tilastotietee jatkokurssi Heikki Hyhkö kesä 03. Todeäköisyyslasketa Kurssi alkuosa sisältö Klassie todeäköisyys Kombiatoriikka Kokoaistodeäköisyys. Todeäköisyysjakaumat Satuaismuuttuja Odotusarvo& variassi Diskreetit jakaumat Jatkuvat jakaumat Otosjakaumat 3. Estimoiti Piste-estimoiti Väli-estimoiti 4. Testaus Kurssi loppuosa sisältö Laatueroasteikko Järjestysasteikko Välimatka- ja suhdeasteikko 5. Regressioaalyysi Yhde selittäjä malli Usea selittäjä malli. Todeäköisyyslasketa 6. Variassiaalyysi Yksisuutaie Kaksisuutaie Järjestysasteikolliset 3
Klassie todeäköisyys: Todeäköisyys Perusjouko jokaisella alkiolla o sama todeäköisyys. P(ω i = Frekvetistie tulkita: Suotuisa tapaukse suhteellie frekvessi lähestyy kiiteää arvoa satuaisilmiö toistuessa. P(A = k Subjektiivie todeäköisyys: Hekilö o valmis lyömää vetoa tietyllä vedolyötisuhteella V:H. P(A = V H+V Bayesiläie tulkita: Todeäköisyys kuvaa uskomukse astetta, eli huomioi prioritiedo. P(B k A = P(B k P(A B k P(B i P(A B i 5 Suhteellie frekvessi Ku perusjoukossa o kappaletta alkioita, joista k o suotuisia, ii todeäköisyyssaadasuotuisatapaus Ao P(A = k. Koska kyseessä o satuaisilmiö, satuaisia ostoja toistettaessa ei välttämättäsaataisisuotuisiatapauksiasuhteessa k. Ku satuaisilmiö toistumiskertoje lukumäärä kasvaa rajatta, ii tapahtuma Atodeäköisyyksiekeskiarvolähestyylukua k. Esimerkki: Eduskuta 007 Perusjoukko Ω o Kasaedustajat: = 00 Tapahtuma A o aiskasaedustaja: k = 84 Todeäköisyys valita aiskasaedustaja: P(A = 84 00 = 0.4 7 Klassie todeäköisyys Todeäköisyysmallissa o äärellie määrä mahdollisia tuloksia. Joukossa Ωo kappalettaalkeistapauksia {ω,ω,ω 3,...,ω }. Joukossa Ωjokaisellatuloksella ω i osamatodeäköisyys. Yhtäalkiotavastaavatodeäköisyysotäte P(ω i =. Josalkioistasuotuisiao kkappaletta,ii P(A = k. Joskaikkitapauksetovatsuotuisia,ii k =,eli P(Ω = =. Josyksikäätapauseiolesuotuisa,ii k = 0,eli P( = 0 = 0. Esimerkki: Harhato oppa Tulosvaihtoehdot Ω = {,,3,4,5,6} Pistetodeäköisyydet P( = 6,P( = 6,P(3 = 6,P(4 = 6,P(5 = 6,P(6 = 6 6 Bayesiläie todeäköisyys Bayesiläisessä tilastotieteessä todeäköisyys mittaa tutkija uskomukse astetta väittee todeäköisyytee. Eli lasketaa etukäteistietoje (priorit. perusteella ehdollistettu todeäköisyys tukittavalle väitteelle (posterioritodeäköisyys. Frekvetistie todeäköisyys o bayesiläiste mukaa vai yksi erikoistapaus, jossa ehdollistetaa aikaisemmilla (vastaavilla tapahtumilla. Bayesiläie tulkita mahdollistaa aiutkertaiste tapahtumie todeäköisyyksie laskemise. Frekvetistit äkevät bayesiläisyyde ogelmakohtaa etukäteistiedo subjektiivise luotee. Bayesiläie tilastotiede pohjautuu Bayesi kaavaa ja käytäö sovelluksissa priorijakaumie estimoitii MCMC-simuloieilla. Bayesiläie tulkita todeäköisyyde luoteesta vastaee paremmi rivikasalaise käsitystä todeäköisyydestä. 8
. 0 P(A Todeäköisyyde aksioomat. Jos P(A i A j = 0,ku i j,ii P(A i A j = P(A i +P(A j 3. P(Ω = Sama suomeksi:. Todeäköisyydet ovat aia yhde ja olla välillä.. Toisesa poissulkevie tapahtumie yhdistee todeäköisyys o tapahtumie todeäköisyyksie summa. 3. Kokoaistodeäköisyys o yksi. Aksiooma voidaa korvata äeäisesti voimakkaammalla aksioomalla: A i A j =,ku i j P(A A... A = P(A +P(A +...+P(A 9 Sigma-algebra Jotta edellä maiitut aksioomat saataisii laajeettua äärettömille joukoille, täytyy määritellä joukkoperhe F. Joukkoperheesee F otetaa jouko Ω osajoukot A, jotka täyttävät seuraavat ehdot:. Ω F. Jos A F,ii A c F 3. Jos A,A,... F,ii A i F Tällöi joukkoperhe F muodostaa σ-algebra F Toisi saoe: Joukkoperhe F muodostuu omega osajoukoista (mukaa lukie Ω ja. Kaikki omega osajoukkoje komplemetit kuuluvat omegaa. Kaikkie omega osajoukkoje yhdisteide tulee kuulua omegaa. 0 Todeäköisyyskettä Edellä maiitusta σ-algebrasta saadaa todeäköisyyskettä, ku määritellääkuvaus P : F [0,]. Tämä jälkee Kolmogorovi aksioomat ovat voimassa äärettömilleki joukoille:. 0 P(A kaikille A F. Jos A,A,... Fja A i A j =,ii P( A i = P(A i 3. P(Ω = Näi määrittyy todeäköisyyskettä/todeäköisyysavaruus (Ω, F, P. Kuvaus P o siis todeäköisyys. Todeäköisyysteoria ja mittateoria Edellissä slideissa kerrottii lyhyesti mite todeäköisyys saadaa määriteltyä matemaattisea mittaa. Maiitut todeäköisyyslaskea (Kolmogorovi aksioomat määrittelivät todeäköisyyslaskea osaksi matemaattista mittateoriaa. Mittateoriassa määritellää erilaisille joukoille pitala/tilavuus-mittoja. Todeäköisyyslaskeassa tämä joukko (σ-algebra o perusjoukko. Todeäköisyyslaskeassa saatu mitta o todeäköisyys. Matematiika haaraa, joka käsittelee todeäköisyyslasketaa mittateoreettisista lähtökohdista kutsutaa todeäköisyysteoriaksi. Todeäköisyysteoriassa otosavaruudessa määritellyt pita-alat vastaavat siis todeäköisyyksiä.
Todeäköisyyslaskea laskusääöt Yhdiste P(A B = P(A+P(B P(A B Oletetaa,että P(A > 0,eli A,eli Aeioletyhjäjoukko,tällöi: Ehdollietodeäköisyys P(B A = P(B A P(A Leikkaus P(A B = P(A P(B A Riippumattomuus P(B = P(B Aja P(A = P(A B,ku P(B > 0 Erillisyys P(A B = 0 Komplemetti P(A c = P(A Leikkauksekomplemetti P(A B c = P(A c B c Yhdisteekomplemetti P(A B c = P(A c B c Erotus P(A\B = P(A P(A B 3 Harhato oppa, jatkuu Ku heitetää harhatota oppaa, ii todeäköisyys saada suurempi kui3o P(A = 3 6 jatodeäköisyyssaadaparillieo P(B = 3 6. Leikkauksetodeäköisyys P(A B = 6 saadaapäättelemällä. Yhdiste P(A B = 3 6 + 3 6 6 = 4 6 Ehdollietodeäköisyys P(B A = /6 3/6 = 3 Leikkaus P(B A = 3 6 3 = 6 Riippumattomuus P(B = 3 6 P(B A = 3,joteeivätriippumattomia. Erillisyys P(A B = /6 0,joteeivätoleerillisiä. Komplemetti P(A c = 3/6 = 3/6 Erotus P(A\B = 3/6 /6 = /6 4 Todeäköisiä todeäköisyyksiä Koliko heitto: klaava = raha arvo, kruua = kuikaallise kuva. Harhattomarahaheitossatodeäköisyys:klaava =kruua =. Nopa heitto(d6: kuusisivuie ja vastakkaiste lukuje summa o 7 Todeäköisyyssaadajokimäärättysilmälukuosiisaia 6 Ruletit: ruletissa o umerot -36, joista puolet o puaisia ja puolet mustia. Eurooppalaisessa ruletissa o lisäksi o olla, joka o vihreä. Amerikkalaisessa ruletissa o lisäksi tuplaolla, joka o myös vihreä. Korttipakka: 5 korttia ja eljä maata: hertta, ruutu, risti ja pata Numerojakauma:Ace(A,,3,...0,Jack(J,Quee(Q,Kig(K. Pakassao6kuvakorttia(A,J,Q,K,joistaässäarvootai4. Pokerikädessä o viisi korttia, jotka jaetaa palauttamatta. Lotto: 39 umeroa, joista arvotaa 7 umeroa ja lisäumeroa. Voitotovat:7oikei,6+lisäumero,6oikei,5+,5+lisäumero, 5oikei,4+,4+lisäumero,4oikei,3+ja3+lisäumero. Riippumattomuus vs. erillisyys Suuri osa moimutkaisemmista todeäköisyyslasketatehtävistä perustuu kahde laskusääö soveltamisee:. Yhteelaskusäätö toisesa poissulkeville tapahtumille. Kertolaskusäätö riippumattomille tapahtumille Nämä sääöt ovat toisesa poissulkevia, sillä riippumattomat tapahtumat eivät koskaa voi olla toisesa poissulkevia! Säätöjä voidaa kuiteki käyttää sama lasku eri vaiheissa, kuha varmistetaa ehtoje voimassaolo! Huom: Leikkausjouko olemassaolo o välttämätö, mutta ei riittävä ehto riippumattomuudelle! Termistöä: erillisyys = toisesa poissulkevuus = pistevieraus 6 5
Yhteelaskuperiaate Pistevieraitte joukkoje todeäköisyydet voidaa laskea yhtee: P(A B = P(A+P(B,ku P(A B = 0,eli A B = Esimerkki: A = saadaa hertta ja B = saadaa musta kuvakortti P(A = 3/5, P(B = 8/5jajoukoillaeioleyhteisiäalkioita. P(A B = 3/5+8/5 = /5 Ku joukot eivät ole pistevieraita, väheetää leikkaukse todeäköisyys: P(A B = P(A+P(B P(A B Täytyy tietää tai pystyä laskemaa leikkaustodeäköisyys P(A B Esimerkki: A = saadaa hertta ja C = saadaa kuvakortti P(A = 3/5, P(C = 6/5ja P(A C = 4/5 P(A C = 3/5+6/5 4/5 = 5/5 7 Ehdollistamie Ku ehdollistetaa tapahtuma A tapahtumalla B, kiiostus kohdistuu vai iihi tapahtuma A alkioihi, jotka ovat joukossa B. Siirrytää uutee perusjoukkoo, joka muodostaa joukko B. Kiiostukse kohteea o siis tapahtuma A todeäköisyys tässä uudessa perusjoukossa B. P(A B = P(A B P(B Esimerkki: Todeäköisyys saada parito kortti P(A, ku tiedetää, että kyse o kuvakortista P(B: P(A = 8/5, P(B = 6/5, P(A B = /5 P(A B = 5 6 = 6 = 3 4 5 Huom.Josässäarvoksiajatellaa4,ii P(A B = /4 Tyhjällä joukolla ehdollistamie johtaisi ollalla jakamisee, joka ei ole sallittua! Kertolaskuperiaate Leikkaustodeäköisyyttä laskettaessa riippumattomie joukkoje todeäköisyydet voidaa kertoa keskeää: P(A B = P(A P(B,ku P(A B = P(Aja P(B A = P(B. Esimerkki: Tapahtumat A = saadaa ässä ja B = kortti o hertta P(A = 4/5, P(B = 3/5ja P(A B = /5 P(A B = /5 3/5 = 3 = P(A P(B A = /5 4/5 = 4 = P(B Eli tapahtumat ovat riippumattomia. Jos riippumattomuutta ei voida olettaa tai osoittaa, ii täytyy leikkaustodeäköisyys olla laskettavissa tai sitte leikkaukse todeäköisyys täytyy olla pääteltävissä aieistosta. Ku muuttujat oletetaa riippumattomiksi tulee oletukse perustua johoki saatuu tietoo, kute satuaisprosessi fysikaalisii omiaisuuksii tai otatateoriaa. 8 Toistokokeet Tähä meessä o käsitelty pääosi yksittäisiä tapahtumia. Seuraavaksi tarkastellaa todeäköisyyksiä, ku tehdää toistokokeita. Tällöi o tarpee määritellä kaksi tapaa tehdä toistokokeita:. Kokee suorittamie palauttae. Kokee suorittamie palauttamatta Ku kokeet suoritetaa palauttamatta, ii peräkkäiste kokeide tulokset eivät luoollisestikaa ole riippumattomia toisistaa. Usei kuiteki o perusteita olettaa peräkkäiset tulokset ehdollisesti riippumattomiksi. 0 9
Palauttae Ku arvota tehdää palauttae(eli takaisipaolla, ii peräkkäiste arvotoje todeäköisyydet eivät muutu. Peräkkäiste arvotoje tulokset ovat riippumattomia toisistaa: P(A A... A i = ( k i Esimerkki: Amerikkalaie ruletti(38 umeroa: Hekilö sijoittaa kaksi kertaa peräkkäi yhde dollari rulettii kahdelle umerolle. Mikä o todeäköisyys, että hä voittaa molemmilla kerroilla? P(A A = 38 38 = 0.0077 Tällaiset todeäköisyydet oudattavat biomijakaumaa. Palauttamatta Ku arvota tehdää palauttamatta(eli ilma takaisipaoa, ii peräkkäiste arvotoje todeäköisyydet muuttuvat. Peräkkäiset arvoat eivät ole riippumattomia, koska jokaise arvoa jälkee pieeee yhdellä. Jos hekilö voittaa, ii k pieeee, jollei ii k pysyy eallaa. Esimerkki: uura-arvota: Hekilö ostaa kaksi arpaa, arvotaa, jossa o 38 arpaa. Arvota suoritetaa ostamalla voittoarpa uurasta laittamatta sitä takaisi. Mikä o todeäköisyys, että hekilö voittaa molemmilla kerroilla? P(A A = 38 37 = 0.004 Tällaiset todeäköisyydet oudattavat hypergeometristä jakaumaa. Todeäköisyyslaskea ketjusäätö Ehdollie riippumattomuus Joskus esiityy tilateita, että osajoukot A ja B eivät ole riippumattomia, mutta ku e ehdollistetaa muuttujalla C iistä saadaa riippumattomia. Jos P(A B C = P(A C P(B C,ii Aja Bovatehdollisesti riippumattomia Ku yllä olevassa kaavassa ehtoa käytetääki osajoukkoa B, ii päädytää todeäköisyyde ketjusäätöö. Todeäköisyyslaskea ketjusäätö Oistutaaesimmäiselläkerralla: P(A Oistutaakahdesti: P(A A = P(A P(A A je. P(A A A 3 = P(A A P(A 3 (A A Ku aia ehdollistetaa aikaisemmilla tapahtumilla, ii voidaa peräkkäiste tapahtumie todeäköisyydet kertoa keskeää myös palauttamatta tehdyssä otaassa. 3 Aiaki kerra Peräkkäiset opa heitot harhattomilla opilla ovat riippumattomia. Riippumattomie tapauste kertolaskusääö perusteella todeäköisyys saada eljä kuutosta peräkkäi o: Tapahtuma A =saadaakuutoe, P(A = 6. P(A P(A P(A P(A = 6 6 6 6 = ( 6 4 0.00077 Mikä o todeäköisyys saadaa aiaki yksi 6 eljällä heitolla? Tapahtuma B =eisaadakuutosta, P(B = P(A = 6 = 5 6. Tapahtuma C = ei saada yhtää kuutosta eljällä heitolla. P(C = P(B P(B P(B P(B = 5 6 5 6 5 6 5 6 = (5 6 4 Todeäköisyys, että saadaa aiaki yksi kuutoe o edellä lasketu todeäköisyyde komplemetti: P(C c = P(C = ( 5 6 4 0.5775 Todeäköisyys oistua aiaki kerra lasketaa siis vähetämällä täydellise epäoistumise todeäköisyys yhdestä. 4
Kokoaistodeäköisyys Kokoaistodeäköisyyde määrittelemiseksi pitää perusjoukko Ω jakaapistevieraisii(toisesapoissulkeviiosajoukkoihi B i. Pistevieraus tarkoittaa sitä, että osajoukoilla ei ole yhteisiä alkioita, eli: P(B i B j = 0,ku i j,eli B i B j =. Joukot B i muodostavatperusjoukoositukse,ku: B i = Ω. Tällöi voidaa Ω osajouko A todeäköisyys laskea: P(A = P(B i P(A B i. 5 Bayesi kaava Bayesi kaavalla saadaa laskettua s. kääteisiä ehdollisia todeäköisyyksiä. P(B k A = P(B k P(A B k P(B i P(A B i Kaava o suora johdos kokoaistodeäköisyyde kaavasta ja ehdollise todeäköisyyde määritelmästä. Kaava mahdollistaa eakkotiedo huomioimise todeäköisyyslaskeassa. Eakkotietoja P(B i kutsutaaprioritodeäköisyyksiksi. Kysyttyätodeäköisyyttä P(B k Akutsutaa posterioritodeäköisyydeksi. Prioritodeäköisyyksielisäksipitäätietäätodeäköisyydet P(A B i. 6 Bayesi kaavailua Todeäköisyys, että opettaja ajaa sadepäivää pyörällä töihi o 0%. Muussa tapauksessa hä tulee bussilla. Pyörällä opettaja ehtii ajoissa perille 90% todeäköisyydellä, ku vastaava todeäköisyys bussilla o vai 70%. Sadepäivää opettaja o ajoissa, millä todeäköisyydellä hä tuli pyörällä? A = ajoissa, B = tulipyörällä, B = tulibussilla, P(B A =? P(B P(A B = 0.0 0.90 = 0.8 P(A = P(B i P(A B i = 0.0 0.90+0.80 0.70 = 0.74 P(B A = P(B P(A B P(B i P(A B i = 0.8 0.74 0.43 7 Puudiagrammi: Puudiagrammit ja toimitaverkot Suotuiste haaroje kokoaistodeäköisyydet kertovat tulokse. Vierekkäiste haaroje tapahtumat ovat toisesa poissulkevia, eli vierekkäiste tapahtumie todeäköisyydet lasketaa yhtee. Peräkkäiset tapahtumat ovat ehdollisesti riippumattomia, eli peräkkäiste tapahtumie todeäköisyydet kerrotaa keskeää. Todeäköisyysverkko: Ria kytkettyje kompoettie todeäköisyydet lasketaa yhtee ja väheetää iide yhteistoimitatodeäköisyys. Sarjaa kytkettyje todeäköisyydet kerrotaa keskeää. Järjestelmä toimita edellyttää, että:. kaikki sarjaa kytketyt kompoetit toimivat.. joki ria kytketyistä kompoeteista toimii. Huom. P(aiakiyksitoimii = P(yksikääeitoimi 8
Kombiatoriikka Edellä o määritelty kaavat, joide avulla voidaa laskea todeäköisyyksiä, kuha tuetaa suotuiste tapahtumie lukumäärä k ja perusjouko koko. Kombiatoriika avulla pyrimme laskemaa tarvittavat k t ja t. Kombiatoriikka koostuu kolmesta osa-alueesta Permutaatiot Motako järjestettyä jooa voidaa muodostaa stä alkiosta. Variaatiot Motako k mittaista järjestettyä jooa saadaa stä alkiosta. Kombiaatiot Motako k kokoista joukkoa voidaa muodostaa stä alkiosta. 9 Permutaatiot Jos joukossa o alkiota, siitä voidaa muodostaa! erilaista järjestettyä jooa.! luetaa"ää kertoma" ja se lasketaa seuraavasti:! = ( ( ( 3 3 Nollakertomao,eli 0! =. Esim. Moessako järjestyksessä 0 hekeä voi olla joossa? 0! = 0 9 8 7 6 5 4 3 = 368800 Muide kui kokoaislukuje kertomat saadaa laskettua gammafuktio avulla. Jos joukossa o samoja alkioita, täytyy käyttää biomi- tai multiomikerroita. 30 Variaatiot Jos joukossa o alkiota ja halutaa muodostaa äistä k mittaisia järjestettyjä jooja, ii iide lukumäärä o P(, k. P(,k =! ( k! Kyse o siis k alkio muodostamie permutaatioide lukumäärästä, ku alkioita o kappaletta. Variaatioita kutsutaa toisiaa järjestetyiksi jooiksi. Jos k =,iitulososamakui permutaatio,eli!. Esim. Moessako järjestyksessä 0 hege joukosta valitut erilaiset eljä hege ryhmät voivat olla joossa? P(0,4 = 0! (0 4! = 368800 70 = 5040 3 Kombiaatiot Jos joukossa o alkiota ja halutaa muodostaa äistä k alkio kokoisia osajoukkoja, ii iide lukumäärä o C(, k. C(,k = ( k =! k! ( k! Kyse o siis k alkio muodostamie kombiaatioide lukumäärästä, ku alkioita o kappaletta ja alkioide järjestyksellä ei ole väliä. Esim. Motako erilaista 4 hege ryhmää 0 hekilöstä voi valita? C(0,4 = ( 0 4 = 0! 4 70 = 0 4! (0 4! = 368800 Meidä kaaltamme oleellisempi o kuiteki s. biomikerroi Eli moeeko järjestyksee voidaa kahtee luokkaa jakautueet alkiot järjestää. Esim. Moessako järjestyksessä poikaa ja 3 tyttöä voi sytyä? C(5, = ( 5 = 5! 6 = 0! (5! = 0 3
Pascali kolmio 3 3 4 6 4 5 0 0 5 6 5 0 5 6 Biomikertoimie arvot saadaa laskettua myös Pascali kolmiosta. Tulossaadaaaiariviltä +luvu k +kohdalta. Esimerkki: Motako trioa voidaa muodostaa kuudesta hekilöstä? Riviseitsemä4.umeroo0,elivoidaamuodostaa0trioa. Pascali kolmiolla lasketaa mm. biomi potessie kertoimia: (a+b,jote ( k taokiluotevaakutsuabiomikertoimeksi. 33 Esimerkki: Pokerikäsiä Motako erilaista viisikorttista pokerikättä o jokerittomassa korttipakassa? ( 5 5 = 5! 5! 47! = 598960.599 06 Motako erilaista viisikorttista pokerikättä voidaa jakaa kahdelle pelaajalle? ( 5 554 = 5! 5! 5! 4! = 398664603440 3.987 0 Motako erilaista viisikorttista pokerikättä voidaa jakaa kolmelle pelaajalle? ( 5 55537 = 5! 5! 5! 5! 37! 3.39 08 Moellako eri tavalla korttipakka voidaa jakaa tasa eljälle pelaajalle? ( 5 3333 = 5! 3! 3! 3! 3! 5.364 08 35 Biomikerroi vs. multiomikerroi Järjestyste laskemisee käytetää biomikerroita, ku perusjoukko o jakautuut kahtee luokkaa: ( k =! k! ( k! Ku perusjoukko o jakautuut useampaa luokkaa, käytetää järjestyste laskemisee multiomikerroita: (... k =!! k! Biomikerroi o siis multiomikertoime erikoistapaus, ku perusjoukko jakautuu kahtee osajoukkoo. Toie varsi yleie tilae o, että osajoukot ovat tasajakautueet. Viimeie luokka/osajoukko voi myös olla s. kaatoluokka, jossa o muista luokista ylijääeet alkiot. 34 Lisähuomioita kombiatoriikasta Osajoukko vs. ryhmä: Kaikkie mahdolliste osajoukkoje lukumäärä, ku perusjoukossa o alkiotao: ( ( 0 + ( + + =. Kaikkie mahdolliste ryhmie lukumäärä, ku ryhmät valitaa o stähekilöstä,okuiteki (. Yllä maiittu johtuu siitä, että tyhjäjoukkoa ei voie mieltää ryhmäksi. Biomikertoime muistisäätöjä: ( ( 0 = =! 0! ( 0! =!! = ( ( = =!! (! = (! (! = = Permutaatio erityistapaus: Pyöreä pöytä Ku halutaa laskea istumajärjestyksiä pyöreässä pöydässä, ii lukitaa yksi hekilö, jolloi järjestyste lukumäärä o (! Esim. Moessako järjestyksessä 7 veljestä voi istua pöydässä? (7! = 70 36
. Sattuaismuuttujat ja todeäköisyysjakaumat Satuaismuuttuja Todeäköisyysketässä (Ω, F, P määritelty yksiulotteie satuaismuuttuja o kuvaus Ω sta reaaliakselille. Esim. Perusjoukko: helsikiläiset ja satuaismuuttuja: pituus. Edellisestä yleistäe voidaa määritellä myös -ulotteie satuaismuuttuja,jokaolisisiisvektoriarvoie (X,X,...,X. Esim. Perusjoukko: helsikiläiset ja 4-ulotteie satuaismuuttujavektori: (pituus, paio, ika, sukupuoli. Perusjoukko kuvattaisii siis eliuolotteisee avaruutee. Tilastollisissa sovelluksissa ei olla kiiostueita alkuperäisestä todeäköisyysketästä, vaa satuaismuuttujie saamista arvoista, jotka saadaa joko pistetodeäköisyys- tai kertymäfuktioista. Empiirisesti tulkittua satuaismuuttujalla X tarkoitetaa umeerista suuretta, joka saa arvosa heti, ku satuaiskoe tehdää. 38 Satuaismuuttujie omiaisuuksia Tällä kurssilla satuaismuuttujia merkitää isoilla kirjaimilla (X, Y, Z. Kirjallisuudessa toie yleie tapa o käyttää alleviivausta (x, y, z. Satuaismuuttuja saamia arvoja kuvataa pieillä kirjaimilla (x, y, z. Myös vakioita o tapaa kuvat pieillä kirjaimilla (a, b, c. Satuaismuuttujie summamuuttuja o satuaismuuttuja: X +Y = Z Satuaismuuttajie tulomuuttuja o satuaismuuttuja: X Y = Z Satuaismuuttuja lieaarie muuos o satuaismuuttuja: Y = b X +a Siismyös X = X i ja Z = X µ σ/ pysyvätsatuaismuuttujia. Todeäköisyysjakaumat Satuaismuuttuja X todeäköisyysjakauma muodostavat X arvot x i jaäihiliittyvättodeäköisyydet p i. Satuaismuuttuja o diskreetti(epäjatkuva, jos se todeäköisyys keskittyy yksittäisii pisteisii, joide välillä ei ole todeäköisyyttä. Satuaismuuttuja o jatkuva, jos se todeäköisyysmassa ei ole keskittyyt yksittäisii pisteisii. Satuaismuuttuja saattaa olla myös sekatyyppiä, eli osa jakaumasta o jatkuva ja osa diskreetti. Todeäköisyysjakauma voi olla myös moiulotteie. Kaikissa tapauksissa todeäköisyysmassa kokoaismäärä o. 40 39
Diskreetti Muuttuja o diskreetti, jos se saa äärellise määrää äärellisiä arvoja. Diskreetisatuaismuuttuja Xtodeäköisyystietyssäpisteessä x i määritellääpistetodeäköisyysfuktiolla P(X = x i = p i. Pistetodeäköisyysfuktio P(X = x i = f(x i arvokertoopistee etäisyyde x-akselista,jokaosamallapisteetodeäköisyys p i. Nämä todeäköisyydet muodostavat diskreeti todeäköisyysjakauma, jos. 0 p i.. k p i =,jossa komahdollistetulosvaihtoehtojelukumäärä. 4 Jatkuva Satuaismuuttuja o jatkuva, jos se voi saada mikä tahasa arvo joltaki määritellyltä reaalilukuje väliltä. Tiheysfuktio f(x arvo pisteessä x kertoo käyrä etäisyyde x-akselista pisteessä x. Jatkuva satuaismuuttuja todeäköisyyde määrittää kuiteki pita-ala, joka o yksittäisessä pisteessä aia 0. Tiheysfuktio f(x määrittelee jatkuva todeäköisyysjakauma, jos. f(xojatkuva.. f(x 0,kaikille x. 3. Käyrä f(x ja vaaka-akseli välise aluee pita-ala o otosavaruude Ω määrittelemällä välillä. 4 Tiheysfuktio vs. pistetodeäköisyysfuktio Jatkuvafuktio f(x,jokasaaarvojajatkuvastiväliltä [a,b] o jatkuva satuaismuuttuja X tiheysfuktio, jos. f(x 0,kaikille x [a,b].. b a f(xdx = Diskreetifuktio f(x i opistetodeäköisyysfuktio,jos. f(x i 0. k f(x i =. Ku muistetaa, että itegroiti vastaa yhteelaskua, ii havaitaa, että tiheys- ja pistetodeäköisyysfuktio ovat hyvi samakaltaisia. Toisiaa molempia merkitääki f(x llä! 43 Kertymäfuktio Josfuktio F(x = P(X xtoteuttaaseuraavatehdot, ii se o joki satuaismuuttuja kertymäfuktio:. F( = 0. F( = 3. F(xoei-väheevä: F(x F(x,ku x x 4. F(xooikealtajatkuva: F(x+ F(x,ku 0,oikealta. Satuaismuuttujakertymäfuktio F(x = P(X xkertoo siihe meessä kertyee todeäköisyyde. Diskreeti muuttuja kertymäfuktio arvo saadaa summaamalla: p i P(X x k = k Jatkuva muuttuja kertymäfuktio arvo saadaa itegroimalla: x F(x = P(X x = f(tdt Molemmissatapauksissa: P(x < X x = F(x F(x 44
Empiria vs. teoria Todeäköisyysteoria käsittelee teoreettisia matemaattisia malleja, jotka frekvessitulkia mukaa mallitavat empiirisiä aieistoja. Tilastografiikassa... pistetodeäköisyysfuktio kuvaaja o idealisoitu pylväsdiagrammi (jaadiagrammi. tiheysfuktio kuvaaja o idealisoitu histogrammi erittäi kapei luokkavälei. Todeäköisyysjakaumie tarkastelut keskittyvät parametrisii malleihi, jote tuuslukuje osalta kyseesee tulevat lähiä odotusarvo ja variassi. Odotusarvo empiirie vastie o tavallisesti otoskeskiarvo. Variassi empiirie vastie o otosvariassi. Kertymäfuktiota ja se kuvaajaa voidaa käyttää sekä parametriste että ei-parametriste mallie tapauksessa. Moodi ja Mediaai Teoreettie moodi määritellää seuraavasti: Piste(tai pisteet, joka todeäköisyys o korkei, eli kohta jossa kertymäfuktioo tulee suuri ousu ja tiheys- tai pistetodeäköisyysfuktio arvo o suuri. Teoreettie mediaai määritellää seuraavasti: Piste,jossasuora y = leikkaakertymäfuktiokuvaajaa. Ei-parametrisissa tarkasteluissa ei kaata kuitekaa rajoittua äihi kahtee meettelyy, vaa kaattaa tarkastella kertymäfuktioide käyttäytymistä koko vaihteluvälillä. Tällä kurssilla keskitymme lähiä kuiteki parametrisii malleihi, eli siis lähiä odotusarvoo ja variassii. 46 45 Odotusarvo Odotusarvo ei ole tulos, jota odotetaa yksittäisestä satuaiskokeesta, vaa se luku, jota toistettuje satuaiskokeide keskiarvo lähestyy. Diskreeti jakauma odotusarvo lasketaa: E(X = p i x i Jatkuva jakauma odotusarvo lasketaa: E(X = xf(xdx Määritelmä mukaisilla kaavoilla(varsikaa jatkuvassa tapauksessa harvemmi lasketaa odotusarvoja, sillä eri jakaumie odotusarvoille o johdettu yksikertaisempia laskukaavoja. 47 Vakio c: Odotusarvo omiaisuuksia Vakioodotusarvoo: E(c = c Vakiolisäämie: E(X +c = E(X+c Vakiollakertomie: E(X c = E(X c ts. lieaarimuuokset ovat odotusarvoille sallittuja. Odotusarvoje summa ja erotus: E(X +Y = E(X+E(Y E(X Y = E(X E(Y Odotusarvoje tulo, ku X ja Y ovat riippumattomia: E(X Y =E(X E(Y 48
Variassi Tässä tarkastellaa esi variassia keskihajoa sijasta, koska variassi o useide todeäköisyysjakaumie parametri. Variassistakäytetääuseitamerkitätapoja: Var(X = D (X = σ Variassi yleie määritelmä: D (X = E((X E(X = E(X (E(X Diskreeti jakauma variassi: D (X = p i (x i E(X Jatkuva jakauma variassi: D (X = (x E(X f(xdx Määritelmä mukaisilla kaavoilla harvemmi lasketaa variasseja, sillä jakaumie variasseille o johdettu yksikertaisempia laskukaavoja. 49 Variassi omiaisuuksia Variassi eliöjuurta kutsutaa keskihajoaksi. Vakio c: Vakiovariassio: D (c = 0 Vakiolisäämie: D (X +c = D (X Vakiollakertomie: D (X c = c D (X Variassie summa ja erotus, ku X ja Y ovat riippumattomia: D (X +Y =D (X+D (Y D (X Y =D (X+D (Y Variassie summa, ku X ja Y eivät ole riippumattomia: D (X +Y = D (X+ Cov(XY+D (Y Variassi o yhde muuttuja sisäie kovariassi. Var(X = D (X = σ x = σ xx = Cov(XX 50 Kovariassi Kovariassi yleie määritelmä: Cov(XY = E((X E(X (Y E(Y = E(XY E(XE(Y Kovariassi o kahde muuttuja yhteisvaihtelu mitta. Cov(XY = σ xy Riippumattomie muuttujie kovariassi o aia 0, josta seuraa, että riippumattomie muuttujie korrelaatiokerroiki o 0. Muuttujie summa variassi vastaa kosiilausetta geometriassa: Kosiilause: c = a +ab cos(ab+b Variassiesumma: D (X +Y = D (X+ D(XY+D (Y Ku muuttujat korreloimattomia, ii kyse o Pythagoraa lauseesta: Pythagoraalause: c = a +b Variassiesumma: D (X +Y =D (X+D (Y Geometrisissä tulkioissa sivu pituutta vastaa keskihajota. Keskihajota/stadardipoikkeama Perusjouko keskihajota: σ = Vakio c: (x i x Vakiokeskihajotao: D(c = 0 Vakiolisäämie: D(X +c = D(X Vakiollakertomie: D(X c = c D(X Huom! keskihajotoje summa, ku X ja Y ovat riippumattomia: Eiäi! D(X +Y D(X+D(Y Vaaäi! D(X +Y = D (X+D (Y Keskihajotoje summa yleisesti: D(X +Y = D (X+ Cov(XY+D (Y 5 5
Beroulli-jakauma Beroulli jakauma parametrilla (p: p = oistumise todeäköisyys, k = oistumie Pistetodeäköisyysfuktio: P(X = k = p k ( p k Kertymäfuktio: P(X k = k p i ( p i E(X = p D (X = p( p i=0 Beroullikokeessa o kaksi mahdollista tulosta: Koeoistuu (k = taikoeeioistu (k = 0. Epäoistumise todeäköisyys q = ( p. Yksittäise beroullikokee jakauma. Biomijakauma: X Bi(, p: Biomijakauma = otoskoko, p = oistumise todeäköisyys k = oistumiste lukumäärä Pistetodeäköisyysfuktio: P(X = k = ( k p k ( p k Kertymäfuktio: P(X k = k E(X = p D (X = p( p i=0 ( i p i ( p i Palauttae tehtyje beroullikokeide jakauma. 54 53 Geometrie jakauma Geometrie jakauma: X Geom(p: p = oistumise todeäköisyys k = esimmäie oistumiskerta Pistetodeäköisyysfuktio: P(X = k = p( p k Kertymäfuktio: P(X k = k p( p i = ( p k E(X = p D (X = p p Toistetuissa beroullikokeissa esimmäise oistumise jakauma. 55 Negatiivie biomijakauma Negatiivie biomijakauma: X N egbi(r, p: r = oistumiste lukumäärä, p = oistumise todeäköisyys, k = epäoistumiste lukumäärä ee r ättä oistumista Pistetodeäköisyysfuktio: P(X = k = ( k+r r p r ( p k Kertymäfuktio: P(X k = k ( i+r r p r ( p i E(X = r( p p D (X = r( p p i=0 Toistetuissa beroullikokeissa r e oistumiskerra jakauma. Huomatkaa kuiteki, että kyse o epäoistumiste fuktiosta! Parametroiti,jossa Xokokeidelukumäärä: = k +r P(X = = ( r p r ( p r 56
Hypergeometrie jakauma Hypergeometrie jakauma: X Hyperg(N, K, : N = perusjouko koko, K= suotuiste alkioide määrä perusjoukossa = otoskoko, k= oistumiste haluttu lukumäärä Pistetodeäköisyysfuktio: P(X = k = (K k( N K k ( N Kertymäfuktio: P(X k = k E(X = ( K N D (X = ( K N = p ( K N i=0 ( N N ( K i( N K i ( N = p( p( N N Palauttamatta tehtyje beroullikokeide jakauma. 57 Poisso-jakauma Poissoi jakauma: X P oisso(λ: k=suotuistetapahtumielukumäärä, e=eperiluku.788 λ = tapahtumie odotettu määrä valitulla välillä(ts. perusjoukossa. Pistetodeäköisyysfuktio: P(X = k = λk k! e λ Kertymäfuktio: P(X k = k E(X = λ D (X = λ i=0 λ i i! e λ Poissoprosessi tapahtumie jakauma, eli määritellyllä aikavälillä tapahtuvie harviaiste tapahtumie jakauma. Ku popieija,ii p λ,jolloi Bi(,p Poisso(λ 58 Diskreetti tasajakauma Diskreetti tasajakauma parametreilla (a, : a=miimi, =luokkielukumäärä, k=luokajärjestysumero Pistetodeäköisyysfuktio: P(X = k = Kertymäfuktio: P(X k = k Odotusarvoo: E(X = +a Variassio: D (X = Sama kokoisii ositteisii jaetu perusjouko tapahtumie jakauma. 59 Jatkuva tasajakauma Jatkuvatasajakauma: X Ui(a,b: a=miimi, b=maksimi Tiheysfuktio: f(x = b a, ku a x bja 0muualla. Kertymäfuktio: F(x = x Odotusarvoo: E(X = a+b Variassio: D (X = (b a a x a dx = b a b a Geeroituje satuaislukuje jakauma. 60
Ekspoettijakauma: X Exp(λ: Ekspoettijakauma λ = tapahtumie odotettu määrä valitulla välillä(ts. perusjoukossa. Tiheysfuktio: f(x = λe λx, ku x 0 Kertymäfuktio: F(x = x Odotusarvoo: E(X = λ Variassio: D (X = λ 0 λe λx dx = e λx Poissoprosessi esimmäise oistumiskerra odotusaja jakauma. 6 Gammajakauma Gammajakauma: X Gamma(ν, λ: λ=tapahtumieodotettumäärä = K ν = suotuiste tapahtumie haluttu lukumäärä = k. Tiheysfuktio: f(x = λν x ν Γ(ν e λx, ku x 0 Kertymäfuktio: F(x = Odotusarvoo: E(X = ν λ Variassio: D (X = ν λ γ(ν, λx Γ(ν Ku k o positiivie kokoaisluku, ii kutsutaa Erlag-jakaumaksi. Ku k =,iikyseoekspoettijakaumasta. Poissoprosessi k e oistumiskerra odotusaja jakauma. 6 Gammafuktio Gammafuktio o kertoma yleistys reaaliluvuille(ja kompleksiluvuille. Gammafuktio yleie yhtälö o seuraava: Γ( = 0 x e x dx Positiivisille kokoaisluvuille gammafuktio määrittyy sarjakehitelmällä: Γ ( + = 3 5 7 ( π Meille riittävät kuiteki seuraavat gammafuktio omiaisuudet: Ku opositiiviekokoaisluku,ii Γ( = (!. Γ ( = π,jossa π 3.4596536. Alempi ja ylempi epätäydellie gammafuktio: γ(,x = x 0 t e t dtja Γ(,x = 63 x t e t dt Betafuktio ja Betajakauma Betafuktio yhtälö o seuraava: B(α,β = 0 x α ( x β dx = Γ(αΓ(β Γ(α+β x I x (α,β = B(α,β,x B(α,β,jossa B(α,β,x = t α ( t β dt Betajakauma X Beta(α,β: Tiheysfuktio: f(x = Γ(α+β Γ(αΓ(β xα ( x β,ku 0 x + Parametrit: α > 0ja β > 0ovatmolemmatmuotoparametrejä. Odotusarvoo: E(X = α Variassio: D (X = α+β αβ (α+β (α+β+ Joustavuutesa asiosta paljo käytetty jakauma aieistoje malliuksessa. 64 0
Normaalijakauma: X N(µ,σ : µ=odotusarvo, σ =variassi Normaalijakauma ( Tiheysfuktio: f(x = x µ σ π e σ. Stadardoitu ormaalijakauma Stadardoitu ormaalijakauma: Z N(0, Tiheysfuktio: f(z = π e z Kertymäfuktio: F(x = x σ π e Odotusarvoo: E(X = µ = xi Variassio: D (X = σ = (xi x mm. satuaisvirheide jakauma 65 ( x µ σ dx Kertymäfuktio: F(z = z π e z dz Odotusarvoo: E(Z = 0 Variassio: D (Z = Z = X µ σ 66 Logormaalijakauma Logormaalijakauma: X LogN(µ,σ ( Tiheysfuktio: f(x = l(x µ πσx e σ. ( Kertymäfuktio: F(x = + erf l(x µ σ, jossa erf(y = π y 0 e t dt. Odotusarvoo: E(X = e (µ+σ / Variassio: D (X = e (µ+σ e (µ+σ / Normaalijakautueide muuttujie logaritmie jakauma. Positiiviste ja vioje satuaismuuttujie jakauma, esim. palkka-aieistot. 67 t-jakauma: t t(ν Studeti t-jakauma ν = vapausasteet, joista kurssilla käytetää lyheystä df. Tiheysfuktio: f(t = Γ(ν+ νπγ( ν Kertymäfuktio: F(t = I t+ t +ν t +ν ( ( ν+ + t ν ( ν, ν Odotusarvoo: E(t = 0 Variassio: D (t = ν ν Otoskeskiarvoje jakauma. 68
χ -jakauma: X χ (ν χ -jakauma ν = vapausasteet, joista kurssilla käytetää lyheystä df. Tiheysfuktio: f(x = ( ν Γ( ν x(ν e x Kertymäfuktio: F(x = γ(ν,x Γ( ν Odotusarvoo: E(X = ν Variassio: D (X = ν Toisee korotettuje stadardoituje ormaalimuuttujie summa jakauma. 69 F -jakauma: X F(ν,ν Tiheysfuktio: f(x = (ν x ν ν ν (ν x+ν ν +ν xb( ν, ν Kertymäfuktio: ( F(x = I ν x ν, ν ν x+ν Fisheri F -jakauma Odotusarvoo: E(X = ν ν Variassio: D (X = ν (ν +ν ν (ν (ν 4 F-jakautuee muuttuja kääteislukuje jakauma o F-jakautuut. F F(ν,ν,ii F F(ν,ν 70 Cauchy-jakauma Cauchy(θ Muita jakaumia Cauchy-jakaumalla ei ole odotusarvoa, koska sille ei pystytä laskemaa mometteja. Parametri θ oki odotusarvo sijaa mediaai(=moodi. Ku θ = 0, ii se vastaa t-jakaumaa yhdellä vapausasteella. Weibull-jakauma W eibull(γ, β Joustavuutesa tähde paljo käytetty jakauma malliuksessa. Parametrit ovat: skaalaparametri = γ ja muotoparametri = β. Pareto-jakauma Pareto(x m,α f(x = αxα m y α Pareto-jakaumaojatkuva,muttasilläodiskreettimiimipiste x m. Parametritovat:skaalaparametri = αjamuotoparametri = x m. Paretojakauma luotii aluperi mallitama varallisuude jakautumista, mutta sillä o paljo muitaki sovellusalueita. 7 Sekoitus ja sekajakauma Pareto-jakauma o esimerkki s. sekajakaumasta(mixed distributio, joka o yhdistelmä diskreetistä ja jatkuvasta jakaumasta. Sekajakauma o eri asia kui Sekoitusjakauma(mixture distributio: f(x = αf(x +( αf(x, jossa f(x ja f(x ovattiheysfuktioitaja 0 α. Tällaie voisi olla esimerkiksi kahde ormaalijakauma sekoitus: f(x = α πσ exp ( (x µ + α πσ exp ( (x µ σ Tällaisee tilateesee voidaa joutua, jos ei pystytä erottelemaa aieistoa luokitteleva dikotomise muuttuja suhtee. Tällaise estimoii oistumie vaatii, että luokkie odotusarvoje erotus o suuri suhteessa hajotoje keskiarvoo. Tällöihä sekoitusjakauma kuvaaja o kaksihuippuie. Sekoitusjakauma o eri asia kui yhdistetty jakauma. 7 σ
Multiomijakauma Multiomijakauma o moiulotteie ja täte vektoriarvoie. Multiomijakauma: X M ulti(, p: =perusjoukokoko, p = p,...,p k =oistumistetodeäköisyydet Pistetodeäköisyysfuktio: P(X = x,...,x k = x k =! x! x k! px px k,ku k p i = Alla o kyse yksittäise tapahtuma odotusarvosta ja variassista: E(X i = p i D (X i = p i ( p i Perusjouko pistevieraa ositukse muodostamie tapahtumie jakauma. 73 Moiulotteie hypergeometrie jakauma Multiomiaalie hypergeometrie jakauma o vektoriarvoie. X MultivariateHyperg(N,N,: N = k N i =perusjoukokoko, = k x i =otoskoko N i =havaitojaluokassa i, x i =oistumistehaluttumäärä Pistetodeäköisyysfuktio: P(X = x,x = x,...,x k = x k = (N x ( N x...( N k ( N Yksittäise luoka odotusarvo ja variassi: E(X i = ( Xi N = p i ( ( D (X = ( Xi N X i N N N = p i ( p i ( N N Perusjouko pistevieraa ositukse muodostamie tapahtumie jakauma, ku toistot tehdää palauttamatta. 74 x k X N p (µ,σ Multiormaalijakauma X oudattaa p-ulotteista ormaalijakauma. Tiheysfuktio yleisessä muodossa: f(x = ( exp { π p Σ (x µσ (x µ T} Jos (X,...,X ovatriippumattomia,iitiheysfuktioo: p [ }] f(x = { (x i µ i Parametrit: πσi exp σ i odotusarvovektori: E(X = µ kovariassimatriisi: Cov(X = Σ Multiormaalijakautuee satuaismuuttuja kaikki reuajakaumat ovat(multiormaalijakautueita, mutta se että reuajakaumat ovat ormaalijakautueita ei takaa yhteisjakauma multiormaalisuutta! 75 Kaksiulotteie ormaalijakauma X N (µ x,µ y,σ x,σ y,ρ xy Tiheysfuktio: f(x,y = exp πσ xσ y ρ ( (x µx σ x ρ(x µx(y µy + (y µy σxσy σy ( ρ Jos X ja Y ovat riippumattomia, ii tiheysfuktio o: { ( } f(x,y = πσ xσ y exp (x µx Parametrit: σ x + (y µy σ y odotusarvot: E(X = µ x ja E(Y = µ y variassit: Var(X = σ xja Var(Y = σ y korrelaatiokerroi: Corr(x,y = ρ xy Kaksiulotteisessa tapauksessa multiormaalijakauma yhtälö supistuu yllä olevaa kovariassimatriisittomaa muotoo. 76
Taulukoista Tilasto-ohjelmistoista saadaa kertymäfuktio arvot ja p-arvot (hätätodeäköisyydet mille tahasa todeäköisyysjakaumalle. Jos tilasto-ohjelmistoa ei ole, ii arvot katsotaa taulukoista, joissa o joko kertymäfuktio arvoja, hätätodeäköisyyksiä tai kriittisiä arvoja. Normaalijakauma taulukosta saadaa tarkat arvot havaitoarvoille. Taulukossa o stadardoituja z-arvoja vastaavia todeäköisyyksiä. χ -ja t-jakaumistasaadaaarvotvaivalituissapisteissä. t-taulukoissa o eri vapausasteille laskettuja kriittisiä arvoja valituilla hätätodeäköisyyksillä sekä yksi- että kaksisuutaisia. χ -taulukoissaotavallisestierivapausasteillelaskettujakriittisiä arvoja valituilla hätätodeäköisyyksillä. F -jakauma tapauksessa käytössämme o vai 5%-merkitsevyystasoa vastaavat kriittiset arvot tietyillä vapausastepareilla. Jokaista χ -tai t-taulukoriviävastaisi z-taulukkoavastaavataulukko. Jokaista F-tauluko lukua vastaisi z-taulukkoa vastaava taulukko. 77 Todeäköisyysjakaumie yhteyksiä Ku t t(ν,ii t F(,ν. Ku t t(,ii t Cauchy(0. Ku X N(0,ja X N(0,,ii X X Cauchy(0. Ku X N(0,ja X N(0,,ii X X t(. Ku X i N(0,,ii ν Xi χ (ν. Ku X N(µ,σ,ii e X LogN(µ,σ. Ku X χ (ν ja X χ (ν,ii X /ν X /ν F(ν,ν. Ku X χ (ν,ii X Gamma( ν,. Ku F F(ν,ν,ii F F(ν,ν 79 Todeäköisyysjakaumie muuoksia Riippumattomie ormaalimuuttujie summa o ormaalijakautuut. X N(µ x,σ x ja Y N(µ y,σ y,ii X+Y N(µ x +µ y,σ x +σ y Normaalimuuttuja lieaarimuuoski o ormaalijakautuut. X N(µ,σ,ii ax +b N(aµ+b,a σ Edellisistä yhdistäe: X N(µ,σ,ii X N(µ, σ Riippumattomie biomimuuttujie summa o biomijakautuut. X Bi(,pja Y Bi(,p,ii X +Y bi( +,p Riippumattomie poisso-muuttujie summa o poisso-jakautuut. X Poisso(λ x ja Y Poisso(λ y,ii X +Y Poisso(λ x +λ y Riippumattomie χ -muuttujiesummao χ -jakautuut. X χ (ν ja Y χ (ν,ii X +Y χ (ν +ν 78 Keskiarvoje otatajakaumat Normaalijakautuee perusjouko, joka variassi tuetaa, otoskeskiarvot oudattavat ormaalijakaumaa: Jos X N(µ,σ,ii X N(µ, σ,eli X µ σ/ N(0, Normaalijakautuee perusjouko, joka variassia ei tueta, stadardoidut otoskeskiarvot oudattavat t-jakaumaa: Jos X N(µ,?,ii X µ s/ t( Riippumattomie samoi jakautueide satuaismuuttujie, joilla o äärellie variassi, otoskeskiarvot oudattavat approksimatiivisesti ormaalijakaumaa, ku otoskoko o riittävä suuri: Tällöi X appr N(µ, s X µ jayhtäpitävästi s/ appr N(0, 80
Keskeie raja-arvolause: Keskeie raja-arvolause ( S µ N(0,σ,ku Riippumattomie samoi jakautueide satuaismuuttujie summa jakauma lähestyy ormaalijakaumaa summa tekijöide lukumäärä kasvaessa. S = X +X +...+X Kyse o siis otoskeskiarvoje jakaumasta. Keskeie raja-arvo-lause selittää osaltaa ormaalijakauma keskeistä asemaa tilastotieteessä. mm. z-testit, suhtellise osuude luottamusvälit ja ormaaliapproksimoiti perustuvat keskeisee raja-arvolauseesee. Keskeie raja-arvolause perustuu tilastotietee kovergessikäsitteistä heikoimpaa, eli jakaumakovergessii. 8 Biomijakauma ormaaliapproksimaatio Keskeise raja-arvolausee perusteella otoskoo ollessa riittävä voidaa biomimuuttujaa approksimoida ormaalijakaumalla. Approksimoiti oistuu, jos p o lähellä puolikasta tai o suuri. Alarajaapidetää,ettämolemmatsekä p > 5että ( p > 5. Approksimoitii tarvitsemme muuttuja odotusarvo ja variassi: Biomijakauma E(x = pja D (x = p( p. Approksimoitaessa diskreettiä muuttujaa jatkuvalla tehdää jatkuvuuskorjaus. Jatkuvuuskorjaus tehdää alaspäi, ku alaraja havaito halutaa mukaa tai, ku yläraja havaito halutaa jättää pois. Jatkuvuuskorjaus tehdää ylöspäi, ku yläraja havaito halutaa mukaa tai, ku alaraja havaito halutaa jättää pois. Maiittuje säätöje mukaa ala-/ylärajaa lisätää tai siitä väheetää 0.5. Tällöi X appr N(p,p( p 8 Muut ormaaliapproksimaatiot Myös eräitä muitaki jakaumia kui biomijakaumaa voidaa tietyi edellytyksi approksimoida ormaalijakaumalla: Hypergeometrie jakauma: Perusjouko ollessa suuri suhteessa otsokokoo hypergeometrie jakauma lähestyy biomijakaumaa. Tästä seuraa, että suurilla otoskoilla myös hypergeometristä jakaumaa voidaa approksimoida ormaalijakaumalla. Parametritovat: µ = ( K N = pja σ = p( p ( N N Poisso-jakauma Otoskoo ollessa todella suuri ja oistumistodeäköisyyde ollessa lähellä ollaa(tai ykköstä biomijakauma lähestyy poissojakaumaa. Tästä seuraa se, että erittäi suurilla otoskoilla(vio jakauma poissojakaumaa voidaa approksimoida ormaalijakaumalla. Parametritovat: µ = λja σ = λ Suurte lukuje laki ja kovergessi Suurte lukuje laki: P ( S µ ǫ,ku S = X +X +...+X,riippumattomiejasamoi jakautueide satuaismuuttujie summa. Todeäköisyys, että keskiarvo ja odotusarvo erotus lähestyy ollaa, lähestyy ykköstä, ku otoskoko lähestyy ääretötä. Hiema eksaktimmi: Mikää etukätee valittu poikkeama ǫ ei ole riittävä piei otoskoo lähestyessä ääretötä. Suurte lukuje laista o olemassa sekä heikko että vahva muoto. Vahva suurte lukje pari perustuu melkei varmaa kovergessii. Heikko suurte lukuje laki perustuu stokastisee kovergessii. Keskeie raja-arvolauseha perusteltii edellisiä heikomalla jakaumakovergessillä. 84 83
3. Estimoiti Piste-estimoiti Piste-estimoiissa etsitää jolleki parametrille yksittäistä estimaattia. Estimaatti o estimaattori atama tulos, eli luku(tai vektori. Estimaattori o kaava/laskutapa, jolla voidaa laskea estimaatti. Estimoitimeetelmiä:. Aalogiameetelmät, joista yleisi o momettimeetelmä Perusjouko parametria estimoidaa vastaavalla otossuureella.. Maximum likelihood-meetelmä(ml SU-estimaattori, eli Suurimma Uskottavuude estimaattori, jossa uskottavuusfuktiota maksimoidaa kyseise parametri suhtee. 3. Bayes-estimoiti Tarkoituksea o estimoida parametrie posteriorijakauma, jote kyseessä ei varsiaisesti ole piste-estimoiti. 4. Pieimmä eliösumma meetelmä(ols PNS-meetelmällä estimoidaa malliparametrejä, joita käsitellää tarkemmi regressioaalyysi yhteydessä. 86 Piste-estimaatteja Kurssilla käytössä olevia piste-estimaatteja Odotusarvo: otoskeskiarvo Variassi: otosvariassi Keskihajota: otoskeskihajota Todeäköisyys: suhteellie osuus λ-parametri: jakauma odotusarvo Muita mahdollisia estimaatteja Moodi: otokse yleisi havaito Mediaai: järjestety otokse keskimmäie havaito Muut järjestystuusluvut: vastaavat otostuusluvut Regressiokerroi β ja malli vakio α: vastaavat PNS-estimaatit b ja a 87 Hyvä estimaattori omiaisuuksia. Harhattomuus E(θ = θ: Jos estimaattori odotettu arvo o sama kui parametri arvo, ii estimaattori o harhato.. Tarketuvuus: P(T θ =,ku :Josestimaattoriodotettuarvolähestyy parameti oikeaa arvoa, ku otoskoko kasvaa kohti ääretötä. 3. Tyhjetävyys: Jos estimaattori käyttää kaike otoksesta saatava iformaatio, ii se o tyhjetävä. 4. Tehokkuus: Jos estimaattori variassi o pieempi kui mikä tahasa muu estimaattori variassi, ii silloi se o tehokas. 88
Suurimma uskottavuude meetelmä Suurimma uskottavuude estimaattori θ maksimoi otokse x,x,...,x todeäköisyyde. Suurimma uskottavuude estimaattori lasketaa seuraavasti:. Muodostetaa muuttuja tiheysfuktio f(x; θ.. Riippumattomuude perusteella tästä saadaa otokse yhteistiheysfuktio=uskottavuusfuktio: f(x,x,...,x ;θ = f(x ;θ f(x ;θ f(x ;θ = L(θ;x,x,...,x 3. Derivoidaauskottavuusfuktio θ suhtee: L (θ;x,x,...,x 4. Asetetaaderivaattaollaksi: L (θ = 0 5. Ratkaistaa uskottavuusfuktio yhtälö θ suhtee. 6. Varmistetaa,ettäkyseessäomaksimipiste: L (θ < 0 ja lopuksi vielä tarkistetaa, ettei uskottavuusfuktio saa maksimiarvoaa reuapisteissä. Näi meillä pitäisi olla θ suurimma uskottavuude estimaattori. 89 SU-estimaattori omiaisuuksia Normaaleissa tilateissa SU-estimaattorit täyttävät suurte lukuje lai ja keskeise raja-arvolausee ehdot, eli: Suurimma uskottavuude estimaattorit ovat tarketuvia. Suurimma uskottavuude estimaattorit ovat suurilla otoskoilla approksimatiivisesti ormaalijakautueita. Huomatkaakuitekiettä,perusjoukovariassi σ SU-estimaattori o ˆσ = (xi x, joka o pieillä otoksilla harhaie. ˆσ harhasuuruuso σ,elisealiestimoivariassia. Otoskoo kasvaessa poikkeama merkitys häviää ˆσ lim σ. (xi x Otosvariassi s = se sijaa o harhato estimaattori, joka vuoksi käytämmeki sitä perusjouko variassi estimoitii. Kuotoskeskiarvo x = xi o odotusarvo µ SU-estimaattori, ii se täyttää kaikki hyvä estimaattori omiaisuudet. 90 Origomometit: Momettimeetelmä ja mometit Esimmäieorigomometti: a = Toieorigomometti: a = Keskusmometit: (xi 0 (xi 0 = x... = x (xi x Esimmäiekeskusmometti: m = = 0 Toiekeskusmometti: m = (xi x = ˆσ... Perusjouko mometteja estimoidaa siis otosmometeilla. Keskiarvo osalta tämä toimii, mutta variassi tapauksessa päädytää samaa harhaisee estimaattii kui SU-meetelmässäki. Kolmaesta ja eljäestä keskusmometista o johdettu tuusluvut vioudelle ja huipukkuudelle. Aalogiameetelmissä ogelmaa o otossuureita ja perusjouko parametrejä yhdistävä teoria ohuus, eli estimaatit ovat yleesä laskettavissa, mutta iide hyvyydestä ei ole mitää takeita. 9 Otatameetelmä vaikutus estimoitii Otaa perusmeetelmät ovat: Yksikertaie satuaisotata, systemaattie otata, ryväsotata ja ositettu otata. Yksikertaisessa sattuaisotaassa ja systemaattisessa otaassa odotusarvo estimaattori o tavallie otoskeskiarvo: x i ˆµ = x = Ositetussa ja ryväsotaassa odotusarvo estimaattori o: ˆµ = H W h x h h= x h oositteekeskiarvoja W h oositepaio. Palautettakoo samalla mielee, että keskiarvo hajotaestimaatti o keskiarvo keskivirhe se(stadard error: joko ˆσ x = σ tai ˆσ x = s 9
Keskiarvo keskivirhee estimoiti Käytettäessä systemaattista tai yksikertaista satuaisotataa: Kutuemmeäärelliseperusjoukovariassi σ,ii keskiarvovariassiestimaattorio ˆσ x = σ. Ku emme tue äärellise perusjouko variassia, ii keskiarvovariassiestimaattorio ˆσ x = s. Variassiestimaattori ositetussa otaassa suhteellisella kiitiöiillä: ˆσ x = H Wh (xi x h h= h Ryväsotaassaositepaioa W h = H. Ryväsotaassa tavoitteea o, että kaikki rypäät edustavat mahdollisimma hyvi perusjoukkoa. Ositetussa otaassa puolestaa pyritää ositteide välise hajoa maksimoitii ja vastaavasti ositteide sisäise hajoa miimoitii. 93 Äärellise perusjouko korjaustekijä (f pc Hypergeometrisejakaumavariassiestimaatissaesiityitekijä: N N Sillä huomioidaa palauttamatta tehdy otaa aiheuttama virhe. ä että se eliöjuurta N N kutsutaaäärellise ( Sekä N N perusjouko korjaustekijäksi(fpc = fiite populatio correctio factor. Kuperusjoukovariassia σ eitueta,iisesijastakäytetää otosvariassia s,jolloiäärelliseperusjoukokorjaustekijäo: N N = N Aia, ku perusjouko koko tuetaa, tulisi korjaustekijää käyttää. Otatasuhtee ollessa piei N < 5%,voidaatämäkorjaustekijä kuiteki jättää huomioimatta. Äärellise perusjouko korjaustekijä pieetää variassiestimaattia. 94 Otoskeskiarvo variassiestimaattori Kutuemmeäärelliseperusjoukovariassi σ jakäytämme yksikertaista satuaisotataa palauttamatta: Keskiarvovariassiestimaattorio ˆσ x = σ (N (N. Ku emme tue äärellise perusjouko variassia ja käytämme yksikertaista satuaisotataa palauttamatta, ii: (N N Keskiarvovariassiestimaattorio ˆσ x = s = s s N. Ku =,ii ˆσ x = σ javastaavasti,ku = N,ii ˆσ x = 0. Eli otoskoo kasvaessa keskiarvo variassiestimaatti pieeee. Variassiestimaattori ositetussa otaassa suhteellisella kiitiöiillä: ˆσ x = H N h N h (N h h (xi x h h = H H h= h= W h s h h h= W h s h N h Myös ryväsotaassa käytetää samaa variassiestimaattoria. 95 Optimaalie kiitiöiti Ositetulla otaalla pyritää estimaattori variassi pieetämisee. Optimaalie kiitiöiti pieetää variassia eite. Optimaalisessakiitiöiissätarvitaaarviotositteidehajooista ŝ h. h = N h s h Nh s h Eli ositteista, joissa o suuri hajota, otetaa suurempi otos. Jos h N h,iiositesisällytetääkokoaisuudessaaotoksee. Variassiestimaattori o tasaise kiitiöii mukaie: ˆσ = s = H (xi x h h= h Keskiarvo variassiestimaattori o siis: ˆσ x = H (N h h (xi x h N h h h = H s h h H s h N h h= h= h= Optimoiti voidaa tehdä myös otatakustauste suhtee. Eli ositteista, jossa otata o kallista, otetaa pieempi otos. 96
Väliestimoiti Väliestimoiissa etsitää väli, jolla estimoitava parametri o valitulla todeäköisyydellä ( α =??%. Tätä väliä kutsutaa parametri luottamusväliksi. α o merkitsevyystaso kaksisuutaisessa testissä. Luottamusväli määrittämiseksi pitää aluksi valita luottamustaso, selvittää estimoitava parametri ja määrittää parametri jakauma. Muistakaa, että luottamusvälejä lasketaa otaasta johtuvie virheide huomioimiseksi! Kahde otokse tilateessa odotusarvoje erotuksille voidaa laskea luottamusvälejä, jotka hajotaestimaattie osalta poikkeavat hiema laskemistamme. Huom: Lähes kaikille parametreille, joita voidaa testata, voidaa myös laskea aiaki jokilaiset luottamusvälit: mm. regressiomalli kertoimille ja vakiolle, korrelaatiokertoimille je. Normaalijakautuutperusjoukko σ tuettu Perusjoukko o ormaalijakautuut ja perusjouko variassi o tuettu: X N(µ,σ,tällöi X N(µ,σ / Tällöiluottamuskerroi φ ( α saadaaormaalijakaumasta. 5%-merkitsevyystasoa, eli 95%-luottamusväliä vastaava luottamuskerroi o φ(0.975 =.960 %-merkitsevyystasoa, eli 99%-luottamusväliä vastaava luottamuskerroi o φ(0.995 =.5758 P(x z α/ σ µ x+ z α/ σ = α Todeäköisyydellä ( α odotusarvo o luottamusvälillä: σ (x z α/ σ, x+ z α/ Todeäköisyydellä α se voi olla missä tahasa muualla. 98 97 Normaalijakautuutperusjoukko σ tutemato Perusjoukko o ormaalijakautuut, mutta se variassi o tutemato Käytetää siis otoskeskihajotaa s, koska σ a ei tueta. Tällöi X µ s/ t(ν Luottamuskerroi φ ( α saadaasiis t-jakaumasta. Vapausasteet ν =. s P(x t (ν α/ µ x+ t α/ (ν s = α Odotusarvooluottamusvälillä (x t α/ (ν s, x+ t (ν α/ s. Ku vapausasteet ν ovat yli 30, ii t-jakauma ja ormaalijakauma kertymäfuktioide arvot ovat riittävä samakaltaisia, jotta t-jakauma arvot voidaa haluttaessa korvata ormaalijakauma arvoilla. Huom. Perusjouko ormaalijakautueisuus o ehdoto edellytys. 99 Jakauma sama, mutta tutemato Riippumattomat samoi jakautueet muuttujat äärellisellä hajoalla. Otoskeskiarvo o approksimatiivisesti ormaalijakautuut X appr N(µ, s Luottamuskerroi φ ( α katsotaaormaalijakaumasta. Todeäköisyydellä P(x z α/ s µ x+ z α/ s = α Odotusarvooluottamusvälillä (x z α/ s, x+ z α/ s Tämä perustuu keskeisee raja-arvolauseesee. Ei voida määritellä mitää tarkkaa otoskokoa, joka jälkee otoskeskiarvo o ormaalijakautuut. Mitä lähempää ormaalijakaumaa perusjouko jakauma o sitä pieemmällä otoskoolla luottamusväli o luotettava. Yksihuippuiste symmetriste jakaumie tapauksessa kolmiumeroie otos lieee riittävä, jos jakauma o hyvi vio ja/tai moihuippuie tarvitaa huomattavasti eemmä havaitoja. 00
Äärellise perusjouko korjaustekijä Äärellise perusjouko korjaustekijä kavetaa luottamusvälejä. Korjaustekijää tulee käyttää, ku perusjouko koko tiedetää. Merkitys o vähäie, ku perusjoukko o suuri suhteessa otoksee. Perusjoukko o ormaalijakautuut ja se variassi o tuettu: x± z α/ σ N N Perusjouko jakaumaa ei tiedetä, mutta otoskoko o suuri: x± z α/ s N N Perusjoukko o ormaalijakautuut, mutta se variassia ei tueta: x± t α/ (ν s N N Suhteellise osuude luottamusväli: ˆp( ˆp N ˆp± z α/ N 0 Erotukse luottamusväli t-jakauma Kahde odotusarvo erotukse luottamusväli, ku perusjoukot ovat ormaalijakautueet ja iide tutemattomat variassit voidaa olettaa yhtä suuriksi: x x t α/ (νs + µ µ x x +t α/ (νs + Kyseie luottamusväli o suora johdos kahde otokse t-testistä, jossa s = ( s +( s ( +( ja ν = ( +. Kahde odotusarvo erotukse luottamusväli, ku perusjoukot ovat ormaalijakautueet, eikä iide tutemattomia variasseja voida olettaa yhtä suuriksi: s x x t α/ (ν + s µ µ x x +t α/ (ν Väli o johdettu kahde otokse approksimatiivisesta t-testistä. Vapausasteet: ν = c + ( c,jossa c = s 03 s + s s + s Erotukse luottamusväli z-jakauma Kahde odotusarvo erotukse luottamusväli, ku perusjoukot ovat ormaalijakautueet ja iide variassit tuetaa: x x z α/ σ + σ µ µ x x +z α/ σ + σ Kyseie luottamusväli o suora johdos kahde otokse z-testistä. Samallakaavalla(σ s lasketaaerotukseluottamusväli,ku perusjoukot eivät ole ormaalijakautueet, mutta otokset ovat suuria. Kahde suhteellise osuude erotukse luottamusväli: ˆp ˆp z α/ ˆpˆq + ˆp ˆq π π ˆp ˆp +z α/ ˆpˆq + ˆp ˆq Luottamusväli hajotaestimaatit poikkeavat hiema kahde otokse suhteelliste osuuksie testi hajotaestimaateista. Kyseise luottamusväli lasketa perustuu biomijakauma ormaaliapproksimaatioo, eli erotus o aioastaa approksimatiivisesti ormaalijakautuut. 0 Parittaiste otoste luottamusväli Ku muuttujalle tehdää käsittely ja halutaa laskea luottamusväli vaikutukselle, ii käytetää parittaiste otoste luottamusvälikaavaa. Elilasketaakäsittelyäedeltävätila x i jakäsittelyjälkeisetila y i erotukse x i y i = d i odotusarvolle luottamusväli: Tällöi D s d / t(ν Luottamuskerroi saadaa t-jakaumasta vapausasteilla ν =. P(d t (ν α/ sd d+ t α/ (ν sd = α Odotusarvooluottamusvälillä (d t (ν α/ sd (di d d Hajotaestimaatti: s d = = i ( d i / Odotusarvo asetetaa usei ollaksi. Kutsutaa myös riippuvie otoste luottamusväliksi. 04, d+ t α/ (ν sd.