805306A Johdatus monimuuttujamenetelmiin, 5 op
|
|
- Pirkko Jutta Nurminen
- 5 vuotta sitten
- Katselukertoja:
Transkriptio
1 monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos
2 Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista X 1,..., X p sellainen yhdistelmä (matemaattinen funktio), joka parhaiten erottelisi vastemuuttujan Y eri luokat toisistaan Vastemuuttuja Y voi olla joko kaksi- tai useampiluokkainen (K 2) Selittäjien oletetaan usein noudattavan ns. multinormaalijakaumaa Analyysin perusideana on mallittaa selittäjien X (yhteis)jakauma erikseen jokaisessa vastemuuttujan luokassa ja käyttää sen jälkeen ns. Bayesin kaavaa estimoitaessa todennäköisyyttä P(Y = k X = x) monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
3 Olkoon π k (k = 1,..., K) kokonaistodennäköisyys tai ns. priori sille, että satunnaisesti valittu havainto kuuluu vastemuuttujan luokkaan k. f k (X ) = P(X = x Y = k) X :n (yhteis)tiheysfunktio havainnolle, joka tulee vasteen luokasta k. Tällöin f k (x) saa suhteellisen suuria arvoja silloin, kun luokan k havainnolla on suuri todennäköisyys sille, että selittävien muuttujien arvoilla X x Vastaavasti fk (x) saa suhteellisen pieniä arvoja silloin, kun luokan k havainnolla on pieni todennäköisyys sille, että selittävien muuttujien arvoilla X x monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
4 Bayesin kaavan mukaan p k (x) = P(Y = k X = x) = π kf k (x) K π l f l (x) l=1 (1) Bayesin kaavassa (1) esitettyä todennäköisyyttä p k (x) = P(Y = k X = x) sanotaan ns. posterioritodennäköisyydeksi Posterioritodennäköisyys kuvaa selittävien muuttujien arvot X = x omaavan havaintoyksikön todennäköisyyttä (tai todennäköisyystiheyttä) kuulua vasteen luokkaan k monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
5 Todennäköisyyksien πk estimointi on helppoa, jos havaintoaineisto on kerätty perusjoukosta yksinkertaisella satunnaisotannalla. Tällöin π k = n k /n, missä n k = vastemuuttujan Y luokkaan k kuuluvien havaintojen lukumäärä ja n = n 1 + n n K = havaintojen kokonaislukumäärä. X :n tiheysfunktion f k (x) estimointi on haastavampaa, joten tiheysfunktion muodosta tehdään yleensä ainakin joitakin yksinkertaistavia oletuksia Tiheysfunktioiden fk (x) ja priorien π k estimoinnin jälkeen voimme arvioida posterioritodennäköisyyksiä ja muodostaa luokittelusäännön, jonka avulla kukin havaintoyksikkö voidaan luokitella tai ennustaa kuuluvaksi vasteen tiettyyn luokkaan monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
6 Lineaarinen erotteluanalyysi: yksi selittäjä Oletetaan seuraavaksi, että K-luokkaista vastemuuttujaa Y selitetään yhdellä jatkuvalla selittäjällä X. Lineaarisen erotteluanalyysin keskeisimmät vaiheet ovat: Estimoidaan tiheysfunktiot fk (x) ja priorit π k (k = 1,..., K) Sijoitetaan saadut estimaatit Bayesin kaavaan (1), jotta saamme estimaatit posterioritodennäköisyyksille p k (x) Luokitellaan kukin havainto siihen luokkaan, jossa havaintoon liittyvä p k (x) on suurin Oletetaan seuraavaksi, että luokassa k (k = 1,..., K ) selittävä muuttuja X noudattaa normaalijakaumaa eli X N(µ k, σ 2 k ). monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
7 Tällöin X :n tiheysfunktio luokassa k on muotoa ( ) 1 f k (x) = exp 1 (x µ 2πσk 2σk 2 k ) 2, (2) missä µ k ja σk 2 luokassa k. ovat muuttujan X odotusarvo ja varianssi vasteen Oletetaan lisäksi, että σ 2 1 =... = σ2 K = σ2 (vakiovarianssioletus). Sijoittamalla kaavassa (2) esitetty tiheysfunktio f k (x) Bayesin kaavaan (1), saadaan posterioritodennäköisyys esitettyä muodossa p k (x) = π ( 1 k exp 2πσ 1 (x µ 2σ 2 k ) 2) K l=1 π ( 1 l exp 2πσ 1 (3) (x µ 2σ 2 l ) 2) monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
8 Ns. Bayes-luokittelija luokittelee selittäjän arvon X = x omaavan havainnon siihen luokkaan, jossa posterioritodennäköisyys on suurin. Edellä esitetty luokittelusääntö voidaan esittää myös yhtäpitävästi siten, että selittäjän X arvon x omaava havainto luokitellaan siihen luokkaan, jossa saa suurimman arvon. δ k (x) = x µk σ 2 µ2 k 2σ 2 + log(π k) (4) Jos esimerkiksi vaste on kaksiarvoinen (K = 2) ja π1 = π 2, Bayes luokittelija luokittelee havainnon luokkaan 1, jos 2x(µ 1 µ 2 ) > µ 2 1 µ 2 2 ja muulloin havainto luokitellaan luokkaan 2. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
9 Jotta luokittelusääntöjä (3) ja (4) voitaisiin soveltaa käytännössä, tuntemattomat parametrit µ 1,..., µ K, π 1,..., π K ja σ 2 täytyy estimoida havaintoaineiston informaation perusteella. Parametrien estimoinnissa voidaan käyttää seuraavia estimaattoreita: µ k = 1 n k i:y i =k σ 2 = 1 n K x i K ja (x i µ k ) 2 (5) k=1 i:y i =k Yllä n k = luokkaan k kuuluvien havaintojen lkm ja n = havaintojen kokonaislukumäärä. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
10 Selittäjän X luokkakohtaisia odotusarvoja µ k (k = 1,..., K) estimoidaan siis luokkakohtaisten keskiarvojen avulla ja varianssin σ 2 estimaattori σ 2 on painotettu keskiarvo luokkakohtaisista otosvariansseista. Kun esimerkiksi K = 2, saadaan σ 2 kirjoitettua muodossa σ 2 = (n 1 1)S (n 2 1)S 2 2 n 2 missä luokissa 1 ja 2 otosvarianssi lasketaan tavanomaisella kaavalla Sk 2 = 1 n k n k (x 1 i µ k ) 2 i=1 Jos priorit π 1,..., π K tunnetaan etukäteen, ko. todennäköisyyksiä voidaan luonnollisesti hyödyntää suoraan luokittelussa., monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
11 Jos taas priorit ovat tuntemattomia, ne voidaan estimoida jo aiemmin esitetyllä periaatteella π k = n k n (6) Lineaarisen erotteluanalyysin luokittelussa kaavoilla (5) ja (6) saadut estimaatit sijoitetaan kaavassa (4) esiteltyyn erottelusääntöön, jolloin saadaan δ k (x) = x µ k σ 2 µ2 k 2 σ 2 + log( π k) (7) Näiden ns. erottelufunktioiden δ k (x) perusteella havainto, jonka arvo muuttujalla X = x, luokitellaan siihen luokkaan k (k = 1,..., K), jossa erottelufunktio saa suurimman arvon. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
12 Esimerkki Erääseen havaintoaineistoon (n = 233) kuuluu 30-vuotiaita aikuisia, joista 117 on miehiä ja loput 116 naisia. Seuraavassa pistekuviossa on esitetty miesten ja naisten pituuksien jakaumat: Sukupuoli Mies Nainen Pituus (cm) monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
13 Analysoidaan aineistoa lineaarisen erotteluanalyysin avulla ja pyritään luokittelemaan/ennustamaan aineistoon kuuluvien henkilöiden sukupuoli pituuden avulla. Havaintoaineistosta lasketut sukupuolittaiset keskiarvot ja keskihajonnat ovat: Sukupuoli- Havaintojen Keski- Keskiluokka lukumäärä arvo hajonta Mies (1) Nainen (2) Oletetaan, että miesten pituus noudattaa N(µ 1, σ 2 )-jakaumaa ja että naisten pituus noudattaa N(µ 2, σ 2 )-jakaumaa. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
14 Jakaumien tuntemattomien parametrien µ 1, µ 2 ja σ 2 sekä priorien π 1 ja π 2 estimaateiksi saadaan: µ 1 = X 1 = µ 2 = X 2 = σ 2 = S 2 = (n 1 1)S (n 2 1)S 2 2 n 2 = (117 1) (116 1) π 1 = n 1 /n = 117/ π 2 = n 2 /n = 116/ monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
15 Seuraavassa kuvassa on esitetty miesten ja naisten pituusjakaumien tiheysfunktioiden estimaatit ja pituuden havaintoarvot aineistossa. Miehet Naiset monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
16 Erottelufunktioiden δ k (x) = x µ k µ2 k + log( π σ 2 2 σ 2 k ), missä k = 1, 2, arvoiksi 177 cm pitkälle henkilölle saadaan: δ 1 (177) = 177 µ 1 σ 2 µ2 1 2 σ 2 + log( π 1) = log(0.502) δ 2 (177) = 177 µ 2 σ 2 µ2 2 2 σ 2 + log( π 2) = log(0.498) Nyt siis δ 1 (177) > δ 2 (177), joten kyseinen henkilö luokitellaan kuuluvaksi luokkaan 1 eli mieheksi. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
17 Seuraava kuva havainnollistaa vielä edellä esitellyn päätäntäsäännön käyttäytymistä havaintoaineistossa. Musta katkoviivan vasemmalle puolelle kuuluvat havainnot luokitellaan kuuluvaksi luokkaan 2 eli naisiksi ja oikealle puolelle kuuluvat havainnot luokkaan 1 eli miehiksi. Miehet Naiset monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
18 Erotteluanalyysi ja R R:ssä lineaarinen erotteluanalyysi voidaan suorittaa MASS-paketin funktiolla lda(). Analysoidaan lyhyesti edellä käsitelty esimerkkiaineisto ko. funktiolla: monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
19 Funktiossa lda() määritellään ensin analyysissä käytettävä malli muodossa: luokiteltava muuttuja selittävä(t) muuttuja(t) argumentilla CV=TRUE saadaan talletettua muodostettavaan malliobjektiin (opetus)aineiston havaintojen luokittelun lopputulokset Talletetusta malliobjektista voidaan poimia kullekin aineiston havainnolle vasteen ennusteettu arvo komponentilla class (esim. malli$class) posterioritodennäköisyydet tilastoyksikön kuulumiselle vasteen eri luokkiin komponentilla posterior (esim. malli$posterior) monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
20 Luokituksen onnistumista voidaan nyt kuvata esimerkiksi yksinkertaisella funktion table() tuottamalla ristiintaulukolla tai Epi-paketin informatiivisempia ristiintaulukoita tuottavalla funktiolla stat.table(). Lisää R:n erotteluanalyysistä erillisissä esimerkeissä ja kurssin harjoituksissa. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
21 Useamman selittäjän lineaarinen erotteluanalyysi Useamman selittäjän X 1,..., X p (p 2) tilanteessa oletetaan, että X = (X 1,..., X p ) noudattaa multinormaalijakaumaa, merk. X N p (µ, Σ). Odotusarvovektorissa E(X ) = µ on p alkiota, jotka kuvaavat muuttujien X 1,..., X p odotusarvoja µ 1 µ 2 E(X ) = µ =. µ p Cov(X ) = Σ on X :n p p kovarianssimatriisi Var(X 1 ) Cov(X 1, X 2 )... Cov(X 1, X p) Cov(X 2, X 1 ) Var(X 2 )... Cov(X 2, X p) Cov(X ) = Σ Cov(X p, X 1 ) COV (X p, X 2 )... Var(X p) monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
22 Multinormaalin todennäköisyysjakauman tiheysfunktio f(x) on muotoa ( ) 1 f (x) = exp 1 (2π) p/2 Σ 1/2 2 (x µ)t Σ 1 (x µ) Kaksiulotteisessa normaalijakaumassa odotusarvovektori µ ja kovarianssimatriisi Σ 'typistyvät' muotoon ( ) µ1 E(X ) = µ = µ 2 ja Σ = Cov(X ) = ( Var(X1 ) ) Cov(X 1, X 2 ) Cov(X 2, X 1 ) Var(X 2 ) Kyseisen jakauman tiheysfunktio voitaisiin esittää matriisimerkintöjen sijasta muodossa ( ) 1 1 f (x 1, x 2 ) = exp 2πσ x1 σ x2 1 ρ 2 2(1 ρ 2 x 1 x x 1 x 2 ) Q(x 1, x 2 ), 2 missä Q(x 1, x 2 ) = ( x1 µ x 1 σ x 1 ) 2 ( x2 µ x 2 σ x 2 ja merkitä jakaumaa merkinnällä (X 1, X 2 ) N 2 (µ X1, µ X2, σx 2 1, σx 2 2, ρ X1 X 2 ) ) 2 2ρx1 x 2 ( x1 µ x 1 σ x 1 ) ( x2 ) µ x 2 σ x 2 monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
23 Alla esitetyissä kuvissa on esitetty kaksi kaksiulotteista normaalijakaumaa. Vasemmanpuoleisessa kuvassa muuttujilla X 1 ja X 2 on yhtä suuri varianssi ja Cor(X 1, X 2 ) = 0, kun oikeanpuoleissa kuvassa Cor(X 1, X 2 ) = 0.7. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
24 Useamman selittäjän (p 2) tilanteessa oletetaan, että X N p (µ k, Σ) vasteen luokassa k, missä µ k on luokkakohtainen odotusarvovektori ja Σ kaikille luokille k = 1,..., K yhteinen kovarianssimatriisi. Sijoittamalla luokkaan k liittyvän p-ulotteisen normaalijakauman N p (µ k, Σ) tiheysfunktio f k (x) Bayesin kaavaan (1) voidaan johtaa Bayes-luokittelija havaintoyksikölle, jolla X = x, muotoon δ k (x) = x T Σ 1 µ k 1 2 µt k Σ 1 µ k + log(π k ) (8) Havaintoyksikkö luokitellaan siihen luokkaan, jossa δ k (x) saa suurimman arvon. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
25 Alla on havainnollistettu kahden selittäjän lineaarisen erotteluanalyysin asetelmaa, kun vastemuuttujalla on kolme luokkaa, joissa odotusarvovektori µ k on luokkakohtainen ja kovarianssimatriisi Σ on kaikissa luokissa sama. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
26 Luokkien Bayes-luokittelijassa (8) esiintyvät tuntemattomat parametrit µ 1,..., µ K, π 1,..., π K ja Σ on jälleen estimoitava havaintoaineiston perusteella. Estimoinnissa käytetään kaavoissa (5) ja (6) esitettyjä periaatteita. Parametrien estimoinnin jälkeen selittäjien arvot X = x omaava havainto sijoitetaan siihen luokkaan k, jossa luokittelija δ k (x) saa suurimman arvon. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
27 Esimerkki kahden selittäjän erotteluanalyysistä Aiemmin luokittelimme havaintoja sukupuolen eri luokkiin pituuden perusteella. Lisätään nyt toiseksi selittäjäksi henkilön paino. Kuvataan aineiston muuttujien jakaumaa sirontakuvion avulla: Pituus (cm) Paino (kg) Mies Nainen monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
28 Analyysi saadaan tehtyä R:llä jälleen lda()-funktion avulla: Mallituksen onnistumisesta saadaan edelleen ensimmäinen näkemys 2x2 -taulukon avulla: monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
29 Kvadraattinen erotteluanalyysi (QDA = Quadratic Discriminant Analysis) Lineaarisessa erotteluanalyysissä oletimme, että jokaisessa vasteen luokassa k havainnot noudattavat p-ulotteista multinormaalijakaumaa N(µ k, Σ). Oletus luokkien yhteisestä kovarianssimatriisista ei ole aina realistinen. Oletetaan seuraavaksi, että luokasta k tulevalle havainnolle pätee, että X N(µ k, Σ k ), missä Σ k on luokan k kovarianssimatriisi. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
30 Tällöin lineaarisen erotteluanalyysin yhteydessä esitelty Bayes-luokittelija luokittelee havainnon, jolla X = x siihen luokkaan, jolla δ k (x) = 1 2 xt Σ 1 k saa suurimman arvon. x + x T Σ 1 k µ k 1 2 µt Σ 1 k µ 1 2 log Σ k + log π k (9) Tuntemattomat parametrit µ 1,..., µ K, Σ 1,..., Σ K ja π 1,..., π K täytyy jälleen estimoida havaintoaineiston perusteella. Saadut estimaatit sijoitetaan luokittelijaan (9) ja havainto voidaan sen jälkeen luokitella kuuluvaksi siihen vasteen luokkaan k, jolle δ k (x) saa suurimman arvon. Samalla ko. luokassa k havaintoon liittyvä posterioritodennäköisyys P(Y = k X = x) on suurin. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
31 Seuraava kuvapari havainnollistaa lineaarisen ja kvadraattisen erotteluanalyysin tulosten eroja kaksiarvoisen vasteen tilanteessa: monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
32 Kvadraattinen erotteluanalyysi ja R R:ssä kvadraattinen erotteluanalyysi voidaan suorittaa MASS-paketin funktiolla qda(), jonka syntaksi on identtinen edellä esitellyn lda()-funktion kanssa. Analysoidaan lyhyesti edellä käsitelty (pituus, paino)-aineisto ko. funktiolla sukupuolen ollessa vasteena: monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
33 Luokittelun onnistumisen mittaamisesta Edellä esitellyn kahden selittäjän lineaarisen erotteluanalyysin onnistumista kuvattiin seuraavan ristiintaulukon avulla: Vasteen Vasteen todellinen luokka ennustettu luokka Mies Nainen Yhteensä Mies Nainen Yhteensä Yllä olevaa taulukko kutsutaan ns. sekaannusmatriisiksi (confusion matrix). Taulukon perusteella on helppo nähdä, että kaikkiaan = 211 havaintoa luokiteltiin oikein eli oikein luokiteltujen havaintojen osuus on 211/ Väärien luokitusten osuus (error rate) on puolestaan monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
34 Miesten joukossa väärin luokiteltujen osuus on 14/ Naisten joukossa vastaava osuus on 8/ , joten luokittelu onnistui jonkin verran paremmin naisten joukossa. Mitä jos haluaisimme välttää luokittelussamme enemmän virhettä, jossa luokittelisimme naisen mieheksi? Edellisessä luokituksessa niin tapahtui 8 havaintoyksikön kohdalla. Kaksiluokkaisen vasteen ollessa kyseessä edellinen luokittelu perustui periaatteeseen, jonka mukaan havaintoyksikkö luokiteltiin naiseksi, jos P(Y = Nainen X = x) > 0.5 ja muulloin havaintoyksikkö luokiteltiin mieheksi. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
35 Jos laskemme em. posterioritodennäköisyyden kynnysarvon 0.2:een eli luokittelemme havainnon naiseksi, kun P(Y = Nainen X = x) > 0.2, saamme sekaannusmatriisiksi Vasteen Vasteen todellinen luokka Ennustettu luokka Mies Nainen Yhteensä Mies Nainen Yhteensä Naisten keskuudessa väärin luokiteltujen osuus on nyt enää 3.4 %, mutta osuuden laskemisen 'hintana' on väärin luokitultujen osuuden nousu miesten keskuudessa peräti 23.5 prosenttiin. Samalla koko aineistossa väärin luokiteltujen osuus on noussut 18.0%:iin! monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
36 Eräitä diagnostiikkatunnuslukuja Seuraavaksi esitellään muutamia luokittelun onnistumista kuvaavia termejä/tunnuslukuja, jotka ovat yleisessä käytössä mm. epidemiologisissa tutkimuksissa. Määritellään kaksiarvoisen vasteen arvot siten, että - tarkoittaa potilaan olevan terve ja + tarkoittaa potilaan olevan sairas. Tällöin vasteen luokittelussa (tai diagnosoinnissa) voidaan saada seuraavia tuloksia: Vasteen Vasteen ennustettu luokka todellinen luokka + Yhteensä TN FP N + FN TP P Yhteensä N P n monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
37 Luokittelun onnistumisen kuvaamisssa keskeisiä käsitteitä ovat etenkin Sensitiivisyys (herkkyys, sensitivity): oikein tautia sairastavaksi luokiteltujen osuus kaikista kyseistä tautia sairastavista. Sensitiivisyys = TP/P Spesisyys (tarkkuus, specicy): oikein terveiksi luokiteltujen osuus kaikista terveistä. Spesisyys = TN/N ROC-käyrä (receiver operating characteristics), jonka avulla pyritään kuvaamaan luokittelun onnistumista luokittelijan (8) eri kynnysarvoilla. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
38 Sensitiivisyys ja spesisyys riippuvat siitä, mihin kohtaan positiivisen ja negatiivisen luokituksen raja eli posterioritodennäköisyyden kynnysarvo luokittelussa asetetaan. ROC-käyrän perusmuoto on seuraava: ROC käyrä Sensitiivisyys Spesifisyys monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
39 Luokittelusäännöllä p 2 (x) > 0.2 sijoita luokkaan 2, saamme esimerkissämme sekaannusmatriisiksi Vasteen Vasteen todellinen luokka Ennustettu luokka Mies Nainen Yhteensä Mies Nainen Yhteensä Nyt sensitiivisyys = 112/ , Spesisyys = 79/ ja 1-spesisyys = Luokittelusäännöllä jos p 2 (x) > 0.8 sijoita luokkaan 2, puolestaan sensitiivisyys = spesisyys = ja 1-spesisyys = Erottelusäännön kynnysarvoihin 0.2 ja 0.8 liittyvät diagnostiikkapisteet löytyvät ROC-käyrältä seuraavasti: monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
40 ROC käyrä Sensitiivisyys (0.043, 0.733) (0.325, 0.966) Spesifisyys Luokittelijan onnistumista kokonaisuudessan voidaan kuvata ROC-käyrän alle jäävä pinta-alan AUC (=area under the curve) avulla. Ideaalitilanteessa (täydellinen luokittelija) AUC = 1, jolloin ROC-käyrä kulkee pisteiden (0,0),(0,1) ja (1,1) kautta. monimuuttujamenetelmiin, 5 op 13. marraskuuta / 40
805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua
LisätiedotLineaariset luokittelumallit: regressio ja erotteluanalyysi
Lineaariset luokittelumallit: regressio ja erotteluanalyysi Aira Hast Johdanto Tarkastellaan menetelmiä, joissa luokittelu tehdään lineaaristen menetelmien avulla. Avaruus jaetaan päätösrajojen avulla
LisätiedotEstimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotTilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
LisätiedotMoniulotteisia todennäköisyysjakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen
LisätiedotIlkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen
Lisätiedotriippumattomia ja noudattavat samaa jakaumaa.
12.11.2015/1 MTTTP5, luento 12.11.2015 Luku 4 Satunnaisotos, otossuure ja otosjakauma 4.1. Satunnaisotos X 1, X 2,, X n on satunnaisotos, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. Sanonta
LisätiedotTilastotieteen kertaus. Kuusinen/Heliövaara 1
Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa
LisätiedotSallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,
Todennäköisyyslaskenta, 2. kurssikoe 7.2.22 Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu.. Satunnaismuuttujien X ja Y yhteistiheysfunktio on
LisätiedotTilastollinen aineisto Luottamusväli
Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut
LisätiedotHarjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotJohdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka
LisätiedotTodennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1
Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu
10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2
LisätiedotMallipohjainen klusterointi
Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio
Lisätiedottilastotieteen kertaus
tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla
Lisätiedot/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla
17.11.2016/1 MTTTP5, luento 17.11.2016 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla likimain Jos X ~ Bin(n, p), niin X ~ N(np, np(1 p)), kun n suuri. 17.11.2016/2
Lisätiedot1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x
HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 017 Harjoitus 5 Ratkaisuehdotuksia Tehtäväsarja I 1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotMoniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?
TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä
Lisätiedothttps://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014
1 MTTTP3 Tilastollisen päättelyn perusteet 2 Luennot 8.1.2015 ja 13.1.2015 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3A Satunnaismuuttujien summa ja keskihajonta Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotMTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)
21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.
Lisätiedot30A02000 Tilastotieteen perusteet
30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi
Lisätiedot/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:
4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3A Normaaliapproksimaatio Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
LisätiedotMaximum likelihood-estimointi Alkeet
Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X
Lisätiedot1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
LisätiedotTodennäköisyyden ominaisuuksia
Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset
Lisätiedot/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla
16.11.2017/1 MTTTP5, luento 16.11.2017 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla ~,, ~,,. 16.11.2017/2 Esim. Tutkittiin uuden menetelmän käyttökelpoisuutta
Lisätiedot9. laskuharjoituskierros, vko 12-13, ratkaisut
9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t
Lisätiedot7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025
26.3.2019/1 MTTTP1, luento 26.3.2019 7.4 Normaalijakauma (kertausta ja täydennystä) Z ~ N(0, 1), tiheysfunktion kuvaaja 0,5 0,4 0,3 0,2 0,1 Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96)
LisätiedotViikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu
Lisätiedot806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.
806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen
LisätiedotRegressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
LisätiedotLisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen
MTTTP5, kevät 2016 4.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen 1. Laitosneuvostoon valitaan 2 professoria, 4 muuta henkilökuntaan kuuluvaa jäsentä sekä 4 opiskelijaa. Laitosneuvostoon
LisätiedotP (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.
Yhteenveto: Satunnaisvektorit ovat kuvauksia tn-avaruudelta seillaiselle avaruudelle, johon sisältyy satunnaisvektorin kaikki mahdolliset reaalisaatiot. Satunnaisvektorin realisaatio eli otos on jokin
LisätiedotJohdatus regressioanalyysiin
Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotYhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1
Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n
LisätiedotTilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
LisätiedotOtoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden
1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma
LisätiedotJohdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Väliestimointi TKK (c) Ilkka Mellin (2005) 1 Väliestimointi Todennäköisyysjakaumien parametrien estimointi Luottamusväli Normaalijakauman odotusarvon luottamusväli Normaalijakauman
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101,
LisätiedotTeema 8: Parametrien estimointi ja luottamusvälit
Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.
LisätiedotMiten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?
21.3.2019/1 MTTTP1, luento 21.3.2019 7 TILASTOLLISEN PÄÄTTELYN PERUSTEITA Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
Lisätiedot/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:
2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2
LisätiedotRegressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen
LisätiedotTodennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3
Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Aiheet: Satunnaisvektorit ja moniulotteiset jakaumat Tilastollinen riippuvuus ja lineaarinen korrelaatio Satunnaisvektorit ja moniulotteiset
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
LisätiedotEstimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio
17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla
Lisätiedot0 3 y4 dy = 3 y. 15x 2 ydx = 15. f Y (y) = 5y 4 1{0 y 1}.
HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 18 Harjoitus Ratkaisuehdotuksia Tehtäväsar I 1. Satunnaismuuttujilla X Y on tkuva yhteiskauma yhteistiheysfunktiolla f
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3
LisätiedotJatkuvat satunnaismuuttujat
Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään
LisätiedotLuento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja
1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti
LisätiedotMat Sovellettu todennäköisyyslasku A
TKK / Systeemianalyysin laboratorio Nordlund Mat-.090 Sovellettu todennäköisyyslasku A Harjoitus 7 (vko 44/003) (Aihe: odotusarvon ja varianssin ominaisuuksia, satunnaismuuttujien lineaarikombinaatioita,
LisätiedotJohdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2005) 1 Johdatus regressioanalyysiin Regressioanalyysin lähtökohdat ja tavoitteet Deterministiset mallit ja regressioanalyysi
Lisätiedot1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet
VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka
LisätiedotJohdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
Lisätiedotl (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on
HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka
LisätiedotHarha mallin arvioinnissa
Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö
LisätiedotJohdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
Lisätiedot7. laskuharjoituskierros, vko 10, ratkaisut
7. laskuharjoituskierros, vko 10, ratkaisut D1. a) Oletetaan, että satunnaismuuttujat X ja Y noudattavat kaksiulotteista normaalijakaumaa parametrein E(X) = 0, E(Y ) = 1, Var(X) = 1, Var(Y ) = 4 ja Cov(X,
Lisätiedot6. laskuharjoitusten vastaukset (viikot 10 11)
6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287
LisätiedotMoniulotteiset satunnaismuuttujat ja jakaumat
Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat KE (2014) 1 Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat >> Kaksiulotteiset
LisätiedotAalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,
Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 017 Laskuharjoitus 4, Kotitehtävien palautus Mycourses:iin PDF-tiedostona
LisätiedotTutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
LisätiedotKäytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:
8.1 Satunnaismuuttuja Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella: Esim. Nopanheitossa (d6) satunnaismuuttuja X kertoo silmäluvun arvon. a) listaa kaikki satunnaismuuttujan arvot b)
Lisätiedot8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH
8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH Osa aikasarjoista kehittyy hyvin erityyppisesti erilaisissa tilanteissa. Esimerkiksi pörssikurssien epävakaus keskittyy usein lyhyisiin
LisätiedotTilastollisen päättelyn perusteet
Tilastollisen päättelyn perusteet Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Motivointiako? opiskelijoiden, jotka kammoavat matematiikkaa tai eivät katso ehtivänsä tai haluavansa
LisätiedotOletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen
Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä
LisätiedotEpäyhtälöt ovat yksi matemaatikon voimakkaimmista
6 Epäyhtälöitä Epäyhtälöt ovat yksi matemaatikon voimakkaimmista työvälineistä. Yhtälö a = b kertoo sen, että kaksi ehkä näennäisesti erilaista asiaa ovat samoja. Epäyhtälö a b saattaa antaa keinon analysoida
Lisätiedot10 Moniulotteinen normaalijakauma
10 Moniulotteinen normaalijakauma Tässä luvussa tarkastellaan normaalijakauman moniulotteista yleistystä eli moniulotteista (eli monimuuttujaista) normaalijakaumaa (engl. multivariate normal distribution).
LisätiedotKoska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.
24.11.2006 1. Oletetaan, että kaksiulotteinen satunnaismuuttuja µ noudattaa kaksiulotteista normaalijakaumaa. Oletetaan lisäksi, että satunnaismuuttujan regressiofunktio satunnaismuuttujan suhteen on ݵ
LisätiedotPylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.
Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 8.8% 8.9%.%.% 9.7%.7% Etelä Länsi Itä Oulu Lappi Ahvenanmaa Länsi Etelä Itä Oulu Lappi Ahvenanmaa Läänien
LisätiedotTilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1
Tilastolliset menetelmät Osa 1: Johdanto Johdanto tilastotieteeseen KE (2014) 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä ja malleja, joiden avulla reaalimaailman ilmiöistä voidaan
LisätiedotGripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta
MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,
LisätiedotMat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:
Mat-.9 Sovellettu todennäköisyyslasku A Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Moniulotteiset jakaumat Diskreetti jakauma, Ehdollinen jakauma, Ehdollinen odotusarvo, Jatkuva
LisätiedotOtoskoko 107 kpl. a) 27 b) 2654
1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää
Lisätiedot2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2
HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 208 Harjoitus 4 Ratkaisuehdotuksia Tehtäväsarja I. Satunnaismuuttuja U Exp(2) ja V = U/(3 + U). Laske f V käyttämällä muuttujanvaihtotekniikkaa.
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotTestejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
LisätiedotIlkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio
Ilkka Mellin Todennäköisyyslaskenta Osa : Satunnaismuuttujat ja todennäköisyysjakaumat Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (7) 1 Momenttiemäfunktio ja karakteristinen funktio
LisätiedotMallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL
Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän
LisätiedotP(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
Lisätiedot