805306A Johdatus monimuuttujamenetelmiin, 5 op

Samankaltaiset tiedostot
805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastollinen aineisto Luottamusväli

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Harjoitus 2: Matlab - Statistical Toolbox

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

riippumattomia ja noudattavat samaa jakaumaa.

9. laskuharjoituskierros, vko 12-13, ratkaisut

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

tilastotieteen kertaus

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Teema 8: Parametrien estimointi ja luottamusvälit

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Mallipohjainen klusterointi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

pitkittäisaineistoissa

Maximum likelihood-estimointi Alkeet

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Todennäköisyyden ominaisuuksia

dx=5&uilang=fi&lang=fi&lvv=2014

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Moniulotteisia todennäköisyysjakaumia

Mat Sovellettu todennäköisyyslasku A

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Regressioanalyysi. Vilkkumaa / Kuusinen 1

1. Tilastollinen malli??

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus regressioanalyysiin

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

pitkittäisaineistoissa

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Otoskoko 107 kpl. a) 27 b) 2654

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

30A02000 Tilastotieteen perusteet

Sovellettu todennäköisyyslaskenta B

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

1. TILASTOLLINEN HAHMONTUNNISTUS

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Uskottavuuden ominaisuuksia

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Väliestimointi (jatkoa) Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Harha mallin arvioinnissa

8.1 Ehdolliset jakaumat

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Tilastollisen päättelyn perusteet

2. Uskottavuus ja informaatio

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Transkriptio:

monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos

Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista X 1,..., X p sellainen yhdistelmä (matemaattinen funktio), joka parhaiten erottelisi vastemuuttujan Y eri luokat toisistaan Vastemuuttuja Y voi olla joko kaksi- tai useampiluokkainen (K 2) Selittäjien oletetaan usein noudattavan ns. multinormaalijakaumaa Analyysin perusideana on mallittaa selittäjien X (yhteis)jakauma erikseen jokaisessa vastemuuttujan luokassa ja käyttää sen jälkeen ns. Bayesin kaavaa estimoitaessa todennäköisyyttä P(Y = k X = x) monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 2 / 17

Olkoon π k (k = 1,..., K) kokonaistodennäköisyys tai ns. priori sille, että satunnaisesti valittu havainto kuuluu vastemuuttujan luokkaan k. f k (X ) = P(X = x Y = k) X :n (yhteis)tiheysfunktio havainnolle, joka tulee vasteen luokasta k. Tällöin f k (x) saa suhteellisen suuria arvoja silloin, kun luokan k havainnolla on suuri todennäköisyys sille, että selittävien muuttujien arvoilla X x Vastaavasti fk (x) saa suhteellisen pieniä arvoja silloin, kun luokan k havainnolla on pieni todennäköisyys sille, että selittävien muuttujien arvoilla X x monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 3 / 17

Bayesin kaavan mukaan p k (x) = P(Y = k X = x) = π kf k (x) K π l f l (x) l=1 (1) Bayesin kaavassa (1) esitettyä todennäköisyyttä p k (x) = P(Y = k X = x) sanotaan ns. posterioritodennäköisyydeksi Posterioritodennäköisyys kuvaa selittävien muuttujien arvot X = x omaavan havaintoyksikön todennäköisyyttä (tai todennäköisyystiheyttä) kuulua vasteen luokkaan k monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 4 / 17

Todennäköisyyksien πk estimointi on helppoa, jos havaintoaineisto on kerätty perusjoukosta yksinkertaisella satunnaisotannalla. Tällöin π k = n k /n, missä n k = vastemuuttujan Y luokkaan k kuuluvien havaintojen lukumäärä ja n = n 1 + n 2 +... + n K = havaintojen kokonaislukumäärä. X :n tiheysfunktion f k (x) estimointi on haastavampaa, joten tiheysfunktion muodosta tehdään yleensä ainakin joitakin yksinkertaistavia oletuksia Tiheysfunktioiden fk (x) ja priorien π k estimoinnin jälkeen voimme arvioida posterioritodennäköisyyksiä ja muodostaa luokittelusäännön, jonka avulla kukin havaintoyksikkö voidaan luokitella tai ennustaa kuuluvaksi vasteen tiettyyn luokkaan monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 5 / 17

Lineaarinen erotteluanalyysi: yksi selittäjä Oletetaan seuraavaksi, että K-luokkaista vastemuuttujaa Y selitetään yhdellä jatkuvalla selittäjällä X. Lineaarisen erotteluanalyysin keskeisimmät vaiheet ovat: Estimoidaan tiheysfunktiot fk (x) ja priorit π k (k = 1,..., K) Sijoitetaan saadut estimaatit Bayesin kaavaan (1), jotta saamme estimaatit posterioritodennäköisyyksille p k (x) Luokitellaan kukin havainto siihen luokkaan, jossa havaintoon liittyvä p k (x) on suurin Oletetaan seuraavaksi, että luokassa k (k = 1,..., K ) selittävä muuttuja X noudattaa normaalijakaumaa eli X N(µ k, σ 2 k ). monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 6 / 17

Tällöin X :n tiheysfunktio luokassa k on muotoa ( ) 1 f k (x) = exp 1 (x µ 2πσk 2σk 2 k ) 2, (2) missä µ k ja σk 2 luokassa k. ovat muuttujan X odotusarvo ja varianssi vasteen Oletetaan lisäksi, että σ 2 1 =... = σ2 K = σ2 (vakiovarianssioletus). Sijoittamalla kaavassa (2) esitetty tiheysfunktio f k (x) Bayesin kaavaan (1), saadaan posterioritodennäköisyys esitettyä muodossa p k (x) = π ( 1 k exp 2πσ 1 (x µ 2σ 2 k ) 2) K l=1 π ( 1 l exp 2πσ 1 (3) (x µ 2σ 2 l ) 2) monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 7 / 17

Ns. Bayes-luokittelija luokittelee selittäjän arvon X = x omaavan havainnon siihen luokkaan, jossa posterioritodennäköisyys on suurin. Edellä esitetty luokittelusääntö voidaan esittää myös yhtäpitävästi siten, että selittäjän X arvon x omaava havainto luokitellaan siihen luokkaan, jossa saa suurimman arvon. δ k (x) = x µk σ 2 µ2 k 2σ 2 + log(π k) (4) Jos esimerkiksi vaste on kaksiarvoinen (K = 2) ja π1 = π 2, Bayes luokittelija luokittelee havainnon luokkaan 1, jos 2x(µ 1 µ 2 ) > µ 2 1 µ 2 2 ja muulloin havainto luokitellaan luokkaan 2. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 8 / 17

Jotta luokittelusääntöjä (3) ja (4) voitaisiin soveltaa käytännössä, tuntemattomat parametrit µ 1,..., µ K, π 1,..., π K ja σ 2 täytyy estimoida havaintoaineiston informaation perusteella. Parametrien estimoinnissa voidaan käyttää seuraavia estimaattoreita: µ k = 1 n k i:y i =k σ 2 = 1 n K x i K ja (x i µ k ) 2 (5) k=1 i:y i =k Yllä n k = luokkaan k kuuluvien havaintojen lkm ja n = havaintojen kokonaislukumäärä. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 9 / 17

Selittäjän X luokkakohtaisia odotusarvoja µ k (k = 1,..., K) estimoidaan siis luokkakohtaisten keskiarvojen avulla ja varianssin σ 2 estimaattori σ 2 on painotettu keskiarvo luokkakohtaisista otosvariansseista. Kun esimerkiksi K = 2, saadaan σ 2 kirjoitettua muodossa σ 2 = (n 1 1)S 2 1 + (n 2 1)S 2 2 n 2 missä luokissa 1 ja 2 otosvarianssi lasketaan tavanomaisella kaavalla Sk 2 = 1 n k n k (x 1 1 µ k ) 2 i=1 Jos priorit π 1,..., π K tunnetaan etukäteen, ko. todennäköisyyksiä voidaan luonnollisesti hyödyntää suoraan luokittelussa., monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 10 / 17

Jos taas priorit ovat tuntemattomia, ne voidaan estimoida jo aiemmin esitetyllä periaatteella π k = n k n (6) Lineaarisen erotteluanalyysin luokittelussa kaavoilla (5) ja (6) saadut estimaatit sijoitetaan kaavassa (4) esiteltyyn erottelusääntöön, jolloin saadaan δ k (x) = x µ k σ 2 µ2 k 2 σ 2 + log( π k) (7) Näiden ns. erottelufunktioiden δ k (x) perusteella havainto, jonka arvo muuttujalla X = x, luokitellaan siihen luokkaan k (k = 1,..., K), jossa erottelufunktio saa suurimman arvon. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 11 / 17

Esimerkki Erääseen havaintoaineistoon (n = 233) kuuluu 30-vuotiaita aikuisia, joista 117 on miehiä ja loput 116 naisia. Seuraavassa pistekuviossa on esitetty miesten ja naisten pituuksien jakaumat: Sukupuoli Mies Nainen 140 150 160 170 180 190 200 Pituus (cm) monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 12 / 17

Analysoidaan aineistoa lineaarisen erotteluanalyysin avulla ja pyritään luokittelemaan/ennustamaan aineistoon kuuluvien henkilöiden sukupuoli pituuden avulla. Havaintoaineistosta lasketut sukupuolittaiset keskiarvot ja keskihajonnat ovat: Sukupuoli- Havaintojen Keski- Keskiluokka lukumäärä arvo hajonta Mies (1) 117 178.22 6.71 Nainen (2) 116 163.90 5.82 Oletetaan, että miesten pituus noudattaa N(µ 1, σ 2 )-jakaumaa ja että naisten pituus noudattaa N(µ 2, σ 2 )-jakaumaa. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 13 / 17

Jakaumien tuntemattomien parametrien µ 1, µ 2 ja σ 2 sekä priorien π 1 ja π 2 estimaateiksi saadaan: µ 1 = X 1 = 178.22 µ 2 = X 2 = 163.90 σ 2 = S 2 = (n 1 1)S 2 1 + (n 2 1)S 2 2 n 2 = (117 1) 6.712 + (116 1) 5.82 2 233 2 39.47 6.28 2 π 1 = n 1 /n = 117/233 0.502 π 2 = n 2 /n = 116/233 0.498 monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 14 / 17

Seuraavassa kuvassa on esitetty miesten ja naisten pituusjakaumien tiheysfunktioiden estimaatit ja pituuden havaintoarvot aineistossa. Miehet Naiset 140 150 160 170 180 190 200 monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 15 / 17

Erottelufunktioiden δ k (x) = x µ k µ2 k + log( π σ 2 2 σ 2 k ), missä k = 1, 2, arvoiksi 177 cm pitkälle henkilölle saadaan: δ 1 (177) = 177 µ 1 σ 2 µ2 1 2 σ 2 + log( π 1) = 177 178.22 6.28 2 178.222 2 6.28 2 + log(0.502) 397.86 δ 2 (177) = 177 µ 2 σ 2 µ2 2 2 σ 2 + log( π 2) = 177 163.90 6.28 2 163.902 2 6.28 2 + log(0.498) 395.71 Nyt siis δ 1 (177) > δ 2 (177), joten kyseinen henkilö luokitellaan kuuluvaksi luokkaan 1 eli mieheksi. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 16 / 17

Seuraava kuva havainnollistaa vielä edellä esitellyn päätäntäsäännön käyttäytymistä havaintoaineistossa. Musta katkoviivan vasemmalle puolelle kuuluvat havainnot luokitellaan kuuluvaksi luokkaan 2 eli naisiksi ja oikealle puolelle kuuluvat havainnot luokkaan 1 eli miehiksi. Miehet Naiset 140 150 160 170 180 190 200 monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 17 / 17