Laskennallinen data-analyysi II

Koko: px
Aloita esitys sivulta:

Download "Laskennallinen data-analyysi II"

Transkriptio

1 Laskennallinen data-analyysi II Patrik Hoyer Epävarmuuden mallintaminen

2 LDA II, osa 3: epävarmuuden mallintaminen Luennot (16.4 ja 17.4) - ongelma, menetelmät, esimerkkejä (kalvot verkossa 17.4 illalla) Lukemista - seuraavalla kalvolla Harjoitustehtävät - kurssin kotisivulla 17.4 illalla; käydään läpi laskemista, ymmärtämistä Projektityö - kurssin kotisivulla viimeistään 20.4 illalla, viimeinen palautuspäivä käytännön kokeilemista Matlabissa 2

3 Lukemista (LDA II, osa 3) Bootstrap-menetelmästä: Erityisesti osat tekstistä: Bayesiläisestä mallintamisesta: Kappale 28 (tosin ei osaa 28.3) ilmaiseksi ladattavasta kirjasta: Hakekaa/printatkaa nämä heti; jos ilmenee jotain teknisiä tai muita ongelmia ottakaa viipymättä yhteyttä minuun: 3

4 Huom: Kurssikoe 5.5 LDA II kurssikoe maanantaina 5.5. klo salissa B123. (huom: siirrettiin kurssin alussa alkuperäisestä aikataulusta!) Kurssikoe arvostellaan vain jos kaikki kolme projektityötä palautetaan ajallaan. Koemateriaalina ovat luentokalvot ja erikseen annettu oheismateriaali, sekä kurssin harjoitustehtävät ja -ratkaisut. 4

5 Epävarmuus luokittelussa? Havaittu joukko pisteitä, kuuluvat kahteen eri luokkaan 5

6 Epävarmuus luokittelussa? Havaittu joukko pisteitä, kuuluvat kahteen eri luokkaan Mihin luokkaan uusi (musta) piste kuuluu? Kuinka varma olet? 6

7 Epävarmuus luokittelussa? Havaittu joukko pisteitä, kuuluvat kahteen eri luokkaan Mihin luokkaan uusi (musta) piste kuuluu? Kuinka varma olet? Entäs nyt? 7

8 Epävarmuus luokittelussa? Havaittu joukko pisteitä, kuuluvat kahteen eri luokkaan Mihin luokkaan uusi (musta) piste kuuluu? Kuinka varma olet? Entäs nyt? Entäs nyt? 8

9 Epävarmuus luokittelussa? Havaittu joukko pisteitä, kuuluvat kahteen eri luokkaan Mihin luokkaan uusi (musta) piste kuuluu? Kuinka varma olet? Entäs nyt? Entäs nyt? 9

10 Syöpää vai ei? Olette vastuussa menetelmästä joka tulostaa syöpää/terve röntgenkuvien perusteella 10

11 Syöpää vai ei? Olette vastuussa menetelmästä joka tulostaa syöpää/terve röntgenkuvien perusteella Olisiko hyödyllistä jos menetelmä ilmaisisi kun se ei ole varma? 11

12 Syöpää vai ei? Olette vastuussa menetelmästä joka tulostaa syöpää/terve röntgenkuvien perusteella Olisiko hyödyllistä jos menetelmä ilmaisisi kun se ei ole varma? Vaikka tehtävän speksit vaativat binäärisen tuloksen joka kuvalle, kannattaa ehkä ottaa huomioon erityyppisten virheiden seuraukset (esim voi olla hyvä sanoa terve vain kun on todella varma asiasta!) 12

13 Päätösteoria..., mikä on paras piste- Annettuna jakauma estimaatti y :lle? P (y x) 13

14 Päätösteoria..., mikä on paras piste- Annettuna jakauma estimaatti y :lle? P (y x) Yleisemmin, miten tehdä optimaalisia päätöksiä epävarmuuden vallitessa? 14

15 Päätösteoria..., mikä on paras piste- Annettuna jakauma estimaatti y :lle? P (y x) Yleisemmin, miten tehdä optimaalisia päätöksiä epävarmuuden vallitessa? Keskeinen käsite: tappiofunktio (loss function) tai hyötyfunktio (utility function) 15

16 Päätösteoria..., mikä on paras piste- Annettuna jakauma estimaatti y :lle? P (y x) Yleisemmin, miten tehdä optimaalisia päätöksiä epävarmuuden vallitessa? Keskeinen käsite: tappiofunktio (loss function) tai hyötyfunktio (utility function) Optimaalinen päätös määritellään niin että se minimoi odotetun tappion 16

17 Esim: Luokittelu - Röntgenkuvien perusteella diagnosoidaan syöpää. Jos potilas on terve mutta diagnoosi on syöpä niin se aiheuttaa stressiä ja lisätutkimuksia. Mutta jos potilaalla on syöpä ja todetaan terveeksi niin hoito viivästyy ja lopputuloksena potilas saattaa kuolla... syöpä diagnoosi terve oikeasti syöpä terve tappiomatriisi L(y, ŷ) 17

18 Jos halutaan minimoida odotusarvoinen tappio niin tällä tappiomatriisilla kannattaa valita arvio syöpä aina kun syövän todennäköisyys on suurempi kuin 5% (tarkka arvo: harjoitustehtävä) 18

19 Jos halutaan minimoida odotusarvoinen tappio niin tällä tappiomatriisilla kannattaa valita arvio syöpä aina kun syövän todennäköisyys on suurempi kuin 5% (tarkka arvo: harjoitustehtävä) Eli todennäköisin luokka ei välttämättä aina ole paras valinta! 19

20 Regressio - Tappiofunktiolla L(y, ŷ) nyt jatkuva-arvoiset argumentit - Usein muotoa L(y, ŷ) = f(y ŷ) - Neliöllinen tappio L(y, ŷ) = (y ŷ) 2 minimoituu kun valitaan piste-estimaatiksi ehdollinen odotusarvo, eli ŷ = E{y x}. - Absoluuttinen- tai itseisarvo-tappio L(y, ŷ) = y ŷ minimoituu kun valitaan ehdollinen mediaani t y(x) y(x 0 ) p(t x 0 ) x 0 x 20

21 Käsinkirjoitettujen merkkien tunnistaminen Mitäs alla lukee? 21

22 Käsinkirjoitettujen merkkien tunnistaminen Mitäs alla lukee? Entäs tässä? Onko viides merkki G vai 6? Riippuu kontekstista. Voi olla hyvä eksplisiittisesti ilmaista siihen liittyvä epävarmuus ja yhdistää kontekstitieto lopullisen arvauksen tekemiseen. 22

23 Kasvojentunnistus Onko tämä sama henkilö? 23

24 Kasvojentunnistus Onko tämä sama henkilö? Voi olla viisasta antaa ulos jonkunlainen todennäköisyys, jotta tiedon pohjalta voidaan tehdä järkeviä päätöksiä! 24

25 Regressio: epävarmuuden mallintaminen... Oikealla oleva datajoukko mallinnetaan mallilla y = f(x) + n y x 25

26 Regressio: epävarmuuden mallintaminen... Oikealla oleva datajoukko mallinnetaan mallilla y = f(x) + n Liian monimutkainen malli johtaa ylisovittamiseen y x 26

27 Regressio: epävarmuuden mallintaminen... Oikealla oleva datajoukko mallinnetaan mallilla y = f(x) + n Liian monimutkainen malli johtaa ylisovittamiseen Liian yksinkertainen malli ei pysty kuvaamaan dataa y x 27

28 Regressio: epävarmuuden mallintaminen... Oikealla oleva datajoukko mallinnetaan mallilla y = f(x) + n Liian monimutkainen malli johtaa ylisovittamiseen Liian yksinkertainen malli ei pysty kuvaamaan dataa Oikea monimutkaisuus voidaan löytää esim ristiinvalidoinnilla y x 28

29 Regressio: epävarmuuden mallintaminen... Oikealla oleva datajoukko mallinnetaan mallilla y = f(x) + n Liian monimutkainen malli johtaa ylisovittamiseen Liian yksinkertainen malli ei pysty kuvaamaan dataa Oikea monimutkaisuus voidaan löytää esim ristiinvalidoinnilla Löydetty malli antaa prediktiivisen todennäköisyyden p(y x) y x 29

30 Regressio: epävarmuuden mallintaminen... Oikealla oleva datajoukko mallinnetaan mallilla y = f(x) + n Liian monimutkainen malli johtaa ylisovittamiseen Liian yksinkertainen malli ei pysty kuvaamaan dataa y Oikea monimutkaisuus voidaan löytää esim ristiinvalidoinnilla Löydetty malli antaa prediktiivisen todennäköisyyden p(y x) Mutta intuitiivisesti voisi olettaa että olemme epävarmempia siellä missä datapisteitä on vähän! (Kurssilla tähän asti käsitellyt menetelmät eivät ota tätä huomioon.) x 30

31 Ilmaston lämpeneminen... Jos ennustetaan ilmastoa kymmenen vuoden päähän epävarmuutta on huomattavasti vähemmän kuin sadan vuoden päähän... 31

32 Epävarmuutta ryvästämisessä Oikealla olevassa datassa on aika selkeästi kaksi erillistä pistejoukkoa x 2 x 1 32

33 Epävarmuutta ryvästämisessä Oikealla olevassa datassa on aika selkeästi kaksi erillistä pistejoukkoa x 2 x 1 Mites tässä? Jos esim tiedetään että data koostuu jostain eliöistä ja saattaa olla useita lajeja voi olla hyvä kysymys onko niitä kaksi vai kolme... x 2 Emme halua vain yhtä vastausta. Halutaan myös ilmaista epävarmuus! x 1 33

34 Epävarmuuden mallintaminen... Intuitiivisesti selvää kun data voidaan helposti visualisoida... y x 2 x x 1 34

35 Epävarmuuden mallintaminen... Intuitiivisesti selvää kun data voidaan helposti visualisoida... y x 2 x x 1...mutta entäs realistisissa data-analyysi-ongelmissa? x i P (y = y 1 x i ) 35

36 Luokittelu Jos tiedettäisiin jakaumat niin mitään ongelmaa ei olisi (katso LDA-I, viikko 2): P (Y = y 1 ) P (X = x Y = y 1 ) P (Y = y 2 ) P (X = x Y = y 2 ) on ensimmäisen luokan a priori todennäköisyys on ensimmäisen luokan jakauma on toisen luokan a priori todennäköisyys on toisen luokan jakauma Näistä voidaan laskea P (Y = y 1 X = x) Bayesin kaavalla. 36

37 ...mutta yleensä pitää oppia datapisteistä. Kaksi ratkaisua tulee heti mieleen: - Estimoidaan ensin jakaumat, sitten lasketaan kuten ne olisivat oikeat jakaumat (esim Gaussiset jakaumat) 37

38 ...mutta yleensä pitää oppia datapisteistä. Kaksi ratkaisua tulee heti mieleen: - Estimoidaan ensin jakaumat, sitten lasketaan kuten ne olisivat oikeat jakaumat (esim Gaussiset jakaumat) - Käytetään heuristisia menetelmiä, mitä luokkia löytyy ennustettavan pisteen läheltä? (esim knn) 38

39 k-lähimmän naapurin luokittelija knn-luokittelijaa voi helposti muuttaa antamaan ulos luokkatodennäköisyyksiä: P (y = y i x j ) = k i k jossa on niiden esimerkkivektorien lukumäärä jotka kuuluvat x j :n k :n lähimmän naapurin joukkoon ja jotka edustavat luokkaa Esim: k = 4 y i oikeassa oleva tapaus: P (y = punainen x j ) = 3/4 P (y = vihreä x j ) = 1/4 (tässä siis euklidinen etäisyys käytetty, muut tietysti mahdollisia) x j 39

40 knn:n käyttäminen jakauman estimointiin on aika ad-hoc? 40

41 knn:n käyttäminen jakauman estimointiin on aika ad-hoc? - Tietyin oletuksin asymptoottisesti optimaalinen 41

42 knn:n käyttäminen jakauman estimointiin on aika ad-hoc? - Tietyin oletuksin asymptoottisesti optimaalinen - Yhtä ad-hoc kuin knn:n käyttäminen parhaimman luokan estimointiin 42

43 knn:n käyttäminen jakauman estimointiin on aika ad-hoc? - Tietyin oletuksin asymptoottisesti optimaalinen - Yhtä ad-hoc kuin knn:n käyttäminen parhaimman luokan estimointiin Pitäisikö todennäköisyydet jotenkin kalibroida tai pehmentää? (Esim pienellä k:n arvolla, vaikka jostain luokasta ei lainkaan edustajia, tuskin luokan todennäköisyys nyt ihan nolla on kuitenkaan?) 43

44 knn:n käyttäminen jakauman estimointiin on aika ad-hoc? - Tietyin oletuksin asymptoottisesti optimaalinen - Yhtä ad-hoc kuin knn:n käyttäminen parhaimman luokan estimointiin Pitäisikö todennäköisyydet jotenkin kalibroida tai pehmentää? (Esim pienellä k:n arvolla, vaikka jostain luokasta ei lainkaan edustajia, tuskin luokan todennäköisyys nyt ihan nolla on kuitenkaan?) Ei aina seuraa intuitiota täysin, esim kaukana opetusdatasta voi olla turhan varma: 44

45 Naive Bayes -luokittelija Generatiivinen lähestymistapa, eli estimoidaan malli luokkajakaumille 45

46 Naive Bayes -luokittelija Generatiivinen lähestymistapa, eli estimoidaan malli luokkajakaumille Naive oletus: jokaisessa luokkajakaumassa datan dimensiot toisistaan riippumattomat 46

47 Naive Bayes -luokittelija Generatiivinen lähestymistapa, eli estimoidaan malli luokkajakaumille Naive oletus: jokaisessa luokkajakaumassa datan dimensiot toisistaan riippumattomat Kun jakaumat estimoitu, suoraviivaista laskea uuden pisteen todennäköisyyttä kuulua kuhunkin luokkaan (katso LDA-I viikko 2) 47

48 Naive Bayes -luokittelija Generatiivinen lähestymistapa, eli estimoidaan malli luokkajakaumille Naive oletus: jokaisessa luokkajakaumassa datan dimensiot toisistaan riippumattomat Kun jakaumat estimoitu, suoraviivaista laskea uuden pisteen todennäköisyyttä kuulua kuhunkin luokkaan (katso LDA-I viikko 2) Tulosta todennäköisyydet, älä ainoastaan todennäköisintä luokkaa... 48

49 Entäs regressio? Tavallinen lineaarinen regressio, jossa estimoidaan vain yksi funktio ŷ = f(x), ei anna minkäänlaista tietoa epävarmuudesta knn-menetelmää voisi periaatteessa käyttää, mutta vaatii lisää ad-hoc virityksiä (esim naapureista lasketaan keskiarvo ja myös varianssi), eikä käytännössä toimi kovinkaan hyvin y x 49

50 Entäs ryvästäminen? Kaksi vai kolme lajia? Kuinka todennäköiset nämä vaihtoehdot ovat? x 2...Tähän ongelmaan emme ole toistaiseksi esittäneet minkäänlaista ratkaisua vielä! x 1 50

51 Uudelleenotanta ja bootstrap Abstrakti ongelma: - On olemassa joku jakauma tai P (x) P (x, y) 51

52 Uudelleenotanta ja bootstrap Abstrakti ongelma: - On olemassa joku jakauma tai - Nähdään siitä vain N pistettä tai P (x) P (x, y) x i (x i, y i ) 52

53 Uudelleenotanta ja bootstrap Abstrakti ongelma: - On olemassa joku jakauma P (x) tai P (x, y) - Nähdään siitä vain N pistettä x i tai (x i, y i ) - Tehdään joku analyysi näiden pisteiden perusteella, saadaan joku tulos 53

54 Uudelleenotanta ja bootstrap Abstrakti ongelma: - On olemassa joku jakauma tai - Nähdään siitä vain N pistettä tai P (x) P (x, y) x i (x i, y i ) - Tehdään joku analyysi näiden pisteiden perusteella, saadaan joku tulos - Kysymys: Onko tulos luotettava? Johtuiko se alla olevasta jakaumasta vai ainoastaan meidän näkemästämme pistejoukosta? 54

55 Uudelleenotanta ja bootstrap Abstrakti ongelma: - On olemassa joku jakauma tai - Nähdään siitä vain N pistettä tai P (x) P (x, y) x i (x i, y i ) - Tehdään joku analyysi näiden pisteiden perusteella, saadaan joku tulos - Kysymys: Onko tulos luotettava? Johtuiko se alla olevasta jakaumasta vai ainoastaan meidän näkemästämme pistejoukosta? - Jos meillä olisi toiset N pistettä samasta jakaumasta, tulisiko sama tulos? Kuinka varmasti? 55

56 Uudelleenotannan idea (intuitiivisesti) Olkoon meillä i.i.d. otos {x i, y i } jostain jakaumasta p(x, y). Yritetään esim arvioida onko muuttujilla korrelaatio (eli siis onko jakaumassa korrelaatio). y?? x 56

57 Uudelleenotannan idea (intuitiivisesti) Olkoon meillä i.i.d. otos {x i, y i } jostain jakaumasta p(x, y). Yritetään esim arvioida onko muuttujilla korrelaatio (eli siis onko jakaumassa korrelaatio). Intuitiivinen idea: otetaan otoksia x otoksesta ( uudelleenotanta ) ja katsotaan kuinka paljon tulos vaihtelee. Alla data jaettu kolmeen osaan: y?? y x x x 57

58 Intuitiivisesti, jos data jaetaan M osaan, tehdään analyysi jokaiselle osalle erikseen, ja jos tulos on (melkein) aina sama kuin tulos koko datalle, voidaan olla aika varmoja siitä että tulos on luotettava (ainakin jos M iso)! 58

59 Intuitiivisesti, jos data jaetaan M osaan, tehdään analyysi jokaiselle osalle erikseen, ja jos tulos on (melkein) aina sama kuin tulos koko datalle, voidaan olla aika varmoja siitä että tulos on luotettava (ainakin jos M iso)! Riittävä, muttei kuitenkaan välttämätön ehto! 59

60 Bootstrap uudelleenotanta Olkoon annettuna datajoukko X = {x 1,..., x N }. Voimme tuottaa uuden datajoukon X B poimimalla (takaisinpanolla) N pistettä joukosta X, jolloin jotkut pisteet tulevat monta kertaa valituksi, toiset jäävät pois. Tämä prosessi toistetaan L kertaa jolloin meillä on L datajoukkoa jonka jokaisen koko on N. Estimaattien tilastollista luotettavuutta voidaan nyt arvioida tarkastamalla estimaattien jakaumaa bootstrapdatajoukkojen yli [Tässä ei käsitellä bootstrapin teoriaa tarkemmin, tarkoitus on pikemmin antaa intuitiivinen ymmärrys.] 60

61 Bootstrap regressio-ongelmaan Otetaan alkuperäinen data y x 61

62 Bootstrap regressio-ongelmaan Otetaan alkuperäinen data Arvotaan uusi bootstrapdata (poimitaan palauttaen) y x 62

63 Bootstrap regressio-ongelmaan Otetaan alkuperäinen data Arvotaan uusi bootstrapdata (poimitaan palauttaen) Sovitetaan siihen käyrä y x 63

64 Bootstrap regressio-ongelmaan Otetaan alkuperäinen data Arvotaan uusi bootstrapdata (poimitaan palauttaen) Sovitetaan siihen käyrä Tehdään uudestaan... y x 64

65 Bootstrap regressio-ongelmaan Otetaan alkuperäinen data Arvotaan uusi bootstrapdata (poimitaan palauttaen) Sovitetaan siihen käyrä Tehdään uudestaan......ja uudestaan yhteensä L kertaa. Saadaan joukko käyriä. y x 65

66 Bootstrap regressio-ongelmaan Otetaan alkuperäinen data Arvotaan uusi bootstrapdata (poimitaan palauttaen) Sovitetaan siihen käyrä Tehdään uudestaan......ja uudestaan yhteensä L kertaa. Saadaan joukko käyriä. y Kukin yksittäinen käyrä edustaa yhtä mahdollista mallia. Huomatkaa että ne poikkeavat toisistaan eniten siellä missä dataa on vähän (data ei siellä sido mallia), olemme siellä siis epävarmempia mallista ja näin ollen myös y:n arvosta, annettuna x. x 66

67 Bootstrap luokittelu-ongelmaan Otetaan alkuperäinen data x 2 x 1 67

68 Bootstrap luokittelu-ongelmaan Otetaan alkuperäinen data Arvotaan uusi bootstrapdata (poimitaan palauttaen) x x 1 68

69 Bootstrap luokittelu-ongelmaan Otetaan alkuperäinen data Arvotaan uusi bootstrapdata (poimitaan palauttaen) Sovitetaan siihen luokitin (malli) x 2 90% 50% 90% x 1 69

70 Bootstrap luokittelu-ongelmaan Otetaan alkuperäinen data Arvotaan uusi bootstrapdata (poimitaan palauttaen) x 2 Sovitetaan siihen luokitin (malli) Tehdään L kertaa, saadaan joukko malleja x 1 70

71 Bootstrap luokittelu-ongelmaan Otetaan alkuperäinen data Arvotaan uusi bootstrapdata (poimitaan palauttaen) x 2 90% 50% Sovitetaan siihen luokitin (malli) Tehdään L kertaa, saadaan joukko malleja Kukin yksittäinen käyrä edustaa yhtä mahdollista mallia. Huomatkaa että ne poikkeavat toisistaan eniten siellä missä dataa on vähän (data ei siellä sido mallia), olemme siellä siis epävarmempia mallista ja näin ollen myös luokasta, annettuna uusi havainto (x 1, x 2 ). 90% x 1 71

72 Bootstrap ryvästämiseen... Kaksi vai kolme lajia? Kuinka todennäköiset nämä vaihtoehdot ovat? x 2 x 1 72

73 Bootstrap ryvästämiseen... Kaksi vai kolme lajia? Kuinka todennäköiset nämä vaihtoehdot ovat? Arvotaan uusi bootstrapdata (poimitaan palauttaen) 2 3 x x 1 73

74 Bootstrap ryvästämiseen... Kaksi vai kolme lajia? Kuinka todennäköiset nämä vaihtoehdot ovat? Arvotaan uusi bootstrapdata (poimitaan palauttaen) Tehdään ryvästäminen 2 3 x 2 2 x

75 Bootstrap ryvästämiseen... Kaksi vai kolme lajia? Kuinka todennäköiset nämä vaihtoehdot ovat? Arvotaan uusi bootstrapdata (poimitaan palauttaen) Tehdään ryvästäminen Toistetaan L kertaa, joskus tulee 3 ryvästä, joskus 2. Näiden suhteellista osuutta voidaan käyttää arvioidessa parhaan arvion luotettavuutta x 2 x 1 75

76 Bayesiläinen mallintaminen Subjektiivinen todennäköisyys yli kaikkien mahdollisten mallien (aina tietysti rajoitettu johonkin malliperheeseen): P (M) 76

77 Bayesiläinen mallintaminen Subjektiivinen todennäköisyys yli kaikkien mahdollisten mallien (aina tietysti rajoitettu johonkin malliperheeseen): P (M) Jokaiselle mallille pystytään laskemaan havaitun datan todennäköisyys annettuna malli: P (D M) 77

78 Bayesiläinen mallintaminen Subjektiivinen todennäköisyys yli kaikkien mahdollisten mallien (aina tietysti rajoitettu johonkin malliperheeseen): P (M) Jokaiselle mallille pystytään laskemaan havaitun datan todennäköisyys annettuna malli: P (D M) Lasketaan posterioritodennäköisyysjakauma mallien yli: P (M D) 78

79 Bayesiläinen mallintaminen Subjektiivinen todennäköisyys yli kaikkien mahdollisten mallien (aina tietysti rajoitettu johonkin malliperheeseen): P (M) Jokaiselle mallille pystytään laskemaan havaitun datan todennäköisyys annettuna malli: P (D M) Lasketaan posterioritodennäköisyysjakauma mallien yli: P (M D) Prediktiivinen todennäköisyys voidaan laskea: P (D D) = M P (D M)P (M D) 79

80 Bayesiläinen mallintaminen Subjektiivinen todennäköisyys yli kaikkien mahdollisten mallien (aina tietysti rajoitettu johonkin malliperheeseen): P (M) Jokaiselle mallille pystytään laskemaan havaitun datan todennäköisyys annettuna malli: P (D M) Lasketaan posterioritodennäköisyysjakauma mallien yli: P (M D) Prediktiivinen todennäköisyys voidaan laskea: P (D D) = M P (D M)P (M D) Huom: Käytännön laskut saattavat olla hyvinkin hankalia, mutta ainakin tavoite on hyvin määritelty 80

81 Bayesiläinen inferenssi... Esim: Laatikossa on 5 palloa, joista jokainen on joko keltainen tai valkoinen. Palloja poimitaan (ja katsotaan) satunnaisesti, takaisinpanolla. Tehtävänä on arvioida, montako keltaista palloa laatikossa on. 81

82 Bayesiläinen inferenssi... Esim: Laatikossa on 5 palloa, joista jokainen on joko keltainen tai valkoinen. Palloja poimitaan (ja katsotaan) satunnaisesti, takaisinpanolla. Tehtävänä on arvioida, montako keltaista palloa laatikossa on. Ennen kun yhtään palloa on nostettu, sinulla on subjektiivinen todennäköisyys yli mahdollisten vastausten (0-5). Esim: P(#) 82

83 Bayesiläinen inferenssi... Esim: Laatikossa on 5 palloa, joista jokainen on joko keltainen tai valkoinen. Palloja poimitaan (ja katsotaan) satunnaisesti, takaisinpanolla. Tehtävänä on arvioida, montako keltaista palloa laatikossa on. Ennen kun yhtään palloa on nostettu, sinulla on subjektiivinen todennäköisyys yli mahdollisten vastausten (0-5). Jos esim ensimmäinen pallo on keltainen, niin tiedetään että niitä on ainakin 1. Subjektiivinen jakauma päivittyy... Esim: P(#) P(#) 83

84 Bayesiläinen inferenssi... Esim: Laatikossa on 5 palloa, joista jokainen on joko keltainen tai valkoinen. Palloja poimitaan (ja katsotaan) satunnaisesti, takaisinpanolla. Tehtävänä on arvioida, montako keltaista palloa laatikossa on. Ennen kun yhtään palloa on nostettu, sinulla on subjektiivinen todennäköisyys yli mahdollisten vastausten (0-5). Jos esim ensimmäinen pallo on keltainen, niin tiedetään että niitä on ainakin 1. Subjektiivinen jakauma päivittyy... Jos esim toinen on valkoinen... Esim: P(#) P(#) P(#) 84

85 Bayesiläinen inferenssi... Esim: Laatikossa on 5 palloa, joista jokainen on joko keltainen tai valkoinen. Palloja poimitaan (ja katsotaan) satunnaisesti, takaisinpanolla. Tehtävänä on arvioida, montako keltaista palloa laatikossa on. Ennen kun yhtään palloa on nostettu, sinulla on subjektiivinen todennäköisyys yli mahdollisten vastausten (0-5). Jos esim ensimmäinen pallo on keltainen, niin tiedetään että niitä on ainakin 1. Subjektiivinen jakauma päivittyy... Jos esim toinen on valkoinen......jne Esim: P(#) P(#) P(#) 85

86 Bayesin kaava Voidaan osoittaa (Cox, 1946) että rationaalinen inferenssi seuraa tavallisia todennäköisyyslaskun kaavoja, erityisesti Bayesin kaavaa: P (M D) = P (D M)P (M) P (D) eli mallin M todennäköisyys, annettuna data D, on datan todennäköisyys annettuna malli P (D M) kerrottuna mallin prioritodennäköisyydellä P (M), uudelleennormalisoituna. 86

87 Bayesin kaava Voidaan osoittaa (Cox, 1946) että rationaalinen inferenssi seuraa tavallisia todennäköisyyslaskun kaavoja, erityisesti Bayesin kaavaa: P (M D) = P (D M)P (M) P (D) eli mallin M todennäköisyys, annettuna data D, on datan todennäköisyys annettuna malli P (D M) kerrottuna mallin prioritodennäköisyydellä P (M), uudelleennormalisoituna. Huom: Malliperheen ulkopuolella oleva vaihtoehto ei vaikuta malliperheen sisällä olevien mallien suhteisiin 87

88 Bayesin kaava Voidaan osoittaa (Cox, 1946) että rationaalinen inferenssi seuraa tavallisia todennäköisyyslaskun kaavoja, erityisesti Bayesin kaavaa: P (M D) = P (D M)P (M) P (D) eli mallin M todennäköisyys, annettuna data D, on datan todennäköisyys annettuna malli P (D M) kerrottuna mallin prioritodennäköisyydellä P (M), uudelleennormalisoituna. Huom: Malliperheen ulkopuolella oleva vaihtoehto ei vaikuta malliperheen sisällä olevien mallien suhteisiin Huom: Vaatii aina vähintään kahden mallin vertaamista. 88

89 Bayesiläinen regressio... Yksinkertainen esimerkki Malliperhe: (w 0, w 1 ) N(0, α 1 I) y i N(w 0 + w 1 x i, β 1 ) β jossa siis α ja ovat meidän tiedossamme olevia vakioita. Toisin sanoen, ensin malli valitaan arpomalla w 0 ja w 1 normaali-jakaumasta; sitten data generoidaan lineaarisella funktiolla w 0 + w 1 x jonka päälle lisätään normaalijakautunutta kohinaa. Seuraavalla kalvolla havainnollistus mallin toiminnasta 89

90 Bayesiläinen regressio... Data generoitu arpomalla tasajakaumasta [-1,1], jonka jälkeen y i = a 0 + a 1 x i + n i jossa a 0 = 0.3, a 1 = 0.5 ja n i N(0, 0.04) x i Ylimmällä rivillä on kuvattu tilanne ennen datapisteiden saapumista. Toisella rivillä tilanne yhden datapisteen jälkeen. Kolmannella toinen datapiste on saatu, ja viimeisellä rivillä on 20 havaintoa. 90

91 Bayesiläinen regressio... (esim) Satunnaisotos posteriorijakaumasta 91

92 Bayesiläinen regressio... (esim) Prediktiivinen jakauma 92

93 Mallin asteen valinta Otetaan yksinkertaisuuden vuoksi taas helppo esimerkki: Malli : M 1 w 0 N(0, α 1 ) y i N(w 0, β 1 ) Malli : M 2 (w 0, w 1 ) N(0, α 1 I) y i N(w 0 + w 1 x i, β 1 ) Havaitaan seuraava data: Kumpi malli sopii siihen paremmin? 0.6 M 1 vai M 2?? 93

94 Mallin asteen valinta Otetaan yksinkertaisuuden vuoksi taas helppo esimerkki: Malli : M 1 w 0 N(0, α 1 ) y i N(w 0, β 1 ) Malli : M 2 (w 0, w 1 ) N(0, α 1 I) y i N(w 0 + w 1 x i, β 1 ) Havaitaan seuraava data: Kumpi malli sopii siihen paremmin? 0.6 Aina pienempi opetusvirhe! M 1 vai M 2?? 94

95 Mallin asteen valinta Otetaan yksinkertaisuuden vuoksi taas helppo esimerkki: Malli : M 1 w 0 N(0, α 1 ) y i N(w 0, β 1 ) Malli : M 2 (w 0, w 1 ) N(0, α 1 I) y i N(w 0 + w 1 x i, β 1 ) Havaitaan seuraava data: Kumpi malli sopii siihen paremmin? 0.6 Aina pienempi opetusvirhe! M 1 vai M 2?? (Huom: Ristiinvalidointi eräs tapa. Se voi kuitenkin olla laskennallisesti raskas ja epäluotettavakin. Tässä esitetään bayesiläinen menetelmä...) 95

96 Mallin asteen valinta Periaatteessa helppo formuloida ratkaisu. Mallinnetaan datan generointiprosessia seuraavasti: 1. Arvotaan malli jollain priorijakaumalla 2. Arvotaan mallin parametrit w (siis tässä tai riippuen valitusta mallista) niiden priorijakaumista, annettuna valittu malli 3. Generoidaan data mallin ja parametrien mukaan Kun tietty datajoukko on havaittu, voidaan laskea posteriorijakauma P (M i data), joka saadaan kun tunnetaan ja P (M i ), Bayesin kaavaa käyttäen. P (data M i ) Tässä on olennaista että parametrit lausekkeista pois! w P (M i ) w 0 (w 0, w 1 ) integroidaan 96

97 Mallin asteen valinta P (M i ) otetaan annettuna, esim jos ei ole syytä olettaa muuta niin oletetaan priori, eli kumpikin malli a priori yhtä todennäköinen Datan todennäköisyys annettuna malli saadaan seuraavasti: p(data M i ) = Jotta voidaan selittää data mallilla täytyy olla ( voi olla mitä vaan ) w 1 Jotta voidaan selittää data mallilla M 2 täytyy olla sekä w että w 1 0 p(data w, M i )p(w M i ) dw M 1 w

98 Mallin asteen valinta P (M i ) otetaan annettuna, esim jos ei ole syytä olettaa muuta niin oletetaan priori, eli kumpikin malli a priori yhtä todennäköinen Datan todennäköisyys annettuna malli saadaan seuraavasti: p(data M i ) = Jotta voidaan selittää data mallilla täytyy olla ( voi olla mitä vaan ) Jotta voidaan selittää data mallilla M 2 täytyy olla sekä w että w 1 0 p(data w, M i )p(w M i ) dw p(data M 1 ) M 1 w w 1 p(data M 2 ) 98

99 Mallin asteen valinta P (M i ) otetaan annettuna, esim jos ei ole syytä olettaa muuta niin oletetaan priori, eli kumpikin malli a priori yhtä todennäköinen Datan todennäköisyys annettuna malli saadaan seuraavasti: p(data M i ) = Jotta voidaan selittää data mallilla täytyy olla ( voi olla mitä vaan ) Jotta voidaan selittää data mallilla M 2 täytyy olla sekä w että w 1 0 p(data w, M i )p(w M i ) dw p(data M 2 ) p(data M 1 ) M 1 w w 1 saadaan siis: p(m 1 data) p(m 2 data) 99

100 Mallin asteen valinta Occamin partaveitsi : kilpailevista, yhtä selitysvoimaisista teorioista tulisi valita kaikista yksinkertaisin. Bayesiläistä mallin valintaa voidaan pitää automaattisena Occamin partaveitsenä p(d) M 1 M 2 M 3 D 0 D 100

101 PCA / probalistinen PCA PCA etsii aliavaruuden joka parhaiten approksimoi datapisteitä, mutta ei mallinna datan todennäköisyysjakaumaa x 2 x n x n u 1 x 1 101

102 PCA / probalistinen PCA PCA etsii aliavaruuden joka parhaiten approksimoi datapisteitä, mutta ei mallinna datan todennäköisyysjakaumaa x 2 x n x n u 1 p(x) Probabilistinen PCA on jakaumamalli: x 1 p(z) = N (z 0, I) p(x z) = N (x Wz + µ, σ 2 I) josta saadaan p(x) = N (x µ, C) C = WW T + σ 2 I 102

103 PCA / probalistinen PCA PCA etsii aliavaruuden joka parhaiten approksimoi datapisteitä, mutta ei mallinna datan todennäköisyysjakaumaa x 2 x n x n u 1 p(x) Probabilistinen PCA on jakaumamalli: p(z) = N (z 0, I) p(x z) = N (x Wz + µ, σ 2 I) josta saadaan p(x) = N (x µ, C) C = WW T + σ 2 I (se on siis rajoitettu normaalijakauma joka sisältää vähemmän parametreja kuin täysin vapaa normaalijakauma) x 1 103

104 Probabilistinen PCA: x 2 p(x ẑ) w x 2 µ } ẑ w µ p(z) p(x) latenttimuuttujan jakauma p(z) ẑ z x 1 ehdollinen jakauma p(x z) marginaalijakauma p(x) x 1 104

105 PCA vs probabilistinen PCA Probabilistisen viitekehyksen edut: Puuttuvien arvojen oikea käsittely Mikstuurimallien muodostaminen Bayesiläinen versio: dimension automaattinen löytäminen Voidaan verrata löydettyä mallia toisenlaisiin malleihin Luokittelussa PPCA soveltuu luokkien ehdolliseksi jakaumaksi Voidaan käyttää datan tuottamiseen 105

106 PPCA: estimointi Parametrit voidaan löytää suurimman uskottavuuden menetelmällä: - µ ML = x eli keskiarvon estimaatti on otoksen keskiarvo - W ML saadaan suoraan tavallisen PCAn ratkaisusta (tosin rotaatio-invarianssi!) - σ 2 ML on pois jätettyjen suuntien varianssien keskiarvo Helppoa siis PCAsta siirtyä probabilistiseen malliin jos halutaan. EM-algoritmi voi olla kilpailukykyinen korkeadimensioisissa ongelmissa (ja erityisesti antaa mahdollisuuden huomioida puuttuvia arvoja)

107 PPCA, puuttuvat arvot, esim: alkuperäinen data, kaksi ensimmäistä komponenttia 30% alkuperäisen datan muuttujien arvoista poistettu ennen PPCAn laskemista EM-algoritmilla 107

108 Kirjallisuutta David J.C. MacKay Information Theory, Inference, and Learning Algorithms (ilmaiseksi ladattavissa netissä!) Christopher M. Bishop Pattern Recognition and Machine Learning 108

109 Yhteenveto Epävarmuuden mallintaminen usein olennaista laskennallisessa data-analyysissä Sekä ad-hoc että teoreettisesti perustellumpia ratkaisuja - knn, generatiiviset mallit - Uudelleenotanta, bootstrap - Bayesiläinen mallintaminen 109

Laskennallinen data-analyysi II

Laskennallinen data-analyysi II Laskennallinen data-analyysi II Patrik Hoyer Bayesiläiset menetelmät 18 19.4.2007 LDA II: Bayesiläiset menetelmät Luennot (18.4 ja 19.4) - filosofiaa, ideat, esimerkkejä (kalvot kotisivulla 19.4 illalla)

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Bayesilainen päätöksenteko / Bayesian decision theory

Bayesilainen päätöksenteko / Bayesian decision theory Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena

Lisätiedot

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Harha mallin arvioinnissa

Harha mallin arvioinnissa Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

Mallipohjainen klusterointi

Mallipohjainen klusterointi Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi

Lisätiedot

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisten kielten tilastollinen käsittely T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

Diskriminanttianalyysi I

Diskriminanttianalyysi I Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010 Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen Johdanto Lineaarinen diskriminanttianalyysi

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Laskennallinen data-analyysi II

Laskennallinen data-analyysi II Laskennallinen data-analyysi II Ella Bingham, ella.bingham@cs.helsinki.fi Kevät 2008 Muuttujien valinta Kalvot perustuvat Saara Hyvösen kalvoihin 2007 Laskennallinen data-analyysi II, kevät 2008, Helsingin

Lisätiedot

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx. Yhteenveto: Satunnaisvektorit ovat kuvauksia tn-avaruudelta seillaiselle avaruudelle, johon sisältyy satunnaisvektorin kaikki mahdolliset reaalisaatiot. Satunnaisvektorin realisaatio eli otos on jokin

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

2. Uskottavuus ja informaatio

2. Uskottavuus ja informaatio 2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö

Lisätiedot

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1, Todennäköisyyslaskenta, 2. kurssikoe 7.2.22 Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu.. Satunnaismuuttujien X ja Y yhteistiheysfunktio on

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 16.11.2017/1 MTTTP5, luento 16.11.2017 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla ~,, ~,,. 16.11.2017/2 Esim. Tutkittiin uuden menetelmän käyttökelpoisuutta

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 17.11.2016/1 MTTTP5, luento 17.11.2016 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla likimain Jos X ~ Bin(n, p), niin X ~ N(np, np(1 p)), kun n suuri. 17.11.2016/2

Lisätiedot

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾. 24.11.2006 1. Oletetaan, että kaksiulotteinen satunnaismuuttuja µ noudattaa kaksiulotteista normaalijakaumaa. Oletetaan lisäksi, että satunnaismuuttujan regressiofunktio satunnaismuuttujan suhteen on ݵ

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

1. TILASTOLLINEN HAHMONTUNNISTUS

1. TILASTOLLINEN HAHMONTUNNISTUS 1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,

Lisätiedot

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH 8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH Osa aikasarjoista kehittyy hyvin erityyppisesti erilaisissa tilanteissa. Esimerkiksi pörssikurssien epävakaus keskittyy usein lyhyisiin

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

riippumattomia ja noudattavat samaa jakaumaa.

riippumattomia ja noudattavat samaa jakaumaa. 12.11.2015/1 MTTTP5, luento 12.11.2015 Luku 4 Satunnaisotos, otossuure ja otosjakauma 4.1. Satunnaisotos X 1, X 2,, X n on satunnaisotos, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. Sanonta

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof. Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes 11.06.2012 Ohjaaja: TkT Arto Klami Valvoja: Prof. Harri Ehtamo Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Nollasummapelit ja bayesilaiset pelit

Nollasummapelit ja bayesilaiset pelit Nollasummapelit ja bayesilaiset pelit Kristian Ovaska HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Seminaari: Peliteoria Helsinki 18. syyskuuta 2006 Sisältö 1 Johdanto 1 2 Nollasummapelit 1 2.1

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

9. Tila-avaruusmallit

9. Tila-avaruusmallit 9. Tila-avaruusmallit Aikasarjan stokastinen malli ja aikasarjasta tehdyt havainnot voidaan esittää joustavassa ja monipuolisessa muodossa ns. tila-avaruusmallina. Useat aikasarjat edustavat dynaamisia

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025 26.3.2019/1 MTTTP1, luento 26.3.2019 7.4 Normaalijakauma (kertausta ja täydennystä) Z ~ N(0, 1), tiheysfunktion kuvaaja 0,5 0,4 0,3 0,2 0,1 Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96)

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 Jussi Tohka jussi.tohka@tut.fi Signaalinkäsittelyn laitos Tampereen teknillinen yliopisto SGN-2500 Johdatus hahmontunnistukseen 2007Luennot 4 ja

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014 1 MTTTP3 Tilastollisen päättelyn perusteet 2 Luennot 8.1.2015 ja 13.1.2015 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

Lisätiedot

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely) Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely) Ohjaaja: TkT Aki Vehtari Valvoja: Prof. Harri Ehtamo Kandidaattiseminaari 21 1.11.21 Esityksen rakenne Tausta Derivaattahavaintojen

Lisätiedot

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat 1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly Bayesin pelit Kalle Siukola MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 12.10.2016 Toistetun pelin esittäminen automaatin avulla Ekstensiivisen muodon puu on tehoton esitystapa, jos peliä

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

4.2.2 Uskottavuusfunktio f Y (y 0 X = x) Kuva 4.6: Elektroniikassa esiintyvän lämpökohinan periaate. Lämpökohinaa ε mallinnetaan additiivisella häiriöllä y = Mx + ε. 4.2.2 Uskottavuusfunktio f Y (y 0 X = x) Tarkastellaan tilastollista inversio-ongelmaa,

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30. FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.

Lisätiedot

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka

Lisätiedot

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017 Luku 1 Bayesläiset estimaattorit Lasse Leskelä Aalto-yliopisto 18. lokakuuta 217 1.1 Bayesläiset piste-estimaatit Tarkastellaan datalähdettä, joka tuottaa tiheysfunktion f(x θ) mukaan jakautuneita riippumattomia

Lisätiedot

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4 ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4 Ratkaisuehdotuksia 1. Omppukone Oy valmistaa liukuhihnalla muistipiirejä kymmenen piirin sarjoissa. Omppukone arvioi, että keskimäärin

Lisätiedot

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Lineaariset luokittelumallit: regressio ja erotteluanalyysi Lineaariset luokittelumallit: regressio ja erotteluanalyysi Aira Hast Johdanto Tarkastellaan menetelmiä, joissa luokittelu tehdään lineaaristen menetelmien avulla. Avaruus jaetaan päätösrajojen avulla

Lisätiedot

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori. Luento 2 Binomi-malli Posteriorijakauman esittämisestä Informatiivisista priorijakaumista Konjugaattipriori Slide 1 Yksiparametrisia malleja Binomi Jacob Bernoulli (1654-1705), Bayes (1702-1761) Normaali

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen MTTTP5, kevät 2016 4.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen 1. Laitosneuvostoon valitaan 2 professoria, 4 muuta henkilökuntaan kuuluvaa jäsentä sekä 4 opiskelijaa. Laitosneuvostoon

Lisätiedot

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden 1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma

Lisätiedot

Osakesalkun optimointi

Osakesalkun optimointi Osakesalkun optimointi Anni Halkola Epäsileä optimointi Turun yliopisto Huhtikuu 2016 Sisältö 1 Johdanto 1 2 Taustatietoja 2 3 Laskumetodit 3 3.1 Optimointiongelmat........................ 4 4 Epäsileän

Lisätiedot