Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

Koko: px
Aloita esitys sivulta:

Download "Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?"

Transkriptio

1 Viime kerralla Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? Mallin herkkyysanalyysi - kuinka paljon päättely muuttuu jos mallioletuksia muutetaan? Mallien vertailu ja valinta Slide 1 - posterioritodennäköisyys ja Bayes factor - prediktiivinen tarkkkuus Mallien vertailu ja valinta Valmennuskurssiesimerkki - 8 koulua - jokaisessa koulussa osa oppilaista sai valmennusta ja osa ei ja näistä tuloksista laskettiin koululle kurssin tehon odotusarvo ja hajonta voitaisiin olettaa, että tulokset koulujen sisällä vaihtokelpoisia ja koulujen kurssien tuntemattomat oikeat vaikutukset keskenään vaihtokelpoisia Slide 2 Mallivaihtoehdot - erillismalli 7 koulun tuloksen tietäminen ei vaikuta arvioomme 8. koulun tuloksesta - yhteismalli kaikkien koulujen kurssit yhtä tehokkaita - hierarkinen malli koulujen välillä voi olla eroja, koulujen kurssien tuntemattomille vaikutuksille yhteinen populaatiopriori

2 Mallien vertailu ja valinta Valmennuskurssiesimerkki Slide 3 Mitä mallilta halutaan? - haluammeko tutkia vain näitä 8 koulua? ennusteet näille kouluille - haluammeko tutkia muita kouluja? ennusteet uusille kouluille Mallien vertailu ja valinta Valmennuskurssiesimerkki Slide 4 Kuinka hyvin malli yleistyy uusille kouluille? - ulkoinen validointi tehdään ennuste ja toistetaan koe uusissa kouluissa - ulkoisen validoinnin approksimointi ristiinvalidointi informaatiokriteerit

3 Ristiinvalidointi (cross-validation (CV))* Ulkoinen validointi p(y (n+ j) x (n+ j), D, M); j = 1, 2,..., m Ristiinvalidointi {p(y (i) x (i), D (\i), M); i = 1, 2,..., n} Slide 5 missä D (\i) on D:n kaikki alkiot paitsi (x (i), y (i) ) CV-prediktiivisiä jakaumia verrataan havaittuihin y (i) :hin hyötyfunktion u avulla ja otetaan odotusarvo i:n yli Informaatiokriteerit Saivat alkunsa Akaiken paperista, jossa Akaike perusteli hyötyfunktion valintaa ja "odotetun hyödyn" approksimaation johtamista informaatioteoreettisesti - Akaike mainitsee termin an information criterium - Akaike pohti myös muita kriteerejä ja Akaiken opiskelija koodatessaan näitä vaihtoehtoisia merkitsee näistä ensimmäistä AIC ja kun Akaike julkaisi näitä tuloksia, jäi termi käyttöön Slide 6 Valitettavasti Akaike tiivisti informaatiokriteerin muotoon IC = fit + complexity - valitettavaa siksi, että alkuperäinen idea odotetun hyödyn estimoinnista unohtui - myös DIC esitetty tässä muodossa DIC = D(E θ [θ]) + p eff missä efektiivinen parametrien määrä p eff kuvaa mallin kompleksisuutta

4 Deviance Information Criterion (DIC) Tärkeimmät asiat mitä DIC:stä pitäisi muistaa - asymptoottisesti sama kuin ristiinvalidointi usein myös äärellisillä näytemäärillä vastaavia tuloksia - tulokset riippuvat parametrisoinnista vaatii tapauskohtaista miettimistä - kuinka lasketaan Slide 7 DIC = D(E θ [θ]) + 2p eff Deviance Information Criterion (DIC) vs. CV* Valmennuskurssiesimerkki Malli D(E θ [θ]) p eff DIC CV erillismalli (τ = ) yhteismalli (τ = 0) hierarkinen Slide 8 Erillismallissa populaatiopriorin leveys on ääretön, joten uuden koulun prediktiivisen jakauman leveys on myös ääretön, ja siten ulkoinen validointi ja ristiinvalidointi arvioivat tämän mallin äärettömän huonoksi - esim9_5a.m Onko mallien välillä merkittävää eroa? - esim9_5b.m

5 Deviance Information Criterion (DIC) vs. CV* Onko mallien välillä merkittävää eroa? - ristiinvalidoinnille voidaan helposti arvioida epävarmuus tulevan havainnon jakauman epävarmuudesta tästä helppo estimoida todennäköisyys sille onko toinen malli parempi - DIC:llä voidaan approksimoida karkeasti (vrt. BF) Slide 9 DF(M 1, M 2 ) = exp((dic 2 DIC 1 )/2) p(dic 1 < DIC 2 ) DF/(1 + DF) eli arviolta, ero on merkittävä, jos suurempi kuin 6 tämä kuitenkin vain suuntaa antava, ei kunnon perustelua Esimerkkejä sovelluskohtaisista hyötyfunktioista Esim. Draper ja Fouskakis - sairaalaan tulevalle potilalle tehtävien kustannukset - kustannus virheelliselle päätökselle luonnolisesti vaikea valita, mutta Draper ja Fouskakis viittavaat yleisesti käytettyihin lukuihin - minimoidaan odotettu kustannus Slide 10 Esim. valuuttakurssit, osakkeet yms., hyötynä raha Esim. luokittelu - missä tahansa luokitteluongelmassa on luonnollista arvioida muiden hyötyjen lisäksi odotettu luokittelutarkkuus tasapainotettu luokittelutarkkuus confusion matrix

6 Datankeruuprosessin mallintaminen Kurssin tavoitteet: opiskelija osaa - määritellä perustermit lyhyesti - lukea matemaattista notaatiota - lukea aiheeseen liittyvä tekstiä Slide 11 - tunnistaa kyselykokeet, suunnitellut kokeet, havaintokokeet, sensuroinnin ja katkaisun - luetella edellisiin liittyvät perusoletukset Datankeruuprosessin mallintaminen - Esimerkki Heitetty noppaa ja saatu 10 kertaa 6 Vaikuttaako seuravaat lisätiedot päättelyysi nopasta - nämä olivat ainoat heiteyt heitot - noppaa heitettiin 60 kertaa, mutta vain kuutoset raportoitiin Slide 12 - noppaa heitettiin kunnes saatiin 10 kuutosta, mutta heittojen lukumäärä ei ole tiedossa

7 Datankeruuprosessin mallintaminen - Esimerkki Kurssipalaute kysytään - kaikilta opiskelijoilta - satunnaisesti osalta opiskelijoita - vain luennolla käyneiltä - vain arvosanan 5 saaneilta Slide 13 Datankeruuprosessin mallintaminen Datankeruutavalla on merkitystä ja kaikki relevantti informaatio kannattaa käyttää Koesuunnittelut (design) jotka voidaan jättää mallintamatta (ignorable) - päättely usein vähemmän herkkää mallissa tehdyille valinnoille - esim. satunnaistamiseen (randomization) perustuvat Slide 14 Mitä enemmän selittäviä muuttujia käytetään sitä pätevämpiä johtopäätökset ovat ehdollisesti, mutta mahdollisesti myös herkempiä mallin määrityksille jotka yhdistävät seuraamukset selittäviin muuttujiin

8 Datankeruuprosessin mallintaminen Havaittu (observed) vs. puuttuva (missing) data - on olemassa suurempi täydellinen data, josta osa havaittu ja osa ei - esim: kurssipalaute täydellinen data: kaikki vastaavat havaittu data: vain osa opiskelijoista vastannut puuttuva data: osa opiskelijoista ei vastannut Slide 15 Päättely on ehdolla havaittu data ja havaintojen puuttumisen rakenne Puutuva data voi olla - tahatonta esim: kyselyihin vastaamattomuus ja sensuroidut mittaukset - tahallinen esim: kysellään vain osalta tai kokeillaan vain yhtä hoitoa per ihminen Datankeruuprosessin mallintaminen - Esimerkkejä Otanta - havaittu: arvot n havainnosta - koko data: arvot populaation kaikista N yksiköstä Lääketieteellinen koe - havaittu: tulos hoidosta jokaiselle hoidetulle Slide 16 - koko data: tulos kaikista hoidoista kaikille hoidetuille Pyöristys - havaittu: pyöristetyt luvut - koko data: pyöristämättömät luvut Tahaton puuttuva data - havaittu: havaitut arvot - koko data: sekä havaitut että puuttuvat arvot

9 Datankeruuprosessin mallintaminen Notaatio - koko data: y = (y 1,..., y N ) - y i voi olla vektori jonka komponentit ovat y i j - I = (I 1,..., I N ) - I i voi olla vektori jonka komponentit ovat I i j Slide 17 - jos I i j = 1, y i j on havaittu - jos I i j = 0, y i j on puuttuva - obs = (i, j) : I i j = 1 - mis = (i, j) : I i j = 0 - tähän asti y = y obs - 0/1 indikaattoria monimutkaisemmatkin puuttuvan datan rakenteet mahdollisia Datankeruuprosessin mallintaminen Stabiilisuus (stability) - mittaustapahtuma ei muuta datan arvoja Stabiili käsittely (treatment) oletus - yhden yksikön käsittely ei vaikuta muiden yksiköiden tuloksiin - vastaesimerkki: lannoitetestaus pellolla liian lähekkäisissä alueissa Slide 18 Ilman stabiiliusoletuksia notaatio monimutkaisempaa

10 Datankeruuprosessin mallintaminen Koko datan likelihood p(y, I θ, φ) missä φ on inkluusiovektorin parametrit Havaitun datan likelihood p(y obs, I θ, φ) = p(y, I θ, φ)dy mis Superpopulaatio päättely p(θ, φ x, y obs, I) Slide 19 Äärellisen populaation päättely p(y mis x, y obs, I, θ, φ) - jos äärellisen populaation kaikki yksiköt havaittuja, äärellisen populaation päättely tarkkaa, mutta superpopulaation päättelyssä edelleen epävarmuutta - esim. jos luennolla olevien kaikkien pituus mitataan, tiedetään kaikkien luennolla olevien pituuksien havainnot, mutta jos mittaväline on epätarkka, voi todellisissa pituuksissa silti olla epävarmuutta Posterioriprediktiiviset jakaumat - tuleva koko data periaatteesa helpompi - tulevaa havaittua dataa varten huomioitava inkluusiomekanismi Datankeruuprosessin mallintaminen Ignorability jos p(θ x, y obs, I) = p(θ x, y obs ) datankeruuprosessia ei tarvitse mallittaa ja datankeruuprosessi on ignorable - erittäin hyödyllinen ominaisuus - tähän asti käsitellyissä esimerkeissä oletettu näin Slide 20 Riittävät ehdot takaamaan ignorability - satunnainen puuttuminen (missing at random) p(i x, y, φ) = p(i x, y obs, φ) annettuna φ puuttuminen riippuu vain x:stä ja y obs :sta pätee myös deterministiselle inkluusiolle joka riippuu vain x:stä - erilliset parametrit (distinct parameters) p(φ x, θ) = p(φ x) inkluusioprosessin ja datan generoivan prosessin parametrit ovat riippumattomat Tunnettu vs. tuntematon datankeruusuunnitelma

11 Datankeruuprosessin mallintaminen - Otantatutkimukset Yksinkertainen satunnaisotos äärellisestä populaatiosta - esim. kurssilla olevien opsikelijoiden viikossa käyttämä aika kurssin aiheiden opiskeluun - oletetaan yksilöiden vaihtokelpoisuus - strongly ignorable p(i x, y, φ) = p(i x) ja tunnettu Slide 21 - esim. äärellisen populaation keskiarvo ȳ = n N ȳobs + N n N ja ȳ ȳ obs t n 1 (ȳ obs, ȳmis ( 1 n 1 ) ) sobs 2 N Datankeruuprosessin mallintaminen - Otantatutkimukset Ositettu otanta (stratified sampling) - N yksikköä jaetaan J :n ositteeseen - yksinkertaisella satunnaisotannalla n j näytettä jokaisesta ositteesta j = 1,..., J - ignorable annettuna J indikaatorivektoria x 1,..., x J jotka kertovat mitkä yksiköt kuuluvat mihinkin ositteeseen Slide 22 - usein lunnollista käyttää hierarkista mallia tällaiselle datalle - esim. valmennuskurssiesimerkki ja meta-analyysi

12 Datankeruuprosessin mallintaminen - Otantatutkimukset Ryväsotanta (cluster sampling) - N yksikköä jaetaan K :n rypäkseen - ensin arvotaan J ryvästä ja sitten joka ryppäästä n j yksikköä - ignorable annettuna indikaattorimuuttujat ja jokaisen ryppään yksiköiden määrät Slide 23 - analyysi vastaa ositettua otantaa paitsi, että huomioitava että osasta ryppäitä ei havaintoja - esim. valmennuskurssiesimerkissä olisi voinut olla enemmänkin kouluja, joista vain osasta saatiin havaintoja Datankeruuprosessin mallintaminen - Otantatutkimukset Erisuuruiset valintatodennäköisyydet otannassa - Otantatutkimus on ignorable annettuna todennäköisyydet yksikön valinnalle Slide 24

13 Datankeruuprosessin mallintaminen - Suunnitellut kokeet Kokeessa (experiment) yksiköihin kohdistuu kokeen tekijän valitsema käsittely (treatment) Usein yhdelle yksikölle voidaan toteuttaa vain yksi käsittely - puuttuvana tietona mikä olisi lopputulos muilla käsittelyillä Kokeen suunnittelu (design of experiment) tärkeää Slide 25 Datankeruuprosessin mallintaminen - Suunnitellut kokeet Täysin satunnaistettu koe - käsittelyiden valinta kohteille täysin satunnaista - tai käsiteltävät jaetaan satunnaisesti yhtä moneen ryhmään kuin käsittelyitä - oletetaan stabiili käsittely - yksikkö voi saada vain yhden käsittelyn Slide 26 - käsittelyiden valinta on tunnettu ja ignorable

14 Datankeruuprosessin mallintaminen - Suunnitellut kokeet Latin square - esimerkki kompleksisemmasta kokeesta - jokaisella rivillä ja sarakkeella sama määrä eri käsittelyitä - etuna tasapainotuksen tuoma lisätarkkuus - esim. peltoalue jaettu 5x5 alueisiin ja testataan 5 eri lannoitusmäärää Slide 27 - oletetaan stabiili käsittely - ignorable malliin otettava mukaan selittäviksi muuttujiksi palstojen koordinaatit täysin satunnaistetussa ei tarvitsisi näin kuitenkin relevantimpi ja tarkempi - mahdollista ottaa myös mukaan selittäviksi muuttujiksi maantietelliset koordinaatit, etäisyys joesta, jne. Datankeruuprosessin mallintaminen - Suunnitellut kokeet Peräkkäiskokeet (sequential design) - satunnaistettu koe, missä käsittelyiden valintatodennäköisyydet yksikölle i riippuvat satunnaistuksesta tai aiemmin kohdeltujen yksiköiden lopputuloksista - ignorable ehdolla kaikki muuttujat joita käytettiin päättämään käsittelyiden valinta, mukaanlukien ajanhetki ja edellisten yksiköiden lopputulokset Slide 28

15 Datankeruuprosessin mallintaminen - Suunnitellut kokeet Pienin riittävä selittävien muuttujien joukko - suunnitellulle satunnaistetulle kokeelle voidaan päätellä pienin tarvittava selittävien muuttujien joukko (adequate summary) ja siihen perustuva minimaalinen analyysi - usein käytössä lisäinformaatiota ja useimmiten kaikki tämä kannattaa käyttää esim. pellolla eri alueiden maanperäominaisuudet, etäisyys joesta, jne. Slide 29 Datankeruuprosessin mallintaminen Täysi satunnaistus vs. systemaattiset koesuunnitelmat - molemmat voivat olla ignorable Täysi satunnaistus - mahdollisuus arvioida mitä vaikuttaa jos selittävät muuttujat x jätetään mallista pois Slide 30 - helpompi posterioriprediktiivinen tarkistus - vähemmän herkkä mallioletuksille y annettuna x - pienempi mahdollisuus "huijata" vahingossa tai tahallaan Systemaattiset koesuunnitelmat - tasapainotusten vuoksi pienempi posterioriepävarmuus kiinnostavista suureista (muista herkkyys mallioletuksille)

16 Datankeruuprosessin mallintaminen Täysi satunnaistus vs. systemaattiset koesuunnitelmat - esimerkki: haastatellaan TKK:n päärakennuksen ovesta kello 11 ja 12 välillä kulkevat opiskelijat - voidaan mallittaa kahdella tavalla Slide 31 (1) nonignorable koska todennäköisyys, että TKK:n opiskelija i on mukana otoksessa riippuu ei havaitusta N n opiskelijan kulkureiteistä (2) ignorable koska todennäköisyys, että TKK:n opiskelija i on mukana riippuu täysin havaitusta indikaattorimuuttujsta x i joka on 1 jos opiskelija kulki ovesta annettuna aikana ja muuten 0 - tapauksessa (1) on mallinnettava I annettuna y - tapauksessa (2) päätellään y:n jakauma annettuna x ja dataa ei saatvissa jos x = 0 - kummassakin tapauksessa tulos on herkkä priorioletuksille, ellei n/n melkein 1 Datankeruuprosessin mallintaminen - Havaintotutkimukset Havaintotutkimukset (observational studies) - eroavat suunnitelluista kokeista siten, että käsittelyt ovat vain havaittuja, mutta tutkimuksen tekijä ei voi vaikuttaa niihin Slide 32 - esim. valmennuskurssiesimerkissä valmennusta saaneet opiskelijat oli valittu satunnaisesti havaintotutkimuksessa opiskelijat olisivat itse saaneet valita, ja tulokset olisivat voineet olla varsin erilaiset - hyvässä havaintotukimuksessa tiedossa yksiköiden taustaerot riittävästi riippumattomia yksiköitä kussakin käsittelyssä tutkimus suunnitellaan ilman viittausta analyysin lopputulokseen tahatoman puutuvan datan määrä minimoidaan (esim. vastaamattomuus) analyysissa huomioidaan suunnittelussa käytetty informaatio - vaikeinta on taustaerojen huomiominen esim. valmennuskurssiesimerkissä mitkä ovat opiskelijoiden aiempi menestys ja motivaatio

17 Datankeruuprosessin mallintaminen - Havaintotutkimukset Havaintotutkimukset (observationa studies) - ehdolla riittävä määrä selittäviä muuttujia voidaan olettaa, että havaintotutkimus on ignorable - kausaalisuuden päättely on vielä asia erikseen Slide 33 Datankeruuprosessin mallintaminen - Sensurointi ja katkaisu Punnitaan kappale 100 kertaa vaa alla, jolla tunnettu mittausmalli N(θ, 1) ja sadaan 91 lukemaa 1. Täysin satunnainen puuttuminen tunnetulla todennäköisyydellä - inkluusio ei riipu y:stä, joten ignorable 2. Täysin satunnainen puuttuminen tuntemattomalla todennäköisyydellä π Slide 34 - ignorable jos π ja θ a priori riippumattomat - nonignorable jos π ja θ a priori riippuvaiset ja nyt tehtävä yhteismalli π:lle ja θ:lle 3. Sensuroitu data: yli 200kg lukemat ilmoitetaan vain, että "liian painava" - 9 sensuroitua mittausta tuovat myös lisäinformaatiota - tehtävä yhteismalli, missä y mis tuntematon ja integroitava sen yli 4. Sensuroitu data tuntemattomalla sensurointipisteellä - sama kuin 3. mutta yhteismalliin otettava mukaan myös sensurointipiste

18 Datankeruuprosessin mallintaminen - Sensurointi ja katkaisu Punnitaan kappale 100 kertaa vaa alla, jolla tunnettu mittausmalli N(θ, 1) ja sadaan 91 lukemaa 5. Katkaistu data: yli 200kg lukemia ei havaita, ei edes tiedetä kuinka monta niitä on - katkaisupiste katkaisee havaitun datan likelihoodin Slide 35 - voidaan myös laskea sensuroituna datana, missä N tuntematon ja priorilla p(n) 1/N 5. Katkaistu data tuntemattomalla katkaisupisteellä - sama kuin 5. mutta yhteismallin mukaan myös katkaisupiste - ei-informatiivisella priorilla katkaisupisteestä ei tietoa ja θ:n marginaaliposteriorijakauma on sama kuin kohdassa 1. Datankeruuprosessin mallintaminen - Sensurointi ja katkaisu Tyypillinen sensuroitu data on elinaikatutkimuksissa - vaihtoehtoisia lääketieteellisiä hoitoja testatessa kokeen päättyessä osa potilaista edelleen elossa, joten heidän elinaikansa on sensuroitu tunnetulla sensurointipisteellä - vastaava myös teknisten laitteiden rasituskokeissa Slide 36

19 Datankeruuprosessin mallintaminen Monimuutkaisempiakin puuttuvan datan tapauksia on, mutta tämä riittää tälle kerralle Slide 37

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Bayesilaisen mallintamisen perusteet

Bayesilaisen mallintamisen perusteet Bayesilaisen mallintamisen perusteet Johdanto Yksiparametrisia malleja Moniparametrisia malleja Slide 1 Päättely suurten otosten tapauksessa ja bayesilaisen päättelyn frekvenssiominaisuudet Hierarkiset

Lisätiedot

Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost) Viime kerralla Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - kuinka monta riippuvaa simulaationäytettä tarvitaan - joitakin perus-mcmc-menetelmien parannuksia Slide 1

Lisätiedot

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion) Luento 10 Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion) Mallin valinta Slide 1 Marginaaliuskottavuus Bayesin kaava missä p(θ y, M) = p(y M) = p(y θ, M)p(θ M) p(y M) p(y θ, M)

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence Tentin materiaali Sivia: luvut 1,2,3.1-3.3,4.1-4.2,5 MacKay: luku 30 Gelman, 1995: Inference and monitoring convergence Gelman & Meng, 1995: Model checking and model improvement Kalvot Harjoitustyöt Tentin

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen Ilkka Mellin Tilastolliset menetelmät Osa 1: Johdanto Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2007) 1 ja mittaaminen >> Tilastollisten aineistojen kerääminen Mittaaminen

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

BECS Bayesilainen mallintaminen Lyhyt englanti-suomi sanasto

BECS Bayesilainen mallintaminen Lyhyt englanti-suomi sanasto BECS-114.2601 Bayesilainen mallintaminen Lyhyt englanti-suomi sanasto Aki Vehtari ja Jarno Vanhatalo September 23, 2013 Lyhyt englanti-suomi-sanasto kurssin termeistä. Osalle termeistä emme tiedä virallista

Lisätiedot

Bayesilainen päätöksenteko / Bayesian decision theory

Bayesilainen päätöksenteko / Bayesian decision theory Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

Otannasta ja mittaamisesta

Otannasta ja mittaamisesta Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten Todennäköisyys Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten tietoliikennejärjestelmien ymmärtämisessä

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Harjoitus 2, viikko 38, syksy 2012 1. Tutustu liitteen 1 kuvaukseen Suuresta bränditutkimuksesta v. 2009. Mikä tämän kuvauksen perusteella on ko.

Lisätiedot

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka Kemometriasta Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka Mistä puhutaan? Määritelmiä Määritys, rinnakkaismääritys Mittaustuloksen luotettavuus Kalibrointi Mittausten

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

MTTTP5, luento Luottamusväli, määritelmä

MTTTP5, luento Luottamusväli, määritelmä 23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A

Lisätiedot

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori. Luento 2 Binomi-malli Posteriorijakauman esittämisestä Informatiivisista priorijakaumista Konjugaattipriori Slide 1 Yksiparametrisia malleja Binomi Jacob Bernoulli (1654-1705), Bayes (1702-1761) Normaali

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Solmu 3/2001 Solmu 3/2001. Kevään 2001 ylioppilaskirjoitusten pitkän matematiikan kokeessa oli seuraava tehtävä:

Solmu 3/2001 Solmu 3/2001. Kevään 2001 ylioppilaskirjoitusten pitkän matematiikan kokeessa oli seuraava tehtävä: Frégier n lause Simo K. Kivelä Kevään 2001 ylioppilaskirjoitusten pitkän matematiikan kokeessa oli seuraava tehtävä: Suorakulmaisen kolmion kaikki kärjet sijaitsevat paraabelilla y = x 2 ; suoran kulman

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1 2 k -faktorikokeet Vilkkumaa / Kuusinen 1 Motivointi 2 k -faktorikoe on k-suuntaisen varianssianalyysin erikoistapaus, jossa kaikilla tekijöillä on vain kaksi tasoa, matala (-) ja korkea (+). 2 k -faktorikoetta

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 16.11.2017/1 MTTTP5, luento 16.11.2017 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla ~,, ~,,. 16.11.2017/2 Esim. Tutkittiin uuden menetelmän käyttökelpoisuutta

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 27. syyskuuta 2007 Antti Rasila () TodB 27. syyskuuta 2007 1 / 15 1 Diskreetit jakaumat Diskreetti tasainen jakauma Bernoulli-jakauma Binomijakauma Geometrinen

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2004) 1 ja mittaaminen Johdatus tilastotieteeseen ja mittaaminen TKK (c) Ilkka Mellin (2004) 2 ja mittaaminen: Mitä opimme? 1/3 Tilastollisen tutkimuksen kaikki mahdolliset kohteet

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy Luento 11 Muutama hyödyllinen Monte Carlo-menetelmä Mitä muuta hyödyllistä Gelman et al kirjasta löytyy Kertaus koko kurssiin - tenttiinlukuohjeet Slide 1 Muutama hyödyllinen Monte Carlo-menetelmä Hylkäyspoiminta

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6) Mat-.3 Koesuunnittelu ja tilastolliset mallit kevät Keskipisteen lisääminen k -faktorikokeeseen (ks. Montgomery 9-6) Esim (Montg. ex. 9-, 6-): Tutkitaan kemiallisen prosessin saannon Y riippuvuutta faktoreista

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1 Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa

Lisätiedot

Otoskoko 107 kpl. a) 27 b) 2654

Otoskoko 107 kpl. a) 27 b) 2654 1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Peliteoria luento 2. May 26, 2014. Peliteoria luento 2

Peliteoria luento 2. May 26, 2014. Peliteoria luento 2 May 26, 2014 Pelien luokittelua Peliteoriassa pelit voidaan luokitella yhteistoiminnallisiin ja ei-yhteistoiminnallisiin. Edellisissä kiinnostuksen kohde on eri koalitioiden eli pelaajien liittoumien kyky

Lisätiedot

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen) 1 MTTTP3 Luento 29.1.2015 Luku 6 Hypoteesien testaus Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? H 0 : µ = µ 0 H 1 : µ < µ 0 Nollahypoteesi Vaihtoehtoinen hypoteesi

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Hypoteesin testaus Alkeet

Hypoteesin testaus Alkeet Hypoteesin testaus Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Johdanto Kokeellinen tutkimus: Varmennetaan teoreettista olettamusta fysikaalisen systeemin käyttäytymisestä

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014 1 MTTTP3 Tilastollisen päättelyn perusteet 2 Luennot 8.1.2015 ja 13.1.2015 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

Lisätiedot

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008. Jatkossa ratkaisuehdotukset ovat tyypillisesti paljon lakonisempia.

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008. Jatkossa ratkaisuehdotukset ovat tyypillisesti paljon lakonisempia. ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008 Harjoitus 1 Ratkaisuehdotuksia ja selittelyjä Tämänkertaiset ratkaisuehdotukset ovat pitkähköjä, ja ne sisältävät paljon selittelyjä. Jatkossa

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla 17.11.2016/1 MTTTP5, luento 17.11.2016 3.5.5 Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla likimain Jos X ~ Bin(n, p), niin X ~ N(np, np(1 p)), kun n suuri. 17.11.2016/2

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden 1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto 9.6.2003

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto 9.6.2003 Männyn laaturajojen integrointi runkokäyrän ennustamisessa Laura Koskela Tampereen yliopisto 9.6.2003 Johdantoa Pohjoismaisen käytännön mukaan rungot katkaistaan tukeiksi jo metsässä. Katkonnan ohjauksessa

Lisätiedot

Osafaktorikokeet. Heliövaara 1

Osafaktorikokeet. Heliövaara 1 Osafaktorikokeet Heliövaara 1 Osafaktorikokeet Kun faktorien määrä 2 k -faktorikokeessa kasvaa, tarvittavien havaintojen määrä voi ylittää kokeentekijän resurssit. Myös estimoitavien korkean asteen yhdysvaikutustermien

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

Havaitsevan tähtitieteen peruskurssi I

Havaitsevan tähtitieteen peruskurssi I Havaintokohteita 9. Polarimetria Lauri Jetsu Fysiikan laitos Helsingin yliopisto Havaintokohteita Polarimetria Havaintokohteita (kuvat: @phys.org/news, @annesastronomynews.com) Yleiskuvaus: Polarisaatio

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Osafaktorikokeet. Kurssipalautetta voi antaa Oodissa Kuusinen/Heliövaara 1

Osafaktorikokeet. Kurssipalautetta voi antaa Oodissa Kuusinen/Heliövaara 1 Osafaktorikokeet Kurssipalautetta voi antaa Oodissa 27.4.-25.5. Kuusinen/Heliövaara 1 Osafaktorikokeet Kun faktorien määrä 2 k -faktorikokeessa kasvaa, tarvittavien havaintojen määrä voi ylittää kokeen

Lisätiedot

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin ja monimuuttuja-analyysiin Loppuseminaari: Terveydenhuollon uudet analyysimenetelmät (TERANA) Aki Vehtari AB HELSINKI UNIVERSITY OF TECHNOLOGY Department of Biomedical Engineering and Computational Science

Lisätiedot

S-108-2110 OPTIIKKA 1/10 Laboratoriotyö: Polarisaatio POLARISAATIO. Laboratoriotyö

S-108-2110 OPTIIKKA 1/10 Laboratoriotyö: Polarisaatio POLARISAATIO. Laboratoriotyö S-108-2110 OPTIIKKA 1/10 POLARISAATIO Laboratoriotyö S-108-2110 OPTIIKKA 2/10 SISÄLLYSLUETTELO 1 Polarisaatio...3 2 Työn suoritus...6 2.1 Työvälineet...6 2.2 Mittaukset...6 2.2.1 Malus:in laki...6 2.2.2

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

9. Tila-avaruusmallit

9. Tila-avaruusmallit 9. Tila-avaruusmallit Aikasarjan stokastinen malli ja aikasarjasta tehdyt havainnot voidaan esittää joustavassa ja monipuolisessa muodossa ns. tila-avaruusmallina. Useat aikasarjat edustavat dynaamisia

Lisätiedot

Kone- ja rakentamistekniikan laboratoriotyöt KON-C3004. Koesuunnitelma: Paineen mittaus venymäliuskojen avulla. Ryhmä C

Kone- ja rakentamistekniikan laboratoriotyöt KON-C3004. Koesuunnitelma: Paineen mittaus venymäliuskojen avulla. Ryhmä C Kone- ja rakentamistekniikan laboratoriotyöt KON-C3004 Koesuunnitelma: Paineen mittaus venymäliuskojen avulla Ryhmä C Aleksi Mäki 350637 Simo Simolin 354691 Mikko Puustinen 354442 1. Tutkimusongelma ja

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen MTTTP5, kevät 2016 4.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen 1. Laitosneuvostoon valitaan 2 professoria, 4 muuta henkilökuntaan kuuluvaa jäsentä sekä 4 opiskelijaa. Laitosneuvostoon

Lisätiedot