MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi I

Sisältö Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista Yhteenveto ja keskustelua kurssista

Datalähteen binaarimalli X 1, X 2,... riippumattomia {0, 1}-arvoisia satunnaislukuja odotusarvona p (tuntematon) Parametri p määrittää datalähteen jakauman, X i :n pistetodennäköisyyfunktio on 1 p, x i = 0, f (x i p) = p, x i = 1, 0, muuten. Tämä on Bernoulli-jakauma parametrina p.

Esimerkki: Mielipidemittaus Usan äänioikeutetuista valittiin satunnaisotannalla n = 200 henkilöä ja heiltä kysyttiin, aikovatko äänestää Trumpia presidentiksi (0=Ei, 1=Kyllä). 70 vastasi kyllä. Mittaustulos X = (X 1,..., X 200 ) noudattaa likimain binaarimallia odotusarvoparametrina p, missä p = E(X i ) = P(X i = 1) on Trumpin (tuntematon) kannatus koko populaatiossa. Tehtävä: Määritä piste-estimaatti ja luottamusväli kannatusosuudelle p.

Estimaatti: Frekventistinen tapa Parametrin p suurimman uskottavuuden estimaatti on m(x) = 1 n n i=1 x i = #{i : x i = 1} n eli ykkösten suhteellinen osuus datajoukossa x. Likiarvoinen (n suuri) 95% luottamusväli on m(x) ± z ˆσ(x) n, ˆσ(x) = m(x)(1 m(x)) on Bernoulli-jakauman keskihajonnan estimaatti z = Φ 1 ( 1 0.95 2 ) 1.96 on luku, jolle P( Z z) = 0.95

Entä jos käytössä on ennakkotietoa kannatusosuudesta p? Esim. aiempien mielipidemittausten mukaan arvioidaan, että kannatus todennäköisesti on lähellä lukua 0.4.

Bayeslainen estimointi Tulkitaan tuntematon kannatusosuus satunnaismuuttujaksi Θ, jonka priorijakauma mallintaa ennakkotietämystä kannatuksesta. Miten priorijakauma valitaan? Uskotaan, että Θ on todennäköisesti 0.4? Uskotaan, että Θ [0.3, 0.5] 95% todennäköisyydellä. Jos valitaan välin [0.3 1/190, 0.5 + 1/190] tasajakauma, saadaan P(Θ [0.3, 0.5]) = 0.2 0.2 + 2/190 = 95%. Onko tämä hyvä priorijakauma? Tuskin, sillä pisteissä, missä priorijakauma on 0, on myös posteriorijakauma väistämättä 0.

Priorijakauman valitseminen Miten priorijakauma valitaan, kun uskotaan että Θ [0.3, 0.5] todennäköisyydellä 95%? Keksi jatkuvan välin [0, 1] jakauma f 0 (t), jonka odotusarvo t f (t)dt = 0.4 tiheysfunktio f 0 (t) > 0 kaikilla t (0, 1) 0.5 0.3 f 0(t)dt 0.95

Beta-jakauma Beta(a, b)-jakauman parametreina a > 0 ja b > 0 tiheysfunktio on { c θ a 1 (1 θ) b 1, kun θ [0, 1], f (θ) = 0, muuten, normitusvakiona c = (a+b 1)! (a 1)!(b 1)!. Beta(1, 1) Beta(3, 9) Beta(9, 3) Beta(9, 9) 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Arvojoukko = [0, 1] Odotusarvo µ = a a+b ja keskihajonta σ = Kertymäfunktiota ei tunneta suljetussa muodossa µ(1 µ) a+b+1 dbeta(theta,a,b); pbeta(theta,a,b)

Priorijakauman valitseminen Miten priorijakauma valitaan, kun uskotaan että Θ [0.3, 0.5] todennäköisyydellä 95%? Valitaan odotusarvoksi µ = 0.4 ja keskihajonnaksi? Normitetulle normaalijakaumalle Z = 0 ± 2 tn:llä 95% Yleiselle normaalijakaumalle Z = µ ± 2σ tn:llä 95% Jos Beta-jakauman hajonta normaalin kaltaista, niin Beta-jakaumalle X = µ ± 2σ suurin piirtein tn:llä 95% Valitaan σ = 0.1/2 0.05. Ratkaistaan Beta(a, b)-jakauman parametrit: µ = a a + b µ(1 µ) σ = a + b + 1 ( a = µ 1 + b = (1 µ) ) µ(1 µ) σ 2 ( 1 + µ(1 µ) σ 2 = 38 ) = 57

Priorijakauman valitseminen Miten priorijakauma valitaan, kun uskotaan että Θ [0.3, 0.5] todennäköisyydellä 95%? Kokeillaan Beta(38, 57)-jakaumaa: Odotusarvo µ = 0.4 Keskihajonta σ = 0.05 Tällöin 0.0 0.2 0.4 0.6 0.8 1.0 P(Θ [0.3, 0.5]) = F 38,57 (0.5) F 38,53 (0.3) = 0.9551861. pbeta(0.5,38,57)-pbeta(0.3,38,57)

Posteriorijakauman määrittäminen Havaitaan n = 200 alkion datajoukko, jossa 70 ykköstä ja 130 nollaa (ykkösten osuus = 35%). Priorijakauma Beta(38, 57): Odotusarvo µ 0 = 0.4 Keskihajonta σ 0 = 0.05 0.0 0.2 0.4 0.6 0.8 1.0 Posteriorijakauma Beta(38 + 70, 57 + 130) = Beta(108, 187): Odotusarvo µ 1 = 108 108+187 = 0.366 Keskihajonta σ 1 = 0.028 0.0 0.2 0.4 0.6 0.8 1.0 Bayeslainen piste-estimaatti = posteriorijakauman odotusarvo 0.366

Bayeslainen väliestimaatti Etsitään piste-estimaatin µ 1 = 0.366 ympäriltä väli, johon posteriorijakaumaa noudattava Θ kuuluu tn:llä 95%. Miten? Jos Beta(108, 187) hajonnaltaan normaalin kaltainen, niin voidaan kokeilla väliä Tällöin µ 1 ± 2σ 1 = 0.366 ± 2 0.028 = 0.366 ± 0.056 P(Θ [0.310, 422] x) 95.47% Johtopäätös: Havaitun datan (70 ykköstä, n = 200) valossa tuntemattoman parametrin Θ ehdollinen todennäköisyys kuulua välille 0.366 ± 0.056 on noin 95%.

Yhteenveto Frekventistinen Data: 70 ykköstä, 130 nollaa Parametrin arvoihin ei liitetä todennäköisyyksiä Parametrilla ei ole priorijakaumaa Parametrilla ei ole posteriorijakaumaa Piste-estimaatti on suurimman uskottavuuden estimaatti m(x) = 70 200 = 0.350 Väliestimaatti on 95% luottamustason luottamusväli m(x) ± 2 ˆσ(x) n = 0.350 ± 0.067 95% samalla menetelmällä estimoiduista luottamusväleistä peittää parametrin Bayeslainen Data: 70 ykköstä, 130 nollaa Parametrin arvoihin liitetään subj. todennäköisyydet Priorijak. Beta(38, 57) µ 0 = 0.400, σ 0 = 0.050 Posteriorijak. Beta(108, 187) µ 1 = 0.366, σ 1 = 0.028 Piste-estimaatti on posteriorijakauman odotusarvo µ 1 = 0.366. Väliestimaatti on 95% posteriorijakauman väli µ 1 ± 2σ 1 = 0.366 ± 0.056 95% todennäköisyydellä parametri kuuluu välille 0.366 ± 0.056

Kysyttävää, kommentoitavaa?

Luentorunko (toteutunut) L1A Todennäköisyyden käsite ja laskusäännöt L1B Satunnaismuuttujat ja todennäköisyysjakaumat L2A Satunnaismuuttujien odotusarvot ja muunnokset L2B Keskihajonta ja korrelaatio L3A Normaaliapproksimaatio L3B Tilastolliset datajoukot L4A Datalähteen stokastinen malli ja parametrien estimointi L4B Bayeslainen tilastollinen päättely L5A Tilastollisen merkitsevyyden testaus I L5B Tilastollisen merkitsevyyden testaus II L6A Tilastolliset luottamusvälit L6B Frekventistiset vs. bayeslaiset menetelmät

Mitä tämän kurssin jälkeen?

Stochastics and Statistics Courses 2016 2017 MS-C2111 - S TOKASTISET PROSESSIT Periodi I, 5 op. Luennoitsija: Kalle Kytölä Esitiedot: MS-A000X Matriisilaskenta MS-A010X Differentiaali- ja integraalilaskenta 1 MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi Kurssilla tutustutaan stokastisten prosessien eli ajasta riippuvien MS-E1600 - P ROBABILITY THEORY satunnaisilmiiden teoriaan ja opitaan analysoimaan ja mallintamaan mm. luonnontieteiden ja tekniikan populaatiomalleja Markovprosessien avulla, ennakoimattomia tapahtumahetkiä Poisson-prosessin avulla, sekä yksinkertaisia uhkapelejä ja sijoitusstrategoioita martingaalien avulla. MS-E1992 - A SYMPTOTIC STATISTICS Periods I II, 1 10 cr. Lecturers: Pauliina Ilmonen & Lasse Leskelä Esitiedot: MS-C1540 Euklidiset avaruudet (or equivalent) MS-C2104 Tilastollisen analyysin perusteet (or equivalent) MS-E1600 Probability theory (only recommended) This is an introduction to the field of asymptotic statistics, which provides tools for analyzing the accuracy of estimators and test statistics computed from large data samples. We will start with fundamental topics such as likelihood inference, U-statistics, and rank procedures, and then proceed to selected more advanced topics. This year the course is organized as a reading seminar with weekly meetings. MS-C2128 E NNUSTAMINEN JA AIKASARJA - ANALYYSI Periodi II, 5 op., BSc Luennoitsija: Lauri Viitasaari Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi, MS-A02XX Differentiaali- ja integraalilaskenta 2 MS-C2111 Stokastiset prosessit "Ennustaminen on vaikeaa, varsinkin tulevaisuuden" Period III, 5 cr. Lecturer: Kalle Kytöä Prerequisites: MS-C1540 Euklidiset avaruudet This course is about the mathematical foundations of randomness. Probability theory is relied on in virtually any advanced topic in stochastics. The basic constructions are identical to measure theory, but there are a number of distinctly probabilistic features such as independence, notions of convergence of random variables, information contained in a sigma-algebra, conditional expectation, characteristic functions and generating functions, laws of large numbers and central limit theorems. MS-C2103 KOESUUNNITTELU JA TILASTOLLISET MALLIT Periodi III, 5 op., BSc\Msc Luennoitsija: Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi Kurssilla esitellään tavallisimpia koejärjestelyitä sekä menetelmiä tilastollisen analyysin tekemiseen. Tavoitteena on oppia valitsemaan sopiva koejärjestely tilastollisen testin toteuttamiseksi, suorittamaan testi ja analysoimaan tulokset. Kurssi kattaa regressioanalyysin perusteet, varianssianalyysin sekä valikoituja koejärjestelyitä, kuten lohkoasetelmat, faktorikokeet sekä vastepintamenetelmän. Kurssilla käytetään R-ohjelmistoa. MS-E1602 - L ARGE RANDOM SYSTEMS Period IV, 5 cr. Lecturer: Kalle Kytölä Prerequisites: MS-E1600 Probability theory Many interesting random systems contain a large number of simpler constituents interacting with each other. This course covers both mathematical techniques for the study of such systems, and important probabilistic models of a range of different phenomena. The theory focuses on tightness and weak convergence of probability measures. Examples include random walk and Brownian motion, percolation, Curie-Weiss model and Ising model, and voter model and contact process. -Niels Bohr MS-E2112 M ULTIVARIATE STATISTICAL ANALYSIS MS-E1990 H OW TO LIE WITH STATISTICS Period II, 5 cr., MSc Lecturer: Pauliina Ilmonen Prerequisites: At least one MSc statistics/probability course This course is an advanced course in statistics. Despite the name, the goal is not to learn to lie with statistics, but to learn to spot if there is something fishy in a statistical analysis. The ultimate goal is to learn to tell the truth with statistics. Majority of the lectures, instead of traditional lecturing, consists of discussions. Students will find problematic data examples themselves and their findings and ideas for improving data analyses are discussed during the lectures. Students will also learn to defend their ideas and discoveries by participating in a debate. MS-E1998 I NTRODUCTION TO R- PROGRAMMING Period II (Sat. 29.10. and Sun. 30.10.), 1 cr., BSc\MSc Lecturer: Niko Lietzén Prerequisites: none This intensive course is an introduction to R-programming. The goal is to learn the basic commands required to work with R. Students are not expected to have any prior experience with R-programming. Note that, in order to complete the course, it is mandatory to attend all the lectures. The lectures are from 8:15 to 16:00 on Saturday 29.10 and from 8:15 to 16:00 on Sunday 30.10. this course. The topics of the course are multivariate location and scatter, principal component analysis, bivariate correspondence analysis, multivariate correspondence analysis, canonical correlation analysis, discriminant analysis, classification, and clustering. Cor(x,y) = 0.02 y Periods III IV, 5 cr., MSc Lecturer: Pauliina Ilmonen Prerequisites: At least one statistics/probability course and one matrix algebra course This course is an introduction to multivariate statistical analysis. The goal is to learn basics of common multivariate data analysis techniques and to use the methods in practice. Software R is used in the exercises of x MS-C2104 I NTRODUCTION TO S TATISTICAL I NFERENCE Periods III IV, 5 cr., BSc\MSc Lecturer: Pauliina Ilmonen Prerequisites: MS-A05XX First Course in probability and statistics MS-A00x Matrix algebra This course is an introduction to statistical analysis and statistical inference. Course topics include estimation, simple parametric and nonparametric tests, statistical dependence and correlation, linear regression analysis and analysis of variance. Software R is used in this course. Histogram of x Frequency Jos tietyt matemaattiset oletukset täyttyvät, voidaan tehdä käyttökelpoisia ennusteita historiallisten aikasarja-aineistojen perusteella. Kurssin tavoitteena on oppia, kuinka aikasarjoja analysoidaan ja miten niiden avulla laaditaan ennusteita. Kurssi kattaa yleisimmät mallit, kuten ARIMAmallit ja dynaamiset regressiomallit, mutta myös muita tulosten kannalta oleellisia asioita, kuten diagnostiikan ja mallin valinnan. Kurssilla käytetään R-ohjelmistoa. x MS-E1997 - R ANDOM MATRICES Period V, 1 10 cr. Lecturer: Christian Webb Prerequisites: MS-A030X Differentiaali- ja integraalilaskenta 3 MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi (MS-C1300 Kompleksianalyysi) The theory of random matrices has been a rich source of exciting mathematics with connections to many areas of mathematics and other disciplines such as number theory, combinatorics, the theory of orthogonal polynomials, physics, and statistics. Random matrices also have important engineering applications in image and signal processing and wireless communication. This course will cover the basic theory of random matrices and time permitting discuss applications such as compressed sensing, modelling sample covariance matrices, Anderson localization, and properties of random graphs.

Kurssi päättyy tähän. Onnea tenttiin ja tervetuloa todennäköisyysteorian ja tilastotieteen jatkokursseille!