MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Heikki Seppälä, Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Osaamistavoitteet Kurssin suorittanut: 1. Osaa laskea yksinkertaisten satunnaisilmiöiden ehdollisia todennäköisyyksiä Bayesin kaavan avulla. 2. Osaa määrittää keskeisimpien todennäköisyysjakaumien tunnuslukuja analyyttisesti ja tilastollisten taulukoiden avulla. 3. Tunnistaa tilanteita, joissa satunnaisilmiön jakaumaa voi arvioida normaalijakauman avulla. 4. Osaa estimoida yksinkertaisen tilastollisen mallin parametrit annetusta datajoukosta. 5. Osaa testata yksinkertaisten tilastollisten hypoteesien paikkansapitävyyttä. 6. Osaa analysoida kaksiulotteisen datajoukon korrelaatioita lineaarisen regressiomallin avulla.

Kurssin sisältö I Todennäköisyyslaskenta Viikko 1 Viikko 2 Viikko 3 Todennäköisyyden käsite ja laskusäännöt. Tilastollinen riippumattomuus. Ehdollinen todennäköisyys. Diskreetit satunnaismuuttujat. Jatkuvat satunnaismuuttujat, jakaumat ja tunnusluvut. Generoivat funktiot. Yksiulotteisia diskreettejä ja jatkuvia jakaumia. Satunnaisvektorit ja niiden jakaumat. Moniulotteisia jakaumia. II Tilastotiede Viikko 4 Viikko 5 Viikko 6 Tilastollisen datan mittaaminen ja kuvaaminen. Otokset ja otosjakaumat. Tilastollinen estimointi. Tilastollinen merkitsevyys. Tilastollinen testaaminen Tilastollinen riippuvuus ja korrelaatio. Yhden selittäjän lineaarinen regressiomalli.

Kurssin järjestelyt Luennoitsija: Heikki Seppälä Vastaanotto ma 14 15 @ Y240 Pääassistentti: Vesa Husgafvel vesa.husgafvel@aalto.fi Luennot: ma ja pe klo 10 12 @ A-sali (Y202a) Harjoitukset: Viikoittain 2 x 2h + STACK-tehtävät Suorittaminen: Laskuharjoitukset ja 2 välikoetta tai tentti Yksityiskohtaiset tiedot: mycourses.aalto.fi/course/view.php?id=7519&lang=fi

Suorittaminen ja arvostelu Kurssin voi suorittaa kahdella eri tavalla: (1) Tekemällä harjoitustehtäviä sekä osallistumalla välikokeisiin 50% maksimipistemäärästä tulee välikokeista ja 50% laskuharjoituksista (koti-/harjoitustehtävät + stack tehtävät) kurssin läpäisemiseksi molemmista välikokeista on saatava vähintään 6/24 pistettä. laskuharjoituspisteiden saamiseksi laskuharjoituksissa on oltava paikalla: tehtäviä ei voi palauttaa paperilla tai sähköpostitse. Välikokeita ei voi uusia ja niitä voi siirtää ainoastaan erityisen painavasta syystä (kertausharjoitus, lääkärintodistus). Samaan aikaan oleva muun kurssin tentti ei ole riittävä syy. (2) Tenttimällä. Arvosana määräytty täysin tenttipisteiden mukaan, eikä laskuharjoituksia huomioida. Tenttimässä voi käydä aina kun jostakin koodilla MS-A0501, MS-A0502, MS-A0503 tai MS-A0504 olevasta kurssista on tentti ja paras arvosana jää voimaan.

Kurssimateriaalia verkossa Päämateriaali Luentokalvot Esimerkkikokoelmat Harjoitustehtävät Tilastolliset taulukot Lisämateriaalia I Mellin. Todennäköisyyslaskenta. I Mellin. Tilastolliset menetelmät. C M Grinstead & J L Snell 1997. Introduction to Probability and Statistics. DeGroot & Schervish 2014. Probability and Statistics.

Kysyttävää kurssin järjestelyistä? Luennoitsija: Heikki Seppälä Vastaanotto ma 14 15 @ Y240 Pääassistentti: Vesa Husgafvel vesa.husgafvel@aalto.fi MyCourses: mycourses.aalto.fi/course/view.php?id=7519&lang=fi

Todennäköisyysteoria on matematiikan osa-alue, jossa tarkastellaan matemaattisesti määriteltyjen satunnaisilmiöiden käyttäytymistä. Tilastotiede pyrkii kuvailemaan havaittuja satunnaisilmiöitä sekä mallintamaan ja tekemään päätelmiä niiden käyttäytymisestä.

Stochastics and Statistics Courses 2015 2016 MS-C2111 S TOKASTISET PROSESSIT MS-E1600 P ROBABILITY THEORY Periodi I, 5 op, tekn. kand. Luennoitsija: Lasse Leskelä Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A000X Matriisilaskenta MS-A020X Differentiaali- ja integraalilaskenta 2 Stokastisilla prosesseilla mallinnetaan tekniikan, talouden ja luonnontieteiden sovelluksissa esiintyviä ajasta riippuvia satunnaisilmiöitä. Tällä kurssilla opimme analysoimaan stokastisia populaatiomalleja Markov-prosessien avulla sekä ennakoimattomien tapahtumien esiintymistä Poisson-prosessien avulla. Lisäksi opimme analysoimaan yksinkertaisten uhkapelien sijoitusstrategioita martingaalien avulla. Tämän kurssin tiedot ovat tärkeitä useimmilla stokastiikan ja tilastotieteen jatkokursseilla. Period III, 5 cr, MSc Lecturer: Prerequisites: MS-C2103 KOESUUNNITTELU JA TILASTOLLISET MALLIT MS-C2128 E NNUSTAMINEN JA AIKASARJA - ANALYYSI la. Kurssin tavoitteena on oppia, kuinka aikasarjoja analysoidaan ja miten niiden avulla laaditaan ennusteita. Kurssi kattaa yleisimmät mallit, kuten ARIMA-mallit ja dynaamiset regressiomallit, mutta myös muita tulosten kannalta oleellisia asioita, kuten diagnostiikan ja mallin valinnan. Kurssilla käytetään R-ohjelmistoa. -Niels Bohr Jos tietyt matemaattiset oletukset täyttyvät, voidaan tehdä käyttökelpoisia ennusteita historiallisten aikasarja-aineistojen perusteel- 30 0 10 "Ennustaminen on vaikeaa, varsinkin tulevaisuuden" 2007 2008 2009 2010 2011 2012 2013 Date MS-E1601 B ROWNIAN MOTION AND STOCHASTIC ANALYSIS Period II, 5 cr, MSc Lecturer: Lauri Viitasaari Prerequisites: MS-E1600 Probability theory (MS-C2111 Stokastiset prosessit) This course introduces the foundations of stochastic analysis and stochastic integration with respect to a Brownian motion. The course starts with a construction of Brownian motion and analysis of its basic properties, and continues with the construction of It o stochastic integral. We derive the It o formula which is the equivalent of the fundamental theorem of calculus for stochastic integrals, and discuss its applications to mathematical finance. MS-E1996 M ULTIVARIATE LOCATION AND SCATTER Where is the data? How is it scattered? 15 10 When dealing with multivariate observations, the very first questions that come to mind are: 20 Pauliina Ilmonen At least one matrix algebra and one MSc level statistics/probability course 5 Period II, 5 cr, MSc Lecturer: Prerequisites: 10 15 20 Periodit III IV, 5 op, tekn. kand./di Luennoitsija: Heikki Seppälä Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi Kurssilla esitellään tavallisimpia koejärjestelyitä sekä menetelmiä tilastollisen analyysin tekemiseen. Tavoitteena on oppia valitsemaan sopiva koejärjestely tilastollisen testin toteuttami- seksi, suorittamaan testi ja analysoimaan tulokset. Kurssi kattaa regressioanalyysin perusteet, varianssianalyysin sekä valikoituja koejärjestelyitä, kuten lohkoasetelmat, faktorikokeet sekä vastepintamenetelmän. Kurssilla käytetään R-ohjelmistoa. 20 Tenor basis spread (bp) 40 Periodi II, 5 op, tekn. kand. Luennoitsija: Heikki Seppälä Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A020X Differentiaali- ja integraalilaskenta 2 (MS-C2111 Stokastiset prosessit) Kalle Kytölä MS-C1540 Euklidiset avaruudet This course is about the mathematical foundations of randomness. Most advanced topics in stochastics and statistics rely on probability theory. The basic constructions are identical to measure theory, but there are a number of distinctly probabilistic features such as independence, notions of convergence of random variables, information contained in a sigma-algebra, conditional expectation, characteristic functions and generating functions, laws of large numbers and central limit theorems, etc. These questions are discussed together with selected applications. This is an advanced course in statistics for MSc and doctoral students. Only 10 students are admitted to this course, so email the lecturer ASAP to register. Topics include: M-estimates of location and scatter, MCD-estimates, spatial sign and rank based estimates, multivariate location tests, autocovariance matrices and applications, PCA using different location and scatter estimates, multivariate regression analysis based on spatial signs and ranks, scatter matrix based ICA, complex time series ICA, ICS and skewness and kurtosis. MS-C2104 T ILASTOLLISEN ANALYYSIN PERUSTEET Periodit III IV, 5 op, tekn. kand./di Luennoitsija: Pauliina Ilmonen Esitiedot: MS-A050X Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A000X Matriisilaskenta Kurssi on johdatus tietokoneavusteiseen tilastolliseen analyysiin ja tilastolliseen päättelyyn. Kurssin aiheita ovat estimointi ja väliestimointi, yksinkertaiset parametriset ja epäparametriset testit, tilastollinen riippuvuus ja korrelaatio, lineaarinen regressioanalyysi ja varianssianalyysi. Kurssilla käytetään R-ohjelmistoa. MS-E2112 M ULTIVARIATE STATISTICAL ANALYSIS Periods III IV, 5 cr, MSc Lecturer: Prerequisites: Pauliina Ilmonen At least one statistics/probability and one matrix algebra course This course is an introduction to multivariate statistical analysis. The goal is to learn basics of common multivariate data analysis techniques and to use the methods in practice. Software R is used in the exercises of this course. The topics of the course are multivariate location and scatter, principal component analysis, bivariate correspondence analysis, multivariate correspondence analysis, canonical correlation analysis, discriminant analysis, classification, and clustering. MS-E1602 L ARGE RANDOM SYSTEMS Period IV, 5 cr, MSc Lecturers: Lasse Leskelä and Kalle Kytölä Prerequisites MS-E1600 Probability theory, (MS-C2111 Stokastiset prosessit) Many interesting random systems contain a large number of simpler constituents interacting with each other. This course covers both mathematical techniques for the study of such systems, and important probabilistic models of a range of different phenomena. The theory focuses on tightness and weak convergence of probability measures. Examples include random walk and Brownian motion, percolation, Curie-Weiss model and Ising model, and voter model and contact process.

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 1: Todennäköisyyden perusteet Lasse Leskelä Aalto-yliopisto

Sisältö Satunnaisilmiöt, realisaatiot ja tapahtumat Empiirinen, symmetrinen ja yleinen todennäköisyys Todennäköisyyden peruslaskusäännöt Ehdollinen todennäköisyys ja riippumattomuus Kokonaistodennäköisyys ja Bayesin kaava Satunnaismuuttujan käsite Diskreetit satunnaismuuttujat

Satunnaisilmiö Satunnaisilmiö on ilmiö, jonka realisaatiota ei varmuudella tunneta. Realisaatio on satunnaisilmiön toteuma. Perusjoukko S on satunnaisilmiön mahdollisten realisaatioiden joukko.(sanotaan myös otosavaruudeksi.) Tapahtumat eli perusjoukon osajoukot A S vastaavat satunnaisilmiöstä tehtäviä havaintoja. Tulkinta Tapahtuma A sattuu, kun satunnaisilmiön realisaatio s A. Täysi osajoukko S on varma tapahtuma. Tyhjä osajoukko on mahdoton tapahtuma.

Esim. Nopan heitto Realisaatio i = nopan silmäluku Perusjoukko S = {1, 2,..., 6} Tapahtumia ovat S:n osajoukot, esim. A = silmäluku on parillinen = {2, 4, 6}. B = silmäluku on > 4 = {5, 6}.

Esim. Kahden nopan heitto Realisaatio (i, j), missä i on nopan 1 ja j nopan 2 silmäluku Perusjoukko on S = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}. Tapahtumia ovat S:n osajoukot, esim. A = silmäluvut ovat samat = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. B = 1. nopan silmäluku on 1 = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)}.

Esim. Huomisen sademäärä Espoossa (mm) Realisaatiot ovat reaaliluvut x 0. Perusjoukko S = {x R : x 0}. Tapahtumia ovat esim. A = huomenna sataa yli 10 mm = (10, ) B = huomenna ei sada = {0}

Tapahtumien yhdisteleminen Perusjoukon tapahtumista voidaan muodostaa uusia tapahtumia loogisin päättelysäänöin: A ja B sattuvat A tai B sattuu A ei satu B sattuu mutta A ei Todennäköisyyslaskentaa varten tapahtumat tulee ilmaista joukko-opin kielellä.

Tapahtumien leikkaus Tapahtuma A ja B sattuvat sisältää ne realisaatiot, jotka kuuluvat joukkoihin A ja B: A B = {s S : s A ja s B}. Esim (Nopan heitto) A = Silmäluku on > 3 = {4, 5, 6} B = Silmäluku on parillinen = {2, 4, 6} A B = Silmäluku on > 3 ja parillinen = {4, 6}

Tapahtumien yhdiste Tapahtuma A tai B sattuu sisältää ne realisaatiot, jotka kuuluvat joukkoihin A tai B: A B = {s S : s A tai s B}. Esim (Nopan heitto) A = Silmäluku on > 3 = {4, 5, 6} B = Silmäluku on parillinen = {2, 4, 6} A B = Silmäluku on > 3 tai parillinen = {2, 4, 5, 6}

Tapahtuman vastakohta Tapahtuma A ei satu sisältää ne realisaatiot, jotka eivät kuulu joukkoon A: A c = {s S : s A}. Esim (Nopan heitto) A = Silmäluku on > 3 = {4, 5, 6} A c = Silmäluku on 3 = {1, 2, 3}

Tapahtumien erotus Tapahtuma B sattuu mutta A ei sisältää ne realisaatiot, jotka kuuluvat joukkoon B mutta eivät joukkoon A: B \ A = {s S : s B ja s A}. Esim (Nopan heitto) A = Silmäluku on > 3 = {4, 5, 6} B = Silmäluku on parillinen = {2, 4, 6} B \ A = Silmäluku on parillinen ja 3 = {2}

Toisensa poissulkevat tapahtumat Tapahtumat A ja B poissulkevat toisensa, jos vain toinen niistä voi sattua, eli A B =. Tapahtumat A 1, A 2,... poissulkevat toisensa, jos vain yksi niistä voi sattua, eli A i A j = aina kun i j. Esim (Nopan heitto) A = Silmäluku on parillinen. Tapahtumat A ja A c poissulkevat toisensa. A i = Silmäluku on i. Tapahtumat A 1, A 2,..., A 6 poissulkevat toisensa.

Tapahtumien yhdisteleminen Yhteenveto Tulkinta Varma tapahtuma Mahdoton tapahtuma A sattuu A ja B sattuvat A tai B sattuu A ei satu B sattuu mutta A ei A ja B poissulkevat toisensa Joukko-opin lauseke S A A B A B A c B \ A A B =

Todennäköisyyden käsite Reaalimaailmassa todennäköisyys ilmenee monin eri tavoin: Huomenna sataa todennäköisyydellä 5 %. CERN on löytänyt uuden alkeishiukkasen todennäköisyydellä 99.9999999 %. Auer vangittiin todennäköisin syin epäiltynä murhasta. Todennäköisyyden yleispätevä tieteellinen määrittely kaikkia konteksteja tyydyttävällä tavalla on vaikeaa David Aldous: Annotated list of contexts where we perceive chance http://www.stat.berkeley.edu/~aldous/real-world/100.html

Empiirinen todennäköisyys Tarkastellaan satunnaisilmiötä, josta voidaan tehdä n riippumatonta havaintoa olosuhteiden säilyessä muuttumattomina. Tapahtuman A suhteellinen frekvenssi on suhdeluku f A n, missä f A on niiden havaintojen lkm, joissa tapahtuma A sattuu Tietyissä konteksteissa voidaan olettaa, että suhteellinen frekvenssi lähestyy raja-arvoa f A n p A, kun n. Jos tällainen raja-arvo p A on olemassa, kutsutaan sitä tapahtuman A empiiriseksi todennäköisyydeksi ja tällöin p A f A n.

Esim. Kolikon heitto Kruunan suhteellinen frekvenssi heittojen määrän kasvaessa Kruunan ja klaavan suhteelliset frekvenssit 1000 heitossa. http://www.r-project.org/ http://www.random.org/

Esim. Nopan heitto Kuutosen suhteellinen frekvenssi heittojen määrän kasvaessa Kaikkien silmälukujen suhteelliset frekvenssit 1000 heitossa. http://www.r-project.org/ http://www.random.org/

Empiirinen todennäköisyys Rajoituksia Suhteellisen frekvenssin määrääminen vaatii empiirisen kokeen toistamista Mikään ei automaattisesti takaa, että suhteellisen frekvenssin raja-arvo on olemassa Ei voida käsitellä tilanteita, joista havaintoja ei ole saatavilla Esim Todennäköisyys, että Olkiluoto 1 toimii ongelmitta seuraavat kymmenen vuotta. Todennäköisyys, että langattomasta tukiasemasta lähetetty bittijono saapuu virheettä päätelaitteeseen. Todennäköisyys päästä läpi tästä kurssista ensi yrittämällä.

Symmetrinen todennäköisyys Jos äärellisen perusjoukon S jokainen realisaatio on yhtä todennäköinen, on tapahtuman A S todennäköisyys luontevaa määritellä kaavalla Pr(A) = n(a) n(s), missä n(a) on joukon A alkioiden lukumäärä. Symmetrisiä satunnaisilmiöitä Kolikon heitto Nopan heitto Lottoarvonta Ei-symmetrisiä satunnaisilmiöitä Nastan putoaminen lattialle Tikan heitto Vakioveikkaus

Diskreetti tasajakauma Kuvaus A Pr(A) = n(a) n(s) Se toteuttaa ehdot: on joukon S tasajakauma. (i) Varman tapahtuman todennäköisyys on Pr(S) = 1. (ii) Jokaiselle tapahtumalle A pätee 0 Pr(A) 1. (iii) Toisensa poissulkeville tapahtumille A 1,..., A k pätee Pr(A 1 A k ) = Pr(A 1 ) + + Pr(A k ). Huom Yo. määritelmässä täytyy perusjoukon S olla äärellinen.

Kombinatorinen todennäköisyyslaskenta Kun äärellisen perusjoukon S satunnaisilmiö on symmetrinen eli tasajakautunut, voidaan kaikkien tapahtumien todennäköisyydet periaatteessa suoraan laskea kaavasta Pr(A) = n(a) n(s). Kun joukko A (tai S) on suuri, voi lukumäärän n(a) laskeminen olla vaikeaa, ellei jopa mahdotonta. Kombinatoriikka on tämäntyyppisiin ongelmiin keskittynyt matematiikan osa-alue. Esim (Vaikea kombinatoriikan ongelma) Mikä on todennäköisyys, että 10 9 solmua ja 3 10 9 linkkiä sisältävästä täysin satunnaisesti muodostetusta verkosta löytyy yli 10 askeleen pituinen polku?

Kombinatoriikan kaksi perustulosta Fakta (Järjestetyt listat) Joukosta, jossa on n alkiota, voidaan poimia k alkiota järjestettyyn listaan n(n 1) (n k + 1) eri tavalla. Erityisesti n:n alkion joukon kaikki alkiot voidaan listata järjestykseen n! = n(n 1) 1 eri tavalla. Fakta (Järjestämättömät osajoukot) Joukosta, jossa on n alkiota, voidaan muodostaa k:n alkion järjestämätön osajoukko binomikertoimen ( ) n n! = k k!(n k)! ilmaisemalla määrällä eri tapoja.

Esimerkki: Lottoarvonta Mikä on todennäköisyys saada 7 oikein yhdellä 7 numeron lottorivillä? Veikkaus Oy:n lottoarvonnan perusjoukko on S = 7:n alkion osajoukot joukosta {1,..., 39} ja sen koko on n(s) = ( 39 7 ). Tapahtuma A = valitulla lottorivillä 7 oikein sisältää täsmälleen yhden realisaation, joten n(a) = 1. Symmetrian perusteella lottoarvonta on tasajakautunut, joten Pr(A) = n(a) n(s) = 1 ( 39 7 ) = 1 15380937.

Yleinen todennäköisyys Todennäköisyysjakauma eli todennäköisyysmitta perusjoukolla S on kuvaus, joka liittää jokaiseen tapahtumaan A S luvun Pr(A), ja toteuttaa: (i) Varman tapahtuman todennäköisyys on Pr(S) = 1. (ii) Jokaiselle tapahtumalle A pätee 0 Pr(A) 1. (iii) Mille tahansa äärelliselle tai äärettömälle jonolle toisensa poissulkevia tapahtumia A 1, A 2,... pätee Huom Pr(A 1 A 2 ) = Pr(A 1 ) + Pr(A 2 ) + Ominaisuus (iii) on poissulkevien yhteenlaskusääntö. Diskreetti tasajakauma Pr(A) = n(a) n(s) toteuttaa ehdot (i) (iii), joten se on todennäköisyysjakauma.

Poissulkevien yhteenlaskusääntö Laskusääntö Toisensa poissulkeville tapahtumille A 1, A 2,..., A k pätee Pr(A 1 A 2 A k ) = Pr(A 1 ) + + Pr(A k ). Todistus. Väite on todennäköisyysjakauman ominaisuus (iii). Esim Eduskunnassa on n = 200 kansanedustajaa, josta n SDP = 34 ja n Vas = 10. Umpimähkään valittu kansanedustaja on SDP:n tai Vasemmistoliiton jäsen todennäköisyydelllä Pr( SDP tai Vas ) = Pr( SDP )+Pr( Vas ) = 34 200 + 10 200 = 44 200.

Vastakohdan todennäköisyys Laskusääntö A:n vastakohdan todennäköisyys on Pr(A c ) = 1 Pr(A). Todistus. Koska A A c = S, ja koska A ja A c poissulkevat toisensa, 1 (i) = Pr(S) = Pr(A A c ) (iii) = Pr(A) + Pr(A c ). Esim Todennäköisyys, että kahdella kolikonheitolla saadaan vähintään yksi kruuna on Pr( vähintään 1 kruuna ) = 1 Pr( molemmat klaavoja ) = 1 1 4 = 3 4.

Mahdottoman tapahtuman todennäköisyys Laskusääntö Mahdottoman tapahtuman todennäköisyys on Pr( ) = 0. Todistus. Koska on varman tapahtuman S vastakohta, havaitaan vastakohdan laskusääntöä ja aksioomaa (i) käyttämällä, että Pr( ) = 1 Pr(S) (i) = 1 1 = 0. Esim Eduskunnasta umpimähkään valittu kansanedustaja on SDP:hen ja Kokoomuksen jäsen todennäköisyydelllä Pr( SDP ja Kok ) = Pr( ) = 0.

Erotuksen todennäköisyys Laskusääntö Tapahtuman B sattuu mutta A ei todennäköisyys on Pr(B \ A) = Pr(B) Pr(A B). Todistus. Kirjoittamalla B poissulkevien tapahtumien B \ A ja A B yhdisteenä, Pr(B) = Pr((B \ A) (A B)) (iii) = Pr(B \ A) + Pr(A B). Esim Vedetään satunnainen pelikortti korttipakasta: Pr( kortti on pata muttei kuva ) = Pr( pata ) Pr( pata ja kuva ) = 13 52 3 52 = 10 52.

Yleinen yhteenlaskusääntö Laskusääntö Tapahtumien A ja B yhdisteelle pätee Pr(A B) = Pr(A) + Pr(B) Pr(A B). Todistus. Kirjoitetaan A B = (A \ B) (A B) (B \ A), jolloin Pr(A B) (iii) = Pr(A \ B) + Pr(A B) + Pr(B \ A). Erotustapahtuman laskusäännön mukaan Pr(A \ B) = Pr(A) Pr(A B), Pr(B \ A) = Pr(B) Pr(A B). Väite seuraa summaamalla yo. yhtälöt ja sieventämällä.

Todennäköisyyden monotonisuus Laskusääntö Jos A B, niin Pr(A) Pr(B). Todistus. Koska tässä tapauksessa A B = A, seuraa tulos erotuksen laskusäännöstä 0 Pr(B \ A) = Pr(B) Pr(A B) = Pr(B) Pr(A). Esim (Satunnainen kortti pakasta) Jos kortti on pata, on se myös musta. Näin ollen 13 26 = Pr( pata ) Pr( musta ) = 52 52.

Todennäköisyyden peruslaskusäännöt Yhteenveto Yleinen yhteenlaskusääntö: Pr(A B) = Pr(A) + Pr(B) Pr(A B). Poissulkevien yhteenlaskusääntö: Pr(A B) = Pr(A) + Pr(B), kun A B =. Vastakohdan ja erotuksen todennäköisyydet: Pr(A c ) = 1 Pr(A), Pr(B \ A) = Pr(B) Pr(A B). Monotonisuus: Pr(A) Pr(B), kun A B.

Ehdollinen todennäköisyys Tapahtuman A ehdollinen todennäköisyys tapahtuman B sattuessa määritellään kaavalla Pr(A B) = Pr(A B), Pr(B) 0. Pr(B) Mikäli Pr(B) = 0, jätetään Pr(A B) määrittelemättä.

Esim. Eduskunta Eduskunnan 200 kansanedustajasta naisia on 83. SDP:llä on 34 kansanedustajaa, joista 21 on naisia. Umpimähkään valittu kansanedustaja on SDP:n jäsen todennäköisyydellä Pr( SDP ) = 34 200 = 0.17. Mikä on todennäköisyys, että umpimähkään valittu naiskansanedustaja on SDP:n jäsen? Pr( SDP ja nainen ) Pr( SDP nainen ) = Pr( nainen ) = 21/200 83/200 0.253.

Yleinen tulosääntö Laskusääntö Aina kun Pr(A) 0, pätee yleinen tulosääntö Pr(A B) = Pr(A) Pr(B A). Tulkinta Yhteistapahtuman sekä A että B sattuvat todennäköisyys saadaan kertomalla tapahtuman A todennäköisyys tapahtuman B ehdollisella todennäköisyydellä A:n sattuessa. Todistus. Ehdollisen todennäköisyyden määritelmän perusteella Pr(A B) Pr(A B) = Pr(A) = Pr(A) Pr(B A). Pr(A)

Monen tapahtuman tulosääntö Laskusääntö Aina kun Pr(A 1 A k 1 ) 0, pätee yleinen tulosääntö Pr(A 1 A k ) = Pr(A 1 ) Pr(A 2 A 1 ) Pr(A 3 A 1 A 2 ) Pr(A k A 1 A k 1 ). Tulkinta Yhteistapahtuman jokainen tapahtumista A 1,..., A k sattuu todennäköisyys saadaan kertomalla keskenään: A 1 :n todennäköisyys, A 2 :n ehdollinen tn tapahtuman A 1 sattuessa, A 3 :n ehdollinen tn tapahtumien A 1 ja A 2 sattuessa,... A k :n ehdollinen tn tapahtumien A 1, A 2,..., A k 1 sattuessa.

Tulosääntö Esimerkki Nostetaan korttipakasta palauttamatta 3 korttia. Millä todennäköisyydellä kaikki ovat patoja? A i = i:s kortti on pata A = A 1 A 2 A 3 Yleisen tulosäännön perusteella Pr(A) = Pr(A 1 ) Pr(A 2 A 1 ) Pr(A 3 A 1 A 2 ) = 13 52 12 51 11 50 0.013. Vaihtoehtoinen kombinatorinen tapa: S = kolmen kortin järjestämättömät osajoukot, n(s) = ( ) 52 3. Tapahtuman A realisaatiot vastaavat kolmen kortin osajoukkoja patojen joukosta. Näitä on n(a) = ( ) 13 3 kpl. Symmetrian nojalla satunnaisilmiö on tasajakautunut, joten Pr(A) = n(a) n(s) = ( 13 3 ) ( 52 3 ) = 13 12 11 52 51 50 0.013.

Tilastollinen riippuvuus ja riippumattomuus Tapahtumat A ja B ovat toisistaan riippumattomat, jos Pr(A B) = Pr(A) Pr(B). Kokoelma tapahtumia {A i, i I } on riippumaton, jos kaikilla i 1, i 2,..., i k I. Pr(A i1 A ik ) = Pr(A i1 ) Pr(A ik ) Esim Tilanteita, joissa riippumattomuus on intuitiivisesti selvää: Perättäiset kolikonheitot, kunhan kolikkoa heitetään riittävän korkealle. Otanta palauttaen: nostetaan uurnasta arpalippuja niin, että nostettu lippu palautetaan uurnaan ja sen jälkeen uurna sekoitetaan hyvin.

Riippumattomuus ja ehdollinen todennäköisyys Fakta Kun Pr(A) 0 ja Pr(B) 0, ovat seuraavat yhtäpitävät: A ja B ovat riippumattomat. Pr(A B) = Pr(A). Pr(B A) = Pr(B). Tulkinta Jos Pr(A B) Pr(A), niin tieto B:n sattumisesta sisältää informaatiota, jota voidaan hyödyntää A:n todennäköisyyden määrittämiseen. Todistus. Hyvä harjoitustehtävä.

Esimerkki: Korttipakka Nostetaan pakasta satunnainen kortti. A = kortti on pata B = kortti on ässä Ovatko A ja B riippuvat vai riippumattomat? Tarkastetaan laskemalla, päteekö Pr(A B) = Pr(A) Pr(B). Pr(A) = 13 52 = 1 4. Pr(B) = 4 52 = 1 13. Pr(A B) = Pr( kortti on pataässä ) = 1 52. Koska Pr(A B) = Pr(A) Pr(B), ovat A ja B toisistaan riippumattomat.

Kokonaistodennäköisyyden kaava Perusjoukon S ositus on kokoelma toisensa poissulkevia tapahtumia B 1,..., B n, joiden yhdiste on S. Laskusääntö Jos B 1,..., B n muodostavat perusjoukon osituksen ja Pr(B i ) 0 kaikilla i, niin n Pr(A) = Pr(B i ) Pr(A B i ). i=1

Todistus. Tapahtumat C i = A B i poissulkevat toisensa ja niiden yhdiste on A. Poissulkevien yhteenlaskusäännöstä ja tulosäännöstä Pr(A B i ) = Pr(B i ) Pr(A B i ) seuraa ( n ) Pr(A) = Pr C i = i=1 n Pr(C i ) = i=1 = n Pr(A B i ) i=1 n Pr(B i ) Pr(A B i ). i=1

Kokonaistodennäköisyyden kaava: Esimerkki Oletetaan tunnetuksi, että naisista 75 %:lla ja miehistä 15 %:lla on pitkät hiukset. Teekkareista naisia on arviolta 27 %. Millä todennäköisyydellä satunnaisesti ohikulkevalla teekkarilla on pitkät hiukset? H = { ohikulkijalla on pitkät hiukset } N = { ohikulkija on nainen } M = { ohikulkija on mies } Toistensa vastakohtina N ja M muodostavat perusjoukon osituksen. Kokonaistodennäköisyyden kaavasta Pr(H) = Pr(N) Pr(H N) + Pr(M) Pr(H M) = 0.27 0.75 + (1 0.27) 0.15 = 0.312.

Bayesin kaava Kun tunnetaan Pr(A B) sekä Pr(A) 0 ja Pr(B) 0, voidaanko määrittää käänteinen ehdollinen todennäköisyys Pr(B A)? Laskusääntö (Bayesin kaava) Pr(B A) = Pr(A B) Pr(B). Pr(A) Todistus. Ehdollisen todennäköisyyden määritelmästä Pr(B A) = Pr(A B) Pr(A) = Pr(A B) Pr(B) Pr(B) Pr(A) = Pr(A B)Pr(B) Pr(A).

Bayesin kaava: Esimerkki Oletetaan tunnetuksi, että naisista 75 %:lla ja miehistä 15 %:lla on pitkät hiukset. Teekkareista naisia on arviolta 27 %. Millä todennäköisyydellä satunnaisesti ohikulkeva pitkähiuksinen teekkari on nainen? H = { ohikulkijalla on pitkät hiukset } N = { ohikulkija on nainen } M = { ohikulkija on mies } Tiedetään: Pr(H N) = 0.75 Pr(N) = 0.27 Pr(H) = 0.312 (edellinen esimerkki) Bayesin kaavaa käyttämällä Pr(N H) = Pr(H N) Pr(N) Pr(H) = 0.75 0.27 0.312 65%.

Laajennettu Bayesin kaava Oletetaan, että B 1,..., B n muodostavat perusjoukon osituksen ja että todennäköisyydet Pr(A B i ) ja Pr(B i ) 0 tunnetaan. Voidaanko näistä määrittää käänteiset ehdolliset todennäköisyydet Pr(B i A)? Fakta (Laajennettu Bayesin kaava) Kun Pr(A) 0, Pr(B i A) = Pr(A B i ) Pr(B i ) n j=1 Pr(A B, i = 1,..., n. j) Pr(B j ) Todistus. Kokonaistodennäköisyyden kaavasta Pr(A) = n j=1 Pr(A B j) Pr(B j ). Aiemmin todistetun Bayesin kaavan mukaan siis Pr(B i A) = Pr(A B i) Pr(B i ) Pr(A) = Pr(A B i ) Pr(B i ) n j=1 Pr(A B j) Pr(B j ).

Bayesin kaavan tulkinta Pr(B i A) = Pr(A B i ) Pr(B i ) n j=1 Pr(A B, i = 1,..., n. j) Pr(B j ) Lukuja Pr(B i ) kutsutaan priori-todennäköisyyksiksi prior (lat.) edeltävä, aikaisempi Käsityksemme tapahtuman B i todennäköisyydestä ennen kuin saamme tietää onko tapahtuma A sattunut vai ei. Lukuja Pr(B i A) kutsutaan posteriori-todennäköisyyksiksi posterior (lat.) jälkeen tuleva, myöhäisempi Päivitetty näkemys tapahtuman B i todennäköisyydestä, kun on saatu tietää, että tapahtuma A on sattunut.

Esimerkki: Tehtaan laadunvalvonta Samaa tuotetta valmistetaan kahdella tuotantolinjalla. Valmiit tuotteet sekoitetaan ja pakataan laatikoihin. Linjalta 1 valmistuu 3 tuotetta/min, joista 5 % on viallisia. Linjalta 2 valmistuu 5 tuotetta/min, joista 8 % on viallisia. Tarkastetaan satunnaisesta laatikosta satunnaisesti valittu tuote. Millä todennäköisyydellä tarkastettava tuote on linjalta 1? Jos tuote osoittautuu vialliseksi, millä todennäköisyydellä se on linjalta 1?

Esimerkki: Tehtaan laadunvalvonta Ratkaisu Linjalta 1 valmistuu 3 tuotetta/min, joista 5 % on viallisia. Linjalta 2 valmistuu 5 tuotetta/min, joista 8 % on viallisia. Tunnetut todennäköisyydet: B 1 = Tuote on linjalta 1, Pr(B 1 ) = 3/8 B 2 = Tuote on linjalta 2, Pr(B 2 ) = 5/8 A = Tuote on viallinen, Pr(A B 1 ) = 0.05, Pr(A B 2 ) = 0.08 Tapahtumat B 1 ja B 2 muodostavat perusjoukon osituksen, joten laajennetulla Bayesin kaavalla Pr(A B 1 ) Pr(B 1 ) Pr(B 1 A) = Pr(A B 1 ) Pr(B 1 ) + Pr(A B 2 ) Pr(B 2 ) 0.05 3/8 = 0.05 3/8 + 0.08 5/8 0.273.

Esimerkki: Tehtaan laadunvalvonta Yhteenveto Samaa tuotetta valmistetaan kahdella tuotantolinjalla. Valmiit tuotteet sekoitetaan ja pakataan laatikoihin. Linjalta 1 valmistuu 3 tuotetta/min, joista 5 % on viallisia. Linjalta 2 valmistuu 5 tuotetta/min, joista 8 % on viallisia. Tarkastettavan tuotteen alkuperän priori-todennäköisyydet ovat: Tuote on linjalta 1 tn:llä 3/8 = 37.5 % Tuote on linjalta 2 tn:llä 5/8 = 62.5 % Tarkastettavan tuotteen alkuperän posteriori-todennäköisyydet (sen jälkeen kun tuote on havaittu vialliseksi) ovat: Tuote on linjalta 1 tn:llä 27.3 % Tuote on linjalta 2 tn:llä 72.7 %

Todennäköisyyden laskusäännöt Yhteenveto Yhteenlaskusääntö Pr(A B) = Pr(A) + Pr(B) Pr(A B) Tulosääntö = Pr(A) + Pr(B) (kun A ja B poissulkevat toisensa) Pr(A B) = Pr(A) Pr(B A) Kokonaistodennäköisyys = Pr(A) Pr(B) (kun A ja B riippumattomat) Pr(A) = i Pr(B i ) Pr(A B i ) (kun B i :t muodostavat osituksen) Bayesin kaava Laajennettu Bayesin kaava Pr(B A) = Pr(B i A) = Pr(A B i) Pr(B i ) j Pr(A B j) Pr(B j ) Pr(A B) Pr(B) Pr(A) (kun B i :t muodostavat osituksen)

Satunnaismuuttuja Satunnaismuuttuja on mitallinen 1 funktio X : S S, joka liittää jokaiseen satunnaisilmiön realisaatioon s S arvon X (s) S. Tulkinta Sattuma määrää satunnaisilmiön realisaation s S. Realisaatio s määrittää satunnaismuuttujan arvon X (s). X :n arvo on a on tapahtuma {X = a} := {s S : X (s) = a}. X kuuluu joukkoon A on tapahtuma {X A} := {s S : X (s) A}. 1 X on mitallinen, jos tapahtumalle {X A} voidaan määritellä todennäköisyys aina kun joukko A S on riittävän säännöllinen.

Eri tyyppisiä satunnaismuuttujia Satunnaismuuttujasta X : S S saatetaan käyttää nimitystä satunnaisluku, kun S R satunnaisvektori, kun S R n satunnaismatriisi, kun S R m n satunnaisverkko, kun S {n:n solmun verkot} stokastinen prosessi, kun S {funktiot f : R R} Tällä kurssilla käsitellään lähes yksinomaan satunnaislukuja (eli reaaliarvoisia satunnaismuuttujia) ja R 2 :n satunnaisvektoreita.

Esim. Kolme nopanheittoa Heitetään noppaa kolme kertaa peräkkäin ja merkitään: X = heiton 1 silmäluku Y = silmälukujen summa Z = suurin silmäluku Satunnaisilmiön realisaatiot ovat kolmen alkion järjestetyt jonot s = (s 1, s 2, s 3 ), missä s i {1,..., 6}, ja perusjoukko S on näiden jonojen kokoelma. X, Y, Z ovat perusjoukolla S määriteltyjä satunnaismuuttujia: X (s) = s 1, Y (s) = s 1 + s 2 + s 3, Z(s) = max{s 1, s 2, s 3 }. Huom Jos satunnaisilmiön realisaatio tunnetaan, niin tunnetaan kaikkien siihen liittyvien satunnaismuuttujien arvot.

Satunnaismuuttuja: Tulkinta Satunnaismuuttuja on mitallinen funktio X : S S, joka liittää jokaiseen satunnaisilmiön realisaatioon s S arvon X (s) S. Satunnaismuuttujat ovat satunnaisilmiöstä saatavia havaintoja Jos satunnaisilmiön realisaatio s S tiedetään tarkasti, niin tiedetään kaikkien siihen liittyvien satunnaismuuttujien arvot. Todennäköisyyslaskennassa tarkastellaan satunnaismuuttujien arvojen todennäköisyyksiä, kun satunnaisilmiötä kuvaava perusjoukon S todennäköisyysjakauma Pr oletetaan tunnetuksi. Tilastotieteessä pyritään havaittujen satunnaismuuttujien arvojen perusteella, tekemään johtopäätöksiä perusjoukon S tuntemattomasta todennäköisyysjakaumasta Pr.

Satunnaismuuttujan jakauma Satunnaismuuttujan X jakauma P X (A) := Pr(X A) kertoo, millä todennäköisyydellä X kuuluu joukkoon A. Fakta Satunnaismuuttujan X jakauma P X on X :n arvojoukon todennäköisyysjakauma. Näin ollen jakaumaan P X voi soveltaa yleisiä todennäköisyyden laskusääntöjä, esim. P X (A c ) = Pr(X A c ) = Pr(X / A) = 1 Pr(X A) = 1 P X (A).

Diskreetti satunnaismuuttuja Satunnaismuuttuja on diskreetti, jos sen arvojoukko voidaan numeroida muodossa S = {x 1,..., x n } tai S = {x 1, x 2, x 3,... }. Diskreetin satunnaismuuttujan X pistetodennäköisyysfunktio f (x i ) = Pr(X = x i ) kertoo, millä todennäköisyydellä X :n arvo on x i. Pistetodennäköisyysfunktio määrää diskreetin satunnaismuuttujan jakauman, eli sen avulla voidaan laskea tapahtumien {X A} todennäköisyydet kaavasta Pr(X A) = f (x i ). i:x i A

Diskreetti tasajakauma Diskreetti satunnaismuuttuja X noudattaa joukon {x 1,..., x n } tasajakaumaa, jos sen pistetodennäköisyysfunktio on f (x i ) = 1, i = 1,..., n. n Esim Jos X on symmetrisen nopan heiton silmäluku, niin sen pistetodennäköisyysfunktio on f (k) = Pr(X = k) = 1, k = 1,..., 6. 6 Diskreetti satunnaismuuttuja X siis noudattaa joukon {1,..., 6} tasajakaumaa.

Binomijakauma Diskreetti satunnaismuuttuja X noudattaa binomijakaumaa parametrein n ja p, jos X :n arvojoukko on {0, 1,..., n} ja pistetodennäköisyysfunktio on ( ) n f (k) = p k (1 p) n k, k = 0, 1,..., n. k Esim Jos X on saatujen kuutosten lukumäärä kolmessa perättäisessä nopanheitossa, niin f (k) = Pr(X = k) = ( 3 k ) ( 1 6 ) k ( 1 1 6) 3 k, k = 0, 1, 2, 3. Diskreetti satunnaismuuttuja X siis noudattaa binomijakaumaa parametrein 3 ja 1 6.

Ensi viikolla puhumme todennäköisyydet generoivista funktioista, jatkuvista satunnaismuuttujista ja niiden jakaumista...

Aineistolähteet Luentokalvot pohjautuvat osittain kurssin edellisten vuosien (Ilkka Mellin, Milla Kibble, Juuso Liesiö) luentokalvoihin.