Satunnaisalgoritmit

582421 Satunnaisalgoritmit luennot syksylla 2005 Jyrki Kivinen Probabilistiset menetelmat algoritmien suunnittelussa ja analyysissa laudatur, 8 op / 4 ov edellytetaan perustiedot todennakoisyyslaskennasta seka algoritmien suunnittelusta ja analyysista 1

Oppimateriaali Kurssi noudattaa kirjaa M. Mitzenmacher, E. Upfal: Probability and Computing (loytyy Kumpulan tiedekirjastosta ja Yliopistokirjakaupasta). Opiskelijoilla oletetaan olevan kurssikirja kaytossa. Luentorungot ilmestyvat kurssin kotisivulle, mutta ovat suppeat eivatka sovellu itseopiskeluun. 2

Laskuharjoitukset Aikataulu: viikon n laskuharjoituksissa tehtavat kasittelevat viikon n 2 perjantaina ja viikon n 1 keskiviikkona luennoitua materiaalia, tehtavat ilmoitetaan viikon n 1 keskiviikkona ja ratkaisut palautetaan kirjallisesti Kari Laasoselle (A321) viimeistaan viikon n tiistaina kello 12.00. Ratkaisut arvostellaan asteikolla 0-3: 1 jotain jarkevaa yritysta 2 oikeansuuntainen melko pitkalle viety yritys 3 silmamaaraisesti suunnilleen oikea ratkaisu 3

Kurssin arvostelu Maksimipistemaara 60 pistetta: kaksi kurssikoetta 24 + 24 = 48 pistetta laskuharjoitukset 12 pistetta Lapipaasyraja noin 30 pistetta, arvosanan 5/5 raja 50 pistetta. Laskuharjoituspisteet skaalataan seuraavasti: 0 % laskarisuorituksista antaa 0 pistetta 80 % (tai yli) laskarisuorituksista antaa 12 pistetta interpoloidaan lineaarisesti 4

Miksi satunnaisuutta Satunnaisuus on tarkea valine luonnonilmioiden ym. mallintamisessa. Satunnaisuutta tarvitaan algoritmien suunnittelussa ja analyysissa: satunnaisalgoritmit (randomized): algoritmin toiminta samalla syotteella vaihtelee riippuen algoritmin sisaisesta satunnaisuudesta ("rahanheitoista") algoritmin toimintaymparisto voi olla satunnainen (keskimaaraisen tapauksen (average case) analyysi, tietoliikenne,... ) Todennakoisyyslaskenta on voimakas yleistyokalu kaikkiin tallaisiin tilanteisiin. 5

Satunnaisuuden avulla voidaan saada algoritmi joka on nopeampi kuin vastaava deterministinen algoritmi tai helpompi toteuttaa kuin vastaava det. alg. Perustekniikoita/tilanteita: satunnaisotanta, Monte Carlo -menetelmat satunnaishaku, simuloitu jaahdytys sormenjalkitekniikat 6

Tietyissa tilanteissa satunnaisuus on valttamatonta etta saadaan ylipaansa hyvaksyttava ratkaisu: vastustajan hamaaminen (kryptograa, pelit) hajautetut jarjestelmat: kuorman tasapainotus, johtajan valinta jne. Satunnaistamalla voidaan vahentaa algoritmin herkkyytta \hairioille": esim. satunnaistettu quicksort, jolla ei ole erityista pahimman tapauksen syotetta. 7

Tyypillisia kysymyksia Yleensa satunnaisalgoritmit antavat jollain todennakoisyydella vaaran vastauksen. jos vastaus on kylla/ei: mika on virhetodennakoisyys jos vastaus on numeerinen tms.: mika on suuren virheen todennakoisyys. Jotkin satunnaisalgoritmit (ns. Las Vegas -algoritmit) antavat aina oikean vastauksen, mutta suoritusaika on satunnainen. Mika on suoritusajan odotusarvo? Mika on todennakoisyys, etta suoritusaika ylittaa tietyn rajan? 8

Kurssin sisaltoluonnos 1. Todennakoisyys (kertausta) 2. Diskreetit satunnaismuuttujat (kertausta) 3. Satunnaismuuttujan momentit 4. Chernon rajat 5. Pallot ja uurnat 6. "Probabilistinen menetelma" 7. Markovin ketjut 8. Jatkuvat satunnaismuuttuja, Poisson-prosessit 9. Monte Carlo -menetelmat 10. Martingaalit 9

1. Todennakoisyys Olkoon mielivaltainen joukko ja F P() jokin kokoelma sen osajoukkoja. (Tassa P() on siis joukon potenssijoukko.) Kuvaus Pr: F! R on todennakoisyysmitta, jos 1. Pr(E) 0 kaikilla E 2 F (positiivisuus), 2. Pr() = 1 ja 3. jos E 1 ; E 2 ; E 3 ; : : : on jono erillisia joukkoja (eli E i \ E j = ; kun i 6= j) ja E i 2 F kaikilla i, niin (numeroituva additiivisuus). Pr ([ 1 i=1 E i) = 1X i=1 Pr(E i ) 10

Jotta todennakoisyysmitalle juuri asetetut ehdot ylipaansa olisivat mielekkaita, sen maarittelyjoukolla F taytyy olla tiettyja sulkeumaominaisuuksia. Osajoukkokokoelma F P() on -algebra, jos 1. 2 F, 2. jos A 2 F niin A 2 F, missa A = A, ja 3. jos A 1 ; A 2 ; A 3 ; : : : on jono jolla A i 2 F kaikilla i 2 f 1; 2; 3; : : : g, niin [ 1 i=1 A i 2 F: Huom. tassa ei oleteta mitaan joukkoperheen f A i j i 2 I g yhdisteesta [ i2i A i jos I on ylinumeroituva. 11

Todennakoisyysavaruus on nyt kolmikko (; F; Pr), missa 1. otosavaruus on mielivaltainen joukko, 2. F P() on -algebra perusjoukkona, ja 3. Pr: F! R on todennakoisyysmitta. Otosavaruutta kutsutaan myos perusjoukoksi. Perusjoukon osajoukot E ovat tapahtumia ja joukot E 2 F erityisesti alkeistapahtumia eli mitallisia joukkoja. Jos on jokin perusjoukon alkioiden ominaisuus, merkitaan lyhyesti Pr((x)) = Pr(f x 2 j (x) g); esim. Pr(g(x) = 3) = Pr(f x 2 j g(x) = 3 g). 12

Esimerkki 1.1: Jos on aarellinen, jj = n 2 N, niin joukon symmetrinen (eli tasainen) todennakoisyysavaruus on kolmikko (; P(); Pr), missa Pr(E) = jej=n kaikilla E. Yleisemmin jos todennakoisyysavaruus on muotoa (; P(); Pr), missa on aarellinen tai numeroituvasti aareton, sita sanotaan diskreetiksi. Diskretti todennakoisyysavaruus voidaan maaritella antamalla kaikki yksittaisten alkioiden todennakoisyydet Pr(f x g), x 2. Jatkossa tarvitaan lahinna diskreetteja tn-avaruuksia. Sen takia jatamme yleensa myos mainitsematta muotoa "jos E 2 F" olevia oletuksia (joiden pitaisi muutenkin olla yleensa asiayhteydesta selvia). Toisinaan on kuitenkin hyodyllista tarkastella numeroituvassakin muitakin -algebroja kuin P(). 13

Esimerkki 1.2: Olkoon = R ja F suppein -algebra, joka sisaltaa kaikki suljetut valit [a; b], a; b 2 R. Taman -algebran alkioita sanotaan Borel-joukoiksi. Maaritellaan valin [a; b] todennakoisyydeksi valin [a; b] \ [0; 1] pituus: Pr([a; b]) = min f b; 1 g max f a; 0 g. Muiden Borel-joukkojen todennakoisyydet seuraavat todennakoisyysmitan maaritelmasta. Tama on osavalin [0; 1] symmetrinen todennakoisyysmitta. Huom. kaikilla x 2 R patee Pr(f x g) = 0, joten minka tahansa numeroituvan joukon todennakoisyys on 0. Tasta ei seuraa mitaan ylinumeroituvien joukkojen todennakoisyyksille. Tuntuisi ehka yksinkertaisemmalta, jos tassa voitaisiin valita F = P(R), eli kaikkien reaalilukujoukkojen todennakoisyydet olisivat maariteltyja. Tama ei kuitenkaan ole mahdollista: jos em. funktio Pr yritetaan laajentaa koko joukkoon P(R), niin kaikkia todennakoisyysmitan ehtoja ei saada pysymaan voimassa. Kaytannossa ei juuri ole tarvetta muille kuin Borel-joukoille. 14

Yhdisteen todennakoisyys Maaritelmista seuraa suoraan, etta mille tahansa kahdelle alkeistapahtumalle patee Pr(E [ F ) = Pr(E) + Pr(F ) Pr(E \ F ): Samoin mille tahansa numeroituvalle I ja jonolle alkeistapahtumia E i, i 2 I patee ("union bound"). Pr([ i2i E i ) X i2i Pr(E i ): Kun jij = n 2 N, niin yhdisteen tarkka todennakoisyys saadaan kaavasta nx X Pr([ i2i E i ) = ( 1) k+1 Pr(\ j2j E j ) k=1 ("inclusion-exclusion principle"). JI;jJj=k 15

Laskemalla edellisen kaavan summaa vain johonkin rajaan k < n saakkaa saadaan vuorotellen yla- ja alarajoja: Jos ` on pariton, niin Pr([ i2i E i ) Jos ` on parillinen, niin Pr([ i2i E i ) (Bonferronin epayhtalot). `X k=1 `X k=1 ( 1) k+1 X JI;jJj=k ( 1) k+1 X JI;jJj=k Pr(\ j2j E j ): Pr(\ j2j E j ) 16

Riippumattomuus Kaksi alkeistapahtumaa E ja F ovat riippumattomia, jos Pr(E \ F ) = Pr(E) Pr(F ): Yleisemmin alkeistapahtumat E 1 ; : : : ; E k ovat riippumattomia, jos kaikilla I f 1; : : : ; k g patee Pr(\ i2i E i ) = Y i2i Pr(E i ): Alkeistapahtumat E 1 ; : : : ; E k ovat pareittain riippumattomia, jos kaikilla i 6= j alkeistapahtumat E i ja E j ovat riippumattomia Huom. riippumattomuus on aidosti vahvempi vaatimus kuin pareittainen riippumattomuus. Jos Pr(F ) > 0, niin tapahtuman E todennakoisyys ehdolla F on Pr(E j F ) = Pr(E \ F ) : Pr(F ) Siis jos Pr(F ) > 0, niin E ja F ovat riippumattomia joss Pr(E j F ) = Pr(E). 17

Kahden todennakoisyysavaruuden ( 1 ; F 1 ; Pr 1 ) ja ( 2 ; F 2 ; Pr 2 ) tulo on missa ja ( 1 ; F 1 ; Pr 1 ) ( 2 ; F 2 ; Pr 2 ) = ( 1 2 ; F 1 F 2 ; Pr 1 Pr 2 ) F 1 F 2 = f E F j E 2 F 1 ; F 2 F 2 g (Pr 1 Pr 2 )(E F ) = Pr 1 (E) Pr 2 (F ): Tarkea erikoistapaus on tn-avaruuden n-kertainen tulo itsensa kanssa (; F; Pr) n = ( n ; F n ; Pr n ). Jos alkuperainen tn-avaruus esittaa jotain satunnaiskoetta, sen n-kertainen tulo itsensa kanssa esittaa n riippumatonta toistoa samasta kokesta. Talloin usein myos tulomitasta Pr n kaytetaan yksinkertaisesti (ja epatasmallisesti) merkintaa Pr. 18

Esimerkki 1.3: Oletetaan annetuksi kaksi aliohjelmaa F ja G, jotka laskevat kokonaislukufunktiot f ja g. Funktioista f ja g tiedetaan vain, etta ne ovat korkeintaan d-asteisia polynomeja. Tehtavana on paatella, pateeko f = g. Jos f = g, niin f(x) g(x) = 0 kaikilla x. Jos f 6= g, niin f g on korkeintaan d-asteinen polynomi joka ei ole identtisesti nolla, joten f(x) g(x) = 0 patee korkeintaan d arvolla x 2 N. Erityisesti joukossa f 1; : : : ; rd g milla tahansa r 2 N on ainakin (r 1)d alkiota x, joilla f(x) g(x) 6= 0. 19

Saadaan seuraava perusalgoritmi: 1. Valitse satunnainen x 2 f 1; : : : ; rd g. 2. Jos f(x) g(x) 6= 0, tulosta "eri". 3. Muuten tulosta "samat". Edella olevan perusteella jos f = g, algoritmi tulostaa aina "samat" ja jos f 6= g, algoritmi tulostaa "eri" ainakin todennakoisyydella (r 1)d=(rd) = 1 1=r. Algoritmilla on siis yksipuolinen virhetodennakoisyys korkeintaan 1=r. 20

Tehdaan nyt k riippumatonta toistokoetta seuraavasti: 1. Valitse toisistaan riippumatta satunnaiset x 1 ; : : : ; x k joukosta f 1; : : : ; rd g. 2. Jos f(x i ) g(x i ) 6= 0 ainakin yhdella i, tulosta "eri". 3. Muuten tulosta "sama". Jos f = g, saadaan taas aina vastaus "sama". Jos f 6= g ja vastaus on "sama", on k kertaa toisistaan riippumatta sattunut tapahtuma, jonka todennakoisyys on kork. 1=r. Taman todennakoisyys on siis korkeintaan (1=r) k. Toistokokeita suorittamalla virhetodennakoisyys saadaan siis eksponentiaalista vauhtia kohti nollaa. 21

Kokonaistodennakoisyys Olkoot E i, i 2 I, numeroituva kokoelma erillisia tapahtumia s.e. [ i2i E i =. Suoraan maaritelmista saadaan ns. kokonaistodennakoisyyden kaava Pr(B) = X i2i Pr(B \ E i ) = X i2i Pr(B j E i ) Pr(E i ): Tata voidaan soveltaa esim. viivytetyn valinnan tekniikalla: Halutaan osoittaa esim. Pr(x 2 B). Jaetaan x sopivalla tavalla kahteen komponenttiin x = (x 1 ; x 2 ). Ajatellaan, etta "ensin" valitaan x 1, ja "vasta myohemmin" x 2. Osoitetaan, etta miten tahansa x 1 valitaankin, niin aina todennakoisyys valita x 2 siten, etta (x 1 ; x 2 ) 2 B patee, on korkeintaan. Sovelletaan kokonaistodennakoisyyden kaavaa valitsemalla I = komponentin x 1 arvojoukko E i = f (x 1 ; x 2 ) j x 1 = i g : 22

Esimerkki 1.4: On annettu n n-matriisit A, B ja C. Halutaan tarkistaa, pateeko AB = C, ilman etta tarvitsee laskea matriisituloa AB. Menetellaan samaan tapaan kuin edellisessa esimerkissa: 1. Valitse satunnainen r 2 f 0; 1 g n. 2. Jos ABr 6= Cr, tulosta "erisuuret". 3. Muuten tulosta "yhtasuuret". Olkoon D = AB C. Vaitetaan, etta jos D ei ole nollamatriisi, niin Dr 6= 0 patee ainakin todennakoisyydella 1=2. 23

Merkitaan D = (d ij ). Oletetaan, etta D 6= 0; olkoon d pq 6= 0. Jos Dr = 0, patee siis erityisesti mista voidaan ratkaista nx j=1 r q = d 1 pq d pj r j = 0; X j6=q d pj r j : Ajatellaan ensin valituksi r 0 = (r 1 ; : : : ; r q 1 ; r q+1 ; : : : ; r n ) ja tarkastellaan sitten puuttuvan komponentin r q valintaa. Koska vectorin r 0 valinta kiinnittaa lausekkeelle d 1 pq X j6=q d pj r j jonkin arvon v, niin todennakoisyys etta r q = v on korkeintaan 1=2 (koska r q 2 f 0; 1 g). Lykatyn valinnan periaatteella siis nahdaan, etta Pr(Dr = 0) 1 2 : 24

Bayesin saanto Edelleen suoraan maaritelmista saadaan Pr(E j j B) = Pr(E j \ B) = Pr(B j E j) Pr(E j ) P Pr(B) i Pr(B j E i) Pr(E i ) missa jalleen (E i ) ovat erillisia. Tyypillinen tulkinta on, etta kaavan mukaan paivitetaan uskomuksia kun on saatu uutta dataa: Tapahtumat E j esittavat erilaisia toisensa poissulkevia hypoteeseja tyyliin E j = "teoria numero i on tosi". Tapahtuma B kuvaa jotain havaintoa, mittausdataa tms. Pr(E j ) on a priori -todennakoisyys, joka mittaa uskoamme hypoteesiin E j ennen kuin mitaan dataa on havaittu. Pr(B j E j ) mittaa, kuinka hyvin hypoteesi E j "selittaa" datan B. Pr(E j jb) on a posteriori -todennakoisyys, joka mittaa uskoamme hypoteesiin E j sen jalkeen, kun data B on havaittu. 25

Esimerkki 1.5: On annettu kolme kolikkoa, joista kaksi on tasapainoisia ja yhdella (emme tieda milla) kruunan todennakoisyys on 2/3. Laitamme kolikot satunnaiseen jarjestykseen ja heitamme niita. Saamme tulokset (1: kruuna, 2: kruuna, 3: klaava). Milla todennakoisyydella kolikko 1 on epatasapainoinen? Soveltamalla Bayesin kaavaa saadaan vastaus 2/5. Huom. Kaavan nimittaja ei riipu hypoteesista E j. Jos halutaan vain verrata eri hypoteesien a posteriori -todennakoisyyksi, voidaan unohtaa vakio Pr(B) ja kirjoittaa Pr(E j j B) / Pr(B j E j ) Pr(E j ): 26

Satunnainen minimileikkausalgoritmi Olkoon G = (V; E) yhtenainen suuntaamaton verkko. Sallimme tassa poikkeuksellisesti, etta kahden solmun valilla saa olla useita kaaria (multigraph). Kaarijoukko C E on leikkaus, jos (V; E C) ei ole yhtenainen. Minimileikkaus on pienimman mahdollisen maaran kaaria sisaltava leikkaus. Kaaren (u; v) kutistaminen korvaa solmut u ja v yhdella uudella solmulla. Kaari (u; v) (tai kaikki nama kaaret, jos niita on useita) poistuvat verkosta. Muut kaaret sailyvat, ja solmuihin u tai v liittyvat kaaret liitetaan uuteen niita korvaavaan solmuun. Jos C on leikkaus alkuperaisessa verkossa ja (u; v) 62 C, niin C on leikkaus myos kutistamisen jalkeen. Toisaalta missaan tapauksessa kutistaminen ei tee verkkoon uusia leikkauksia. 27

Tarkastellaan seuraavaa algoritmia: 1. Valitse verkosta jokin kaari (u; v) siten, etta kunkin kaaren todennakoisyys tulla valituksi on sama. 2. Kutista kaari (u; v). 3. Jos verkossa on vahintaan kolme solmua, palaa kohtaan 1. 4. Muuten tulosta verkossa jaljella olevat kaaret. Olkoon C jokin minimileikkaus. Edella esitetysta seuraa, etta jos algoritmi ei koskaan valitse joukon C kaarta kutistettavaksi, se tuottaa oikean lopputuloksen. Mika on taman suotuisan tapauksen todennakoisyys? 28

Olkoon E i tapahtuma, etta iteraatiossa i kutistettava kaari ei ole joukossa C, ja F i = \ i j=1 E i. Haluamme siis alarajan todennakoisyydelle Pr(F n 2 ). Olkoon k = jcj minimileikkauksen koko ja n = jv j. Talloin erityisesti jokaisen solmun aste on ainakin k, joten verkossa on vahintaan kn=2 kaarta. Siis Pr(E 1 ) = jej jcj 1 jej k nk=2 = 1 2 n : Yleisemmin jos vaiheeseen i 1 asti on mennyt hyvin, niin C on edelleen verkon minimileikkaus, koska kutistaminen ei luo uusia leikkauksia. Solmujen maara on kuitenkin vahentynyt, joten askeinen argomentti antaa Pr(E i j F i 1 ) 1 2 n i + 1 : 29

Saadaan Pr(F n 2 ) = Pr(E n 2 \ F n 3 ) = Pr(E n 2 j F n 3 ) Pr(F n 3 ) = : : : = Pr(E n 2 j F n 3 ) Pr(E n 3 j F n 4 ) : : : Pr(E 2 j F 1 ) Pr(F 1 ) n Y2 2 1 n i + 1 i=1 n 2 = = n 2 n(n 1) : n 3 n 1 : : : 3 5 2 4 1 3 30

Joka tapauksessa algoritmi siis tuottaa leikkauksen, ja ainakin todennakoisyydella 2=(n(n 1)) minimileikkauksen. Toistetaan algoritmia m kertaa ja valitaan saaduista leikkauksista pienin. Todennakoisyys, etta ei saatu minimileikkausta, on korkeintaan m 1 exp missa on arvioitu 1 x e x. 2 n(n 1) 2m n(n 1) Jos valitaan esim. m = n(n 1=n 2. 1) ln n, rajaksi virhetodennakoisyydelle tulee 31

2. Satunnaismuuttujat Olkoon (; F; Pr) todennakoisyysavaruus. Reaaliarvoinen funktio X:! R on satunnaismuuttuja, jos f s 2 j X(s) a g 2 F kaikilla a 2 R. Satunnaismuuttuja on diskreetti, jos sen arvojoukko on numeroituva Myohemmin tarkastelemme myos jatkuvia satunnaismuuttujia, joiden arvoalue on ylinumeroituva. Tassa luvussa kuitenkin oletataan aina, etta tarkasteltavat satunnaismuuttujat ovat diskreetteja. Yleensa todennakoisyytta Pr(f s 2 j X(s) = a g) merkitaan lyhyesti Pr(X = a) jne. Diskreetin satunnaismuuttujan jakauma (mika sisaltaa kaiken mita satunnaismuuttujasta voisi haluta kaytannossa tietaa) tulee maaratyksi, kun annetaan luvut Pr(X = a) kaikilla a 2 R. 32

Jono satunnaismuuttujia (X 1 ; : : : ; X k ) on riippumaton, jos kaikilla I f 1; : : : ; k g ja kaikilla x 1 ; : : : ; x k 2 R patee Pr(\ i2i (X i = x i )) = Y i2i Pr(X i = x i ): "X ja Y ovat riippumattomia" merkitaan toisinaan X? Y. P Olkoon V satunnaismuuttujan X arvoalue. Jos summa x2v suppenee, niin satunnaismuuttujan odotusarvo on jxj Pr(X = x) E[X] = X x2v x Pr(X = x): Muuten odotusarvo ei ole maaritelty, mita usein merkitaan E[X] = 1. 33

Jos X ja Y ovat riippumattomia, patee E[XY ] = E[X]E[Y ]: Odotusarvo on lineaarinen: E[aX + by ] = ae[x] + be[y ] kaikilla a; b 2 R ja satunnaismuuttujilla X; Y. Lineaarisuus ei suoraan yleisty aarettomiin summauksiin. Milloin patee E " 1X i=1 X i # = 1X i=1 E [X i ] on ei-triviaali ongelma. Eras riittava ehto on, etta kaikki odotusarvot E[jX i j] ovat maariteltyja ja P 1 i=1 E[jX ij] suppenee. 34

Jensenin epayhtalo Maaritelmista seuraa suoraan tarkea perusominaisuus E[X 2 ] (E[X]) 2 : Tama on erikoistapaus Jensenin epayhtalosta. Funktio f: [a; b]! R on konveksi jos kaikilla a x 1 ; x 2 b ja 0 1. f(x 1 + (1 )x 2 ) f(x 1 ) + (1 )f(x 2 ) Jos f on kahdesti derivoituva, se on konveksi joss f 00 (x) 0 kaikilla x. Lause 3.1 [Jensen]: Jos f on konveksi, niin E[f(X)] f(e[x]) kaikilla satunnaismuuttujilla X. Em. erikoistapaus saadaan valitsemalla f(x) = x 2. 35

Binomijakauma Satunnaismuuttuja Y noudattaa Bernoulli-jakaumaa parametrilla p jos Selvasti E[Y ] = p. Pr(Y = 1) = p ja Pr(Y = 0) = 1 p: Satunnaismuuttuja X noudattaa binomijakaumaa parametreilla n ja p, merkitaan X B(n; p), jos se on n riippumattoman Bernoulli-muuttujan summa: Pr(X = j) = Odotusarvon lineaarisuudesta seuraa n j p j (1 p) n j ; j = 0; : : : ; n: E[X] = np: 36

Ehdollinen odotusarvo Kun Y ja Z ovat satunnaismuuttujia, Y :n arvojoukko on V, ja z 2 R, merkitaan E[Y j Z = z] = X y2v y Pr(Y = y j Z = z): Esimerkki 2.2: Olkoot X 1 ja X 2 riippumattomien nopanheittojen tulokset ja X = X 1 + X 2. Talloin E[X j X 1 = 3] = 6 1 2 ja E[X 1 j X = 4] = 1 1 3 + 2 1 3 + 3 1 3 = 2: Kaikille satunnaismuuttujille X ja Y patee E[X] = X y2v E[X j Y = y] Pr(Y = y) olettaen etta kaikki odotusarvot ovat olemassa. 37

E[X j X 1 ] = X 1 + 3 1 2 : Ehdollinen odotusarvo E[Y j Z] on satunnaismuuttuja joka maaritellaan seuraavasti: Olkoot Y ja Z satunnaismuuttujia otosavaruudessa (eli funktioita! R). Nyt E[Y j Z]:! R on satunnaismuuttuja, jolla kaikilla! 2. E[Y j Z](!) = E[Y j Z = Z(!)] Esimerkki 2.3: Olkoon taas X = X 1 + X 2, missa X 1 ja X 2 ovat riippumattomia nopanheittoja. Nyt Ehdollinen odotusarvo noudattaa tavallisen odotusarvon perusominaisuuksia: E[X 1 + X 2 j Z] = E[X 1 j Z] + E[X 2 j Z] jne. Lisaksi E[Y ] = E[E[Y j Z]]: 38

Esimerkki 2.4: Haarautuvat prosessit. Tarkastellaan tilannetta, jossa prosessi suorittaa jotain tiettya aliohjelmaa. Tama aliohjelma voi puolestaan luoda uusia samanlaisia prosesseja. Oletetaan, etta yhden prosessin elinaikanaan luomien uusien prosessien lukumaara on B(n; p)-jakautunut. Kun lahdetaan liikkeelle yhdesta prosessista, niin odotusarvoisesti kuinka monta prosessia kaikkiaan kaynnistyy? Olkoon Y i prosessien lukumaara "sukupolvessa" i. Siis Y 0 = 1 ja Y 1 B(n; p). Kiinnitetaan nyt i, ja merkitaan sukupolven i prosessin numero k jalkelaisten lukumaaraa Z k. Siis Z k B(n; p). 39

Tarkastellaan ehdollisia odotusarvoja: E[Y i j Y i 1 = y i 1 ] = E = E " yi 1 X " yi 1 k=1 X k=1 = y i 1 np koska Z k? Y i 1. Siis E[Y i j Y i 1 ] = npy i 1, joten Z k j Y i 1 = y i 1 # Z k # E[Y i ] = E[E[Y i j Y i 1 ]] = E[npY i 1 ]: Koska Y 0 = 1, induktiolla saadaan E[Y i ] = (np) i. Prosessien kokonaismaaran odotusarvo on 3 X E Y i 5 = (np) i 2 4 X i0 joka on aarellinen joss np < 1. i0 40

Geometrinen jakauma Satunnaismuuttuja X noudattaa geometrista jakaumaa parametrilla p, merk. X Geom(p), jos Pr(X = n) = (1 p) n 1 p; n = 1; 2; : : : : Siis X ilmaisee riippumattomien kokeiden maaraa etta saadaan ensimmainen onnistuminen, kun yksittaisen kokeen onnistumistodennakoisyys on p. Geometrisella jakaumalla on unohdusominaisuus Jakauman odotusarvo on Pr(X = n + k j X > k) = Pr(X = n): E[X] = 1 p : Osoitamme taman kahdella eri tavalla. 41

Tapa 1: Kaytetaan kaavaa E[X] = 1X i=1 Pr(X i) joka patee kun X saa vain ei-negatiivisia kokonaislukuarvoja. Kun X Geom(p), niin Pr(X i) = Siis E[X] = 1X n=i (1 p) n p = (1 p) i 1 : 1X i=1 (1 p) i 1 = 1 p : 42

Tapa 2: Kaytetaan unohdusominaisuutta. Olkoon X = min f i j Y i = 1 g missa satunnaimuuttujat Y i, i = 1; 2; : : :, ovat riippumattomia Bernoulli(p)-jakautuneita. Tunnetun perusominaisuuden mukaan E[X] = E[X j Y 1 = 0] Pr(Y 1 = 0) + E[X j Y 1 = 1] Pr(Y 1 = 1): Nyt Pr(Y 1 = 1) = p, ja X = 1 aina kun Y 1 = 1. Toisaalta Y 1 = 0 tarkoittaa samaa kuin X > 1. Unohdusominaisuuden mukaan eli, kun merkitaan Z = X + 1, Pr(X = n + 1 j X > 1) = Pr(X = n) Pr(X = m j X > 1) = Pr(X = m 1) = Pr(Z = m); m 2: Siis E[X j X > 1] = E[Z] = E[X] + 1. Saadaan E[X] = (1 mista ratkaistaan E[X] = 1=p. p)(e[x] + 1) + p 43

Esimerkki 2.5: Kortinkeraajan ongelma Muropakkauksessa on aina yksi kerailykortti. Kortteja on n erilaista. Kuinka monta muropakettia pitaa ostaa, etta saadaan koko sarja? Olkoon kyseinen satunnaismuuttuja X. Olkoon X i niiden pakkausten maara, jotka ostettiin sina aikana, kun tasan i 1 erilaista korttia oli jo loydetty. Siis X = Kun i 1 korttia on loydetty, todennakoisyys saada uusi kortti seuraavasta pakkauksesta on p i = (n i + 1)=n. Siis X i Geom(p i ). nx i=1 X i : 44

Saadaan E[X] = P n missa H(n) = i=1 (1=i). Koska nahdaan = = = n nx nx i=1 nx i=1 i=1 E[X i ] 1 p i n n i + 1 nx j=1 1 j = nh(n) ln n H(n) ln n + 1; E[X] = n ln n + (n): 45

Esimerkki 2.6: Pikajarjestaminen (quicksort). Tarkastellaan algoritmin satunnaistettua versiota: Quicksort(S[1::n]) Jos n 1 palauta S. Valitse satunnainen i 2 f 1; : : : ; n g. Olkoon x = S[i]. Jaa S kahteen osalistaan: Listaan L alkiot jotka ovat pienempia kuin x. Listaan H alkiot jotka ovat suurempia kuin x. Palauta [Quicksort(L); x; Quicksort(H)]. Alkiota x sanotaan jakoalkioksi (pivot). Pahin tapaus: jakoalkio aina listan suurin tai pienin alkio. Tarvitaan n(n 1)=2 = (n 2 ) vertailua. 46

Keskimaarainen tapaus: Olkoon X satunnaisen Quicksortin tekemien vertailujen lukumaara. Olkoot taulukon S luvut suuruusjarjestyksessa y 1 ; : : : ; y n. Merkitaan X ij = 1 jos suorituksen aikana alkioita y i ja y j verrataan, muuten X ij = 0. Koska mitaan alkioparia ei verrata kahdesti, niin X = n X1 nx i=1 j=i+1 Kiinnitetaan i < j. Hetken miettiminen osoittaa, etta X ij = 1 jos ja vain jos joko y i tai y j on ensimmainen joukosta Y ij = f y i ; y i+1 ; : : : ; y j 1 ; y j g valittu jakoalkio. Koska kaikki jakoalkiot ovat yhta todennakoisia, E[X ij ] = Pr(X ij = 1) = X ij : 2 j i + 1 : 47

Nyt voidaan laskea E[X] = = = = n X1 nx i=1 j=i+1 X n 1 n i+1 i=1 nx nx k=2 k=2 X k=2 n+1 k X i=1 = (n + 1) 2 j i + 1 2 k 2 k (n + 1 k) 2 k nx k=2 2 = (2n + 2)H(n) 4n: k 2(n 1) Siis vertailuja tehdaan odotusarvoisesti E[X] = 2n ln n + (n). 48

Tarkastellaan viela yksinkertaista deterministista versiota: jakoalkioksi valitaan aina listan ensimmainen alkio x = S[1]. Jos nyt oletetaan, etta syote on satunnaisessa jarjestyksessa (ja kaikkien jarjestysten todennakoisyydet samat) niin algoritmi tekee keskimaarin samat 2n ln n + (n) vertailua kuin edella. Tama nahdaan kuten ylla. Nyt alkiot y i ja y j tulevat vertailluksi, jos jompi kumpi niista on syotteessa ennen muita joukon Y ij alkioita. Huom. tassa siis keskiarvo on syotteiden, ei algoritmin satunnaisvalintojen yli. Tama edellyttaa oletusta syotteen jakaumasta. Haluttaessa voidaan tietysti lisata algoritmiin esiprosessointi, joka sekoittaa listan satunnaisesti. 49

3. Momentit ja poikkeamat Pelkka odotusarvo ei yleensa ole kovin tyhjentava kuvaus satunnaismuuttujan jakaumasta. Seuraava askel jakauman kuvaamisessa on tyypillisesti keskihajonnan laskeminen. Hajontalukujen avulla voidaan myos todistaa "hantarajoja" eli arvioida todennakoisyytta, etta saadaan hyvin suuri (tai pieni) arvo. Nama ovat etenkin tietojenkasittelyssa (mutta myos tilastotieteessa) usein juuri ne suureet, joista ollaan ensisijaisesti kiinnostuneita. 50

Yksinkertaisin arviointitekniikka perustuu Markovin epayhtaloon: jos X ei saa negatiivisia arvoja, niin Todistus: Pr(X a) E[X] a : E[X] = X x x Pr(X = x) = X x<a x Pr(X = x) + X xa x Pr(X = x) 0 + a X xa Pr(X = x) missa summaukset rajoitetaan X:n arvoalueeseen. 51

Esimerkki 3.1: Heitetaan symmetrista rahaa n kertaa. Milla todennakoisyydella tulee ainakin 3n=4 kruunaa? Jos X on kruunien lukumaara, niin X 0 ja E[X] = n=2. Siis Pr(X 3n=4) n=2 3n=4 = 2 3 : Tama on erittain karkea arvio, jossa siis ei viela kaytetty lainkaan hyvaksi tietoja jakauman hajonnasta. (Jo yksinkertaisella symmetriatarkastelulla nakee, etta kyseinen todennakoisyys on alle 1/2.) 52

Momentit ja varianssi Satunnaismuuttujan X k:s momentti on E[X k ]. Satunnaismuuttujan X varianssi on ja keskihajonta Var[X] = E[(X E[X]) 2 ] [X] = p Var[X]: Satunnaismuuttujien X ja Y kovarianssi on Cov(X; Y ) = E[(X E[X])(Y E[Y ])]: Maaritelmista ja odotusarvon lineaarisuudesta seuraa suoraan Var[X] = E[X 2 ] (E[X]) 2 Var[X + Y ] = Var[X] + Var[Y ] + 2Cov[X; Y ]: 53

Jos X ja Y ovat riippumattomia niin E[XY ] = E[X]E[Y ] Cov(X; Y ) = 0 Var[X + Y ] = Var[X] + Var[Y ] Nama yleistyvat induktiolla useamman satunnaismuuttujan summalle ja tulolle. Esimerkki 3.2: Jos X i Bernoulli(p), niin suoraan laskemalla saadaan Var[X i ] = p(1 p): Siis jos X on n riippumattoman Bernoulli(p)-satunnaismuuttujan summa eli X B(n; p), niin Var[X] = np(1 p): 54

Tsebysevin epayhtalo Lause 3.3: Mille tahansa a > 0 patee Pr(jX E[X]j a) Var[X] a 2 : Todistus: Kirjoitetaan arvioitava todennakoisyys muotoon Pr(jX E[X]j a) = Pr((X E[X]) 2 a 2 ) ja sovelletaan ei-negatiiviseen satunnaismuuttujaan Y = (X E[X]) 2 Markovin epayhtaloa: Pr(Y a 2 ) E[Y ] a 2 = Var[X] a 2 : 55

Esimerkki 3.4: Tarkastellaan samaa tilannetta kuin Markovin epayhtalon yhteydessa: Symmetrista rahaa heitetaan n kertaa. Milla todennakoisyydella kruunien lukumaara X on ainakin 3n=4? Koska X on binomijakautunut, saadaan E[X] = n=2 ja Var[X] = n 1(1 1) = n=4. Siis 2 2 Pr( X Tilanteen symmetrisyyden takia joten Pr( X n n 2 4 ) Var[X] (n=4) = 4 2 n : n n 2 4 ) = 2 Pr(X Pr(X 3n 4 ) 2 n : n 2 n 4 ); (Tamakin on itse asiassa erittain loysa raja, paljon parempi saadaan pian kayttamalla Chernon rajoja.) 56

Esimerkki 3.5: Kortinkeraajan ongelma (jatkoa Esimerkkiin 2.5). Tarvittavien muropakkausten lukumaaran X odotusarvoksi saatiin nh(n). Siis Markovin epayhtalosta seuraa Pr(X 2nH(n)) 1 2 : Tsebysevin P epayhtalon laskemiseksi tarvitaan varianssi Var[X]. Muistetaan n etta X = i=1 X i missa X i Geom(p i ) ja p i = (n i + 1)=n. Satunnaismuuttujan X Geom(p) varianssi on tunnetusti Var[X] = 1 p p : 2 Satunnaismuuttujat X i ovat riippumattomia, joten Var[X] = nx i=1 Var[X i ]: 57

Arvioimalla Var[X i ] 1=p 2 i nx i=1 Var[X i ] saadaan nx i=1 n n i + 1 2 n 2 1 X i=1 1 i 2 = 2 n 2 6 : Siis Tsebysevin epayhtalosta seuraa Pr(jX nh(n)j nh(n)) 2 n 2 =6 (nh(n)) = O 1 : 2 (log n) 2 Tamakaan ei ole kovin tiukka arvio. Todennakoisyys etta askeleeseen n(c + ln n) mennessa ei ole loydetty korttia i on 1 n(c+ln n) 1 exp( (c + ln n)): n Todennakoisyys etta jotakin korttia ei ole loydetty askeleeseen n(c + ln n) mennessa on siis korkeintaan n exp( (c + ln n)) = e c. Sijoittamalla c = ln n saadaan Pr(X 2n ln n) 1 n : 58

Satunnaistettu mediaanialgoritmi Tarkastellaan yksinkertaisuuden vuoksi tapausta, jossa joukossa S on pariton maara erisuuria lukuja. Joukon S mediaani on siis joukon S jarjestyksessa (dn=2e):s alkio, missa n = jsj. Mediaani voidaan maarittaa yksinkertaisesti jarjestamalla joukko ajassa O(n log n). Ongelmalle tunnetaan myos (monimutkaisehko) ajassa O(n) toimiva deterministinen algoritmi. Seuraavassa esitellaan yksinkertainen ajassa O(n) toimiva satunnaisalgoritmi. Ideana on valita sopivalla satunnaismenetelmalla "alaraja" d 2 S ja "ylaraja" u 2 S siten, etta suurella todennakoisyydella 1. mediaani on lukujen d ja u valissa ja 2. lukujen d ja u valissa on vain vahan joukon S lukuja. 59

Kun sivuutetaan toistaiseksi lukujen d ja u valintaperusteet, saadaan seuraava algoritmi: 1. Valitse d ja u. 2. Muodosta joukko C = f x 2 S j d x u g seka laske `d = jf x 2 S j x < d gj ja `u = jf x 2 S j u < x gj. 3. Jos `d > n=2 tai `u > n=2 niin epaonnistu. 4. Jos jcj > 4n 3=4 niin epaonnistu. 5. Muuten jarjesta joukko C ja palauta sen (bn=2c `d + 1):s alkio. 60

Jos alkioiden d ja u valinta tapahtuu ajassa O(n), niin koko algoritmin aikavaatimus on selvasti O(n). Jos algoritmi ei epaonnistu, se tuottaa selvasti oikean vastauksen. Toistamalla sita kunnes onnistutaan saadaan siis Las Vegas -algoritmi, joka antaa aina oikea lopputuloksen mutta toisinaan vie paljon aikaa. Analyysin mielenkiintoinen kohta on maarata d ja u siten, etta epaonnistumistodennakoisyys on pieni. (Jatetaan jatkossa pyoristyksen merkitsematta.) 61

Lukujen d ja u valintamenetelma on seuraava: 1. Valitse (moni)joukko R S poimimalla tasaisesta jakaumasta (takaisinpanolla) n 3=4 alkiota. 2. Jarjesta joukko R. 3. Nyt d on jarjestyksessa ( 1 2 n3=4 n 1=2 ):s joukon R alkio ja u jarjestyksessa ( 1 2 n3=4 + n 1=2 ):s. 62

Intuitiivisesti joukon R mediaani, eli jarjestyksessa ( 1 2 n3=4 ):s alkio, on samalla estimaatti koko joukon S mediaanille. Ensimmainen epaonnistumishaara vastaa tilannetta, jossa tama estimaatti on mennyt pahasti pieleen. Alkioiden d ja u valilla on 2n 1=2 joukon R alkiota, joten jos otanta on ollut "tasaista", niiden valilla on 2n 1=2 (n=n 3=4 ) = 2n 3=4 joukon S alkiota. Toinen epaonnistumishaara vastaa tilannetta, etta otos on sattunut epatasaisesti. Luvut n 3=4, n 1=2 jne. maaraytyvat siita, millaisia arvioita otantatarkkuudelle tunnetaan. (Toisin sanoen ne on valittu siten, etta seuraavat todistukset menevat lapi.) 63

Analysoidaan nyt epaonnistumistodennakoisyys tasmallisesti. Olkoon m joukon S mediaani ja k = jrj = n 3=4. Muodostetaan kolme tapahtumaa: E 1 : jf r 2 R j r m gj < k 2 E 2 : jf r 2 R j r m gj < k 2 E 3 : jcj > 4k: n 1=2 n 1=2 Tapahtuma E 3 vastaa selvasti toista epaonnistumisehtoa. Tapahtumat E 1 ja E 2 vastaavat tilanteita m < d ja m > u eli yhdessa kattavat ensimmaisen epaonnistumisvaihtoehdon. 64

Todennakoisyyden Pr(E 1 ) arvioimiseksi merkitaan Y 1 = jf r 2 R j r m gj. Siis Y 1 = P k i=1 X i missa X i = 1 jos i:s otos on korkeintaan m 0 muuten. Korkeintaan mediaanin kokoisia alkioita joukossa S on (n 1)=2 + 1 kappaletta, joten Y 1 B(k; p) missa p = 1=2 + 1=(2n). Siis E[Y 1 ] k=2 ja 1 Var[Y 1 ] = k 2 + 1 1 1 < k 2n 2 2n 4 : Sovelletaan Tsebysevin epayhtaloa: Pr(E 1 ) Pr(jY 1 E[Y 1 ]j > n 1=2 ) Var[Y 1] n 1 4 n 1=4 : 65

Samoin nahdaan Pr(E 2 ) 1 4 n 1=4 : Tapahtumaa E 3 varten erotellaan kaksi osatapausta: E 3;1 : jf c 2 C j c > m gj 2k E 3;2 : jf c 2 C j c < m gj 2k: Jos jcj > 4k, niin ainakin toinen naista patee. Tapaukset ovat symmetriset. Tarkastellaan tapausta E 3;1. Talloin alkion u jarjestysnumero joukossa S on ainakin n=2 + 2k. Siis alkio u ja sita suuremmat otoksen R alkiot kuuluvat n=2 2k suurimman alkion joukkoon joukossa S. Alkion u maaritelman perusteella naita on k=2 n 1=2 kappaletta. 66

Merkitaan X i = 1 jos i:s otos kuuluu n=2 2k suurimman alkion joukkoon joukossa S 0 muuten ja X = P k i=1 X i. Taas X on binomijakautunut, E[X] = k 2 2n 1=2 ja joten Var[X] = k 1 2 2n 1=4 1 2 + 2n 1=4 < k 4 Pr(E 3;1 ) Pr(jX E[X]j n 1=2 ) Var[X] < 1 n 4 n 1=4 : Siis kaikkiaan epaonnistumistodennakoisyys on korkeintaan Pr(E 1 ) + Pr(E 2 ) + Pr(E 3;1 ) + Pr(E 3;1 ) < n 1=4 : 67

4. Chernon rajat "Chernon raja" on yleisnimi joukolle epayhtaloita, jotka kertovat satunnaismuuttujan keskittymisesta odotusarvonsa ymparille. Perusesimerkki: Kun X B(n; p), niin kaikilla 0 < 1 patee X np Pr exp np Tasta seuraa esim. etta todennakoisyydella 1=2 X np + p 3np ln 2: Tata rajaa voidaan (a) tarkentaa ja (b) yleistaa. 1 3 np2 : Seuraavassa kaydaan lapi tamantyyppisia rajoja, niiden todistuksia ja sovelluksia. 68

Momenttigeneroiva funktio Satunnaismuuttujan X momenttigeneroiva funktio on M X (t) = E[e tx ] (mikali tama odotusarvo on aarellinen). Derivoimalla momenttigeneroiva funktio origossa n kertaa saadaan satunnaismuuttujan n:s momentti: Lause 4.1: Jos M x (t) on maaritelty jossain origon ymparistossa t 2 ( ; ), niin E[X n ] = M (n) X (0) kun n = 1; 2; : : :. Todistus: Momenttigeneroiva funktio on siis M X (t) = X x Pr(X = x) exp(tx): Annettujen ehtojen vallitessa se voidaan derivoida termeittain: X M (n) X (t) = x Pr(X = x)x n exp(tx): Sijoittamalla t = 0 saadaan vaite. 69

Esimerkki 4.2: Kun X Geom(p), niin E[e tx ] = mista derivoimalla saadaan M 0 X(t) = M 00 X(t) = = = 1X k=1 p 1 p p 1 p (1 p) k 1 pe tk 1X k=1 ((1 p)e t ) k 1 1 (1 p)e t 1 pe t (1 (1 p)e t ) 2 2p(1 p)e2t (1 (1 p)e t ) + pe t 3 (1 (1 p)e t ) 2: Sijoittamalla t = 0 saadaan tutut tulokset E[X] = 1=p ja E[X 2 ] = (2 p)=p 2. 70

Voidaan osoittaa (mutta talla kurssilla ei osoiteta), etta momenttigeneroiva funktio (tai kaikki momentit) spesioi todennakoisyysmuuttujan jakauman yksikasitteisesti: Lause 4.3: Jos X ja Y ovat satunnaismuuttujia joille jollain > 0 patee M X (t) = M Y (t) kaikilla < t <, niin satunnaismuuttujilla X ja Y on sama jakauma. Tata voidaan kayttaa esim. kahden satunnaismuuttujan tulon jakauman maarittamiseen yhdessa seuraavan kanssa: Lause 4.4: Jos X ja Y ovat riippumattomia, niin M X+Y (t) = M X (t)m Y (t): Todistus: Talloin myos e tx ja e ty ovat riippumattomia, joten E[e t(x+y ) ] = E[e tx e ty ] = E[e tx ]E[e ty ]: 71

Siirrytaan nyt itse Chernon rajoihin. Idea on soveltaa Markovin epayhtaloa satunnaismuuttujaan e tx sopivalla t. Markovin epayhtalosta saadaan Pr(X a) = Pr(e tx e ta ) E[etX ] e ta milla tahansa t > 0, eli erityisesti Samoin myos Pr(X a) min t>0 Pr(X a) min t>0 E[e tx ] e ta : E[e tx ] e ta : Idean soveltamiseen tarvitaan arvio momenttigeneroivalle funktiolle E[e tx ] ja sopiva t:n arvo. Usein esitetaan rajoja, joissa t on hieman epaoptimaalinen, jolloin saadaan ymmarrettavampia kaavoja. 72

Yleisimmin kaytetyssa versiossa X = P n i=1 X i missa X i Bernoulli(p i ) ovat riippumattomia. Satunnaismuuttujia X i sanotaan Poisson-toistokokeiksi. Jos jakaumat ovat identtiset, p i = p kaikilla i, puhutaan Bernoulli-toistokokeista. P n Merkitaan = E[X] = i=1 p i. Yritamme arvioida todennakoisyyksia Pr(X (1 + )) ja Pr(X (1 )). Arvioidaan ensin yksittaisten toistokokeiden momenttigeneroivaa funktiota: Tasta saadaan M Xi (t) = p i e t 1 + (1 p i )e t 0 = 1 + p i (e t 1) exp(p i (e t 1)): M X (t) = ny i=1 M Xi (t) exp nx i=1 p i (e t 1)! = exp (e t 1) : Johdamme seuraavaksi erikseen rajat todennakoisyyksille, etta X on hyvin suuri tai hyvin pieni. 73

Todistetaan ensin perusraja, joka on (suhteellisen) tiukka mutta hankala. Tasta voidaan sitten johtaa yhsinkertaistettuja (ja loysempia) versioita. Lause 4.5: Kaikille > 0 patee Pr(X (1 + )) < e (1 + ) 1+ : Todistus: Kuten edella todettiin, Markovin epayhtalosta saadaan Pr(X (1 + )) = Pr(e tx e t(1+) ) Valitaan t = ln(1 + ), jolloin ja E[e tx ] exp((e t 1)) = e exp(t(1 + )) = (1 + ) (1+) : E[e tx ] exp(t(1 + )) : 74

Seuraava on usein kaytetty yksinkertaistus: Lause 4.6: Kun 0 < 1, niin Todistus: Riittaa siis osoittaa Pr(X (1 + )) exp( 2 =3): e (1 + ) 1+ e 2 =3 eli yhtapitavasti (ottamalla logaritmi puolittain) f() 0 missa f() = (1 + ) ln(1 + ) + 1 3 2 : 75

Derivoidaan: f() = (1 + ) ln(1 + ) + 1 3 2 f 0 () = ln(1 + ) + 2 3 f 00 () = 1 1 + + 2 3 : Nyt f 00 () < 0 valilla 0 < 1=2, eli f 0 () pienenee. Toisaalta f 00 () > 0 valilla 1=2 < < 1, eli f 0 () kasvaa. Koska f 0 (0) = 0 ja f 0 (1) = 2=3 ln 2 < 0, patee f 0 () 0 Koska f(0) = 0, patee f() 0 kaikilla 0 < < 1. 76

Toinen tapa yksinkertaistaa rajaa on seuraava: Lause 4.7: Kun R 6, niin Pr(X R) 2 R : Todistus: Merkitaan R = (1 + ), jolloin = R= e e (1 + ) 1+ 1 + e 6 R 2 R : (1+) 1 5. Saadaan 77

Tarkastellaan sitten tapausta, etta X on hyvin pieni. Lause 4.8: Kaikilla 0 < < 1 patee Pr(X (1 Todistus: Kuten aiemmin, )) e (1 ) 1 : Pr(X (1 )) E[etX ] exp((et 1)) et(1 ) exp(t(1 )) : Haluttu arvio saadaan sijoittamalla t = ln(1 ). 78

Tata voidaan arvioida kuten toisessakin tapauksessa: Lause 4.9: Kaikilla 0 < < 1 patee Pr(X (1 )) exp( 2 =2): Todistus: Samalla tekniikalla kuin tapaus "(1 + )", yksityiskohdat sivuutetaan. Arviot voidaan yhdistaa: Korollaari 4.10: Kaikilla 0 < < 1 patee Pr(jX j ) 2 exp( 2 =3): 79

Esimerkki 4.11: Heitetaan symmetrista rahaa n kertaa. Siis = n=2. Millainen raja patee todennakoisyydella 2=n (siis p hyvin todennakoisesti)? Halutaan exp( (n=2) 2 =3) = 1=n, mista = (6 ln n)=n. Sijoittamalla tama rajaan saadaan Pr n X 1 p 6n ln n 2 2 2 n : Siis melko varmasti poikkeamat ovat O( p n log n). Verrataan Tsebysevin epayhtalolla saatuun arvioon Pr n X n 4 2 4 n : Jos otetaan Cherno-arvio samalle virheen suuruudelle, saadaan Pr n X n 2e n=24 2 4 eli eksponentiaalisesti pienempi virhetodennakoisyys. 80

Sovellus: parametrin estimointi Suoritetaan riippumattomia toistoja tuntemattomasta (mutta samana pysyvasta) jakaumasta Bernoulli(p). Halutaan arvioida parametria p. Olkoon X = P n i=1 X i onnistumisten lukumaara n toistossa ja ~p = X=n. Selvasti E[~p] = =n = p. Mita voidaan sanoa virhetodennakoisyyksista? Vali [~p ; ~p + ] on (1 )-luottamusvali parametrille p, jos Pr(p 2 [~p ; ~p + ]) 1 : Tulkinta: Nahtyamme koesarjan, jonka onnistumisfrekvenssi on ~p, meilla on "luottamus" 1 siihen, etta oikea parametri p on valilla [~p ; ~p + ]. Jos nain ei olisi, niin havaitunlaisten koesarjojen todennakoisyys olisi alle. Huom. p on vakio, silla ei ole mitaan todennakoisyytta (ellemme sitten oleta jotain priorijakaumaa ja tee bayeslaista analyysia. 81

Jos p 62 [~p p < ~p ; ~p + ], niin toinen seuraavista on tapahtunut: : siis X = n~p > n(p + ) = (1 + =p). p > ~p + : siis X = n~p < n(p ) = (1 =p). Chernon rajoista saadaan Pr(p 62 [~p ; ~p + ]) e (=p)2 =2 + e (=p)2 =3 = e n2 =(2p) + e n2 =(3p) : Koska p ei ole tiedossa, kaytetaan ylarajaa p 1, jonka perusteella voidaan valita = e n2 =2 + e n2 =3 (tai kaantaen ratkaista tasta, kun on valittu ja n tunnetaan). 82

Tarkempia rajoja erikoistapauksille Tarkastellaan tassa joitain tilanteita, joissa X i on symmetrisesti jakautunut. Lause 4.12: Jos Pr(X i = 1) = Pr(X i = 1) = 1=2, niin kaikilla a > 0 patee a 2 Pr(X a) exp : 2n Todistus: Kaikilla t > 0 patee E[e tx i ] = 1 2 et + 1 2 e t : Sijoitetaan tahan e t = 1X j=0 t j j! : 83

Siis saadaan E[e tx i ] = 1 2 1 + t + = 1 + t2 2 + t4 4! + : : : 1X t 2j = (2j)! j=0 1X 1 t 2 j! 2 j=0 t 2 = exp : 2 j t22 t3 + 3! + t4 4! + : : : + 1 1 t + t2 2 2 t 3 3! + t4 4! : : : 84

Siis joten E[e tx ] = ny i=1 Pr(X a) E[etX ] e ta E[e tx i t ] 2 exp n ; 2 t 2 n exp 2a Valitsemalla t = a=n saadaan haluttu a 2 Pr(X a) exp 2n : ta : Korollaari 4.13: Jos Pr(X i = 1) = Pr(X i = 1) = 1=2, niin kaikilla a > 0 a 2 Pr(jXj a) 2 exp : 2n 85

Korollaari 4.14: Olkoot Y i riippumattomia ja P n Pr(Y i = 1) = Pr(Y i = 0) = 1=2. Merkitaan Y = i=1 Y i ja = E[Y ] = n=2. Nyt kaikilla a > 0 patee 2a 2 Pr(Y + a) exp n ja kaikilla > 0 patee Pr(Y (1 + )) exp 2 : Todistus: Olkoot X i kuten aiemmin ja Y i = 1 2 (X i + 1). Siis erityisesti Y = 1 2 X +. 86

Edellisesta lauseesta seuraa 4a 2 Pr(Y + a) = Pr(X 2a) exp 2n Toista osaa varten valitaan a =, jolloin 4 Pr(Y (1 + )) = Pr(X 2) 2 2 exp 2n Samoin todistetaan : = exp 2 : Korollaari 4.15: Olkoot Y i riippumattomia ja P n Pr(Y i = 1) = Pr(Y i = 0) = 1=2. Merkitaan Y = i=1 Y i ja = E[Y ] = n=2. Nyt kaikilla 0 < a < patee 2a 2 Pr(Y a) exp n ja kaikilla > 0 patee Pr(Y (1 )) exp 2 : 87

Sovellus: joukon tasapainotus On annettu m henkiloa ja n ominaisuutta. Tehtavana on osittaa henkilot kahteen joukkoon A ja A s.e. kaikilla j = 1; : : : ; n jf p 2 A j p:lla on ominaisuus i gj p 2 A j p:lla on ominaisuus i : Maaritellaan taulukko A = (a ij ) 2 f 0; 1 g n m missa a ij = 1 jos henkilolla j on ominaisuus i. Esitetaan ositus (A; A) vektorina b 2 f 1; 1 g m, missa b j = 1 jos henkilo j on joukossa A. Nailla merkinnoilla tehtavana on siis minimoida suure missa c i = P j a ijb j. kabk 1 = max i jc i j 88

Miten hyvin onnistutaan, jos b valitaan satunnaisesti s.e. kukin b j on 1 todennakoisyydella 1=2 toisistaan riippumatta? Vaitetaan, etta Pr(kAbk 1 p 4m ln n) 2 n : Osoitetaan tama nayttamalla jokaiselle yksittaiselle riville i 2 f 1; : : : ; n g etta tapahtuman jc i j p 4m ln n todennakoisyys on korkeintaan 2=n 2. Merkitaan k = P j a ij. Jos k p 4m ln n, vaite on selva. Muuten, koska a ij b j saa arvoja 1 ja 1 symmetrisesti ja riippumattomasti, niin silla k m. Pr 0 @ X 1 a ij b j > p 4m ln na 4m ln n 2 exp 2k j 2 n 2 89

Esimerkki: pakettien reititys Verkossa on N solmua, joista joidenkin valilla on kaari. Kaaret ovat seuraavassa suunnattuja, mutta tarkastelemissamme topologioissa yhteydet ovat symmetrisia (kaari (v; v 0 ) olemassa joss (v 0 ; v) on). Tehtavana on valittaa verkkoa pitkin joukko paketteja, joista jokaisella on annettu alkupiste ja osoite (jotka ovat verkon solmuja). Paketin reitti on sille valittu verkon polku haluttujen solmujen valilla. Yhden aikayksikon aikana kukin paketti voi edeta korkeintaan yhden kaaren verran ja kutakin kaarta pitkin voidaan lahettaa korkeintaan yksi paketti. Solmuissa on (riittavasti) puskuritilaa paketeille, jotka odottavat tarvitsemansa kaaren vapautumista. 90

Verkon toiminnan maaraamiseksi pitaa kiinnittaa, miten reitti valitaan, kun lahto- ja maalisolmut on annettu ja missa jarjestyksessa samaa kaarta tarvitsevat paketit paasevat eteenpain (jonotus). Tassa esiteltavien tulosten kannalta ei ole tarkeaa, miten jonotus hoidetaan, kunhan vain kaarten ei anneta olla joutilaina. Verkon ruuhkautuminen riippuu tietysti siita, minka solmujen valilla paketteja lahetetan. Tarkastelemme seuraavassa tilanteita, joita syntyy permutaatioreitityksesta: jokainen solmu on seka lahtosolmuna etta maalisolmuna tasan yhdelle paketille. 91

Reititysongelma on kiinnostava lahinna, jos verkko on harva (kaaria paljon alle N(N 1)). Tarkastelemme esimerkkitopologiana hyperkuutiota. Tassa N = 2 n, ja samastamme solmut joukon f 0; 1 g n alkioiden kanssa. Hyperkuutiossa solmujen (a 1 ; : : : ; a n ) ja (b 1 ; : : : ; b n ) valilla on kaari, jos on tasan yksi indeksi i jolla a i 6= b i. Hyperkuutiossa on siis 2N log 2 N kaarta, ja verkon halkaisija (pisin kahden solmun etaisyys) on log 2 N. 92

Lahtokohta reititykseen hyperkuutiossa on bitinkorjausalgoritmi. Tarkastellaan pakettia, jonka lahtosolmu on a = (a 1 ; : : : ; a n ) ja maalisolmu b = (b 1 ; : : : ; b n ). Kun i = 1; : : : ; n + 1, maaritellaan v i = (b 1 ; : : : ; b i 1 ; a i ; : : : ; a n ): Paketin polku kulkee nyt solmujen a = v 1 ; v 2 ; : : : ; v n+1 = b kautta. (Kyseisesta solmulistasta saadaan varsinainen polku jattamalla pois toistuvat solmut, joita esiintyy kun a i = b i.) Siis paketin "osoite korjataan" bitti kerrallaan, vasemmalta alkaen. Bitinkorjausalgoritmi toimii hyvin keskimaaraisessa tapauksessa, kun maalisolmut valitaan satunnaisesti. Osoittautuu kuitenkin, etta joissain tapauksissa se johtaa ruuhkautumiseen ja vaatii ajan (N 1=2 ). 93

Bitinkorjauksen pahimpien tapausten valttamiseksi tarkastelemme satunnaistettua kaksivaiheista reititysta. Vaihe I: Valitse jokaiselle paketille satunnainen solmu "valitavoitteeksi". Reitita paketit valitavoitteisiinsa bitinkorjauksella. Vaihe II: Reitita paketit valitavoitteista lopullisiin tavoitteisiinsa bitinkorjauksella. Osoitamme, etta todennakoisyydella 1 O(N 1 ) kaksivaiheinen reititys onnistuu ajassa O(log N). Koska log 2 N on verkon halkaisija, tama on (jollain tarkkuudella) optimaalista. 94

Se, milloin jokin paketti ylittaa tietyn reitilleen kuuluvan kaaren, riippuu tietysti siita, missa jarjestyksessa jonoja puretaan. Analyysin yksinkertaistamiseksi olkoon T (M) aika, joka paketilta M kuluu maalinsa saavuttamiseen. Jokainen naista T (M) aika-askelista kuluu jompaan kumpaan seuraavista: 1. paketti M ylittaa jonkin kaaren reitillaan tai 2. paketti M odottaa jonossa kun jokin toinen paketti ylittaa sen tarvitsemaa kaarta. Olkoon X(e) niiden pakettien lukumaara, joiden reittiin kaari e kuuluu. Edellisen perusteella tehdaan Havainto: Jos paketin M reitti koostuu kaarista e 1 ; : : : ; e m, niin T (M) mx i=1 X(e i ): 95

Edellinen havainto sallii meidan keskittya polkujen analysoimiseen ja unohtaa jonotuskayttaytyminen jne. Kun P on polku, joka koostuu kaarista e 1 ; : : : ; e m, maaritellaan T (P ) = mx i=1 X(e i ): Edellisen havainnon perusteella minka tahansa reitityksen viema aika on korkeintaan max P 2R T (P ), missa R on reititykseen kuuluvien polkujen joukko. Huomaa, etta edellinen patee mihin tahansa reititystilanteeseen. Olkoot erityisesti T 1 ja X 1 suureet T ja X kun rajoitutaan satunnaisen kaksivaihereitytyksen vaiheeseen I. Osoitamme, etta suurella todennakoisyydella T (P ) 30n kaikilla mahdollisilla reiteilla P. 96

Kiinnitetaan nyt jokin polku P = (v 0 ; : : : ; v m ), joka on mahdollinen paketin reitti bitinkorjausalgoritmia kaytettaessa. Haluamme P suurella todennakoisyydella patevan rajan summalle m T 1 (P ) = i=1 X 1(e i ). Koska satunnaismuuttujat X 1 (e i ) eivat ole riippumattomia, Chernon rajoja ei voi suoraan soveltaa. Ongelman ratkaisemiseksi arvioimme ensin todennakoisyytta, etta vahintaan 6n eri pakettia ylittaa jonkin polun P kaaren. Taman jalkeen osoitetaan, etta suurella todennakoisyydella mikaan yksittainen paketti ei kayta kovin monta kaarta polulla P. 97

Olkoon v i 1 solmu polulla P, ja j se bitti jonka osalta v i 1 ja v i poikkeavat. Sanomme, etta paketti k on aktiivinen solmussa v i 1, jos 1. paketti k kulkee solmun v i 1 kautta, ja 2. paketin k tullessa solmuun v i 1 sen bittia j ei ole viela "korjattu". Kun k = 1; : : : ; N, merkitaan H k = 1 jos paketti k on aktiivinen jossain polun P solmussa. Olkoon H = P N k=1 H k. 98

Olkoon v i 1 = (b 1 ; : : : ; b j 1 ; a j ; a j+1 ; : : : ; a n ) v i = (b 1 ; : : : ; b j 1 ; b j ; a j+1 ; : : : ; a n ): Ehdon 2 mukaan solmussa v i 1 aktiivisen paketin lahtosolmu on muotoa ( ; : : : ; ; a j ; : : : ; a n ). Siis mahdollisia lahtosolmuja on 2 j 1. Ehdon 1 mukaan solmussa v i 1 aktiivisen paketin maalisolmu on muotoa (b 1 ; : : : ; b j 1 ; ; : : : ; ). Siis mahdollisen lahtosolmun paketista tulee aktiivinen todennakoisyydella 2 j+1. Siis solmussa v i 1 aktiivisten pakettien maaran osotusarvo on 1, joten E[H] m 1 n: 99

Koska satunnaismuuttujat H k ovat riippumattomia, voimme soveltaa Chernon rajaa (lause 4.7): Pr(H 6n) 2 6n : Valitsemme nyt B = f H 6n g arviossa Siis Pr(A) = Pr(A j B) Pr(B) + Pr(A j B) Pr(B) Pr(B) + Pr(A j B): Pr(T 1 (P )) 30n) 2 6n + Pr(T 1 (P ) 30n j H < 6n): Arvioidaan seuraavaksi jalkimmaista ehdollista todennakoisyytta. 100

Oletetaan, etta paketti k on aktiivinen solmussa v i 1. Jotta k todella kulkisi kaarta (v i 1 ; v i ), sen osoitteessa bitin j on oltava a j. Taman todennakoisyys on 1=2. Lisaksi edellytetaan, etta paketin k ei enaa tarvitse korjata mitaan aiempaa bittia 1; : : : ; j 1. Siis kaikkiaan solmussa v i 1 aktiivisen paketin todennakoisyys tehda siirtyma (v i 1 ; v i ) on korkeintaan 1=2. Yleisemmin, jos paketti on polulla viela solmussa v l 1, l > i, niin sen todennakoisyys paatya solmuun v l on korkeintaan 1=2. Toisaalta jos paketti ei solmusta v l 1 mene solmuun v l, se ei myohemminkaan palaa polulle P. Talloin nimittain jokin paketin kohdeosoitteen biteista 1; : : : ; l poikkeaa polun P maalista. Koska bitinkorjausalgoritmi ei enaa palaa naihin aiempiin bittehin, reitit jaavat pysyvasti erilleen. 101

Olkoon polun P solmuissa aktiivisia paketteja kaikkiaan h kappaletta. Milla todennakoisyydella ne yhteensa tekevat ainakin 30n siirtymaa polkua P pitkin? Ajatellaan, etta yksittaisessa kokeessa jokin aktiivinen paketti on jossain polun P solmussa. Korkeintaan todennakoisyydella 1=2 tapahtuu onnistuminen: paketti siirtyy eteenpain polulla P. Ainakin todennakoisyydella 1=2 tapahtuu epaonnistuminen: paketti poistuu polulta (eika koskaan palaa). Epaonnistumisen sattuessa siirrymme tarkastelemaan seuraavaa aktiivista pakettia. Siis jokainen onnistuminen tuo yhden lisasiirtyman, mutta jokainen epaonnistuminen kuluttaa yhden paketin. Jotta saadaan 30n siirtymaa, saa 30n + h ensimmaisessa kokeessa tulla korkeintaan h epaonnistumista. 102

Haluttu ehdollinen todennakoisyys Pr(T 1 (P ) 30n j H 6n) on siis todennakoisyys, etta em. toistokokeessa 36n toistolla tulee korkeintaan 6n epaonnistumista. Koska jokaisessa kokeessa onnistumistodennakoisyys on korkeintaan 1=2, on helppo nahda etta Pr(T 1 (P ) 30n j H 6n) Pr(Z 6n); missa Z B(36n; 1=2). Soveltamalla Chernon rajaa (lause 4.9) saadaan Siis Pr(T 1 (P ) 30n j H 6n) Pr(Z (1 2=3)18n exp( 18n(2=3) 2 =2) = e 4n 2 3n 1 : Pr(T 1 (P )) 30n) 2 6n + Pr(T 1 (P ) 30n j H < 6n) 2 3n : 103

Koska mahdollisia polkuja on N 2 = 2 2n, todennakoisyys etta T 1 (P ) jollekin polulle on korkeintaan 2 2n 2 3n = 2 n. Siis jos vaihetta II ei aloiteta, ennen kuin vaihe I on loppu, niin vaihe I menee todennakoisyydella 1 O(N 1 ) ajassa O(log N). Vaiheen II analyysi on taysin samanlainen. Polut vain "todellisuudessa" kuljetaan takaperin. Lopuksi todetaan, etta vaihe II voidaan hyvin aloittaa, vaikka vaihe I ei olisi loppunut. Edellinen analyysi on helppo yleistaa osoittamaan, etta talloin todennakoisyydella 1 O(N 1 ) minkaan polun kaaria ei kayteta yli 60n kertaa. 104

Esimerkki: Reititys perhosverkossa Perhosverkko. Kaarityssa verkossa kuva laitetaan "rullalle" siten, etta kunkin rivin alku- ja loppusolmu yhtyvat. 105

Perhosverkossa on N = n2 n solmua. Solmun osoite on muotoa (x; r), missa 0 x 2 n 1 on rivinumero ja 0 r n 1 sarakenumero. Kaarityssa perhosverkossa solmujen (x; r) ja (y; s) valilla on yhteys, jos s = (r + 1) mod n ja lisaksi joko 1. x = y ("suora kaari") tai 2. x ja y eroavat tasan (s + 1). bittipositiossa ("vaihtokaari"). Perhosverkosta saadaan hyperkuutio romauttamalla kukin rivi yhdeksi isoksi solmuksi. Toisin kuin hyperkuutiossa, perhosverkossa solmujen aste on vakio, ja kaaria on O(N). Jos siis onnistumme suorittamaan reitityksen samassa ajassa kuin hyperkuutiossa, tama on jossain mielessa tehokkaampi topologia. 106

Myos perhosverkossa otamme lahtokohdaksi bitinkorjausalgoritmin, jota tassa kaytetaan vain rivin korjaamiseen: 1. Olkoot lahto- ja maalisolmu (x; r) ja (y; r), missa x = (a 1 ; : : : ; a n ) ja y = (b 1 ; : : : ; b n ). 2. Toista arvoilla i = 0; : : : ; n: (a) j := ((i + r) mod n) + 1 (b) Jos a j = b j, siirry sarakkeeseen j mod n suoraa kaarta, muuten vaihtokaarta. 107