Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Bayesin pelit Kalle Siukola MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 12.10.2016

Toistetun pelin esittäminen automaatin avulla Ekstensiivisen muodon puu on tehoton esitystapa, jos peliä pelataan useita kierroksia. Haaroja O(b n ). Toistetussa pelissä pelaajan strategiaa voidaan kuvata automaatin avulla. Automaatti voidaan ajatella tilakaaviona. Määritelmä Peliä (N, A, u) pelataan toistuvasti. Automaatti M i pelaajalle i on monikko (Q i, q 0 i, δ i, f i ), missä Q i on tilajoukko, q 0 i Q i alkutila, δ i tilansiirtymäfunktio ja f i strategiafunktio. (Ks. kirja määritelmä 6.1.6) Automaatti siis kuvaa, mihin tilaan siirrytään milläkin vastustajan toimenpiteillä nykyisestä tilasta. Strategiafunktio f i : Q i A i kuvaa tilan pelaajan liikkeeksi.

Toistetun pelin esittäminen automaatin avulla Kuvataan vangin dilemman Tit-for-Tat-strategia automaatin avulla. Pelaaja siis toistaa aina vastapuolen liikkeet omalla vuorollaan. C D D start q 0 q 1 C Strategiafunktio f (q 0 ) = C ja f (q 1 ) = D ja siirtymäfunktio δ(q 0, C) = q 0, δ(q 0, D) = q 1, δ(q 1, D) = q 1 ja δ(q 1, C) = q 0.

Parhaan vastauksen antava automaatti Automaatit on kehitetty tietokoneita varten, joten laskennan vaativuus asettaa rajoitteita. On selvää, että automaatissa ei voi olla tiloja rajattomasti. Jos U i (M 1, M 2 ) > U i (M 1, M 2 ) tai U i(m 1, M 2 ) = U i (M 1, M 2 ) ja M i < M i, merkitään (M 1, M 2 ) i (M 1, M 2 ). Pelaajan paras vastaus on automaatti, jolla on suurin hyöty pelaajalle. Jos näitä on useita, kannattaa valita automaatti, jossa on vähiten tiloja. Löytäminen haastavaa, ongelma on usein NP-täydellinen.

Nashin tasapaino Jos pelaajien automaattien koko on vähintään 1 ja enintään k 1, jossa k on pelin kierrosten lukumäärä, johtaa TfT-strategia symmetriseen Nashin tasapainoon. Tässä tasapainossa molemmat tekevät yhteistyötä. Jos toisen pelaajan automaatissa on enintään k 1 tilaa, ainakin yksi niistä käydään kahteen kertaan. Myös muita tuloksia erityisesti kahden pelaajan PD-pelin automaateille.

Turingin kone Tietokoneen yksinkertainen teoreettinen malli. Lisätään jokaiselle pelaajalle ääretön määrä muistia. Voidaan ajatella, että jokaisella pelaajalla on käytössään rajattomasti nauhaa. Nauhaan voi kirjoittaa sekä siitä voi lukea tai poistaa tietoa. Nauhan sisältämät merkit nauha-aakkoston merkkejä. Päätökset tehdään tilan ja nauhalla olevan datan perusteella. Nauhoilla voi olla myös valmiiksi tietoa, jolloin pelaajien käytöstä voidaan manipuloida syötteen avulla.

Stokastinen peli Stokastinen peli voidaan ajatella Markovin päätösprosessin yleistyksenä, jossa päätöksentekijöitä (pelaajia) on useita. Yksi tila kuvaa yhtä peliä. Siirtymätodennäköisyysfunktio P(q, a, ˆq) kuvaa todennäköisyyden siirtyä tilasta q tilaan ˆq toimenpidejoukon a suorittamisen jälkeen. Lisäksi pelaajakohtainen palkkiofunktio r i, jonka arvo määräytyy tilan ja pelaajien toimenpiteiden mukaan.

Stokastisen pelin strategia Merkitään h t = (q 0, a 0, q 1, a 1...a t 1, q t ). h t siis kuvaa pelin historiaa ajanhetkellä t. Käytökseen perustuvassa strategiassa s i (h t, a ij ) palauttaa todennäköisyyden toimenpiteelle a ij historialla h t. Markovin strategia on tällaisen strategian erikoistapaus, jossa todennäköisyysjakauma riippuu vain nykyisestä tilasta tietyllä ajanhetkellä. Eli historialla ei ole merkitystä lopputilaa lukuunottamatta. Jos lisäksi aikariippuvuus poistetaan, puhutaan stationaarisesta strategiasta.

Bayesin peli Tähän asti peli, jota pelataan, on ollut yleistä tietoa. Oletetaan, että peli arvotaan jostain todennäköisyysjakaumasta, joka on kaikkien pelaajien tiedossa. Pelaaja näkee jonkin joukon eri pelivaihtoehtoja. Hänellä on siis jokin informaatio pelistä. Ehdollinen todennäköisyys on nyt tärkeä käsite P(θ j θ i ) = P(θ j, θ i ) P(θ i )

Bayesin peli informaatiojoukoilla Bayesin pelit voidaan määritellä informaatiojoukkojen mukaan (kirja määr. 6.3.1). Peli on monikko (N, G, P, I) (Pelaajat, pelit, todennäköisyysjakauma peleille, informaatiojoukot) Siis jokaista pelaajaa k vastaa informaatiojoukko I k, joka sisältää informaation siitä, mitä pelejä tullaan pelaamaan. Yhtä peliä vastaa aina yksi ekvivalenssiluokka. Bayesin peli voidaan esittää myös ekstensiivisen muodon puussa. Tällöin luontoäiti tekee ensimmäisen valinnan ja pelaajat saavat häneltä informaatiosignaalin. Luontoäidillä ei ole hyötyfunktiota tai se on vakio.

Bayesin peli tyypeillä Intuitiivisempi tapa määritellä Bayesin peli on käyttää pelaajille tyyppejä. Jokaiselle pelaajalle arvotaan tyyppi ja pelaaja tietään vain oman tyyppinsä ja jakauman, josta kaikki tyypit arvotaan. Bayesin peli on siis monikko (N, A, Θ, p, u). Θ = i Θ i on pelaajien mahdollisten tyyppien joukko, p : Θ [0, 1] jakauma pelaajien tyypeille ja u on hyötyfunktio. (Kirja määr. 6.3.2) Jakauma p siis tuottaa koko peliasetelman. Muiden pelaajien tyyppien todennäköisyyttä voidaan arvioida Bayesin ehdollisen todennäköisyyden kaavalla P(θ j θ i ) = P(θ j, θ i ) P(θ i )

Odotettu hyöty Puhtaassa strategiassa toimenpide määräytyy suoraan pelaajan tyypin pohjalta. Sekastrategiassa on todennäköisyydet s j (a j θ j ). Sekastrategiassa on oleellista tutkia pelaajien odotettua hyötyä. Määritelmä Ex post-odotettu hyöty. Pelaajan i odotettu hyöty Bayesin pelissä (N, A, Θ, p, u), kun pelaajien tyypit θ EU i (s, θ) = ( ) s j (a j θ j ) u i (a, θ) a A j N

Odotettu hyöty Bayesin pelissä pelaajat eivät tiedä muiden pelaajien tyyppejä. Määritelmä Ex interim-odotettu hyöty. Pelaajan i odotettu hyöty, kun hänen tilansa on θ i EU i (s, θ i ) = p(θ i θ i )EU i (s, (θ i, θ i )). θ i Θ i Ex ante-odotettu hyöty, jos pelaajan tyyppiä ei tiedetä EU i (s) = θ i Θ i p(θ i )EU i (s, θ i ).

Bayesin Nashin tasapaino Määritelmä Bayesin Nash tasapaino on sekastrategia-asetelma s, jolle i s i arg max s i EU i (s i, s i). Bayesin Nash-tasapainossa jokaisen pelaajan sekastrategia antaa parhaan mahdollisen odotetun hyödyn. Pelaajien strategiat eri tyypeillä oltava tiedossa Koska arg max palauttaa joukon, voi tasapainoja olla useita.

Esimerkki Bayesin pelistä Yritys 1 ja yritys 2 valmistavat samaa tuotetta ja muita kilpailijoita ei ole. Molemmilla tuotteen rajakustannus on vakio. Yrityksen 1 rajakustannus on julkista tietoa ja se on C. Yrityksellä 2 taas rajakustannus on C L todennäköisyydellä θ ja C H todennäköisyydellä 1 θ. Tiedetään, että C L < C H. Halutaan selvittää Bayesin Nashin tasapaino yrityksen valmistamien tuotteiden lukumäärälle. Hyötyfunktiot ovat u 1 ((q 1, q 2 ), t) = q 1 (P(q 1 + q 2 ) C) u 2 ((q 1, q 2 ), t) = q 2 (P(q 1 + q 2 ) C t ) t {L, H}

Esimerkki, jatkoa Odotetuksi hyödyiksi saadaan EU 1 (q 1, (q L, q H )) = θ q 1 (P(q 1 + q L ) C) +(1 θ) q 1 (P(q 1 + q H ) C) EU L (q L, q 1 ) = q L (P(q 1 + q L ) C L ) EU H (q H, q 1 ) = q H (P(q 1 + q H ) C H ) Lisäksi kysyntäkäyrä voidaan ajatella olevan muotoa P(Q) = α kq, jossa k > 0. Oletetaan yksinkertaisuuden vuoksi, että k = 1.

Esimerkki, jatkoa Ääriarvot saadaan derivaattojen nollakohtien avulla. Näin syntyneestä yhtälöryhmästä saadaan ratkaisuksi, että q 1 = 1 3 (α 2C + θc L + (1 θ)c H ) q L = 1 3 (α 2C L + C) 1 6 (1 θ)(c H C L ) Tämä on siis Bayesin Nashin tasapaino. q H = 1 3 (α 2C H + C) 1 6 θ(c H C L )

Esimerkki, sekastrategia Tarkastellaan seuraavaksi tilannetta, jossa pelaajat pelaavat sekastrategialla. Kummankin pelin todennäköisyys on 0.5. C H C 10, 5 0, 0 H 0, 0 5, 10 C H C 10, 0 0, 10 H 0, 5 5, 0 Merkitään, että pelaaja 1 pelaa C todennäköisyydellä p ja pelaaja 2 pelaa C todennäköisyydellä q 1. Vastaava todennäköisyys pelissä 2 on q 2. Halutaan selvittää Bayesin Nashin tasapaino.

Esimerkki, sekastrategia jatkoa Aloitetaan tarkastelu pelistä 1. Tuttuun tapaan odotusarvojen tulee olla pelaajalle 2 yhtä suuret molemmissa vaihtoehdoissa. 5p + 0(1 p) = 0p + 10(1 p) p = 2/3 Nyt havaitaan, että pelissä 2 pelaajan 2 odotetuille hyödyille pätee 0 2/3 + 5 1/3 < 10 2/3 + 0 1/3. Eli pelaajan 2 kannattaa pelata pelissä 2 aina H. Sitten tarkastellaan vielä pelaajan 1 kannalta. 10q 1 + 0(1 q 1 ) + 0 = 0q 1 + 5(1 q 1 ) + 5 q 1 = 2/3 Siis Bayesin Nashin tasapaino on ((2/3, 1/3),((2/3, 1/3), (0, 1))).

Termejä Tit for Tat Samalla mitalla takaisin Ex post Jälkikäteen eli, kun peli on pelattu Ex interim Kesken pelin eli, kun oma tyyppi tiedetään Ex ante Etukäteen eli ennen peliä

Kotitehtävä Etsi viimeisen esimerkin tehtävälle toinen Bayesin Nashin tasapaino.