Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Samankaltaiset tiedostot
Yhteistyötä sisältämätön peliteoria jatkuu

Toistetut pelit Elmeri Lähevirta. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Luento 8. June 3, 2014

Sekastrategia ja Nash-tasapainon määrääminen

SEKASTRATEGIAT PELITEORIASSA

Nollasummapelit ja bayesilaiset pelit

Pelien teoriaa: tasapainokäsitteet

Yhteistyötä sisältämätön peliteoria

Luento 5: Peliteoriaa

Luento 5: Peliteoriaa

Pohdiskeleva ajattelu ja tasapainotarkennukset

1. Universaaleja laskennan malleja

Epätäydellisen tiedon jatkuvat pelit. Mika Viljanen Peliteorian seminaari

MS-C2105 Optimoinnin perusteet Malliratkaisut 5

Laskennan mallit (syksy 2010) Harjoitus 4, ratkaisuja

Luento 5: Peliteoria

Signalointi: autonromujen markkinat

Hintakilpailu lyhyellä aikavälillä

Sekastrategiat ja intensiiviyhteensopivuus

Tasapaino epätäydellisen tiedon peleissä

vaihtoehtoja TIEA241 Automaatit ja kieliopit, syksy 2016 Antti-Juhani Kaijanaho 13. lokakuuta 2016 TIETOTEKNIIKAN LAITOS

Johdanto peliteoriaan Kirja kpl. 2

Rationalisoituvuus ja yleinen tieto rationaalisuudesta

Luento 9. June 2, Luento 9

Yhteydettömän kieliopin jäsennysongelma

Opettaminen ja oppiminen

PELITEORIAN PERUSTEITA

Dynaaminen hintakilpailu ja sanattomat sopimukset

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Evolutiivinen stabiilisuus populaation

Turingin koneen laajennuksia

Luento 7. June 3, 2014

Kommunikaatio Visa Linkiö. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Peliteoria Strategiapelit ja Nashin tasapaino. Sebastian Siikavirta

Automaatit. Muodolliset kielet

Martingaalit ja informaatioprosessit

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

LAAJENNETUN MUODON RATIONALISOITUVUUS. S ysteemianalyysin. Arno Solin Laboratorio. Aalto-yliopiston Teknillinen korkeakoulu

Haitallinen valikoituminen: yleinen malli ja sen ratkaisu

11 Oligopoli ja monopolistinen kilpailu (Mankiw & Taylor, Ch 17)

Mikrotaloustiede Prof. Marko Terviö Aalto-yliopisto BIZ 31C00100 Assist. Jan Jääskeläinen Syksy 2017

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

Esimerkki: Tietoliikennekytkin

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Epätäydellisen tiedon jatkuvat pelit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Algoritmin määritelmä [Sipser luku 3.3]

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ongelma(t): Mikä on Turingin kone? Miten Turingin kone liittyy funktioihin ja algoritmeihin? Miten Turingin kone liittyy tietokoneisiin?

δ : (Q {q acc, q rej }) (Γ k {, }) Q (Γ k {, }) {L, R}.

Vangin dilemma häiriöisessä ympäristössä Markov-prosessina (valmiin työn esittely) Lasse Lindqvist

Turingin koneet. Sisällys. Aluksi. Turingin koneet. Turingin teesi. Aluksi. Turingin koneet. Turingin teesi

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Täydentäviä muistiinpanoja Turingin koneiden vaihtoehdoista

Dynaamiset regressiomallit

Evolutiivisesti stabiilin strategian oppiminen

Peliteorian soveltaminen hajautettujen järjestelmien protokollasuunnittelussa (valmiin työn esittely)

Harjoitus 7: NCSS - Tilastollinen analyysi

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 12. lokakuuta 2016

b) Arvonnan, jossa 50 % mahdollisuus saada 15 euroa ja 50 % mahdollisuus saada 5 euroa.

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Peliteoria luento 3. May 27, Peliteoria luento 3

Diskreettiaikainen dynaaminen optimointi

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

V ar(m n ) = V ar(x i ).

HUUTOKAUPPATEORIAA TTS-Kurssille/Kultti 2012

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

Kielenä ilmaisten Hilbertin kymmenes ongelma on D = { p p on polynomi, jolla on kokonaislukujuuri }

Strateginen kanssakäyminen. Taloustieteen perusteet Matti Sarvimäki

Turingin koneet. TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 7. joulukuuta 2015 TIETOTEKNIIKAN LAITOS.

Pinoautomaatit. TIEA241 Automaatit ja kieliopit, kesä Antti-Juhani Kaijanaho. 6. kesäkuuta 2013 TIETOTEKNIIKAN LAITOS. Pinoautomaatit.

Äärellisten automaattien ja säännöllisten kielten ekvivalenssi

Estimointi. Vilkkumaa / Kuusinen 1

3. laskuharjoituskierros, vko 6, ratkaisut

TAMPEREEN YLIOPISTO Pro gradu -tutkielma. Tero Sirkka. Peliteoriaa

JOHDATUSTA PELITEORIAAN

(0 1) 010(0 1) Koska kieli on yksinkertainen, muodostetaan sen tunnistava epädeterministinen q 0 q 1 q 2 q3

Investointimahdollisuudet ja investoinnin ajoittaminen

Projektin keskeyttäminen, uudelleen käynnistäminen ja hylkääminen

30A02000 Tilastotieteen perusteet

PELITEORIAN TALOUSTIETEELLISIÄ SOVELLUKSIA

Epädeterministisen Turingin koneen N laskentaa syötteellä x on usein hyödyllistä ajatella laskentapuuna

Laskennan rajoja. Sisällys. Meta. Palataan torstaihin. Ratkeavuus. Meta. Universaalikoneet. Palataan torstaihin. Ratkeavuus.

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Rajoittamattomat kieliopit

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Sovellettu todennäköisyyslaskenta B

INTERVALLIPÄÄTÖSPUUT JANNE GUSTAFSSON 45433E. Mat Optimointiopin seminaari Referaatti

Fuusio vai konkurssi? Hintakilpailun satoa

Peliteoria luento 2. May 26, Peliteoria luento 2

Martingaalit ja informaatioprosessit

Generoivat funktiot, Poisson- ja eksponenttijakaumat

Johdatus peliteoriaan

Tenniksen pistelaskusäännöt, lukio/ammatilliset oppilaitokset

Transkriptio:

Bayesin pelit Kalle Siukola MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 12.10.2016

Toistetun pelin esittäminen automaatin avulla Ekstensiivisen muodon puu on tehoton esitystapa, jos peliä pelataan useita kierroksia. Haaroja O(b n ). Toistetussa pelissä pelaajan strategiaa voidaan kuvata automaatin avulla. Automaatti voidaan ajatella tilakaaviona. Määritelmä Peliä (N, A, u) pelataan toistuvasti. Automaatti M i pelaajalle i on monikko (Q i, q 0 i, δ i, f i ), missä Q i on tilajoukko, q 0 i Q i alkutila, δ i tilansiirtymäfunktio ja f i strategiafunktio. (Ks. kirja määritelmä 6.1.6) Automaatti siis kuvaa, mihin tilaan siirrytään milläkin vastustajan toimenpiteillä nykyisestä tilasta. Strategiafunktio f i : Q i A i kuvaa tilan pelaajan liikkeeksi.

Toistetun pelin esittäminen automaatin avulla Kuvataan vangin dilemman Tit-for-Tat-strategia automaatin avulla. Pelaaja siis toistaa aina vastapuolen liikkeet omalla vuorollaan. C D D start q 0 q 1 C Strategiafunktio f (q 0 ) = C ja f (q 1 ) = D ja siirtymäfunktio δ(q 0, C) = q 0, δ(q 0, D) = q 1, δ(q 1, D) = q 1 ja δ(q 1, C) = q 0.

Parhaan vastauksen antava automaatti Automaatit on kehitetty tietokoneita varten, joten laskennan vaativuus asettaa rajoitteita. On selvää, että automaatissa ei voi olla tiloja rajattomasti. Jos U i (M 1, M 2 ) > U i (M 1, M 2 ) tai U i(m 1, M 2 ) = U i (M 1, M 2 ) ja M i < M i, merkitään (M 1, M 2 ) i (M 1, M 2 ). Pelaajan paras vastaus on automaatti, jolla on suurin hyöty pelaajalle. Jos näitä on useita, kannattaa valita automaatti, jossa on vähiten tiloja. Löytäminen haastavaa, ongelma on usein NP-täydellinen.

Nashin tasapaino Jos pelaajien automaattien koko on vähintään 1 ja enintään k 1, jossa k on pelin kierrosten lukumäärä, johtaa TfT-strategia symmetriseen Nashin tasapainoon. Tässä tasapainossa molemmat tekevät yhteistyötä. Jos toisen pelaajan automaatissa on enintään k 1 tilaa, ainakin yksi niistä käydään kahteen kertaan. Myös muita tuloksia erityisesti kahden pelaajan PD-pelin automaateille.

Turingin kone Tietokoneen yksinkertainen teoreettinen malli. Lisätään jokaiselle pelaajalle ääretön määrä muistia. Voidaan ajatella, että jokaisella pelaajalla on käytössään rajattomasti nauhaa. Nauhaan voi kirjoittaa sekä siitä voi lukea tai poistaa tietoa. Nauhan sisältämät merkit nauha-aakkoston merkkejä. Päätökset tehdään tilan ja nauhalla olevan datan perusteella. Nauhoilla voi olla myös valmiiksi tietoa, jolloin pelaajien käytöstä voidaan manipuloida syötteen avulla.

Stokastinen peli Stokastinen peli voidaan ajatella Markovin päätösprosessin yleistyksenä, jossa päätöksentekijöitä (pelaajia) on useita. Yksi tila kuvaa yhtä peliä. Siirtymätodennäköisyysfunktio P(q, a, ˆq) kuvaa todennäköisyyden siirtyä tilasta q tilaan ˆq toimenpidejoukon a suorittamisen jälkeen. Lisäksi pelaajakohtainen palkkiofunktio r i, jonka arvo määräytyy tilan ja pelaajien toimenpiteiden mukaan.

Stokastisen pelin strategia Merkitään h t = (q 0, a 0, q 1, a 1...a t 1, q t ). h t siis kuvaa pelin historiaa ajanhetkellä t. Käytökseen perustuvassa strategiassa s i (h t, a ij ) palauttaa todennäköisyyden toimenpiteelle a ij historialla h t. Markovin strategia on tällaisen strategian erikoistapaus, jossa todennäköisyysjakauma riippuu vain nykyisestä tilasta tietyllä ajanhetkellä. Eli historialla ei ole merkitystä lopputilaa lukuunottamatta. Jos lisäksi aikariippuvuus poistetaan, puhutaan stationaarisesta strategiasta.

Bayesin peli Tähän asti peli, jota pelataan, on ollut yleistä tietoa. Oletetaan, että peli arvotaan jostain todennäköisyysjakaumasta, joka on kaikkien pelaajien tiedossa. Pelaaja näkee jonkin joukon eri pelivaihtoehtoja. Hänellä on siis jokin informaatio pelistä. Ehdollinen todennäköisyys on nyt tärkeä käsite P(θ j θ i ) = P(θ j, θ i ) P(θ i )

Bayesin peli informaatiojoukoilla Bayesin pelit voidaan määritellä informaatiojoukkojen mukaan (kirja määr. 6.3.1). Peli on monikko (N, G, P, I) (Pelaajat, pelit, todennäköisyysjakauma peleille, informaatiojoukot) Siis jokaista pelaajaa k vastaa informaatiojoukko I k, joka sisältää informaation siitä, mitä pelejä tullaan pelaamaan. Yhtä peliä vastaa aina yksi ekvivalenssiluokka. Bayesin peli voidaan esittää myös ekstensiivisen muodon puussa. Tällöin luontoäiti tekee ensimmäisen valinnan ja pelaajat saavat häneltä informaatiosignaalin. Luontoäidillä ei ole hyötyfunktiota tai se on vakio.

Bayesin peli tyypeillä Intuitiivisempi tapa määritellä Bayesin peli on käyttää pelaajille tyyppejä. Jokaiselle pelaajalle arvotaan tyyppi ja pelaaja tietään vain oman tyyppinsä ja jakauman, josta kaikki tyypit arvotaan. Bayesin peli on siis monikko (N, A, Θ, p, u). Θ = i Θ i on pelaajien mahdollisten tyyppien joukko, p : Θ [0, 1] jakauma pelaajien tyypeille ja u on hyötyfunktio. (Kirja määr. 6.3.2) Jakauma p siis tuottaa koko peliasetelman. Muiden pelaajien tyyppien todennäköisyyttä voidaan arvioida Bayesin ehdollisen todennäköisyyden kaavalla P(θ j θ i ) = P(θ j, θ i ) P(θ i )

Odotettu hyöty Puhtaassa strategiassa toimenpide määräytyy suoraan pelaajan tyypin pohjalta. Sekastrategiassa on todennäköisyydet s j (a j θ j ). Sekastrategiassa on oleellista tutkia pelaajien odotettua hyötyä. Määritelmä Ex post-odotettu hyöty. Pelaajan i odotettu hyöty Bayesin pelissä (N, A, Θ, p, u), kun pelaajien tyypit θ EU i (s, θ) = ( ) s j (a j θ j ) u i (a, θ) a A j N

Odotettu hyöty Bayesin pelissä pelaajat eivät tiedä muiden pelaajien tyyppejä. Määritelmä Ex interim-odotettu hyöty. Pelaajan i odotettu hyöty, kun hänen tilansa on θ i EU i (s, θ i ) = p(θ i θ i )EU i (s, (θ i, θ i )). θ i Θ i Ex ante-odotettu hyöty, jos pelaajan tyyppiä ei tiedetä EU i (s) = θ i Θ i p(θ i )EU i (s, θ i ).

Bayesin Nashin tasapaino Määritelmä Bayesin Nash tasapaino on sekastrategia-asetelma s, jolle i s i arg max s i EU i (s i, s i). Bayesin Nash-tasapainossa jokaisen pelaajan sekastrategia antaa parhaan mahdollisen odotetun hyödyn. Pelaajien strategiat eri tyypeillä oltava tiedossa Koska arg max palauttaa joukon, voi tasapainoja olla useita.

Esimerkki Bayesin pelistä Yritys 1 ja yritys 2 valmistavat samaa tuotetta ja muita kilpailijoita ei ole. Molemmilla tuotteen rajakustannus on vakio. Yrityksen 1 rajakustannus on julkista tietoa ja se on C. Yrityksellä 2 taas rajakustannus on C L todennäköisyydellä θ ja C H todennäköisyydellä 1 θ. Tiedetään, että C L < C H. Halutaan selvittää Bayesin Nashin tasapaino yrityksen valmistamien tuotteiden lukumäärälle. Hyötyfunktiot ovat u 1 ((q 1, q 2 ), t) = q 1 (P(q 1 + q 2 ) C) u 2 ((q 1, q 2 ), t) = q 2 (P(q 1 + q 2 ) C t ) t {L, H}

Esimerkki, jatkoa Odotetuksi hyödyiksi saadaan EU 1 (q 1, (q L, q H )) = θ q 1 (P(q 1 + q L ) C) +(1 θ) q 1 (P(q 1 + q H ) C) EU L (q L, q 1 ) = q L (P(q 1 + q L ) C L ) EU H (q H, q 1 ) = q H (P(q 1 + q H ) C H ) Lisäksi kysyntäkäyrä voidaan ajatella olevan muotoa P(Q) = α kq, jossa k > 0. Oletetaan yksinkertaisuuden vuoksi, että k = 1.

Esimerkki, jatkoa Ääriarvot saadaan derivaattojen nollakohtien avulla. Näin syntyneestä yhtälöryhmästä saadaan ratkaisuksi, että q 1 = 1 3 (α 2C + θc L + (1 θ)c H ) q L = 1 3 (α 2C L + C) 1 6 (1 θ)(c H C L ) Tämä on siis Bayesin Nashin tasapaino. q H = 1 3 (α 2C H + C) 1 6 θ(c H C L )

Esimerkki, sekastrategia Tarkastellaan seuraavaksi tilannetta, jossa pelaajat pelaavat sekastrategialla. Kummankin pelin todennäköisyys on 0.5. C H C 10, 5 0, 0 H 0, 0 5, 10 C H C 10, 0 0, 10 H 0, 5 5, 0 Merkitään, että pelaaja 1 pelaa C todennäköisyydellä p ja pelaaja 2 pelaa C todennäköisyydellä q 1. Vastaava todennäköisyys pelissä 2 on q 2. Halutaan selvittää Bayesin Nashin tasapaino.

Esimerkki, sekastrategia jatkoa Aloitetaan tarkastelu pelistä 1. Tuttuun tapaan odotusarvojen tulee olla pelaajalle 2 yhtä suuret molemmissa vaihtoehdoissa. 5p + 0(1 p) = 0p + 10(1 p) p = 2/3 Nyt havaitaan, että pelissä 2 pelaajan 2 odotetuille hyödyille pätee 0 2/3 + 5 1/3 < 10 2/3 + 0 1/3. Eli pelaajan 2 kannattaa pelata pelissä 2 aina H. Sitten tarkastellaan vielä pelaajan 1 kannalta. 10q 1 + 0(1 q 1 ) + 0 = 0q 1 + 5(1 q 1 ) + 5 q 1 = 2/3 Siis Bayesin Nashin tasapaino on ((2/3, 1/3),((2/3, 1/3), (0, 1))).

Termejä Tit for Tat Samalla mitalla takaisin Ex post Jälkikäteen eli, kun peli on pelattu Ex interim Kesken pelin eli, kun oma tyyppi tiedetään Ex ante Etukäteen eli ennen peliä

Kotitehtävä Etsi viimeisen esimerkin tehtävälle toinen Bayesin Nashin tasapaino.