Toistetut pelit MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 12.10.2016 Elmeri Lähevirta The document can be stored and made available to the public on the open internet pages of Aalto University. All other rights are reserved.
Toistetut pelit Staattiset eli yhden kerran pelattavat pelit kuvaavat tosielämän tapahtumia huonosti Harvat tilanteet tosielämässä tapahtuvat vain kerran Käytännön kannalta staattisia pelejä mielenkiintoisempia ovat toistetut pelit Staattisen pelin muuntaminen toistetuksi ei tarkoita sitä, että toistetun pelin tasapaino olisi aina sama kuin staattisen pelin Pelin luonne usein muuttuu paljonkin toistetuissa peleissä Tärkeä tekijä toistetuissa peleissä on se, että pelaajat voivat tehdä pelin aikana valintansa vastustajan aikaisempiin valintoihin perustuen
Toistetut pelit Toistetussa pelissä jotakin peliä pelataan useita kertoja samojen pelaajien toimesta. Peliä, jota toistetaan kutsutaan vaihepeliksi (engl. stage game) Vaihepeli on yleensä normaalimuotoinen Tyypillisessä toistetussa pelissä: 1. Pelaajat pelaavat normaalimuotoista peliä (vaihepeliä) 2. Pelin jälkeen he näkevät, mitä tapahtui (ja saavat sen pelin tuotot) 3. Tämän jälkeen peliä pelataan uudestaan 4. Jne.
Toistetut pelit Toistettua peliä voidaan pelata: 1. Rajallinen ja tunnettu määrä kertoja 2. Rajallinen, mutta tuntematon määrä kertoja 3. Rajaton määrä kertoja Seuraavaksi katsotaan esimerkkejä kaksi kertaa toistetusta vangin dilemmasta
Esimerkki Kahdesti pelattu vangin dilemma normaalimuodossa
Esimerkki Kahdesti pelattu vangin dilemma normaalimuodossa Normaalimuoto on intuitiivinen esitysmuoto, mutta jättää monta asiaa epäselväksi Näkevätkö agentit, mitä toinen pelaaja on pelannut aikaisemmin? Muistavatko agentit, mitä he tiesivät aikaisemmin? Mikä on koko toistetun pelin tuotto? Täydellisempi esitystapa on esittää rajallinen toistettu peli epätäydellisen informaation pelinä laajennetussa muodossa
Esimerkki 2 Kahdesti pelattu vangin dilemma laajennetussa muodossa
Esimerkki 2 Kahdesti pelattu vangin dilemma laajennetussa muodossa Huomioitavia seikkoja: 1. Jokaisen vaihepelin aikana pelaajat eivät tiedä toisen pelaajan toimintoa, mutta jälkikäteen tietävät 2. Agenttien tuottofunktio on additiivinen Toistetun pelin tuotto on yksittäisten vaihepelien tuottojen summa
Esimerkki 2 Kahdesti pelattu vangin dilemma laajennetussa muodossa Huomataan myös, että toistetun pelin strategia-avaruus on vaihepelin strategia-avaruutta paljon suurempi Selvästi yksi strategia olisi pelata samalla strategialla jokaisessa yksittäisessä vaihepelissä Tällaista muistitonta strategiaa kutsutaan stationaariseksi strategiaksi (engl. stationary strategy)
Esimerkki 2 Kahdesti pelattu vangin dilemma laajennetussa muodossa Induktiolla takaperin voidaan todistaa, että rajallisesti toistetun vangin dilemman osapelitäydellinen Nashin tasapaino on aina vasikoida Vasikointi on myös vaihepelin Nashin tasapaino Toistetun pelin yksi osapelitäydellinen tasapaino on aina pelata jotakin vaihepelin Nashin tasapainoa Rajallisesti toistetun pelin tapauksessa nämä ovat myös ainoat tasapainot (induktion perusteella) Rajattomasti toistetuissa peleissä on myös muita tasapainoja (katsotaan niitä myöhemmin)
Rajattomasti toistetut pelit Rajattomasti toistetuissa peleissä vaihepeliä pelataan äärettömän monta kertaa Rajattomasti toistetun pelin esittäminen laajennetussa muodossa johtaa äärettömään puuhun Toistetun pelin tuottoja ei voida kiinnittää mihinkään päätössolmuun Eikä niitä voida laskea vaihepelien tuottojen summana (olisi yleensä ääretön) On olemassa kaksi yleisesti tunnettua tapaa esittää pelaajan tuotto äärettömästi toistetussa pelissä: 1. Keskiarvotuotto (engl. average reward) 2. Diskontattu tuotto (engl. discounted reward)
Keskiarvotuotto (engl. average reward) Olkoon r i (1), ri (2), ääretön jono pelaajan i vaihepelien tuottoja Pelaajan i keskiarvotuotto on tällöin: k (j) σ j=1 r i lim k k Keskiarvotuotto olettaa, että pelaaja pitää kaikkia tulevaisuuden tuottoja yhtä arvokkaina verrattuna lähitulevaisuuden tuottoihin Aina ei ole järkevää tehdä tällaista oletusta Eikä keskiarvotuottoa aina välttämättä pystytä laskemaan
Diskontattu tuotto (engl. discounted reward) Olkoon r i (1), ri (2), ääretön jono pelaajan i vaihepelien tuottoja ja β on diskonttauskerroin, 0 β 1 Pelaajan i diskontattu tuotto on tällöin σ j=1 β j r i (j) Pelaajan i tulevaisuuden diskontattu tuotto (engl. future discounted reward) jossakin pelin vaiheessa on pelaajan i saama välitön tuotto sen hetkisestä vaihepelistä summattuna tulevaisuuden kierroksien diskontatulla tuotolla
Diskontattu tuotto (engl. discounted reward) Diskonttauskerroin voidaan tulkita kahdella eri tavalla: 1. Pelaajat välittävät hyvinvoinnistaan enemmän lähitulevaisuudessa kuin kauempana tulevaisuudessa 2. Pelaajat arvostavat yhtä paljon tulevaisuutta kuin nykyhetkeä, mutta jollakin todennäköisyydellä peli loppuu millä tahansa kierroksella 1 β kuvaa tuota todennäköisyyttä Pelin analyysi on sama molemmilla tulkinnoilla
Kansanteoreemat (engl. folk theorems) Kansanteoreemat auttavat ymmärtämään toistettujen pelien Nashin tasapainojen avaruutta Kansanteoreemat eivät luokittele tasapainojen strategiaprofiileja vaan niillä saavutettuja tuottoja Miten äärettömästi toistetun pelin Nashin tasapainoille voidaan antaa mitään vaadittavia ominaisuuksia? Vaaditaanko osapelitäydellisyys? Käytetäänkö keskiarvo- vai diskontattua tuottoa? Helpoin tapaus: Ei osapelitäydellisyyttä, keskiarvotuotolla Käydään tämä seuraavaksi läpitte
Kansanteoreema(t) (engl. folk theorem(s)) Määritetään, mitä keskiarvotuottoja (r 1, r 2,, r n ) pelaajat voivat saada Nashin tasapainossa: Keskiarvotuottojen (r 1, r 2,, r n ) täytyy olla käypiä (engl. feasible) Keskiarvotuottojen on oltava sellaisia, että ne on saavutettavissa jollakin sekastrategialla (keskiarvoisesti) vaihepelin tuotoista Yleisesti, vaihepelin tuottojen konveksit kombinaatiot ovat käypiä Keskiarvotuottojen (r 1, r 2,, r n ) pitää olla rangaistavissa olevia (engl. enforceable) Keskiarvotuotoille r i pitää päteä: r i v i i = 1 n, missä v i on pelaajan i minmax-arvo Pelaajan i minmax-arvo = Pelaajan i saama hyöty, kun muut pelaajat pelaavat minmax-strategiaa häntä vastaan ja hän pelaa parhaimman vasteen. Rangaistavissa olevuus takaa sen, että poikkeamiset tasapainostrategiasta voidaan muiden pelaajien toimesta rankaisemalla tehdä kannattamattomiksi
Esimerkki - Käypyys Tutkitaan oikealla olevaa äärettömästi toistettua vangin dilemman peliä Esimerkiksi keskiarvotuotto (-1,-1) on käypä, koska se saavutettaisiin sillä, että molemmat pelaisivat aina (C,C) (-2, -2) on käypä, koska se saavutettaisiin sillä, että vuoroteltaisiin strategioita (C,C) ja (D,D) (= pelattaisiin kumpaakin 50% kerroista) (-4, -1) ei ole käypä, koska pelaajan 1 keskiarvotuotto -4 voitaisiin saavuttaa vain pelaamalla aina strategiaa (C,D), mutta tässä tapauksessa pelaajan 2 keskiarvotuotto olisi 0
Esimerkki Rangaistavissa olevuus Tutkitaan taas samaa äärettömästi toistettua vangin dilemman peliä Esimerkiksi keskiarvotuotto -4 pelaajalle 1 ei ole rangaistavissa oleva, koska pelaaja 1 voi taata itselleen vähintään hyödyn -3 vasikoimalla -2 pelaajalle 1 on rangaistavissa oleva, koska pelaaja 2 voi taata pelaajalle 1 korkeintaan hyödyn -3 vasikoimalla
Kansanteoreema(t) (engl. folk theorem(s)) Kansanteoreema: Keskiarvotuotot (r 1, r 2,, r n ) voidaan saavuttaa jollakin Nashin tasapainostrategialla, jos ja vain jos ne ovat sekä käypiä että rangaistavissa olevia Tämä on siis vain yksi kansanteoreema kokonaisesta joukosta kansanteoreemia Pätee Nashin tasapanoille äärettömästi toistetuissa täydellisen informaation peleissä, joissa käytetään keskiarvotuottoa Kansanteoreemia on olemassa myös rajattomasti toistetuille peleille, joissa käytetään diskontattua tuottoa, osapelitäydellisille tasapainoille sekä epätäydellisen informaation toistetuille peleille Kaikissa kuitenkin pohjimmiltaan rajoittavana tekijänä tuottojen käypyys ja rangaistavissa olevuus
Tit-for-tat strategia (suom. silmä silmästä -strategia) Tit-for-tat strategia yksinkertaisesti: Pelaa ensimmäisellä kierroksella yhteistyötä Ensimmäisen kierroksen jälkeen pelaa sitä, mitä toinen pelaaja pelasi viime kierroksella Tit-for-that strategiat perustuvat välittömään Rangaistukseen huonosta käyttäytymisestä Anteeksiantoon hyvästä käyttäytymisestä Kannustavat tämän takia pelaamaan yhteistyötä Tutkitaan seuraavaksi äärettömästi toistettua vangin dilemman peliä, jossa vastustaja pelaa TfT-strategiaa
Tit-for-tat strategia kahden pelaajan äärettömästi toistetussa vangin dilemman pelissä Tiedetään, että vastustaja pelaa TfT-strategiaa Verrataan kolmea vaihtoehtoa: 1. Petetään vastustaja kerran ja jatketaan sen jälkeen yhteistyötä koko loppupelin ajan 2. Petetään vastustajaa koko loppupelin ajan 3. Jatketaan yhteistyötä koko loppupelin ajan Meidän saamat hyödyt eri tapauksissa: 1. 0 + -4 + AR(-1) (AR = average reward) 2. 0 + -3 + AR(-3) 3. -1 + -1 + AR(-1) Meille paras vaihtoehto on jatkaa yhteistyötä (3.)
Tit-for-tat strategia kahden pelaajan äärettömästi toistetussa vangin dilemmassa Edellinen esimerkki oletti, että arvostamme tulevaisuuden tuottoja yhtä paljon kuin nykyisiä (diskonttauskerroin β = 1) Tapauksessa, jossa 0 β < 1 voidaan kuitenkin laskea, että diskonttauskertoimen β pitäisi vähintään olla 1/3, että pelaajan kannattaa jatkaa yhteistyötä, jos hän tietää, että toinen pelaaja pelaa TfT-strategiaa
Muita strategioita Trigger strategy, grim trigger (suom. (armoton) kostostrategia) Aluksi aloitetaan yhteistyöllä Jos vastustaja pettää kerrankin yhteistyön, yhteistyötä ei pelata sen jälkeen enää koskaan Tit-for-two-tats (suom. silmä kahdesta silmästä) Aloitetaan yhteistyöllä ja yhteistyötä oletusarvoisesti jatketaan Jos vastustaja on pettänyt kaksi edellistä kertaa peräkkäin, petetään. Muuten pelataan yhteistyötä Ei ole niin tehokas kuin TfT-strategia, mutta sillä voidaan yrittää välttää kahden TfTstrategiaa pelaavan pelaajan kuoleman kierre
Terminologia Vaihepeli (stage game) peli, jota toistetuissa peleissä pelataan toistetusti. Stationaarinen strategia (stationary strategy) Strategia, jossa jokaisessa toistetun pelin yksittäisessä vaihepelissä pelataan samalla strategialla. On täysin muistiton strategia ja ei ota huomioon mitenkään pelin sen hetkistä historiaa. Keskiarvotuotto (average reward) Pelaajan saama keskiarvoinen tuotto yhdestä vaihepelistä äärettömästi toistetussa pelissä. Diskontattu tuotto (discounted reward) Summa pelaajan tulevaisuuden kierroksien tuotoista diskontattuna jollakin vakiolla β, 0 β 1 Kansanteoreemat (folk theorems) Ovat joukko teoreemia mahdollisista Nashin tasapainojen tuotoista toistetuissa peleissä
Kotitehtävä Tit-for-tat-strategian esimerkissä laskettiin, että pelaajan kannattaa jatkaa yhteistyötä koko loppupelin ajan, jos hän tietää, että vastustaja pelaa TfTstrategiaa. Esimerkin tehtävässä kuitenkin oletettiin, että diskonttauskerroin β = 1 Näytä laskemalla, jos käytetään keskiarvotuoton sijaan diskontattua tuottoa ja β < 1, että samassa äärettömästi toistetussa pelissä diskonttauskertoimen pitää olla vähintään 1/3, että sinun on kannattavaa jatkaa peliä muiden vaihtoehtojen sijaan. Eli vertaa millä β:n arvolla vaihtoehdon 3. hyöty on suurin. Vihje: Muodosta jokaiselle vaihtoehdolle tulevaisuuden diskontattu tuotto (samalla tavalla kuin esimerkissä, mutta käyttäen diskontattua tuottoa keskiarvotuoton sijaan) Vihje 2: Ensimmäisen vaihtoehdon odotettu tuotto on muotoa (perustele miksi): 1. 0 4β + σ j=2 1β j (Petetään kerran ja jatketaan yhteistyötä loppupelin ajan)