Toistetut pelit Elmeri Lähevirta. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Samankaltaiset tiedostot
Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Opettaminen ja oppiminen

Kommunikaatio Visa Linkiö. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Pohdiskeleva ajattelu ja tasapainotarkennukset

Johdanto peliteoriaan Kirja kpl. 2

Yhteistyötä sisältämätön peliteoria jatkuu

LAAJENNETUN MUODON RATIONALISOITUVUUS. S ysteemianalyysin. Arno Solin Laboratorio. Aalto-yliopiston Teknillinen korkeakoulu

Dynaaminen hintakilpailu ja sanattomat sopimukset

Yhteistyötä sisältämätön peliteoria

Luento 8. June 3, 2014

Sekastrategiat ja intensiiviyhteensopivuus

Tasapaino epätäydellisen tiedon peleissä

Pelien teoriaa: tasapainokäsitteet

Nollasummapelit ja bayesilaiset pelit

SEKASTRATEGIAT PELITEORIASSA

Luento 5: Peliteoriaa

MS-C2105 Optimoinnin perusteet Malliratkaisut 5

Luento 5: Peliteoriaa

Rationalisoituvuus ja yleinen tieto rationaalisuudesta

PELITEORIAN PERUSTEITA

Sekastrategia ja Nash-tasapainon määrääminen

Evolutiivisesti stabiilin strategian oppiminen

Peliteoria Strategiapelit ja Nashin tasapaino. Sebastian Siikavirta

Epätäydellisen tiedon jatkuvat pelit. Mika Viljanen Peliteorian seminaari

Luento 7. June 3, 2014

Y56 laskuharjoitukset 6

Vangin dilemma häiriöisessä ympäristössä Markov-prosessina (valmiin työn esittely) Lasse Lindqvist

Pelit matematiikan opetuksessa

Hintakilpailu lyhyellä aikavälillä

Luento 5: Peliteoria

Signalointi: autonromujen markkinat

Luku 29 Peliteoria. Käsittelemme aluksi peliteorian peruskäsitteitä ja sanastoa, sitten katsomme itse pelejä.

Luento 9. June 2, Luento 9

V ar(m n ) = V ar(x i ).

11 Oligopoli ja monopolistinen kilpailu (Mankiw & Taylor, Ch 17)

Strateginen kanssakäyminen. Taloustieteen perusteet Matti Sarvimäki

Strateginen kanssakäyminen Taloustieteen perusteet Matti Sarvimäki

Peliteoria luento 3. May 27, Peliteoria luento 3

Peliteoria ja kalatalous YE4

Informaatio ja Strateginen käyttäytyminen

Hex-pelin matematiikkaa

2 Funktion derivaatta

x+3 = n(y 3) y +n = 3(x n). Kun ylemmästä yhtälöstä ratkaistaan x = n(y 3) 3 ja sijoitetaan alempaan, saadaan

2 Funktion derivaatta

Strategiset valinnat Taloustieteen perusteet Matti Sarvimäki. A. Peliteorian alkeet. Johdanto. Johdanto 15/09/19

Peliteorian soveltaminen hajautettujen järjestelmien protokollasuunnittelussa (valmiin työn esittely)

Peliteoria luento 1. May 25, Peliteoria luento 1

Induktiota käyttäen voidaan todistaa luonnollisia lukuja koskevia väitteitä, jotka ovat muotoa. väite P(n) on totta kaikille n = 0,1,2,...

JOHDATUSTA PELITEORIAAN

PELITEORIAN TALOUSTIETEELLISIÄ SOVELLUKSIA

Martingaalit ja informaatioprosessit

Strategiapelit ja Nashin tasapaino. Esitta ja : Sebastian Siikavirta

Epätäydellisen tiedon jatkuvat pelit

Injektio (1/3) Funktio f on injektio, joss. f (x 1 ) = f (x 2 ) x 1 = x 2 x 1, x 2 D(f )

Matematiikan tukikurssi, kurssikerta 2

Strategiset valinnat. Taloustieteen perusteet Matti Sarvimäki

INTERVALLIPÄÄTÖSPUUT JANNE GUSTAFSSON 45433E. Mat Optimointiopin seminaari Referaatti

Evolutiivinen stabiilisuus populaation

Johdatus logiikkaan I Harjoitus 4 Vihjeet

Äärellisten mallien teoria

Prof. Marko Terviö Assist. Jan Jääskeläinen

Yleinen tietämys ja Nashin tasapaino

Peliteoria luento 2. May 26, Peliteoria luento 2

Lyhyen aikavälin hintakilpailu 2/2

D1 YA-joukkue Palaute pelaajilta ja vanhemmilta

Toistetun haukka-kyyhky -pelin numeerinen analysointi

2.1. Tehtävänä on osoittaa induktiolla, että kaikille n N pätee n = 1 n(n + 1). (1)

Determinoiruvuuden aksiooma

Geneettiset algoritmit

Valintahetket ja pysäytetyt martingaalit

Martingaalit ja informaatioprosessit

Laskelmointia mielen evoluutiosta

Dynaaminen hintakilpailu ja sanattomat (epäsuorat) sopimukset osa II

1. Otetaan perusjoukoksi X := {0, 1, 2, 3, 4, 5, 6, 7}. Piirrä seuraaville kolmelle joukolle Venn-diagrammi ja asettele alkiot siihen.

Matematiikan tukikurssi

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Vastaus 1. Lasketaan joukkojen alkiot, ja todetaan, että niitä on 3 molemmissa.

Fuusio vai konkurssi? Hintakilpailun satoa

Haitallinen valikoituminen: yleinen malli ja sen ratkaisu

Miten perustella, että joukossa A = {a, b, c} on yhtä monta alkiota kuin joukossa B = {d, e, f }?

Informaation arvo. Ohjelmistotekniikan laitos OHJ-2550 Tekoäly, kevät

Haitallinen valikoituminen: Kahden tyypin malli

1 Reaaliset lukujonot

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Mikrotaloustiede Prof. Marko Terviö Aalto-yliopisto BIZ 31C00100 Assist. Jan Jääskeläinen Syksy 2017

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Projektin arvon aleneminen

Dynaamiset regressiomallit

Paljonko maksat eurosta -peli

Luento 6. June 1, Luento 6

Kaikki kurssin laskuharjoitukset pidetään Exactumin salissa C123. Malliratkaisut tulevat nettiin kurssisivulle.

Trafficars - Ruuhkaara

1. Osoita, että joukon X osajoukoille A ja B on voimassa toinen ns. de Morganin laki (A B) = A B.

(iv) Ratkaisu 1. Sovelletaan Eukleideen algoritmia osoittajaan ja nimittäjään. (i) 7 = , 7 6 = = =

Äärellisten mallien teoria

Backgammonmatkailua Georgiassa

Johdatus diskreettiin matematiikkaan Harjoitus 5, Ratkaise rekursioyhtälö

Haitallinen valikoituminen

Käytetään SEUL overwatch sääntöjen ingame asetuksia. Kotijoukkueen kapteeni on vastuussa lobbyn tekemisestä.

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

Transkriptio:

Toistetut pelit MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 12.10.2016 Elmeri Lähevirta The document can be stored and made available to the public on the open internet pages of Aalto University. All other rights are reserved.

Toistetut pelit Staattiset eli yhden kerran pelattavat pelit kuvaavat tosielämän tapahtumia huonosti Harvat tilanteet tosielämässä tapahtuvat vain kerran Käytännön kannalta staattisia pelejä mielenkiintoisempia ovat toistetut pelit Staattisen pelin muuntaminen toistetuksi ei tarkoita sitä, että toistetun pelin tasapaino olisi aina sama kuin staattisen pelin Pelin luonne usein muuttuu paljonkin toistetuissa peleissä Tärkeä tekijä toistetuissa peleissä on se, että pelaajat voivat tehdä pelin aikana valintansa vastustajan aikaisempiin valintoihin perustuen

Toistetut pelit Toistetussa pelissä jotakin peliä pelataan useita kertoja samojen pelaajien toimesta. Peliä, jota toistetaan kutsutaan vaihepeliksi (engl. stage game) Vaihepeli on yleensä normaalimuotoinen Tyypillisessä toistetussa pelissä: 1. Pelaajat pelaavat normaalimuotoista peliä (vaihepeliä) 2. Pelin jälkeen he näkevät, mitä tapahtui (ja saavat sen pelin tuotot) 3. Tämän jälkeen peliä pelataan uudestaan 4. Jne.

Toistetut pelit Toistettua peliä voidaan pelata: 1. Rajallinen ja tunnettu määrä kertoja 2. Rajallinen, mutta tuntematon määrä kertoja 3. Rajaton määrä kertoja Seuraavaksi katsotaan esimerkkejä kaksi kertaa toistetusta vangin dilemmasta

Esimerkki Kahdesti pelattu vangin dilemma normaalimuodossa

Esimerkki Kahdesti pelattu vangin dilemma normaalimuodossa Normaalimuoto on intuitiivinen esitysmuoto, mutta jättää monta asiaa epäselväksi Näkevätkö agentit, mitä toinen pelaaja on pelannut aikaisemmin? Muistavatko agentit, mitä he tiesivät aikaisemmin? Mikä on koko toistetun pelin tuotto? Täydellisempi esitystapa on esittää rajallinen toistettu peli epätäydellisen informaation pelinä laajennetussa muodossa

Esimerkki 2 Kahdesti pelattu vangin dilemma laajennetussa muodossa

Esimerkki 2 Kahdesti pelattu vangin dilemma laajennetussa muodossa Huomioitavia seikkoja: 1. Jokaisen vaihepelin aikana pelaajat eivät tiedä toisen pelaajan toimintoa, mutta jälkikäteen tietävät 2. Agenttien tuottofunktio on additiivinen Toistetun pelin tuotto on yksittäisten vaihepelien tuottojen summa

Esimerkki 2 Kahdesti pelattu vangin dilemma laajennetussa muodossa Huomataan myös, että toistetun pelin strategia-avaruus on vaihepelin strategia-avaruutta paljon suurempi Selvästi yksi strategia olisi pelata samalla strategialla jokaisessa yksittäisessä vaihepelissä Tällaista muistitonta strategiaa kutsutaan stationaariseksi strategiaksi (engl. stationary strategy)

Esimerkki 2 Kahdesti pelattu vangin dilemma laajennetussa muodossa Induktiolla takaperin voidaan todistaa, että rajallisesti toistetun vangin dilemman osapelitäydellinen Nashin tasapaino on aina vasikoida Vasikointi on myös vaihepelin Nashin tasapaino Toistetun pelin yksi osapelitäydellinen tasapaino on aina pelata jotakin vaihepelin Nashin tasapainoa Rajallisesti toistetun pelin tapauksessa nämä ovat myös ainoat tasapainot (induktion perusteella) Rajattomasti toistetuissa peleissä on myös muita tasapainoja (katsotaan niitä myöhemmin)

Rajattomasti toistetut pelit Rajattomasti toistetuissa peleissä vaihepeliä pelataan äärettömän monta kertaa Rajattomasti toistetun pelin esittäminen laajennetussa muodossa johtaa äärettömään puuhun Toistetun pelin tuottoja ei voida kiinnittää mihinkään päätössolmuun Eikä niitä voida laskea vaihepelien tuottojen summana (olisi yleensä ääretön) On olemassa kaksi yleisesti tunnettua tapaa esittää pelaajan tuotto äärettömästi toistetussa pelissä: 1. Keskiarvotuotto (engl. average reward) 2. Diskontattu tuotto (engl. discounted reward)

Keskiarvotuotto (engl. average reward) Olkoon r i (1), ri (2), ääretön jono pelaajan i vaihepelien tuottoja Pelaajan i keskiarvotuotto on tällöin: k (j) σ j=1 r i lim k k Keskiarvotuotto olettaa, että pelaaja pitää kaikkia tulevaisuuden tuottoja yhtä arvokkaina verrattuna lähitulevaisuuden tuottoihin Aina ei ole järkevää tehdä tällaista oletusta Eikä keskiarvotuottoa aina välttämättä pystytä laskemaan

Diskontattu tuotto (engl. discounted reward) Olkoon r i (1), ri (2), ääretön jono pelaajan i vaihepelien tuottoja ja β on diskonttauskerroin, 0 β 1 Pelaajan i diskontattu tuotto on tällöin σ j=1 β j r i (j) Pelaajan i tulevaisuuden diskontattu tuotto (engl. future discounted reward) jossakin pelin vaiheessa on pelaajan i saama välitön tuotto sen hetkisestä vaihepelistä summattuna tulevaisuuden kierroksien diskontatulla tuotolla

Diskontattu tuotto (engl. discounted reward) Diskonttauskerroin voidaan tulkita kahdella eri tavalla: 1. Pelaajat välittävät hyvinvoinnistaan enemmän lähitulevaisuudessa kuin kauempana tulevaisuudessa 2. Pelaajat arvostavat yhtä paljon tulevaisuutta kuin nykyhetkeä, mutta jollakin todennäköisyydellä peli loppuu millä tahansa kierroksella 1 β kuvaa tuota todennäköisyyttä Pelin analyysi on sama molemmilla tulkinnoilla

Kansanteoreemat (engl. folk theorems) Kansanteoreemat auttavat ymmärtämään toistettujen pelien Nashin tasapainojen avaruutta Kansanteoreemat eivät luokittele tasapainojen strategiaprofiileja vaan niillä saavutettuja tuottoja Miten äärettömästi toistetun pelin Nashin tasapainoille voidaan antaa mitään vaadittavia ominaisuuksia? Vaaditaanko osapelitäydellisyys? Käytetäänkö keskiarvo- vai diskontattua tuottoa? Helpoin tapaus: Ei osapelitäydellisyyttä, keskiarvotuotolla Käydään tämä seuraavaksi läpitte

Kansanteoreema(t) (engl. folk theorem(s)) Määritetään, mitä keskiarvotuottoja (r 1, r 2,, r n ) pelaajat voivat saada Nashin tasapainossa: Keskiarvotuottojen (r 1, r 2,, r n ) täytyy olla käypiä (engl. feasible) Keskiarvotuottojen on oltava sellaisia, että ne on saavutettavissa jollakin sekastrategialla (keskiarvoisesti) vaihepelin tuotoista Yleisesti, vaihepelin tuottojen konveksit kombinaatiot ovat käypiä Keskiarvotuottojen (r 1, r 2,, r n ) pitää olla rangaistavissa olevia (engl. enforceable) Keskiarvotuotoille r i pitää päteä: r i v i i = 1 n, missä v i on pelaajan i minmax-arvo Pelaajan i minmax-arvo = Pelaajan i saama hyöty, kun muut pelaajat pelaavat minmax-strategiaa häntä vastaan ja hän pelaa parhaimman vasteen. Rangaistavissa olevuus takaa sen, että poikkeamiset tasapainostrategiasta voidaan muiden pelaajien toimesta rankaisemalla tehdä kannattamattomiksi

Esimerkki - Käypyys Tutkitaan oikealla olevaa äärettömästi toistettua vangin dilemman peliä Esimerkiksi keskiarvotuotto (-1,-1) on käypä, koska se saavutettaisiin sillä, että molemmat pelaisivat aina (C,C) (-2, -2) on käypä, koska se saavutettaisiin sillä, että vuoroteltaisiin strategioita (C,C) ja (D,D) (= pelattaisiin kumpaakin 50% kerroista) (-4, -1) ei ole käypä, koska pelaajan 1 keskiarvotuotto -4 voitaisiin saavuttaa vain pelaamalla aina strategiaa (C,D), mutta tässä tapauksessa pelaajan 2 keskiarvotuotto olisi 0

Esimerkki Rangaistavissa olevuus Tutkitaan taas samaa äärettömästi toistettua vangin dilemman peliä Esimerkiksi keskiarvotuotto -4 pelaajalle 1 ei ole rangaistavissa oleva, koska pelaaja 1 voi taata itselleen vähintään hyödyn -3 vasikoimalla -2 pelaajalle 1 on rangaistavissa oleva, koska pelaaja 2 voi taata pelaajalle 1 korkeintaan hyödyn -3 vasikoimalla

Kansanteoreema(t) (engl. folk theorem(s)) Kansanteoreema: Keskiarvotuotot (r 1, r 2,, r n ) voidaan saavuttaa jollakin Nashin tasapainostrategialla, jos ja vain jos ne ovat sekä käypiä että rangaistavissa olevia Tämä on siis vain yksi kansanteoreema kokonaisesta joukosta kansanteoreemia Pätee Nashin tasapanoille äärettömästi toistetuissa täydellisen informaation peleissä, joissa käytetään keskiarvotuottoa Kansanteoreemia on olemassa myös rajattomasti toistetuille peleille, joissa käytetään diskontattua tuottoa, osapelitäydellisille tasapainoille sekä epätäydellisen informaation toistetuille peleille Kaikissa kuitenkin pohjimmiltaan rajoittavana tekijänä tuottojen käypyys ja rangaistavissa olevuus

Tit-for-tat strategia (suom. silmä silmästä -strategia) Tit-for-tat strategia yksinkertaisesti: Pelaa ensimmäisellä kierroksella yhteistyötä Ensimmäisen kierroksen jälkeen pelaa sitä, mitä toinen pelaaja pelasi viime kierroksella Tit-for-that strategiat perustuvat välittömään Rangaistukseen huonosta käyttäytymisestä Anteeksiantoon hyvästä käyttäytymisestä Kannustavat tämän takia pelaamaan yhteistyötä Tutkitaan seuraavaksi äärettömästi toistettua vangin dilemman peliä, jossa vastustaja pelaa TfT-strategiaa

Tit-for-tat strategia kahden pelaajan äärettömästi toistetussa vangin dilemman pelissä Tiedetään, että vastustaja pelaa TfT-strategiaa Verrataan kolmea vaihtoehtoa: 1. Petetään vastustaja kerran ja jatketaan sen jälkeen yhteistyötä koko loppupelin ajan 2. Petetään vastustajaa koko loppupelin ajan 3. Jatketaan yhteistyötä koko loppupelin ajan Meidän saamat hyödyt eri tapauksissa: 1. 0 + -4 + AR(-1) (AR = average reward) 2. 0 + -3 + AR(-3) 3. -1 + -1 + AR(-1) Meille paras vaihtoehto on jatkaa yhteistyötä (3.)

Tit-for-tat strategia kahden pelaajan äärettömästi toistetussa vangin dilemmassa Edellinen esimerkki oletti, että arvostamme tulevaisuuden tuottoja yhtä paljon kuin nykyisiä (diskonttauskerroin β = 1) Tapauksessa, jossa 0 β < 1 voidaan kuitenkin laskea, että diskonttauskertoimen β pitäisi vähintään olla 1/3, että pelaajan kannattaa jatkaa yhteistyötä, jos hän tietää, että toinen pelaaja pelaa TfT-strategiaa

Muita strategioita Trigger strategy, grim trigger (suom. (armoton) kostostrategia) Aluksi aloitetaan yhteistyöllä Jos vastustaja pettää kerrankin yhteistyön, yhteistyötä ei pelata sen jälkeen enää koskaan Tit-for-two-tats (suom. silmä kahdesta silmästä) Aloitetaan yhteistyöllä ja yhteistyötä oletusarvoisesti jatketaan Jos vastustaja on pettänyt kaksi edellistä kertaa peräkkäin, petetään. Muuten pelataan yhteistyötä Ei ole niin tehokas kuin TfT-strategia, mutta sillä voidaan yrittää välttää kahden TfTstrategiaa pelaavan pelaajan kuoleman kierre

Terminologia Vaihepeli (stage game) peli, jota toistetuissa peleissä pelataan toistetusti. Stationaarinen strategia (stationary strategy) Strategia, jossa jokaisessa toistetun pelin yksittäisessä vaihepelissä pelataan samalla strategialla. On täysin muistiton strategia ja ei ota huomioon mitenkään pelin sen hetkistä historiaa. Keskiarvotuotto (average reward) Pelaajan saama keskiarvoinen tuotto yhdestä vaihepelistä äärettömästi toistetussa pelissä. Diskontattu tuotto (discounted reward) Summa pelaajan tulevaisuuden kierroksien tuotoista diskontattuna jollakin vakiolla β, 0 β 1 Kansanteoreemat (folk theorems) Ovat joukko teoreemia mahdollisista Nashin tasapainojen tuotoista toistetuissa peleissä

Kotitehtävä Tit-for-tat-strategian esimerkissä laskettiin, että pelaajan kannattaa jatkaa yhteistyötä koko loppupelin ajan, jos hän tietää, että vastustaja pelaa TfTstrategiaa. Esimerkin tehtävässä kuitenkin oletettiin, että diskonttauskerroin β = 1 Näytä laskemalla, jos käytetään keskiarvotuoton sijaan diskontattua tuottoa ja β < 1, että samassa äärettömästi toistetussa pelissä diskonttauskertoimen pitää olla vähintään 1/3, että sinun on kannattavaa jatkaa peliä muiden vaihtoehtojen sijaan. Eli vertaa millä β:n arvolla vaihtoehdon 3. hyöty on suurin. Vihje: Muodosta jokaiselle vaihtoehdolle tulevaisuuden diskontattu tuotto (samalla tavalla kuin esimerkissä, mutta käyttäen diskontattua tuottoa keskiarvotuoton sijaan) Vihje 2: Ensimmäisen vaihtoehdon odotettu tuotto on muotoa (perustele miksi): 1. 0 4β + σ j=2 1β j (Petetään kerran ja jatketaan yhteistyötä loppupelin ajan)