Nollasummapelit ja bayesilaiset pelit

Nollasummapelit ja bayesilaiset pelit Kristian Ovaska HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Seminaari: Peliteoria Helsinki 18. syyskuuta 2006

Sisältö 1 Johdanto 1 2 Nollasummapelit 1 2.1 Määritelmä............................ 1 2.2 Nashin tasapaino nollasummapeleissä.............. 2 2.3 Esimerkki nollasummapelistä.................. 3 3 Bayesilaiset pelit 4 3.1 Määritelmä............................ 4 3.2 Nashin tasapaino ja palautus strategiapeliksi.......... 5 3.3 Esimerkki bayesilaisesta pelistä................. 6 ii

1 Johdanto Tarkastelemme kahta pelityyppiä, nollasummapelejä ja bayesilaisia pelejä, sekä Nashin tasapainoa niissä. Nollasummapeli on kahden pelaajan pelityyppi, jossa hyötyfunktioille pätee u 1 + u 2 = 0. Maksimoidessaan oman hyötynsä pelaaja samalla maksimoi toisen pelaajan haitan. Nollasummapeli on erikoistapaus strategiapeleistä, ja Nashin tasapainon tarkasteluun on yleisiä strategiapelejä voimakkaampia keinoja. Bayesilaisessa pelissä pelitilanteeseen liittyy epävarmuutta, jota mallinnetaan todennäköisyyslaskennan keinoin. Bayesilaiset pelit ovat strategiapelien laajennus, mutta Nashin tasapainoa voidaan tutkia palauttamalla peli tavalliseksi strategiapeliksi. Teksti perustuu Osbornen ja Rubinsteinin oppikirjaan [OsR94, s. 2130]. 2 Nollasummapelit 2.1 Määritelmä Nollasummapeli eli aidosti kilpailullinen peli (strictly competitive) on strategiapelityyppi, jossa yhden pelaajan voitosta seuraa toisen pelaajan häviö. Pelaajia on aina kaksi. Strategiapeli N = {1, 2}, (A i ), ( i ) on aidosti kilpailullinen, jos suosituimmuusrelaatioille pätee a 1 b jos ja vain jos b 2 a kaikilla proileilla a, b A = A 1 A 2. Tällöin voidaan määritellä hyötyfunktiot u 1, u 2 : A R siten, että u 1 = u 2 ja siis u 1 + u 2 = 0, mistä tulee termi nollasummapeli. Nollasummapeli ja aidosti kilpailullinen peli eivät tarkkaan ottaen ole samoja asioita, sillä peli voi olla aidosti kilpailullinen vaikka hyötyfunktiot eivät täytä ehtoa u 1 + u 2 = 0. Kuitenkin nollasummaehdon täyttävillä hyötyfunktiolla voidaan mallintaa kaikki aidosti kilpailulliset pelit, joten jatkossa käytetään 1

vain hyötyfunktioita, joilla ehto pätee. Kumpikin pelaaja olettaa, että toinen pelaaja pyrkii vahingoittamaan häntä mahdollisimman paljon, sillä toisen pelaajan maksimoidessaan oma hyötynsä hän minimoi toisen hyödyn. Tämän pohjalta voidaan kehittää seuraava taktiikka toiminnon valitsemiseen. Pelaaja 1 valitsee toimintonsa x A 1 olettaen, että pelaaja 2 valitsee toimintonsa y A 2 maksimoiden oman hyötynsä eli minimoiden funktion u 1. Pelaaja 1 siis olettaa saavansa toiminnosta x hyödyn min y A2 u 1 (x, y). Hän valitsee sellaisen toiminnon, jolla mainittu hyöty on mahdollisimman suuri. Pelaaja 2 toimii vastaavasti. Pelaajan 1 toiminto x A 1 on max-minimoija (maxminimizer) pelaajalle 1, jos min y A2 u 1 (x, y) min y A2 u 1 (x, y) kaikille x A 1. Tällöin pelaajan 1 hyöty on vähintään min y A2 u 1 (x, y). Toiminto x siis maksimoi hyötyjen minimin. Tätä merkitään max x min y u 1 (x, y). Lausekkeen voi lukea seuraavasti: ensin pelaaja 1 valitsee toiminnon tavoitteena maksimoida u 1 ja sen jälkeen pelaaja 2 valitsee toiminnon tavoitteena minimoida u 1. Luonnollisesti pelaajat toimivat todellisuudessa samanaikaisesti. Vastaavasti voidaan määritellä min-maximointi, joka ratkaisee ongelman min x max y u 1 (x, y). Käsitteillä on seuraava yhteys: pelaajan 1 max-minimoija u 1 :n suhteen on min-maximoija u 2 :n suhteen. Tämä nähdään lauseesta max x min y u 1 (x, y) = max x min y u 2 (x, y) = max x ( max y u 2 (x, y)) = min x max y u 2 (x, y). 2.2 Nashin tasapaino nollasummapeleissä Nashin tasapaino määritellään nollasummapeleissä samoin kuin muissa strategiapeleissä. Koska nollasummaehto asettaa rajoituksia pelille, on Nashin tasapainon käsittely helpompaa kuin yleisillä strategiapeleillä. Käsitellään ensin tapausta, jossa tiedetään Nashin tasapainon olemassaolo. Olkoon G nollasummapeli, jolla on Nashin tasapaino. Olkoon (x, y ) jokin tasapainotila. Nyt pätevät seuraavat ominaisuudet. 2

x on pelaajan 1 max-minimoija ja y on pelaajan 2 max-minimoija. Nashin tasapainon määritelmästä seuraa, että x on paras toiminto pelaajalle 1, jos pelaaja 2 tekee toiminnon y. Siis jokin toiminto x x on huonompi tai korkeintaan yhtä hyvä kuin x. max x min y u 1 (x, y) = min y max x u 1 (x, y) = u 1 (x, y ) ja siis kaikki Nashin tasapainot tuottavat saman hyödyn. Seuraavaksi tarkastellaan, miten Nashin tasapaino voidaan löytää nollasummapelistä. Jos pelille pätee max x min y u 1 (x, y) = min y max x u 1 (x, y) ja x on pelaajan 1 max-minimoija sekä y on pelaajan 2 max-minimoija, niin (x, y ) on Nashin tasapaino. Ehdon voi ilmaista myös muodossa max x min y u 1 (x, y) = max y min x u 2 (x, y). Siis pelillä on Nashin tasapaino, jos molempien pelaajien max-minimointi päätyy samaan tulokseen, esimerkiksi u 1 (x, y ) = 2 ja u 2 (x, y ) = 2. 2.3 Esimerkki nollasummapelistä Olkoon N = {1, 2}, A 1 = {P, Q} ja A 2 = {R, S}. Hyötyfunktiot u 1, u 2 määritellään kuvan 1 perusteella. Esimerkiksi u 1 (P, S) = 2. Määritetään pelaajien max-minimoijat. Jos pelaaja 1 valitsee toiminnon P, hän saa hyödyn u 1 (P, R) = 1 tai u 1 (P, S) = 2. Jos hän valitsee toiminnon Q, on hyöty -3 tai 0. Siis max x min y u 1 (x, y) = max{ 1, 3} = 1. Pelaajan 1 (ainoa) max-minimoija on P, joka takaa vähintään hyödyn -1. Vastaavasti pelaaja 2 saa hyödyn 1 tai 3 toiminnolla R ja hyödyn -2 tai 0 toiminnolla S. Pelaajan 2 (ainoa) max-minimoija on R ja max y min x u 2 (x, y) = 1. R S P -1, 1 2, -2 Q -3, 3 0, 0 Kuva 1: Nollasummapeli. 3

Pelille pätee max x min y u 1 (x, y) = 1 = max y min x u 2 (x, y), joten tiedämme pelillä olevan Nashin tasapaino. Kaikille tasapainotiloille (x, y ) pätee, että x ja y ovat pelaajien max-minimoijia. Esimerkkipelissä on siis yksi Nashin tasapaino (P, R). 3 Bayesilaiset pelit 3.1 Määritelmä Bayesilaiset pelit ovat strategiapelien laajennus, jossa peliin liittyy epävarmuutta. Kuten tavallisessa pelissä, bayesilaisessa pelissä on joukko N pelaajia sekä kullekin pelaajalle joukko toimintoja A i. Epävarmuutta mallinnetaan äärellisellä tila-avaruudella Ω. Maailma voi olla pelien välillä eri tiloissa ω Ω. Ennen kutakin peliä jokin tila ω toteutuu. Pelaajien hyödyt riippuvat maailman tilasta, mutta pelaajat eivät (yleensä) ole tietoisia maailman tarkasta todellisesta tilasta valitessaan toiminnon. He valitsevat toiminnon, jonka hyödyn odotusarvo on suurin. Kullakin pelaajalla on ennakkokäsitys (priori) maailmantilojen todennäköisyyksistä. Tätä mallinnetaan todennäköisyysfunktiolla p i : Ω [0, 1]. Pelaajat saavat ennen toiminnon valitsemista osittaista tietoa maailman tilasta signaalin avulla. Jokaisella pelaajalla on joukko T i signaaleja ja signaalifunktio τ i : Ω T i. Jos maailman tila on ω, saa pelaaja i signaalin τ i (ω). Signaaleja kutsutaan myös tyypeiksi: jos pelaaja i saa signaalin t i T i, pelaaja on tyyppiä t i. Kuhunkin signaaliin t i T i liittyy joukko τ 1 i (t i ), joka ilmaisee, mitkä tilat tuottavat signaalin t i. Saatuaan signaalin t i pelaaja siis tietää, että maailma on jossakin tilassa ω τ 1 i (t i ). Signaalin avulla pelaaja muodostaa tarkennetun posteriori-todennäköisyysjakauman p i (ω τ 1 i (t i )) = p i (ω)/p i (τ 1 i (t i )) maailman tilasta ja valitsee tämän perusteella toiminnon. Mahdottomat tilat ω / τ 1 i (t i ) saavat todennäköisyyden 0. Tavallisesta strategiapelistä poiketen bayesilaisen pelin suosituimmuusrelaa- 4

tiot ( i ) eivät ole määritelty joukossa A vaan ns. arvontojen (lottery) joukossa. Arvonta L : A Ω [0, 1] on todennäköisyysjakauma, joka ilmaisee, millä todennäköisyydellä peli päättyy tilaan (a, ω) A Ω. Kun a A, merkitään L a tarkoittamaan niitä arvontoja, jotka liittyvät tyypin t i pelaajaan i. Arvonnan tuottamat todennäköisyydet riippuvat pelaajan i posterioritodennäköisyyksistä. Ajatusta siitä, että pelaaja vertaa arvontoja eikä lopputuloksia, voidaan selventää seuraavalla esimerkillä. Olkoon kaksi peliä, joissa toisessa voittaa 90% todennäköisyydellä 10 euroa ja 10% todennäköisyydellä 0 euroa; toisessa voittaa 50% todennäköisyydellä 10 euroa ja 50% todennäköisyydellä 0 euroa. Rationaalinen pelaaja valitsee ensinmainitun pelin, vaikka ei tiedäkään arvonnan lopputulosta. Bayesilainen peli määritellään siis seitsikkona N, Ω, (A i ), (T i ), (τ i ), (p i ), ( i ). Suosituimmuusrelaatioiden lisäksi voidaan käyttää hyötyfunktioita u i : A Ω R. Hyötyfunktiot voidaan tulkita satunnaismuuttujina avaruudessa A Ω. Pelaajat pyrkivät maksimoimaan satunnaismuuttujan odotusarvon. Kukin arvonta L a : A Ω [0, 1] määrää tällöin satunnaismuuttujan u i odotusarvon. 3.2 Nashin tasapaino ja palautus strategiapeliksi Bayesilaisille peleille voidaan määritellä Nashin tasapaino siitä lähtökohdasta, että kukin pelaaja valitsee parhaan toiminnon perustuen saamaansa signaaliin, käsitykseensä maailman tilasta sekä oletukseensa muiden pelaajien toiminnoista. Formaali määritelmä perustuu siihen, että bayesilainen peli G palautetaan normaaliksi strategiapeliksi G ja tutkitaan Nashin tasapainoa pelissä G. Nashin tasapainoa ei määritellä erikseen maailman eri tiloille ω, vaan se on yhteinen kaikille tiloille. 5

Kun bayesilaista peliä pelataan, jokainen pelaaja tietää oman tyyppinsä. Tällöin voisi olettaa, että pelaajan i ei tarvitse välittää muista tyypeistään t i τ i (ω). Kuitenkaan muut pelaajat eivät välttämättä tiedä pelaajan i tyyppiä, vaan voivat olettaa, että pelaaja on tietyllä todennäköisyydellä tyyppiä t i τ i (ω). Tämä puolestaan vaikuttaa muiden pelaajien toimintoihin. Pelaajan i kannattaa siis tarkastella myös tilannetta, jossa hän on jotakin muuta tyyppiä. Peliä G vastaava strategiapeli G määritellään seuraavasti. Pelaajien joukko on {(i, t i ) i N, t i T i }; jokainen pelaaja i pilkotaan useaksi pelaajaksi tyyppien t i perusteella. Pelaajan (i, t i ) toiminnot ovat samat kuin pelaajan i toiminnot pelissä G, siis A (i,ti ) = A i. Suosituimmuusrelaatio i määritellään seuraavasti. Olkoon a, b pro- ileja pelissä G. Niiden avulla määritellään arvonnat L a, L b pelissä G siten, että L a asettaa todennäköisyyden p i (ω)/p i (τ 1 i (t i )) tapahtumalle ((a (j, τ j (ω))) j N, ω), jos ω τ 1 (t i ), ja 0 muuten. Tässä a (j, τ j (ω)) on pelaajan (j, τ j (ω)) toiminto proilissa a. Nyt a i b pelissä G jos ja vain jos L a i L b pelissä G. Jos proili x on Nashin tasapaino pelissä G, niin vastaava arvontaproili (L x ) on Nashin tasapaino pelissä G. 3.3 Esimerkki bayesilaisesta pelistä Olkoon N = {1, 2}, A 1 = {P, Q}, A 2 = {R, S} ja Ω = {ω 1, ω 2, ω 3 }. Pelaajien tyypit ovat T 1 = {t 1, t 1} ja T 2 = {t 2, t 2}. Signaalifunktiot ovat τ 1 (ω 1 ) = τ 1 (ω 2 ) = t 1 ja τ 1 (ω 3 ) = t 1 τ 2 (ω 1 ) = t 2 ja τ 2 (ω 2 ) = τ 2 (ω 3 ) = t 2. 6

A Ω u 1 u 2 P, R ω 1 1 0 P, R ω 2-1 2 P, R ω 3 0 0 P, S ω 1 2-1 P, S ω 2-2 0 P, S ω 3 1 1 Q, R ω 1 0 2 Q, R ω 2 2-1 Q, R ω 3-2 -1 Q, S ω 1 0 1 Q, S ω 2-1 2 Q, S ω 3 1-1 Kuva 2: Bayesilaisen pelin hyötyfunktiot. Tällöin joukot τ 1 i ovat τ 1 1 (t 1) = {ω 1, ω 2 } ja τ 1 1 (t 1) = {ω 3 } τ 1 2 (t 2) = {ω 1 } ja τ 1 2 (t 2) = {ω 2, ω 3 }. Hyötyfunktiot u 1, u 2 määritellään kuvan 2 perusteella. Esimerkiksi u 1 ((Q, R), ω 2 ) = 2. Pelaajien etukäteisuskomukset maailman tilasta ovat p i (ω j ) = 1/3 kaikilla i, j. Oletetaan, että pelin alussa toteutuu maailman tila ω 1. Pelaaja 1 saa signaalin t 1 ja pelaaja 2 signaalin t 2. Pelaaja 1 uskoo, että todennäköisyydellä 1/2 maailma on tilassa ω 1 ja vastaavalla todennäköisyydellä tilassa ω 2. Pelaaja 2 tietää, että maailma on tilassa ω 1. Tarkastellaan pelaajan 1 arvontoja. Olkoon L = L (P,R), siis toimintoihin (P, 1,t 1 R) liittyvä arvonta. Nyt pätee L((P, R), ω 1 ) = L((P, R), ω 2 ) = 1/2 ja L(, ) = 0 muuten. Tällöin odotusarvo E(u 1 ) = 1/2 1 + 1/2 ( 1) = 0. Vastaavasti kun L = L (Q,R) 1,t 1, on E(u 1 ) = 1/2 0 + 1/2 2 = 1. Siis L (Q,R) 1,t 1 1 L (P,R) 1,t 1. 7

Pelaajan 2 arvontoihin ei liity epävarmuutta, joten L (Q,R) 2,t 2. L (P,R) 2,t 2 2 L (P,S) 2,t 2 2 L (Q,S) 2,t 2 2 Lähteet [OsR94] Osborne, M. J. ja Rubinstein, A., A course in game theory. The MIT Press, 1994. 8