Pelien teoriaa: tasapainokäsitteet Salanién (2005) ja Gibbonsin (1992) mukaan Mat-2.4142 Optimointiopin seminaari Jukka Luoma 1
Sisältö Staattinen Dynaaminen Staattinen Dynaaminen Pelityyppi Täydellinen informaatio Täydellinen informaatio Epätäydellinen informaatio Epätäydellinen informaatio Tasapainokäsitteet puhdasstrategia-nash-tasapaino sekastrategia-nash-tasapaino osapelitäydellinen Nashtasapaino bayesilainen Nash-tasapaino täydellinen bayesilainen tasapaino 2
Normaalimuotoinen peli n pelaajaa, kukin pelaaja i valitsee strategian s i strategia-avaruudesta (strategy space) S i, so. s S Merkitään: i i G = { S1, S2,..., Sn; u1,... un} missä kunkin pelaajan hyöty u = u ( s, s,... s ), jota kukin maksimoi i i 1 2 n 3
Tärkeä oletus! Kukin maksimoi omaa hyötyään u i, kaikki tietävät (että kaikki tietävät, että kaikki tietävät...), että kukin maksimoivat omaa hyötyään - yhteistä tietoa (common knowledge) Myös hyötyfunktiot oletetaan yhteisesti tiedetyiksi, ellei toisin mainita 4
Esimerkki: Vangin dilemma Kaksi pelaajaa, kaksi mahdollista strategiaa (tunnusta, vaikene), kunkin pelaajan saama hyöty (tässä: u = -vankeusvuodet) voidaan esittää matriisina Pelaaja 2 Pelaaja 1 Vaikene Tunnusta Vaikene -1, -1-9, 0 Tunnusta 0, -9-6, -6 5
Esimerkki: Vangin dilemma Molemmat pääsevät 1 vankeusvuodella, jos molemmat vaikenevat Molemmilla on tässä tilanteessa kannuste tunnustaa ja molemmat tietävät, että toisella on sama kannuste => molemmat tunnustavat Pelin ns. (puhdasstrategia-)nash-tasapaino Vaikene Pelaaja 2 Tunnusta Pelaaja 1 Vaikene -1, -1-9, 0 Tunnusta 0, -9-6, -6 6
Puhdasstrategia-Nash-tasapaino * * Strategiat ( s1,..., s n ) ovat puhdasstrategia- Nash-tasapaino, jos kaikille i strategia s i on paras vaste (best response) muiden pelaajien * * * * strategioihin ( s,..., s, s,..., s ): 1 i 1 i+ 1 n * * * * * * * * * ui( s1,..., si 1, si, si+ 1,..., sn ) ui( s1,..., si 1, si, si+ 1,..., sn ) s i S i ts. kunkin pelaajan strategia on ratkaisu optimointitehtävään * * * * max( s,..., s, s, s,..., s ) s S i 7 i 1 i 1 i i+ 1 n
Esimerkki: Sukupuolten taistelu Kaksi puhdasstrategia-nash-tasapainoa (Ooppera, Ooppera) ja (Nyrkkeily, Nyrkkeily) Chris haluaa oopperaan mielummin, mutta menee mielummin nyrkkeilyotteluun Patin kanssa kuin yksin oopperaan Pat haluaa mielummin nyrkkeilyotteluun, mutta menee mielummin oopperaan Chrisin kanssa kuin yksin Pat nyrkkeilyotteluun Ooppera Nyrkkeily Chris Ooppera 2, 1 0, 0 Nyrkkeily 0, 0 1, 2 8
Esimerkki: Sukupuolten taistelu Olkoon Patin ja Chrisin sekastrategiat (=tn-jakauma strategioille) (q, 1-q) ja (r, 1-r), tässä järjestyksessä P(s Pat = Ooppera )=q jne. Pat Ooppera Nyrkkeily Chris Ooppera 2, 1 0, 0 Nyrkkeily 0, 0 1, 2 9
Esimerkki: Sukupuolten taistelu schris = " Ooppera" uchris = 2q + 0*(1 q) = 2q schris = " Nyrkkeily" uchris = 0* q+ 1*(1 q) = 1 q spat = " Ooppera" upat = 1r + 0*(1 r) = r spat = " Nyrkkeily" upat = 0* r+ 2*(1 r) = 2 r 2q > 1 q q > 1/3 uchris (" Ooppera") > uchris (" Nyrkkeily") r > 2 2r r > 2/3 upat (" Ooppera") > upat (" Nyrkkeily") Chris 10 Ooppera Pat Nyrkkeily Ooppera 2, 1 0, 0 Nyrkkeily 0, 0 1, 2
Esimerkki: Sukupuolten taistelu Pelaajien parhaan vasteen (puhdastrategia) määrittää: 2q > 1 q q > 1/3 uchris (" Ooppera") > uchris (" Nyrkkeily") r > 2 2r r > 2/3 upat (" Ooppera") > upat (" Nyrkkeily") uchris (( r,1 r), ( q,1 q)) = 2qr+ 0 * (1 q) r+ 0 * (1 r) q+ 1*(1 q)(1 r) upat (( r,1 r),( q,1 q)) = 1qr+ 0*(1 q) r+ 0*(1 r) q+ 2*(1 q)(1 r) uchris = 3q 1= 0 q= 1/3 r upat = 3r 2= 0 r = 2/3 r 11 Pelin ns. sekastrategia-nash-tasapaino
Sekastrategia-Nash-tasapaino Pelaajan sekastrategian tuottama odotettu hyöty muiden sekastrategioita vastaan n ui( p) =... pj( sj) ui( s) s1 S1 sn Sn j= 1 Sekastrategia-Nash-tasapaino: i p u p p *, i argmax i( i, i ) p i (Notaatio: p = ( p,..., p, p,..., p ) ) 12 * * * * * i 1 i 1 i+ 1 n
Sisältö Staattinen Dynaaminen Staattinen Dynaaminen Pelityyppi Täydellinen informaatio Täydellinen informaatio Epätäydellinen informaatio Epätäydellinen informaatio Tasapainokäsitteet puhdasstrategia-nash-tasapaino sekastrategia-nash-tasapaino osapelitäydellinen Nashtasapaino bayesilainen Nash-tasapaino täydellinen bayesilainen tasapaino 13
Laajennetun muodon esitys Määrittää: (1) pelaajat, (2a) milloin kunkin on tehtävä valintoja, (2b)mahdolliset valinnat kussakin tilanteessa, (2c) mitä kukin tietää kussakin vaiheessa, jossa valinta on tehtävä, (3) hyödyt kaikilla strategioilla Strategia s i on pelaajan i täydellinen toimintasuunnitelma (määrittää valinnat kaikissa tilanteissa, joissa pelaajan on toimittava) 1 T B 2 (2,2) t b (0,0) (3,1) 14 Osapeli koostuu solmusta joka (i) ei ole pelin ensimmäinen tai viimeinen ja, jossa (ii) pelaaja tietää olevansa (p=1); sekä (i)&(ii) -solmun muodostamasta puusta kokonaisuudessaan
Dynaamiset pelit ja takaisinpäininduktio (2-vaiheinen esim.) 1. Pelaaja 1 valitsee a 1 1 2. Pelaaja 2 havaitsee 1:n valinnan ja valitsee 3. Pelaajat saavat hyödyt u1( a1, a2)& u2( a1, a2) Takaisinpäin-induktio (backwardsinduction): A a A 2 2 R2( a1) = arg max u2( a1, a2) a2 * a1 = arg max u1( a1, R( a1)) a1 15 ( a, R( a )) * * 1 1
1 T B Laajennetun muodon pelit ja osapelitäydellinen Nash-tasapaino 2 (2,2) t b (0,0) (3,1) P1 Pelaajan 1 ei ole syytä pelätä, että 2:n strategia olisi t - kyseessä epäuskottava uhka (noncredible threat) 1 1 Takaisinpäin-induktio eliminoi epäuskottavat uhat. Strategiat, jotka johtavat takaisinpäin-induktioratkaisuun, muodostavat osapelitäydellisen Nash-tasapainon 16 * a 1 P2 t T 0,0 3,1 B 2,2 2,2 b R2( a1) * * ( a, R( a ))
Osapelitäydellinen Nash-tasapaino Sellaiset strategiat muodostavat osapelitäydellisen Nash-tasapainon, jotka muodostavat Nash-tasapainon kaikissa osapeleissä * * Esim ( a1, R2( a1 )) on em. pelin takaisinpäininduktioratkaisu, joten vastaava osapelitäydellinen Nash-tasapaino on * ( a, R ( a )) 1 2 1 17
Sisältö Staattinen Dynaaminen Staattinen Dynaaminen Pelityyppi Täydellinen informaatio Täydellinen informaatio Epätäydellinen informaatio Epätäydellinen informaatio Tasapainokäsitteet puhdasstrategia-nash-tasapaino sekastrategia-nash-tasapaino osapelitäydellinen Nashtasapaino bayesilainen Nash-tasapaino täydellinen bayesilainen tasapaino 18
Esimerkki: Cournot n duopoli (asymmetrisellä informaatiolla) Kaksi saman toimialan teollisuusyritystä Yritykset päättävät samanaikaisesti tuottaa markkinoille (toisensa täydellisesti korvaavaa) tuotetta määrät q 1 ja q 2 Tuotteen hinta (kysyntä) markkinoilla on PQ ( ) = a QQ, = q+ q 1 2 Yritykset saavat hyödyt ja π1( c1, q1, q2) π 2( 2, 1, 2 c q q ) 19
Esimerkki: Cournot n duopoli (asymmetrisellä informaatiolla) Yrityksen 1 kustannukset valmistettua tuotetta kohden ovat c, joten π ( c, q, q ) = ( a q q c) q 1 1 1 2 1 2 1 Yrityksen 2 hyötyfunktio π 2( c2, q1, q2) = ( a q1 q2 c2) q 2 Yrityksen 2 kustannukset ovat korkeat tn:llä P(c 2 =c H )=θ ja matalat tn:llä P(c 2 =c L )=1-θ Yritys 2 saa tietää tuotantokustannuksensa ennen tuotantopäätöstä, mutta 1 ei saa tätä informaatiota Tämä kaikki on yhteistä tietoa 20
q Esimerkki: Cournot n duopoli (asymmetrisellä informaatiolla) Yrityksen 2 optimaalinen tuotantomäärä riippuu kustannuksista q ( c ) = arg max[( a q q ) c ] q 2 * * q2 ( cl) = arg max[( a q1 q2) cl] q2 q2 * * 2 H 1 2 H 2 q Yritys 1 tietää vain, että 2 tuottaa q 2* (c H ) tn:llä θ ja q 2* (c L ) tn:llä 1- θ, joten = arg max θ[( a q q ( c )) c] q + (1 θ)[( a q q ( c )) c] q * * * 1 1 2 H 1 1 2 L 1 q 1 21
Esimerkki: Cournot n duopoli (asymmetrisellä informaatiolla) Yrityksen 2 optimaalinen tuotto, jos se havaitsee yksikkökustannustensa olevan c H * a 2cH + c 1 θ q2 ( ch) = + ( ch cl) 3 6 Yrityksen 2 optimaalinen tuotto, jos se havaitsee yksikkökustannustensa olevan c L * a 2cH + c q2 ( cl ) = θ ( ch cl) 3 6 Yrityksen 1 optimaalinen tuotto q * 1 a 2 c+ θch + (1 θ ) c = 3 L 22
Cournot n duopoli täydellinen vs. epätäydellinen informaatio Optimaalinen tuotantomäärä täydellisen informaation Cournot n duopolissa q a c + c 2 * i = i 3 j * a 2cH + c 1 θ q2 ( ch) = + ( ch cl) 3 6 * a 2cL + c q2 ( cl ) = θ ( ch cl) 3 6 Yritys 2 ottaa huomioon * a 2 c+ θch + (1 θ ) cl paitsi omat kustannuksensa, q1 = 3 myös tiedon, että yritys 1 ei tiedä yrityksen 2 kustannuksia, siksi q i* <q 2* (c H ) ja q i* <q 2* (c L ) 23
Bayesiläinen (staattinen) normaalimuotoinen peli n pelaajaa, Luonto (Nature) valitsee kullekin pelaajalle i tyypin t i tyyppiavaruudesta (T i ) Pelaajat havainnoivat oman tyyppinsä ennen peliä (yksityistä informaatiota), joka määrittää hyötyfunktion u = u ( a, a,... a ; t) i i 1 2 n Pelaajan i uskomukset p i (t -i t i ) kuvaavat i:n epävarmuutta muiden pelaajien tyypistä Pelaajat valitsevat a i valinta-avaruudesta A i Merkitään: G = { A,..., A ; T,..., T ; p,..., p ; u,..., u } 1 n 1 n 1 n 1 n 24
Bayesiläinen puhdastrategia-nashtasapaino (Muistetaan, että strategia on täydellinen toimintasuunnitelma) * * Strategiat ( s1,..., s n ) ovat bayesiläinen puhdasstrategia-nash-tasapaino, jos kaikille pelaajille i ja kaikille i:n sallituille tyypeille t i, s i* (t i ) ratkaisee optimointitehtävän max u ( s ( t ),..., s ( t ), a, s ( t ),..., s ( t ); t) p ( t a A t i * * * * i 1 1 i 1 i 1 i i+ 1 i+ 1 n n i i t i ) i i eli yksikään pelaaja ei muuta strategiaan vaikka strategia koskisi vain yhden tyypin yhtä valintaa 25
Cournot n asymmetrisen informaation duopoli bayesilaisena pelinä Yritysten valinta-avaruudet A i ={q i } Yritysten tyyppiavaruudet T 1 ={c} ja T 2 ={c H, c L } Yritysten uskomukset p 1 (t -1 t 1 )=[θ, 1-θ] ja p 2 (t -2 t 2 )=P(c 1 =c)=1 Hyötyfunktiot π1( q1, q2; t) = ( a q1 q2 t1) q1 π ( q, q ; t) = ( a q q t ) q 2 1 2 1 2 2 2 26
Cournot n asymmetrisen informaation duopoli bayesilaisena pelinä * * q2 ( ch) = arg max[( a q1 q2) ch] q2 q2 * * q2 ( cl) = arg max[( a q1 q2) cl] q2 q2 * * * q = arg max θ[( a q q ( c )) c] q + (1 θ)[( a q q ( c )) c] q 1 1 2 H 1 1 2 L 1 q 1 * * * * max ui( s1 ( t1),..., si 1 ( ti 1), ai, si+ 1 ( ti+ 1),..., sn ( tn); t) pi( t i ti) a A t i i i 27
Sisältö Staattinen Dynaaminen Staattinen Dynaaminen Pelityyppi Täydellinen informaatio Täydellinen informaatio Epätäydellinen informaatio Epätäydellinen informaatio Tasapainokäsitteet puhdasstrategia-nash-tasapaino sekastrategia-nash-tasapaino osapelitäydellinen Nashtasapaino bayesilainen Nash-tasapaino täydellinen bayesilainen tasapaino 28
PBE:n idea: Täydellinen bayesilainen Nashtasapaino (PBE) annettuna pelaajien uskomukset (q), pelaajien strategioiden on muodostettava osapelitäydellinen bayesiläinen Nash-tasapaino uskomuksia päivitetään Bayesin säännöllä (annettuna tasapainostrategiat p) aina kun mahdollista strategiat p baysiläinen uskomusten päivittäminen bayesiläinen osapelitäydellinen tasapaino 29 uskomukset q esim. kalvo 37
Dynaaminen epätäydellisen informaation peli, esim. L L R L M R R Nash-tasapainot korostettu (1,3) Pelaaja 2 L R L 2,1 0, 0 Pelaaja 1 M 0,2 0,1 R 1,3 1,3 (2,1) (0,0) (0,2) (0,1) Koska pelissä ei ole osapelejä (2 tietää vain valitsiko 1 R:n), molemmat Nash-tasapainot ovat osapelitäydellisiä Kuitenkin, (R,R ) perustuu selvästi epäuskottavaan uhkaan 30
PBE: vaatimukset 1-3 Gibbonsin (1992) mukaan 1. Sillä pelaajalla, joka on vuorossa, on oltava uskomus siitä, missä solmussa tämä on. Uskomus on todennäköisyysjakauma, joka määrittää millä todennäköisyydellä ollaan missäkin solmussa mahdollisten solmujen joukkoa sanotaan informaatiojoukoksi, information set 2. Strategioiden on oltava vaiheittaisesti rationaalisia (sequentially rational). Pelaajan strategian on oltava optimaalinen, annettuna pelaajan uskomukset (1) sekä muiden pelaajien strategiat 3. Pelaajat päivittävät uskomuksiaan Bayesin säännöllä, annettuna pelaajien tasapainostrategiat, kun ollaan tasapainopolulla tasapainopolku on informaatiojoukko (solmu tai solmut), joihin päädytään positiivisella todennäköisyydellä kun pelataan tasapainostrategiaa 31
(2,1) [q] L L R L (0,0) (0,2) Vaatimukset 1-3: esimerkki Osapelitäydelliset Nash-tasapainot korostettu M R [1-q] R (0,1) (1,3) Pelaajan 2 odotettu hyöty strategialle R : q*0+(1-q)*1=1-q L : q*1+(1-q)*2=2-q 2-q>1-q Epäuskottava uhkaan perustuva osapelitäydellinen Nash-tasapaino eliminoituu (vaatimukset 1 ja 2) Vaatimus 3: Annettuna pelaajan 2 strategia L, pelaajan 1 strategia on oltava L, joten pelaajan 2 uskomus on oltava q=1, ko. informaatiojoukko on tasapainopolulla 32
Vaatimus 3: sekastrategiaesimerkki Oletetaan, että pelaajalla 1 on sekastrategia [q] p = [p 1, p 2, 1-p 1 -p 2 ] Jos pelaaja 2 havaitsee, ettei (2,1) (0,0) (0,2) 1 valinnut R:ää, vaatimuksen 3 perusteella L L R L M R [1-q] R (0,1) (1,3) q = p 1 /(p 1 +p 2 ) 33
PBE Vaatimukset 1-3: Esimerkki (1,2,1) [q] L L R L 1 2 3 (3,3,3) D (0,1,2) R A [1-q] R (1,3,0) (0,1,1) Strategiat (A, L, L ) & q=0 on Nashtasapaino Vaatimus 1, 2 ja 3 toteutuu q=0 ei ole konsistentti pelaajan 2 tasapainostrategioiden kanssa (Pelaajan 2 strategia ei ole R missään tasapainossa), mutta se ei haittaa (vaatimus 3), koska 3:n informaatiojoukko ei ole tasapainopolulla* * Tasapainostrategioilla (A,L,L ) peli päätyy todennäköisyydellä nolla 3:n informaatiojoukkoon 34
PBE Vaatimus 4 Gibbonsin (1992) mukaan Uskomuksia päivitetään Bayesin säännöllä, ottaen huomioon pelaajien tasapainostrategiat aina kun mahdollista, myös kun ei olla tasapainopolulla 35
PBE Vaatimukset 4: Esimerkki (1,2,1) [q] L L R L R 1 2 3 (3,3,3) D (0,1,2) A [1-q] (1,3,0) R (0,1,1) Päivitetään pelaajan 3 uskomusta q=0 pelaajan 2 strategian mukaisesti Pelaajan 2 strategia molemmissa tasapainoissa L (vaiheittainen rationaalisuus), jolloin pelaajan 3 uskomus on oltava q=1 Pelaajan 3 strategia oltava uskomusten (q=1) mukaisesti R (D,L,R) & q=1 toteuttaa Vaatimukset 1-4 ja on siten pelin ainut täydellinen bayesiläinen tasapaino PBE 36
Vaiheittainen palkkaneuvottelu Ammattiyhdistys ja yritys neuvottelevat palkasta Jos osapuolet pääsevät sopuun, yritys saa tuoton π ja maksaa palkan w Vaihtoehtoisesti molempien hyöty on nolla Yrityksen tuotto (tyyppi) π on tasajakautunut välille [0, π H ] Yritys havaitsee oman tyyppinsä ennen neuvotteluja 37
Vaiheittainen palkkaneuvottelu 1. Ammattiyhdistys ehdottaa palkkaa w 1 2. Yritys joko hyväksyy tarjouksen (peli loppuu ja pelaajat saavat hyödyt π-w 1 ja w 1 ) tai hylkää tarjouksen 3 3. Ammattiyhdistys ehdottaa palkkaa w 2 4. Yritys joko hyväksyy tarjouksen (pelaajat saavat hyödyt δ(π-w 2 ) ja δw 2 ) tai hylkää tarjouksen (molempien hyöty on nolla) 38
Vaiheittainen palkkaneuvottelu Oletetaan, että ammattiyhdistys uskoo toisella tarjouskierroksella, että yrityksen tyyppi on tasajakautunut välille [0, π 1 ] w 2 * = π 1 (w 1 ) / 2 Ammattiyhdistys päivittää uskomustaan yrityksen tyypistä käyttäen apunaan tietoa, että yritys hylkäsi tarjouksen w 1 39
Vaiheittainen palkkaneuvottelu Yritys hyväksyy tarjouksen w 1, jos se on hyväksyttävä (w 1 > π) ja tarjousta w 2 houkuttavampi (π-w 1 > δ(π-w 2 )) Hyväksy tarjous, jos π > max{π * (w 1, w 2 ), w 1 }, missä π * (w 1, w 2 ) = (w 1 - δw 2 )/(1- δ) Päivitetty uskomus [0, π 1 ] on siten π 1 (w 1 ) = max{π * (w 1, w 2* ), w 1 } = π * (w 1, π 1 /2) => π 1 (w 1 ) = 2w 1 /(2- δ) w 2* (w 1 ) = w 1 /(2- δ) 40
Vaiheittainen palkkaneuvottelu Ollaan ratkaistu: priori- ([0, π H ]) ja päivitetyt ([0, π 1 ]) uskomukset, optimaalinen tarjous w 2* (w 1 ) ja siten myös yrityksen paras vaste mielivaltaisiin tarjouksiin w 1 ja w 2 Pelin täydellinen bayesiläinen tasapaino (PBE) saadaan, kun ratkaistaan ammattiyhdistyksen odotetun hyödyn maksimointitehtävä (ensimmäisen tarjouksen w 1 suhteen) w 1 *P( Yritys hyväksyy tarjouksen w 1 ) + δw 2 *P( Yritys hylkää tarjouksen w 1, mutta hyväksyy w 2 ) + δ*0*p( Yritys hylkää molemmat tarjoukset ) P( Yritys hyväksyy tarjouksen w 1 ) = (π H - π 1 (w 1 ))/ π H 41
Vaiheittaisen palkkaneuvottelun täydellinen bayesiläinen tasapaino 1. Ammattiyhdistyksen ensimmäisen kierroksen tarjous w 1 * on w * 1 = 2 (2 δ ) π 2(4 3 δ ) H 2. Jos yrityksen tuotto (tyyppi) ylittää π 1 *, yritys hyväksyy tarjouksen π 2w 2 δ = = π 2 δ 4 3δ * 1 1 3. Jos yritys hylkää tarjouksen w * 1 ammattiyhdistyksen uskomus päivittyy siten, että se uskoo yrityksen tyypin olevan tasajakautunut välille [0, π 1 *] 4. Ammattiyhdistyksen toinen tarjous on w 2 *=π 1 */2 < w * 1 w π 2 δ = = π 2 2(4 3 δ ) * * 1 2 5. Jos π > w 2 * yritys hyväksyy tarjouksen H H 42
Kotitehtävä 1/2 (3p) Esitä seuraavan laajennetun muodon peliesityksen matriisimuotoinen esitys (1p) Etsi kaikki pelin puhdasstrategia-nash- (0,5p), osapelitäydelliset (0,5p) sekä täydelliset bayesiläiset tasapainot (1p) Gibbons (ex. 4.1.a) (4,1) L L R L 43 [q] (0,0) (3,0) M R [1-q] R (0,1) (2,2)
Kotitehtävä 2/2 (2p) Osoita, että seuraavalla laajennetun muodon pelillä ei ole täydellistä bayesiläistä puhdasstrategiatasapainoa (Gibbons ex. 4.2) R (2,2) L M [q] L R L [1-q] R (3,0) (0,1) (0,1) 44 (3,0)