Luento 3: Bayesiläiset pelit Saara Hämäläinen Helsingin yliopisto TA5 Luento 3 2017 1 / 33
Game Theory by Ben Polak (Open Yale) "Nash Equilibrium"(luento 5, kokonaan) "Mixed strategies: definition"(luento 9.1, katkelma) ja "Mixed strategies: examples"(luento 9.2, katkelma)
Bayesiläiset pelit, sekatasapaino
Wikipedia.
Bayesiläisen pelin määritelmä Bayesiläinen peli G pi,ω,pt i q ipi,pp i q ipi,pa i q ipi,pu i q ipi q koostuu seuraavista kuudesta elementistä 1. Pelaajat: Äärellinen joukko I. 2. Maailmantilat: Äärellinen joukko Ω tω 1,...,ω m u. 3. Pelaajan informaatio (tyyppi) maailmantilassa: Jokaiselle pelaajalle joukko T i ja funktio τ i : ω ÞÑ τ i pωq P T i. 4. Pelaajan uskomukset (priori) maailmantilasta: Jokaiselle pelaajalle todennäköisyysjakauma p i : ω ÞÑ p i pωq. 5. Valintajoukot: Jokaiselle pelaajalle i P I joukko A i. Määritellään A tpa i q i P Iu. 6. Hyötyfunktiot: Jokaiselle pelaajalle i P I funktio u i. Määritellään u i : A ˆ Ω Ñ R. TA5 Luento 3 2017 6 / 33
Bayesiläiset pelit: huomioita 1 Vuorovaikutusmalli, jossa pelaajat eivät tunne kaikkia toisten pelaajien relevantteja ominaisuuksia: preferenssejä tai informaatiota. Tämän epävarmuuden huomioon ottamiseksi malliin on lisätty tila-avaruus Ω ja jokaiselle pelaajalle oma tyyppiavaruus T i. Maailmantilaa ja pelaajan typpiä välittävät pelaajan uskomukset p i pωq ja signaalifunktio τ i pωq. Tämän on melko yleinen malli. Usein oletetaan tarkemmin, että kaikilla pelaajilla on yhteinen uskomuspohja p i pωq ppωq (engl. common prior). Näin pelaajien informaatioerot kumpuavat vain pelaajien saamista erilaisista signaaleista τ i pωq. Kurssilla tarkastellaan vain yksinkertaisia tapauksia. TA5 Luento 3 2017 7 / 33
Bayesiläiset pelit: huomioita 2 Pelin alussa tapahtuu seuraavaa: Jokin maailmantila ω P Ω realisoituu. Maailmantila määrää pelaajien tyypit t i τ i pωq kaikilla i P I. Tätä ω:aa ei yleensä havaita suoraan. Sen sijaan pelaajat havaisevat omat tyyppinsä t i P T i ja päivittävät ω:aa koskevat uskomuksensa muodosta p i pωq, ω P Ω, muotoon p i pωq, ω P τ 1 p pτ 1 i i pt i qq i pt i q. Tästä saadaan muiden pelaajien tyyppejä t j P T j koskevat uskomukset: pipτ 1 j pt qxτ 1 j i pt i qq pt i qq p i pτ 1 i. Huomaa, että yllä τ 1 i pt i q on se tila-avaruuden osajoukko, jossa i:n tyyppi on t i. TA5 Luento 3 2017 8 / 33
Esimerkkejä: huutokaupat Tarkastellaan ensimmmäisen ja toisen hinnan suljettua huutokauppaa (FPA ja SPA), kun huutajien maksuhalukkuudet v i P V P R` ovat toisistaan riippumattomat (engl. private values). 1. Pelaajat: joukko I. 2. Maailmantilat: joukko Ω V n. 3. Pelaajan informaatio (tyyppi) maailmantilassa: T i V ja τ i : V n Ñ V P T i, jossa τ i pv 1,...,v n q v i. 4. Pelaajan uskomukset (priori) maailmantilasta: p i pv 1,...,v n q π i pv 1 q... π i pv n q, jossa π : V Ñ R` on jokin todennäköisyysjakauma. 5. Valintajoukot: A i R` (huuto b i P A i ). 6. Hyötyfunktiot: U i riippuvat huutokaupasta FPA: U i pb 1,...,b n q v i max j b j, jos b i on korkein huuto; muuten U i pb 1,...,b n q 0. SPA: U i pb 1,...,b n q v i max j i b j, jos b i on korkein huuto; muuten U i pb 1,...,b n q 0. TA5 Luento 3 2017 9 / 33
Esimerkkejä: informaatio Bayesiläisellä pelillä voidaan mallintaa eroja sekä pelaajien preferensseissä että pelaajien informaatiossa: Tila-avaruus: Ω tω 1,ω 2,ω 3 u. Signaalifunktiot: τ 1 pω 1 q τ 1 pω 2 q t 1 ja τ 1 pω 3 q t 2 (pelaaja 1 ei erota tiloja 1 ja 2) τ 2 pω 1 q t 3 ja τ 2 pω 2 q τ 2 pω 3 q t 4. (pelaaja 2 ei erota tiloja 2 ja 3) Preferenssit: u 1 pω i,xq ą u 1 pω i,yq, kun i 1,2, ja u 1 pω 3,xq ă u 1 pω 3,yq u 2 pω 1,xq ă u 2 pω 1,yq, ja u 2 pω i,xq ą u 2 ω i,yq, kun i 2,3 Jos P2 saa signaalin t 3 hän tietää P1:n preferenssit. Jos P2 saa signaalin t 4 hän ei tiedä P1:n preferenssejä. Jos P1 saa signaalin t 1, hän ei tiedä, tietääkö P2 hänen preferenssinsä. Jos P1 saa signaalin t 2, hän tietää, että P2 ei tiedä hänen prefrenssejään. TA5 Luento 3 2017 10 / 33
Bayesiläinen Nash-tasapaino (BNE) Valitessaan strategiansa pelaajat tuntevat oman tyyppinsa t i ja ovat päivittäneet uskomuksensa p i (ehdollistamalla ne informaatiolle ω P τ i pt i q). Bayesielaisten pelien ratkaisemiseen voidaan siten käyttää sopivasti muunnettua versiota Nash-tasapainosta: Olkoon G pi,ω,pt i q ipi,pp i q ipi,pa i q ipi,pu i q ipi q Bayesiläinen peli. Bayesiläinen Nash-tasapaino (BNE) on sen strategisen pelin G 1 Nash-tasapaino (NE), joka on saatu Bayesiläisestä pelistä G seuraavin muutoksin: 1. Pelaajat: Joukko tpi,t i q i P I,t i P T i u Ă I ˆ T i. (kunkin pelaajan kaikki erilaiset tyypit) 2. Valintajoukot: Jokaiselle pelaajalle pi,t i q joukko A i. Määritellään A pa pi,ti qq i P I,t i P T i (. 3. Hyötyfunktiot: Jokaiselle pelaajalle pi,t i q funktio U pi,ti q. Määritellään U pi,ti qpaq ř ω u ipgpa,ωqq p i pωq. p pτ 1 i i pt i qq TA5 Luento 3 2017 11 / 33
Esimerkkejä: neuvottelut 1 Hintaneuvottelut, kun myyjien välillä on laatueroja (Wolinsky, 1990) Olkoon markkinoilla sekaisin erilaisia myyjiä: toisten hyödykkeet ovat korkealaatuisia toisten matalalaatusia. Korkealaatuiset ovat kalliimpia tuottaa c h 2 ą c l 0 mutta parempia ostajalle u h 3 ą u l 1. Myyjä tietää tietysti oman tyyppinsä, t l tai t h ; ostaja ei erota niitä ennen kauppoja. Myyjät ja ostajat neuvottelevat hinnasta: Jos myyjä tarjoaa p l ja ostaja p l, kauppaa käydään hinnalla p l 0.5. Jos myyjä tarjoaa p l ja ostaja p h, kauppaa käydään hinnalla p m 1.5. Jos myyjä tarjoaa p h ja ostaja p h, kauppaa käydään hinnalla p h 2.5. Jos myyjä tarjoaa p h ja ostaja p l, kauppoja ei synny. Ostajan ennakkotieto on se, että α % myyjistä on korkealaatuisia ja 1 α % myyjistä matalalaatuisia. TA5 Luento 3 2017 13 / 33
Esimerkkejä: neuvottelut 2 Tilannetta voidaan havainnollistaa kuvalla, jossa kumpaakin myyjää vastaa oma pelimatriisinsa; ostaja ei tiedä kummassa ollaan. b b p h p l p h p l 1.5 0 0.5 0 p h p h 2.5 0 0.5 0 s l s h 0.5 0.5 1.5 2.5 p l p l 1.5 0.5 0.5 1.5 Korkealaatuisella myyjällä on dominoiva strategia s h p h. Matalalaatuisen myyjän ja ostajan käyttäytyminen riippuu odotuksista vastapuolen suhteen. Jos myyjän laatu olisi havaittavissa, pelissä olisi Nash-tasapaino, jossa ps b,s h q pp h,p h q ja ps b,s l q pp l,p l q. Suoralta kädeltä voidaan sanoa, että jos α on riittävän korkea, BNE on ps b,s l,s h q pp h,p h,p h q ja, jos 1 α on riittävän matala, BNE on ps b,s l,s h q pp l,p l,p h q. TA5 Luento 3 2017 14 / 33
Sekatasapaino 1 Tarkastellaan vuorovaikutusmallia, jossa pelaajien valinnat ovat satunnaisia. Sen sijaan, että pelaaja valitsisi yhden vaihtoehdon a i P A i hän valitseekin nyt todennäköisyyden α i pa i q, jolla hän pelaa kutakin yksittäistä vaihtoehtoa a i P A i ; siten ř a i PA i α i pa i q 1. Näiden todennäköisyysjakaumien α i pα i pa i qq ai PA i kokoelmaa merkitään A i. Yksittäisiä todennäköisyysjakaumia α i P A i kutsutaan pelaajan i sekastrategioiksi. Jos kaikki paino on yhdellä valinnalla α i pa i q 1, kutsutaan tätä puhtaaksi strategiaksi. Merkitään puhtaita stategioita jatkossa yksinkertaisesti a i. TA5 Luento 3 2017 15 / 33
Sekatasapaino 2 Jokainen pelaaja valitsee yhtäaikaisesti ja riippumattomasti jonkin sekastrategian α i P A i. Todennäköisyys, jolla puhdas valintaprofiili a pa 1,...,a n q realisoituu on α 1 pa 1 q... α n pa n q. Sekatasapaino on sellaisen strategisen pelin G pi,p A i q ipi,pu i q ipi q Nash-tasapaino, jossa pelaajan i odotettu hyöty stategiaprofiilista α lasketaan U i pαq ÿ apaα 1 pa 1 q... α n pa n qu i paq U i pα i,α i q ÿ a i PA i α i pa i qu i pa i,α i q Huom. Sekatasapainossa pelaaja i asettaa vaihtoehtolle a i positiivisen painon α i pa i q ą 0 vain jos se on paras vastaus muiden valintoihin α i eli tuottaa vähintään max ai U i pa i,α i q. TA5 Luento 3 2017 16 / 33
Tasapainon olemassaolo "Jatkuvalla pelillä on Nash-tasapaino" Nash-tasapainon olemassaolo Tarkastellaan strategista peliä G pi,pa i q ipi,pu i q ipi q, jossa A i H ja A i Ă R m on kompakti ja konveksi ja u i on jatkuva a:n suhteen ja (kvasi-)konkaavi a i :n suhteen. Tällöin pelillä on Nash-tasapaino. "Äärellisellä pelillä on sekatasapaino" Sekatasapainon olemassaolo Tarkastellaan strategista peliä G pi,p A i q ipi,pu i q ipi q, jossa A i H on äärellinen ( A i H ja A i Ă R m on kompakti ja konveksi ja U i on lineaarinen α i :n suhteen). Tällöin pelillä on sekatasapaino. TA5 Luento 3 2017 17 / 33
3 huutokauppaa
Ensimmäisen hinnan huutokauppa Merkitään huutajan t i strategiaa s i pt i q b i P R`. Oletetaan, että kaupan kohteen arvo eri huutajille on toisistansa riippumaton ja jakautunut tasaisesti välille r0, 1s. Näytetään, että pelillä on BNE, jossa b i n 1 n t i, eli pelaaja siis huutaa jonkin verran alle maksuhalukkuutensa, n 1 n ă 1. TA5 Luento 3 2017 20 / 33
Tarkatellaan huutajien parhaita vastauksia, kun muut huutajat käyttävät ehdotettua strategiaa b j n 1 n t j. Lasketaan huutajan t i odotettu hyöty strategiasta b i ehdolla b j n 1 n t j: Maksimoidaan odotettua hyötyä ˆ n maxpt i b i q b i n 1 b i Ensimmäisen kertaluvun ehto ˆ n pn 1qt i n 1 U i pb i,t i b j n n 1 t jq pt i b i qprpwinq pt i b i qprpmax b j ă b i q j i pt i b i qprpmax j i n 1 n t j ă b i q n pt i b i qprpmax t j ă j i n 1 b iq ˆ n 1 pt i b i q n 1 t i ˆ n 1 ˆ b n 2 i n n n 1 b i n n 1 n n 1 n 1 ˆ b n 1 i n 1 b n 1 n n 1 n 1 b n i i 0 ðñ b i n 1 n t i TA5 Luento 3 2017 21 / 33
Toisen hinnan huutokauppa Merkitään huutajan t i strategiaa s i pt i q b i P R`. Oletetaan, että kaupan kohteen arvo eri huutajille on riippumaton; muita oletuksia ei ole tarpeen asettaa. Näytetään, että pelillä on BNE, jossa b i t i, eli pelaaja siis huutaa totuudenmukaisesti maksuhalukkuutensa. TA5 Luento 3 2017 22 / 33
Tarkatellaan, kannattaako huutajan "ylihuutaa"eli huutaa arvostustansa enemmän b i ą t i tai "alihuutaa"eli huutaa arvostustansa vähemmän b i ă t i. Merkitään toisten huutajien korkeinta huutoa b j. Pelaaja siis kilpailee tätä vastaan. Se on myös hänen maksamansa hinta, jos hän voittaa kohteen. Oletetaan, että pelaaja "ylihuutaa", verrataan rehelliseen huutamiseen b i t i. Jos t i ě b j, huudon korottaminen ei vaikuta mitään: kummassakin tapauksessa pelaaja voittaa kohteen ja maksaa b j. Jos t i ă b j, huudon korottaminen voi vähentää pelaajan hyötyä: pelaaja voi voittaa ja joutua maksamaan enemmän kuin kannattaisi b j ą t i. Oletetaan, että pelaaja "alihuutaa", verrataan rehelliseen huutamiseen b i t i. Jos t i ě b j huudon madaltaminen voi vähentää pelaajan hyötyä: pelaaja voi menettää kohteen, vaikka maksu olisi ollut hänelle sopiva b j ă t i. Jos t i ă b j huudon madaltaminen ei vaikuta mitään: kummassakin tapauksessa pelaaja häviää kohteen ja maksaa 0. Ylihuutaminen tai alihuutaminen ei siis hyödytä pelaajaa yhtään, huusivatpa muut kuinka vain. TA5 Luento 3 2017 23 / 33
Rahahuutokauppa Tarkastellaan ensimmäisen hinnan huutokauppaa, jossa kohde onkin raha: 1000 e. Jokaisen huutajan maksuhalukkuus 1000 eurosta on 1000 euroa. Arvostukset eivät siis tässä ole enää riippumattomat. Oletetaan kuitenkin, että kovin moni ei ole tietoinen tällaisesta huutokaupasta. Todennäköisyydellä Prpyksinq huutaja on paikalla yksin ja todennäköisyydellä Prpkaksinq 1 Prpyksinq huutajalla on kilpailija. Miten kannattaa huutaa? TA5 Luento 3 2017 24 / 33
Havainto 1: Huutamalla b i 0 huutaja saa ainakin Prpyksinq1000. Tästä seuraa, että pelaajien kannattaa aina huutaa alle 1000 euroa. Havainto 2: Jos toinen huutaja käyttäisi puhdasta strategiaa b j ą 0, huutamalla vähäsen tätä enemmän b i b j ` ε saisi 1000 pb j ` εq. Johtopäätös: Koska kummallakin huutajalla olisi kannustin poiketa ylöspäin mistä vain toistensa puhtaasta strategista tai huutaa nolla euroa, pelillä ei voi olla tasapainoa puhtaissa strategioissa. Sekatasapaino: Huutajat huutavat satunnaisesti kaikkia huutoja väliltä b i P r0, bs, jossa U i Prpyksinq1000 pprpyksinq ` Prpmontaqqp1000 bq. Kun tunnetaan Prpyksinq, tästä voidaan laskea suoraan U i ja b (suurin huuto). Lisäksi Fpb i q Prpb j ă b i q (huutojakauma) saadaan laskettua tietäen, että kaikkien huutojen b i P p0, bq täytyy tuottaa huutajalle U i (sekatasapaino!). U i pprpyksinq ` PrpmontaqFpb i qqp1000 bq, Fpb i q U i p1000 b i qprpmontaq Prpyksinq Prpmontaq, b i P p0, bq b i P p0, bq. TA5 Luento 3 2017 25 / 33
Informoidut ja ei-informoidut kuluttajat: Varian & Stahl
Hintakilpailumalli Kaksi yritystä kilpailee hinnoilla, valitsevat p i, i 1,2. Hyödykkeet ovat täydellisiä substituutteja, kuluttajat välittävät vain hinnoista eivät tuotteen muista pinnallisista ominaisuukista: esim. standardisoidut bulkkituotteet, tietyn energialuokan lamput. Kuluttajan hyöty tuotteesta on u 1, yksikkökustannus on c 0. Sata kuluttajaa. Osuus 1 β kuluttajista on informoituja: saavat tietoonsa molemmat hinnat, ostavat halvemmalla hinnalla Osuus β kuluttajista on ei-informoituja: löytävät vain toisen hinnan, puolet hinnan p 1 ja puolet taas hinnan p 2 TA5 Luento 3 2017 29 / 33
Havainto 1: Hinnoitelemalla kuten monopoli, p i 1, yrityksen voitto on ainakin β50. Rajakustannushinnoittelu p i 0 ei siis tule kyseeseen, koska siitä ei saada voittoa. Havainto 2: Toisaalta, jos toinen yritys käyttäisi puhdasta strategiaa p j ą 0, valitsemalla vähän tätä pienemmän hinnan p i p j ε kilpaileva yritys saisi voiton pb j εq100. Johtopäätös: Koska kummallakin yrityksellä olisi kannustin poiketa alapäin mistä vain toistensa puhtaasta strategista tai valita monopolinta ykkönen, pelillä ei voi olla tasapainoa puhtaissa strategioissa. Sekatasapaino: Yritykset käyttävät satunnaisesti kaikkia hintoja väliltä p i P p,1, jossa Π i β50 1 100 p. Kun tunnetaan β, tästä voidaan laskea suoraan Π i ja p (pienin hinta). Lisäksi Fpp i q Prpp j ă p i q (hintajakauma) saadaan laskettua tietäen, että kaikkien hintojen p i P `p,1 täytyy tuottaa yritykselle Π i (sekatasapaino!). Π i pβ50 ` p1 βq100p1 Fpp i qqqp i, β Fpp i q 1 ` 2p1 βq Π i, p1 βq100p i p i P `p,1 p i P `p,1. TA5 Luento 3 2017 30 / 33
Hintavaihtelumalli Tästä tulee uudelleenjärjestelemällä ˆ ˆ β 1 pi 1 Fpp i q 1, p i P 2p1 βq p i 2 β,1. Jos informoitujen ostajien määrä kasvaa niin, että β Ñ 0, alin hinta lähestyy nollaa ja hintajakauma keskittyy nollan ympärille. Jos ei-informoitujen ostajien määrä kasvaa niin, että β Ñ 1, alin hinta lähestyy 0,5:ttä ja hintajakauma keskittyy 1:n ympärille. Kuluttajilla oleva informaatio β P p0, 1q vaikuttaa siihen, ollaanko lähempänä monopolihinnoittelua vai rajakustannushinnottelua. Yritykset tasapainottelevat kahden motiivin välillä: ne voivat käyttää korkeita hintoja, verottaakseen uskollisia ei-informoituja kuluttajia tai matalia hintoja, kilpiallakseen informoiduista kuluttajista. Näiden kuluttajaryhmien suhteelliset koot vaikuttavat siihen, kumpi motiivi on vahvempi. Malli selittää, miksi samanlaisia hyödykkeitä on mahdollista myydä erisuurilla hinnoilla. TA5 Luento 3 2017 31 / 33
Seuraavaa kertaa varten Game Theory by Ben Polak (Open Yale) "Sequential Games"(luento 13, kokonaan) "Establishing a reputation: chain store"(luento 16.1, katkelma) ja "Establishing a reputation: discussion"(luento 16.2, katkelma) TA5 Luento 3 2017 32 / 33