Tasapaino epätäydellisen tiedon peleissä



Samankaltaiset tiedostot
Nollasummapelit ja bayesilaiset pelit

Pohdiskeleva ajattelu ja tasapainotarkennukset

Johdanto peliteoriaan Kirja kpl. 2

SEKASTRATEGIAT PELITEORIASSA

Peliteoria Strategiapelit ja Nashin tasapaino. Sebastian Siikavirta

Pelien teoriaa: tasapainokäsitteet

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Epätäydellisen tiedon jatkuvat pelit

Epätäydellisen tiedon jatkuvat pelit. Mika Viljanen Peliteorian seminaari

Luento 8. June 3, 2014

Rationalisoituvuus ja yleinen tieto rationaalisuudesta

Yhteistyötä sisältämätön peliteoria jatkuu

Luento 5: Peliteoriaa

Toistetut pelit Elmeri Lähevirta. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Sekastrategiat ja intensiiviyhteensopivuus

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

Luento 5: Peliteoriaa

Signalointi: autonromujen markkinat

Yleinen tietämys ja Nashin tasapaino

Yhteistyötä sisältämätön peliteoria

Sekastrategia ja Nash-tasapainon määrääminen

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Mikrotaloustiede Prof. Marko Terviö Aalto-yliopisto BIZ 31C00100 Assist. Jan Jääskeläinen Syksy 2017

MS-C2105 Optimoinnin perusteet Malliratkaisut 5

11 Oligopoli ja monopolistinen kilpailu (Mankiw & Taylor, Ch 17)

Luento 7. June 3, 2014

LAAJENNETUN MUODON RATIONALISOITUVUUS. S ysteemianalyysin. Arno Solin Laboratorio. Aalto-yliopiston Teknillinen korkeakoulu

Peliteoria luento 3. May 27, Peliteoria luento 3

Dynaaminen hintakilpailu ja sanattomat sopimukset

Luento 9. June 2, Luento 9

PELITEORIAN PERUSTEITA

Evolutiivisesti stabiilin strategian oppiminen

PELITEORIAN TALOUSTIETEELLISIÄ SOVELLUKSIA

Strategiapelit ja Nashin tasapaino. Esitta ja : Sebastian Siikavirta

Sovellettu todennäköisyyslaskenta B

x+3 = n(y 3) y +n = 3(x n). Kun ylemmästä yhtälöstä ratkaistaan x = n(y 3) 3 ja sijoitetaan alempaan, saadaan

Mikrotaloustiede Prof. Marko Terviö Aalto-yliopisto BIZ 31C00100 Assist. Jan Jääskeläinen Syksy 2017

kaikille a R. 1 (R, +) on kommutatiivinen ryhmä, 2 a(b + c) = ab + ac ja (b + c)a = ba + ca kaikilla a, b, c R, ja

Karteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21

Äärellisten mallien teoria

Peliteorian soveltaminen hajautettujen järjestelmien protokollasuunnittelussa (valmiin työn esittely)

Matematiikan tukikurssi

Peliteoria luento 2. May 26, Peliteoria luento 2

Matematiikan tukikurssi, kurssikerta 3

TOD.NÄK JA TILASTOT, MAA10 Kombinaatio, k-kombinaatio

a k+1 = 2a k + 1 = 2(2 k 1) + 1 = 2 k+1 1. xxxxxx xxxxxx xxxxxx xxxxxx

Paljonko maksat eurosta -peli

Mikäli huomaat virheen tai on kysyttävää liittyen malleihin, lähetä viesti osoitteeseen

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat.

8.2. Permutaatiot. Esim. 1 Kirjaimet K, L ja M asetetaan jonoon. Kuinka monta erilaista järjes-tettyä jonoa näin saadaan?

8.1. Tuloperiaate. Antti (miettien):

Evolutiivinen stabiilisuus populaation

Yhtälönratkaisusta. Johanna Rämö, Helsingin yliopisto. 22. syyskuuta 2014

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

MS-A0004/A0006 Matriisilaskenta

Haitallinen valikoituminen: yleinen malli ja sen ratkaisu

Algebra I, harjoitus 5,

Johdatus lukuteoriaan Harjoitus 2 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

Kokonaislukuoptimointi

1 Raja-arvo. 1.1 Raja-arvon määritelmä. Raja-arvo 1

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Kvanttimekaniikan tulkinta

Königsbergin sillat. Königsberg 1700-luvulla. Leonhard Euler ( )

2.1. Tehtävänä on osoittaa induktiolla, että kaikille n N pätee n = 1 n(n + 1). (1)

Tenniksen pistelaskusäännöt, lukio/ammatilliset oppilaitokset

Tarkastelemme ensin konkreettista esimerkkiä ja johdamme sitten yleisen säännön, joilla voidaan tietyissä tapauksissa todeta kielen ei-säännöllisyys.

Äärellisten mallien teoria

Inversio-ongelmien laskennallinen peruskurssi Luento 7

b) Arvonnan, jossa 50 % mahdollisuus saada 15 euroa ja 50 % mahdollisuus saada 5 euroa.

Peliteoria luento 1. May 25, Peliteoria luento 1

Konvergenssilauseita

Alijärjestelmän mittaus ja muita epätäydellisiä mittauksia

ESS oppiminen ja sen simulointi

Matematiikan ja tilastotieteen laitos Reaalianalyysi I Harjoitus Malliratkaisut (Sauli Lindberg)

A. Huutokaupat ovat tärkeitä ainakin kolmesta syystä. 1. Valtava määrä taloudellisia transaktioita tapahtuu huutokauppojen välityksellä.

Matematiikan ja tilastotieteen laitos Algebra I - Kesä 2009 Ratkaisuehdoituksia harjoituksiin 8 -Tehtävät sivua Heikki Koivupalo ja Rami Luisto

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 3: Jatkuvuus

jäsentäminen TIEA241 Automaatit ja kieliopit, syksy 2015 Antti-Juhani Kaijanaho 26. marraskuuta 2015 TIETOTEKNIIKAN LAITOS

1 sup- ja inf-esimerkkejä

Funktiot. funktioita f : A R. Yleensä funktion määrittelyjoukko M f = A on jokin väli, muttei aina.

Lefkoe Uskomus Prosessin askeleet

a ord 13 (a)

Olkoon seuraavaksi G 2 sellainen tasan n solmua sisältävä suunnattu verkko,

Pelit matematiikan opetuksessa

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Matemaatiikan tukikurssi

Luento 5: Peliteoria

Diofantoksen yhtälön ratkaisut

JOHDATUS LUKUTEORIAAN (syksy 2017) HARJOITUS 3, MALLIRATKAISUT

Matriisit, kertausta. Laskutoimitukset. Matriisikaavoja. Aiheet. Määritelmiä ja merkintöjä. Laskutoimitukset. Matriisikaavoja. Matriisin transpoosi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Opettaminen ja oppiminen

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

Reaaliarvoisen yhden muuttujan funktion raja arvo LaMa 1U syksyllä 2011

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Lineaariset yhtälöryhmät ja matriisit

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Mat Sovellettu todennäköisyyslasku A

1. Otetaan perusjoukoksi X := {0, 1, 2, 3, 4, 5, 6, 7}. Piirrä seuraaville kolmelle joukolle Venn-diagrammi ja asettele alkiot siihen.

Transkriptio:

hyväksymispäivä arvosana arvostelija Tasapaino epätäydellisen tiedon peleissä Marja Hassinen Helsinki 9..2006 Peliteoria-seminaarin esitelmä HESINGIN YIOPISTO Tietojenkäsittelytieteen laitos

Sisältö Johdanto 2 Tasapaino epätäydellisen tiedon peleissä 2 2. Peräkkäistasapaino............................ 2 2.2 Esimerkki peräkkäistasapainosta..................... 4 3 Tärisevän käden tasapaino 7 3. Tärisevän käden tasapaino äärellisissä strategisissa peleissä...... 8 3.2 Tärisevän käden tasapaino laajoissa peleissä.............. 9 4 ähteet

Johdanto Tarkastelemme äärellisiä laajoja pelejä (extensive games, myös laajennetun muodon pelit ). isäksi sallimme epätäydellisen tiedon (imperfect information): Pelaaja ei kaikissa tilanteissa tiedä koko historiaa erityisesti sitä, mitä toinen pelaaja on valinnut. Ne historiat, joita pelaaja ei osaa erottaa toisistaan, muodostavat informaatiojoukon. Peliä kuvaavassa graafissa samaan informaatiojoukkoon kuuluvat tilat yhdistetään katkoviivalla. Esimerkki epätäydellisen tiedon pelistä on kuvassa. M 2 2,2 3, 0,0 0,2, Kuva : Esimerkki epätäydellisen tiedon pelistä. Jos pelaaja muistaa, mitä on aikaisemmin tiennyt ja mitä on itse valinnut, on kyseessä täydellisen muistin (perfect recall) peli. Tällöin pelaaja voi olla epätietoinen ainoastaan siitä, mitä muut pelaajat ovat valinneet. Tavallinen strateginen peli, jossa pelaajat tekevät siirtonsa yhtä aikaa, voidaan esittää epätäydellisen tiedon pelinä. Esimerkiksi Bach vai Stravinsky -peli voidaan esittää kuvan 2 graafilla. Pelaaja 2 ei siis omaa valintaansa tehdessään tiedä, mitä pelaaja on valinnut. uonnollisesti myöskään pelaaja ei tiedä, mitä pelaaja 2 tulee vuorollaan valitsemaan. Pelaajan strategia kertoo, mitä pelaaja tekee niissä informaatiojoukoissa, joissa on pelaajan vuoro. Strategioille määriteltiin Nashin tasapaino ja alipelitäydellinen (subgame perfect, myös osapelitäydellinen ) Nashin tasapaino, joka on vahvempi ehto. Strategiaprofiili, jossa siis on yksi strategia kullekin pelaajalle, on Nashin tasapaino, jos kukaan pelaaja ei hyödy strategiansa vaihtamisesta, jos muut pysyvät tasapaino-

2 B S 2 B S B S 3, 0,0 0,0,3 Kuva 2: Bach vai Stravinsky epätäydellisen tiedon pelinä. strategioissaan. isäksi se on alipelitäydellinen Nashin tasapaino, jos kukaan pelaaja ei halua vaihtaa edes minkään alipelin strategiaansa. Siis jokainen pelaajan valinta on optimaalinen valinnasta alkavassa alipelissä. 2 Tasapaino epätäydellisen tiedon peleissä Haluaisimme määritellä tasapainon käsitteen myös epätäydellisen tiedon peleille. Tässä luvussa esitellään peräkkäistasapainon määritelmä ja käsitellään sen soveltamista epätäydellisen tiedon peleihin. 2. Peräkkäistasapaino Epätäydellisen tiedon peleissä ongelmana on, ettei pelaaja tiedä, missä informaatiojoukon tilassa ollaan, joten on hankalaa määritellä, onko toiminto hyvä vai ei. Hyvyys riippuu siitä, millä todennäköisyydellä pelaaja uskoo olevansa missäkin informaatiojoukon tilassa. Joissain tilanteissa hyvän toiminnon määrittäminen on helppoa. Esimerkiksi kuvan pelaajan 2 kannattaa aina valita, riippumatta siitä, kummassa informaatiojoukon tilassa ollaan. Yleisessä tapauksessa näin yksinkertainen päättely ei ole mahdollista. Pelaajan on muodostettava järkevä uskomus siitä, millä todennäköisyydellä ollaan missäkin informaatiojoukon tilassa, ja valittava toimintansa uskomuksen mukaan.

3 Seuraavaksi esitellään käsitteitä ja määritelmiä, joiden avulla voidaan määritellä tasapaino epätäydellisen tiedon peleille. Arvio (assessment) on pari, johon kuuluu käyttäytymisstrategiat (behavioral strategy) β ja uskomus (belief system) µ. Käyttäytymisstrategia kertoo jokaisen informaatiojoukon osalta, millä todennäköisyydellä pelaaja valitsee minkäkin toiminnon. Merkitään β (I)(A):lla todennäköisyyttä, jolla pelaaja valitsee toiminnon A, kun ollaan informaatiojoukossa I. Uskomus liittää jokaiseen informaatiojoukkoon todennäköisyysjakauman, joka kuvaa käsitystä siitä, miten todennäköisesti ollaan missäkin kyseisen informaatiojoukon tilassa. Merkitään µ(i)(a,b):llä todennäköisyyttä, että todellinen historia on (A,B), kun ollaan informaatiojoukossa I. Kurssikirjassa käyttäytymisstrategioita β indeksoidaan pelaajan mukaan, mutta uskomusta ei. Ilman sekaantumisen vaaraa olisi mahdollista jättää alaindeksi pois myös käyttäytymisstrategioista, sillä jokaisessa informaatiojoukossa on vain yksi pelaaja. Ehkä tällä ratkaisulla halutaan korostaa sitä, että uskomus on pelaajille yhteinen, mutta käyttäytyminen on henkilökohtaista. Arvio (β, µ) on peräkkäisrationaalinen (sequentially rational), jos jokaiselle pelaajalle ja jokaiselle informaatiojoukolle käyttäytymisstrategian määräämä toiminta informaatiojoukossa on optimaalista, kun muut pelaajat pelaavat arvion määräämiä käyttäytymisstrategioitaan ja uskomusjärjestelmä on annettu. Siis arviointi on peräkkäisrationaalinen, jos käyttäytymisstrategia on paras mahdollinen vastaus muiden pelaajien strategioihin (annettuna uskomus). Peräkkäisrationaalisuus on siis tae käyttäytymisstrategioiden järkevyydestä, kun uskomus on annettu, mutta ei uskomuksen järkevyydestä. Uskomus voi olla millainen tahansa. Sanotaan, että käyttäytymisstrategiaprofiili on aito sekoite (completely mixed), jos jokainen pelaaja valitsee jokaisen toiminnon nollasta poikkeavalla todennäköisyydellä. Arvio (β,µ) on konsistentti (consistent), jos on olemassa jono arvioita (β n,µ n ) siten, että. jono lähestyy (β,µ):ta 2. jokainen β n on aito sekoite ja 3. µ n on johdettu β n :stä Bayesin kaavan avulla. Siis uskomukset niistä informaatiojoukoista, joihin ei oikeasti päädytä, on johdettu raja-arvoina käyttäytymisstrategioista, joilla jokaiseen informaatiojoukkoon päädy-

4 tään positiivisella todennäköisyydellä. Konsistenssi takaa, että pelaajien uskomukset ovat järkeviä. Erityisesti uskomukset myös niistä informaatiojoukoista, joihin ei päädytä kun käyttäytymisstrategiat on annettu, ovat järkeviä. On syytä huomata, että yhden ehdot täyttävän arviointijonon (β n,µ n ) olemassaolo riittää. Näiden käsitteiden avulla voimme määritellä tasapainon epätäydellisen tiedon peleille: Arvio (β, µ) on peräkkäistasapaino (sequential equilibrium), jos se on peräkkäisrationaalinen ja konsistentti. Tiedetään, että jokaisella äärellisillä laajalla täydellisen muistin pelillä on peräkkäistasapaino. 2.2 Esimerkki peräkkäistasapainosta 2 C c D d,, 3 3,3,2 0,0,0 4,4,0 0,0, Kuva 3: Seltenin hevonen. Esimerkkinä peräkkäistasapainosta tarkastellaan tunnettua epätäydellisen tiedon peliä Seltenin hevonen (Selten s horse). Peli on esitetty kuvassa 3. Merkitään pelaajan 3 informaatiojoukkoa I:llä. Muiden pelaajien informaatiojoukot ovat triviaaleja, sillä niihin kuuluu vain yksi tila. 2 C D (P = ) d c (P = /3... ),, 3 (P = ) (P = ) 3,3,2 0,0,0 4,4,0 0,0, Kuva 4: Ensimmäisen tyypin tasapaino.

5 Pelissä on kahdentyyppisiä Nashin tasapainoja. Ensimmäisen tyypin tasapainoille pätee: β ( )(D) = eli pelaaja valitsee aina D, β 2 (C)(c) [/3, ] eli pelaaja 2 valitsee c todennäköisyydellä, joka on välillä [/3, ] ja β 3 (I)(D) = eli pelaaja 3 valitsee aina. Tätä tasapainoa voidaan havainnollistaa kuvalla 4. Kyseinen käyttäytymisstrategiaprofiili on Nashin tasapaino, sillä kukaan pelaaja ei hyödy käyttäytymisstrategiansa vaihtamisesta, jos muut pelaajat pysyvät tasapainostrategioissaan. Pelaaja :lle D tuottaa hyödyn 3 ja C tuottaa odotusarvoisen hyödyn 4 β 2 (C)(d) + β 2 (C)(c) = 4 β 2 (C)(d) + β 2 (C)(d) = + 3 β 2 (C)(d) < + 3 2/3 = 3, joten pelaaja ei halua vaihtaa strategiaansa D. Pelaaja 3 voi olla varma siitä, että informaatiojoukossa I todellinen historia on D, joten on parempi vaihtoehto kuin. Pelaaja 2 ei todellisuudessa pääse koskaan valitsemaan, joten molemmat vaihtoehdot, c ja d, ovat yhtä hyviä. 2 C D (P = ) d c (P = ),, 3 (P = 3/4... ) (P = 3/4... ) 3,3,2 0,0,0 4,4,0 0,0, Kuva 5: Toisen tyypin tasapaino. Toisen tyypin tasapainoille pätee: β ( )(C) = eli pelaaja valitsee aina C, β 2 (C)(c) = eli pelaaja 2 valitsee aina c ja β 3 (I)() [3/4, ] eli pelaaja 3 valitsee todennäköisyydellä, joka on välillä [3/4, ].

6 Tätä tasapainoa voidaan havainnollistaa kuvalla 5. Tämäkin käyttäytymisstrategiaprofiili on Nashin tasapaino. Pelaaja saa valinnasta C hyödyn ja odottaa saavansa valinnasta D hyödyn β 3 (I)() 3 + β 3 (I)() 0 < /4 3 = 3/4. Siis pelaajalle C on parempi valinta. Pelaaja 2 saa valinnasta c hyödyn ja odottaa saavansa valinnasta d hyödyn β 3 (I)() 4 + β 3 (I)() 0 < /4 4 =, eli c on parempi valinta. Pelaaja 3 ei pääse koskaan valitsemaan, joten mikä tahansa käyttäytymisstrategia on yhtä hyvä. Voitaisiinko näihin käyttäytymisstrategiaprofiileihin liittää uskomukset siten, että saataisiin peräkkäistasapaino? Ensimmäisen tyypin käyttäytymisstrategiaprofiili ei voi olla osa peräkkäistasapainoa, sillä se ei ole peräkkäisrationaalinen. Pelaaja 2:n toiminta ei ole optimaalista omassa informaatiojoukossaan. Jos pelaaja 2 pääsee valitsemaan, hänen kannattaisi valita mieluummin d kuin c. Kun toisen tyypin käyttäytymisstrategiaprofiiliin liitetään uskomus µ, jolle µ(i)(d) = /3, on tuloksena peräkkäistasapaino. Merkitään β = (β,β 2,β 3 ) ja selvitetään, miksi arvio (β,µ) on peräkkäistasapaino. Tarkastellaan ensin peräkkäisrationaalisuutta. Peräkkäisrationaalisuus tarkoittaa siis sitä, että jokaisen pelaajan käyttäytymisen on oltava optimaalista omassa informaatiojoukossaan. Aikaisemmin todettiin, että pelaajan odotusarvoinen hyöty C:lle on ja D:lle < 3/4. Siis pelaajan käyttäytyminen on optimaalista informaatiojoukossaan. Vastaavasti pelaajan 2 odotusarvoinen hyöty c:lle on ja d:lle <. Siis myös pelaajan 2 käyttäytyminen on optimaalista informaatiojoukossaan. Pelaajien ja 2 toiminnan optimaalisuuden selvittämiseksi ei tarvittu tietoa uskomuksesta. Tarkastellaan pelaajan 3 toimintaa. Olkoon p = β 3 (I)(). Kun uskomus on annettu, odotusarvoinen hyöty on /3 (p 0+( p) 2)+2/3 (p +( p) 0) = 2/3, ja tämä ei riipu p:stä. Siis mikä tahansa pelaajan 3 käyttäytymisstrategia on optimaalinen, kun tämä uskomus on annettu. Siis arvio (β,µ) on peräkkäisrationaalinen. Tarkastellaan sen jälkeen konsistenssia. Konsistenssi vaatii, että uskomukset myös niistä informaatiojoukoista, joihin ei päädytä, ovat järkeviä. Valitaan käyttäytymisstrategiaprofiilijonoksi β( )(C) ε = ε, β2(c)(d) ε = 2ε/( ε), β3(i)() ε = β 3 (I)() ε. Merkitään β ε = (β,β ε 2,β ε 3). ε Selvästi β ε lähestyy β:a, kun ε lähestyy nollaa. Selvästi

7 myös β ε on aito sekoite. Pelissä on vain yksi sellainen informaatiojoukko, jossa on useampi kuin yksi tila. Johdetaan tälle informaatiojoukolle I uskomus µ ε Bayesin kaavan avulla käyttäytymisstrategioista β ε. Saadaan: µ ε (I)(D) = P(tila on D ollaan informaatiojoukossa I) = P(D I) = P(I D) P(D)/P(I) = β( )(D)/(β ε ( )(D) ε + β( )(C) ε β2(c)(d)) ε = ε/(ε+( ε) 2ε/( ε)) = /3. Siis µ ε lähestyy uskomusta µ, kun ε lähestyy nollaa. Tässä tapauksessa µ ε on aina yhtä suuri kuin µ, mutta lähestyminenkin riittää. Siis arvio (β,µ) on konsistentti. Koska arvio (β, µ) on sekä peräkkäisrationaalinen että konsistentti, se on peräkkäistasapaino. Tähän lopetamme Seltenin hevonen-pelin käsittelyn. Peräkkäistasapainon käsite vaikuttaa ainakin aluksi hankalalta ja epäintuitiiviselta. Seuraavaksi esiteltävä tärisevän käden tasapaino tarjoaa uuden tasapainon käsitteen Nashin tasapainon rinnalle. Sen avulla voidaan määritellä tasapaino strategisille peleille ja laajojen pelien tasapaino seuraa helposti strategisien pelien tasapainon käsitteestä. 3 Tärisevän käden tasapaino Tärisevän käden tasapaino (trembling hand perfect equilibrium) on uusi tasapainon käsite. Se on vahvempi ehto kuin Nashin tasapaino: Jokainen tärisevän käden tasapaino on Nashin tasapaino, mutta jokainen Nashin tasapaino ei ole tärisevän käden tasapaino. Oletetaan, että pelaajat noudattavat tasapainostrategioitaan, mutta valitsevat vahingossa silloin tällöin jonkin muun siirron. Tällaisessa tilanteessa sanotaan, että pelaajien kädet tärisevät. Tasapainostrategioiden pitäisi olla hyviä siinä tilanteessa, että vastapelaajien kädet tärisevät vähän. Tärisevän käden tasapaino sopii sekä strategisiin että laajoihin peleihin. Seuraavaksi esitetään tärisevän käden tasapainon määritelmä ja tarkastellaan tärisevän käden tasapainon käsitettä molemmissa pelityypeissä.

8 A B C A 0, 0 0, 0 0, 0 B 0, 0, 2, 0 C 0, 0 0, 2 2, 2 Taulukko : Kaikki Nashin tasapaino eivät ole tärisevän käden tasapainoja. 3. Tärisevän käden tasapaino äärellisissä strategisissa peleissä Tarkastelemme esimerkkinä taulukossa kuvattua peliä. Pelissä on kolme Nashin tasapainoa: (A,A), (B,B) ja (C,C). Kuitenkin vain yksi niistä on tärisevän käden tasapaino. (A, A) ei ole tärisevän käden tasapaino. Jos pelaaja 2 valitsee useimmiten A, mutta joskus myös B tai C, ei pelaajan kannata valita A vaan B. (C,C) ei myöskään ole tärisevän käden tasapaino: Jos pelaaja 2 valitsee useimmiten C, mutta joskus myös A tai B, ei pelaajan kannata valita C vaan B. Sen sijaan (B, B) on tärisevän käden tasapaino. Jos pelaaja 2 valitsee useimmiten B, mutta joskus myös A tai C, kannattaa pelaajan silti valita B. Sama päättely pätee myös toisin päin. Koska tärisevän käden tasapaino on aina Nashin tasapaino, ei tässä pelissä ole muita tärisevän käden tasapainoja kuin (B, B). Yleisesti myös tärisevän käden tasapainoja voi olla useampia kuin yksi. Edellä määriteltiin, että pelaajan strategia on aito sekoite, jos jokainen toiminto valitaan positiivisella todennäköisyydellä. Tärisevän käden tasapainon määritelmä on seuraava: Strategiaprofiili σ on tärisevän käden tasapaino, jos on olemassa sellainen jono strategiaprofiileita σ k, että. strategiat ovat aitoja sekoitteita, 2. σ k lähestyy σ:a ja 3. pelaajan i strategia σ i on paras vastaus muiden strategioihin σ k i kaikilla k. Strategiaprofiili σ k siis kuvaa tilannetta, jossa pelaajien kädet tärisevät, ja σ kuvaa tilannetta, jossa pelaajien kädet eivät tärise. Pelaajan strategian pitää siis olla paras vastaus johonkin tilanteeseen, jossa muiden kädet tärisevät, ja lisäksi sen täytyy edelleen olla paras vastaus, kun tärinä vähenee eli σ k lähestyy σ:a. Yhden

9 ehdot täyttävän strategiaprofiilijonon σ k olemassaolo riittää. Pelaajan strategian ei tarvitse olla paras vastaus kaikkiin tärisevien käsien strategiaprofiileihin. Esimerkiksi kuvan pelissä voidaan strategiaprofiili (B, B) osoittaa tärisevän käden tasapainoksi valitsemalla strategiajonoiksi σ ε = σ2 ε = (ε, 2ε,ε), jossa ε < /2. Nyt strategiat ovat aitoja sekoitteita ja σ ε lähestyy σ:a. Pelaajalle valinnan A odotusarvoinen hyöty on ε 0+( 2ε) 0+ε 0 = 0, valinnan B ε 0+( 2ε) +ε 2 = ja valinnan C ε 0 + ( 2ε) 0 + ε 2 = 2ε <. Siis B on paras valinta pelaajalle. Vastaava tarkastelu voidaan tehdä pelaajalle 2, joten (B, B) on tärisevän käden tasapaino. Heikosti dominoitu strategia on sellainen, että jokin toinen strategia on kaikissa tilanteissa vähintään yhtä hyvä, ja joissain tilanteissa parempi. Kahden pelaajan äärellisessä pelissä strategiaprofiili on tärisevän käden tasapaino jos ja vain jos se on Nashin tasapaino ja kummankaan pelaajan strategia ei ole heikosti dominoitu. Tämä tulos ei päde useamman pelaajan peleissä. Tiedetään lisäksi, että jokaisessa äärellisessä strategisessa pelissä on tärisevän käden tasapaino. Tasapainostrategiat eivät välttämättä ole puhtaita strategioita. Tästä tuloksesta seuraa, että jokaisessa äärellisessä strategisessa pelissä on Nashin tasapaino, sillä tärisevän käden tasapaino on Nashin tasapaino. 3.2 Tärisevän käden tasapaino laajoissa peleissä Jos määritellään tärisevän käden tasapaino äärellisille laajoille peleille suoraviivaisesti, ei vaadita alipelitäydellisyyttä. Esimerkiksi kuvan 6 pelissä strategiaprofiili ((B, b), ) on ainoa alipelitäydellinen Nashin tasapaino. Strategiaprofiili ((A, a), ) on kuitenkin tärisevän käden tasapaino. Jos pelaaja 2 valitsee melkein aina, A on pelaajan paras vastaus. Jos pelaaja valitsee yleensä (A,a), ja (B,a) on paljon todennäköisempi kuin (B,b), on pelaajan 2 paras vastaus. atkaistaan tämä ongelma määrittelemällä tasapaino agenttimuodossa: Pelaaja korvataan usealla agentilla, yksi jokaista informaatiojoukkoa kohden. (Siis yksi jokaista pelitilannetta kohden, jossa on pelaajan vuoro.) Agentin saama hyöty on pelaajan saama hyöty, eli jokainen agentti pyrkii maksimoimaan pelaajan hyötyä. Nyt tärisevän käden tasapaino on strategiaprofiili, joka vastaa tärisevän käden tasapainoa

0 A B 2 A, a,, A, b,,, 0,2 a b B, a 0, 2 2, 0 B, b 0, 2 3, 3 2,0 3,3 Kuva 6: Tärisevän käden tasapainoon ei sisälly alipelitäydellisyyden ehtoa. alkuperäisen pelin (ei-laajassa) strategisessa muodossa. Tämän määritelmän mukaan ((A, a), ) ei ole tärisevän käden tasapaino, sillä pelaajan toisen agentin kannattaa aina valita b, riippumatta siitä, mitä muut tekevät. Tärisevän käden tasapainon käsitettä voidaan käyttää suoraviivaisesti myös epätäydellisen tiedon peleille. Esimerkiksi Seltenin hevonen -pelin kuvassa 4 esitetty Nashin tasapaino ei ole tärisevän käden tasapaino. Jos pelaajan käsi tärisee ja pelaajan 3 käsi tärisee vain vähän, olisi pelaajan 2 parempi valita d. Saman pelin kuvassa 5 esitetty Nashin tasapaino puolestaan on myös tärisevän käden tasapaino. Tämä voidaan todistaa asettamalla σ(d) ε = ε, σ2(d) ε = 2 ε/( ε) ja σ3() ε = β 3 (I)(), mikäli tämä on alle, ja σ3() ε = ε muutoin. Nyt σ ε :n määrittämät strategiat lähestyvät tarkasteltavia tasapainostrategoita, kun ε lähestyy nollaa. isäksi ne ovat aitoja sekoitteita. On vielä todettava, että jokaisen pelaajan tasapainostrategia on paras vastaus muiden pelaajien tärisevän käden strategioihin. Pelaajalle valinnan C odotusarvoinen hyöty on σ3() 3 ε < /4 3 = 3/4 ja valinnan D odotusarvoinen hyöty on ( σ2(d)) +σ ε 2(d) σ ε 3() 4 ε σ2(d) ε > 3/4 ainakin riittävän pienillä ε:n arvoilla. Pelaajalle 2 valinnan c hyöty on ja valinnan d odotusarvoinen hyöty on σ3() ε 4 < /4 4 =. Pelaaja 3:n on muodostettava uskomus siitä, millä todennäköisyyksillä historia on D, kun ollaan informaatiojoukossa I. Voidaan laskea: P(D I) = P(I D) P(D)/P(I) = σ(d)/(σ ε (D)+σ ε (C) σ ε 2(d)) ε = ε/(ε+( ε) 2/( ε) = /3. Edellä todettiin, että mikä tahansa pelaajan 3 käyttäytymisstrategia on optimaalinen, kun tämä uskomus on kiinnitetty. aajassa pelissä voi olla tärisevän käden tasapaino, jota ei ole pelin strategisessa muodossa. Kuvan 7 pelissä ((, r), ) on tärisevän käden tasapaino. Pelaaja 2:n

2, l 0, 0,, r 0, 0, l r, l 0, 0 0, 0, r,, 0,0, 0,0, Kuva 7: aajan pelin tärisevän käden tasapaino ei välttämättä näy strategisessa muodossa. kannattaa valita ja pelaaja :n toisen agentin kannattaa valita r. Jos heidän kätensä tärisevät suunnilleen samalla tavalla, pelaaja :n ensimmäiselle agentille ja ovat yhtä hyviä. Jos tarkastellaan strategisen muodon taulukkoa, ((, r), ) ei ole tärisevän käden tasapaino, sillä (, r) dominoi heikosti (, r):ää. Jos pelaajan 2 käsi tärisee, pelaajan kannattaa valita (,r) mieluummin kuin (,r). Näistä esimerkeistä näemme, että tärisevän käden tasapaino laajassa pelissä ja sen strategisessa muodossa eroavat toisistaan. Jotta saataisiin alipelitäydellisyyttä vastaava ehto, laajan pelin tasapaino on määriteltävä agenttimuodossa. Muuten eialipelitäydelliset strategiaprofiilit olisivat laajan pelin tasapainoja. isäksi laajan muodon tasapaino ei välttämättä ole tasapaino strategisessa muodossa. Tiedetään, että jokaisessa äärellisessä laajassa pelissä, jossa on täydellinen muisti, on tärisevän käden tasapaino. Jokaiselle tärisevän käden tasapainolle β on olemassa sellainen uskomus µ, että (β, µ) on peräkkäistasapaino. Näistä tuloksista seuraa, että jokaisessa äärellisessä laajassa pelissä on peräkkäistasapaino. Jokaisen peräkkäistasapainon (β,µ) käyttäytymisprofiili β ei kuitenkaan ole tärisevän käden tasapaino. 4 ähteet Martin J. Osborne ja Ariel ubinstein. A Course in Game Theory. The MIT Press, 994. uku 2, sivut 29 226 ja 246 253.