Epätäydellisen tiedon jatkuvat pelit Mika Viljanen Helsinki 4..2006 Peliteorian seminaari HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos
Sisältö Johdanto 2 Epätäydellisen tiedon jatkuva peli 2. Jatkuvan pelin formaali määritelmä...2 2.2 Informaatio ositus ja informaatio osio...3 2.3 Täydellinen ja epätäydellinen muisti...4 2.4 Epätäydellisen tiedon jatkuvan pelin suhde muihin peleihin...6 3 Jatkuvien pelien ekvivalenssin periaatteet 7 3. Paisuttamis supistamisperiaate...8 3.2 Tarpeettoman siirron lisäämisen periaate...9 3.3 Siirtojen sulauttamisen periaate... 3.4 Siirtojen keskinäisen vaihdon periaate...2 4 Strategiat jatkuvissa peleissä 3 4. Sekastrategia ja käyttäytymisstrategia jatkuvissa peleissä...3 4.2 Nashin tasapaino jatkuvissa peleissä...6 5 Lähteet 7
Johdanto Tutkielmani käsittelee epätäydellisen tiedon jatkuvia pelejä (extensive games with imperfect information). Tällaisissa peleissä pelaajilla ei luonnollisestikaan ole tietoa muiden pelaajien tulevista siirroista, mutta heillä saattaa olla puutteellista tietoa myös pelin aiemmista vaiheista. Pelaaja voi olla epätietoinen paitsi siitä, minkä toiminnon joku toinen pelaaja on jossain aiemmassa vaiheessa peliä valinnut, myös siitä, onko tämä vielä ylipäätään tehnyt siirtoaan. Lisäksi pelaaja on saattanut unohtaa omia aiempia siirtojaan. Luvussa 2 esitän epätäydellisen tiedon jatkuvan pelin formaalin määritelmän ja kerron, kuinka se suhtautuu muihin peleihin. Pureudun myös epätäydellisen tiedon pelien erityisominaisuuksiin. Luvussa 3 esittelen neljä periaatetta, joiden mukaan pelejä voidaan muuttaa niiden perusluonteen pysyessä kuitenkin samana. Luvussa 4 esittelen jatkuvien pelien seka ja käyttäytymisstrategiat. Tutkielma perustuu Osbornen ja Rubinsteinin kirjaan A Course in Game Theory [OsR94] lukuun ottamatta kohtia, joissa jokin toinen lähde on erikseen mainittu. Tutkielman on tarkoitus kattaa kirjan luku kokonaisuudessaan. 2 Epätäydellisen tiedon jatkuva peli Epätäydellisen tiedon jatkuva peli määritellään formaalisti hyvin samalla tavalla kuin täydellisen tiedon jatkuva peli, mutta epätietoisuus menneistä siirroista aiheuttaa määrittelyyn pienen muutoksen. Huomattavaa on, että tämä määritelmä määrittelee jatkuvat pelit yleisesti; täydellisen tiedon jatkuvat pelit ovat siis jatkuvien pelien ja samalla oikeastaan myös epätäydellisen tiedon jatkuvien pelien osajoukko. Tätä suhdetta selvennän luvussa 2.4. Olen käyttänyt suomenkielistä termiä jatkuva peli kurssilla aiemmin käytetyn termin laaja peli sijasta, sillä (vasta) kirjan luvussa esitetyn tarkan määritelmän mukaan kyseessä on peli, jossa pelaajien vuorot seuraavat toisiaan. Valinnat ovat siis peräkkäisiä, ja sama pelaaja voi saada useita siirtovuoroja pelin aikana. Mielestäni termi jatkuva kuvaa tätä ominaisuutta aiempaa termiä selkeämmin.
2. Jatkuvan pelin formaali määritelmä Jatkuvien pelien formaali määritelmä on muotoa N, H, P, f c, i i N, i i N jossa N on pelaajien joukko. H on historioiden (siirtojen mukaisessa järjestyksessä oleva) joukko s.e. Tyhjä joukko kuuluu joukkoon H. Käytännössä tämä vastaa pelin alkutilaa. Jos a k k=,..., K H (missä K voi olla ääretön) ja L < K niin a k k=,..., L H. Jokaisen historiajoukon aito osajoukko kuuluu siis myös historioiden joukkoon. Jos ääretön joukko a k k= toteuttaa ehdon a k k=,..., L H jokaisella positiivisella kokonaisluvulla L, niin a k k= H. Jos historiaa h seuraavien mahdollisten siirtojen 2 joukko A(h) on tyhjä, kutsutaan kyseistä historiaa lopulliseksi (terminal history). Lopullisten historioiden joukkoa merkitään symbolilla Z. P on pelaajafunktio, joka määrittelee jokaiselle ei lopulliselle historialle (H \ Z) seuraavaksi toimintavuorossa olevan pelaajan joukosta N {c }. Jos P(h) = c, seuraava toiminto on satunnainen. f c on funktio, joka määrittelee jokaiselle sellaiselle historialle h, jossa P(h) = c, todennäköisyyden f c h joukon A(h) alkioille. Täten esimerkiksi f c a h määrittelee toiminnon a Ah todennäköisyyden, kun tähänastinen historia on h. i on kunkin pelaajan i N informaatio ositus (information partition) joukossa {h H : Ph=i} eli niissä tilanteissa, joissa on pelaajan i vuoro toimia. Informaatioosituksen määritelmän mukaan A(h) = A(h'), kun h ja h' ovat osituksen samassa informaatioosiossa (information set) I i. Palaan tähän määrittelyyn luvussa 2.2 esimerkin kera. 2 Termit siirto ja toiminto ovat tutkielmassa vaihdettavissa keskenään, ja tarkoittavat siis samaa asiaa. Myös lähdeteoksessa termejä move ja action käytetään vastaavasti. 2
i on kunkin pelaajan i N suosituimmuusrelaatio (preference relation) joukossa Z, eli pelin lopputiloissa. Relaatio voidaan esittää pelaajan saaman hyödyn oletusarvona kussakin lopputilassa. Oletusarvot lasketaan arvontojen (lotteries) tuloksina lopullisten historioiden joukossa, sillä sattuman vaikutus täytyy ottaa laskennassa huomioon, vaikka kaikki pelaajat toimisivatkin deteministisesti. Jatkuvan pelin määritelmää muodossa N, H, P, f c, i i N eli ilman suosituimmuusrelaatiota kutsutaan jatkuvan pelin muodoksi (extensive game form). Yleensä jatkuvat pelit esitetään toimintopuuna, jossa lopulliset historiat ovat lehtisolmuja, kun strategisessa muodossa (tai normaalimuodossa, normal form) peli esitetään toimintojen matriisina [Wik06]. 2.2 Informaatio ositus ja informaatio osio Epätäydellisen tiedon jatkuvan pelin määritelmä eroaa täydellisen tiedon jatkuvan pelin määritelmästä informaatio osituksen osalta. Keskityn nyt tähän eroon ja havainnollistan ositusta käytännössä esimerkin avulla. Tarkempi vertailu pelityyppien välillä seuraa luvussa 2.4. Kuvassa on esimerkki yksinkertaisesta kahden pelaajan pelistä, jonka alkutilanteessa pelaaja on valinnut jonkin neljästä mahdollisesta toiminnostaan {a,b,c,d} [Dan06, muokattu]. Katkoviiva pelaajan 2 kahden oikeanpuoleisimman päätöstilanteen välillä ilmaisee, että jos pelaaja on valinnut toiminnon c tai d, pelaaja 2 (numero katkoviivan päällä kertoo siirtovuorossa olevan pelaajan) ei pysty erottamaan, kummassa tilassa peli on. Siirtojen a ja b jälkeen pelaaja 2 sen sijaan tietää pelin tarkan tilan. a b c d 2 2 2 Kuva : Yksinkertainen kahden pelaajan peli [Dan06, muokattu] 3
Tässä tilanteessa pelaajan 2 informaatio ositus 2 on ({a}, {b}, {c,d}). Jos pelaaja nyt tekee toisen siirroista {c,d}, ovat molemmat historiat samassa informaatio osiossa I 2 = {c,d}, I 2 2. On tärkeää huomata, että nyt täytyy päteä A I 2 = A B3= A B4={, } eli pelaajalla 2 täytyy olla samat toimintavaihtoehdot molemmissa tiloissa, jotka kuuluvat samaan informaatio osioon. Muuten pelaaja pystyisi päättelemään oikean tilan toimintavaihtoehtojensa perusteella. Luonnollisesti täytyy päteä myös P(h) = P(h') kaikilla h, h' I i eli kaikilla informaatio osioon kuuluvilla historioilla toimintavuoron täytyy olla samalla pelaajalla. Usein pelaajafunktion arvoa osiossa merkitäänkin notaatiolla P I i. Informaatio ositus ja osio ovat tärkeitä käsittetä jatkuvan pelin pelaajan strategian kannalta. Pelaajan i N puhdas strategia (pure strategy) voidaan jatkuvissa peleissä määritellä funktiona, joka määrittelee toiminnon joukosta AI i jokaiselle informaatio osiolle I i i. Kuten puhtaissa strategioissa yleensäkin, tässä ei oteta huomioon toimintoja, jotka pelaaja saattaa valita ainakin osittain satunnaisesti. Näihin palaan luvussa 4. 2.3 Täydellinen ja epätäyd ellinen muisti Koska epätäydellisen tiedon peleissä pelaaja saattaa olla epätietoinen paitsi toisten pelaajien siirroista myös aiemmista omista siirroistaan, on syytä määritellä näiden tilanteiden ero. Täydellisellä muistilla (perfect recall) tarkoitetaan pelaajan kykyä muistaa kaikki se, minkä hän on tiennyt joskus aiemmin pelin aikana. Koska pelaaja ei välttämättä ole pystynyt tekemään eroa samassa informaatio osiossa olevien historioiden välillä, tarkoittaa muisti tässä sitä, että pelaaja muistaa kaikki kohtaamansa informaatio osiot ja niissä tekemänsä siirrot. Jos tätä muistia merkitään X i h pelaajalle i, pätee siis X i h=x i h', kun h ja h' ovat pelaajan i samassa informaatioosiossa. Pelejä, joissa kaikilla pelaajilla on täydellinen muisti, kutsutaan täydellisen muistin peleiksi (games with perfect recall). 4
Epätäydellisen muistin peleissä pelaajat saattavat puolestaan unohtaa omia siirtojaan. Yksinkertainen esimerkki tällaisesta tilanteesta on kuvassa 2. Siinä pelaaja on unohtanut, onko hän jo tehnyt siirron vai ei. Näin ollen hänen täytyy tehdä päätös kahden mahdollisen toiminnon välillä tietämättä, mihin tilaan tarkalleen päätyy. Toisaalta nykyisten toimintovaihtoehtojen perusteella on selvää, ettei hän ole valinnut pelin lähtötilanteessa puussa oikealle vievää toimintoa. Kuva 2: Epävarmuus mahdollisesti tehdystä siirrosta Kuvassa 3 on hieman erilainen tilanne. Pelaaja muistaa tehneensä jo yhden siirron, muttei muista, kumman kahdesta mahdollisesta toiminnosta valitsi. Kuva 3: Epätietoisuus kahden siirron välillä Kuvassa 4 pelaaja muistaa viimeisen siirtonsa (), mutta on unohtanut aiemmin pelin alussa tapahtuneen sattuman vaikutuksen. Mielenkiintoista tilanteessa on se, että pelaaja on ennen edellistä toimintoaan ollut tietoinen sattuman aiheuttamasta suunnasta, mutta on sittemmin unohtanut sen. Kuva 4: Sattuman vaikutuksen unohtaminen 5
2.4 Epätäyd ellisen tiedon jatkuvan pelin suhde muihin peleihin Epätäydellisen tiedon jatkuvat pelit rinnastuvat kaikkiin jatkuviin peleihin yleisesti, ja täydellisen tiedon jatkuvia pelejä voidaan pitää näiden osajoukkona. Intuitiivisesti tämä ei ole välttämättä aivan selvää, joten suhdetta kannattaa tarkastella lähemmin. Epätäydellisen tiedon peleissä epätietoisuus seuraa siitä, että pelaajalle on jossain pelin vaiheessa epäselvää, mikä historia on johtanut senhetkiseen tilanteeseen. Formaalisti tämä tarkoittaa sitä, että tässä pelin vaiheessa pelaajan informaatio osituksessa on osio, jossa on useita historioita. Kuvassa esitetyn esimerkin tapauksessa historiat olivat c ja d, siis formaalisti c, d I i i. Täydellisen tiedon peleissä tällaista epätietoisuutta ei ole vaan pelaaja tietää aina historian, joka on johtanut nykyiseen tilanteeseen. Formaalisti peli voidaan tällöin ajatella epätäydellisen tiedon pelinä, jossa yhdenkään pelaajan informaatio osituksen mikään osio ei ikinä sisällä kuin yhden alkion. On syytä huomioida myös se, että vaikka pelaaja ei epätäydellisen tiedon pelissä näkisikään toisen pelaajan siirtoa, hän saattaa pystyä päättelemään sen pelaajan aiemman käytöksen tai jonkin muun seikan perusteella, ja päätellä näin tarkan historian informaatio osion historioiden joukosta. Vaikka määritelmän mukaan jatkuvassa pelissä pelaajat eivät tee siirtojaan samanaikaisesti, myös samanaikaisista siirroista muodostuva peli voidaan ajatella epätäydellisen tiedon jatkuvan pelin erityistapauksena. Tällöin voidaan ajatella, että pelaajat eivät ole tietoisia muiden pelaajien samalla vuorolla (jolla ymmärretään tässä useita peräkkäisiä siirtoja, kunnes jokainen pelaaja on siirtänyt tasan kerran) tekemistä siirroista, ennen kuin vuoron viimeinen pelaaja on tehnyt siirtonsa. Esimerkiksi kahden pelaajan pelissä pelaaja 2 ei näkisi pelaajan siirtoja ikinä ennen kuin on tehnyt omankin siirtonsa. Pelaaja voisi toisaalta aina havainnoida pelaajan 2 siirron, ellei sattuma vaikuttaisi vielä tämän jälkeen pelin tilaan. 6
3 Jatkuvien pelien ekvivalenssin periaatteet Osbornen ja Rubinsteinin mielestä jatkuvat pelit saattavat strategisesti ajatellen mallintaa samaa tilannetta, vaikka ne formaalisti olisivatkin erilaisia. Esimerkiksi he antavat kuvan 5, jossa on kaksi formaalisti erilaista peliä, jotka kuitenkin heidän mielestään saattavat mallintaa samaa tilannetta. On helppo huomata, että pelit ovat formaalisti erilaiset; toisessa (a) pelaaja tekee kaksi toimintoa, toisessa (b) vain yhden. Pelien lopulliset historiat ovat kuitenkin samat. ¹ ² (a) ³ ¹ ² ³ (b) Kuva 5: Kaksi erilaista peliä, jotka mallintavat mahdollisesti samaa tilannetta Kirjan kirjoittajat esittelevät neljä periaatetta, joiden mukaisesti muokattuina pelit säilyttävät supistetun strategisen muotonsa (reduced strategic form) ja ovat sen perusteella ekvivalentteja. He kuitenkin huomauttavat, että jos pelin ratkaisuperuste ei pohjaudu supistettuun strategiseen muotoon, voivat pelien lopputulokset muuttua näiden operaatioiden takia. Käsittelen seuraavaksi periaatteet yksi kerrallaan. Jokainen niistä lähtee liikkeelle samasta kuvan 6 pelistä. 2 A B ' ' ' ' o o 2 o 3 o 4 o 5 o 6 Kuva 6: Vertailupeli 7
3. Paisuttamis supistamisperiaate Kuvassa 7 esitetty peli 2 on paisuttamis supistamisperiaatteen (inflation deflation principle) mukaisesti pelistä muokattu versio. Kuten kaikki tässä luvussa esitetyt pelit, se on Osbornen ja Rubinsteinin käyttämän määritelmän mukaan ekvivalentti pelin kanssa. 2 o o 2 o 3 o 4 o 5 o 6 Kuva 7: Paisuttamis supistamisperiaatetta soveltaen saatu peli 2 Pelien erona on, että pelissä 2 pelaajalla on epätäydellinen muisti; hän toisella toimintovuorollaan hän ei enää muista, minkä toiminnon valitsi pelin alussa. Toisin sanoen historiat,, ja, ovat kaikki samassa informaatio osiossa pelissä 2, kun pelissä historia oli omassa osiossaan ja historiat, ja, keskenään toisessa. Oman intuitioni mukaan nämä pelit ovat melko selvästi erilaisia. Osbornen ja Rubinsteinin mukaan väitetty ekvivalenssi voi kuitenkin pitää paikkansa, mikäli epätäydellisen tiedon tulkintaa muutetaan hieman. Alkuperäinen tulkinta oli se, että pelaaja olisi unohtanut aiemman toimintonsa eikä voisi käyttää sitä pohjana tulevissa toiminnoissaan. Vaihtoehtoisen tulkinnan mukaan informaatio osiot voisivat kuitenkin olla pelin rakenteen kannalta oleellisia tietoja kuljetusta historiasta, ja pelaajilla olisi mahdollisuus suorittaa päättelyä, jonka avulla he voisivat selvittää oikean historian saman osion useiden historioiden joukosta. Tämä tulkinta johtaa siihen, että pelaajat muistavatkin aina aiemmin tekemänsä toiminnot eivätkä unohda niitä ikinä. Ekvivalenssi pätee siis toisen tulkinnan mukaan tässä tapauksessa, koska pelaaja osaa itse joka tapauksessa päätellä oikean historian ja siten palauttaa pelin 2 peliin 2. Tämän tulkinnan 8
mukaan peliä 2 ei tosin voi enää kutsua epätäydellisen muistin peliksi. Informaatio osiot antavat kyllä tässäkin tapauksessa epätäydellisen kuvan tilanteesta, mutta pelaajien oma päättely korvaa nämä puutteet. Formaalisti määriteltynä tässä periaatteessa pelien ja ' ekvivalenssi pätee, jos pelit eroavat toisistaan vain siten, että jollain pelaajalla i on pelissä informaatio osio, joka on saman pelaajan informaatio osioiden yhdiste pelissä ', ja tämän yhdisteen eri osissa sijaitsevilla historioilla h ja h' on osahistoriat pelaajan i samassa informaatio osiossa ja pelaajan toiminto tässä osiossa on eri historioissa h ja h'. Esimerkiksi tästä Osborne ja Rubinstein antavat kuvien 6 ja 7 pelit siten, että = 2, ' = ja i =. 3.2 Tarpeettoman siirron lisäämisen periaate Toinen kirjassa esitetty periaate on tarpeettoman siirron lisäämisen periaate (principle of addition of a superfluous move). Kuva 8 havainnollistaa siirron lisäämistä. Tästä esimerkistä on helppo nähdä, että mikäli pelaaja valitsee aluksi toiminnon, ei pelaajan 2 valitsemalla toiminnolla ole merkitystä, koska valintaa seuraavat tilat ovat identtiset. Näin ollen pelaajan 2 kannattaa olettaa ensimmäisen pelaajan valinneen toiminnon ja tehdä päätös omasta valinnastaan vain sen perusteella. Strategisesti tämä peli on siis identtinen kuvan 6 pelin kanssa. 2 o o 2 o o 2 o 3 o 4 o 5 o 6 Kuva 8: Tarpeettoman siirron lisäämisen periaatetta käyttäen saatu peli 3 9
Formaalisti tämä periaate esitetään seuraavasti. Olkoon jatkuva peli, P(h) = i ja a Ah. Oletetaan, että mille tahansa historialle h' joka seuraa historiaa (h, a) ja mille tahansa b Ah pätee h,a,h' H jos ja vain jos h,b,h' H ja (h, a, h') on lopullinen historia jos ja vain jos (h, b, h') on lopullinen historia. Jos sekä (h, a, h') että (h, b, h') ovat lopullisia historioita, niin h,a,h' ~ i h, b, h ' kaikilla i N. Jos (h, a, h') tai (h, b, h') eivät kumpikaan ole lopullisia historioita, niin ne ovat samassa informaatio osiossa. ja peli ' eroaa pelistä vain niin, että kaikki historiat muotoa (h, c, h'), c Ah on korvattu historialla (h, h') jos pelin informaatio osiossa I i, johon h kuuluu, on useita alkioita, pelissä ' historia h ei esiinny informaatio osiossa I i pelaaja, jonka vuoro on pelissä ' historialla (h, h'), on vuorossa myös pelissä historialla (h, a, h') (h, h') ja (h, h'') ovat samassa informaatio osiossa pelissä ' jos ja vain jos h, a, h ' ja (h, a, h'') ovat samassa informaatio osiossa pelissä pelaajien suosituimmuusrelaatioita muokataan vastaamaan toisiaan. Kannattaa huomata, että formaalissa esityksessä pelissä on tarpeeton siirto, jonka poistolla saadaan peli '. Periaatteen nimi saattaa olla harhaanjohtava, jos pelejä ajattelee näin päin. Esimerkkinä pelin muokkauksesta toiseksi voidaan pitää kuvia 6 ja 8 siten että = 3,' =,i = 2,h = ja a on pelaajan 2 toiminto. 0
3.3 Siirtojen sulauttamisen periaate Periaatteista kolmas, siirtojen sulauttamisen periaate (principle of coalescing of moves), on intuitiivisesti melko selvä. Siinä yhdistetään useampia saman pelaajan peräkkäisiä siirtoja. Esimerkki tästä nähdään kuvassa 9, joka sekin on muokattu kuvan 6 pelistä perimmäinen strategia säilyttäen. Perusteluna strategian säilymiselle on, että pelissä valitessaan ensimmäiseksi siirrokseen pelaaja on joka tapauksessa rationaalisuuden perusteella verrannut pelin lopputiloista saamiaan hyötyjä siirrosta seuraavien lopputilojen hyötyihin. Hän on siis joutunut päättämään jo myös sen, valitseeko seuraavana toimintonaan siirron A vai B. Näin nämä kaksi päätöstä on yhdistetty yhteen valintatilanteeseen, jossa valitaan kerralla alkuperäisen pelin kaksi peräkkäistä toimintoa. A B 2 o o 2 o 3 o 4 o 5 o 6 Kuva 9: Siirtojen sulauttamisen periaatetta käyttäen saatu peli 4 Formaalisti periaate määritellään seuraavasti. Olkoon peli, ja P(h) = i ja h I i. Olkoon a A I i ja oletetaan, että I i ' = { h', a :h ' I i } on pelaajan i informaatio osio. Olkoon peli ' sellainen peli, joka eroaa pelistä vain siten, että informaatio osio I i ' poistetaan, kuten myös historia (h', a) kaikille h' I i, ja jokainen historia (h', a, b, h'') missä b Ah ', a korvataan historialla (h', ab, h''), missä ab on uusi toiminto kun ab Ah ' ja pelaajien informaatio osiot ja suosituimmuusrelaatiot sekä pelaajafunktio päivitetään vastaamaan uutta tilannetta. Esimerkiksi annettujen kuvien tapauksessa siis =, ' = 4, h =, i = ja a =.
3.4 Siirtojen keskinäisen vaihdon periaate Viimeinen neljästä periaatteesta on siirtojen keskinäisen vaihdon periaate (principle of interchange of moves). Tämän periaatteen ajatus on, että siirtojen järjestys on merkityksetön, jos siirtovuorossa oleva pelaaja ei tiedä toisen pelaajan siirtoa. Tällöin toimintojen voidaan periaatteessa ajatella olevan samanaikaisia, kuten luvussa 2.4 esitin. Kuvassa 0 esitetty peli 5 on muuten samanlainen kuin peli, mutta pelaajien pelaajan ensimmäisen siirron jälkeen pelaajien siirtovuoroja on vaihdettu. Ekvivalenssin kannalta oleellista on, että epätietoisuus toisen pelaajan siirrosta on molemmissa tapauksissa myöhemmin toimivalla pelaajalla. A B ' 2 ' o o 2 o 3 o 4 o 5 o 6 Kuva 0: Siirtojen keskinäisen vaihdon periaatetta käyttäen saatu peli 5 Formaalisti tämän periaatteen määrittely on seuraava. Olkoon peli jatkuva ja olkoon h I i. Oletetaan, että kaikille informaatio osion I i osajoukon H' historioille h' pelaajaa i siirtovuorossa seuraava pelaaja j on epätietoinen pelaajan i siirrosta tilanteessa h'. Eli h ', a I j kaikilla h ' H ' ja a Ah '. Informaatio osio I j saattaa sisältää myös muita historioita. Olkoon H'' osion I j osajoukko, joka koostuu historioista muotoa (h', a) jollekin h ' H '. Tällöin on ekvivalentti sellaisen pelin kanssa, jossa jokainen historia tyyppiä (h', a, b), h ' H ' on korvattu historialla (h', b, a), pelaajan i informaatio osio I i on korvattu joukon I i H ' ja kaikkien muotoa (h', b) olevien historioiden yhdisteellä, kun h ' H ' ja b Ah ', a, ja pelaajan j informaatioosio I j on korvattu yhdisteellä I j H ' ' H '. Esimerkkikuvissa siis =, '= 5, h =,i = 2, j =, H ' =I 2 = { } ja H ' ' = I = {,,, }. 2
4 Strategiat jatkuvissa peleissä Jatkuvien pelien puhdas strategia määriteltiin informaatio osituksen yhteydessä luvussa 2.2 funktiona, joka määrittelee toiminnon joukosta A I i jokaiselle informaatio osiolle I i i. Puhdas strategia ei kuitenkaan määrittele tilanteita, joissa pelaaja toimii edes osittain satunnaisesti. Näiden tilanteiden käsittelyyn tarvitaan kaksi muuta strategiamäärittelyä. 4. Sekastrategia ja käyttäytymisstrategia jatkuvissa peleissä Pelaajan i sekastrategia (mixed strategy) jatkuvassa pelissä N, H, P, f c, i i N, i i N on kyseisen pelaajan puhtaiden strategioiden todennäköisyysjakauma. Pelaajan i käyttäytymisstrategia (behavioral strategy) määritellään puolestaan joukkona i I i I i i itsenäisiä todennäköisyyksiä, missä i I i on joukon AI i toiminnoille. Kaikille historioille h I i i ja toiminnoille a Ah merkitään notaatiolla i ha todennäköisyyttä i I i a, jonka i I i määrittelee toiminnolle a. Käyttäytymisstrategia siis määrittelee todennäköisyydet yksittäisille toiminnoille informaatio osion sisällä. Pelaaja voi siis valita toiminnon kahdella eri tavalla satunnaisesti; hän voi valita satunnaisesti jonkin puhtaan strategian tai suunnitella jokaiselle toimintovuorolleen todennäköisyysjakauman kaikille mahdollisille toiminnoille. Näiden lähestymistapojen eroja voi tarkastella käyttäen apuna kuvaa. Tässä pelissä pelaajalla on kaksi informaatio osiota { } ja { L, A, L, B}, joissa A 2 L B R 2, 0, 0, 2, 2 0, 0 Kuva : Yksinkertainen peli hyötyarvojen kanssa 3
molemmissa hänellä on kaksi mahdollista toimintoa ( A ={L, R} ja AL, A = A L,B = {, } ). Pelaajalla on tässä tapauksessa neljä puhdasta strategiaa: L, L, R ja R. Tällöin hänen sekastrategiansa määrittelee todennäköisyydet näille neljälle strategialle. Toisaalta pelaajan käyttäytymisstrategia määrittelee tässä tilanteessa kaksi todennäköisyysjakaumaa, yhden toimintoparille {L, R} ja toisen parille {, }. Sekä seka että käyttäytymisstrategioille voidaan määritellä profiilin = i i N seuraus (outcome) O, joka kertoo lopullisten historioiden todennäköisyydet, kun pelaaja i seuraa profiilia i. Äärelliselle pelille tämä määritellään seuraavasti. Mille tahansa historialle h = a,..., a k pelaajan i puhdas strategia s i on johdonmukainen (consistent), jos jokaiselle historian h osahistorialle a,..., a l, jolle P a,..., a l = i pätee s i a,..., a l = a l. Olkoon mille tahansa historialle h kaikkien profiilin i puhtaiden strategioiden, jotka ovat johdonmukaisia historian h kanssa, todennäköisyyksien summa i h. Tällöin mille tahansa sekastrategiaprofiilille todennäköisyys, jonka O antaa jollekin lopulliselle historialle h, on i N {c} i h. Mille tahansa käyttäytymisstrategialle todennäköisyys, jonka O antaa lopulliselle historialle h = a,...,a K K on Pa k = 0,...,a k a,...,a k a k. Kaksi (joko puhdasta tai käyttäytymis ) strategiaa ovat seurauksen suhteen ekvivalentteja (outcomeequivalent), jos niiden seuraus on sama kaikilla muiden pelaajien puhtaiden strategioiden joukoilla. On osoitettavissa, että kaikissa täydellisen muistin peleissä jokaiselle sekastrategialle löytyy seurauksen suhteen ekvivalentti käyttäytymisstrategia (sivuutan todistuksen tässä). Toisaalta epätäydellisen muistin peleissä tämä tulos ei päde. 4
Kuvan 2 peli on esimerkki tilanteesta, jossa lopullisten historioiden todennäköisyydet ovat seka ja käyttäytymisstrategioilla erilaiset. Tässä pelissä on epätäydellisen tiedon takia vain yksi informaatio osio, joka sisältää historiat {, a}. Molemmissa tilanteissa pelaajalla on kaksi toimintavaihtoehtoa, a ja b. Pelaajan puhtaat strategiat ovat siis valita aina a tai valita aina b. Sekastrategian määritelmän mukaan pelaaja valitsee satunnaisesti toisen näistä strategioista ja käyttää sitä koko pelin ajan. Näin ollen peli päätyy lopulta aina jompaan kumpaan lopullisista historioista {(a,a), b}. Toisaalta pelaaja voi valita käyttäytymisstrategian, jossa toiminnon a todennäköisyys p on välillä [0,]. Tällöin pelin kolme mahdollista lopullista historiaa ovat (a,a), (a,b) ja b, ja niiden todennäköisyydet p2, p p ja p. Sekastrategialla ei siis voida saavuttaa loppuhistorioiden todennäköisyysjakaumaa, joka käyttäytymisstrategialla saavutetaan. a a b b 0 0 Kuva 2: Peli, jossa sekastrategialla ei saada samoja lopullisten historioiden todennäköisyysjakaumaa kuin käyttäytymisstrategialla Sama ongelma on strategioiden ekvivalenssissa toiseenkin suuntaan; sekastrategialla voidaan saada loppuhistorioiden todennäköisyysjakauma, jota ei voida toteuttaa millään käyttäytymisstrategialla. Kuvassa 3 on esimerkki tällaisesta pelistä. Sekastrategialla, jossa molempien puhtaiden strategioiden valintatodennäköisyys on 2, ovat neljän lopullisen historian ((LL), (LR), (RL), (RR)) todennäköisyydet 2, 0, 0, 2. Käyttäytymisstrategialla, jossa toiminnon L todennäköisyys on p, ovat vastaavien lopullisten historioiden todennäköisyydet p 2, p p, p p, p 2. Jotta historioiden {(LR), (RL)} todennäköisyydet nyt olisivat 0, täytyy todennäköisyyden p arvo olla joko 0 tai. Jos p = 0, myös historian (LL) todennäköisyys on 0, ja jos p =, on historian (RR) 5
todennäköisyys 0. Millään p:n arvolla ei siis voida saada samaa jakaumaa kuin mainitulla sekastrategialla. Kuva 3: Peli, jossa käyttäytymisstrategialla ei saada samoja lopullisten historioiden todennäköisyysjakaumaa kuin sekastrategialla 4.2 Nashin tasapaino jatkuvissa peleissä Nashin tasapaino sekastrategioille on sekastrategiaprofiili, jolle pätee kaikilla pelaajilla i N O * i, * i i O * i, i jokaiselle pelaajan i sekastrategialle i. Nashin tasapaino käyttäytymisstrategioille määritellään vastaavasti. Määritelmät ovatkin ekvivalentteja täydellisen muistin peleissä. Epätäydellisen muistin peleissä tämä ei enää pidä paikkaansa. Esimerkiksi kuvan 2 pelissä molempien sekastrategioiden saavuttama hyöty on 0 (mahdolliset lopulliset historiathan olivat (a,a) ja b). Valitsemalla optimaalinen käyttäytymisstrategia, jossa toiminnon a todennäköisyys p = 2, on hyödyn oletusarvo kuitenkin p 2 0 p p p 2 0 = 4. Jatkuvien pelien kannalta Nashin tasapaino ei ole aina hyvä mittari, minkä takia niille lasketaan usein parempi mittari, alipelin täydellinen tasapaino. Täydellisen tiedon peleissä alipelin täydellisen tasapainon laskenta on melko suoraviivaista, mutta jatkuvien pelien yleisessä tapauksessa se on paljon hankalampaa, eikä sitä käsitellä tässä yhteydessä. 6
5 Lähteet Dan06 Dang, T., TWiki Game Theory Information, 2006. http://www.midwest itc.org/wiki/bin/view/gametheory/information [2..2006] OsR94 Osborne, M. J. ja Rubinstein, A., A Course in Game Theory. The MIT Press, Cambridge, Massachusetts, 994. Sivut 97 28. Wik06 Wikipedia: Game theory, 2006. http://en.wikipedia.org/wiki/game_theory [2..2006] 7