Peliteoria Strategiapelit ja Nashin tasapaino Sebastian Siikavirta sebastian.siikavirta@helsinki.fi Helsinki 11.09.2006 Peliteoria Tomi Pasanen HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos
Sisältö 1 Johdanto 1 2 Strategiapeli 1 3 Esimerkki strategiapelistä 3 4 Strategiapelit ja Nashin tasapaino 3 5 Esimerkkejä Nashin tasapainosta. 5 i
1 Johdanto Peliteoria on matematiikan osa-alue joka tutkii rationaalisten toimijoiden, pelaajien, toimintaa määritellyissä tilanteissa. Tällaisina tilanteina pelit ovat hyvä koeympäristö. Peleissä on tarkasti määritellyt säännöt sekä ennalta tiedetty päämäärä. Toimijoita peleissä kutsutaan pelaajiksi. Peliteorian peruskäsitteistöön kuuluu Nashin tasapaino(nash equilibrium). Nashin tasapaino on käsite tilanteelle joka esiintyy osassa strategiapelejä. Strategiapelillä tässä tarkoitetaan mallia interaktiivisesta päätöksenteosta. Tämä malli esittää useamman pelaajan toimintaa tarkoin rajatussa ympäristössä, missä toiminnan rajat sekä pelin päämäärä on tiedossa. Jos pelaajat toimivat rationaalisesti ja tietävät pelin säännöt, päämäärän ja rajoitteet, saattaa peli ajautua tilanteeseen jossa kenenkään ei kannata enää muuttaa strategiaansa. Tällainen tilanne on nimeltään Nashin tasapaino. Kukaan pelaajista ei hanki muuttamalla omaa strategiaansa, ellei joku toinen pelaaja muuta omaansa. Näin ei kuitenkaan tapahdu, sillä yksikään rationaalinen pelaaja ei muuta toimintaansa. Vaatimuksena on että pelaajien toiminta on itsekästä. Kukin pelaaja valitsee oman toimintansa yhtäaikaa muiden kanssa ja täysin muista riippumatta. Yhtäaikaa tarkoittaa että pelaajat saavat tiedon muiden pelaajien toimista vasta tehtyään omat valintansa. Lisäksi kaikkien muiden pelaajien tiedot tulevat yhtäaikaa. Pelaajat eivät saa muodostaa keskenään ryhmiä toisia pelaajia vastaan. Oletus on että kukin pelaaja pyrkii maksimoimaan oman tuottonsa tai menestymisen pelissä. Pelaaja voi olla ihminen, tekoäly, joukko ihmisiä, eläin, kasvi tai miltei mikä tahansa sääntöjä noudattava entiteetti. Näin yhdellekään pelaajalla ei ole tietoa muiden pelaajien valinnoista ennenkuin kaikkien pelaajien valinnat on tehty. Pelaaja voi tukeutua ainoastaan oletukseen pelin mallista ja muiden pelaajien rationaalisuuteen. Lisäksi pelaajalla saattaa olla tiedossa kuinka vastaavaa peliä on ennen pelattu. Toisaalta tässä artikkelissa esitellyissä tapauksissa oletetaan etteivät pelaajat käytä hyväkseen tietoa kuinka oma toiminta vaikuttaa muiden pelaajien tulevaan toimintaan, vaan pyrkivät vain maksimoimaan suoraan teosta aiheutuneen hyödyn. 2 Strategiapeli Tässä luvussa käydään tarkasti läpi mitä strategiapeli tarkoittaa peliteoriassa. Aluksi strategiapeli määritellään formaalisti. Lopuksi käydään vielä yleisesti läpi mitä määritelmä tarkoittaa ja mitä siitä seuraa. 1
Pelissä on äärellinen joukko N pelaajia. Jokaisella pelaajalla i on joukko A i mahdollisia tapoja toimia. Kaikkien pelaajien mahdollisuudet toimia ovat joukko A. Lopputulosta merkitään a = (a j ) : j N. Kaikkien pelaajien toiminnan lopputulos on joukkio A j : j N. Kunkin pelaajan i toimintaan vaikuttaa kaikkien pelaajien toiminnan mahdollisuus A, ei pelkästään omat mahdollisuudet A i. Jos pelaajien toimintaa vaikuttaisi vain pelaajan oman toiminnan mahdollisuudet A i ei peliä kutsuta strategiapeliksi vaan päätösongelmaksi. Strategiapeleissä jokaisen pelaajan toiminta sekä mahdollisuudet toimia vaikuttavat toisten pelaajien toimintaan. Strategiapelin tarkka määritelmä on yleinen. Se kattaa suuren määrän pelejä ja malleja. Määritelmä: Strategiapeli koostuu seuraavista asioista. äärellinen joukko N pelaajia i N : A i on sallittujen toimintojen joukko pelaajalle i. Jos A i on äärellinen, on peli ääreellinen. i N : järjestysrelaatio i A:ssa on j NA j määrittää toimenpiteen hyötyjen järjestyksen. Määritelmä on todella yleinen, jotta sopii monenlaisiin malleihin. Haittana on että nyt ei voida käyttää apuna minkään tietyn pelin ominaisuutta. Tällä tarkkuudella peleistä ei yleensä voida tehdä johtopäätöksiä, vaan tarvitsimme tarkemman mallin pelin määrittelyyn. Joskus pelaajien toiminnan mahdollisuudet on luonnollisempaa esittää pelaajien toimien seurauksina. Jotta mallia voidaan käyttää, pitää meidän liittää kukin teko sen seuraukseen. Merkitään kaikkien toimintojen seurauksien joukkoa C. Lisäksi määritellään että funktio g : A C liittää nyt jokaisen teon johonkin seuraukseen. Määritellään toimenpiteen hyödyn määrittelemä järjestysrelaatio i. Nyt a j i a k jos ja vain jos g(a j ) i g(a k ). Joskus teon seuraukseen vaikuttaa satunnaistapahtuma. Tätä satunnaistapahtumaa ei voi etukäteen ennustaa, mutta funktiossa g on otettava se huomioon. Jos satunnaistapahtumaa ei huomioida, eivät järjestysrelaatiot a j i a k ja g(a j ) i g(a k) ole enää välttämättä ekvivalenssit. Satunnaistapahtuma voidaan esittää strategiapelissä todennäköisyysavaruudella Ω ja funktiolla g : A Ω C. Nyt g(a, ω) on seuraus kun a A ja satunnaistapahtuma on ω Ω. Yleensä järjestysrelaatio on parempi kuvata pelaajan toimintojen seurausten sijasta hyötynä pelaajalle. Hyöty voidaan kytkeä toimintaan hyötyfunktiolla u i : A R. Pelaajan hyöty u i (a) u i (b) aina kun a i b. Yleensä peliä käsitellään järjestysrelaation sijasta hyötyfunktiolla. 2
t 1 t 2 t 1 1,2 2,4 t 2 1,2 2,4 Taulukko 1: Esimerkkipeli taulukkoesityksen läpikäymiseen. 3 Esimerkki strategiapelistä Tässä luvussa käymme läpi esimerkin strategiapelistä. Pelin aikana yhdistämme edellisen luvun formaalit merkinnät oikean pelin tapahtumiin. Äärellinen strategiapeli voidaan esittää taulukkona kuten Taulukko 1. Pelaajien mahdolliset toiminnat ovat vaaka- ja pystyakselien otsikot. Taulukon ruutu esittää pelaajien saamaa hyötyä toiminpiteestä. Pystysuoran toiminon valitsijan hyöty on ensimmäinen numero. Vaakasuoran toiminnon valitsijan hyöty on toinen numero. Taulukossa 1 esimerkiksi jos pystysuoran pelaaja valitsee toiminnan t 1 ja vaakasuoran pelaaja t 2, on lopputulos (2, 4). Tämä kertoo että vaakasuoran pelaajan saama hyöty on 2 ja pystysuoran pelaajan saama hyöty on 4. Taulukosta näemme että pelaajia on kaksi, siis N = 2. Pelissä oleva toiminnan mahdollisuus on valita joko toiminta t 1 tai toiminta t 2. Toiminnan mahdollisuus eri pelaajille on tässä pelissä ja kyseisessä tilanteessa sama molemmille pelaajille, siis A 1 = A 2. Tapana on ajatella pystysuoraan pelaajaa pelaaja 1:nä ja vaakasuoraan pelaajaa pelaaja 2:na. Siis yleisesti toiminnan mahdollisuus pelissä on A = A 1 A 2. 4 Strategiapelit ja Nashin tasapaino Tässä luvussa esittelen Nashin tasapainon tarkemmin. Aluksi esittelen Nashin tasapainon yleisesti ja tämän jälkeen määrittelen Nashin tasapainon formaalisti. Lopuksi käyn Nashin tasapainon läpi esimerkkien keinoin. Formaali määritys alkaa käytettyjen matemaattisten symbolien ja käsitteiden määrityksellä. Nashin tasapainoa voidaan sanoa vakaaksi tilaksi. Kullakin pelaajalla on oikeat oletukset muiden pelaajien käyttäytymisestä. Jokainen pelaaja myös käyttäytyy rationaalisesti. Nashin tasapaino ei ota kantaa miten tähän vakaaseen tilaan päädytään, se vain on määritelmä tälle tilanteelle. Määritelmä: Nashin tasapaino strategiapelissä. Nashin tasapaino strategiapelissä N, (A i ), ( i ) on tekojen mahdollisuus(profiili) a A 3
jolla on ominaisuus jokaiselle pelaajalle i N: (a i, a i ) i (a i, a i) : a i A. Joten jotta a olisi Nashin tasapaino, ei kellään pelaajalla ole toiminta mahdollisuutta siten että lopputulos olisi hänelle edullisempi kuin a i, jos jokainen pelaaja toimii rationaalisesti(oletus). Nashin tasapainon voi määritellä myös vastauksena muiden tekemiin siirtoihin. Määritellään että mille tahansa a i A i : B(a i) on joukko parhaita siirtoja pelaajalle i kun a i: B i (a i) = a i A : (a i, a i ) i (a i, a i ) a i A. Kutsutaan B i parhaan vastauksen funktioksi pelaajalle i. Nyt Nashin tasapaino on toiminnan mahdollisuuden joukko a tekoja joille: a i B i(a i) i N. Eli a i on pelaaja i:n paras vastaus muiden pelaajien siirtoihin. Jos tämä joukko siirtoja sisältää vain yhden alkion, voidaan Nashin tasapaino löytää tästä pelistä. Nyt pitää huomata ettei jokainen strategiapeli sisällä Nashin tasapainoa. Esimerkiksi tutussa kivi-paperi-sakset pelissä häviävän pelaajan kannattaisi aina vaihtaa oma valintansa. Ja tämän jälkeen toisen pelaajan. Jotta Nashin tasapainosta olisi käytännön hyötyä pelin strategian suunnitteluun, on meidän voitava jotenkin ennustaa onko pelissä Nashin tasapainoa. Kakutanin kiintopistelauseella(fixed point theorem) antaa ehdot millaisista peleistä löytyy Nashin tasapaino. Kakutanin kiintopistelause. Olkoon X epätyhjä, konveksi, rajoitettu ja suljettu euklidisen avaruuden alijoukko. Olkoon f : X X siten että: f(x) epätyhjä konveksi kaikilla x X f:n pitää olla suljettu Jos molemmat ehdot täyttyvät, niin pelissä on vähintään yksi Nashin tasapaino. 4
tunnustaa ei tunnusta tunnustaa 3,3 0,4 ei tunnusta 4,0 1,1 Taulukko 2: Vangin dilemma. Taulukossa epäiltyjen saamat tuomiot tunnustaessa. 5 Esimerkkejä Nashin tasapainosta. Tässä luvussa käyn läpi muutamia klassisia esimerkkejä Nashin tasapainon sisältävistä peleistä. Esitän kunkin pelin säännöt ja pelin edellä esiteltynä taulukkona. Lopuksi kuvaan mikä on Nashin tasapaino kyseisessä pelissä. Vangin dilemma. Kaksi epäiltyä joutuvat eri eristysselleihin. Jos molemmat tunnustavat, saavat molemmat kolme vuotta vankeutta. Jos toinen tunnustaa ja toinen ei, tunnustanut vapautetaan ja hän voi vierittää syyn toiselle, joka saa neljä vuotta vankeutta. Jos kumpikaan ei tunnusta, saavat molemmat todennäköisin perustein vankeutta yhden vuoden. Taulukossa 2 on esitetty tämä peli vangin saaman tuomion suhteen. Vangit siis pyrkivät minimoimaan oman tuomionsa. Nashin tasapaino pelissä on että molemmat tunnustavat. Tämän jälkeen kummankaan ei ole viisasta vaihtaa omaa kantaansa, sillä se merkitsisi vuotta lisää vankeutta. Oletetaan tilanne jossa toinen olisi valinnut tunnustavansa ja toinen ei. Tämä ei ole Nashin tasapaino, sillä hänen joka ei tunnustanut kannattaa vaihtaa oma kantansa tunnustukseksi. Viimeinen vaihtoehto olisi että molemmat olisivat päättäneet tunnustaa. Myöskään tämä ei ole Nashin tasapaino, sillä molempien kannattaisi vaihtaa tunnustuksensa ei tunnustukseksi. Tässä myös näemme että Nashin tasapaino ei välttämättä ole edullisen vaihtoehto pelaajille. Jos molemmat olisivat valinneet olematta tunnustamatta, olisi heidän yhteensä saama tuomio, 1+1=2 vuotta, ollut pienempi kuin 0+4=4 vuotta. 5
Viitteet [1] A Course in Game Theory, Martin J. Osborne & Ariel Rubinstein, MIT Press 1994 6