Peliteoria Strategiapelit ja Nashin tasapaino. Sebastian Siikavirta sebastian.siikavirta@helsinki.fi



Samankaltaiset tiedostot
Strategiapelit ja Nashin tasapaino. Esitta ja : Sebastian Siikavirta

Nollasummapelit ja bayesilaiset pelit

Epätäydellisen tiedon jatkuvat pelit. Mika Viljanen Peliteorian seminaari

Luento 5: Peliteoriaa

Johdanto peliteoriaan Kirja kpl. 2

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Luento 8. June 3, 2014

PELITEORIAN PERUSTEITA

Tasapaino epätäydellisen tiedon peleissä

Peliteoria luento 3. May 27, Peliteoria luento 3

MS-C2105 Optimoinnin perusteet Malliratkaisut 5

Luento 5: Peliteoria

Luento 5: Peliteoriaa

Epätäydellisen tiedon jatkuvat pelit

Johdatus matemaattiseen päättelyyn

Paljonko maksat eurosta -peli

TAMPEREEN YLIOPISTO Pro gradu -tutkielma. Tero Sirkka. Peliteoriaa

SEKASTRATEGIAT PELITEORIASSA

Pohdiskeleva ajattelu ja tasapainotarkennukset

Kaikki kurssin laskuharjoitukset pidetään Exactumin salissa C123. Malliratkaisut tulevat nettiin kurssisivulle.

Kommunikaatio Visa Linkiö. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Yhteistyötä sisältämätön peliteoria jatkuu

Logiikan kertausta. TIE303 Formaalit menetelmät, kevät Antti-Juhani Kaijanaho. Jyväskylän yliopisto Tietotekniikan laitos.

Yleinen tietämys ja Nashin tasapaino

Karteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21

Yhteistyötä sisältämätön peliteoria

5.6 Yhdistetty kuvaus

Peliteorian soveltaminen hajautettujen järjestelmien protokollasuunnittelussa (valmiin työn esittely)

Sekastrategia ja Nash-tasapainon määrääminen

Diskreetin matematiikan perusteet Malliratkaisut 2 / vko 38

Pelien teoriaa: tasapainokäsitteet

Onko kuvaukset injektioita? Ovatko ne surjektioita? Bijektioita?

Matematiikan ja tilastotieteen laitos Matematiikka tutuksi Harjoitus 2, malliratkaisut

Peliteoria luento 1. May 25, Peliteoria luento 1

Ensimmäinen induktioperiaate

11 Oligopoli ja monopolistinen kilpailu (Mankiw & Taylor, Ch 17)

MS-A0402 Diskreetin matematiikan perusteet

Pelit matematiikan opetuksessa

Ensimmäinen induktioperiaate

Toistetut pelit Elmeri Lähevirta. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Evolutiivisesti stabiilin strategian oppiminen

-Matematiikka on aksiomaattinen järjestelmä. -uusi tieto voidaan perustella edellisten tietojen avulla, tätä kutsutaan todistamiseksi

Insinöörimatematiikka A

Miten osoitetaan joukot samoiksi?

LAAJENNETUN MUODON RATIONALISOITUVUUS. S ysteemianalyysin. Arno Solin Laboratorio. Aalto-yliopiston Teknillinen korkeakoulu

Signalointi: autonromujen markkinat

b) Määritä myös seuraavat joukot ja anna kussakin tapauksessa lyhyt sanallinen perustelu.

Determinoiruvuuden aksiooma

Johdatus diskreettiin matematiikkaan Harjoitus 2, Osoita että A on hyvin määritelty. Tee tämä osoittamalla

Derivaattaluvut ja Dini derivaatat

Reaalifunktioista 1 / 17. Reaalifunktioista

1. Esitä rekursiivinen määritelmä lukujonolle

Rationalisoituvuus ja yleinen tieto rationaalisuudesta

HY / Matematiikan ja tilastotieteen laitos Johdatus logiikkaan I, syksy 2018 Harjoitus 4 Ratkaisuehdotukset

Algebra I Matematiikan ja tilastotieteen laitos Ratkaisuehdotuksia harjoituksiin 3 (9 sivua) OT

1. Osoita, että joukon X osajoukoille A ja B on voimassa toinen ns. de Morganin laki (A B) = A B.

Vastaus 1. Lasketaan joukkojen alkiot, ja todetaan, että niitä on 3 molemmissa.

Matematiikan tukikurssi

Miten perustella, että joukossa A = {a, b, c} on yhtä monta alkiota kuin joukossa B = {d, e, f }?

Matematiikan tukikurssi, kurssikerta 3

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat.

Injektio. Funktiota sanotaan injektioksi, mikäli lähtöjoukon eri alkiot kuvautuvat maalijoukon eri alkioille. Esim.

Relaation ominaisuuksia. Ominaisuuksia koskevia lauseita Sulkeumat. Joukossa X määritelty relaatio R on. (ir) irrefleksiivinen, jos x Rx kaikilla x X,

Peliteoria luento 2. May 26, Peliteoria luento 2

Dynaaminen hintakilpailu ja sanattomat sopimukset

4. Martingaalit ja lokaalit martingaalit

Joukossa X määritelty relaatio R on. (ir) irrefleksiivinen, jos x Rx kaikilla x X,

Johdatus matematiikkaan

Diofantoksen yhtälön ratkaisut

Ratkaisu: (i) Joukko A X on avoin jos kaikilla x A on olemassa r > 0 siten että B(x, r) A. Joukko B X on suljettu jos komplementti B c on avoin.

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008

missä on myös käytetty monisteen kaavaa 12. Pistä perustelut kohdilleen!

PELIOHJEET (suomeksi) Koira. Peli on kaksivaiheinen: Vaihe 1:

Johdatus matemaattiseen päättelyyn

12 Oligopoli ja monopolistinen kilpailu

Matematiikan johdantokurssi, syksy 2016 Harjoitus 11, ratkaisuista

7. Olemassaolo ja yksikäsitteisyys Galois n kunta GF(q) = F q, jossa on q alkiota, määriteltiin jäännösluokkarenkaaksi

1 Määrittelyjä ja aputuloksia

Strateginen kanssakäyminen. Taloustieteen perusteet Matti Sarvimäki

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 19. syyskuuta 2016

Topologia Syksy 2010 Harjoitus 4. (1) Keksi funktio f ja suljetut välit A i R 1, i = 1, 2,... siten, että f : R 1 R 1, f Ai on jatkuva jokaisella i N,

TIEA241 Automaatit ja kieliopit, kevät Antti-Juhani Kaijanaho. 8. maaliskuuta 2012

Diskreetin Matematiikan Paja Tehtäviä viikolle 2. ( ) Jeremias Berg

VEKTORIANALYYSIN HARJOITUKSET: VIIKKO 4

Alkulukujen harmoninen sarja

isomeerejä yhteensä yhdeksän kappaletta.

Topologia Syksy 2010 Harjoitus 11

Matematiikan tukikurssi, kurssikerta 1

Opettaminen ja oppiminen

Algoritmit 1. Luento 5 Ti Timo Männikkö

Konvergenssilauseita

Rubikin kuutio ja ryhmät. Johanna Rämö Helsingin yliopisto, Matematiikan ja tilastotieteen laitos

Sekastrategiat ja intensiiviyhteensopivuus

Matematiikan tukikurssi

Matematiikan tukikurssi, kurssikerta 2

1 Lineaariavaruus eli Vektoriavaruus

PELITEORIAN TALOUSTIETEELLISIÄ SOVELLUKSIA

1. Kuinka monella tavalla joukon kaikki alkiot voidaan järjestää jonoksi? Tähän antaa vastauksen: tuloperiaate ja permutaatio

67-x x 42-x. Matematiikan johdantokurssi, syksy 2016 Harjoitus 3, ratkaisuista

Transkriptio:

Peliteoria Strategiapelit ja Nashin tasapaino Sebastian Siikavirta sebastian.siikavirta@helsinki.fi Helsinki 11.09.2006 Peliteoria Tomi Pasanen HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Sisältö 1 Johdanto 1 2 Strategiapeli 1 3 Esimerkki strategiapelistä 3 4 Strategiapelit ja Nashin tasapaino 3 5 Esimerkkejä Nashin tasapainosta. 5 i

1 Johdanto Peliteoria on matematiikan osa-alue joka tutkii rationaalisten toimijoiden, pelaajien, toimintaa määritellyissä tilanteissa. Tällaisina tilanteina pelit ovat hyvä koeympäristö. Peleissä on tarkasti määritellyt säännöt sekä ennalta tiedetty päämäärä. Toimijoita peleissä kutsutaan pelaajiksi. Peliteorian peruskäsitteistöön kuuluu Nashin tasapaino(nash equilibrium). Nashin tasapaino on käsite tilanteelle joka esiintyy osassa strategiapelejä. Strategiapelillä tässä tarkoitetaan mallia interaktiivisesta päätöksenteosta. Tämä malli esittää useamman pelaajan toimintaa tarkoin rajatussa ympäristössä, missä toiminnan rajat sekä pelin päämäärä on tiedossa. Jos pelaajat toimivat rationaalisesti ja tietävät pelin säännöt, päämäärän ja rajoitteet, saattaa peli ajautua tilanteeseen jossa kenenkään ei kannata enää muuttaa strategiaansa. Tällainen tilanne on nimeltään Nashin tasapaino. Kukaan pelaajista ei hanki muuttamalla omaa strategiaansa, ellei joku toinen pelaaja muuta omaansa. Näin ei kuitenkaan tapahdu, sillä yksikään rationaalinen pelaaja ei muuta toimintaansa. Vaatimuksena on että pelaajien toiminta on itsekästä. Kukin pelaaja valitsee oman toimintansa yhtäaikaa muiden kanssa ja täysin muista riippumatta. Yhtäaikaa tarkoittaa että pelaajat saavat tiedon muiden pelaajien toimista vasta tehtyään omat valintansa. Lisäksi kaikkien muiden pelaajien tiedot tulevat yhtäaikaa. Pelaajat eivät saa muodostaa keskenään ryhmiä toisia pelaajia vastaan. Oletus on että kukin pelaaja pyrkii maksimoimaan oman tuottonsa tai menestymisen pelissä. Pelaaja voi olla ihminen, tekoäly, joukko ihmisiä, eläin, kasvi tai miltei mikä tahansa sääntöjä noudattava entiteetti. Näin yhdellekään pelaajalla ei ole tietoa muiden pelaajien valinnoista ennenkuin kaikkien pelaajien valinnat on tehty. Pelaaja voi tukeutua ainoastaan oletukseen pelin mallista ja muiden pelaajien rationaalisuuteen. Lisäksi pelaajalla saattaa olla tiedossa kuinka vastaavaa peliä on ennen pelattu. Toisaalta tässä artikkelissa esitellyissä tapauksissa oletetaan etteivät pelaajat käytä hyväkseen tietoa kuinka oma toiminta vaikuttaa muiden pelaajien tulevaan toimintaan, vaan pyrkivät vain maksimoimaan suoraan teosta aiheutuneen hyödyn. 2 Strategiapeli Tässä luvussa käydään tarkasti läpi mitä strategiapeli tarkoittaa peliteoriassa. Aluksi strategiapeli määritellään formaalisti. Lopuksi käydään vielä yleisesti läpi mitä määritelmä tarkoittaa ja mitä siitä seuraa. 1

Pelissä on äärellinen joukko N pelaajia. Jokaisella pelaajalla i on joukko A i mahdollisia tapoja toimia. Kaikkien pelaajien mahdollisuudet toimia ovat joukko A. Lopputulosta merkitään a = (a j ) : j N. Kaikkien pelaajien toiminnan lopputulos on joukkio A j : j N. Kunkin pelaajan i toimintaan vaikuttaa kaikkien pelaajien toiminnan mahdollisuus A, ei pelkästään omat mahdollisuudet A i. Jos pelaajien toimintaa vaikuttaisi vain pelaajan oman toiminnan mahdollisuudet A i ei peliä kutsuta strategiapeliksi vaan päätösongelmaksi. Strategiapeleissä jokaisen pelaajan toiminta sekä mahdollisuudet toimia vaikuttavat toisten pelaajien toimintaan. Strategiapelin tarkka määritelmä on yleinen. Se kattaa suuren määrän pelejä ja malleja. Määritelmä: Strategiapeli koostuu seuraavista asioista. äärellinen joukko N pelaajia i N : A i on sallittujen toimintojen joukko pelaajalle i. Jos A i on äärellinen, on peli ääreellinen. i N : järjestysrelaatio i A:ssa on j NA j määrittää toimenpiteen hyötyjen järjestyksen. Määritelmä on todella yleinen, jotta sopii monenlaisiin malleihin. Haittana on että nyt ei voida käyttää apuna minkään tietyn pelin ominaisuutta. Tällä tarkkuudella peleistä ei yleensä voida tehdä johtopäätöksiä, vaan tarvitsimme tarkemman mallin pelin määrittelyyn. Joskus pelaajien toiminnan mahdollisuudet on luonnollisempaa esittää pelaajien toimien seurauksina. Jotta mallia voidaan käyttää, pitää meidän liittää kukin teko sen seuraukseen. Merkitään kaikkien toimintojen seurauksien joukkoa C. Lisäksi määritellään että funktio g : A C liittää nyt jokaisen teon johonkin seuraukseen. Määritellään toimenpiteen hyödyn määrittelemä järjestysrelaatio i. Nyt a j i a k jos ja vain jos g(a j ) i g(a k ). Joskus teon seuraukseen vaikuttaa satunnaistapahtuma. Tätä satunnaistapahtumaa ei voi etukäteen ennustaa, mutta funktiossa g on otettava se huomioon. Jos satunnaistapahtumaa ei huomioida, eivät järjestysrelaatiot a j i a k ja g(a j ) i g(a k) ole enää välttämättä ekvivalenssit. Satunnaistapahtuma voidaan esittää strategiapelissä todennäköisyysavaruudella Ω ja funktiolla g : A Ω C. Nyt g(a, ω) on seuraus kun a A ja satunnaistapahtuma on ω Ω. Yleensä järjestysrelaatio on parempi kuvata pelaajan toimintojen seurausten sijasta hyötynä pelaajalle. Hyöty voidaan kytkeä toimintaan hyötyfunktiolla u i : A R. Pelaajan hyöty u i (a) u i (b) aina kun a i b. Yleensä peliä käsitellään järjestysrelaation sijasta hyötyfunktiolla. 2

t 1 t 2 t 1 1,2 2,4 t 2 1,2 2,4 Taulukko 1: Esimerkkipeli taulukkoesityksen läpikäymiseen. 3 Esimerkki strategiapelistä Tässä luvussa käymme läpi esimerkin strategiapelistä. Pelin aikana yhdistämme edellisen luvun formaalit merkinnät oikean pelin tapahtumiin. Äärellinen strategiapeli voidaan esittää taulukkona kuten Taulukko 1. Pelaajien mahdolliset toiminnat ovat vaaka- ja pystyakselien otsikot. Taulukon ruutu esittää pelaajien saamaa hyötyä toiminpiteestä. Pystysuoran toiminon valitsijan hyöty on ensimmäinen numero. Vaakasuoran toiminnon valitsijan hyöty on toinen numero. Taulukossa 1 esimerkiksi jos pystysuoran pelaaja valitsee toiminnan t 1 ja vaakasuoran pelaaja t 2, on lopputulos (2, 4). Tämä kertoo että vaakasuoran pelaajan saama hyöty on 2 ja pystysuoran pelaajan saama hyöty on 4. Taulukosta näemme että pelaajia on kaksi, siis N = 2. Pelissä oleva toiminnan mahdollisuus on valita joko toiminta t 1 tai toiminta t 2. Toiminnan mahdollisuus eri pelaajille on tässä pelissä ja kyseisessä tilanteessa sama molemmille pelaajille, siis A 1 = A 2. Tapana on ajatella pystysuoraan pelaajaa pelaaja 1:nä ja vaakasuoraan pelaajaa pelaaja 2:na. Siis yleisesti toiminnan mahdollisuus pelissä on A = A 1 A 2. 4 Strategiapelit ja Nashin tasapaino Tässä luvussa esittelen Nashin tasapainon tarkemmin. Aluksi esittelen Nashin tasapainon yleisesti ja tämän jälkeen määrittelen Nashin tasapainon formaalisti. Lopuksi käyn Nashin tasapainon läpi esimerkkien keinoin. Formaali määritys alkaa käytettyjen matemaattisten symbolien ja käsitteiden määrityksellä. Nashin tasapainoa voidaan sanoa vakaaksi tilaksi. Kullakin pelaajalla on oikeat oletukset muiden pelaajien käyttäytymisestä. Jokainen pelaaja myös käyttäytyy rationaalisesti. Nashin tasapaino ei ota kantaa miten tähän vakaaseen tilaan päädytään, se vain on määritelmä tälle tilanteelle. Määritelmä: Nashin tasapaino strategiapelissä. Nashin tasapaino strategiapelissä N, (A i ), ( i ) on tekojen mahdollisuus(profiili) a A 3

jolla on ominaisuus jokaiselle pelaajalle i N: (a i, a i ) i (a i, a i) : a i A. Joten jotta a olisi Nashin tasapaino, ei kellään pelaajalla ole toiminta mahdollisuutta siten että lopputulos olisi hänelle edullisempi kuin a i, jos jokainen pelaaja toimii rationaalisesti(oletus). Nashin tasapainon voi määritellä myös vastauksena muiden tekemiin siirtoihin. Määritellään että mille tahansa a i A i : B(a i) on joukko parhaita siirtoja pelaajalle i kun a i: B i (a i) = a i A : (a i, a i ) i (a i, a i ) a i A. Kutsutaan B i parhaan vastauksen funktioksi pelaajalle i. Nyt Nashin tasapaino on toiminnan mahdollisuuden joukko a tekoja joille: a i B i(a i) i N. Eli a i on pelaaja i:n paras vastaus muiden pelaajien siirtoihin. Jos tämä joukko siirtoja sisältää vain yhden alkion, voidaan Nashin tasapaino löytää tästä pelistä. Nyt pitää huomata ettei jokainen strategiapeli sisällä Nashin tasapainoa. Esimerkiksi tutussa kivi-paperi-sakset pelissä häviävän pelaajan kannattaisi aina vaihtaa oma valintansa. Ja tämän jälkeen toisen pelaajan. Jotta Nashin tasapainosta olisi käytännön hyötyä pelin strategian suunnitteluun, on meidän voitava jotenkin ennustaa onko pelissä Nashin tasapainoa. Kakutanin kiintopistelauseella(fixed point theorem) antaa ehdot millaisista peleistä löytyy Nashin tasapaino. Kakutanin kiintopistelause. Olkoon X epätyhjä, konveksi, rajoitettu ja suljettu euklidisen avaruuden alijoukko. Olkoon f : X X siten että: f(x) epätyhjä konveksi kaikilla x X f:n pitää olla suljettu Jos molemmat ehdot täyttyvät, niin pelissä on vähintään yksi Nashin tasapaino. 4

tunnustaa ei tunnusta tunnustaa 3,3 0,4 ei tunnusta 4,0 1,1 Taulukko 2: Vangin dilemma. Taulukossa epäiltyjen saamat tuomiot tunnustaessa. 5 Esimerkkejä Nashin tasapainosta. Tässä luvussa käyn läpi muutamia klassisia esimerkkejä Nashin tasapainon sisältävistä peleistä. Esitän kunkin pelin säännöt ja pelin edellä esiteltynä taulukkona. Lopuksi kuvaan mikä on Nashin tasapaino kyseisessä pelissä. Vangin dilemma. Kaksi epäiltyä joutuvat eri eristysselleihin. Jos molemmat tunnustavat, saavat molemmat kolme vuotta vankeutta. Jos toinen tunnustaa ja toinen ei, tunnustanut vapautetaan ja hän voi vierittää syyn toiselle, joka saa neljä vuotta vankeutta. Jos kumpikaan ei tunnusta, saavat molemmat todennäköisin perustein vankeutta yhden vuoden. Taulukossa 2 on esitetty tämä peli vangin saaman tuomion suhteen. Vangit siis pyrkivät minimoimaan oman tuomionsa. Nashin tasapaino pelissä on että molemmat tunnustavat. Tämän jälkeen kummankaan ei ole viisasta vaihtaa omaa kantaansa, sillä se merkitsisi vuotta lisää vankeutta. Oletetaan tilanne jossa toinen olisi valinnut tunnustavansa ja toinen ei. Tämä ei ole Nashin tasapaino, sillä hänen joka ei tunnustanut kannattaa vaihtaa oma kantansa tunnustukseksi. Viimeinen vaihtoehto olisi että molemmat olisivat päättäneet tunnustaa. Myöskään tämä ei ole Nashin tasapaino, sillä molempien kannattaisi vaihtaa tunnustuksensa ei tunnustukseksi. Tässä myös näemme että Nashin tasapaino ei välttämättä ole edullisen vaihtoehto pelaajille. Jos molemmat olisivat valinneet olematta tunnustamatta, olisi heidän yhteensä saama tuomio, 1+1=2 vuotta, ollut pienempi kuin 0+4=4 vuotta. 5

Viitteet [1] A Course in Game Theory, Martin J. Osborne & Ariel Rubinstein, MIT Press 1994 6