Yhteistyötä sisältämätön peliteoria jatkuu Tommi Lehtonen Optimointiopin seminaari - Syksy 2000 / 1
Bayesilainen tasapaino Täysi informaatio Vajaa informaatio Staattinen Nash Bayes Dynaaminen Täydellinen Täydellinen Bayes Optimointiopin seminaari - Syksy 2000 / 2
Johdanto Staattinen peli: Päätökset samanaikaisia Luonnollinen Nashin tasapainon laajennus vajaan tiedon peleihin Vajaa tieto Ei tietoa etukäteen muiden pelaajien luonteista Optimointiopin seminaari - Syksy 2000 / 3
Luonne (1/2) Luonne t peliteoreettisena käsitteenä määrittelee kaiken, mikä on oleellista pelaajan päätöksenteon kannalta (strategia-avaruus, mieltymykset) Päätöstapahtuma pelaajien luonnetta kuvaavan satunnaismuuttujan realisaatio Optimointiopin seminaari - Syksy 2000 / 4
Luonne (2/2) Luonteille on a priori jakauma p( t 1,..., t i,... t n ) Tällöin kukin pelaaja voi laskea muiden pelaajien ehdolliset todennäköisyydet (oman luonteen tietäminen voidaan ajatella ensimmäisenä realisaationa) p i ( t i ti ), t i ( t1,..., ti 1, ti+ 1,... tn ) Optimointiopin seminaari - Syksy 2000 / 5
Hyötyfunktio Pelaajan hyöty i ( a,..., an, t1,..., t 1 n Hyöty riippuu valitusta strategiasta ja pelaajien luonteista Kukin pelaaja pystyy laskemaan Nashilaiset strategiat eri luonteisille pelaajille { a } j ( t j ) j i ) Optimointiopin seminaari - Syksy 2000 / 6
Tasapaino Bayesilainen tasapaino on joukko luonteen suhteen ehdollisia strategioita, jotka maksimoivat odotusarvoa i * * pi ( t i ti ) ( a1 ( t1),..., ai,..., an( tn), t1,..., ti Odotusarvo lasketaan ehdollisena omalle luonteelle,..., t n ) Optimointiopin seminaari - Syksy 2000 / 7
Yhteenveto I Staattinen peli, luonteeltaan erilaiset pelaajat, vajaa tieto Yleinen luonteiden jakauma, muiden pelaajien luonteen tn:t hyödyt eri strategioille Omalle luonteelle ehdollinen hyödyn odotusarvoa maksimoiva strategiajoukko a p( t 1,..., t i,... t n ) Ai f { a j ( t j )} j i * { } n i t i ) i a ( = 1 Optimointiopin seminaari - Syksy 2000 / 8
Esimerkki Luonne t1 Luonne t2 p2 p1 L R L R U 3,1 2,0 3,0 2,1 D 0,1 4,0 0,0 4,1 Optimointiopin seminaari - Syksy 2000 / 9
Odotusarvon laskeminen Pelaajalla 1 vain yksi vaihtoehto luonteelle Pelaajalla 2 molemmilla luonteilla dominoiva strategia -> pelaa sen mukaisesti Luonne tasajakautunut odotusarvo pelaajalla 1 strategialle U: ½(3+2) Strategialle D: ½(0+4) Pelaaja 1 valitsee strategian U Optimointiopin seminaari - Syksy 2000 / 10
Täydellinen Bayesilainen tasapaino Täysi informaatio Vajaa informaatio Staattinen Nash Bayes Dynaaminen Täydellinen Täydellinen Bayes Optimointiopin seminaari - Syksy 2000 / 11
Johdanto Dynaaminen peli: Päätökset tehdään ajassa edeten, pelaaja kerrallaan Epätäydellinen tieto Ei täydellistä tietoa muiden pelaajien aikaisemmista liikkeistä Optimointiopin seminaari - Syksy 2000 / 12
Juoni Pelaaja voi juontaa aikaisemmista liikkeistä omaan päätöksentekoon vaikuttavaa tietoa Bayesilainen päivittäminen aikaisempia liikkeitä koskeviin todennäköisyysjakaumiin Optimointiopin seminaari - Syksy 2000 / 13
Pelin kulku 1 L M R 2 3 a i k a Pelaajalla 1 strategiat L, M ja R Pelaaja 2 tietää päätöstilanteessa 1:n valinneen M:n tai R:n, mutta ei tiedä kumman -> epätäydellinen tieto Tällöin pelaaja 2 voi päivittää 1:n valinnan jakaumaa Optimointiopin seminaari - Syksy 2000 / 14
Tasapainon elementit Hyödyn odotusarvoa maksimoivat strategiat eri osapeleille 1 Bayesilaiset todennäköisyydet aikaisempien pelaajien liikkeille 1 { } a * 2 2 { a * 2 } Bay p = µ 2 Bay p = 1 µ 2 1 2 2 Optimointiopin seminaari - Syksy 2000 / 15
Tasapaino (1/2) Käänteisellä induktiolla voidaan määrittää Bayesilaisista todennäköisyyksistä riippuva optimistrategia Bayesilaisella päivityksellä voidaan laskea todennäköisyydet Tasapaino muodostetaan hyödyn odotusarvoa maksivoivilla strategioilla Optimointiopin seminaari - Syksy 2000 / 16
Tasapaino (2/2) * Bay a a ( µ ( a)) 1 Strategiat ovat optimaalisia odotusarvoihin nähden 2 3 Bay µ µ ( a * ( µ )) Todennäköisyydet saadaan mahdollisista strategioista ja havainnoista Määrittäminen perustuu tulemien ja päivittämättömien todennäköisyyksien tuntemiseen Optimointiopin seminaari - Syksy 2000 / 17
Yhteenveto II Dynaaminen peli, vajaa tieto, epätäydellinen tieto Hyödyn odotusarvoa maksimoivat strategiat osapeleille, riippuvat ehdoll. tn:stä 1 Käänteisen induktion kautta Bayesilainen päivitetyt todennäköisyydet -> hyötyä maksivoivat strategiat a 2 1 { } a * 2 2 { } a * 2 2 2 p =?? Optimointiopin seminaari - Syksy 2000 / 18
Käytäntö Tasapainolle ei ole yleistä ratkaisumallia Määritelmän ymmärtäminen mahdollistaa usein pääteltävissä olevan ratkaisun Optimointiopin seminaari - Syksy 2000 / 19
Kotitehtävä! Duopolin kilpailu, firmat 1 ja 2 (i=1,2) Yritykset maksimoivat voittoa i q ( t q q ) i i i j q on tuotettu määrä (yrityksen strategia) t on viivallisen kysyntäkäyrän vakion ja yrityksen vakioyksikkökustannuksen erotus (yrityksen luonne) t1 jakauma: p(t1=1) = 1 t2 jakauma. p(t2=3/4) = 0,5 ; p(t2=5/4) = 0,5 Optimointiopin seminaari - Syksy 2000 / 20
Kotitehtävä! Yritykset valitsevat tuotetun määrän yhtä aikaa 1. Mitkä ovat tuotantomäärät Bayesilaisessa tasapainossa? 2. Selitä voittofunktion määräytyminen käytännön tilanteen kannalta. Optimointiopin seminaari - Syksy 2000 / 21