Evolutiivisesti stabiilin strategian oppiminen

Samankaltaiset tiedostot
ESS oppiminen ja sen simulointi

Evolutiivinen stabiilisuus populaation

Nollasummapelit ja bayesilaiset pelit

Yhteistyötä sisältämätön peliteoria jatkuu

Yhteistyötä sisältämätön peliteoria

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Ekvivalenssirelaatio. Määritelmä 2 Joukon A binäärinen relaatio R on ekvivalenssirelaatio, mikäli. Jos R on ekvivalenssirelaatio ja a A, niin joukkoa

Markov-kustannusmallit ja kulkuajat

Luento 8. June 3, 2014

Toistetut pelit Elmeri Lähevirta. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Vangin dilemma häiriöisessä ympäristössä Markov-prosessina (valmiin työn esittely) Lasse Lindqvist

y x1 σ t 1 = c y x 1 σ t 1 = y x 2 σ t 2 y x 2 x 1 y = σ(t 2 t 1 ) x 2 x 1 y t 2 t 1

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Sekastrategia ja Nash-tasapainon määrääminen

Pelin kautta oppiminen

Johdatus diskreettiin matematiikkaan (syksy 2009) Harjoitus 3, ratkaisuja Janne Korhonen

1. Osoita, että joukon X osajoukoille A ja B on voimassa toinen ns. de Morganin laki (A B) = A B.

Reaalifunktioista 1 / 17. Reaalifunktioista

Miten osoitetaan joukot samoiksi?

f(x) f(y) x y f f(x) f(y) (x) = lim

Funktion raja-arvo ja jatkuvuus Reaali- ja kompleksifunktiot

Derivaatat lasketaan komponenteittain, esimerkiksi E 1 E 2

Johdatus matemaattiseen päättelyyn

Insinöörimatematiikka A

a) Sievennä lauseke 1+x , kun x 0jax 1. b) Aseta luvut 2, 5 suuruusjärjestykseen ja perustele vastauksesi. 3 3 ja

SEKASTRATEGIAT PELITEORIASSA

11 Oligopoli ja monopolistinen kilpailu (Mankiw & Taylor, Ch 17)

Pelien teoriaa: tasapainokäsitteet

Luento 9. June 2, Luento 9

9. Tila-avaruusmallit

Peliteoria Strategiapelit ja Nashin tasapaino. Sebastian Siikavirta

Laskelmointia mielen evoluutiosta

y = 3x2 y 2 + sin(2x). x = ex y + e y2 y = ex y + 2xye y2

763306A JOHDATUS SUHTEELLISUUSTEORIAAN 2 Ratkaisut 1 Kevät y' P. α φ

Opettaminen ja oppiminen

(a) Kyllä. Jokainen lähtöjoukon alkio kuvautuu täsmälleen yhteen maalijoukon alkioon.

Todista raja-arvon määritelmään perustuen seuraava lause: Jos lukujonolle a n pätee lima n = a ja lima n = b, niin a = b.

Geneettiset algoritmit

Pohdiskeleva ajattelu ja tasapainotarkennukset

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Martingaalit ja informaatioprosessit

Luku 4. Derivoituvien funktioiden ominaisuuksia.

Sovellettu todennäköisyyslaskenta B

3. Teoriaharjoitukset

Yleinen tietämys ja Nashin tasapaino

Toispuoleiset raja-arvot

Kirjoita ohjelma jossa luetaan kokonaislukuja taulukkoon (saat itse päättää taulun koon, kunhan koko on vähintään 10)

Tenttiin valmentavia harjoituksia

Dynaaminen hintakilpailu ja sanattomat sopimukset

1 Kertaus. Lineaarinen optimointitehtävä on muotoa:

Sekastrategiat ja intensiiviyhteensopivuus

Diskreetin matematiikan perusteet Malliratkaisut 2 / vko 38

Surjektion käsitteen avulla kuvauksia voidaan luokitella sen mukaan, kuvautuuko kaikille maalin alkioille jokin alkio vai ei.

MATEMATIIKAN KOE PITKÄ OPPIMÄÄRÄ

Luento 5: Peliteoria

Matematiikan tukikurssi

Luento 5: Peliteoriaa

MATEMATIIKAN JA TILASTOTIETEEN LAITOS

Induktiota käyttäen voidaan todistaa luonnollisia lukuja koskevia väitteitä, jotka ovat muotoa. väite P(n) on totta kaikille n = 0,1,2,...

Valintahetket ja pysäytetyt martingaalit

Wiener-prosessi: Tarkastellaan seuraavanlaista stokastista prosessia

PELITEORIAN TALOUSTIETEELLISIÄ SOVELLUKSIA

Kaikki kurssin laskuharjoitukset pidetään Exactumin salissa C123. Malliratkaisut tulevat nettiin kurssisivulle.

Markov-ketjuja suurilla tila-avaruuksilla

Karteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21

V ar(m n ) = V ar(x i ).

Haitallinen valikoituminen: yleinen malli ja sen ratkaisu

OMINAISUUS- JA SUHDETEHTÄVIEN KERTAUS. Tavoiteltava toiminta: Kognitiivinen taso: Ominaisuudet ja suhteet -kertaus

1 sup- ja inf-esimerkkejä

k-kantaisen eksponenttifunktion ominaisuuksia

Esitetään tehtävälle kaksi hieman erilaista ratkaisua. Ratkaisutapa 1. Lähdetään sieventämään epäyhtälön vasenta puolta:

Johdanto peliteoriaan Kirja kpl. 2

Polkuintegraali yleistyy helposti paloitain C 1 -poluille. Määritelmä Olkoot γ : [a, b] R m paloittain C 1 -polku välin [a, b] jaon

Analyysi III. Jari Taskinen. 28. syyskuuta Luku 1

1 sup- ja inf-esimerkkejä

Matematiikan tukikurssi, kurssikerta 5

Martingaalit ja informaatioprosessit

Matematiikan peruskurssi 2

1. Olkoon f :, Ratkaisu. Funktion f kuvaaja välillä [ 1, 3]. (b) Olkoonε>0. Valitaanδ=ε. Kun x 1 <δ, niin. = x+3 2 = x+1, 1< x<1+δ

1. Tarkastellaan kaksiulotteisessa Hilbert avaruudessa Hamiltonin operaattoria

Hintakilpailu lyhyellä aikavälillä

LASKENNALLISEN TIETEEN OHJELMATYÖ: Diffuusion Monte Carlo -simulointi yksiulotteisessa systeemissä

LAAJENNETUN MUODON RATIONALISOITUVUUS. S ysteemianalyysin. Arno Solin Laboratorio. Aalto-yliopiston Teknillinen korkeakoulu

PELITEORIAN PERUSTEITA

MS-C2105 Optimoinnin perusteet Malliratkaisut 5

58131 Tietorakenteet ja algoritmit (kevät 2014) Uusinta- ja erilliskoe, , vastauksia

Tasapaino epätäydellisen tiedon peleissä

Vastaoletuksen muodostaminen

Kombinatorinen optimointi

Luento 7. June 3, 2014

5.6 Yhdistetty kuvaus

Perustehtävät. Kompleksitehtävät, 10/9/2005, sivu 1 / 10. Tehtävä 1. Sievennä 1.

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

VEKTORIANALYYSIN HARJOITUKSET: VIIKKO 4

Toiminnan järjestäminen JyPK:n juniorijoukkueissa. 5v5 joukkueet (6-9v)

Luento 5: Peliteoriaa

min x x2 2 x 1 + x 2 1 = 0 (1) 2x1 1, h = f = 4x 2 2x1 + v = 0 4x 2 + v = 0 min x x3 2 x1 = ± v/3 = ±a x 2 = ± v/3 = ±a, a > 0 0 6x 2

Tällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö

S Laskennallinen systeemibiologia

Transkriptio:

Evolutiivisesti stabiilin strategian oppiminen Janne Laitonen 8.10.2008 Maynard Smith: s. 54-60

Johdanto Käytös voi usein olla opittua perityn sijasta Tyypillistä käytöksen muuttuminen ja riippuvuus aikaisemmista kokemuksista Kehityksellisesti stabiili strategia (DSS) analogiana ESSlle Käytös ei siirry geenien mukana vaan se on opittua DSS on strategia, jossa yksilöt perivät evolutiivisesti stabiilin oppimissäännön

Eri pelityypit Pelejä pelattava usein, jotta oppimista voi tapahtua Esim. ruuan tai parittelukumppanin etsintä tai kilpailu arvojärjestyksestä Luokittelu: 1. Frekvenssiriippumaton Strategian palkkio ei riipu sillä pelaamisen frekvenssistä

Eri pelityypit 2. Frekvenssiriippuva Yksilölliset pelit; palkkio ei riipu yhteisön muiden jäsenien toimista Yhteisölliset pelit; palkkio riippuu muiden toimista Pelaaja muuttaa käytöstään aiempien kokemusten perusteella Eri peleissä käytös erilaista mutta käyttäytymisen muuttaminen toteutuu samojen sääntöjen avulla (oppimissääntö)

Mallin oletukset Peleillä on ESS, jonka voi oppia Pelit pelataan ympäristöä tai satunnaista yksilöä vastaan Kussakin pelissä valittavissa käytös B i (i=1,2,,n; n 2) Palkkiomatriisi voi vaihdella mutta riittävän hitaasti, jotta oppimissäännöt voivat vakinaistaa käytösten taajuudet

Mallin oletukset Oppimisen aikaiset palkkiot ovat vähäpätöisiä verrattuna stabiilissa tilassa saatuun palkkioon Palkkiota P i (t) 0, joka saadaan kierroksella t toteuttamalla käytös B i, mitataan elinkelpoisuuden avulla. Jos B i ei toteudu, P i (t) = 0.

Mallin oletukset Oppimissääntö määrittelee kullakin kierroksella t pelien käytöksiä B i vastaavat todennäköisyydet f i (t) aikaisempien palkkioiden P i (τ) funktiona (τ <t)

ES oppimissäännön ominaisuudet Populaatioon, joka on omaksunut ES oppimissäännön, ei voi tunkeutua toisella mutantti oppimissäännöllä. Vertaa evolutiivisesti stabiili strategia Toteuttaa kirjan ehdot (2.9) ES oppimissääntö saa populaation omaksumaan strategian, joka on ESS (tai vie sen mahdollisimman lähelle, kts seur. kohta)

ES oppimissäännön ominaisuudet Sääntö ei salli käytöksen poistamista tai tiettyyn käytökseen kiinnittymistä Muuten käytös tulisi geneettiseksi ominaisuudeksi Tasapainossa pätee (kirjan merkinnöin): f i (t) t t 1 τ =1 n t 1 i=1 τ =1 P i (τ) P i (τ) (1)

ES oppimissäännön ominaisuudet Todistus (Kirjaa noudatellen. Huomaa kommentit myöhemmin!): Olkoon t i = käytöksen B i frekvenssi kierrokseen t = t i mennessä ja E[P i (t)] = odotettu palkkio käytöksestä B i kierroksella t. Tasapainossa t:n ollessa tarpeeksi suuri voidaan kirjoittaa f i (t) t i /t E[P i (t)] t 1 P i (τ) /t τ =1 i

ES oppimissäännön ominaisuudet ESS: E[P i (t)] =E[P j (t)]=c (vakio) kaikille i,j (Bishop & Cannings), jolloin Edelleen saadaan t 1 P i (τ) t i C τ =1 f i (t) t 1 P i (τ) /Ct τ =1 n n Koska f i (t) =1, pätee Ct = P i=1 i (τ) i=1 τ =1 ja väite on todistettu. t 1

ES oppimissäännön ominaisuudet Lähiajan palkkioilla on suurempi painoarvo vanhempiin palkkioihin verrattuna Palkkiot vaihtelevat ajassa, jolloin uudempi tieto antaa paremman estimaatin optimaaliselle strategialle kuin vanha Yhtälö (1) ei määritä oppimissääntöä, sillä se kuvaa käytöstä, kun tasapainotila on jo saavutettu

Suhteellinen palkkiosumma, RPS Harley ehdottaa ES oppimissäännön approksimaatioksi suhteellista palkkiosummaa: f i (1) = r i f i (t) = n n r i=1 i r i + i=1 missä 0<m<1 ja t 2. t 1 t τ 1 m τ =1 t 1 τ =1 r i + P i (τ) m t τ 1 P i (τ)

Suhteellinen palkkiosumma, RPS RPSn yhtälöissä r i on kytköksissä kunkin käytökseen; esim. jos r i :t ovat yhtä suuria, kaikki käytökset ovat yhtä todennäköisiä ensimmäisellä kerralla. m on muistia kuvaava tekijä. Mitä lähempänä se on ykköstä, sitä suurempi painoarvo aikaisemmilla palkkioilla on.

Kritiikkiä Palkkion ilmoittaminen elinkelpoisuutena hankalaa Lisäksi yhtälön (1) todistus väärä! Palkkio P i (t) satunnaisluku, jolloin käsiteltävä stokastista konvergenssia " " Harley tarkoittaa merkinnällä asymptoottista lähestymistä, Maynard Smith esittää sen lim t Myös RPSn konvergenssin käsittely vajaata Korjaukset tehty 1995

Kotitehtävä Osoita ES oppimissäännön ominaisuus: ES oppimissääntö saa populaation omaksumaan strategian, joka on ESS (eli ES oppimissäännön on oltava sääntö ESSn oppimiselle). Käytä vastaoletusta: ES oppimissääntö ei vie populaatiota ESSään joka kerta ES oppimissääntöä ei mutantti voi syrjäyttää

Lähteet ja sanastoa Maynard Smith (1982). Evolution and the Theory of Games. Cambridge University Press. Harley (1981). Learning the Evolutionarily Stable Strategy. J. theor. Biol. 89, 611-633. Tracy & Seaman (1995). Properties of Evolutionarily Stable Learning Rules. J. theor. Biol. 177, 193-198 Anthropomorphic: antropomorfinen; ihmisenkaltainen (inhimillisten ominaisuuksien liittämistä eläimiin, esineisiin jne.) Skinner Box: Eläinten ehdollistamisen tutkimiseen käytetty laite/ laatikko, jossa tietystä toimesta seuraa palkkio (esim. ruokaa) tai rangaistus (esim. sähköisku).