Evolutiivisesti stabiilin strategian oppiminen

HTML
DOWNLOAD

Koko: px

Aloita esitys sivulta:

Download "Evolutiivisesti stabiilin strategian oppiminen"

Kirsi-Kaisa Niemelä
8 vuotta sitten
Katselukertoja:

1 Evolutiivisesti stabiilin strategian oppiminen Janne Laitonen Maynard Smith: s

2 Johdanto Käytös voi usein olla opittua perityn sijasta Tyypillistä käytöksen muuttuminen ja riippuvuus aikaisemmista kokemuksista Kehityksellisesti stabiili strategia (DSS) analogiana ESSlle Käytös ei siirry geenien mukana vaan se on opittua DSS on strategia, jossa yksilöt perivät evolutiivisesti stabiilin oppimissäännön

3 Eri pelityypit Pelejä pelattava usein, jotta oppimista voi tapahtua Esim. ruuan tai parittelukumppanin etsintä tai kilpailu arvojärjestyksestä Luokittelu: 1. Frekvenssiriippumaton Strategian palkkio ei riipu sillä pelaamisen frekvenssistä

4 Eri pelityypit 2. Frekvenssiriippuva Yksilölliset pelit; palkkio ei riipu yhteisön muiden jäsenien toimista Yhteisölliset pelit; palkkio riippuu muiden toimista Pelaaja muuttaa käytöstään aiempien kokemusten perusteella Eri peleissä käytös erilaista mutta käyttäytymisen muuttaminen toteutuu samojen sääntöjen avulla (oppimissääntö)

5 Mallin oletukset Peleillä on ESS, jonka voi oppia Pelit pelataan ympäristöä tai satunnaista yksilöä vastaan Kussakin pelissä valittavissa käytös B i (i=1,2,,n; n 2) Palkkiomatriisi voi vaihdella mutta riittävän hitaasti, jotta oppimissäännöt voivat vakinaistaa käytösten taajuudet

6 Mallin oletukset Oppimisen aikaiset palkkiot ovat vähäpätöisiä verrattuna stabiilissa tilassa saatuun palkkioon Palkkiota P i (t) 0, joka saadaan kierroksella t toteuttamalla käytös B i, mitataan elinkelpoisuuden avulla. Jos B i ei toteudu, P i (t) = 0.

7 Mallin oletukset Oppimissääntö määrittelee kullakin kierroksella t pelien käytöksiä B i vastaavat todennäköisyydet f i (t) aikaisempien palkkioiden P i (τ) funktiona (τ <t)

8 ES oppimissäännön ominaisuudet Populaatioon, joka on omaksunut ES oppimissäännön, ei voi tunkeutua toisella mutantti oppimissäännöllä. Vertaa evolutiivisesti stabiili strategia Toteuttaa kirjan ehdot (2.9) ES oppimissääntö saa populaation omaksumaan strategian, joka on ESS (tai vie sen mahdollisimman lähelle, kts seur. kohta)

9 ES oppimissäännön ominaisuudet Sääntö ei salli käytöksen poistamista tai tiettyyn käytökseen kiinnittymistä Muuten käytös tulisi geneettiseksi ominaisuudeksi Tasapainossa pätee (kirjan merkinnöin): f i (t) t t 1 τ =1 n t 1 i=1 τ =1 P i (τ) P i (τ) (1)

10 ES oppimissäännön ominaisuudet Todistus (Kirjaa noudatellen. Huomaa kommentit myöhemmin!): Olkoon t i = käytöksen B i frekvenssi kierrokseen t = t i mennessä ja E[P i (t)] = odotettu palkkio käytöksestä B i kierroksella t. Tasapainossa t:n ollessa tarpeeksi suuri voidaan kirjoittaa f i (t) t i /t E[P i (t)] t 1 P i (τ) /t τ =1 i

11 ES oppimissäännön ominaisuudet ESS: E[P i (t)] =E[P j (t)]=c (vakio) kaikille i,j (Bishop & Cannings), jolloin Edelleen saadaan t 1 P i (τ) t i C τ =1 f i (t) t 1 P i (τ) /Ct τ =1 n n Koska f i (t) =1, pätee Ct = P i=1 i (τ) i=1 τ =1 ja väite on todistettu. t 1

12 ES oppimissäännön ominaisuudet Lähiajan palkkioilla on suurempi painoarvo vanhempiin palkkioihin verrattuna Palkkiot vaihtelevat ajassa, jolloin uudempi tieto antaa paremman estimaatin optimaaliselle strategialle kuin vanha Yhtälö (1) ei määritä oppimissääntöä, sillä se kuvaa käytöstä, kun tasapainotila on jo saavutettu

13 Suhteellinen palkkiosumma, RPS Harley ehdottaa ES oppimissäännön approksimaatioksi suhteellista palkkiosummaa: f i (1) = r i f i (t) = n n r i=1 i r i + i=1 missä 0<m<1 ja t 2. t 1 t τ 1 m τ =1 t 1 τ =1 r i + P i (τ) m t τ 1 P i (τ)

14 Suhteellinen palkkiosumma, RPS RPSn yhtälöissä r i on kytköksissä kunkin käytökseen; esim. jos r i :t ovat yhtä suuria, kaikki käytökset ovat yhtä todennäköisiä ensimmäisellä kerralla. m on muistia kuvaava tekijä. Mitä lähempänä se on ykköstä, sitä suurempi painoarvo aikaisemmilla palkkioilla on.

15 Kritiikkiä Palkkion ilmoittaminen elinkelpoisuutena hankalaa Lisäksi yhtälön (1) todistus väärä! Palkkio P i (t) satunnaisluku, jolloin käsiteltävä stokastista konvergenssia " " Harley tarkoittaa merkinnällä asymptoottista lähestymistä, Maynard Smith esittää sen lim t Myös RPSn konvergenssin käsittely vajaata Korjaukset tehty 1995

16 Kotitehtävä Osoita ES oppimissäännön ominaisuus: ES oppimissääntö saa populaation omaksumaan strategian, joka on ESS (eli ES oppimissäännön on oltava sääntö ESSn oppimiselle). Käytä vastaoletusta: ES oppimissääntö ei vie populaatiota ESSään joka kerta ES oppimissääntöä ei mutantti voi syrjäyttää

17 Lähteet ja sanastoa Maynard Smith (1982). Evolution and the Theory of Games. Cambridge University Press. Harley (1981). Learning the Evolutionarily Stable Strategy. J. theor. Biol. 89, Tracy & Seaman (1995). Properties of Evolutionarily Stable Learning Rules. J. theor. Biol. 177, Anthropomorphic: antropomorfinen; ihmisenkaltainen (inhimillisten ominaisuuksien liittämistä eläimiin, esineisiin jne.) Skinner Box: Eläinten ehdollistamisen tutkimiseen käytetty laite/ laatikko, jossa tietystä toimesta seuraa palkkio (esim. ruokaa) tai rangaistus (esim. sähköisku).

Samankaltaiset tiedostot

ESS oppiminen ja sen simulointi

ESS oppiminen ja sen simulointi 8.10.2008 Suhteellinen palkkiosumma, RPS = = = = + + = = n i t i t i t i t i i n i i i i P m r P m r t f r r f 1 1 1 1 1 1 1 1 ) ( ) ( ) ( (1) τ τ τ τ τ τ Harleyn (1981)