Opettaminen ja oppiminen MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 19.10.2016 Nina Gunell The document can be stored and made available to the public on the open internet pages of Aalto University. All other rights are reserved.
Kyky oppia on yksi tärkeimmistä tekijöistä kaikessa älykkäässä käyttäytymisessä Tarkastellaan kahta erillaista osa-alueelta: 1 YKSITTÄINEN AGENTTI 2 MONIAGENTTI SYSTEEMI Tekoäly (Artifical Intelligence) Peliteoria (Game Theory)
1 Perinteisesti tekoäly liittyy yhden agentin systeemiin, jossa agentti jatkuvasti oppii ympäristöstään Yksittäinen agentti Angle! Agentin päätehtävä on oppia toimimaan tuntemattomassa ympäristössä Ympäristö voi olla dynaaminen, mutta agentteja aina vain yksi
2 Moniagenttisessa systeemissä agenttien oppimiseen vaikuttaa vahvasti muiden agenttien oppiminen Moniagentti systeemi Last time we played 007 chose A I think he will choose it again. I choose B. Last time we played chose A I think he will choose it again. I choose B. Pelaajat oppivat toistuvassa pelissä jatkuvasti toisistaan lopputulos ei aina haluttu Voisiko tai 007 toimia opettajana tässä tilanteessa?
Tässä tilanteessa voi toimia opettajana 007:lle, jolloin molempien voitto on suurempi kuin Nashin tasapainossa Yksi peli has a dominant strategy B that he will play, I ll play A! 2,1 2,1 Toistuva peli Dominoiva strategia :lle Aito Nashin tasapaino Saavutettu voitto I will keep playing A, in the end 007 will understand my hint! 3, 2
Useissa tilanteissa opettajan rooli ei ole selvä, jolloin riskinä on epäkoordinaatiosta johtuva nollatulos How to prevent the awkward sidewalk shuffle 0, 0 0, 0
Opettaminen ja oppiminen tapahtuvat yleisesti saman aikaisesti jokainen yrittää löytää parhaan strategian Parhaan strategian löytämiseen liittyy vahvasti toisen pelaajan strategian ymmärtäminen Toistuvassa pelissä ymmärrys perustuu menneisyyteen aikaisempien pelien strategiat ja niistä saadut tulokset Riippuen pelin havoittavuudesta voi taustalla oleva peli olla pelaajille täysin tuntematon ja/tai varmaa tietoisuutta toisen pelaajan valinnoista ei ole Kaikesta huolimatta agentit voivat tietyissä tilanteissa silti löytää tasapainotilan
Oppimiseen liittyvät strategiat voidaan jakaa kahteen pääkategoriaan Syventyminen seuraavalla sivulla Descriptive theories Kuinka hyvin malli pystyy mallintamaan (esim. ihmisten) todellista käyttäytymistä Prescriptive theories Tutkimusta siitä miten agentein kuuluisi oppia Mikään oppimisstrategia ei toimi kaikkille vastustajille
Oppimissääntöä valitseassa kannattaa ottaa huomioon mitkä kriteeriat haluaa täyttää Useille kriteerioille on olemassa opimissääntö, esim: Turvallisuus: A learning rule is safe if it guarantees the agent at least a given maxmin payoff or security value Rationaliteetti: A learning rule is rational if whenever the opponent settles on a stationary strategy the agent settles on a best response to that strategy
Kuvitteellisessä pelisse (fictitious play) pelaaja olettaa vastustajan pelaavan samoin kuin menneisyydessä 1. Choose an arbitrary non-zero vector for initial beliefs, e.g. thinks that 007 have chosen 2.5 x Left and 1 x Right (2.5,1) and 007 thinks that have chosen 1.5 x Left and 2 x Right (1.5,2) 2. Each agent assumes a stationary policy for the other (even though the player itself will not play a stationary policy). Therefore believes 007 will choose left P(Left) = 2/3.5 and P(Right) = 1/3.5, according to the info from the past. As P(Left) > P(Right), assumes 007 will play Left. 3. Play the best possible response when assuming that 007 will play Left -> should also choose Left. Repeat for 007. Update table with given information. 1,-1-1, 1-1, 1 1, -1
Esimerkki kuvitteellisestä pelistä (fictitious play) 1/2 1,-1-1, 1-1, 1 1, -1 Round s action 007 s action s beliefs 007 s beliefs 0 (2.5,1) (1.5,2) 1 L L (3.5,1) (2.5,2) 2 L R (3.5,2) (3.5,2) 3 L R (3.5,3) (4.5,2) 4 L R (3.5,4) (5.5,2) 5 R R (3.5,5) (5.5,3) Mikäli pelaajakohtaisen pelivalinnan empiirinen jakauma konvergoituu kuvitteellisessa pelissä, konvergoituu se kohti Nashin tasapainoa.
Esimerkki kuvitteellisestä pelistä (fictitious play) 2/2 0, 0 1, 1 1, 1 0, 0 Round s action 007 s action s beliefs 007 s beliefs 0 (1,0.5) (1,0.5) 1 R R (1,1.5) (1,1.5) 2 L L (2,1.5) (2,1.5) 3 R R (2,2.5) (2,2.5) 4 L L (3,2.5) (3,2.5) 5 R R (3.3,5) (5,3,5) Epäkoordinaation takia molempien agenttien tulos on jatkuvasti 0
On olemassa monia muita oppimissääntöjä, kuten esimerkiksi rationaalinen oppiminen Pystyy ottaamaan huomioon paljon vaikeampia strategioita, kuten esim. TfT Vangin dilemmassa (matki toisen käytöstä) Jokaisen pelikierroksen jälkeen agentti päivittää tietojaan vastustajan strategiasta Tarkoitus ei ole saada selville yhtä ainoata oikeata vastausta vastustajan strategialle, vain suurempi osajoukko mahdollisia strategioita
Onko kysymyksiä? Moniagentti systeemi Last time we played 007 chose A I think he will choose it again. I choose B. Last time we played chose A I think he will choose it again. I choose B. Pelaajat oppivat toistuvassa pelissä jatkuvasti toisistaan lopputulos ei aina haluttu Voisiko tai 007 toimia opettajana tässä tilanteessa?
Terminologia Opettaminen = Agentti opettaa käytöstä toiselle agentille Oppiminen = Vastaanottaa tietoa toisesta agentista ja sen käyttäymisestä (multiagenttijärjstelmissä) Tekoäly = Tuotettua älyä, eli kaikki äly kaikissa laitteissa Agentti = Osa suurempaa järjstelmää oleva verkon solmukohta Dominant strategy = Parempi strategia riippumatta mitä vastustaja tekee Toisutva peli = Peli jota pelataan äärellisen tai äärettömän kertaa peräkkäin Havoittavuus = Kuinka paljon pelistä näytetään ulospäin pelaajille Fictious play, kuivtteellinen peli = Oppimissääntö, jossa käytetään menneisyydeän todennäköisyyttä hyväksi Descriptive theory = Kuinka hyvin malli toimi reaalimaailmaan Prescriptive theory = Tutkitaan miten pitäisi oppia 007 = James Bond
Kotitehtävät 1. Anna esimerkki kahden pelaajan pelistä, jossa toinen pelaajista pystyy selvästi muuttaamaan pelin tulosta toimimalla opettajana. Perustele vastaus. Merkitse myös mahdolliset Nashin tasapainot peliisi. 2. Ratkaise agenttien ja 007 kuvitteelinen peli. Mihin empiiriseen jakaumaan pelaajakohtainen pelivalinta tulee konvergoitumaan? Miten tämä liitty kyseisen pelin Nashin tasapainoon? -2, 2 2, -2 2, -2-2, 2