Opettaminen ja oppiminen

Samankaltaiset tiedostot
Toistetut pelit Elmeri Lähevirta. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Kommunikaatio Visa Linkiö. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Yhteistyötä sisältämätön peliteoria

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Yhteistyötä sisältämätön peliteoria jatkuu

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Johdanto peliteoriaan Kirja kpl. 2

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Nollasummapelit ja bayesilaiset pelit

anna minun kertoa let me tell you

AYYE 9/ HOUSING POLICY

Opiskelijat valtaan! TOPIC MASTER menetelmä lukion englannin opetuksessa. Tuija Kae, englannin kielen lehtori Sotungin lukio ja etälukio

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Choose Finland-Helsinki Valitse Finland-Helsinki

LYTH-CONS CONSISTENCY TRANSMITTER

Käytön avoimuus ja datanhallintasuunnitelma. Open access and data policy. Teppo Häyrynen Tiedeasiantuntija / Science Adviser

Capacity Utilization

F-SECURE TOTAL. Pysy turvassa verkossa. Suojaa yksityisyytesi. Tietoturva ja VPN kaikille laitteille. f-secure.com/total

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

Security server v6 installation requirements

Efficiency change over time

SIMULINK S-funktiot. SIMULINK S-funktiot

Peliteoria Strategiapelit ja Nashin tasapaino. Sebastian Siikavirta

Hankkeiden vaikuttavuus: Työkaluja hankesuunnittelun tueksi

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

Sekastrategiat ja intensiiviyhteensopivuus

Evolutiivisesti stabiilin strategian oppiminen

Uusia kokeellisia töitä opiskelijoiden tutkimustaitojen kehittämiseen

Security server v6 installation requirements

Epätäydellisen tiedon jatkuvat pelit. Mika Viljanen Peliteorian seminaari

ATLAS-kartan esittely - Peli palveluiden yhteiskehittämisen menetelmistä Päivi Pöyry-Lassila, Aalto-yliopisto

Vangin dilemma häiriöisessä ympäristössä Markov-prosessina (valmiin työn esittely) Lasse Lindqvist

Luento 5: Peliteoriaa

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

Windows Phone 7.5 erilainen ja fiksu älypuhelin. Vesa-Matti Paananen Liiketoimintajohtaja, Windows Phone Microsoft Oy

Peliteorian soveltaminen hajautettujen järjestelmien protokollasuunnittelussa (valmiin työn esittely)

MS-C2105 Optimoinnin perusteet Malliratkaisut 5

Vertaispalaute. Vertaispalaute, /9

Alueellinen yhteistoiminta

Maailman epidemiatilanteen seuranta ja riskinarviointi

1. Liikkuvat määreet

Olet vastuussa osaamisestasi

Expression of interest

Strategiset kyvykkyydet kilpailukyvyn mahdollistajana Autokaupassa Paula Kilpinen, KTT, Tutkija, Aalto Biz Head of Solutions and Impact, Aalto EE

812336A C++ -kielen perusteet,

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

Other approaches to restrict multipliers

Rationalisoituvuus ja yleinen tieto rationaalisuudesta

Julkaisun laji Opinnäytetyö. Sivumäärä 43

16. Allocation Models

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

Results on the new polydrug use questions in the Finnish TDI data

Pohdiskeleva ajattelu ja tasapainotarkennukset

The Viking Battle - Part Version: Finnish

Computer based team play analysis in ice hockey coaching - an objective way to have feedback. Jouko Lukkarila

Salasanan vaihto uuteen / How to change password

Peliteoria luento 3. May 27, Peliteoria luento 3

ESS oppiminen ja sen simulointi

Pelien teoriaa: tasapainokäsitteet

Curriculum. Gym card

PELITEORIAN PERUSTEITA

Strateginen kanssakäyminen. Taloustieteen perusteet Matti Sarvimäki

make and make and make ThinkMath 2017

Strateginen kanssakäyminen Taloustieteen perusteet Matti Sarvimäki

SAMI HYYPIÄ ACADEMY FOOTBALL CAMP , EERIKKILÄ LEIRIN HARJOITTEET YHTEENVETO: KIMMO KANTOLA

Sisällysluettelo Table of contents

Signalointi: autonromujen markkinat

Alternative DEA Models

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

The CCR Model and Production Correspondence

HYÖDYNNÄ SUBSCRIPTION-ETUSI

Garden Furniture. Puutarhakalusteita

Tasapaino epätäydellisen tiedon peleissä

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

Computer based team play analysis in ice hockey coaching - an objective way to have feedback. Jouko Lukkarila

Dynaaminen hintakilpailu ja sanattomat sopimukset

HYÖDYNNÄ SUBSCRIPTION-ETUSI

Operatioanalyysi 2011, Harjoitus 2, viikko 38

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

SEKASTRATEGIAT PELITEORIASSA

Skene. Games Refueled. Muokkaa perustyyl. for Health, Kuopio

xbox pelit need for speed underground 2 half life 2 luettelo xbox peleista grand theft auto san andreas run like hell max payne

FIS IMATRAN KYLPYLÄHIIHDOT Team captains meeting

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Y56 laskuharjoitukset 6

Turingin testin historia

Pelin kautta opettaminen

Luento 5: Peliteoriaa

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Co-Design Yhteissuunnittelu

11 Oligopoli ja monopolistinen kilpailu (Mankiw & Taylor, Ch 17)

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Matkustaminen Majoittuminen

Matkustaminen Majoittuminen

Basic Flute Technique

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Onnistuuko hakkerien ja artistien yhteistyö?

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Dynaaminen hintakilpailu ja sanattomat (epäsuorat) sopimukset osa II

Transkriptio:

Opettaminen ja oppiminen MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly 19.10.2016 Nina Gunell The document can be stored and made available to the public on the open internet pages of Aalto University. All other rights are reserved.

Kyky oppia on yksi tärkeimmistä tekijöistä kaikessa älykkäässä käyttäytymisessä Tarkastellaan kahta erillaista osa-alueelta: 1 YKSITTÄINEN AGENTTI 2 MONIAGENTTI SYSTEEMI Tekoäly (Artifical Intelligence) Peliteoria (Game Theory)

1 Perinteisesti tekoäly liittyy yhden agentin systeemiin, jossa agentti jatkuvasti oppii ympäristöstään Yksittäinen agentti Angle! Agentin päätehtävä on oppia toimimaan tuntemattomassa ympäristössä Ympäristö voi olla dynaaminen, mutta agentteja aina vain yksi

2 Moniagenttisessa systeemissä agenttien oppimiseen vaikuttaa vahvasti muiden agenttien oppiminen Moniagentti systeemi Last time we played 007 chose A I think he will choose it again. I choose B. Last time we played chose A I think he will choose it again. I choose B. Pelaajat oppivat toistuvassa pelissä jatkuvasti toisistaan lopputulos ei aina haluttu Voisiko tai 007 toimia opettajana tässä tilanteessa?

Tässä tilanteessa voi toimia opettajana 007:lle, jolloin molempien voitto on suurempi kuin Nashin tasapainossa Yksi peli has a dominant strategy B that he will play, I ll play A! 2,1 2,1 Toistuva peli Dominoiva strategia :lle Aito Nashin tasapaino Saavutettu voitto I will keep playing A, in the end 007 will understand my hint! 3, 2

Useissa tilanteissa opettajan rooli ei ole selvä, jolloin riskinä on epäkoordinaatiosta johtuva nollatulos How to prevent the awkward sidewalk shuffle 0, 0 0, 0

Opettaminen ja oppiminen tapahtuvat yleisesti saman aikaisesti jokainen yrittää löytää parhaan strategian Parhaan strategian löytämiseen liittyy vahvasti toisen pelaajan strategian ymmärtäminen Toistuvassa pelissä ymmärrys perustuu menneisyyteen aikaisempien pelien strategiat ja niistä saadut tulokset Riippuen pelin havoittavuudesta voi taustalla oleva peli olla pelaajille täysin tuntematon ja/tai varmaa tietoisuutta toisen pelaajan valinnoista ei ole Kaikesta huolimatta agentit voivat tietyissä tilanteissa silti löytää tasapainotilan

Oppimiseen liittyvät strategiat voidaan jakaa kahteen pääkategoriaan Syventyminen seuraavalla sivulla Descriptive theories Kuinka hyvin malli pystyy mallintamaan (esim. ihmisten) todellista käyttäytymistä Prescriptive theories Tutkimusta siitä miten agentein kuuluisi oppia Mikään oppimisstrategia ei toimi kaikkille vastustajille

Oppimissääntöä valitseassa kannattaa ottaa huomioon mitkä kriteeriat haluaa täyttää Useille kriteerioille on olemassa opimissääntö, esim: Turvallisuus: A learning rule is safe if it guarantees the agent at least a given maxmin payoff or security value Rationaliteetti: A learning rule is rational if whenever the opponent settles on a stationary strategy the agent settles on a best response to that strategy

Kuvitteellisessä pelisse (fictitious play) pelaaja olettaa vastustajan pelaavan samoin kuin menneisyydessä 1. Choose an arbitrary non-zero vector for initial beliefs, e.g. thinks that 007 have chosen 2.5 x Left and 1 x Right (2.5,1) and 007 thinks that have chosen 1.5 x Left and 2 x Right (1.5,2) 2. Each agent assumes a stationary policy for the other (even though the player itself will not play a stationary policy). Therefore believes 007 will choose left P(Left) = 2/3.5 and P(Right) = 1/3.5, according to the info from the past. As P(Left) > P(Right), assumes 007 will play Left. 3. Play the best possible response when assuming that 007 will play Left -> should also choose Left. Repeat for 007. Update table with given information. 1,-1-1, 1-1, 1 1, -1

Esimerkki kuvitteellisestä pelistä (fictitious play) 1/2 1,-1-1, 1-1, 1 1, -1 Round s action 007 s action s beliefs 007 s beliefs 0 (2.5,1) (1.5,2) 1 L L (3.5,1) (2.5,2) 2 L R (3.5,2) (3.5,2) 3 L R (3.5,3) (4.5,2) 4 L R (3.5,4) (5.5,2) 5 R R (3.5,5) (5.5,3) Mikäli pelaajakohtaisen pelivalinnan empiirinen jakauma konvergoituu kuvitteellisessa pelissä, konvergoituu se kohti Nashin tasapainoa.

Esimerkki kuvitteellisestä pelistä (fictitious play) 2/2 0, 0 1, 1 1, 1 0, 0 Round s action 007 s action s beliefs 007 s beliefs 0 (1,0.5) (1,0.5) 1 R R (1,1.5) (1,1.5) 2 L L (2,1.5) (2,1.5) 3 R R (2,2.5) (2,2.5) 4 L L (3,2.5) (3,2.5) 5 R R (3.3,5) (5,3,5) Epäkoordinaation takia molempien agenttien tulos on jatkuvasti 0

On olemassa monia muita oppimissääntöjä, kuten esimerkiksi rationaalinen oppiminen Pystyy ottaamaan huomioon paljon vaikeampia strategioita, kuten esim. TfT Vangin dilemmassa (matki toisen käytöstä) Jokaisen pelikierroksen jälkeen agentti päivittää tietojaan vastustajan strategiasta Tarkoitus ei ole saada selville yhtä ainoata oikeata vastausta vastustajan strategialle, vain suurempi osajoukko mahdollisia strategioita

Onko kysymyksiä? Moniagentti systeemi Last time we played 007 chose A I think he will choose it again. I choose B. Last time we played chose A I think he will choose it again. I choose B. Pelaajat oppivat toistuvassa pelissä jatkuvasti toisistaan lopputulos ei aina haluttu Voisiko tai 007 toimia opettajana tässä tilanteessa?

Terminologia Opettaminen = Agentti opettaa käytöstä toiselle agentille Oppiminen = Vastaanottaa tietoa toisesta agentista ja sen käyttäymisestä (multiagenttijärjstelmissä) Tekoäly = Tuotettua älyä, eli kaikki äly kaikissa laitteissa Agentti = Osa suurempaa järjstelmää oleva verkon solmukohta Dominant strategy = Parempi strategia riippumatta mitä vastustaja tekee Toisutva peli = Peli jota pelataan äärellisen tai äärettömän kertaa peräkkäin Havoittavuus = Kuinka paljon pelistä näytetään ulospäin pelaajille Fictious play, kuivtteellinen peli = Oppimissääntö, jossa käytetään menneisyydeän todennäköisyyttä hyväksi Descriptive theory = Kuinka hyvin malli toimi reaalimaailmaan Prescriptive theory = Tutkitaan miten pitäisi oppia 007 = James Bond

Kotitehtävät 1. Anna esimerkki kahden pelaajan pelistä, jossa toinen pelaajista pystyy selvästi muuttaamaan pelin tulosta toimimalla opettajana. Perustele vastaus. Merkitse myös mahdolliset Nashin tasapainot peliisi. 2. Ratkaise agenttien ja 007 kuvitteelinen peli. Mihin empiiriseen jakaumaan pelaajakohtainen pelivalinta tulee konvergoitumaan? Miten tämä liitty kyseisen pelin Nashin tasapainoon? -2, 2 2, -2 2, -2-2, 2