Informaation arvo. Ohjelmistotekniikan laitos OHJ-2550 Tekoäly, kevät

Samankaltaiset tiedostot
KOMPLEKSISET PÄÄTÖKSET

Approksimatiivinen päättely

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Nollasummapelit ja bayesilaiset pelit

Markov-ketjut pitkällä aikavälillä

Markov-kustannusmallit ja kulkuajat

Markov-ketjut pitkällä aikavälillä

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Yhtälöryhmät 1/6 Sisältö ESITIEDOT: yhtälöt

Mat Lineaarinen ohjelmointi

3. Teoriaharjoitukset

1 Kertaus. Lineaarinen optimointitehtävä on muotoa:

4.0.2 Kuinka hyvä ennuste on?

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

4.5 Kaksivaiheinen menetelmä simplex algoritmin alustukseen

6 Vektoriavaruus R n. 6.1 Lineaarikombinaatio

Esimerkki: Tietoliikennekytkin

Talousmatematiikan perusteet: Luento 12. Lineaarinen optimointitehtävä Graafinen ratkaisu Ratkaisu Excel Solverilla

Lineaarinen optimointitehtävä

Muuttujien eliminointi

Moraalinen uhkapeli: laajennuksia ja sovelluksia

Lineaarinen optimointi. Harjoitus 6-7, Olkoon A R m n, x, c R ja b R m. Osoita, että LP-tehtävän. c T x = min!

Aloitamme yksinkertaisella leluesimerkillä. Tarkastelemme yhtä osaketta S. Oletamme että tänään, hetkellä t = 0, osakkeen hinta on S 0 = 100=C.

Luento 5: Suurten lineaaristen yhtälöryhmien ratkaiseminen iteratiivisilla menetelmillä

9.5. Turingin kone. Turingin koneen ohjeet. Turingin kone on järjestetty seitsikko

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Matematiikan tukikurssi, kurssikerta 5

D ( ) E( ) E( ) 2.917

ln S(k) = ln S(0) + w(i) E[ln S(k)] = ln S(0) + vk V ar[ln S(k)] = kσ 2

Numeeriset menetelmät

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Piiri K 1 K 2 K 3 K 4 R R

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 5. marraskuuta 2015

Malliratkaisut Demo 1

MS-A0004/A0006 Matriisilaskenta

Algoritmit 1. Luento 1 Ti Timo Männikkö

JYVÄSKYLÄN YLIOPISTO. 3. Luennon sisältö

Matriisilaskenta Luento 8: LU-hajotelma

Demo 1: Simplex-menetelmä

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

Haitallinen valikoituminen: yleinen malli ja sen ratkaisu

TIEA241 Automaatit ja kieliopit, kesä Antti-Juhani Kaijanaho. 29. toukokuuta 2013

(iv) Ratkaisu 1. Sovelletaan Eukleideen algoritmia osoittajaan ja nimittäjään. (i) 7 = , 7 6 = = =

Talousmatematiikan perusteet: Luento 11. Lineaarinen optimointitehtävä Graafinen ratkaisu Ratkaisu Excel Solverilla

Diskreettiaikainen dynaaminen optimointi

Epälineaaristen yhtälöiden ratkaisumenetelmät

Lineaarisen kokonaislukuoptimointitehtävän ratkaiseminen

3.6 Su-estimaattorien asymptotiikka

Arvo (engl. value) = varmaan attribuutin tulemaan liittyvä arvo. Päätöksentekijä on riskipakoinen, jos hyötyfunktio on konkaavi. a(x) = U (x) U (x)

13 Lyhimmät painotetut polut

Kertausta 1. kurssikokeeseen

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä?

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä?

Prof. Marko Terviö Assist. Jan Jääskeläinen

Yhteistyötä sisältämätön peliteoria jatkuu

Dynaamiset regressiomallit

Avaruuden R n aliavaruus

Pelien teoriaa: tasapainokäsitteet

Luento 1: Optimointimallin muodostaminen; optimointitehtävien luokittelu

Matematiikka ja teknologia, kevät 2011

Kokonaislukuoptiomointi Leikkaustasomenetelmät

TIEA241 Automaatit ja kieliopit, kevät Antti-Juhani Kaijanaho. 12. tammikuuta 2012

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Turingin koneen laajennuksia

Dynaaminen ohjelmointi ja vaikutuskaaviot

Mat Dynaaminen optimointi, mallivastaukset, kierros 11

3. Laskennan vaativuusteoriaa

Operatioanalyysi 2011, Harjoitus 3, viikko 39

Tehtäväsarja I Seuraavat tehtävät liittyvät kurssimateriaalin lukuun 7 eli vapauden käsitteeseen ja homogeenisiin

Gaussin ja Jordanin eliminointimenetelmä

Kombinatorinen optimointi

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

7 Vapaus. 7.1 Vapauden määritelmä

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

811312A Tietorakenteet ja algoritmit Kertausta kurssin alkuosasta

1 Komparatiivinen statiikka ja implisiittifunktiolause

TIEA241 Automaatit ja kieliopit, kesä Antti-Juhani Kaijanaho. 22. toukokuuta 2013

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

4. Luennon sisältö. Lineaarisen optimointitehtävän ratkaiseminen Simplex-menetelmä

Päättelyn voisi aloittaa myös edellisen loppupuolelta ja näyttää kuten alkupuolella, että välttämättä dim W < R 1 R 1

Johdatus lukuteoriaan Harjoitus 2 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

Malliratkaisut Demot

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Matematiikan tukikurssi

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 16. marraskuuta 2015

Esteet, hyppyprosessit ja dynaaminen ohjelmointi

Toistetut pelit Elmeri Lähevirta. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

1 Rajoitettu optimointi I

Numeeriset menetelmät TIEA381. Luento 4. Kirsi Valjus. Jyväskylän yliopisto. Luento 4 () Numeeriset menetelmät / 44

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Sovellettu todennäköisyyslaskenta B

Tehtäväsarja I Seuraavat tehtävät liittyvät kurssimateriaalin lukuun 7 eli vapauden käsitteeseen ja homogeenisiin

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Haitallinen valikoituminen: Kahden tyypin malli

Laskutoimitusten operaattorinormeista

Jos siis ohjausrajoitusta ei olisi, olisi ratkaisu triviaalisti x(s) = y(s). Hamiltonin funktio on. p(0) = p(s) = 0.

Tentissä on viisi tehtävää, jotka arvosteellaan asteikolla 0-6. Tehtävien alakohdat ovat keskenään samanarvoisia ellei toisin mainita.

Transkriptio:

259 Informaation arvo Öljykenttään myydään porausoikeuksia, palstoja on n kappaletta, mutta vain yhdessä niistä on C euron edestä öljyä Yhden palstan hinta on C/n euroa Seismologi tarjoaa yritykselle tutkimustietoa palstasta nro 3, joka paljastaa aukottomasti onko palstalla öljyä vai ei Paljonko yrityksen kannattaa maksaa tiedosta? Todennäköisyydellä 1/n tutkimus kertoo palstalla 3 olevan öljyä, jolloin yritys hankkii sen hintaan C/n ja ansaitsee (n)c/n euroa Todennäköisyydellä (n)/n tutkimus osoittaa, ettei palsta 3 sisällä öljyä, jolloin yhtiö hankkii jonkin muista palstoista 260 Koska palstan 3 tilanne jo tunnetaan, niin ostetulta pastalta löytyy nyt öljyä tn.:llä 1/(n), joten yhtiön odotusarvoinen voitto on C/(n) - C/n = C/n(n) euroa Odotusarvoinen voitto annettuna tutkimustulos on siis (1/n) ((n)c/n) + ((n)/n) (C/n(n)) = C/n Seismologille siis kannattaa maksaa aina palstan hintaan asti Lisäinformaatio on arvokasta, koska sen avulla toiminta voidaan sopeuttaa vallitsevaan tilanteeseen Ilman informaatiota on tyydyttävä kaikissa mahdollisissa tilanteissa keskimäärin parhaaseen toimintaan 1

261 Olk. E j on satunnaismuuttuja, jonka arvosta saadaan uusi tarkka havainto Agentin aiempi tietämys on E Ilman lisäinformaatiota parhaan toiminnon arvo on EU( E) = max A i U(Tulos i (A)) P(Tulos i (A) Suorita(A), E) Uusi havainto muuttaa parhaan toiminnon ja sen arvon Mutta toistaiseksi E j on satunnaismuuttuja, jonka arvoa ei tunneta, joten voimme vain summata yli sen kaikkien mahdollisten arvojen e jk Havainnon E j arvo on lopulta ( k P(E j = e jk E) EU( ejk E, E j = e jk )) - EU( E) 262 Lisäinformaatiolla on arvoa sikäli kun se voi johtaa suunnitelman muutokseen ja uusi suunnitelma on oleellisesti parempi kuin vanha Merk. VPI E (E j ) on havainnon E j arvo, kun nykyhavainnot ovat E Minkä tahansa havainnon arvo on ei-negatiivinen j, E: VPI E (E j ) 0 Arvo riippuu nykyisestä tilasta, joten se voi muuttua tietämyksen myötä Äärimmillään informaation arvo putoaa nollaan, kun tarkastellulle muuttujalle jo tunnetaan arvo Siksi informaation arvo ei ole additiivinen VPI E (E j, E k ) VPI E (E j ) + VPI E (E k ) 2

263 Käytännössä tärkeää on, että informaation arvo on järjestysvapaa VPI E (E j, E k ) = VPI E (E j ) + VPI E,Ej (E k ) = VPI E,Ek (E j ) + VPI E (E k ) Tämän perusteella havainnot voidaan erottaa toiminnoista Agentin tulisi hankkia lisäinformaatiota kyselyin järkevässä järjestyksessä, irrelevantteja kysymyksiä välttäen, ottaen huomioon informaation arvon suhteessa sen kustannukseen, vain silloin kun se on järkevää Myopinen agentti tekee toimintapäätöksen heti jos mikään havaintomuuttujista ei näytä riittävän hyödylliseltä ei tutkita muuttujakombinaatioita 264 4.3 KOMPLEKSISET PÄÄTÖKSET Agentin hyötyarvo riippuukin nyt sarjasta toimintapäätöksiä Oheisessa 4 3ruudukkomaailmassa agentti tekee siirtymäpäätöksen (Y, O, V, A) jokaisella ajanhetkellä Kun päädytään toiseen maalitiloista, niin toiminta lakkaa Maailma on täysin havainnoitava agentti tietää sijaintinsa Lähtö 3

265 Jos maailma on deterministinen, niin agentti pääsee lähtötilasta aina lopputilaan siirtymin [Y, Y, O, O, O] Koska toiminnot kuitenkin ovat epäluotettavia, niin siirtymäsekvenssi ei aina johda haluttuun tulokseen Olkoon niin, että aiottu toiminto toteutuu todennäköisyydellä 0.8 ja todennäköisyydellä 0.1 liike suuntautuukin kohtisuoriin suuntiin Jos agentti törmää maailmansa rajoihin, niin toiminnolla ei ole vaikutusta Tällöin sekvenssi [Y, Y, O, O, O] johtaakin maaliin vain todennäköisyydellä 0.8 5 = 0.32768 Lisäksi agentti voi päätyä maaliin sattumalta kiertämällä esteen toista kautta todennäköisyydellä 0.1 4 0.8, joten kokonaistodennäköisyys on 0.32776 266 Siirtymämalli antaa todennäköisyydet toimintojen tuloksille maailman kaikissa mahdollisissa tiloissa Merk. T(s, a, s') on tilan s' saavuttamistodennäköisyys kun toiminto a suoritetaan tilassa s Siirtymät ovat Markovilaisia sikäli, että vain nykytila s, ei aiempien tilojen historia, vaikuttaa siihen saavutetaanko s' Vielä on määrättävä hyötyfunktio Päätösongelma on sekventiaalinen, joten hyötyfunktio riippuu tilajonosta ympäristöhistoriasta eikä vain yhdestä tilasta Toistaiseksi agentti saa kussakin tilassa s palkkion (reward) R(s), joka voi olla positiivinen tai negatiivinen 4

267 Esimerkissämme palkkio on -0.04 kaikissa muissa tiloissa paitsi lopputiloissa Ympäristöhistorian hyöty puolestaan on palkkioiden summa Jos esim. agentti saavuttaa lopputilan kymmenen siirtymän jälkeen, niin hyöty on 0.6 Pienen negatiivisen palautteen tarkoitus on saada agentti maalitilaan mahdollisimman nopeasti Täysin havainnoitavan maailman sekventiaalinen päätösongelma, kun siirtymämalli on Markovilainen ja palkkiot summataan, on Markov-päätösongelma (Markov decision problem, MDP) 268 MDP on kolmikko alkutila S 0, siirtymämalli T(s, a, s') ja palkkiofunktio R(s) Ratkaisuksi MDP:hen ei kelpaa kiinteä siirtymäsekvenssi, koska se voi kuitenkin johtaa muuhun tilaan kuin maaliin Vastauksen onkin oltava politiikka, joka määrää toiminnan kussakin tilassa, johon agentti voi päätyä Politiikan suosittama toiminto tilassa s on (s) Täydellisen politiikan avulla agentti aina tietää mitä tehdä heittipä epädeterministinen toimintaympäristö sen mihin tilaan tahansa 5

269 Joka kerta kun politiikkaa sovelletaan, maailman stokastisuus johtaa eri ympäristöhistoriaan Politiikan laadun mittari onkin sen mahdollisesti tuottamien ympäristöhistorioiden hyödyn odotusarvo Optimaalisen politiikan * odotusarvo on korkein Politiikka antaa eksplisiittisen kontrollin agentin käyttäytymiselle ja samalla yksinkertaisen refleksiivisen agentin kuvauksen 270-0.0221 < R(s) < 0: -0.4278 < R(s) < -0.0850: 6

271 R(s) <.6284: R(s) > 0: 272 Äärettömän horisontin tapauksessa agentin toiminta-ajalle ei ole asetettu ylärajaa Jos toiminta-aika on rajoitettu, niin eri aikoina samassa tilassa voidaan joutua tekemään eri toimintopäätöksiä optimaalinen politiikka ei ole stationäärinen Sen sijaan äärettömän horisontin tapauksessa ei ole syytä muuttaa tilan toimintaa kerrasta toiseen, joten optimaalinen politiikka on stationäärinen Tilajonon s 0, s 1, s 2, diskontattu palkkio on R(s 0 ) + R(s 1 ) + 2 R(s 2 ) +, missä 0 < 1 on diskonttaustekijä 7

273 Kun = 1, niin ympäristöhistorian palkkioksi saadaan erikoistapauksena additiivinen palkkio Lähellä nollaa oleva puolestaan tarkoittaa tulevien palkkioiden merkityksen pienenemistä Jos äärettömän horisontin maailmassa ei ole lainkaan saavutettavaa maalitilaa, niin ympäristöhistorioista tulee äärettömän pitkiä Additiivisilla palkkioilla myös hyötyarvot kasvavat yleisesti ottaen äärettömiksi Diskontatuilla palkkioilla ( < 1) äärettömänkin jonon palkkio on äärellinen 274 Olk. R max palkkioiden yläraja. Tällöin geometrisen sarjan summana t=0,, t R(s t ) t=0,, t R max = R max /(1 - ) Kelvollinen politiikka (proper policy) takaa agentin pääsevän lopputilaan silloin kun ympäristössä on lopputiloja Tällöin äärettömistä tilajonoista ei ole huolta ja voidaan jopa käyttää additiivisia palkkioita Optimaalinen politiikka diskontatuilla palkkioilla on *= arg max E[ t=0,, t R(s t ) ], missä odotusarvo lasketaan yli kaikkien mahdollisten tilajonojen, jotka voisivat tulla kyseeseen politiikalla 8

275 Arvojen iterointi Optimaalisen politiikan selvittämiseksi lasketaan tilojen hyötyarvot ja käytetään niitä optimaalisen toiminnon valitsemiseen Tilan hyödyksi lasketaan sitä mahdollisesti seuraavien tilajonojen odotusarvoinen hyöty Luonnollisesti jonot riippuvat käytetystä politiikasta Olkoon s t tila, jossa agentti on kun :tä on noudatettu t askelta Huom. s t on satunnaismuuttuja Nyt U (s) = E[ t=0,, t R(s t ), s 0 = s ] 276 Tilan todellinen hyötyarvo U(s) on U * (s) Palkkio R(s) siis kuvaa tilassa s olemisen lyhyen tähtäyksen hyödyllisyyttä, kun taas U(s) on s:n pitkän tähtäyksen hyödyllisyys siitä eteenpäin laskien Esimerkkimaailmassamme maalitilan lähellä olevilla tiloilla on korkein hyötyarvo, koska niistä matka on lyhin 0.812 0.868 0.912 0.762 0.660 0.705 0.655 0.611 0.388 9

277 Nyt voidaan soveltaa hyödyn odotusarvon maksimointia *(s) = arg max a s T(s, a, s') U(s') (*) Koska tilan s hyöty nyt on diskontattujen palkkioiden summan odotusarvo tästä tilasta eteenpäin, niin se voidaan laskea: Välitön palkkio tilassa s, R(s), + seuraavan tilan diskontatun hyödyn odotusarvo olettaen, että valitaan optimaalinen toiminto U(s) = R(s) + max a s T(s, a, s') U(s') Tämä on Bellman-yhtälö Toimintaympäristössä, jossa on n tilaa, on myös n Bellmanyhtälöä 278 Bellman-yhtälöiden yht'aikaiseen ratkaisemiseen ei voi käyttää lineaaristen yhtälöryhmien tehokkaita ratkaisumenetelmiä, koska max ei ole lineaarinen operaatio Iteratiivisessa ratkaisussa aloitamme tilojen hyötyjen mv. arvoista ja päivitämme niitä kunnes saavutetaan tasapainotila U i (s) R(s) + max a s T(s, a, s') U i (s'), missä indeksi i viittaa iteraation i hyötyarvioon Päivitysten toistuva soveltaminen päätyy taatusti tasapainotilaan, jolloin saavutetut tilojen hyötyarviot ovat ratkaisu Bellmanyhtälöihin Löydetyt ratkaisut ovat yksikäsitteisiä ja vastaava politiikka on optimaalinen 10

279 Politiikan iterointi Alkaen lähtöpolitiikasta 0 toista Politiikan arviointi: laske kaikille tiloille hyötyarvo U i = U i politiikkaa i sovellettaessa Politiikan parantaminen: perustuen arvoihin U i laske uusi hyödyn odotusarvon maksimoiva politiikka i (vrt. (*)) Kun jälkimmäinen askel ei enää muuta hyötyarvoja, niin algoritmi päättyy Tällöin U i on Bellman-päivityksen kiintopiste ja ratkaisu Bellmanyhtälöihin, joten vastaavan politiikan i on oltava optimaalinen Äärellisellä tila-avaruudella on vain äärellinen määrä politiikkoja, jokainen iteraatio parantaa politiikkaa, joten politiikan iterointi päättyy lopulta 280 Koska kullakin kierroksella politiikka on kiinnitetty, niin politiikan arvioinnissa ei ole tarvetta maksimoida yli toimintojen Bellman-yhtälö yksinkertaistuu: U i (s) = R(s) + s T(s, i (s), s') U i (s') Koska epälineaarisesta maksimoinnista on päästy eroon, on tämä lineaarinen yhtälö Lineaarinen yhtälöryhmä, jossa on n yhtälöä ja niissä n tuntematonta muuttujaa voidaan ratkaista ajassa O(n 3 ) lineaarialgebran menetelmin Kuutiollisen ajan sijaan voidaan tyytyä approksimoimaan politiikan laatua ajamalla vain tietty määrä yksinkertaisia arvojen iterointi -askelia kelvollisten hyötyarvioiden saamiseksi 11