Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Talousmatematiikan perusteet: Luento 13 Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Viime luennolla Aloimme tarkastella yleisiä, usean muuttujan funktioita Määrittelimme funktion f(x 1,, x n ) muutosnopeudesta muuttujan x i suhteen kertovan osittaisderivaatan D i f(x 1,, x n ) D i f(x 1,, x n ) > 0: funktio kasvaa muuttujan x i suhteen D i f(x 1,, x n ) < 0: funktio vähenee muuttujan x i suhteen Määrittelimme osittaisderivaattojen vektorin eli gradientin f x 1,, x n = D 1 f(x 1,, x n ) D n f(x 1,, x n ) 2

Tällä luennolla Hyödynnämme gradienttia usean muuttujan funktioiden rajoittamattomassa optimoinnissa Usean muuttujan funktion ääriarvo / satulapiste löytyy gradientin nollakohdasta Ääriarvon / satulapisteen laatu voidaan todeta nk. Hessen matriisin ominaisarvojen avulla 3

Rajoittamaton optimointi Esim. Synteettisen kalanrehun tuotannossa käytetään kemikaaleja A (x kg/t) ja B (y kg/t). Tuotantoprosessissa rehuun jää lievästi myrkyllistä ainetta, jonka määrän (g/t) riippuvuutta kemikaalimääristä x ja y kuvaa funktio f: R R R, f x, y = 17.8x 2 + 71.2y 2 89.0x 320.4y + 523.7 Millä A:n ja B:n määrillä myrkyn määrä on pienin mahdollinen? Kyseessä on kahden muuttujan rajoittamaton optimointitehtävä min f(x, y) 4

Rajoittamaton optimointi Yhden muuttujan funktion f(x) ääriarvo (maksimi tai minimi) löytyy derivaatan nollakohdasta f x = 0 Vastaavasti usean muuttujan funktion ääriarvo (maksimi tai minimi) löytyy pisteestä x = [x 1,, x n ], jossa osittaisderivaatta jokaisen muuttujan suhteen on nolla: D 1 f x = = D n f x = 0 Tämä on ekvivalenttia sen kanssa, että funktion gradientti on nollavektori. Jos funktiolla f on ääriarvo pisteessä x, f x = 0 5

Rajoittamaton optimointi Esimerkin tapauksessa f x, y = D x(17.8x 2 + 71.2y 2 89.0x 320.4y + 523.7) D y (17.8x 2 + 71.2y 2 89.0x 320.4y + 523.7 ) = 35.6x 89 142.4y 320.4 Ehdosta f x, y = 0 saadaan x = 89 35.6 = 2.5 ja y = 320.4 142.4 = 2.25 6

Ääriarvon laatu Kuten yhden muuttujan funktioiden tapauksessa, gradientin nollakohdassa x 0 voi olla lokaali Minimi, Maksimi tai Satulapiste Yhden muuttujan funktioiden tapauksessa ääriarvon laatu selvitettiin toisen derivaatan avulla x 0 on lokaali minimi, jos f x 0 > 0 x 0 on lokaali maksimi, jos f x 0 < 0 x 0 saattaa olla satulapiste, jos f x 0 = 0 7

Hessen matriisi Usean muuttujan funktion tapauksessa ääriarvon laatua pisteessä x tarkastellaan Hessen matriisin H(x) avulla: 2 f 2 f 2 x 1 x 1 x n H(x) = 2 f 2 f x n x 2 1 x n missä 2 f x 2 = i x i pisteessä x f x i ja 2 f x i x j = x j f x i = x i f x j ja derivaatat evaluoidaan Hessen matriisin alkio H(x) ij on siis funktio f x 1,, x n derivoituna ensin muuttujan x i ja sitten muuttujan x j suhteen (tai toisinpäin; järjestyksellä ei ole väliä). Hessen matriisi on symmetrinen neliömatriisi 8

Hessen matriisi Esimerkin tapauksessa f x, y = 17.8x 2 + 71.2y 2 89.0x 320.4y + 523.7 f x = 35.6x 89 f = 142.4y 320.4 y 2 f = D x 2 x 35.6x 89 = 35.6 ja 2 f = D x y y 35.6x 89 = 0 2 f = D y 2 y 142.4y 320.4 = 142.4 ja 2 f = D y x x 142.4y 320.4 = 0 Hessen matriisi pisteessä (x,y) on H x,y = 35.6 0 0 142.4 = H (alkiot vakioita) 9

Presemo-kysymys Määritä funktion f x, y = x 3 y 2 Hessen matriisi. 1. H x, y = 3x2 y 2 2x 3 y 6xy 2 6x 2 y 2. H x, y = 9xy2 6x 2 y 6x 2 y 4x 3 y 3. H x, y = 6xy2 6x 2 y 6x 2 y 2x 3 6.3.2017 10

Ominaisarvot ja -vektorit Neliömatriisille A R n n voidaan määrittää n ominaisarvoa λ R ja ominaisvektoria v R n 1, v 0, jotka toteuttavat yhtälön λv 2 Av = λv Av = λv v 2 v Ominaisvektori v 0 on siis vektori, jonka Suunta ei muutu matriisin A määrittämän lineaarikuvauksen johdosta 0 v 1 λv 1 Pituus kasvaa λ-kertaiseksi 11

Ominaisarvot ja -vektorit Ominaisarvot ja vektorit voidaan ratkaista matriisiyhtälöstä Av = λv Av = λiv Av λiv = 0 (A λi)v = 0 Huomaa, että (A λi)v vastaa matriisin (A λi) sarakkeiden lineaarikombinaatiota, jossa kertoimina ovat vektorin v komponentit: A λi v = a 11 λ a 1n a n1 a nn λ v 1 v n = v 1 a 11 λ a n1 + + v n a 1n a nn λ = 0 Määritelmän mukaan v 0 Lineaarikombinaatio on nollavektori vain, jos matriisin A λi sarakkeet (ja rivit) ovat lineaarisesti riippuvat Mikä oli ekvivalenttia sen kanssa, että det(a λi) = 0 12

Ominaisarvojen ratkaiseminen Ominaisarvot voidaan siis ratkaista yhtälöstä det(a λi) = 0 Esim. Hessen matriisin H = 35.6 0 0 142.4 ominaisarvot: det H λi = 35.6 λ 0 0 142.4 λ = 35.6 λ 142.4 λ 0 = λ2 178λ + 5069.44 = 0 Toisen asteen yhtälön ratkaisukaavasta saadaan: Karakteristinen polynomi λ = 178 ± 1782 4 1 5069.44 2 1 λ 1 = 35.6, λ 2 = 142.4 13

Ominaisvektorien ratkaiseminen Kutakin ominaisarvoa λ i vastaava ominaisvektori v i voidaan ratkaista yhtälöstä (A λ i I)v i = 0 Esim. H = 35.6 0 0 142.4, λ 1 = 35.6, λ 2 = 142.4 H λ 1 I v 1 = H λ 2 I v 2 = 35.6 35.6 0 0 142.4 35.6 35.6 142.4 0 0 142.4 142.4 v 11 v 12 = 0 106.8v 12 = 0 v 1 = v 11 0 v 11 v 12 = 106.8v 11 0 = 0 v 2 = 0 v 22 Yhtä ominaisarvoa vastaavia ominaisvektoreita on ääretön määrä, mutta ne ovat kaikki samansuuntaisia Usein valitaan vektori, jonka pituus on 1 v 1 = v 11 0 v 11 R, valitaan esim. v 1 = 1 0 v 2 = 0 v 22 v 22 R, valitaan esim. v 2 = 0 1 14

Ominaisarvot ja -vektorit Hessen matriisin H = 35.6 0 0 142.4 λ 1 = 35.6, v 1 = 1 0 ja ominaisarvoja vektoriparit ovat siis: λ 2 = 142.4, v 2 = 0 1 Näille pätee Hv 1 = 35.6 0 0 142.4 Hv 2 = 35.6 0 0 142.4 1 0 = 35.6 1 + 0 0 0 1 + 142.4 0 = 35.6 = λ 0 1 v 1 0 1 = 35.6 0 + 0 1 1 0 + 142.4 1 = 0 142.4 = λ 2v 2 15

Ominaisarvot ja definiittisyys Neliömatriisi A R n n on Positiividefiniitti, jos x T Ax > 0 kaikilla x R n 1, x 0 Negatiividefiniitti, jos x T Ax < 0 kaikilla x R n 1, x 0 Indefiniitti, jos löytyy x R n 1 siten, että x T Ax > 0 ja y R n 1 siten, että y T Ay < 0 Symmetrinen neliömatriisi A R n n on Positiividefiniitti, jos kaikki sen ominaisarvot ovat positiivisia: λ i > 0 kaikilla i = 1,, n Negatiividefiniitti, jos kaikki sen ominaisarvot ovat negatiivisia: λ i < 0 kaikilla i = 1,, n Indefiniitti, jos sillä on sekä negatiivisia että positiivisia ominaisarvoja Esim. Symmetrinen neliömatriisi H = 35.6 0 0 142.4 on positiividefiniitti, koska λ 1 = 35.6, λ 2 = 142.4 16

2x2-matriisin tapaus Symmetrinen neliömatriisi H x 1, x 2 on Positiividefiniitti, jos det H x 1, x 2 Negatiividefiniitti, jos det H x 1, x 2 > 0 ja 2 f x 1 2 > 0 pisteessä x 1, x 2 > 0 ja 2 f x 1 2 < 0 pisteessä x 1, x 2 Esim. Symmetrinen neliömatriisi H = 35.6 0 0 142.4 koska - det H = 35.6 0 0 142.4-2 f x 1 2 = 35.6 > 0. = 35.6 142.4 0 0 = 5069.44 > 0 ja on positiividefiniitti, 6.3.2017 17

Definiittisyys ja ääriarvon laatu Tarkastellaan funktiota f(x), jonka gradientti on f x ja Hessen matriisi H x Piste x 0, jossa f x 0 funktion f = 0, on Lokaali minimi, jos H x 0 positiividefiniitti, Lokaali maksimi, jos H x 0 on negatiividefiniitti, Satulapiste, jos H x 0 on indefiniitti 18

Definiittisyys ja ääriarvon laatu Esimerkin tapauksessa Hessen matriisi on positiividefiniitti gradientin nollakohdassa (x, y) = (2.5, 2.25) H x, y = H = 35.6 0 0 142.4 Pisteessä (2.5, 2.25) on siis funktion lokaali (ja itse asiassa myös globaali) minimi Myrkyn minimimäärä: f 2.5, 2.25 = 51.3 g/t 19

Presemo-kysymys Määritä matriisin A = 2 1 1 2 ominaisarvot. 1. λ 1 = 2, λ 2 = 2 2. λ 1 = 3, λ 2 = 3 3. λ 1 = 5, λ 2 = 5 Mitä voit sanoa matriisin definiittisyydestä? 6.3.2017 20

Esimerkki: Kolmen muuttujan funktio Virvoitusjuomayritys tekee kattavan markkinatutkimuksen. Tutkimuksen perusteella juoman kysynnän (milj. litraa / päivä) riippuvuutta sokerin x (kg/l), sitruunamehun y (mg/l) ja aromivahventeen z (g/l) määristä kuvaa funktio f: R 3 R f x, y, z = 4x 2 y 2 z 2 + 0.1xy 0.2xz + 0.22x + 14.8y + 1.12z Mitkä määrät sokeria, sitruunamehua ja aromivahvennetta maksimoivat kysynnän? 21

Esimerkki: Gradientin nollakohta Funktion ääriarvo löytyy gradientin nollakohdasta: f x, y, z = D x ( 4x 2 y 2 z 2 + 0.1xy 0.2xz + 0.22x + 14.8y + 1.12z) D y ( 4x 2 y 2 z 2 + 0.1xy 0.2xz + 0.22x + 14.8y + 1.12z) D z ( 4x 2 y 2 z 2 + 0.1xy 0.2xz + 0.22x + 14.8y + 1.12z) = 8x + 0.1y 0.2z + 0.22 2y + 0.1x + 14.8 2z 0.2x + 1.12 = 0 8 0.1 0.2 0.1 2 0 0.2 0 2 x y z = 0.22 14.8 1.12 x y z = 8 0.1 0.2 0.1 2 0 0.2 0 2 1 0.22 14.8 1.12 22

Esimerkki: Gradientin nollakohta Käänteismatriisi voidaan laskea jollakin ohjelmistolla (Excel, Matlab) 8 0.1 0.2 0.1 2 0 0.2 0 2 1 = 0.1254 0.0063 0.0125 0.0063 2 0.006 0.0125 0.006 0.5013 Gradientin nollakohta on siis pisteessä x y z = 0.1254 0.0063 0.0125 0.0063 2 0.006 0.0125 0.006 0.5013 0.22 14.8 1.12 = 0.1063 7.4053 0.5494 23

Esimerkki: Hessen matriisi Kalvolta 22: f = 8x + 0.1y 0.2z + 0.22 x f = 2y + 0.1x + 14.8 y f = 2z 0.2x + 1.12 z Muodostetaan funktion f x, y, z Hessen matriisi H x, y, z : H x, y, z = 2 f x 2 2 f y x 2 f z x 2 f x y 2 f y 2 2 f z y 2 f x z 2 f y z 2 f z 2 = 8 0.1 0.2 0.1 2 0 0.2 0 2 = H (alkiot eivät riipu muuttujista x, y, z) 24

Esimerkki: Hessen matriisin ominaisarvot Ominaisarvojen laskeminen käsin korkeamman tyypin matriiseille on työlästä http://www.wolframalpha.com/ Syntaksi: eigenvalues{{-8,0.1,-0.2},{0.1,-2,0},{-0.2,0,-2}} Matlab Syntaksi matriisin luomiseen: H=[-8 0.1-0.2; 0.1-2 0; -0.2 0-2]; Syntaksi ominaisarvojen laskemiseen: eig(h) Komento [V,L]=eig(H) palauttaa sekä ominaisvektorit (V:n sarakkeet) että ominaisarvot (L:n lävistäjäalkiot) 25

Esimerkki: Ääriarvon laatu Gradientin nollakohdassa x, y, z = 0.1063, 7.4053, 0.5494 Hessen matriisin kaikki ominaisarvot ovat negatiivisia: λ 1 = 8.01, λ 2 = 2.00, λ 3 = 1.99 Hessen matriisi on negatiividefiniitti Funktio saavuttaa gradientin nollakohdassa maksiminsa Virvoitusjuoman kysyntä maksimoituu siis silloin, kun sokeria on 106 g/l, sitruunamehua 7.4 mg/l ja aromivahvennetta 549 mg/l Kysyntä on tällöin f 0.1063, 7.4053, 0.5494 = 55.12 miljoonaa litraa / päivä 26

Vielä ominaisarvoista ja -vektoreista Kuvat: https://en.wikipedia.org/wiki/eigenvalues_and_eigenvectors Tällä kurssilla käsittelemme ominaisarvoja vain ääriarvon laadun tarkastelun yhteydessä Ominaisarvoilla ja vektoreilla on kuitenkin lukuisia muitakin tärkeitä sovelluksia Schrödingerin aaltoyhtälö: Hψ E = Eψ E, missä ψ E on Hamiltonin operaattorin ominaisaaltofunktio ja E sitä vastaava ominaisarvoenergia Pääkomponenttianalyysi: Kuinka projisoida n- ulotteinen data pienempiulotteiseen avaruuteen siten, että aineiston varianssi pienenisi mahdollisimman vähän? Valitaan pienempiulotteisen avaruuden virittävät vektorit matriisin X T X ominaisvektoreista ominaisarvojen suuruusjärjestyksessä (X= havaintoaineistomatriisi) Hahmontunnistus: Ominaiskasvot (pääkomponenttianalyysin sovellus) 27

Yhteenveto Rajoittamattoman optimointitehtävän ratkaisu: 1. Määritä gradientin nollakohta x 0 : f x 0 = 0 2. Muodosta Hessen matriisi H(x) 3. Kahden muuttujan tehtävät (pitää osata tentissä): o Jos det H x 0 > 0 ja 2 f x 1 2 > 0, pisteessä x 0 on funktion lokaali minimi o Jos det H x 0 > 0 ja 2 f x 1 2 < 0, pisteessä x 0 on funktion lokaali maksimi 3. Useamman muuttujan tehtävät (ei tarvitse osata laskea tentissä, mutta idea pitää ymmärtää): Laske Hessen matriisin ominaisarvot gradientin nollakohdassa yhtälöstä det H(x 0 ) λi = 0 o o o Jos kaikki ominaisarvot ovat positiivisia, pisteessä x 0 on funktion lokaali minimi Jos kaikki ominaisarvot ovat negatiivisia, pisteessä x 0 on funktion lokaali maksimi Jos matriisilla on sekä negatiivisia että positiivisia ominaisarvoja, x 0 on funktion satulapiste 6.3.2017 28