Talousmatematiikan perusteet: Luento 14 Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu
Luennolla 6 Tarkastelimme yhden muuttujan funktion f(x) rajoittamatonta optimointia Totesimme, että funktion ääriarvopiste x 0 löytyy derivaatan nollakohdasta f x 0 = 0 Ääriarvopiste x 0 on Lokaali minimi, jos f x 0 > 0 (eli väheneminen muuttuu kasvuksi) Lokaali maksimi, jos f x 0 < 0 (eli kasvu muuttuu vähenemiseksi) 23.2.2018 2
Viime luennolla Aloimme tarkastella yleisiä, usean muuttujan funktioita Määrittelimme funktion f(x 1,, x n ) muutosnopeudesta muuttujan x i suhteen kertovan osittaisderivaatan D i f(x 1,, x n ) D i f(x 1,, x n ) > 0: funktio kasvaa muuttujan x i suhteen D i f(x 1,, x n ) < 0: funktio vähenee muuttujan x i suhteen Määrittelimme osittaisderivaattojen vektorin eli gradientin f x 1,, x n = D 1 f(x 1,, x n ) D n f(x 1,, x n ) 3
Tällä luennolla Hyödynnämme gradienttia usean muuttujan funktioiden rajoittamattomassa optimoinnissa Usean muuttujan funktion ääriarvo / satulapiste löytyy gradientin nollakohdasta Ääriarvon / satulapisteen laatu voidaan todeta nk. Hessen matriisin definiittisyyden avulla 4
Rajoittamaton optimointi Esim. Synteettisen kalanrehun tuotannossa käytetään kemikaaleja A (x kg/t) ja B (y kg/t). Tuotantoprosessissa rehuun jää lievästi myrkyllistä ainetta, jonka määrän (g/t) riippuvuutta kemikaalimääristä x ja y kuvaa funktio f: R + R + R, f x, y = 17.8x 2 + 71.2y 2 89.0x 320.4y + 523.7 Millä A:n ja B:n määrillä myrkyn määrä on pienin mahdollinen? Kyseessä on kahden muuttujan rajoittamaton optimointitehtävä min f(x, y) 5
Rajoittamaton optimointi Yhden muuttujan funktion f(x) ääriarvo (maksimi tai minimi) löytyy derivaatan nollakohdasta f x = 0 Vastaavasti usean muuttujan funktion ääriarvo (maksimi tai minimi) löytyy pisteestä x = [x 1,, x n ], jossa osittaisderivaatta jokaisen muuttujan suhteen on nolla: D 1 f x = = D n f x = 0 Tämä on ekvivalenttia sen kanssa, että funktion gradientti on nollavektori. Jos funktiolla f on ääriarvo pisteessä x, f x = 0 6
Rajoittamaton optimointi Esimerkin tapauksessa f x, y = D x(17.8x 2 + 71.2y 2 89.0x 320.4y + 523.7) D y (17.8x 2 + 71.2y 2 89.0x 320.4y + 523.7 ) = 35.6x 89 142.4y 320.4 Ehdosta f x, y = 0 saadaan x = 89 35.6 = 2.5 ja y = 320.4 142.4 = 2.25 7
Ääriarvon laatu Kuten yhden muuttujan funktioiden tapauksessa, gradientin nollakohdassa x 0 voi olla Lokaali minimi, Lokaali maksimi tai Satulapiste Yhden muuttujan funktioiden tapauksessa ääriarvon laatu selvitettiin toisen derivaatan avulla x 0 on lokaali minimi, jos f x 0 > 0 x 0 on lokaali maksimi, jos f x 0 < 0 x 0 saattaa olla satulapiste, jos f x 0 = 0 8
Hessen matriisi Usean muuttujan funktion tapauksessa ääriarvon laatua pisteessä x tarkastellaan Hessen matriisin H(x) avulla: 2 f 2 f 2 x 1 x 1 x n H(x) = 2 f 2 f x n x 2 1 x n missä 2 f x 2 = i x i pisteessä x f x i ja 2 f x i x j = x j f x i = x i f x j ja derivaatat evaluoidaan Hessen matriisin alkio H(x) ij on siis funktio f x 1,, x n derivoituna ensin muuttujan x i ja sitten muuttujan x j suhteen (tai toisinpäin; järjestyksellä ei ole väliä). Hessen matriisi on symmetrinen neliömatriisi 9
Hessen matriisi Esimerkin tapauksessa f x, y = 17.8x 2 + 71.2y 2 89.0x 320.4y + 523.7 f x = 35.6x 89 f = 142.4y 320.4 y 2 f = D x 2 x 35.6x 89 = 35.6 ja 2 f = D x y y 35.6x 89 = 0 2 f = D y 2 y 142.4y 320.4 = 142.4 ja 2 f = D y x x 142.4y 320.4 = 0 Hessen matriisi pisteessä (x,y) on H x,y = 35.6 0 0 142.4 = H (alkiot vakioita) 10
Presemo-kysymys Määritä funktion f x, y = x 3 y 2 Hessen matriisi. 1. H x, y = 3x2 y 2 2x 3 y 6xy 2 6x 2 y 2. H x, y = 9xy2 6x 2 y 6x 2 y 4x 3 y 3. H x, y = 6xy2 6x 2 y 6x 2 y 2x 3 23.2.2018 11
Ominaisarvot ja -vektorit Neliömatriisille A R n n voidaan määrittää n ominaisarvoa λ R ja ominaisvektoria v R n 1, v 0, jotka toteuttavat yhtälön λv 2 Av = λv Av = λv v 2 v Ominaisvektori v 0 on siis vektori, jonka Suunta ei muutu matriisin A määrittämän lineaarikuvauksen johdosta 0 v 1 λv 1 Pituus kasvaa λ-kertaiseksi 12
Ominaisarvojen ratkaiseminen Ominaisarvot voidaan ratkaista matriisiyhtälöstä Av = λv Av = λiv Av λiv = 0 (A λi)v = 0 Huomaa, että (A λi)v vastaa matriisin (A λi) sarakkeiden lineaarikombinaatiota, jossa kertoimina ovat vektorin v komponentit: A λi v = a 11 λ a 1n a n1 a nn λ v 1 v n = v 1 a 11 λ a n1 + + v n a 1n a nn λ = 0 Määritelmän mukaan v 0 Lineaarikombinaatio on nollavektori vain, jos matriisin A λi sarakkeet (ja rivit) ovat lineaarisesti riippuvat Mikä oli ekvivalenttia sen kanssa, että det(a λi) = 0 13
Ominaisarvojen ratkaiseminen Ominaisarvot voidaan siis ratkaista yhtälöstä det(a λi) = 0 Esim. Hessen matriisin H = 35.6 0 0 142.4 ominaisarvot: det H λi = 35.6 λ 0 0 142.4 λ = 35.6 λ 142.4 λ 0 = λ2 178λ + 5069.44 = 0 Toisen asteen yhtälön ratkaisukaavasta saadaan: H:n karakteristinen polynomi λ = 178 ± 1782 4 1 5069.44 2 1 λ 1 = 35.6, λ 2 = 142.4 14
Ominaisarvot ja definiittisyys Symmetrinen neliömatriisi A R n n on Positiividefiniitti, jos kaikki sen ominaisarvot ovat positiivisia: λ i > 0 kaikilla i = 1,, n Negatiividefiniitti, jos kaikki sen ominaisarvot ovat negatiivisia: λ i < 0 kaikilla i = 1,, n Indefiniitti, jos sillä on sekä negatiivisia että positiivisia ominaisarvoja Esim. Symmetrinen neliömatriisi H = 35.6 0 0 142.4 koska λ 1 = 35.6, λ 2 = 142.4 on positiividefiniitti, 15
Presemo-kysymys Määritä matriisin A = 2 1 1 2 ominaisarvot. 1. λ 1 = 2, λ 2 = 2 2. λ 1 = 3, λ 2 = 3 3. λ 1 = 5, λ 2 = 5 Mitä voit sanoa matriisin definiittisyydestä? 23.2.2018 16
2x2-matriisin tapaus Symmetrinen 2 2-neliömatriisi H x 0 on Positiividefiniitti, jos det H x 0 Negatiividefiniitti, jos det H x 0 > 0 ja 2 f x 1 2 > 0 pisteessä x 0 > 0 ja 2 f x 1 2 < 0 pisteessä x 0 Esim. Symmetrinen neliömatriisi H = 35.6 0 0 142.4 koska - det H = 35.6 0 0 142.4-2 f x 1 2 = 35.6 > 0. = 35.6 142.4 0 0 = 5069.44 > 0 ja on positiividefiniitti, 23.2.2018 17
Definiittisyys ja ääriarvon laatu Tarkastellaan funktiota f(x), jonka gradientti on f x ja Hessen matriisi H x Piste x 0, jossa f x 0 funktion f = 0, on Lokaali minimi, jos H x 0 positiividefiniitti, Lokaali maksimi, jos H x 0 on negatiividefiniitti, Satulapiste, jos H x 0 on indefiniitti 18
Definiittisyys ja ääriarvon laatu Esimerkin tapauksessa Hessen matriisi on positiividefiniitti gradientin nollakohdassa (x, y) = (2.5, 2.25) H x, y = H = 35.6 0 0 142.4 Pisteessä (2.5, 2.25) on siis funktion lokaali (ja itse asiassa myös globaali) minimi Myrkyn minimimäärä: f 2.5, 2.25 = 51.3 g/t 19
Kahden muuttujan rajoittamattoman optimointitehtävän ratkaisu Rajoittamattoman, kahden muuttujan optimointitehtävän ratkaisu: 1. Määritä gradientin nollakohta x 0 : f x 0 = 0 2. Muodosta Hessen matriisi H(x) 3. Tarkista ääriarvon laatu: o Jos det H x 0 > 0 ja 2 f x 1 2 > 0, pisteessä x 0 on funktion lokaali minimi o Jos det H x 0 > 0 ja 2 f x 1 2 < 0, pisteessä x 0 on funktion lokaali maksimi 3. Voit vaihtoehtoisesti tarkistaa ääriarvon laadun laskemalla H x 0 :n ominaisarvot λ 1, λ 2 : o o Jos λ 1, λ 2 > 0, pisteessä x 0 on funktion lokaali minimi Jos λ 1, λ 2 < 0, pisteessä x 0 on funktion lokaali maksimi 4. Laske funktion arvo f x 0 ääriarvopisteessä 23.2.2018 20
Presemo-kysymys Vaatekankaan valmistuksessa käytetään kutistuvuuden vähentämiseksi keinokuituja A ja B. Kutistuvuus f(x, y) (%) riippuu A:n ja B:n käytetyistä määristä x ja y (g/kg) likimäärin seuraavalla tavalla: f: R + R + R, f(x, y) = 0.2x 2 + 0.4y 2 + 0.1xy 9x 10y + 143. Paljonko A:ta ja B:tä on käytettävä, jotta kutistuvuus minimoituu? 1. 20 g ja 10 g 2. 22.5 g ja 12.5 g 3. 25 g ja 15 g Mikä on minimikutistuvuus? 23.2.2018 21
Vielä ominaisarvoista ja -vektoreista Kuvat: https://en.wikipedia.org/wiki/eigenvalues_and_eigenvectors Tällä kurssilla käsittelemme ominaisarvoja vain ääriarvon laadun tarkastelun yhteydessä Ominaisarvoilla ja vektoreilla on kuitenkin lukuisia muitakin tärkeitä sovelluksia Schrödingerin aaltoyhtälö: Hψ E = Eψ E, missä ψ E on Hamiltonin operaattorin ominaisaaltofunktio ja E sitä vastaava ominaisarvoenergia Pääkomponenttianalyysi: Kuinka projisoida n- ulotteinen data pienempiulotteiseen avaruuteen siten, että aineiston varianssi pienenisi mahdollisimman vähän? Valitaan pienempiulotteisen avaruuden virittävät vektorit matriisin X T X ominaisvektoreista ominaisarvojen suuruusjärjestyksessä (X= havaintoaineistomatriisi) Hahmontunnistus: Ominaiskasvot (pääkomponenttianalyysin sovellus) 22