179 12. Hessen matriisi. Ääriarvoteoriaa Tarkastelemme tässä luvussa useamman muuttujan (eli vektorimuuttujan) n reaaliarvoisia unktioita : R R. Edellisessä luvussa todettiin, että riittävän säännöllisellä unktiolla (osittaisderivaatat jatkuvia) on silloin lineaarinen eli ensimmäisen kertaluvun approksimaatio ( x) = ( x ) + ( x )( x x ) + ε( h) h. 0 0 0 Tämä on silloin myös unktion 1. asteen Taylorin polynomi pisteessä x. 0 Tarkempi approksimaatio saadaan 2. asteen Taylorin polynomilla ( x) = ( x ) + ( x )( x x ) + ( x x ) ( x )( x x ) + ε( h) h 2, 1 T 0 0 0 2 0 0 0 missä ( x 0) on unktion toinen derivaatta, ns. Hessen matriisi: Jos unktiolla on toisen kertaluvun osittaisderivaatat olemassa, niin niistä koostuva Hessen matriisi H on H = D11 D12 D1 n D21 D22 D2n D D D n1 n2 nn, missä on merkitty D ij 2 =. x x i j Pisteessä x lasketun Hessen matriisin H (x) (i,j)-alkio on siis D ij (x) = 2 x x i j ( x ).
180 Jatkossa oletamme, että unktion kaikki toisenkin kertaluvun derivaatat ovat jatkuvia. Silloin sekaderivaatat voidaan laskea missä järjestyksessä hyvänsä, joten D ij = D ji eli Hessen matriisi on symmetrinen. Hessen matriisin avulla unktiolle saadaan siis kvadraattinen approksimaatio eli toisen kertaluvun approksimaatio: (x+h) - (x) = (x) T h + 21 h T H (x)h + ε( h) h 2. Yhteenvetona derivaatoista reaaliarvoiselle unktiolle saadaan näin: unktion gradientti on transponoituna derivaatta ja Hessen matriisi toinen derivaatta eli: '(x) = (x) T ''(x) = H (x), jotka ovat 1 n ja n n matriiseja. Sovellamme sitten ensimmäisen ja toisen kertaluvun approksimaatioita unktion ääriarvojen tutkimiseen. Ääriarvotehtävien yleistä teoriaa, ratkaisumenetelmiä ja soveltamista sanotaan myös optimoinniksi, joka on yksi sovelletun matematiikan osaalueista. Näiden tehtävien yleinen muoto on min (x) x S R n,
181 jossa minimoinnin sijasta voidaan myös maksimoida. Minimoitava tai maksimoitava unktio on ns. kohdeunktio ja muuttujaa x sitovat joukon S määrittelevät ehdot ovat rajoitusehtoja. Muuttujat, jotka toteuttavat rajoitusehdot, ovat käypiä ratkaisuja ja joukko S käypä joukko. Jos rajoitusehtoja ei ole, muuttuja x saa vapaasti liikkua koko avaruudessa R n, josta syystä näitä ongelmia kutsutaan vapaiksi optimointitehtäviksi. Ne ovat helpompia käsitellä, kuin rajoitusehdoilla varustetut, koska rajoitusehtojen noudattaminen vaatii oman työnsä. Optimointiprobleemoissa haetaan kohdeunktion minimi- tai maksimikohtia. Nämä ovat globaaleja tai lokaaleja sen mukaan, antavatko ne kohdeunktiolle pienimmän (suurimman) arvon verrattuna kaikkiin käypiin muuttujiin vai vain jossakin ympäristössä oleviin. Vapaat ääriarvotehtävät Oletamme, että reaaliarvoinen kohdeunktio on määritelty koko avaruudessa R n ja on siellä ensimmäisen kertaluvun osittaisderivaattoineen jatkuva ja siis dierentioituva. Silloin sille on voimassa lineaarinen approksimaatio eli ensimmäisen kertaluvun approksimaatio: (x+h) - (x) = (x) T h + ε( h) h. Jos x on unktion lokaali minimikohta, niin riittävän lähellä 0:aa olevilla h on voimassa (x+h) - (x) 0. Tällöin on välttämättä oltava (x) = 0, koska muuten saisimme sijoittamalla yllä olevaan approksimaatioyhtälöön h = -t (x), t>0, ja jakamalla luvulla h yhtälön, jossa vasemmalla puolella on einegatiivinen luku ja oikealla negatiivinen (t riittävän pieni). Sama todetaan lokaalille maksimikohdalle.
182 Välttämätön ensimmäisen kertaluvun ehto lokaalille ääriarvolle. Jos x on jatkuvasti dierentioituvan unktion : R n R lokaali minimi- tai maksimikohta, niin (x) = 0. Tämä ehto on sama minimille ja maksimille. Niiden erottamiseksi tarvitaan toisen kertaluvun derivaattoja. Yhden muuttujan unktioista muistettaneen, että lokaalin minimin välttämätön ehto kahdesti jatkuvasti derivoituvalle unktiolle on '(x) = 0 ja ''(x) 0. Tämä ehto yleistyy Hessen matriisia käyttäen n:n muuttujan unktioille. Jos x on :n lokaali minimikohta, niin :n Hessen matriisin on oltava positiivisesti semideiniitti. Jos nimittäin on jokin v, jolla v T H (x)v < 0, niin valitsemalla h = tv, t>0, saadaan :n kvadraattisen approksimaation yhtälöstä puolittain h 2 :lla jakamalla ja ottamalla t riittävän pieneksi vasemmalle puolelle ei-negatiivinen luku ja oikealle puolelle aidosti negatiivinen (lineaarinen termi (x) T h =0, koska :n gradientti on 0). Välttämätön toisen kertaluvun ehto lokaalille ääriarvolle. Olkoot unktio : R n R ja sen osittaisderivaatat toiseen kertalukuun asti jatkuvia. Jos x on :n lokaali minimikohta, niin :n gradientti kohdassa x häviää ja Hessen matriisi on siinä positiivisesti semideiniitti: (x) = 0 ja H (x) 0. Jos x on :n lokaali maksimikohta, niin :n gradientti kohdassa x häviää ja Hessen matriisi on siinä negatiivisesti semideiniitti: (x) = 0 ja H (x) 0.
183 Käyttämällä derivaattamerkintöjä saadaan ehdot tutun näköisiksi ehdoiksi '(x) = 0 ja ''(x) 0 lokaalissa minimikohdassa x '(x) = 0 ja ''(x) 0 lokaalissa maksimikohdassa x. Nämä ehdot ovat siis välttämättömiä, eli niiden on pakko olla voimassa jokaisessa lokaalissa minimi/maksimikohdassa. Mutta ne eivät ole riittäviä, eli niiden voimassaolo ei takaa sitä, että kyseinen piste x on optimikohta. Siis voi olla olemassa pisteitä, joissa välttämättömät ehdot ovat voimassa, mutta jotka eivät ole optimikohtia. Sanomme unktion kriittisiksi pisteiksi kaikkia niitä pisteitä x, joissa unktion gradientti on nolla. Joskus myös mahdolliset unktion tai sen osittaisderivaattojen epäjatkuvuuskohdat otetaan mukaan kriittisiin pisteisiin (niissähän eivät ääriarvoehdot ole voimassa). Ne kriittiset pisteet, joissa gradientti on nolla, mutta jotka eivät ole lokaaleja minimejä tai maksimeja, ovat satulapisteitä. Optimiratkaisuja haetaan etsimällä ensin kaikki kriittiset pisteet, jotka sitten tutkitaan kukin erikseen. Kriittisten pisteiden "laadun" tutkimiseksi (eli ovatko lokaaleja minimejä, maksimeja jne.) voidaan käyttää riittäviä ehtoja. Näistä tunnetuin on yhden muuttujan unktioiden ehdon '(x)=0 & ''(x)>0 x lokaali minimikohta yleistävä ehto: (todistus perustuu kvadraattiseen approksimaatioon, jossa oikealla puolella oleva neliömuoto on positiivisen deiniittisyyden voimassa ollessa positiivinen; yksityiskohdat sivuutetaan)
184 Riittävä ehto lokaalille minimille ja maksimille. Olkoot unktio : R n R ja sen osittaisderivaatat toiseen kertalukuun asti jatkuvia sekä (x) = 0. Jos lisäksi :n Hessen matriisi H (x) on positiivisesti deiniitti, niin x on lokaali minimikohta, ja jos negatiivisesti deiniitti, niin x on lokaali maksimikohta: ''(x) > 0 x lokaali minimikohta ''(x) < 0 x lokaali maksimikohta. 2 2 2 Esim. 1 ( xyz,, ) = x + 4xy y + z 8x 6y+ z (x,y,z)=[2x+4y-8, 4x-2y-6, 2z+1] T =0, josta ratkeaa z=-½ ja yhtälöparista x:lle ja y:lle x=2, y=1. Siis vain yksi kriittinen piste: (x,y,z)=(2,1,-½). 2 4 0 Hessen matriisi: H ( x, y, z) = 4 2 0, jossa 2>0, mutta 2 4 0 4 2 <, joten 0 0 2 indeiniitti. Kyseessä satulapiste. 3 3 Esim. 2 ( xy, ) = x y 2xy (x,y)=[3x 2-2y,-3y 2-2x] T =0, josta saadaan y=3x 2 /2 ja se sijoittamalla toiseen yhtälö 2x=-3(3x 2 /2) 2 = -27x 4 /4. Tästä seuraa x=0 tai x 3 =-8/27 eli x=-2/3. Sijoittamalla nämä y:n lausekkeeseen y=3x 2 /2 saadaan y=0 tai y=2/3. Siis kriittisiä pisteitä on kaksi: (0,0) ja (-2/3,2/3). Hessen matriisi on nyt
185 H 6x 2 ( x, y) = 2 6y Pisteessä (0,0) ominaisarvot ovat 2 ja-2, joten Hessen matriisi on indeiniitti, kyseessä satulapiste. Pisteessä (-2/3,2/3) ominaisarvot ovat -2 ja-6, joten Hessen matriisi on negatiivisesti deiniitti, kyseessä lokaali maksimikohta. Rajoitusehdoilla varustetut ääriarvotehtävät Jos käypä joukko S on avoin eli reuna ei kuulu siihen, niin edellä mainitut lauseet soveltuvat sellaisenaan. Samoin on, jos pisteen x tiedetään olevan sisäpiste. (Avoimessa joukossa kaikki pisteet ovat sisäpisteitä.) Tämä johtuu siitä, että sisäpisteellä on ympäristö (avoin x-keskinen kiekko tai yleisemmin kuula), joka kokonaan sisältyy joukkoon S. Tällöin lokaalisti tilanne on sama kuin rajoitusehtoja ei olisikaan. Jos piste x sen sijaan on käyvän joukon reunapiste, asia on paljon monimutkaisempi. Tällä kurssilla tarkastelemme vain yhtälömuotoisia rajoitusehtoja, eli joukko S on määritelty yhtälörajoituksilla g 1 (x) = 0,, g m (x) = 0 missä unktiot g i ovat jatkuvasti dierentioituvia. Silloin tehtävä voidaan palauttaa vapaaksi tehtäväksi ottamalla käyttöön Lagrangen unktio L(x, λ) = (x) -λ 1 g 1 (x) - -λ m g m (x) missä vektori λ koostuu Lagrangen kertoimista λ 1,, λ m. Jos x on unktion lokaali minimi- tai maksimikohta joukossa S, on silloin välttämättä
186 x L(x, λ) = 0. Silloin siis on voimassa yhtälöryhmä (x) = λ 1 g 1 (x) + +λ m g m (x) g 1 (x) = 0 g m (x) = 0 josta yritetään ratkaista x ja Lagrangen kertoimet λ 1,, λ m. Tässä on siis n+m tuntematonta, ja yleensä yhtälöryhmä on epälineaarinen ja sellaisena vaikea ratkaista. Esim. 3 Haettava ympyrän 2 2 ( xy, ) x y y x + y = 1 kehältä ne pisteet, joissa unktio 2 2 = saa maksiminsa. L(x,y)=x 2 -y 2 -y-λ(x 2 +y 2-1). Silloin L x =2x-2λx=0, L y =-2y-1-2λy=0. Näistä ja ympyrän yhtälöstä ratkaistaan x, y ja λ. Jos x=0, niin y=±1, jolloin λ=-3/2 tai λ=-1/2. Jos x 0, niin λ=1, jolloin y=-1/4 ja ympyrän yhtälöstä siis x=± 15 /4. Siis kriittiset pisteet ovat (0, ±1) ja (± 15 /4,-1/4). Laskemalla :n arvot näissä todetaan, että suurimman arvon se saa pisteissä (± 15 /4,-1/4), jolloin (± 15 /4,-1/4)=5/4.