Luento 8: Epälineaarinen optimointi

Luento 8: Epälineaarinen optimointi Vektoriavaruus R n R n on kaikkien n-jonojen x := (x,..., x n ) joukko. Siis R n := Määritellään nollavektori = (,..., ). Reaalisten m n-matriisien joukkoa merkitään R m n. n kpl. R R. R n on vektoriavaruus, kun määritellään yhteenlasku ja skalaarilla kertominen: x + y = (x,..., x n ) + (y,..., y n ) := (x + y,..., x n + y n ), ja αx = α(x,..., x n ) := (αx,..., αx n ). R n on sisätuloavaruus, kun määritellään sisätulo: x y := n x i y i. i= Vektoria x = (x,..., x n ) merkitään myös matriisilla: x x =. x n ; x T = [ x x n ], jolloin x y = x T y. x:n pituus eli normi: x := n x i = x T x. i= Schwartzin epäyhtälö: x y x y. Kolmioepäyhtälö: x + y x + y. Normi määrää metriikan, eli etäisyyden d: d(x, y) := x y = n (x i y i ) i=

on x:n ja y:n välinen etäisyys. Vektoriavaruus R n varustettuna metriikalla d on n-ulotteinen euklidinen avaruus. Funktion maksimi ja minimi Olkoon f : R n R; f(x) = f(x,..., x n ). Määritellään: x on lokaali minimi, jos r > s.e. f(x) f(x + h) h R n, h < r. x on globaali minimi, jos f(x) f(x + h) h R n. Vastaavasti määritellään lokaali- ja globaali maksimi. Minimi- tai maksimipistettä x sanotaan myös optimipisteeksi. Funktion arvoa f(x) optimipisteessä x sanotaan minimi- tai maksimiarvoksi, tai optimiarvoksi. Kvadraattinen funktio Funktio f : R n R on lineaarinen, jos f(x) = c T x. Kvadraattinen funktio f : R n R on muotoa f(x) = i c ix i + d, eli matriisimuodossa f(x) = xt Qx + c T x + d, missä Q R n n ja Q on symmetrinen, eli Q=Q T. i j q ijx i x j + Huom. Mikä tahansa neliömuodon keskellä oleva neliömatriisi A voidaan aina muuttaa symmetriseksi matriisiksi Q: skalaari x T Ax = (x T Ax) T = x T A T x Siis x T Ax = x T /(A + A T )x, missä Q = (A + A T ) on symmetrinen. Esimerkki Hae funktion f(x) kvadraattinen esitys. f(x) = (x x ) + (x + x + ) 8x x = x 6x x + 5x + x + 4x +

Mielivaltainen kahden muuttujan neliömuoto voidaan kirjoittaa seuraavasti: [ ] [ ] α β [x x x ] = β γ x αx + βx x + γx [ ] [ ] [ α β 4 6 Q = =, c =, d =. β γ 6 4] Q R n n on positiivisesti definiitti, jos x T Qx > x R n, x. positiivisesti semidefiniitti, jos x T Qx x R n. negatiivisesti definiitti ja negatiivisesti semidefiniitti määritellään vastaavasti, mutta < ja merkeillä. Huom. Q R n n positiivisesti definiitti Q:n kaikki ominaisarvot >. Vastaavasti muille definiittisyyksille ominaisarvot ovat, <,. Huom. Q on positiiviseti- tai negatiivisesti definiitti käänteismatriisi Q. Esimerkki Olkoon f(x) = xt Qx, ja Q positiivisesti definiitti x = on f:n yksikäsitteinen globaali minimi. Jos Q on positiivisesti semidefiniitti x = on globaali minimi, mutta ei välttämättä yksikäsitteinen. Differentioituvuus Määritelmiä: Olkoon f : R n R. f(x) := [ f/ x (x),, f/ x n (x) ] T on f:n gradientti pisteessä x. Huomaa: Gradientti ajatellaan siis pystyvektorina. Funktion f Hessen matriisi pisteessä x on f/ x (x) f/ x x n (x) H f (x) :=..... R n n. f/ x n x (x) f/ x n (x) 3

f (x) Olkoon f : R n R m, f(x) =.. Funktion f Jacobin matriisi pisteessä x on f m (x) f (x) T f / x (x) f / x n (x) J f (x) :=. =..... R m n. f m (x) T f m / x (x) f m / x n (x) Funktio f on differentioituva x :ssa, jos f(x + h) f(x ) = f(x ) T h + h ε(x ; h) h R n, missä funktio ε(x ; ) : R n R on sellainen, että lim h ε(x ; h) = ; käytämme raja-arvosta myös merkintää ε(x ; h), kun h. Taylorin kaava: jos f on kahdesti differentioituva x:ssä, on voimassa: f(x + h) = f(x) + f(x) T h + ht H f (z)h = f(x) + f(x) T h + ht H f (x)h, missä x, h R n ja z = x + αh, jollekin α, < α <. On likimäärin - merkintä = tarkoittaa: Vasen puoli miinus oikea puoli saadaan pienemmäksi kuin annettu ε >, kun h on riittävän pieni. Tämä pätee, jos H f on x:n ympäristössä jatkuva. Optimin välttämättömät- ja riittävät ehdot Lause Olkoon x funktion f lokaali optimipiste. f(x) = ; Eli välttämättömät ehdot lokaalille optimille ovat: f/ x i (x) =, i. Todistus Olkoon esimerkiksi x lokaali minimi ja h R n. Tällöin f(x + αh) f(x) = α f(x) T h + α h ε(x, αh). Vastaoletus. Olkoon f(x). Valitaan h s.e. f(x) T h <. f(x + αh) f(x) = f(x) T h + h ε(x, αh) <, α kun α > on riittävän pieni. Tällöin f(x + αh) < f(x), mikä on ristiriita. Lause Olkoon f : R n R kahdesti differentioituva x:ssä. Tällöin 4

(a) x on lokaali minimi f(x) = ja H f (x) on positiivisesti semidefiniitti. (b) f(x) = ja H f (x) positiivisesti definiitti x on yksikäsitteinen lokaali minimi. Vastaavasti lokaalille maksimille: (a) f(x) = ja H f (x) on negatiivisesti semidefiniitti, (b) f(x) = ja H f (x) negatiivisesti definiitti. Huom. Ehdon f(x ) = toteuttava piste x voi olla myös ns. satulapiste, tai käännepiste. Esimerkiksi f(x) = x 3, x = on käännepiste. Esimerkki f(x) = x + x 3 + x x 3 x x x 3 f/ x (x) = x = f(x) = f/ x (x) = x 3 x = f/ x 3 (x) = + x x 3 = Yhtälöryhmän ratkaisu on x = (/, /3, 4/4). Onko tämä maksimi tai minimi? H f (x) = Huomaa. Kvadraattiselle f:lle H f (x) ei riipu x:stä. Jos f:ssä on x i :n korkeampia potensseja mukana, H f (x) riippuu yleensä x:stä. Ratkaistaan H f (x):n ominaisarvot: λ det(h f (x) λi) = λ λ = ( + λ) 3 + + λ = ( + λ)[( + λ) ] = λ =, λ = 3, λ 3 = Siis H f (x) on negatiivisesti definiitti, joten kyseessä on lokaali, itse asiassa globaali, maksimi. Derivoimissääntöjä f(x) = c T x = n i= c ix i ; f(x) = [ f x (x)... f x n (x)] T = [c,..., c n ] T = c 5

f(x) = Ax; A = a T. R m n, missä a T i on A:n i:s vaakavektori. a T m [ a T x] T J f (x) =. [ a T m x]t = a T. a T m = A f(x) = xt Qx vakio f(x) = xt Q x + vakio xt Q x = vakio xt Q x + vakio x T Q T x = QT x + Qx = Qx, jos Q on lisäksi symmetrinen. Huom. Toisissa kirjoissa f(x) määritellään vaakavektorina, jolloin: [c T x] = c T ja [x T Qx] = x T Q + x T Q T. Esimerkki f(x) = xt Qx + c T x + d, Q T = Q, ja Q positiivisesti definiitti, eli Q on olemassa. f(x) = Qx + c = x = Q c Nyt H f (x) = Q on positiivisesti definiitti, joten x = Q c on yksikäsitteinen lokaali, itse asiassa globaali, minimi. Funktion f : R R graafinen esitys Funktion f vakiokäyrä, tai käyrä, x x -tasossa on niiden pisteiden (x, x ) joukko, jotka antavat f:lle saman arvon. Siis, kun c R, joukko {(x, x ) R f(x, x ) = c } on f:n arvoon c liittyvä käyrä. 6

Lause f(x) on kohtisuorassa käyrän tangenttia vastaan pisteessä x, ja osoittaa f:n noususuunnan pisteessä x. Todistus Olkoon x ja x + h samalla f:n käyrällä. = f(x + h) f(x ) = f(x ) T h + h ε(x, h) f(x ) T h h + ε(x, h) = Nyt h/ h = u on yksikkövektori, joka lähenee käyrän tangentin suuntaista yksikkövektoria, kun h. Lisäksi ε(x, h), kun h. On siis f(x ) T u =, joten f(x ) tg(x ), missä tg(x ) tarkittaa käyrän tangenttia pisteessä x. Lisäksi vektori d := f(x ) on f:n noususuunta pisteessä x. Tämä seuraa alla olevasta noususuunnan määritelmästä, koska f(x ) T f(x ) >. Määritelmä R n :ssä vektori d on f:n laskusuunta pisteessä x, jos δ > s.e. f(x + λd) < f(x) λ (, δ) Lause Jos f(x) T d < d on f:n laskusuunta x:ssä. Todistus f(x + λd) f(x) λ = f(x) T d + d ε(x; λd) < jokaisella riittävän pienellä λ >. Koska f(x) T d ei riipu λ:sta, ja ε(x; λd), kun λ, niin f(x) T d <. Vastaavasti, jos f(x) T d > d on f:n noususuunta, eli δ > s.e. f(x + λd) > f(x) λ (, δ). Jos f(x), niin d = f(x) on f:n laskusuunta pisteessä x: f(x) T d = f(x) T f(x) = f(x) <. Samoin d = f(x) on noususuunta. Itse asiassa f(x) on f:n jyrkimmän nousun (steepest ascent) suunta pistessä x. Todistus menee seuraavasti: Olkoon d mielivaltainen noususuunta. Valitaan d =. Schwartzin epäyhtälö: < f(x) T d f(x) d = f(x) 7

Toisaalta, jos ˆd = f(x)/ f(x), niin ˆd =, ja f(x) T ˆd = f(x), joten f(x) T d f(x) T ˆd jokaiselle d, jolle d =. f(x + λˆd) f(x) f(x + λd) f(x) d, jolle d =, ja λ riittävän pieni. Samassa mielessä f(x) on f:n jyrkimmän laskun suunta pisteessä x. Esimerkkejä x c c c 3 f(x ) x tg(x ) x Kuva : Funktion f käyriä: c > c > c 3. Yleisesti toisen asteen funktion käyrät ovat ellipsipintoja. 8

x b f(x) minimi a x Kuva : Funktion f(x) = /(x a) + /(x b) arvoon c liittyvä käyrä on (a,b)-keskinen ympyrä; säde c..5 f(x).5.5.5 3 x 3 3 x 3 Kuva 3: Funktiolla f(x) = x x on satulapiste pisteessä x=. x x - tasossa näkyy f:n vakiokäyriä satulapisteen ympäristössä. 9

Kuva 4: Kartan korkeuskäyrät ovat maastonkorkeuden h(x, y) vakiokäyriä, missä h:n arvoon liittyvä käyrä esittää merenpinnan tasoa.