Keresési irány - A feltétel nélküli optimalizálás algoritmusai

2. A konvex optimalizálás alapjai 41

2.3. A feltétel nélküli optimalizálás algoritmusai

2.3.2. Keresési irány

Minden minimalizálási algoritmus döntő eleme a keresési irány megalkotása. Terjedelmi okok miatt most csak két alapvető módszert tekintünk át.

Gradiens-módszer

A gradiens-módszer az f függvény negatív gradiensét, (−∇f(x^k))-t használja keresési irányként.⁶ Ezt az irányt gyakranlegmeredekebb csökkenési iránynakhívják. Az elnevezés indokolt, ha megﬁgyeljük, hogy a normalizált iránymenti deriváltat a negatív gradiens minimalizálja:

δf(x,−∇f(x)) = −∇f(x)^T∇f(x) = min

ksk=k∇f(x)k{∇f(x)^Ts}.

Figyeljük meg, hogy a (negatív) gradiens ortogonális a függvény szintvonalaira. A gradi-ens kiszámolása viszonylag kevés számítást igényel, ami azt jelzi, hogy a gradigradi-ens-módszer elég hatékony. Bár sok esetben valóban jól működik, azért néhány elméleti és gyakorlati

6Most az egyszerűség kedvéért feltesszük, hogyC=Rⁿ a feltételes esetekben a negatív gradiens nem feltétlenül esik aChalmazba. Ilyen esetekben a negatív gradienst pl. vetíthetjük aC halmazra.

hátrányát megemlítjük. Először is, konvex kvadratikus függvény gradiens-módszerrel tör-ténő minimalizálása nem véges folyamat. „Cikk-cakkos” haladásának (lásd a 2.15 ábrát) köszönhetően a konvergencia igen lassú. Másrészt, a konvergencia sebessége csak lineáris.

x⁰

3 N >Nµ

x¹

x² x³

x⁴

2.15. ábra. A gradiens módszer cikk-cakkossága.

2.14. Feladat. Számítsuk ki a következő kvadratikus függvényhez tartozó legmeredekebb csök-kenési irányt:

f(x) = 1

2x^TQx+q^Tx−β,

ahol a Q mátrix pozitív deﬁnit. Határozzuk meg az egyenes mentén történő keresés pontos lépéshosszát is.

2.15. Feladat. Bizonyítsuk be, hogy az egymást követő keresési irányok a fenti kvadratikus függvény esetében ortogonálisak (azazs^k⊥s^k+1; k= 0,1,2, . . .).

A következő tétel a gradiens-módszer konvergenciáját vizsgálja.

2.61. Tétel. Legyen f folytonosan diﬀerenciálható függvény és indítsuk a gradiens mód-szert az x⁰ kezdőpontból. Ha az egyenes mentén keresést pontosan hajtjuk végre, akkor a gradiens módszer olyan x⁰, x¹, x², . . . sorozatot állít elő, amelyre f(x^k) > f(x^k+1), k = 0,1,2, . . . esetén. Tegyük fel, hogy a D = {x : f(x) ≤ f(x⁰)} szinthalmaz kompakt, ekkor a generáltx⁰, x¹, x², . . . , x^k, . . . sorozat bármelyx¯torlódási pontja azf függvény sta-cionárius pontja (azaz∇f(¯x) = 0). Továbbá, ha azf függvény konvex, akkor x¯a függvény globális minimumhelye.

Bizonyítás: Mivel D kompakt és f folytonos, így f korlátos D felett, tovább létezik egy x^k^j → x¯ konvergens részsorozat, amelyre f(x^k^j) → f^∗, ha kj → ∞. Az f függvény folytonossága miatt f(¯x) = f^∗. Mivel a keresési irány az f függvény gradiense, és f folytonosan diﬀerenciálható, ezért

s= lim

kj→∞s^k^j =− lim

kj→∞∇f(x^k^j) = −∇f(¯x).

Mindkét oldalt∇f(¯x)-szel szorozva

s^T∇f(¯x) = −∇f(¯x)^T∇f(¯x)≤0. (2.10) Felhasználva az iterációs sorozat és a konvergens részsorozat felépítését:

f(x^k^j+1)≤f(x^k^j⁺¹)≤f(x^k^j+λs^k^j), majd határértéket véve kapjuk, hogy

f(¯x)≤f(¯x+λ¯s).

Ebből már következik, hogy δf(¯x,s) = ¯¯ s^T∇f(¯x) ≥ 0. Ezt a (2.10) egyenlőtlenséggel

összevetve kapjuk, hogy∇f(¯x) = 0. 2

Newton-módszer

A Newton-módszer alkalmazásához fel kell tételeznünk, hogy f kétszer folytonosan diﬀe-renciálható, szigorúan konvex függvény. Newton keresési iránya azf függvény másodrendű közelítésén alapul. Tekintsükf Taylor-polinomjának első három tagját, és az eredeti függ-vény helyett ezt minimalizáljuk:

q(x) :=f¡ x^k¢

+∇f¡ x^k¢T ¡

x−x^k¢ +1

¡x−x^k¢T

∇²f¡ x^k¢ ¡

x−x^k¢ .

A 2.44 lemma és a 2.45 állítás (l. 56. oldal) szerint ∇²f(x^k) pozitív deﬁnit, amiből kö-vetkezik a q(x) függvény szigorú konvexitása. Így q(x) minimumát akkor érjük el, ha gradiense

∇q(x) =∇f¡ x^k¢

+∇²f¡ x^k¢ ¡

x−x^k¢ a nullvektorral lesz egyenlő, azaz ahol

x^k+1 =x^k−¡

∇²f¡ x^k¢¢₋1

∇f¡ x^k¢

Ha a már elég közel vagyunk a minimumhoz, akkor a Newton-módszer kvadratikusan konvergál (egyenes mentén való keresés nélkül!), így a Newton-módszer hatékonyságának teljes kihasználásához szükségünk van egy jó kezdőpontra.⁷

A klasszikus Newton-módszer nem alkalmaz egyenes mentén való keresést. Ha egyenes mentén történő keresést alkalmazunk, akkor jellemzően messze vagyunk a megoldástól, a lépés hossza általában egynél kisebb. Ekkor beszélünk rövidített lépéses, vagy tompított Newton-módszerről.

Meg kell említenünk, hogy a Hesse-mátrix kiszámítása és invertálása sokkal több szá-mítást igényel, mint a gradiens megtalálása. Számos módszert fejlesztettek ki a számí-tásigény csökkentésére, amelyek a Newton-módszer előnyeit is megtartják. Ezek az ún.

7A belsőpontos módszerek (3. fejezet) meglepően jó eredményei nagyban annak köszönhetőek, hogy az iterációkat közel tartják a centrális úthoz, így az eljárás majdnem kvadratikusan konvergál.

kvázi-Newton-módszerek, amelyek közül a legelterjedtebbek a konjugált irányt használó eljárások. Másrészt a Newton-módszer többletköltségét a jobb keresési irány kompen-zálja. Példaként megjegyezzük, hogy konvex kvadratikus függvények minimalizálása egy lépésben történik. Emlékezzünk rá, hogy a gradiens-módszer nem is volt véges erre a feladatra.

Ha az f(x)függvény nem szigorúan konvex, vagy a Hesse-mátrix nem jól-kondicionált (a legnagyobb és a legkisebb sajátérték hányadosa nagy), akkor a Hesse-mátrix nem (vagy csak nehezen) invertálható. Ezen nehézségek leküzdésére különféle technikákat dolgoztak ki. Példaként megemlítjük a trust region-módszert, ahol a keresési irány deﬁníciójában

∇²f(x) helyett (∇²f(x) +αI)-t használjuk, ahol I az egységmátrix, és α változtatható annak érdekében, hogy elkerüljük az egyenes mentén való keresést. Figyeljük meg, hogy ha α = 0, akkor a Hesse-mátrixot kapva a Newton-módszerhez térünk vissza, míg ha α → ∞, akkor ez a mátrix az egységmátrix számszorosához közelít és így a keresési irány aszimptotikusan párhuzamos lesz a negatív gradienssel. Ezen módszerek részletes vizsgálata meghaladja könyvünk kereteit, az érdeklődő olvasónak a [2, 4, 16, 12] könyveket ajánljuk.

2.16. Feladat. Legyen f : Rⁿ → R kétszer folytonosan diﬀerenciálható függvény. Mutassuk meg, hogy az s= −H∇f(x) irány bármely H pozitív deﬁnit mátrix esetén az f függvény egy x-hez tartozó csökkenési irányát adja meg. Milyen H esetén lesz s a legmeredekebb csökkenés iránya, illetve a Newton-irány (konvexf függvény esetén)?

2.17. Feladat. Tekintsük az alábbi, feltétel nélküli optimalizálási feladatot:

min (x₁−2)⁴+ (x₁−2x₂)².

0 0.5 1 1.5 2 2.5 3

x1 x2

2.16. ábra. A függvény szintvonalai. A minimum (2,1)-ben van.

1. Mutassuk be a gradiens-módszer két iterációját azx⁰= [0,3]^T kezdőpontból indulva.

2. Mutassuk be a Newton-módszer négy iterációját (egyenes mentén keresés nélkül) ugyan-abból azx⁰ kezdőpontból indulva.

Newton-módszer nemlineáris egyenletek megoldására

A Newton-módszer nemlineáris egyenletrendszerek megoldására is használható. Tegyük fel, hogy a nemlineáris egyenletrendszer

F(x) = 0

alakú, ahol F(x) :Rⁿ →R^m diﬀerenciálható függvény. Tegyük fel, hogy azx^k ∈Rⁿ pont az egyenlet egy közelítő megoldása. Először linearizáljuk x^k-ban a nemlineáris egyenletet úgy, hogy F(x)-et az F¡

x^k¢

+JF¡ x^k¢ ¡

x−x^k¢

kifejezéssel közelítjük, ahol JF(x) jelöli F n Jacobi-mátrixát:

JF(x)ij = ∂Fi(x)

∂xj

i= 1, . . . , m; j = 1, . . . , n.

Innen a következő linearizált egyenletet kapjuk:

JF ¡ x^k¢ ¡

x−x^k¢

=−F ¡ x^k¢

. (2.11)

Ez egy lineáris egyenletrendszer, amelynek megoldását (ha létezik) a sztenderd lineáris algebra eszközeivel kaphatjuk meg. Az innen kapott x^k+1 =x megoldás lesz az egyenlet-rendszer megoldásának új közelítése, és az eljárás kezdődik elölről.

Vegyük észre, hogy egy f(x) szigorúan konvex függvény minimalizálása ekvivalens a ∇f(x) = 0 egyenletrendszer megoldásával. A Newton-módszert használva (a (2.11) formula alapján) a következőt kapjuk:

∇²f¡ x^k¢ ¡

x^k+1−x^k¢

=−∇f¡ x^k¢

A gradiens Jacobi-mátrixa éppen f(x)Hesse-mátrixa, ami így pozitív deﬁnit, és x^k+1 =x^k−¡

∇²f¡ x^k¢¢−1

∇f¡ x^k¢

, ahogy ezt már korábban is láttuk.

In document OPERÁCIÓKUTATÁS No. 5. (Pldal 68-72)