Úvod do optimalizace, metody hladké optimalizace

Evropský sociální fond Investujeme do vaší budoucnosti Úvod do optimalizace, metody hladké optimalizace Matematika pro informatiky, FIT ČVUT Martin Holeňa, 13. týden LS 2010/2011

O čem to bude? Příklady optimalizačních problémů v informatice Typy optimalizačních úloh a optimalizačních algoritmů Přehled metod pro hladkou optimalizaci koncepty: globální lokální optima, atraktory, omezení řád metody, příklady metod 1. a 2. řádu Langrangeův přístup k optimalizaci s omezeními MPI, 13. týden LS, Martin Holeňa 2 (z 56)

Z minula: shlukování dat Hledáme shluky : C 1, C k X (X-množina dat, k je dáno), tvořící k-složkové rozdělení X : C 1 C k =X, C i C j = + takové, že mezi všemi k-složkovými rozděleními X maximalizuje součet Hledání tohoto rozdělení příklad optimalizační úlohy možností konečný počet diskrétní optimalizace MPI, 13. týden LS, Martin Holeňa 3 (z 56)

Klasifikace a rozpoznávání Přiřazení vektoru x X příznaků k některé třídě c C klasifikátor f p :X C, závislý na vektoru parametrů p zkonstruován na základě učicích dat (x 1,c 1 ),,(x m,c m ) Použití optimalizace: p získán minimalizací nějaké chybové funkce, nejjednodušší # {i :f p (x i ) c } i Rozpoznávání: třídy ~ podobnosti daným vzorům MPI, 13. týden LS, Martin Holeňa 7 (z 56)

Prokládání modelů daty (fitování) Model: f p :R n R q, závislý na vektoru parametrů p zkonstruován na základě učicích dat (x 1,y 1 ),,(x m,y m ) Použití optimalizace: p získán minimalizací vzdálenosti, např. Příklady modelů: přímka, rovina,, nadrovina, kvadriky, polynom, po částech lineární / konstantní, MPI, 13. týden LS, Martin Holeňa 11 (z 56)

Regression tree for HCN yield

Umělé neuronové sítě Počítačová abstrakce přenosu signálů mezi neurony od vstupů (smysly, ) k výstupům (mozek, ) na vstupy použit složitý nelineární model kombinace sigmoidních funkcí ( vícevrstvé perceptrony) kombinace gaussovek (= radiální bázové funkce, RBF) Parametry např. váhy spojů, prahy neuronů MPI, 13. týden LS, Martin Holeňa 15 (z 56)

basis functions: sigmoidal (multilayer perceptron MLP) radial (RBF)

Spojitá optimalizace 1. základní typ optimalizačních úloh na kompaktní (= uzavřené omezené) množině W R n cílová (= optimalizovaná) funkce je na W spojitá Hlavně v přírodních vědách + technických návrzích Optimalizační algoritmus může být plně deterministický, ale i stochastický ( každý běh jiný) MPI, 13. týden LS, Martin Holeňa 19 (z 56)

MPI, 13. týden LS, Martin Holeňa 20 (z 56)

Diskrétní optimalizace 2. základní typ optimalizačních úloh na kartézském součinu konečných množin nezahrnuje všechnu nespojitou: ještě např. celočíselná Jiný název: kombinatorická optimalizace ( v nejhorším případě někdy nutno projít všechny kombinace) Algoritmus může být determininstický i stochastický MPI, 13. týden LS, Martin Holeňa 22 (z 56)

Hladká optimalizace Optimalizace využívající parciální derivace cílové funkce vytvářejí gradient f : směr nejprudšího růstu f, ale do lokálního maxima - f : směr nejprudšího poklesu f, ale do lokálního minima Někdy i 2. parciální derivace vytvářejí Hessovu matici f : H f = MPI, 13. týden LS, Martin Holeňa 26 (z 56)

Atraktory Připomenutí: funkce f má lokální maximum (minimum) v bodě a D f : f (x) f (a) (f (x) f (a) ) na nějakém okolí H a ostré : f (x)<f (a) (f(x)>f (a) ) pro x H a {a} Atraktor: oblasti, ze kterých cesta sledující gradient končí ve stejném lokálním maximu alternativní atraktor: proti směru gradientu minimu MPI, 13. týden LS, Martin Holeňa 29 (z 56)

Vlastnosti lokálních extrémů Společné pro lokálním minima i maxima: f (x) = 0 Nutná podmínka pro lokální minimum f v x : pozitivní semidefinitnost H f (x) (a H f (x)a 0 pro a R n ) pro ostré je postačující pozitivní definitnost ( >0, a 0) Pro lokální maximum: obdobně v negativním negativní semidefinitnost: a H f (x)a 0, definitnost: <0, a 0 MPI, 13. týden LS, Martin Holeňa 32 (z 56)

Hledání globálních extrémů Připomenutí: funkce f má globální maximum (minimum) v bodě a D f : f (x) f (a) (f (x) f (a) ) pro všechna x D f ostré : f (x)<f (a) (f (x)>f (a) ) pro x D f {a} Způsoby hledání: 1. z různých počátků, 2. stochasticky Restartování { téhož jiného } algoritmu: počátky voleny { náhodně systematicky }, s uvážením nalezených bodů MPI, 13. týden LS, Martin Holeňa 35 (z 56)

MPI, 13. týden LS, Martin Holeňa 36 (z 56)

Stochastická optimalizace Optimalizační algoritmus zahrnuje náhodné vlivy jedna z možností opuštění lokálního optima Příklady: 1. nejrozšířenější evoluční algoritmy inspirovány různými jevy z biologické evoluce např. genetické algoritmy: křížení + mutace genů 2. simulované žíhání, 3. mravenčí kolonie, 4. stochastické větvení MPI, 13. týden LS, Martin Holeňa 38 (z 56)

Metody 1. řádu x 0, x 1, x 2, ; x k =x k-1 +φ( f (x k-1 )), φ funkce nezávislá na f 1. řádu: f je 1. člen Taylorova rozvoje f nejstarší a nejjednodušší (při minimalizaci) metoda největšího spádu: x k =x k-1 c f (x k-1 ), c >0 je konstanta Taylorova věta pro bod x* minima f implikuje f (x k ) f (x*) = o ( x k x* ) MPI, 13. týden LS, Martin Holeňa 41 (z 56)

Metody 2. řádu x 0, x 1, x 2, ; x k =x k-1 +φ( f (x k-1 ),H f (x k-1 )) 2. řádu: H f je 2. člen Taylorova rozvoje f např. Gauss-Newtonova: x k =x k-1 +c H f (x k-1 ) f (x k-1 ) Taylorova věta f (x k ) f (x*) = o ( x k x* 2 ) Levenberg-Marquardtova metoda: kombinace největšího spádu (při x k x* ) a Gauss-Newtona (při x k x* 0) MPI, 13. týden LS, Martin Holeňa 44 (z 56)

Kvadratická optimalizace Optimalizovaná funkce: polynom n proměnných 2. stupně f (x) =x Ax+b x =(x β ) A(x β )+γ, A : matice n n často používána jako aproximace složitějších funkcí Důležité speciální případy: A pozitivně definitní f má globální minimum γ v β A negativně definitní f má globální maximum γ v β MPI, 13. týden LS, Martin Holeňa 47 (z 56)

Optimalizace s omezeními Nerovnosti: g (x) 0, i i =1,,m, rovnosti: h j (x)=0, j =1,,p Minimalizace f v x při je ekvivalentní současné minimalizaci v x a maximalizaci v α, β Lagrangeovy funkce: Řešení x* přitom splňuje KKT podmínky: (Karush-Kuhn-Tuckerovy) α i g i (x* )=0, i =1,,m MPI, 13. týden LS, Martin Holeňa 50 (z 56)

Příklad: nejmenší chyba klasifikace Hledáme klasifikátor nejlépe predikující neznámé vstupy předpokládáme: chyba klesá s rostoucí šířkou d pásu oddělujícího třídy (hranice: opěrné vektory) omezení: známé vstupy vzdáleny od středu d /2 Řešení: 1. pro lineárně separabilní třídy (= oddělitelné nadrovinou) 2. pro ostatní nelineární transformace vyšší dimenze MPI, 13. týden LS, Martin Holeňa 53 (z 56)