Faster Gradient Descent Methods

Podobné dokumenty
Základní spádové metody

stránkách přednášejícího.

Arnoldiho a Lanczosova metoda

Aplikovaná numerická matematika

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

Aplikovaná numerická matematika - ANM

DRN: Kořeny funkce numericky

Lineární algebra rekonstrukce obrazu

3. Přednáška: Line search

Nelineární optimalizace a numerické metody (MI NON)

Interpolace, ortogonální polynomy, Gaussova kvadratura

Metody vnitřních bodů pro řešení úlohy lineární elasticity s daným třením

Lineární programování

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Soustavy lineárních rovnic-numerické řešení. October 2, 2008

Matematika I A ukázkový test 1 pro 2014/2015

15 Maticový a vektorový počet II

EUKLIDOVSKÉ PROSTORY

Dnešní látka: Literatura: Kapitoly 3 a 4 ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

(Poznámka: V MA 43 je věta formulována trochu odlišně.)

Typy příkladů na písemnou část zkoušky 2NU a vzorová řešení (doc. Martišek 2017)

Ortogonální projekce a ortogonální zobrazení

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Co jsme udělali: Au = f, u D(A)

Numerická matematika 1

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Kapitola 5. SLAR - gradientní metody

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Princip gradientních optimalizačních metod

10 Funkce více proměnných

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Soustavy lineárních rovnic-numerické řešení

Podobnostní transformace

1 0 0 u 22 u 23 l 31. l u11

Numerické metody a programování. Lekce 4

Úvod do optimalizace, metody hladké optimalizace

7. Lineární vektorové prostory

1 Determinanty a inverzní matice

Primitivní funkce a Riemann uv integrál Lineární algebra Taylor uv polynom Extrémy funkcí více prom ˇenných Matematika III Matematika III Program

2. Schurova věta. Petr Tichý. 3. října 2012

x 2 = a 2 + tv 2 tedy (a 1, a 2 ) T + [(v 1, v 2 )] T A + V Příklad. U = R n neprázdná množina řešení soustavy Ax = b.

Numerické metody a programování. Lekce 8

Program SMP pro kombinované studium

Odhad parametrů N(µ, σ 2 )

Čebyševovy aproximace

1 Projekce a projektory

FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

Singulární rozklad. Petr Tichý. 31. října 2013

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení.

Literatura: Kapitola 2 d) ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

Diferenˇcní rovnice Diferenciální rovnice Matematika IV Matematika IV Program

AVDAT Nelineární regresní model

Lineární klasifikátory

EXTRÉMY FUNKCÍ VÍCE PROMĚNNÝCH

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Odhad parametrů N(µ, σ 2 )

DMA Přednáška Rekurentní rovnice. takovou, že po dosazení odpovídajících členů do dané rovnice dostáváme pro všechna n n 0 + m pravdivý výrok.

8 Matice a determinanty

Vlastní (charakteristická) čísla a vlastní (charakteristické) Pro zadanou čtvercovou matici A budeme řešit maticovou

0 0 a 2,n. JACOBIOVA ITERAČNÍ METODA. Ax = b (D + L + U)x = b Dx = (L + U)x + b x = D 1 (L + U)x + D 1 b. (i) + T J

Lineární algebra : Skalární součin a ortogonalita

Numerické řešení nelineárních rovnic

M5170: Matematické programování

Klasifikace a rozpoznávání. Lineární klasifikátory

Úlohy nejmenších čtverců

DRN: Soustavy linárních rovnic numericky, norma

Matematická analýza pro informatiky I.

Funkce v ıce promˇ enn ych Extr emy Pˇredn aˇska p at a 12.bˇrezna 2018

Matematika 4 FSV UK, LS Miroslav Zelený

M5170: Matematické programování

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Princip řešení soustavy rovnic

Numerické metody 6. května FJFI ČVUT v Praze

Soustavy linea rnı ch rovnic

Matematika I A ukázkový test 1 pro 2011/2012. x + y + 3z = 1 (2a 1)x + (a + 1)y + z = 1 a

Katedra matematiky Fakulty jaderné a fyzikálně inženýrské ČVUT v Praze Příjmení a jméno ➊ ➋ ➌ ➍ ➎ ➏ Bonus

FREDHOLMOVA ALTERNATIVA

LWS při heteroskedasticitě

Vlastní čísla a vlastní vektory

1 Báze a dimenze vektorového prostoru 1

Numerické metody a programování. Lekce 7

Věta o sedlovém bodu a Fredholmova alternativa

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

7 Konvexní množiny. min c T x. při splnění tzv. podmínek přípustnosti, tj. x = vyhovuje podmínkám: A x = b a x i 0 pro každé i n.

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

BAKALÁŘSKÁ PRÁCE. Numerické metody jednorozměrné minimalizace

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

a vlastních vektorů Příklad: Stanovte taková čísla λ, pro která má homogenní soustava Av = λv nenulové (A λ i I) v = 0.

Literatura: Kapitoly 3, 4 a 2 d) ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová.

Numerické metody optimalizace - úvod

Hledání extrémů funkcí

ftp://math.feld.cvut.cz/pub/olsak/linal/

z textu Lineární algebra

Lineární algebra : Změna báze

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Transkript:

Faster Gradient Descent Methods Rychlejší gradientní spádové metody Ing. Lukáš Pospíšil, Ing. Martin Menšík Katedra aplikované matematiky, VŠB - Technická univerzita Ostrava 24.1.2012 Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 1/28

Osnova prezentace Motivace Stochastické metody Barzilai-Borweinova metoda Numerické testy Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 2/28

Motivace Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 3/28

Základní úloha kvadratického programování Úloha Nalezněte minimum ryze konvexní kvadratické funkce, tj. 1 x = arg min x R n 2 x T Ax b T x, ekvivalentně řešte soustavu lineárních rovnic Ax = b, kde A R n,n je SPD, b R n, x R n. (Nalezněte kořeny rovnice g(x) := Ax b = 0) Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 4/28

Iterační metody Krylovovské metody Metody tvořící ortogonální bázi podprostoru K m = {g 0, Ag 0,..., A m 1 g 0 } Velmi rychlé Velmi náchylné na chybu sdružené gradienty (CG), Lanzosova metoda,... Gradientní spádové metody Minimalizace ve směru gradientu Velmi stabilní Velmi pomalé Richardsonova metoda, metoda největšího spádu Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 5/28

Gradientní spádové metody Obecná spádová metoda x k+1 = x k 1 β k g k Metoda největšího spádu x k+1 = x k (g k, g k ) (Ag k, g k ) g k Richardsonova metoda s optimální délkou kroku 2 x k+1 = x k λ A max + λ A min g k Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 6/28

Rekurentní výpočet gradientu Jelikož x k+1 = x k 1 β k g k, lze jednoduše upravit g k+1 = Ax k+1 b = A(x k 1 β k g k ) b = g k 1 β k Ag k. µ (k) α = (Aα g k, g k ) (g k, g k ). Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 7/28

Stochastická volba délky kroku Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 8/28

Pravděpodobnostní míra nad gradientem Pro jednoduchost předpokládejme (bez újmy na obecnosti) A za diagonální matici A = diag{λ 1,..., λ d }, kde 0 < m = λ 1 λ d = M < z k = g k (gk, g k ) p (k+1) i = p (k) i = {z k } 2 i (λ i β k ) 2 βk 2 2β kµ (k) 1 + µ (k) 2 Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 9/28

Atraktivní (přitažlivé) extrémy (okraje) p Mějme posloupnost β k > 0, β k {m, M} pro všechna k s distribuční funkcí F (β) s nosičem m, M, kde 0 < m M < a navíc platí: log(β λ) 2 df (β) < max{ log(m β) 2 df (β), λ {λ 2,..., λ d 1 } Pak existují konstanty C > 0, k 0 > 0, 0 θ < 1 takové, že: d 1 i=2 = p (k) i CΘ k k > k 0 log(m β) 2 df (β)} Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 10/28

Výhodné n-tice Pro pokles budeme volit opakující se n-tice {β 0,..., β N } symetrické podle středu spektra - m+m 2 Odhad R R2 2 (β m)(m β) (β) = β(m + M β) 1 N R N = (β j m) 2 N+1 j=0 β 2 j Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 11/28

a dostáváme se tak k... ( M m + 2 ɛ(m m ɛ) R arcsin,ɛ = M + m + 2 (M ɛ)(m + ɛ) ) 2 R arcsin,ɛ = R (1 + 4 ɛ(m m)) + O(ɛ), ɛ 0 Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 12/28

Algoritmus vyberme malé kladné τ, např. τ = 10 6, z 0 = 0 pro k = 0, 1 volme β k = µ (k) 1 a začněme s odhady m, M pro k > 1, nastavme ɛ k = τ(m m) pro k = 2j: z j = z j 1 + ϕ a β 2j = m k + ɛ k + (cos(πz j ) + 1)(M m 2ɛ) pro k = 2j + 1 : β 2j+1 = M + m β 2j vylepšeme odhad m, M V algoritmu je použita konstanta ϕ = 1 2 ( 5 1). Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 13/28

Problémy s nepřesností Gradient g k+1 se obvykle počítá rekurzivně: g k+1 = A (k+1) x k+1 b = (A (k+1) x k b) 1 β k A (k+1) g k = g k 1 β k A (k+1) g k Problém vězí v nepřesné aplikaci A: g k = A (k) x k b A (k+1) x k b = g k Ignorace vede k výsledu... ale špatnému! Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 14/28

Řešení leží v kompromisu Máme dva způsoby ja získat g k+1 Rekurzivní g k+1 = g k 1 β k A (k+1) g k PRO: poskytuje kvalitní odhad spektra CON: vede k špatnému výsledku Restartovaný g k+1 = A (k+1) x k+1 b PRO: vede ke správnému výsledku CON: odhad spektra je velmi slabý Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 15/28

Barzilai-Borweinova metoda Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 16/28

Odvození Metoda sečen (modifikace Newtonovy metody) Nalezněte kořeny rovnice g(x) = 0, g : R R x k+1 = x k x k x k 1 g k g k 1 g k (pokud g na a, b x k splňuje určité podmínky) Metoda sečen je spádová metoda x k+1 = x k 1 β k g k β k = g k g k 1 x k x k 1 Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 17/28

Odvození Metoda sečen v nd? Nalezněte kořeny rovnice g(x) = Ax b = 0, g : R n R n. β k = g k g k 1 x k x k 1 nelze dosadit Místo toho řešme tzv. secant equation metodou nejmenších čtverců, tj. (x k x k 1 )β k = g k g k 1 β k := arg min β R (x k x k 1 )β (g k g k 1 ) 2 2. Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 18/28

Odvození Metoda sečen v nd? Označme s k := x k x k 1, y k := g k g k 1, pak řešením minimalizační úlohy β k := arg min β R s kβ y k 2 2. je (z nutné podmínky existence minima) Hotovo? β k = (s k, y k ) (s k, s k ). Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 19/28

Překvapení Menší úprava a překvapení Jelikož y k = g k g k 1 = (Ax k b) (Ax k 1 b) = As k s k = x k x k 1 = (x k 1 β 1 k g k 1) x k 1 = β 1 k pak dosazením g k 1 β k = (s k, As k ) (s k, s k ) = ( β 1 k g k 1, β 1 k Ag k 1) ( β 1 g k 1, β 1 g k 1) = (Ag k 1, g k 1) (g k 1, g k 1 ). k k Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 20/28

Překvapení Menší úprava a překvapení Tedy Barzilai-Borweinova metoda má předpis x k+1 = x k (g k 1, g k 1 ) (Ag k 1, g k 1 ) g k. metoda největšího spádu s opožděním. Rekurentní výpočet gradientu Navíc g k+1 = Ax k+1 b = A(x k 1 β k g k ) b = g k 1 β k Ag k. Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 21/28

Konvergence spádových metod Konvergence spádových metod g k = γ k 1 v 1 + + γ k n v n kde v 1,..., v k je ortogonální báze z vlastních vektorů a γi k souřadnice vektoru g k v této bázi. Jelikož g k+1 = g k 1 Ag k β k jsou pak dosazením a úpravou i = 1,..., n : γ k+1 i = ( 1 λ ) i γi k β k Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 22/28

Konvergence spádových metod Konvergence spádových metod Dále také ( n ) n g k 2 2 = (g k, g k ) = γi k v i, γi k v i = i=1 i=1 n (γi k ) 2 i=1 lim g k 2 = 0 lim k k γk i = 0, i = 1,..., n ( ) Proto chování funkcí 1 λ i β k je v otázkách konvergence kĺıčové. Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 23/28

Rychlost konvergence BB metody Rychlost konvergence BB metody Necht minimalizovaná kvadratická funkce f je ryze konvexní. Necht {x k } je posloupnost generovaná metodou BB. Pak existuje konečné k takové, že g k = 0 posloupnost { g k 2 } konverguje k nule R-lineárně, konkrétně g k 2 ( ) 1 k.c g 1 2, 2 kde C R je konstanta závislá na λ max a λ min. Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 24/28

Numerické testy Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 25/28

Numerický test 1 - jednoduchá matice Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 26/28

Numerický test 2-3D elektrostatika (Doc. Lukáš) Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 27/28

Děkujeme za pozornost J. Barzilai, J. M. Borwein: Two point step size gradient methods. IMA Journal of Numerical Analysis, 8:141-148, 1988. M. Raydan: Convergence properities of the Barzilai and Borwein gradient method. Rice University, 1991. Dai, Y.H., Liao, L.-Z.: R-linear convergence of the Barzilai and Borwein gradient method. IMA J. Numer.Anal. 26, 1 10 (2002) L. Pronzato, A. Zhigljavsky: Gradient algorithm for quadratic optimization with fast convergence rates. Springer, 2010. Ing. Lukáš Pospíšil, Ing. Martin Menšík Faster Gradient Descent Methods 28/28