Pokročilé metody učení neuronových sítí. Tomáš Řehořek tomas.rehorek@fit.cvut.cz



Podobné dokumenty
Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Trénování sítě pomocí učení s učitelem

Lineární klasifikátory

Princip gradientních optimalizačních metod

Asociativní sítě (paměti) Asociace známého vstupního vzoru s daným výstupním vzorem. Typická funkce 1 / 44

Úvod do optimalizace, metody hladké optimalizace

Klasifikace a rozpoznávání. Lineární klasifikátory

Základní spádové metody

Numerické metody a programování. Lekce 8

Umělé neuronové sítě

Hledání extrémů funkcí

Aplikovaná numerická matematika

OPTIMALIZACE. (přehled metod)

3. Vícevrstvé dopředné sítě

Numerické metody a programování. Lekce 7

Úvod do optimalizace Matematické metody pro ITS (11MAMY)

10 Funkce více proměnných

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

Rosenblattův perceptron

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

AVDAT Nelineární regresní model

UČENÍ BEZ UČITELE. Václav Hlaváč

Numerické metody optimalizace - úvod

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

výběr charakteristických rysů a zkušeností ze vstupních signálů,

Kapitola 4: Extrémy funkcí dvou proměnných 1/5

Vytěžování znalostí z dat

Drsná matematika III 2. přednáška Funkce více proměnných: Aproximace vyšších rádů, Taylorova věta, inverzní zobrazení

Funkce v ıce promˇ enn ych Extr emy Pˇredn aˇska p at a 12.bˇrezna 2018

Michal Bulant. Masarykova univerzita Fakulta informatiky

Swarm Intelligence. Moderní metody optimalizace 1

Aproximace funkcí. Numerické metody 6. května FJFI ČVUT v Praze

Otázku, kterými body prochází větev implicitní funkce řeší následující věta.

BAKALÁŘSKÁ PRÁCE. Numerické metody jednorozměrné minimalizace

Iterační metody řešení soustav lineárních rovnic. 27. prosince 2011

stránkách přednášejícího.

Numerické řešení diferenciálních rovnic

Učební texty k státní bakalářské zkoušce Matematika Základy teorie funkcí více proměnných. študenti MFF 15. augusta 2008

Algoritmy pro spojitou optimalizaci

Vlastní (charakteristická) čísla a vlastní (charakteristické) Pro zadanou čtvercovou matici A budeme řešit maticovou

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

1 0 0 u 22 u 23 l 31. l u11

SOUSTAVY LINEÁRNÍCH ALGEBRAICKÝCH ROVNIC

Neuronové sítě AIL002. Iveta Mrázová 1 František Mráz 2. Neuronové sítě. 1 Katedra softwarového inženýrství. 2 Kabinet software a výuky informatiky

Drsná matematika III 3. přednáška Funkce více proměnných: Inverzní a implicitně definovaná zobrazení, vázané extrémy

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

NG C Implementace plně rekurentní

Drsná matematika III 2. přednáška Funkce více proměnných: Aproximace vyšších rádů, Taylorova věta, inverzní zobrazení

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

DRN: Soustavy linárních rovnic numericky, norma

Připomenutí co je to soustava lineárních rovnic

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

5. Lokální, vázané a globální extrémy

Preceptron přednáška ze dne

Co je obsahem numerických metod?

Libovolnou z probraných metod najděte s přesností na 3 desetinná místa kladný kořen rovnice. sin x + x 2 2 = 0.

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

Přepočet provozních stavů sítě daných: Výpočet ztrát a kapacitních proudů v síti: Výpočet zkratových poměrů v síti:

CITLIVOSTNÍ ANALÝZA DYNAMICKÝCH SYSTÉMŮ I

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Numerické řešení nelineárních rovnic

Mocninná funkce: Příklad 1

Kombinatorická minimalizace

Hledání kořenů rovnic jedné reálné proměnné metoda půlení intervalů Michal Čihák 23. října 2012

Newtonova metoda. 23. října 2012

Aplikovaná numerická matematika - ANM

DRN: Kořeny funkce numericky

Neuronové sítě Ladislav Horký Karel Břinda

4. Přednáška: Kvazi-Newtonovské metody:

4EK213 LINEÁRNÍ MODELY

Algoritmy a struktury neuropočítačů ASN P3

Přijímací zkouška na navazující magisterské studium 2018

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

4EK213 LINEÁRNÍ MODELY

Už bylo: Učení bez učitele (unsupervised learning) Kompetitivní modely

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

Neuronové sítě v DPZ

Matematika pro informatiku 4

Drsná matematika III 6. přednáška Obyčejné diferenciální rovnice vyšších řádů, Eulerovo přibližné řešení a poznámky o odhadech chyb

Neuronové sítě (11. přednáška)

Dynamické programování

Zlín, 23. října 2011

BAKALÁŘSKÁ PRÁCE. Tomáš Brambora Učení vrstevnatých perceptronových sítí

Obyčejnými diferenciálními rovnicemi (ODR) budeme nazývat rovnice, ve kterých

Neuronové časové řady (ANN-TS)

1. Obyčejné diferenciální rovnice

5. Umělé neuronové sítě. Neuronové sítě

Popis zobrazení pomocí fuzzy logiky

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Úvod Příklad Výpočty a grafické znázornění. Filip Habr. České vysoké učení technické v Praze Fakulta jaderná a fyzikálně inženýrská

Numerické řešení diferenciálních rovnic

Soustavy nelineárních rovnic pomocí systému Maple. Newtonova metoda.

na magisterský studijní obor Učitelství matematiky pro střední školy

Matematika V. Dynamická optimalizace

III. Diferenciál funkce a tečná rovina 8. Diferenciál funkce. Přírůstek funkce. a = (x 0, y 0 ), h = (h 1, h 2 ).

9. přednáška 26. listopadu f(a)h < 0 a pro h (0, δ) máme f(a 1 + h, a 2,..., a m ) f(a) > 1 2 x 1

Transkript:

Pokročilé metody učení neuronových sítí Tomáš Řehořek tomas.rehorek@fit.cvut.cz

Problém učení neuronové sítě (1) Nechť N = (V, I, O, S, w, f, h) je dopředná neuronová síť, kde: V je množina neuronů I V je množina vstupních neuronů O V je množina výstupních neuronů S V V je množina synapsí w : S je váhová funkce f : V { φ φ : je diferencovatelná } je přiřazení aktivačních funkcí neuronům

Problém učení neuronové sítě (2) Předpokládáme, že topologie sítě (V, I, O, S) a aktivační funkce neuronů (f) jsou pevně dány Uvažujme množinu trénovacích příkladů T = { (x 1,d 1 ), (x 2,d 2 ),, (x k,d k ) }, kde x i I a d i O Definujme chybovou funkci E : S jako: E T - λ w kde λ w je funkce realizovaná sítí N za předpokladu váhové funkce w O w d x i=1 j=1 ij i j 2

Problém učení neuronové sítě (3) Váhovou funkci w lze ztotožnit s odpovídajícím váhovým vektorem, tj. w S Naším úkolem je nalézt váhový vektor w S takový, že E(w) je minimální

Učení neuronové sítě: Algoritmy Gradientní: Back-Propagation QuickProp Quasi-Newton Levenberg-Marquardt Delta-bar-Delta Negradientní: Např. evoluční techniky (GNARL, SANE, NEAT, HyperNEAT )

Back-Propagation (1) Objeven vícekrát nezávisle na sobě na počátku 70. let (Paul Werbos, 1974) Vektor w je náhodně inicializován a následně iterativně zlepšován V každé iteraci je určen vektor gradientu g = ( E)(w) a je učiněn krok proti jeho směru (chybovou funkci minimalizujeme) V nejjednodušší verzi w t+1 = w t + η g, kde parametr η nazýváme learning rate

Back-Propagation (2) Algoritmus pracuje ve dvou fázích: Dopředná jsou spočítány: hodnota λ w (x), derivace aktivačních funkcí v daných bodech Zpětná od výstupní vrstvy je zpětně šířena chyba pro každou synapsi w ij ve výstupní vrstvě snadno zjistíme E/ w ij jako ( E/ s) * ( s/ w ij ) kde s je vnitřní potenciál, pomocí rozdílu očekávaného a skutečného výstupu pro synapse v každé vnitřní vrstvě pak počítáme gradient ze znalosti E/ s ve vrstvě následující

Back-Propagation (3) Nejčastější varianta: Online learning (okamžitý update vah), výpočty parciálních derivací v error landscape probíhají již v dopředné fázi Náchylný k uvíznutí v lokálním minimu (obyčejný gradientní sestup) Klíčový parametr: η learning rate

Optimalizace 1. a 2. řádu Gradientní optimalizace optimalizace 1. řádu založena na aproximaci error landscape polynomem 1. stupně, tj. nadrovinou bereme v potaz pouze sklon, nikoli křivost Optimalizace 2. řádu aproximace error landscape polynomem 2. stupně, tj. kvadratickou funkcí problém: vyžaduje znalost Hessovy matice rozměrů S S, výpočetně velmi náročné

QuickProp (1) Scott Elliott Fahlman, 1988 Autor rozšiřuje BP o pseudo-2.řádovou optimalizaci Optimalizační proces stejný jako u BP, pro každou synapsi si však pamatujeme navíc: E/ w ij z předchozí epochy (t 1) rozdíl předchozí a současné váhy Δw ij = w ij (t) w ij (t 1)

QuickProp (2) Dva velmi silné předpoklady: Křivka chybové funkce pro každou váhu každé synapse je konvexní parabola Synapse nejsou v interakci Parametry dvourozměrné paraboly jsou nezávislé na všech ostatních vahách Předpoklady v praxi téměř jistě neplatí, autor je však využívá k empiricky efektivní optimalizaci

QuickProp (3) V každém kroku t známe: předchozí směrnici E/ w ij (t 1) deltu Δw ij = w ij (t) w ij (t 1) aktuální směrnici E/ w ij (t) To umožňuje jednoznačné určení paraboly v novém kroku se přesuneme přímo do jejího minima za použití vztahu Δw ij t-1 E w, ij S t S t t S t-1 - S t w Δ = kde ij

QuickProp (4) Autor hovoří o batch update po epochách Odolnější proti uvíznutí v lokálním optimu než BP Základní parametry: r inicializační parametr vah ε... velikost kroku μ omezení velikosti kroku shora

QuickProp (5) r inicializační parametr vah na počátku jsou váhy vzorkovány z uniformního náhodného rozdělení U(-r,r) vhodná velikost závisí na typu problému a charakteristikách aktivačních funkcí přirozená volba: r = 1, doporučuje i autor

QuickProp (6) ε velikost kroku kroky determinovány předchozím krokem a aktuálním sklonem nutnost učinit 1. krok! velikost 1. kroku je ε, možno volit např. ε = 1 vyjde-li v nějakém kroku příliš malé Δw ij, velikost váhy na mnoho epoch zamrzne autor na základě svých experimentů navrhuje: je-li znaménko předchozí směrnice shodné se znaménkem směrnice aktuální, připočtěme k Δw ij vypočtené kvadratickou formulí ještě ε-krát aktuální směrnici

QuickProp (7) μ horní omezení velikosti kroku po každém kroku může u paraboly nastat jedna ze situací: znaménko směrnice zůstává stejné, mění se ale její velikost (stejné rameno paraboly) znaménko směrnice se změní (přeskok na opačné rameno paraboly) směrnice se téměř nezmění, rozdíl je blízký nule

QuickProp (8) μ horní omezení velikosti kroku pokud se velikost směrnice mnoho nezmění, vyjde nové Δw ij velmi vysoké proto: velikost nového skoku může být maximálně μ krát předchozí krok autor doporučuje μ = 1.75

Newtonova optimalizační metoda (1) Lokální optimalizace náhodně zvoleného počátečního řešení x n V každé iteraci aproximujeme okolí x n-rozměrným Taylorovým polynomem 2. stupně, tj. kvadratickou funkcí Cílem je nalézt bod s nulovým gradientem předpokládáme, že se jedná o lokální optimum hledáme v Taylorově polynomu, což má přesné analytické řešení

Newtonova optimalizační metoda (2) Taylorův polynom získáme jako: 1 T E E E 2 T T x x x x x x x H x x x t t t t t t x... proměnná x t řešení v čase t T(x t ) Taylorův polynom v čase t E(x t ) hodnota chybové funkce v čase t E(x t ) gradient chybové funkce v čase t HE(x) Hessova matice v bodě x

Newtonova optimalizační metoda (3) Bod s nulovým gradientem určíme analyticky v Taylorově polynomu: x x E x E x t t t t +1 H Pozn.: v 1-D případě platí: -1 x t+1 E x x t t E x t

Quasi-Newton (1) Optimalizační metoda založená na klasické Newtonově metodě Předpokládá lokální aproximovatelnost chybové funkce kvadratickou funkcí, hledá stacionární bod této funkce Vyhýbá se náročnému výpočtu Hessovy matice druhých derivací Hessova matice je průběžně aktualizována na základě po sobě jdoucích gradientů

Quasi-Newton (2) Základní myšlenka: Učiňme sekvenci lineárně nezávislých kroků (Δx 1, Δx 2,, Δx n ) Zaznamenejme přírůstky gradientu (Δg 1, Δg 2,, Δg n ) Hessovu matici pak spočítáme jako: (Δg 1, Δg 2,, Δg n ) * (Δx 1, Δx 2,, Δx n ) -1 Potřebnou inverzi spočítáme jako: (Δx 1, Δx 2,, Δx n ) * (Δg 1, Δg 2,, Δg n ) -1

Quasi-Newton (3) Algoritmus začíná s libovolnou pozitivnědefinitní maticí S(0), která je v každém kroku aktualizována pomocí Δx t a Δg t Existuje celá řada variant Davidon-Fletcher-Powell (DFP) historicky první Quasi-Newton metoda Broyeden-Fletcher-Goldfarb-Shanno (BFGS) považován za nejlepší známou QN metodu Typicky se používá batch update vah

Levenberg-Marquardt (1) Kompromis mezi: Quasi-Newtonovskou optimalizací konverguje rychle k lokálnímu optimu, ovšem může i divergovat Gradientní optimalizací při správné volbě η zajištěna konvergence, ovšem konverguje pomalu

Delta-Bar-Delta (1) Robert A. Jacobs, 1988 Heuristická úprava BP Automaticky upravuje learning rate η pro každou synapsi (dimenzi v S ) odděleně Používá se zásadně pro batch learning, nefunguje pro online learning

Delta-Bar-Delta (2) Pro každou synapsi si pamatujeme směrnice z předchozích kroků (ty jsou průměrovány) Pokud má aktuální směrnice stejné znaménko, η se zvýší Pokud má aktuální směrnice opačné znaménko, η se sníží Urychluje konvergenci: Dynamická adaptace η pro každou dimenzi zvlášť umožňuje: zrychlovat blížení se k lokálnímu optimu, je-li příliš vzdáleno zpomalovat blížení se lokálnímu optimu, je-li míjeno

Delta-Bar-Delta (3) Na základě znalosti gradientu g ij (t) určíme: g t = 1- β g t + βg t-1 0 β 1, ij ij ij Learning rate η ij (t +1) pak vypočteme jako: η ij t + κ, gij t 1 gij t 0 η + 1, 1 ij t 1 = γ ηij t gij t gij t 0 η ij t, jinak Problém: parametry β, κ, a γ jsou voleny uživatelem na empirickém základě

Použité zdroje [1] Jan Drchal: Přednáška ke kurzu A4M33BIA na FEL ČVUT, 2010. [2] Scott Elliott Fahlman: An Empirical Study of Learning Speed in Back-Propagation Networks. Technical report, 1988. [3] Simon Haykin: Neural Networks and Learning Machines. Third Edition. Prentice Hall. 2009. [4] Aristidis Likas, Andreas Stafylopatis: Training the random neural network using quasi-newton methods. European Journal of Operational Research, 2000. [5] Genevieve B. Orr: Delta-Bar-Delta. Dostupné online na http://www.willamette.edu/~gorr/classes/cs449/momentum/del tabardelta.html [6] Raul Rojas: Neural Networks, Springer-Verlag, Berlin, 1996. [7] Wikipedia: Newton's method in optimization.

Děkuji za pozornost! Tomáš Řehořek tomas.rehorek@fit.cvut.cz