Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Podobné dokumenty
Umělé neuronové sítě

Algoritmy a struktury neuropočítačů ASN - P1

Algoritmy a struktury neuropočítačů ASN - P2. Topologie neuronových sítí, principy učení Samoorganizující se neuronové sítě Kohonenovy mapy

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

Vytěžování znalostí z dat

Trénování sítě pomocí učení s učitelem

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Úvod do optimalizace, metody hladké optimalizace

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Neuronové sítě Ladislav Horký Karel Břinda

Rosenblattův perceptron

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Pokročilé metody učení neuronových sítí. Tomáš Řehořek

3. Vícevrstvé dopředné sítě

Využití neuronové sítě pro identifikaci realného systému

NG C Implementace plně rekurentní

Algoritmy a struktury neuropočítačů ASN - P11

Zpracování biologických signálů umělými neuronovými sítěmi

výběr charakteristických rysů a zkušeností ze vstupních signálů,

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Emergence chování robotických agentů: neuroevoluce

Lineární klasifikátory

Architektura - struktura sítě výkonných prvků, jejich vzájemné propojení.

Neuronové sítě v DPZ

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

AVDAT Nelineární regresní model

Preceptron přednáška ze dne

Asociativní sítě (paměti) Asociace známého vstupního vzoru s daným výstupním vzorem. Typická funkce 1 / 44

Algoritmy a struktury neuropočítačů ASN P3

Neuropočítače. podnět. vnímání (senzory)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Numerické metody a programování. Lekce 8

Klasifikace a rozpoznávání. Lineární klasifikátory

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

UČENÍ BEZ UČITELE. Václav Hlaváč

Základní spádové metody

5. Umělé neuronové sítě. Neuronové sítě

Jsou inspirovány poznatky o neuronech a nervových sítích živých organizmů a jejich schopnostmi:

Numerické metody optimalizace - úvod

IBM SPSS Neural Networks

PREDIKCE POČTU UCHAZEČŮ O STUDIUM S VYUŽITÍM NEURONOVÝCH SÍTÍ

2. RBF neuronové sítě

Neuronové sítě. 1 Úvod. 2 Historie. 3 Modely neuronu

Neuronové sítě AIL002. Iveta Mrázová 1 František Mráz 2. Neuronové sítě. 1 Katedra softwarového inženýrství. 2 Kabinet software a výuky informatiky

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Čebyševovy aproximace

Speciální struktury číslicových systémů ASN P12

Moderní systémy pro získávání znalostí z informací a dat

Úloha - rozpoznávání číslic

Neuronové sítě Učení bipolárního perceptronu

Jsou inspirovány poznatky o neuronech a nervových sítích živých organizmů a jejich schopnostmi:

Přednáška 13 Redukce dimenzionality

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Aproximace funkcí. x je systém m 1 jednoduchých, LN a dostatečně hladkých funkcí. x c m. g 1. g m. a 1. x a 2. x 2 a k. x k b 1. x b 2.

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

PV021 Vícevrstvá neuronová síť pro rozeznávání mikroteček. Matúš Goljer, Maroš Kucbel, Michal Novotný, Karel Štěpka 2011

PV021: Neuronové sítě. Tomáš Brázdil

Úvod do optimalizace Matematické metody pro ITS (11MAMY)

1 0 0 u 22 u 23 l 31. l u11

OSA. maximalizace minimalizace 1/22

Neuronové časové řady (ANN-TS)

aneb jiný úhel pohledu na prvák

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Faster Gradient Descent Methods

Globální matice konstrukce

Dálkový průzkum Země. Ústav geoinformačních technologií Lesnická a dřevařská fakulta MENDELU

Statistická analýza dat

OPTIMALIZACE. (přehled metod)

Jednotlivé historické modely neuronových sítí

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

Aplikovaná numerická matematika

Už bylo: Učení bez učitele (unsupervised learning) Kompetitivní modely

Neuronové sítě (11. přednáška)

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

vzorek vzorek

D C A C. Otázka 1. Kolik z následujících matic je singulární? A. 0 B. 1 C. 2 D. 3

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

Numerická stabilita algoritmů

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ANALÝZA A KLASIFIKACE DAT

OPTIMALIZACE A MULTIKRITERIÁLNÍ HODNOCENÍ FUNKČNÍ ZPŮSOBILOSTI POZEMNÍCH STAVEB D24FZS

VYUŽITÍ UMĚLÉ NEURONOVÉ SÍTĚ PRO EMPIRICKÝ MODEL ŠÍŘENÍ SIGNÁLU

Co je obsahem numerických metod?

VYUŽITÍ NEURONOVÝCH SÍTÍ V DIAGNOSTICE

Inovace bakalářského studijního oboru Aplikovaná chemie

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Numerické řešení nelineárních rovnic

Samoučící se neuronová síť - SOM, Kohonenovy mapy

Biofyzikální ústav LF MU Brno. jarní semestr 2011

Typy příkladů na písemnou část zkoušky 2NU a vzorová řešení (doc. Martišek 2017)

Vysoka škola ekonomická v Praze Fakulta informatiky a statistiky. Rozpoznávání znaků z reálných scén pomocí neuronových sítí

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

Toolbox pro neuronové sítě pro prostředí Mathematica

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Časová a prostorová složitost algoritmů

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Princip gradientních optimalizačních metod

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Připomenutí co je to soustava lineárních rovnic

Transkript:

Algoritmy a struktury neuropočítačů ASN P4 Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby Vrstevnatá struktura - vícevrstvé NN (Multilayer NN, MLNN) vstupní vrstva (input layer) - jedna skryté vrstvy (hidden layers) - jedna a více výstupní vrstva (output layer) - jedna neurony (matematické procesory) jsou sestavené do vrstev Úkol: zpracování, uchování, přenos informace Rozlišení podle propojení neuronů ve vrstvách: sítě s dopředným šířením informace (feedforward) rekurentní sítě (recurrent networks) informace se šíří v dopředném směru + formou jednoduchých nebo vícenásobných zpětných vazeb

propojení zprostředkovávají synaptické váhy neurony - McCulloch-Pittova typu, v sousedních vrstvách úplně propojené heteroasociativní sítě s učitelem je požadována znalost cílové hodnoty resp. hodnot Vícevrstvé sítě - velká skupina paradigmat: společný název pro topologii a algoritmus učení Příklady: Rosenblattův model Perceptronu, vícevrstvý Perceptron, Widrow-Hoffova ADALINE, MADALINE Viz http://amber.feld.cvut.cz/ssc/ssc-cv/asnc.htm a Tučková,J.: Úvod do teorie a aplikací umělých neuronových sítí. Skripta FEL ČVUT v Praze, vyd. ČVUT, 2005, ISBN 80-01-02800-3.

vstupní data do MLNN nejsou omezena požadavkem lineární separovatelnosti možnost klasifikace do více tříd Separace podmnožin dat pomocí a) jednoduchého perceptronu b) dvojvrstvé NN bez skryté vrstvy c) třívrstvé NN (s 1 skrytou vrstvou) Přibližný odhad počtu učebních vzorů (patterns): N p N e w e přesnost N p počet vzorků N w počet vah Příklad: MLNN 6-10-2 obsahuje 80 vah a prahů, pro chybu 0.1 je třeba 800 vzorů závisí na konkrétní architektuře

Neuronové sítě s učitelem (supervised learning) Vícevrstvá síť s dopředným šířením signálu neurony ve stejné vrstvě nejsou propojeny Algoritmus učení: zpětné šíření chyby (error back-propagation) vsupní vrstva 1. skrytá vrstva 2. skrytá vrstva výstupní vrstva vstupy výstupy supervizor Pozn.: práh (bias) je nulový.

MLNN univerzální aproximátory jsou schopny aproximovat jakoukoliv měřitelnou funkci s požadovanou přesností úspěšnost natrénování závisí na : výběru algoritmu učení dostatečném počtu skrytých neuronů existujícím vztahu mezi vstupními daty a požadovanými hodnotami koeficient konvergence roste s počtem skrytých neuronů koeficient poklesu počtu skrytých neuronů závisí na poklesu vstupní dimenze při konstantní přesnosti skryté neurony obecně nelineární aktivační funkce

rekurentní vazba kontextová vrstva Elmanova částečně rekurentní NS SRN Simple Recurent Network výstup vstup EN Elman Networks skrytá vrstva

EN sítě mají schopnost zapamatovat si data vstupující do neuronové sítě v předchozím kroku učení. Síť rozumí kontextu. Je vhodná k řešení úloh, ve kterých jsou data závislá prostorově i časově (zpracování řečového signálu). Funkce EN: 1) Do EN vstupují současně vstupní data a výstupní data z předchozích stavů. Informace z předchozích stavů jsou přiváděny do tzv. kontextové (rekurentní) vrstvy. 2) Kontextová vrstva = část vstupní vrstvy, propojení ze skryté do vstupní vrstvy rekurence HIF (Hidden-Input Feedback) 3) Kontextová vrstva = část vstupní vrstvy, propojení z výstupní do vstupní vrstvy rekurence OIF (Output-Input Feedback) 4) Kontextová vrstva = část skryté vrstvy, propojení z výstupní do skryté vrstvy rekurence OHF (Output-Hidden Feedback)

Skrytá vrstva - obecně libovolný počet neuronů!!! dobře natrénovaná síť řešící reálné problémy má mít větší počet skrytých neuronů, než MLNN!!! Např. : úlohy rozpoznání řeči - kolem 150 200 neuronů. Volba aktivačních funkcí žádné speciální požadavky. Obvykle: rostoucí nelineární funkce Zobecnění EN - neuronová síť se zpětným šířením chyby v závislosti na čase Back Propagation Through Time BPTT Tento algoritmus umožnuje řešit časové závislosti změny dat, používá se pro zpracování číslicových signálů, při rozpoznání řeči nebo při predikci časových řad. Pracuje jen v dávkovém módu, je náročná na paměť.

Chybové učení (error-correction learning) učení s učitelem hodnoty vah se nastavují úměrně k chybě mezi požadovanými a vypočtenými hodnotami w i j = (t j - y j ) x i lineární optimalizace účelové funkce Rozdíl predikovaných a požadovaných hodnot U N min y i t i j i1 x j 2 j = 1,,k N počet vektorů y i výstup ze sítě t i cílová hodnota x j parametry, j = 1,,k Řešení: metoda nejmenších čtverců

Metoda minimaxu Čebyševova (minimalizace maximální odchylky) U Výběr vzorů min max y i t i x j p j j = 1,,k sekvenčně náhodně opakovaně learning rate modifikace vah: W i j (t+1) = W i j (t) + e j x i chyba na výstupu e j = y j (1 - y j )(t j - y j ) chyba ve skryté vrstvě e j = x j (1 - x j ) S k e k W j k Algoritmus zpětného šíření chyby BP (error back propagation) dnes jeden z nejužívanějších, aplikovaný ve vícevrstvých sítích s učitelem algoritmus iterační, gradientní minimalizace celkové chyby pro všechny vzory

Rozhodovací funkce (cost function) energetická funkce je rovna střední kvadratické chybě mezi požadovaným a skutečným výstupem Aktivační funkce - spojitá diferencovatelná nelineární míra naučenosti : velikost globální chyby m počet výstupů m E g = 0.5 ( y j - T j ) 2 j1 Problémy : nevhodná volba parametrů učení nereprezentativní treninková množina nevhodná inicializace vah a prahů např. nevhodná volba rychlosti učení (learning rate) oscilace - přeskočení malých lokálních minim

Základní učení využívá pouze adaptaci synaptických vah, prahy a parametry přenosových funkcí se nemění. Pouze jeden optimalizační parametr rychlost učení délka kroku (learning rate) Modifikované metody dovolují adaptovat rychlost učení, adaptovat prahy i sklon přenosových funkcí, používají více optimalizačních parametrů, např. moment rozhodují tak o výkonnosti procesu učení rychlejší konvergence, snížení pravděpodobnosti uvíznutí v tzv. lokálním minimu

Inicializace malými náhodnými čísly (nejčastěji) inicializují se váhy a prahy ve všech vrstvách Aktivační (přenosová) funkce ve skrytých vrstvách nelineární (sigmoida, hyperbolická tangenta) ve výstupní vrstvě lineární i nelineární sigmoida - výstup nabývá malých hodnot lineární funkce - výstup nabývá libovolnou hodnotu nutná podmínka : aktivační funkce musí být diferencovatelná Podstata učení - minimalizace sumy čtverců chyb (sum-squared error) Trénink - probíhá do té doby, dokud není dosažena minimální chyba dokud neproběhly všechny epochy volba koeficientu učení (learning rate) : 0 < lr < 1 malé hodnoty pomalé učení větší pravděpodobnost, že nebude přeskočeno lokální minimum

Vícevrstvé sítě s učením zpětného šíření chyby BPG (Error Back-propagation Algorithm Back-propagation of Gradient Algorithm) dopředné propojení a šíření signál heteroasociativní sítě s učitelem (je požadována znalost cílových hodnot) off-line učení počítají se synaptické váhy a prahy batch training pro všechny tréninkové vzorky, modifikace vah až po přivedení všech vzorků do sítě, počítá se aktuální gradient chyby E pro úplnou množinu tréninkových vzorků on-line učení - váhy a prahy jsou modifikovány incremental bezprostředně po přivedení každého training tréninkového vzorku, proces konverguje stochasticky k lokálním minimům a nezaručuje dosažení absolutního minima

Princip: 1) Na vstup NS je přiváděn vektor resp. matice vstupních parametrů - číselné hodnoty pro konkrétní hodnoty fyzikálních veličin - kategoriální data (přiřazení kategorie určité vlastnosti, číselná hodnota udává váhu dané vlastnosti vzhledem k ostatním). 2) Po průchodu sítí je spočítán výstup z každého neuronu a výsledek je porovnán s požadovanou hodnotou. 3) Je spočítána chyba, ta se zpětně přepočítává do předchozích vrstev a synaptické váhy představující paměť jsou opraveny. 4) Do opravené sítě je znovu přiveden vstupní vektor resp. matice a proces se opakuje. Iterativní proces, hledání minima chyby mezi skutečnou (výstupní) hodnotou a požadovanou hodnotou. Nevýhoda: velká citlivost na relevantnost vstupních dat a na inicializaci synaptických vah.

minimalizace rozhodovací funkce (energetická funkce, cost function): gradientní metoda rozhodovací funkce - střední kvadratická chyba mezi požadovaným a skutečným výstupem aktivační funkce - spojitá diferencovatelná nelineární funkce (např. sigmoida nebo hyperbolická tangenta)

Jak nastavit váhy a prahy NN? Pro NN, která dosud nebyla učena, je vhodné použít pro inicializaci funkce typu sigmoida malá náhodná čísla, aby derivace funkce nenabývala malých hodnot (při velkých hodnotách parametrů dochází k saturaci a síť se přestává adaptovat). Naopak - velké hodnoty derivací jsou vhodné pro aktivační funkce Gaussova typu. Pro aktivační funkce typu hyperbolická tangenta se doporučuje (Nguyen a Widrow) - β wi j β, β = 0.7 ( p ) 1/ n n počet neuronů ve vstupní vrstvě, p počet neuronů ve skryté vrstvě