Trénování sítě pomocí učení s učitelem

Podobné dokumenty
3. Vícevrstvé dopředné sítě

Umělé neuronové sítě

Lineární klasifikátory

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

5. Umělé neuronové sítě. Neuronové sítě

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Asociativní sítě (paměti) Asociace známého vstupního vzoru s daným výstupním vzorem. Typická funkce 1 / 44

UČENÍ BEZ UČITELE. Václav Hlaváč

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Algoritmy a struktury neuropočítačů ASN - P11

Úvod do optimalizace, metody hladké optimalizace

Vytěžování znalostí z dat

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

OPTIMALIZACE. (přehled metod)

Rosenblattův perceptron

Rozdělování dat do trénovacích a testovacích množin

Neuronové sítě AIL002. Iveta Mrázová 1 František Mráz 2. Neuronové sítě. 1 Katedra softwarového inženýrství. 2 Kabinet software a výuky informatiky

Interpolace pomocí splajnu

Datové struktury 2: Rozptylovací tabulky

Kybernetika a umělá inteligence, cvičení 10/11

Učící se klasifikátory obrazu v průmyslu

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Lineární diskriminační funkce. Perceptronový algoritmus.

Neuronové sítě v DPZ

Pokročilé metody učení neuronových sítí. Tomáš Řehořek

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Numerické metody a programování. Lekce 8

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ANALÝZA A KLASIFIKACE DAT

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Klasifikace a rozpoznávání. Lineární klasifikátory

12 Metody snižování barevného prostoru

Klasifikace předmětů a jevů

Moderní systémy pro získávání znalostí z informací a dat

Architektura - struktura sítě výkonných prvků, jejich vzájemné propojení.

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Neuronové sítě Ladislav Horký Karel Břinda

Preceptron přednáška ze dne

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

Hammingovy kódy. dekódování H.kódů. konstrukce. šifrování. Fanova rovina charakteristický vektor. princip generující a prověrková matice

algoritmus»postup06«p e t r B y c z a n s k i Ú s t a v g e o n i k y A V

Neuronové sítě. 1 Úvod. 2 Historie. 3 Modely neuronu

6. přednáška 5. listopadu 2007

LOKALIZACE ZDROJŮ AE NEURONOVÝMI SÍTĚMI NEZÁVISLE NA ZMĚNÁCH MATERIÁLU A MĚŘÍTKA

PRAVDĚPODOBNOST A STATISTIKA

Neuronové sítě. Vlasta Radová Západočeská univerzita v Plzni katedra kybernetiky

Strojové učení Marta Vomlelová

4EK213 LINEÁRNÍ MODELY

Dálkový průzkum Země. Ústav geoinformačních technologií Lesnická a dřevařská fakulta MENDELU

Využití neuronové sítě pro identifikaci realného systému

Úloha - rozpoznávání číslic

Časová a prostorová složitost algoritmů

Pružnost a plasticita II CD03

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

PV021: Neuronové sítě. Tomáš Brázdil

Aplikovaná numerická matematika

OPTIMALIZACE A MULTIKRITERIÁLNÍ HODNOCENÍ FUNKČNÍ ZPŮSOBILOSTI POZEMNÍCH STAVEB D24FZS

Intervalová data a výpočet některých statistik

Numerické metody optimalizace - úvod

Už bylo: Učení bez učitele (unsupervised learning) Kompetitivní modely

Příklad 1/23. Pro rostoucí spojité fukce f(x), g(x) platí f(x) Ω(g(x)). Z toho plyne, že: a) f(x) Ο(g(x)) b) f(x) Θ(g(x)) d) g(x) Ω(f(x))

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Přednáška 13 Redukce dimenzionality

7 Konvexní množiny. min c T x. při splnění tzv. podmínek přípustnosti, tj. x = vyhovuje podmínkám: A x = b a x i 0 pro každé i n.

Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,

výběr charakteristických rysů a zkušeností ze vstupních signálů,

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

Přijímací zkouška - matematika

Bayesovská klasifikace

2. RBF neuronové sítě

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Algoritmy a struktury neuropočítačů ASN P3

Kristýna Bémová. 13. prosince 2007

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Úvod Příklad Výpočty a grafické znázornění. Filip Habr. České vysoké učení technické v Praze Fakulta jaderná a fyzikálně inženýrská

naopak více variant odpovědí, bude otázka hodnocena jako nesprávně zodpovězená.

13. Lineární programování

Neuronové časové řady (ANN-TS)

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Úvod do optimalizace Matematické metody pro ITS (11MAMY)

20. května Abstrakt V následujícím dokumentu je popsán způsob jakým analyzovat problém. výstřelu zasáhnout bod na zemi v definované vzdálenosti.

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

1. Soutěživé sítě. 1.1 Základní informace. 1.2 Výstupy z učení. 1.3 Jednoduchá soutěživá síť MAXNET

y (5) (x) y (4) (x) + 4y (3) (x) 12y (x) 45y (x) 27y(x) (horní indexy značí derivaci) pro 3. y(x) = x sin 3x 4. y(x) = x cos 3x 9.

na magisterský studijní obor Učitelství matematiky pro střední školy

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Občas se používá značení f x (x 0, y 0 ), resp. f y (x 0, y 0 ). Parciální derivace f. rovnoběžného s osou y a z:

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

5. Lokální, vázané a globální extrémy

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

4EK201 Matematické modelování. 2. Lineární programování

Popis zobrazení pomocí fuzzy logiky

Transkript:

Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup sítě byl pro všechny vstupní vektory z trénovací množiny správný, tzn. aby celková chyba definovaná vztahem byla minimální. Přitom je skutečný výstup sítě pro vstup x p, u p je požadovaný výstup sítě pro vstup x p, P je počet trénovacích dvojic, g p je chyba od p-té trénovací dvojice.! analogicky jako u lineární sítě se váhy a prahy mění úměrně gradientu chybové funkce, tzn. chyba se z výstupu sítě šíří zpět do jednotlivých vrstev, kde se podle ní mění váhy a prahy algoritmus backpropagation (algoritmus zpětného šíření chyby)

Algoritmus trénování nelineární sítě Vstupní podmínky: Je dáno! trénovací množina, tj. P dvojic [x p,u p ], p=1,2,...,p.! x p... vstupní vektor dimenze I! u p... požadovaný výstupní vektor dimenze M pro vstupní vektor x p! počet neuronů ve skryté vrstvě J! f(>)... aktivační funkce 1. vrstvy! g(>)... aktivační funkce 2. vrstvy 1. krok - Inicializace! Váhové matice W(1) typu J I a V(1) typu M J a prahové vektory b(1) dimenze J a d(1) dimenze M inicializujeme malými náhodnými čísly.! Zvolíme c > 0, E max $ 0 a TC max > 0.! Stanovíme k =1, p = 1, q = 0 a E(0) = 0. E max TC max je maximální povolená chyba, na kterou nebo pod kterou se chceme dostat je maximální počet trénovacích cyklů, ve kterých chceme síť natrénovat q je počet trénovacích cyklů E je chyba způsobená nesprávnou činností sítě během jednoho trénovacího cyklu c je konstanta učení

2. krok - Výpočet výstupu x(k) = x p z(k) = [f(w 1 (k)@x(k)+b 1 (k)), f(w 2 (k)@x(k)+b 2 (k)),...,f(w J (k)@x(k)+b J (k))] T y(k) = [g(v 1 (k)@z(k)+d 1 (k)), g(v 2 (k)@z(k)+d 2 (k)),...,g(v M (k)@z(k)+d M (k))] T u(k) = u p w j... j-tá řádka matice W v j... m-tá řádka matice V 3. krok - Výpočet chyby E(k)=E(k-1)+½(u(k)-y(k)) T (u(k)-y(k)) 4. krok - Modifikace vah a prahů 5. krok - Konec trénovacího cyklu Je-li p < P potom p = p +1 k = k +1 jdi na krok 2) jinak q = q +1 jdi na krok 6)

6. krok - Konec trénování E c (q) = E(k) Je-li E c (q) # E max potom KONEC (síť se podařilo natrénovat) jinak je-li q > TC max potom KONEC (síť se jinak E(0) = 0 nepodařilo natrénovat) k = k +1 p = 1 jdi na krok 2) E c... chyba na konci trénovacího cyklu

Poznámky k trénování nelineární sítě:! Pro konkrétní tvar aktivačních funkcí lze odvodit konkrétní vztahy pro modifikaci vah a prahů < pro je < pro je < pro je! Speciálním případem nelineárních sítí jsou lineární sítě a sítě s binární bipolární aktivační funkcí! Podobně jako u sítě s binární bipolární aktivační funkcí a u lineární sítě lze pro výpočet celkové chyby E c využít též vztah kde M je počet výstupů sítě, P je počet trénovacích dvojic v trénovací množině a u pm resp. y pm je m-tá složka vektoru u p, resp. y p. Takto definovaná chyba umožňuje lépe posoudit činnost sítí s různým počtem výstupů a různě velkou trénovací množinou.! Volba konstanty učení: Malá hodnota konstanty učení

zpomaluje proces učení, pro velkou hodnotu hrozí nebezpečí nestability procesu učení.! Vliv strmosti aktivační funkce: Má na proces učení stejný vliv jako konstanta učení konstantu učení je třeba volit s ohledem na strmost aktivační funkce.! Algoritmus může skončit v nevyhovujících mělkých lokálních minimech chybové funkce (chybová funkce je závislost chyby na parametrech, tj. váhách a prahách sítě). Možné řešení: < vyzkoušet různé inicializace vah a prahů < zvýšit počet neuronů ve skrytých vrstvách, popř. počet skrytých vrstev (pouze částečné řešení) < momentová metoda! V průběhu trénovaní je třeba sledovat vývoj celkové chyby E c, váhových matic a prahových vektorů v závislosti na počtu trénovacích cyklů a podle toho případně upravit hodnotu strmosti aktivačních funkcí 8 a konstanty učení c, nebo maximální počet trénovacích cyklů TC max.! Volba počtu vstupů, výstupů, skrytých vrstev a neuronů v nich, volba aktivačních funkcí v jednotlivých vrstvách a jejich strmosti 8 a volba konstanty učení c závisí na typu řešené úlohy.

Momentová metoda algoritmu backpropagation! jejím smyslem je zabránit tomu, aby se proces trénování zastavil v mělkém lokálním minimu! Princip: pro změnu vah platí kde je minulá změna váhy, tj., a " je tzv. momentová konstanta, pro kterou platí "0+0,1,! analogický vztah platí i pro změnu prahů! při inicializaci je třeba nastavit a! Momentová metoda se používá zejména při dávkovém trénování. Při sekvenčním trénování je třeba opatrnosti.

Použití nelineárních sítí Aproximátory funkcí! Jednotlivé vstupy nelineárních sítí představují nezávisle proměnné aproximované funkce, výstupy představují závisle proměnné počet vstupů je roven počtu nezávisle proměnných, počet výstupů je roven počtu závisle proměnných.! Skryté vrstvy mají neurony s nějakou sigmoidální aktivační funkcí, ve výstupní vrstvě jsou obvykle neurony s lineární aktivační funkcí.

Klasifikátory Poznámka: Úkolem klasifikace je zařazování předmětů do skupin (tzv. tříd) podle společných vlastností. Každý předmět je reprezentován svým obrazem, tj. vektorem charakteristických příznaků.! Vstupem sítě jsou jednotlivé klasifikované obrazy (tj. vektory příznaků), tzn. síť má tolik vstupů, kolik je příznaků. Výstupem sítě je informace o zařazení vstupního obrazu do určité třídy, tzn počet výstupů sítě je určen počtem tříd, do kterých se klasifikuje. Je-li R počet tříd, potom počet výstupů sítě je obvykle roven buď R nebo log 2 R. Obecně platí, že počet výstupů sítě může být jakékoli celé číslo z intervalu (většinou se volí horní mez).! ve všech vrstvách se nejčastěji používá některá sigmoidální aktivační funkce, která se po natrénování ve výstupní vrstvě někdy nahradí odpovídající binární aktivační funkcí.

Asociativní paměti Poznámka: Asociativní paměť je paměť adresovaná obsahem, adresou je klíčová hodnota ukládaná s informací.! Vstupem sítě je vstupní obraz (tzv. klíč), kterým se přistupuje do paměti, výstupem sítě je příslušný asociovaný obraz počet vstupů sítě je roven dimenzi vstupního obrazu, počet výstupů je roven dimenzi asociobaného výstupního obrazu.! Obvykle se využívají neurony se sigmoidální aktivační funkcí. Poznámka: zapamatovaná informace je v síti uložena v hodnotách vah a prahů uložená informace je rozprostřena po celé síti asociativní paměť je schopna vykonávat svou funkci dostatečně správně i při částečném poškození (například při odstranění části neuronů skryté vrstvy). U pamětí adresovaných adresou se obsah z poškozené části ztrácí úplně.

Všechny tři výše uvedé aplikace lze matematicky formulovat jako aproximaci funkce (tj. optimalizační úlohu)! pro aproximaci libovolné funkce postačují 2 až 3 vrstvy neuronů: < jedna vrstva rozdělí vstupní prostor nadrovinou (přímkou) < dvě vrstvy jsou schopny oddělit konvexní oblast (konvexní oblast je taková oblast, kde libovolné dva body této oblasti lze spojit úsečkou, která celá leží v této oblasti)

< tři vrstvy jsou schopny oddělit i nekonvexní oblasti! počet skrytých vrstev a počet neuronů v nich má vliv na schopnost sítě zobecňovat (generalizovat) vstupní body z trénovací množiny. Velké množství vrstev a neuronů může vést k přetrénování (overfitting) sítě, malé množství k nedotrénování sítě (underfitting).