Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Podobné dokumenty
Um lá inteligence II

Teorie rozhodování (decision theory)

4EK311 Operační výzkum. 1. Úvod do operačního výzkumu

Pravděpodobnostní (Markovské) metody plánování, MDP - obsah

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Statistická teorie učení

Otázky ke státní závěrečné zkoušce

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Odhad parametrů N(µ, σ 2 )

1 0 0 u 22 u 23 l 31. l u11

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Kombinatorická minimalizace

OSA. maximalizace minimalizace 1/22

metodou Monte Carlo J. Matěna, Gymnázium Českolipská, Praha

stránkách přednášejícího.

Emergence chování robotických agentů: neuroevoluce

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

oddělení Inteligentní Datové Analýzy (IDA)

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Dynamic programming. Historie. Dynamické programování je obsaženo v těchto programech: Příklad: chceme optimálně přiložit dvě sekvence

Neuronové časové řady (ANN-TS)

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

Bayesovské metody. Mnohorozměrná analýza dat

UČENÍ BEZ UČITELE. Václav Hlaváč

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Lineární klasifikátory

Markov Chain Monte Carlo. Jan Kracík.

aneb jiný úhel pohledu na prvák

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

7. Rozdělení pravděpodobnosti ve statistice

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Mˇ eˇren ı ˇ cetnost ı (Poissonovo rozdˇ elen ı) 1 / 56

Využití metod strojového učení v bioinformatice David Hoksza

Aktivní detekce chyb

Integrace. Numerické metody 7. května FJFI ČVUT v Praze

Numerické řešení nelineárních rovnic

Odhad parametrů N(µ, σ 2 )

4EK213 LINEÁRNÍ MODELY

OPTIMALIZACE A MULTIKRITERIÁLNÍ HODNOCENÍ FUNKČNÍ ZPŮSOBILOSTI POZEMNÍCH STAVEB D24FZS

Optimální řízení pro geometrický Brownův pohyb

Rozhodovací procesy 3

Hanojská věž. T2: prohledávání stavového prostoru. zadání [1 1 1] řešení [3 3 3] dva možné první tahy: [1 1 2] [1 1 3]

NG C Implementace plně rekurentní

OPTIMALIZAČNÍ ÚLOHY. Modelový příklad problém obchodního cestujícího:

Metoda Monte Carlo, simulované žíhání

Pravděpodobně skoro správné. PAC učení 1

DIPLOMOVÁ PRÁCE OPTIMALIZACE MECHANICKÝCH

5. Dynamické programování

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Přednáška 13 Redukce dimenzionality

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Státnicová otázka 6, okruh 1

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

brmiversity: Um lá inteligence a teoretická informatika

Klasifikace a rozpoznávání. Lineární klasifikátory

Pravděpodobnost, náhoda, kostky

Varianty Monte Carlo Tree Search

Pravděpodobnost, náhoda, kostky

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Státnice odborné č. 20

Numerické metody 6. května FJFI ČVUT v Praze

Neuronové sítě (11. přednáška)


METODA PŮLENÍ INTERVALU (METODA BISEKCE) METODA PROSTÉ ITERACE NEWTONOVA METODA

ÚVOD DO ROZHODOVÁNÍ PŘEDNÁŠKA. OPTIMALIZACE A ROZHODOVÁNÍ V DOPRAVĚ Přednáška 1. Zuzana Bělinová

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Užitek a rozhodování

Teorie užitku. Marta Vomlelová 14. prosince / 23

4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k?

Využití strojového učení k identifikaci protein-ligand aktivních míst

Dynamické programování UIN009 Efektivní algoritmy 1

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Ing. Alena Šafrová Drášilová

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Odhad stavu matematického modelu křižovatek

Ing. Alena Šafrová Drášilová, Ph.D.


Moderní systémy pro získávání znalostí z informací a dat

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Monte Carlo. Simulační metoda založená na užití stochastických procesů a generace náhodných čísel.

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Neparametrické odhady hustoty pravděpodobnosti

Strojové učení Marta Vomlelová

l, l 2, l 3, l 4, ω 21 = konst. Proved te kinematické řešení zadaného čtyřkloubového mechanismu, tj. analyticky

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

Numerické metody a programování. Lekce 8

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

1. července 2010

Markovské metody pro modelování pravděpodobnosti

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Příklady použití tenkých vrstev Jaromír Křepelka

Odhady Parametrů Lineární Regrese

Jaroslav Tuma. 8. února 2010

4EK201 Matematické modelování. 2. Lineární programování

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Dynamické programování

Struktury a vazebné energie iontových klastrů helia

Základy spojité optimalizace

Umělá inteligence a rozpoznávání

PŘEDMLUVA 11 FORMÁLNÍ UJEDNÁNÍ 13

Transkript:

Zpětnovazební učení Michaela Walterová Jednoocí slepým, 17. 4. 2019

V minulých dílech jste viděli Tři paradigmata strojového učení: 1) Učení s učitelem (supervised learning) Trénovací data: vstup a požadovaný výstup, například obrázek a popisek obrázku Učení = optimalizace vnitřních parametrů modelu, gradientní metody 2) Učení bez učitele (unsupervised learning) Model nezná požadovaný výstup Shlukování na základě podobnosti dat, snaha správně zreprodukovat vstup 3) Zpětnovazební učení (reinforcement learning) Hledání optimální strategie v daném prostředí Teorie řízení, robotika, hraní deskových či počítačových her Hluboké zpětnovazební učení na matfyzu: http://ufal.mff.cuni.cz/courses/npfl122 (přednáší Milan Straka) Volně dostupná učebnice: (Sutton, R.S. a Barto, A.G.) http://incompleteideas.net/book/rlbook2018.pdf

Kde se používá zpětnovazební učení? Yuxi Li (2018)

Markovův rozhodovací proces Ústřední otázka: Jak se mám zachovat v konkrétní situaci dané vnějšími okolnostmi? dělá rozhodnutí, učí se strategii π ( a s ) uděluje odměnu, přechází do nového stavu podle agentovy akce Dynamika prostředí (kterou agent nezná, ale učí se jí přízpůsobovat) Trajektorie

Hodnotové funkce Celkový zisk Gt odpovídající dané trajektorii (od času t) = součet odměn Rt Agent hledá takovou strategii, která maximalizuje celkový očekávaný zisk G0 Hodnotové funkce = nakolik je výhodné nacházet se v daném stavu (state-value function), nebo v něm provést danou akci (action-value function) hodnota stavu s při následování strategie π hodnota akce a ve stavu s při následování strategie π

Optimální hodnota a optimální strategie Pro každý stav (a akci) lze nalézt trajektorii, která maximalizuje celkový zisk optimalizace hodnotové funkce Optimální strategie π* by tedy byla taková, která v každém stavu zvolí akci o nejvyšší (optimální) hodnotě Nejednoznačnost - například různé výherní strategie v šachách Která akce má nejvyšší hodnotu? Která strategie je v daném prostředí optimální? To se musí agent naučit. Dynamické programování (Bellmanův princip optimality) Temporální diference Monte Carlo metody (data) Při učení se typicky střídá zpřesňování odhadu hodnotové funkce a volba nové strategie, s níž bude vygenerována nová trajektorie

Hledání optimální strategie Modelový příklad mnohoruký bandita (stavy nezávislé na minulých akcích) Jedna akce se po několika pokusech zdá lepší než všechny ostatní znamená to, že je optimální a máme u ní zůstat? Exploration vs. exploitation: Vsadit na jistotu, nebo zkusit náhodnou akci? Sutton a Barto (2018) ε-greedy strategie: s pravděpodobností ε volíme náhodnou akci, ve zbytku případů

Dynamické programování Richard Bellman, 50. léta aplikace v ekonomii, teorii řízení a mnoha dalších oblastech Rozdělení velké úlohy do podúloh, nalezení rekurzivních vztahů, optimalizace po částech Bellmanova rovnice pro hodnotovou funkci stavu Bellmanova rovnice pro optimální hodnotovou funkci stavu Obdobné vztahy lze psát také pro qπ(s,a) střední hodnota zisku při akci a ve stavu s

Dynamické programování Bellmanovy rovnice lze užít k iterativnímu ohodnocení libovolné strategie π zpřesněný odhad očekávaného zisku dosažitelného ze stavu s strategie dynamika prostředí očekávaný zisk po provedení akce a ve stavu s Strategii můžeme zlepšit tak, že v každém stavu zvolíme akci, jejíž hodnota je vyšší nebo rovna hodnotě tohoto stavu Postupné zlepšování strategie i odhadů hodnoty všech stavů (policy iteration) konvergence k optimalitě https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_dp.html Rychlejší alternativa: iterace rovnice pro optimální hodnotovou funkci (value teration)

Metody Monte Carlo Odhady hodnot Q (s,a) nejsou založeny na Bellmanově rovnici, ale na datech nepotřebujeme model prostředí Běh velkého množství epizod a explicitní výpočet zisku Gt podle skutečně obdržených odměn Rt po provedení daných akcí v daných stavech hodnotová funkce akce jako průměrný zisk Prozkoumání dostatečného počtu stavů a akcí může být docíleno tím, že epizody generujeme pomocí jiné strategie, než kterou se agent učí

Temporální diference Podobnost s Monte Carlo metodami: nepotřebujeme znát model prostředí Podobnost s dynamickým programováním: ke zpřesnění odhadu hodnoty akce nebo stavu použijeme odhad hodnoty následujícího stavu Narozdíl od MC metod není třeba čekat do konce epizody, abychom mohli odhadnout celkový zisk MC: TD: SARSA: epizody generovány toutéž strategií, která je použita k odhadu hodnoty následující akce Q-learning: k odhadu hodnoty následující akce je použita strategie, která se jeví jako optimální

Propojení s hlubokými sítěmi Stavů může být (i nekonečně) mnoho, hodnotové funkce je pak vhodné parametrizovat a aproximovat například pomocí neuronových sítí (univerzální aproximátor) Deep-Q Network: neuronová síť se učí předpovídat Q(s, a; θ) pro zadaná s a a trénovací data: náhodně vylosované realizované dvojice (s, a) jako vstup, Gt jako výstup Mnih a kol. (2015)

Co si z toho můžeme odnést? Zpětnovazební učení umožňuje najít nejvhodnější strategii pomocí maximalizace celkové odměny Dílčí odměny = naše komunikace s agentem Není nutné znát model prostředí (Monte Carlo metody), stavy ani akce nemusí být diskrétní Lze tuto metodu aplikovat v teoretické geofyzice? Náměty: obrácené úlohy automatizovaná volba kroku při minimalizaci misfitu (zobecněná gradientní metoda) Ke Li (2019): https://bair.berkeley.edu/blog/2017/09/12/learning-to-optimize-with-rl/???