brmiversity: Um lá inteligence a teoretická informatika

Podobné dokumenty
Um lá inteligence II

brmiversity: Um lá inteligence a teoretická informatika

brmiversity: Um lá inteligence a teoretická informatika

brmiversity: Um lá inteligence a teoretická informatika

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

brmiversity: Um lá inteligence a teoretická informatika

Pravd podobnost a statistika - cvi ení. Simona Domesová místnost: RA310 (budova CPIT) web:

e²ení systém lineárních rovnic pomocí s ítací, dosazovací a srovnávací metody

brmiversity: Um lá inteligence a teoretická informatika

Skalární sou in. Úvod. Denice skalárního sou inu

Limity funkcí v nevlastních bodech. Obsah

Vektor náhodných veli in - práce s více prom nnými

Typy umělých neuronových sítí

1. (18 bod ) Náhodná veli ina X je po et rub p i 400 nezávislých hodech mincí. a) Pomocí ƒeby²evovy nerovnosti odhadn te pravd podobnost

Amortizovaná složitost. Prioritní fronty, haldy (binární, d- regulární, binomiální, Fibonacciho), operace nad nimi a jejich složitost

P íklad 1 (Náhodná veli ina)

T i hlavní v ty pravd podobnosti

Reálná ísla a posloupnosti Jan Malý

Teorie rozhodování (decision theory)

Binární operace. Úvod. Pomocný text

Ergodické Markovské et zce

nazvu obecnou PDR pro neznámou funkci

brmiversity: Um lá inteligence a teoretická informatika

na za átku se denuje náhodná veli ina

TGH07 - Chytré stromové datové struktury

2. Ur íme sudost/lichost funkce a pr se íky s osami. 6. Na záv r na rtneme graf vy²et ované funkce. 8x. x 2 +4

Umělá inteligence I. Roman Barták, KTIML.

Pr b h funkce I. Obsah. Maxima a minima funkce

brmiversity: Um lá inteligence a teoretická informatika

Teorie her. Klasikace. Pomocný text

Frikce pracovního trhu

Rovnice a nerovnice. Posloupnosti.

Vzorové e²ení 4. série

Statistika pro geografy. Rozd lení etností DEPARTMENT OF GEOGRAPHY

Dynamické datové struktury III.

brmiversity: Um lá inteligence a teoretická informatika

e²ení 1. série Úvodní gulá² autor: Kolektiv org

Záludnosti velkých dimenzí

e²ení 4. série Binární operace

Integrování jako opak derivování

ČÁST PÁTÁ POZEMKY V KATASTRU NEMOVITOSTÍ

Objektov orientované programování. C++ Akademie SH. 7. Objektov orientované programování. Michal Kvasni ka. Za áte níci C++ 2.

Text m ºe být postupn upravován a dopl ován. Datum poslední úpravy najdete u odkazu na staºení souboru. Veronika Sobotíková

Používání klávesnice. Zobrazit vše. V tomto článku

TGH07 - Chytré stromové datové struktury

P íklady k prvnímu testu - Pravd podobnost

Seminá e. Ing. Michal Valenta PhD. Databázové systémy BI-DBS ZS 2010/11, sem. 1-13

Post ehy a materiály k výuce celku Funkce

Soft Computing (SFC) 2014/2015 Demonstrace u ení sít RCE, Java aplikace

Státnice - Rekurzivní a rekurzivn spo etné mnoºiny

Západo eská univerzita v Plzni. Fakulta aplikovaných v d. Katedra kybernetiky. Datová analýza ve ejn dostupných meteorologických dat.

1. Spo t te limity (m ºete pouºívat l'hospitalovo pravidlo) x cotg x 1. c) lim. g) lim e x 1. cos(x) =

Aplikace pravd podobnostních model v kurzovém sázení

Tomá² H ebejk Obousm rné heuristické vyhledávání BAKALÁ SKÁ PRÁCE. Univerzita Karlova v Praze. Matematicko-fyzikální fakulta

Testy pro více veli in

Úvod do programování a práce s počítačem

ízení Tvorba kritéria 2. prosince 2014

13. Přednáška. Problematika ledových jevů na vodních tocích

bin arn ı vyhled av an ı a bst Karel Hor ak, Petr Ryˇsav y 23. bˇrezna 2016 Katedra poˇ c ıtaˇ c u, FEL, ˇ CVUT

Cvi ení 7. Docházka a testík - 15 min. Distfun 10 min. Úloha 1

Paměťové moduly Uživatelská příručka

Konceptuální modelování

se nazývá charakter grupy G. Dále budeme uvaºovat pouze kone né grupy G. Charaktery tvo í také grupu, s násobením denovaným

( x ) 2 ( ) Další úlohy s kvadratickými funkcemi. Předpoklady: 2501, 2502

Server. Software serveru. Služby serveru

Užitek a rozhodování

Jevy, nezávislost, Bayesova v ta

Prioritní fronta, halda

Stromy, haldy, prioritní fronty

Návod k pužití telefonního přístroje 3COM 3101

1 Data. 2 Výsledky m ení velikostí. Statistika velikostí výtrus. Roman Ma ák

Základní datové struktury III: Stromy, haldy

brmiversity: Um lá inteligence a teoretická informatika

Vektory. Vektorové veli iny

Derivování sloºené funkce

Co je to tensor... Vektorový prostor

VYUŽITÍ NEURONOVÝCH SÍTÍ PROSTŘEDÍ MATLAB K PREDIKCI HODNOT NÁKLADŮ PRO ELEKTRICKÉ OBLOUKOVÉ PECE

téma: Formuláře v MS Access

bfs, dfs, fronta, zásobník, prioritní fronta, halda

Státní maturita 2010 Maturitní generálka 2010 Matematika: didaktický test - vy²²í úrove obtíºnosti MAGVD10C0T01 e²ené p íklady

Kelvin v kapkový generátor

Fyzikální praktikum 3

e²ení 5. série Binární kódy autor: Vlá a

e²ení 5. série Polynomy

mísy na koření akční pole prostor pro karty koření 1 mlýnek na pepř

Kuželosečky a kvadriky ve škole i kolem

e²ení 1. série Úvodní gulá²

Náplň. v Jednoduché příklady na práci s poli v C - Vlastnosti třídění - Způsoby (algoritmy) třídění

Padovan heaps Vladan Majerech

VYBRANÉ APLIKACE RIEMANNOVA INTEGRÁLU I. OBSAH A DÉLKA. (f(x) g(x)) dx.

pokud A Rat(M), pak také A Rat(M).

Distribuované algoritmy

Paralelní systémy. SIMD jeden tok instrukcí + více toků dat jedním programem je zpracováváno více různých souborů dat

primární tlačítko (obvykle levé). Klepnutí se nejčastěji používá k výběru (označení) položky nebo k otevření nabídky.

TGH05 - Problém za milion dolarů.

Práce s daty. 2. února Do tohoto adresá e stáhn te ze stránek soubory data.dat a Nacti_data.sci.

Binární vyhledávací stromy pokročilé partie

Aplikovaná matematika 1

C++ Akademie SH. 2. Prom nné, podmínky, cykly, funkce, rekurze, operátory. Michal Kvasni ka. 20. b ezna Za áte níci C++

REPREZENTACE 3D SCÉNY

Transkript:

brmiversity: Um lá inteligence a teoretická informatika P edná²ka. 10 Petr Baudi² pasky@ucw.cz brmlab 2011

Outline 1 Um lá inteligence a adaptivní agenti 2

Strojové u ení U ící se agent: Datový vstup a výstup, rozhodovací problém, uºitková funkce Máme trénovací mnoºinu U ení s u itelem vs. bez u itele Rozpoznávání vs. samoorganizace Nemáme trénovací mnoºinu (i kdyº... ) Explorationexploitation dilemma Zp tnovazebné u ení

Zp tnovazebné u ení Dnes: Nemáme klasickou trénovací mnoºinu, ale feedback u itelem je prost edí. Data si asto musíme shán t sami pr b ºn. Jinak e eno: Agent v stav se m ní a provádí akce. Reinforcement learning je zt lesn ním jádra UI. Agenta umístíme do prost edí, sám se musí nau it svoji p echodovou funkci.

Zp tnovazebné u ení Strategie agenta (policy) π : S A π(s) = a zvolí ve stavu s akci a Na základ akcí dostáváme zp tnou vazbu N kdy hned, ale asto aº za dlouho! Jak to modelovat? Pasivní u ení: B hem u ení pouºíváme xní π Aktivní u ení: Strategii π pr b ºn m níme

Bellmannova rovnice Kaºdý stav má ocen ní R (reward) K zajímavému stavu se m ºeme dostat r znými cestami Uºitek je celkové hodnocení výkonu agenta, distribuované p es posloupnost stav U[s 0, s 1, s 2,...] = R(s 0 )+γ(r(s 1 )+γ(r(s 2 )+ )) γ [0, 1]

Bellmannova rovnice Kaºdý stav má ocen ní R (reward) K zajímavému stavu se m ºeme dostat r znými cestami Uºitek je celkové hodnocení výkonu agenta, distribuované p es posloupnost stav U[s 0, s 1, s 2,...] = R(s 0 )+γ(r(s 1 )+γ(r(s 2 )+ )) γ [0, 1] Akce nemusí vºdy dopadnout stejn pravd podobnostní rozd lení; Markovský rozhodovací proces (MDP)! π(s) = argmax a A(s) s P(s s, a)u(s ) (vyber akci s nejvy²²ím o ekávaným uºitkem)

Bellmannova rovnice Kaºdý stav má ocen ní R (reward) K zajímavému stavu se m ºeme dostat r znými cestami Uºitek je celkové hodnocení výkonu agenta, distribuované p es posloupnost stav U[s 0, s 1, s 2,...] = R(s 0 )+γ(r(s 1 )+γ(r(s 2 )+ )) γ [0, 1] Akce nemusí vºdy dopadnout stejn pravd podobnostní rozd lení; Markovský rozhodovací proces (MDP)! π(s) = argmax a A(s) s P(s s, a)u(s ) (vyber akci s nejvy²²ím o ekávaným uºitkem) Volí-li agent optimální akci, uºitek stavu závisí na uºitku okolních stav Bellmanova rovnice: U(s) = R(s) + γ max a A(s) S P(s s, a)u(s )

Pasivní u ení Agent neprozkoumává prost edí, vzorkuje s pevnou π Chceme ohodnotit π, tzn. zjistit o ekávaný U π Neznáme P(s s, a) ani R(s), pot ebujeme zjistit U P ímý model Naivní: Uºitek stavu bu pr m rné ocen ní cesty do cíle Ignorujeme interakce mezi stavy a ost í π (Bellmanova rovnice) Funguje, ale konverguje pomalu!

Adaptivní dynamické programování ADP: Ze vzork získáme R, postupn dopo ítáváme P a U P na základ empirických etností U iterativním vzorkováním pomocí Bellmanovy rovnice (Monte Carlo metoda; TODO) Funguje, ale asov náro né kroky a hodn pam ti

Temporální diference TD-learning: Po ítáme p ímo U podle skoku uºitku U inicializuji podle R; ve stavu s dostanu reinforcement R, vykonám akci a a ocitnu se ve stavu s TD(0) pravidlo: U(s) U(s) + α(r(s) + γu(s ) U(s)) α (0, 1) je parametr u ení; díváme se o stav dop edu a provádíme backup Mén pam ti, mnoho krátkých krok, neudrºuje konzistenci Jak to funguje? U[s 0, s 1, s 2,...] = R(s 0 ) + γ(r(s 1 ) + γ(r(s 2 ) + )) U[s 0, s 1, s 2,...] = R(s 0 ) + γu[s 1, s 2,...] Posouváme se k U(s 0 ) = E[R(s 0 ) + γu(s 1 )]

Aktivní u ení Aktivní u ení: Adaptivní strategie. M li bychom p i u ení jiº co nejlépe fungovat. U it se chceme co nejefektivn ji. Problém výb ru akcí zase!

Aktivní u ení Aktivní u ení: Adaptivní strategie. M li bychom p i u ení jiº co nejlépe fungovat. U it se chceme co nejefektivn ji. Problém výb ru akcí zase! Hladový agent se i pr b ºn drºí π(s) = argmax a A(s) s P(s s, a)u(s ) Je n co lep²ího?

Aktivní u ení Aktivní u ení: Adaptivní strategie. M li bychom p i u ení jiº co nejlépe fungovat. U it se chceme co nejefektivn ji. Problém výb ru akcí zase! Hladový agent se i pr b ºn drºí π(s) = argmax a A(s) s P(s s, a)u(s ) Je n co lep²ího? Exploration: Data o alternativách. Exploitation: Výb r nejlep²í alternativy. Exploration a exploitation nemohou být v opozici natrvalo.

Exploration-exploitation dilemma Problém mnohorukého loupeºníka (multi-armed bandit) (TODO obrázek) Robot v bludi²ti Hraní ²ach nebo Go Genetický algoritmus Strategie e²ení Semi-uniformní: ε-greedy Oce ovací: U + R(s) + γ max a f (U + (a), N(s, a)) f (u, n) klesá v u, roste v n t eba prahová u = U + zaji² uje preferenci neprozkoumaných oblastí Alternativa: upper condence bounds Optimální strategie vybere nejlep²í akci exponenciáln ast ji neº jakoukoliv jinou

Aktivní TD agent Druhy aktivních agent Utility based agent se u í uºitek pro stavy (nutný model) Q-learning based agent se u í o ekávaný uºitek pro akce Reex based agent se u í p ímo π(s) Naivn : P echodový model ADP agenta (u íme se P(s s, a), apriorní znalost), update funkce uºitku jako TD(0) Q-u ení: Bezmodelový u íme se hodnotu akce Q(s, a) Místo U(s) se TD(0) aplikuje na Q(s, a) U(s) U(s) + α(r(s) + γu(s ) U(s))

Aktivní TD agent Druhy aktivních agent Utility based agent se u í uºitek pro stavy (nutný model) Q-learning based agent se u í o ekávaný uºitek pro akce Reex based agent se u í p ímo π(s) Naivn : P echodový model ADP agenta (u íme se P(s s, a), apriorní znalost), update funkce uºitku jako TD(0) Q-u ení: Bezmodelový u íme se hodnotu akce Q(s, a) Místo U(s) se TD(0) aplikuje na Q(s, a) Q(s, a) Q(s, a) + α(r(s) + γ max a Q(s, a ) Q(s, a))

Aktivní TD agent Druhy aktivních agent Utility based agent se u í uºitek pro stavy (nutný model) Q-learning based agent se u í o ekávaný uºitek pro akce Reex based agent se u í p ímo π(s) Naivn : P echodový model ADP agenta (u íme se P(s s, a), apriorní znalost), update funkce uºitku jako TD(0) Q-u ení: Bezmodelový u íme se hodnotu akce Q(s, a) Místo U(s) se TD(0) aplikuje na Q(s, a) Q(s, a) Q(s, a) + α(r(s) + γ max a Q(s, a ) Q(s, a)) SARSA: State-Action-Reward-State-Action P i update ekáme na dal²í akci Q(s, a) Q(s, a) + α(r(s) + γq(s, a ) Q(s, a)) Jaký je rozdíl pro hladového agenta?

Aktivní TD agent Druhy aktivních agent Utility based agent se u í uºitek pro stavy (nutný model) Q-learning based agent se u í o ekávaný uºitek pro akce Reex based agent se u í p ímo π(s) Naivn : P echodový model ADP agenta (u íme se P(s s, a), apriorní znalost), update funkce uºitku jako TD(0) Q-u ení: Bezmodelový u íme se hodnotu akce Q(s, a) Místo U(s) se TD(0) aplikuje na Q(s, a) Q(s, a) Q(s, a) + α(r(s) + γ max a Q(s, a ) Q(s, a)) SARSA: State-Action-Reward-State-Action P i update ekáme na dal²í akci Q(s, a) Q(s, a) + α(r(s) + γq(s, a ) Q(s, a)) Jaký je rozdíl pro hladového agenta? šádný! A p i pr zkumu?

Aktivní TD agent Druhy aktivních agent Utility based agent se u í uºitek pro stavy (nutný model) Q-learning based agent se u í o ekávaný uºitek pro akce Reex based agent se u í p ímo π(s) Naivn : P echodový model ADP agenta (u íme se P(s s, a), apriorní znalost), update funkce uºitku jako TD(0) Q-u ení: Bezmodelový u íme se hodnotu akce Q(s, a) Místo U(s) se TD(0) aplikuje na Q(s, a) Q(s, a) Q(s, a) + α(r(s) + γ max a Q(s, a ) Q(s, a)) SARSA: State-Action-Reward-State-Action P i update ekáme na dal²í akci Q(s, a) Q(s, a) + α(r(s) + γq(s, a ) Q(s, a)) Jaký je rozdíl pro hladového agenta? šádný! A p i pr zkumu? SARSA zesiluje efekt strategie

Aktivní TD agent Druhy aktivních agent Utility based agent se u í uºitek pro stavy (nutný model) Q-learning based agent se u í o ekávaný uºitek pro akce Reex based agent se u í p ímo π(s) Naivn : P echodový model ADP agenta (u íme se P(s s, a), apriorní znalost), update funkce uºitku jako TD(0) Q-u ení: Bezmodelový u íme se hodnotu akce Q(s, a) Místo U(s) se TD(0) aplikuje na Q(s, a) Q(s, a) Q(s, a) + α(r(s) + γ max a Q(s, a ) Q(s, a)) SARSA: State-Action-Reward-State-Action P i update ekáme na dal²í akci Q(s, a) Q(s, a) + α(r(s) + γq(s, a ) Q(s, a)) Jaký je rozdíl pro hladového agenta? šádný! A p i pr zkumu? SARSA zesiluje efekt strategie (dvojse né)

Zp tnovazebné u ení v neuronových sítích (Brom, 2006) Mozek um lé bytosti Norn Perception: egg, toy, Norn, hunger, sexdrive Concept: egg + hunger, Norn + sexdrive, toy + egg + sexdrive Decision: eat, mate, run, play Pomocný okruh pro Attention selection Chceme podporovat uºite né koncepty a vázat je na dobré akce Náhodn inicializované váhy a zp tná vazba! Reinforcement záleºí na zm n pud (drives: hlad, sex,... )

Zp tnovazebné u ení v neuronových sítích (Brom, 2006) Mozek um lé bytosti Norn Perception: egg, toy, Norn, hunger, sexdrive Concept: egg + hunger, Norn + sexdrive, toy + egg + sexdrive Decision: eat, mate, run, play Suspectibility α a pr b ºný reinforcement r Vykonání akce zvý²í α spoj m po cest, to se s asem op t sniºuje Po sníºení váhy k nule synapse migruje Robustnost: Short-term weight, long-term weight

Otázky? P í²t UI: Reprezentace znalostí. P í²t Adaptivní agenti: Etologie a popula ní dynamika.

Outline 1 Um lá inteligence a adaptivní agenti 2

Halda 100 19 36 Chceme ukládat data tak, abychom vºdy mohli snadno vytáhnout minimum 17 3 25 1 2 7 Speciáln uspo ádaný strom: synové jsou vºdy v t²í neº otec Tedy v ko eni je nejmen²í prvek Chceme podporovat zejména operace INSERT, DELETEMIN M ºe se hodit i INCREASE a DECREASE

Regulární halda P kn zarovnaný strom, kaºdý otec krom t ch u dna má dva syny (má hloubku log n) Mezi syny není ºádné po adí INSERT: P idáme na konec haldy (na dn ), posouváme nahoru, dokud je poru²ena podmínka DELETEMIN: Prohodíme ko en a poslední prvek, umaºeme poslední prvek, prvek z ko ene posouváme dol Sloºitosti O(log n) Heap sort! 100 19 36 17 3 25 1 2 7

Levicové (leftist) haldy Místo probublávání bude základní operace MERGE dvou hald INSERT: MERGE s jednoprvkovou haldou DELETEMIN: MERGE syn ko ene Lín j²í strukturální podmínka: levý syn má vºdy del²í cestu k nejbliº²ímu listu P ekvapení: délka pravé cesty je nejvý²e logaritmická! Záruka efektivity: MERGE p jde po pravé cest MERGE(A, B) nastaví RIGHT (A) = B a opraví haldu (haldová a cestová podmínka) Pokud jiº RIGHT (A) p edtím existovalo, pustíme pak MERGE(RIGHT (A), OLDRIGHT (A)) DECREASE a INCREASE: Utrhneme podstrom, rekurzivn opravíme rodi e a MERGE

Binomiální stromy Order 0 1 2 3 Binomiální strom: H 0 je jeden uzel, H i+1 = (H i, H i ) kde H i p idáme jako dal²ího syna ko ene H i

Binomiální haldy Order 0 1 2 3 Binomiální halda: Binomiální les s haldovou podmínkou, maximáln jeden strom kaºdé velikosti MERGE(A, B) funguje jako s ítání dvou binárních ísel! Existuje-li H i jen v jedné, zkopíruje se; jinak vyrobím p enos H T = i+1 (H A, H B ) i i MIN je relativn pomalé O(log N) musí projít celý les Liná binomiální halda: MERGE neslu uje, zato MIN ano; amortizovan MIN stále O(log N)

Fibonacciho haldy Zobecn ní líné binomiální haldy chceme zrychlit INCREASE a DECREASE Zru²íme strukturální podmínku na H i i bude popisovat pouze rank, totiº po et syn ko enu (uvnit syn to m ºe vypadat, jakkoliv nám dovolí algoritmus) Vrchol je obarvený, byl-li mu n kdy utrhnut syn MERGE a MIN jako u líné binomální haldy DECREASE a INCREASE: Utrhneme podstrom, rekurzivn opravíme rodi e a MERGE (jako v leftist hald!) Oprava rodi : Ozna ené také utrhneme MIN je stále amortizovan O(log N) (dokáºeme, ºe maximální po et syn kaºdého uzlu je nejvý²e log N, dá se ukázat p es Fibonacciho posloupnost)

B-stromy 7 16 1 2 5 6 9 12 18 21 Vyhledávací strom s jednou hodnotou v uzlu: nevhodný pro pomalý p ímý p ístup (I/O, cache) B-strom: Mnoho denic, nejobecn j²í je (a, b) strom (a, b) strom (a b): kaºdý vnit ní vrchol krom ko ene má alespo a a nejvíce b syn a v²echny cesty od ko ene k listu mají stejnou délku V praxi navíc: a 2, b 2b 1; ko en je bu list, nebo má alespo 2 a nejvíce b syn

B-stromy 7 16 Populární: 2-3 strom, v praxi ov²em asto spí²e 128-256 strom apod. (v závislosti na velikosti bloku) 1 2 5 6 9 12 18 21 Díky b 2b 1 mohu vºdy slou it dva a-prázdné uzly nebo roz²t pit jeden plný Vyvaºování v INSERT a DELETE: Propaguji chybu vzh ru snaºím se vym ovat prvky se sourozenci, v extrémním p ípad roz²t pím ko en A-sort: T íd ní pomocí p idávání do B-stromu, INSERT za íná v listu (výhodné pro áste n p edt íd né posloupnosti)

Otázky? P í²t : v externí pam ti.

D kuji vám pasky@ucw.cz P í²t : Neuronové sít. Adaptivní agenti. Evolu ní algoritmy (koevoluce, otev ená evoluce, teoretická analýza). Sloºitost (vlastnosti t íd sloºitosti).