Um lá inteligence II



Podobné dokumenty
Zpětnovazební učení Michaela Walterová Jednoocí slepým,

brmiversity: Um lá inteligence a teoretická informatika

Teorie rozhodování (decision theory)

Umělá inteligence I. Roman Barták, KTIML.

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

ZÁKON. ze dne 30. června o osobním vlastnictví k bytům. Národní shromáždění Československé socialistické republiky se usneslo na tomto zákoně:

Marketing. Modul 5 Marketingový plán


Zpráva z auditu programu Ekoškola

Užitek a rozhodování

Koncepce hospodaření s bytovým fondem Městské části Praha 5

ZÁKLADNÍ ŠKOLA a MATE SKÁ ŠKOLA STRUP ICE, okres Chomutov

Semestrální práce z NUR Uživatelské rozhraní pro automat MHD. Michal Samek (samekmic)

1. (18 bod ) Náhodná veli ina X je po et rub p i 400 nezávislých hodech mincí. a) Pomocí ƒeby²evovy nerovnosti odhadn te pravd podobnost

Aktivity s GPS 3. Měření některých fyzikálních veličin

Regresní analýza 1. Regresní analýza

Programový komplet pro evidence provozu jídelny v modul Sklad Sviták Bechyně Ladislav Sviták hotline: 608/

Varianty Monte Carlo Tree Search

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Úvod do teorie her

Numerické metody a programování. Lekce 8

AVDAT Nelineární regresní model

Poměry a úměrnosti I

2 Trochu teorie. Tab. 1: Tabulka pˇrepravních nákladů

Znalecký posudek číslo / 2015 OCENĚNÍ NEMOVITOSTI

Hry a UI historie. von Neumann, 1944 algoritmy perfektní hry Zuse, Wiener, Shannon, přibližné vyhodnocování

FINANČNÍ MODELY. Koncepty, metody, aplikace. Zdeněk Zmeškal, Dana Dluhošová, Tomáš Tichý

VÉCNÉ BŔEMENO 1. VĚCNÉ BŘEMENO. Věcné břemeno. Druhy věcných břemen. Vznik věcných břemen. Zánik věcných břemen. Předkupní právo

Metodický pokyn k zařazení vzdělávací oblasti Výchova k volbě povolání do vzdělávacích programů pro základní vzdělávání čj.

Pozorovatel, Stavová zpětná vazba

ZNALECKÝ POSUDEK číslo / 10

ORGANIZAČNÍ ŘÁD ŠKOLY

(mimo pozůstalostní řízení a vypořádání SJM) ÚVOD POPIS ŘEŠENÍ Typ nemovitosti : Výše spoluvlastnického podílu : ZÁVĚR

DUM 06 téma: Ú elnost kótování

Aktivní detekce chyb

Základy umělé inteligence

MANUÁL PRO HODNOCENÍ OTEVŘENÝCH TESTOVÝCH ÚLOH MATEMATIKA SADA B (TEST PRO PŘIJÍMACÍ ZKOUŠKY DO 8LETÉHO GYMNÁZIA)

Teorie her a ekonomické rozhodování. 3. Dvoumaticové hry (Bimaticové hry)

Technická hodnota věcí a zařízení

Název: O co nejvyšší věž

ZNALECKÝ POSUDEK. Mgr. Pavla Fučíková - soudní exekutor Slévárenská 410/ Ostrava-Mariánské Hory

Příloha č. 7. ročník 9. 1h 1x za 14 dní. dotace. nepovinný. povinnost

Předmět: Ročník: Vytvořil: Datum: ŠČERBOVÁ M. PAVELKA V. VZPĚR VZPĚR

PRŮZKUM PRODEJE INJEKČNÍHO MATERIÁLU. v lékárnách ORP Zlín, ORP Vizovice a ORP Otrokovice

Dopravně bezpečnostní projekt POMÁHAT, CHRÁNIT A HRÁT SI

ROZCVIČKY. (v nižší verzi může být posunuta grafika a špatně funkční některé odkazy).

Umělá inteligence II

rové poradenství Text k modulu Kariérov Autor: PhDr. Zdena Michalová,, Ph.D

Stanovy horolezeckého oddílu "ROT SPORT"

Návrh realizace transformátoru Thane C. Heinse IV.

Dynamické programování UIN009 Efektivní algoritmy 1

Newtonova metoda. 23. října 2012

Usuzování za neurčitosti

Návrh realizace transformátoru Thane C. Heinse

RNÉ MATERIÁLY. PSYCHODIAGNOSTIKA - VYHODNOCENÍ z , 11:45 hodin

o ceně nemovité věci jednotka č.345/2 v bytovém domě čp. 344, 345 a 346 v kat. území Veleslavín, m.č. Praha 6

Pokusné ověřování Hodina pohybu navíc. Často kladené otázky

( x ) 2 ( ) Další úlohy s kvadratickými funkcemi. Předpoklady: 2501, 2502

1.2.7 Druhá odmocnina

Hledání kořenů rovnic jedné reálné proměnné metoda půlení intervalů Michal Čihák 23. října 2012

SMĚRNICE Zjednodušená analýza rizika blesku

Magnetohydrodynamický pohon

Markovovy modely v Bioinformatice

Vyvažování tuhého rotoru v jedné rovině přístrojem Adash Vibrio

p írodní zdroje energie a surovin odpady globální problémy ochrana p írody a krajiny nástroje spole nosti na ochranu životního

O právech pacientů a také o právech pojištěnců

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ICT plán. Škola: VOŠ, SPŠ a SOŠ řemesel a služeb, Strakonice - Hodnocení: ICT VOŠ, SPŠ a SOŠ řemesel a služeb, Strakonice

Mnohem lepšá vlastnosti mç usměrňovač dvoucestnâ

P íklad 1 (Náhodná veli ina)

Parlament České republiky POSLANECKÁ SNĚMOVNA volební období 72. USNESENÍ

Technická zpráva SO-05 Zastřešené jeviště - stavební část

Specialista pro vytvá řenívztahů Specialist for Creating Relations

3/2008 Sb. VYHLÁŠKA ze dne 3. ledna 2008, ČÁST PRVNÍ ZÁKLADNÍ USTANOVENÍ

Určení platu ředitelům škol a školských zařízení zřizovaných statutárním městem Chomutov

PRODEJ RODINNÉHO DOMU od A do Z. průvodce pro prodávající

Návrh induktoru a vysokofrekven ního transformátoru

Umění úspěšné komunikace

Digitální učební materiál

Reprezentace geometrických objektů pro 3D fotografii

Souhrn zjištění Audit vzdělávacího systému v ČR: Rizika a příležitosti (2015)

Využití EduBase ve výuce 10

Statistická teorie učení

SMĚRNICE EVROPSKÉHO PARLAMENTU A RADY 2009/76/ES

Nabídka programů pro podniky

Zátěžové testování SW aplikací. Miroslav Růžovský Softec CZ, spol. s.r.o.

Dotazy ke směrné účtové osnově sumář 6/2014. Dotazy č. A-12, 30/14, datum vydání

ZNALECKÝ POSUDEK. č /12

VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s. Fakulta ekonomických studií katedra řízení podniku. Předmět: ŘÍZENÍ LIDSKÝCH ZDROJŮ (B-RLZ)

Příloha I Vědecké zdůvodnění a zdůvodnění změny podmínek rozhodnutí o registraci

VOLEBNÍ ŘÁD Příloha č. 3

ŽÁKOVSKÝ DIÁŘ. Projekt Modely inkluzivní praxe v základní škole CZ.1.07/1.2.00/

Měření momentu setrvačnosti z doby kmitu

VĚTRÁNÍ VE ŠKOLE. Potřebné pomůcky: Papíry pro zkoumání proudění vzduchu a papíry na poznámky.

A. VŠEOBECNÉ PODMÍNKY. Úvodní ustanovení

aneb jiný úhel pohledu na prvák

STANOVISKO č. STAN/1/2006 ze dne

Intervalové Odhady Parametrů

NUR - Interaktivní panel, D1

VÝROBEK V MARKETINGOVÉM MIXU. doc. PhDr. Dušan Pavlů, CSc. dusan.pavlu@vsfs.cz

Transkript:

Um lá inteligence II 13 http://ktiml.mff.cuni.cz/~bartak Roman Barták, KTIML roman.bartak@mff.cuni.cz Motivace! Uvažujme agenta, který se u í hrát šachy.! P i u ení s u itelem je pot eba pro každou pozici doporu it tah. " takto úplná informace je málokdy dostupná! P i u ení bez u itele je možné se nau it model vlastních tah a reakce na oponentovy tahy. " bez zpětné vazby ale agent nemá žádné podklady pro rozhodnutí, který tah je dobrý a který ne

Zp tná vazba! Typem zp tné vazby je ocen ní výkonu " u her ho získáme na konci, podle toho, kdo vyhrál " u řady problémů je ocenění výkonu dostupné po každém tahu! Ocen ní výkonu je sou ástí vstupu jako další vjem, je ale pot eba ho od jiných senzorických vstup jasn rozlišovat " pocit hladu a bolesti je negativní ocenění " najezení a potěšení je pozitivní ocenění Zp tnovazební u ení! Zp tnovazební u ení (reinforcement learning) je zt lesn ním jádra um lé inteligence " agent je umístěn do prostředí a musí se v něm naučit úspěšně chovat " u řady komplexních domén je to jediný efektivní způsob, jak navrhnout agentovu funkci! Budeme uvažovat t i typy agent " agent se žádostmi (utility-based) se učí funkci užitku pro stavy! potřebuje mít model prostředí, aby věděl kam vedou akce " agent s Q-učením se učí akce na základě očekávaného užitku " reflexní agent se učí strategii, jakou akci použít na daný stav! Pasivní u ení pracuje s pevnou strategií a u í se užitek stav /akcí.! P i aktivním u ení se agent u í, co d lat " zahrnuje jistou formu prozkoumávání prostředí

Pasivní u ení! Agentova strategie π je p edem dána (π(s) je akce, kterou agent provede ve stavu s).! Cílem je ohodnotit kvalitu strategie - zjistit o ekávaný užitek U π (s) = E[Σ t=0,, γ t.r(s t )]! Agent nezná p echodový model P(s s,a) ani oce ovací funkci R(s).! Základní postup: " agent zkouší procházet prostředí použitím strategie π " v každém stavu získá formou vjemu jeho ocenění (1,1) -0.04 (1,2) -0.04 (1,3) -0.04 (1,2) -0.04 (1,3) -0.04 (2,3) -0.04 (3,3) -0.04 (4,3) +1 (1,1) -0.04 (1,2) -0.04 (1,3) -0.04 (2,3) -0.04 (3,3) -0.04 (3,2) -0.04 (3,3) -0.04 (4,3) +1 (1,1) -0.04 (2,1) -0.04 (3,1) -0.04 (3,2) -0.04 (4,2) -1 P ímý model pro pasivní u ení! Pro stavy v každém vzorku vypo teme ocen ní cesty do cíle (reward-to-go) " pro stav (1,1) máme v prvním vzorku ocenění cesty 0.72 " pro stav (1,2) máme v první cestě dva vzorky 0.76 a 0.84! Stav se m že vyskytovat ve více vzorcích ud láme pr m r ocen ní cest do cíle.! Jedná se tak vlastn o u ení s u itelem (vstup = stav, výstup = užitek)! Základní problém " stavy oceňujeme jako kdyby byly nezávislé " mezi stavy je ale vztah daný Bellmanovými rovnicemi U π (s) = R(s) + γ Σ s P(s s, π(s)) U π (s ) " prohledáváme zbytečně velký prostor hypotéz (i hypotézy, které nesplňují Bellmanovy rovnice), pomalejší konvergence

ADP pro pasivní u ení! Adaptivní dynamické programování bere v úvahu Bellmanovy rovnice.! Budeme se u it " přechodový model P(s s, π(s))! podle frekvencí daného přechodu, např. P((2,3) (1,3), Right) = 2/3 " ocenění stavů R(s)! součást vjemu! Užitek dopo teme z Bellmanových rovnic nap. iterací hodnot/strategií. ADP algoritmus

Temporální diference pro pasivní u ení! Místo u ení se p echodové tabulky m žeme p ímo upravovat užitek stav tak, aby odpovídal Bellmanovým rovnicím.! P íklad: " uvažujme přechod (1,3) (2,3) " počáteční nastavení U π (1,3) = 0.84 a U π (2,3) = 0.92 " měl by platit vztah (pokud se vždy užije stejný přechod a γ = 1) U π (1,3) = -0.04 + U π (2,3) " mělo by tedy platit U π (1,3) = 0.88 " současný odhad U π (1,3) bychom měli zvětšit! Obecn použijeme následující update: U π (s) U π (s) + α.(r(s) + γ.u π (s ) - U π (s))! Popsaný postup se nazývá temporální diference. Temporální diference algoritmus

! ADP i TD d lají lokální zm ny tak, aby užitek stavu odpovídal užitku okolních stav! Temporální diference " nepotřebuje přechodový model " pro update používá pozorovaného následníka " v kroku dělá jedinou změnu! Adaptivní dynamické programování " pro update používá všechny následníky " změnu propaguje, aby byla udržena konzistence ADP vs. TD Tady poprvé došel do stavu s ocen ním -1 Aktivní u ení! P i pasivním u ení je dána strategie ur ující chování agenta.! Aktivní agent se sám rozhoduje, jaké akce provede (u í se strategii).! Zkusíme rozší it pasivního ADP agenta (pot ebuje model p echod ) " užitek je definován optimální strategií dle Bellmanových rovnic U π (s) = R(s) + γ max a Σ s P(s s, a) U π (s ) " můžeme přímo použít ve funkci výpočtu užitku v ADP! Co bude agent d lat v jednom kroku? " na základě vypočteného užitku U zvolí nejlepší akci " akci doporučenou optimální strategií provede " Nebo je něco lepšího?

Hladový agent! Strategie, kterou našel aktivní ADP agent! Tato strategie není optimální! Co se stalo?! Agent našel cestu p es (2,1), (3,1), (3,2), (3,3) vedoucí k cíli s ocen ním +1.! P i dalších iteracích se této cesty (strategie) držel.! Nenašel proto jinou, lepší cestu p es (1,2), (1,3), (2,3), (3,3).! Hovo íme o hladovém (greedy) agentovi. Hladový agent vlastnosti! Jak je možné, že výb r optimální akce nedává optimální strategii? " akce je vybrána podle naučeného prostředí ne podle skutečného prostředí " akce přispívá nejen do funkce užitku, ale také do zdokonalení modelu světa (tento aspekt ADP agent ignoroval) " zlepšením modelu můžeme v budoucnu získat větší užitek než ten, který se v současnosti jeví jako nejlepší! Agent pot ebuje do jisté míry d lat pr zkum prost edí.

Pr zkum prost edí! Jaký pom r má agent volit mezi pr zkumem prost edí a jeho využitím? " čistý průzkum zlepšuje model, ale model se nikdy nevyužije " čisté využití vede k sub-optimální strategii! Základní princip " zpočátku je lepší více prozkoumávat prostředí s vírou v nalezení lepších cest " s větším porozuměním prostředí stačí menší průzkum! Problém n-rukého bandity " herní automat s n-pákami (nebo n automatů) " Jakou páku preferovat?! páku, kde už jsem někdy vyhrál (ale málo) nebo raději páku, kterou jsem ještě nezkoušel? Strategie pr zkumu! s pom rem 1/t volíme akci náhodn, jinak volíme akci dle hladové strategie " konverguje k optimální strategii, ale pomalu! lepší je preferovat málo vyzkoušené akce a vyhnout se akcím, u kterých v íme, že mají malý užitek " neprozkoumaným akcím zvýšíme ocenění " při iteraci hodnot použijeme následující pravidlo U + (s) R(s) + γ max a f(σ s P(s s, a) U + (s ), N(s,a))! N(s,a) je počet, kolikrát byla akce a použita na stav s! U + (s) je optimistický odhad hodnoty užitku! f(u,n) je funkce průzkumu rostoucí v u a klesající v n " např. f(u,n) = R + pokud n<n e, jinak u (R + je optimistický odhad největšího možného užitku) " použití U + je důležité, protože vysoké hodnoty se propagují z neprozkoumaných oblastí! agent preferuje nejen neznámé akce ale také akce vedoucí do neprozkoumaných oblastí

Q-u ení! Jak by vypadal aktivní TD agent? " použije stejné učení se přechodového modelu jako ADP agent " pravidlo pro update funkce užitku zůstane stejné U(s) U(s) + α.(r(s) + γ.u(s ) - U(s))! Alternativním p ístupem je Q-u ení " Q(s,a) hodnota provedení akce a ve stavu s " alternativní způsob uložení funkce užitku! U(s) = max a Q(s,a) " nepotřebujeme přechodový model P(s s, a)! bez-modelová metoda " Q-funkce v rovnovážném stavu musí splňovat vztah! Q(s,a) = R(s) + γ Σ s P(s s, a) max a Q(s,a )! tady je ale použitý model P(s s, a) " při Q-učení aplikujeme pravidlo pro TD-učení na Q-funkci! Q(s,a) Q(s,a) + α.(r(s) + γ max a Q(s,a ) - Q(s,a))! použije se když agent přejde ze stavu s do stavu s akcí a Q-u ení algoritmus

SARSA State-Action-Reward-State-Action! blízký p íbuzný Q-u ení s následujícím updatovacím pravidlem Q(s,a) Q(s,a) + α.(r(s) + γ.q(s,a ) - Q(s,a))! použije se na celou p tici s,a,r,s,a, tj. pro update se eká na další akci! SARSA vs. Q-u ení " pro hladového agenta jsou Q-učení a SARSA totožné (vybere vždy akci a maximalizující Q(s,a ) " při průzkumu se výrazně liší! Q-učení se nestará o aktuální strategii a agent funguje dobře i s náhodnou strategií! SARSA je realističtější, protože se učí Q-funkci na základě toho, co se skutečně stalo, ne co by se mohlo stát " naučí se i reakci na další agenty Srovnání! Q-u ení a SARSA najdou optimální strategii, ale pomaleji než ADP agent " lokální změny nejsou propagovány dále a není tak v každém kroku zajištěna konzistence Q-hodnot! Je lepší agent s modelem (ADP) nebo bez modelu (Q-u ení, SARSA)? " výzkum v UI tradičně tíhne spíše ke znalostním technikám, tj. při reprezentaci agentovy funkce používat reprezentaci nějakých aspektů prostředí " Q-učení ukazuje, že lze dělat agentové funkce i bez modelu prostředí