Teorie rozhodování (decision theory)

Podobné dokumenty
Užitek a rozhodování

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Teorie užitku. Marta Vomlelová 14. prosince / 23

Umělá inteligence II

Připomeňme, že naším cílem je tvorba nástroj, pro zjištění stavu světa případně

Pravděpodobnostní (Markovské) metody plánování, MDP - obsah

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny


Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo

Numerická stabilita algoritmů

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

Usuzování za neurčitosti

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

UČENÍ BEZ UČITELE. Václav Hlaváč

Um lá inteligence II

Markovské metody pro modelování pravděpodobnosti

4. Aplikace matematiky v ekonomii

Aproximace funkcí. Numerické metody 6. května FJFI ČVUT v Praze

1 Odvození poptávkové křivky

Iterační metody řešení soustav lineárních rovnic. 27. prosince 2011

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice


4EK311 Operační výzkum. 1. Úvod do operačního výzkumu

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Markov Chain Monte Carlo. Jan Kracík.

Lineární klasifikátory

ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY. Michal Friesl

Numerické řešení nelineárních rovnic

Plánování: reprezentace problému

Binární vyhledávací stromy pokročilé partie

DRN: Kořeny funkce numericky

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

22 Základní vlastnosti distribucí

Přednáška 6, 6. listopadu 2013

oddělení Inteligentní Datové Analýzy (IDA)

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

AVDAT Nelineární regresní model

Lineární stabilita a teorie II. řádu

Matematika 5 FSV UK, ZS Miroslav Zelený

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

Úvod do teorie her

Statistická teorie učení

Úlohy nejmenších čtverců

7. Rozdělení pravděpodobnosti ve statistice

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Diferenciální rovnice a jejich aplikace. (Brkos 2011) Diferenciální rovnice a jejich aplikace 1 / 36

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Teorie her a ekonomické rozhodování. 11. Aukce

Z transformace. Definice. Z transformací komplexní posloupnosti f = { } f n z n, (1)

Seminář z umělé inteligence. Otakar Trunda

Průvodce studiem. do bodu B se snažíme najít nejkratší cestu. Ve firmách je snaha minimalizovat

Lineární algebra : Metrická geometrie

Numerické metody a programování. Lekce 4

6 Skalární součin. u v = (u 1 v 1 ) 2 +(u 2 v 2 ) 2 +(u 3 v 3 ) 2

Co je obsahem numerických metod?

Kombinatorická minimalizace

verze 1.3 kde ρ(, ) je vzdálenost dvou bodů v R r. Redukovaným ε-ovým okolím nazveme ε-ové okolí bodu x 0 mimo tohoto bodu, tedy množinu

14. přednáška. Přímka

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

OPTIMALIZACE A MULTIKRITERIÁLNÍ HODNOCENÍ FUNKČNÍ ZPŮSOBILOSTI POZEMNÍCH STAVEB D24FZS

a4b33zui Základy umělé inteligence

Optimální řízení pro geometrický Brownův pohyb

1. července 2010

Intervalová data a výpočet některých statistik

DRN: Soustavy linárních rovnic numericky, norma

Algoritmus. Přesné znění definice algoritmu zní: Algoritmus je procedura proveditelná Turingovým strojem.

Numerické metody a programování. Lekce 7

stránkách přednášejícího.

1. Obyčejné diferenciální rovnice

1 Topologie roviny a prostoru

vztažný systém obecné napětí předchozí OBSAH další

Jana Vránová, 3. lékařská fakulta UK

3.2. ANALYTICKÁ GEOMETRIE ROVINY

Numerická matematika 1

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

3. Přednáška: Line search

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Limita a spojitost funkce. 3.1 Úvod. Definice: [MA1-18:P3.1]

Netradiční výklad tradičních témat

algoritmus»postup06«p e t r B y c z a n s k i Ú s t a v g e o n i k y A V

Funkce jedn e re aln e promˇ enn e Derivace Pˇredn aˇska ˇr ıjna 2015

1. Přednáška. Ing. Miroslav Šulai, MBA

Vícerozměrná rozdělení

3 Bodové odhady a jejich vlastnosti

GRAFY A GRAFOVÉ ALGORITMY

Pavel Klavík. Katedra aplikované matematiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Hledání kořenů rovnic jedné reálné proměnné metoda půlení intervalů Michal Čihák 23. října 2012

4EK213 LINEÁRNÍ MODELY

Optimalizace prodeje prošlého zboží

ÚVOD DO ROZHODOVÁNÍ PŘEDNÁŠKA. OPTIMALIZACE A ROZHODOVÁNÍ V DOPRAVĚ Přednáška 1. Zuzana Bělinová

7 Kardinální informace o kritériích (část 1)

Ústav teorie informace a automatizace. J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/ / 28

naopak více variant odpovědí, bude otázka hodnocena jako nesprávně zodpovězená.

Znalosti budeme nejčastěji vyjadřovat v predikátové logice prvního řádu. Metody:

Měření dat Filtrace dat, Kalmanův filtr

3. ANTAGONISTICKÉ HRY

Připomenutí co je to soustava lineárních rovnic

5. Lokální, vázané a globální extrémy

Transkript:

Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Teorie pravděpodobnosti (probability theory) popisuje v co má agent věřit na základě pozorování. Teorie užitku (utility theory) popisuje co agent chce. ce Teorie rozhodování (decision theory) spojuje obě předchozí teorie dohromady a popisuje co by měl agent dělat. Úvodem podíváme se na statický ti případ (jedno rozhodnutí) i na posloupnost rozhodnutí

Rozhodovací sítě Jak obecně popsat mechanismus rozhodování? Rozhodovací síť (influenční č ídi diagram) popisuje vztahy mezi vstupy (současný stav), rozhodnutími (budoucí stav) a užitkem (budoucího stavu). Náhodné uzly (ovál) reprezentují náhodné proměnné stejně jako v Bayesovských sítích. Rozhodovací uzly (obdélníky) popisují rozhodnutí, které může agent udělat (zatím uvažujeme jediný). Uzly užitku (kosočtverce) popisují funkci užitku. Rozhodovací sítě vyhodnocovací algoritmus Akce se vybírá na základě vyzkoušení všech možných hodnot rozhodovacího uzlu. 1. nastavíme hodnoty ypozorovaných proměnných 2. pro každou možnou hodnotu rozhodovacího uzlu a) nastavíme rozhodovací uzel na danou hodnotu b) použitím pravděpodobnostní inference vypočteme pravděpodobnosti rodičů uzlu užitku c) vypočteme užitek pomocí funkce užitku 3. vybereme akci s největším užitkem Pro případy, kde je více uzlů užitku používáme při výběru akce techniky ypro víceatributové funkce užitku.

Rozhodovací sítě konstrukce Vytvoření kauzálního modelu určení symptomů, nemocí, léčby a vztahů mezi nimi Zjednodušení kvalitativního modelu pokud nám jde o léčbu, můžeme odstranit uzly, které s ním nesouvisí. některé uzly lze spojit (léčba a její načasování) Přiřazení pravděpodobností vyplnění pravděpodobnostních tabulek jako v Bayesovské síti (dle učebnic, databází pacientů, rozhodnutí experta) Navržení funkce užitku můžeme enumerovat možné výstupy (záleží nejen na lékaři, ale i na pacientovi, který může mít jiné preference) Verifikace a doladění modelu výsledky se porovnají se zlatým standardem, například skupinou lékařů Analýza citlivosti kontrola, zda výsledky systému nejsou citlivé na drobné změny vstupu (malé změny vstupu vedoucí k velkým rozdílům výstupu indikují problém v modelu) Motivační příklad Uvažujme agenta pohybujícího se v prostředí o rozměrech 3 4 Prostředí je plně pozorovatelné (agent vždy ví, kde se nachází) Agent může provést akce Up, Down, Left, Right množinu akcí pro stav s značíme A(s) výsledek akce je ale nejistý s pravděpodobností 0,8 půjde správným směrem spravděpodobností 0,1 půjde kolmo k požadovanému směru pravděpodobnost, že [Up,Up,Right,Right,Right] vede ze START do cíle (hodnota +1) je 0.8 5 + 0.1 4 0.8= 0.32776.

Pro popis přechodů (aplikace akce) použijeme pravděpodobnostní distribuci P(s s,a) pravděpodobnost přechodu z s do s akcí a. opět uvažujeme Markovský předpoklad (pravděpodobnost přechodu nezávisí na předchozích navštívených stavech) MDP Užitek tentokrát závisí na prošlých stavech každý stav má přiřazeno ocenění (reward) R(s) např. +1 (cíl), -1 (nechtěný stav), -0.0404 (ostatní stavy) funkce užitku bude (zatím) součet ocenění navštívených stavů funkce užitku je zde podobná jako při hledání nejkratší cesty do cíle (plus máme stochastický charakter akcí) Markovský rozhodovací proces (Markov Decision Process MDP) sekvenční rozhodovací problém v plně pozorovatelném stochastickém prostředí s Markovským přechodovým modelem a aditivní funkcí užitku Řešení MDP Ve stochastickém prostředí nemůžeme pracovat s pevným pořadím akcí (plánem) agent se může vydat jinam, než bylo naplánováno Protože předem nevíme, kam akce agenta zavede, potřebujeme v každém stavu vědět, co dělat (kam jít). Řešením MDP je strategie (policy), což je funkce určující pro každý stav doporučenou akci π(s) hledáme strategii s největším očekávaným užitkem (optimální strategie) strategii může realizovat klasický reflexní agent

Optimální strategie optimální strategie maximalizuje očekávaný užitek záleží samozřejmě na ocenění stavů příklad Ocenění stavů je -0.04 004 ocenění je malé, agent se snaží dostat k východu, ale bezpečně Ocenění stavů je záporné agent se snaží co nejdříve dostat ke každému východu, i za cenu rizika Ocenění stavů je blízké nule agent se snaží dostat k východu, ale minimalizuje každé riziko Ocenění stavů je kladné agent se snaží zůstat v kladných stavech (užívá se život) Užitek v čase Jak obecně definovat funkci užitku pro posloupnost stavů? je to podobné jako pro víceatributové funkce užitku U([s 0,s 1,,s n ]) (stavy jsou atributy), ale jaký máme horizont? konečný horizont máme daný pevný termín N a po něm už na ničem nezáleží U([s 0,s 1,,s N+k ]) = U([s 0,s 1,,s N ]) optimální politika záleží na termínu (není stacionární) pro N=3 volí ze stavu (3,1) akci Up pro N=100 volí ze stavu (3,1) bezpečnou akci Left nekonečný horizont není důvod se ve stejném stavu chovat v různé časy různě optimální politika ik je stacionární to neznamená nutně nekonečné posloupnosti stavu, pouze zde není žádný termín dokončení (deadline) horizont

Užitek v čase definice funkce funkce užitku se chová jako víceatributová funkce užitku U([s 0,s 1,,s n ]) Pro získání jednoduchého vzorečku pro výpočet funkce užitku uvažujeme stacionární preference [s 0,s 1,s 2, ] má preferenci k [s 0,s 1,s 2, ] stejnou jako [s 1,s 2, ] k [s 1,s 2, ] naše preference zítra a dnes jsou stejné V případě stacionárních preferencí jsou dva způsoby ů jak rozumně definovat funkci užitku aditivní funkce užitku U([s 0,s 1,s 2, ]) = R(s 0 ) + R(s 1 ) + R(s 2 ) + kumulovaná (discounted) funkce užitku U([s =R(s)+γ )+γ 0,s 1,s 2, ]) 0 γ R(s 1 γ 2 R(s 2 )+ faktor slevy γ (0,1) preference mezi aktuálním a budoucím oceněním (blízko 0 = budoucnost není důležitá, blízko 1 = budoucnost je stejně důležitá jako současnost aditivní funkce užitku) odpovídá úrokové míře 1/γ -1 Užitek v čase Budeme používat kumulovanou funkci užitku vlastnosti pro světy bez cílového stavu a nekonečný č ýhorizont tby aditivní funkce užitku byla problémová (pro nekonečné posloupnosti stavů dává + nebo - ) užitek v kumulované funkci užitku je konečný č (uvažujeme omezené ocenění s maximem R max ) U([s 0,s 1,s 2, ]) = Σ i=0,,+ γ i R(s i ) Σ i=0,,+ γ i R max = R max / (1- γ) Pokud má prostředí cílový stav, do kterého se agent garantovaně může dostat, nebudeme potřebovat pracovat s nekonečnými posloupnostmi. řádná (proper) strategie garantuje dosažení cílového stavu můžeme používat aditivní funkci užitku strategie, které nejsou řádné (improper), mají nekonečný celkový užitek U nekonečné posloupnosti lze porovnat průměrné ocenění (lepší je zůstat ve stavu s oceněním 0.1 než ve stavu s oceněním ě 0.01) 01)

Optimální strategie Hledáme očekávaný užitek strategie π pro počáteční stav s U π (s) = E[Σ i=0,,+ γ i R(S i )] S i je náhodná proměnná popisující stav v čase i Optimální strategie pro počáteční stav s π* * s = argmax π U π () (s) Záleží ale na počátečním stavu? když se strategie π* a a π* b sejdou v nějakém stavu c není důvod, aby pokračovaly různě Můžeme definovat užitek stavu U(s) = U π* (s) R(s) je krátkodobé ocenění, zatímco U(s) je dlouhodobé ocenění akce budeme vybírat na základě principu maximalizace očekávaného č užitku π*(s) = argmax a A(s) Σ s P(s s,a) U(s ) Pozor, to nemusí být akce vedoucí do stavu s největším U(s)! vlastnosti Bellmanova rovnice Užitek stavu přímo závisí na užitku okolních stavů (pokud agent volí optimální akci). U(s) = R(s) + γ max a A(s) Σ s P(s s,a) )U( U(s ) Tomuto vztahu se říká Bellmanova rovnice. U((1,1)) = 0.04 + γ max[ 0.8U((1,2)) + 0.1U((2,1)) + 0.1U((1,1)), 0.9U((1,1)) + 0.1U((1,2)), 0.9U((1,1)) 1)) + 0.1U((2,1)), 1)) 0.8U((2,1)) + 0.1U((1,2)) + 0.1U((1,1))]

Iterace hodnot algoritmus Na základě Bellmanovy rovnice můžeme navrhnout algoritmus pro řešení MDP. Problém je, že máme soustavu nelineárních rovnic. Použijeme iterativní postup 1. začneme s libovolnými vstupními hodnotami U(s) 2. U(s) upravíme na základě Bellmanových rovnic (Bellmanův update) U i+1 (s) R(s) + γ max a A(s) Σ s P(s s,a) U i (s ) P δ P(s s,a) δ Iterace hodnot Jak můžeme garantovat konvergenci iterace hodnot ke skutečné hodnotě užitku stavu? Bellmanův update splňuje vlastnost kontrakce ( f(x) f(x ) < c x x, kde 0 c< 1) má jediný pevný bod po každé iteraci i se přiblížíme k pevném bodu U funkce U měříme vzdálenost jako maximální vzdálenost odpovídajících prvků vektoru. U = max s U(s) Nechť BU je Bellmanův update vektoru U, potom BU i BU i γ U i U i BU i U γ U i U, kde U je hledaný užitek stavu (pevný bod) konvergence Počet kroků potřebný pro přiblížení se k U na vzdálenost ε BU 0 U 2R max / (1- γ) maximální vzdálenost od U na začátku BU N U γ N 2R max / (1- γ) v každém kroku se přiblížíme o γ N = log(2r max / ε(1- γ))/log(1/γ) počet kroků do chyby ε Ukončovací podmínka pro dosažení vzdálenosti ε od U BU i+1 BU i < ε (1 γ) / γ

Iterace hodnot ztráta strategie Agenta fakticky zajímá, jak dobrá je strategie π i dle aktuální hodnoty U i vzhledem k optimální strategii π*. definujme ztrátu strategie π i jako U π i U pokud U i U < ε potom U π i U < ε γ /(1 γ) ) V praxi tedy strategie konverguje k optimální strategii rychleji než funkce užitku a pevného bodu dosáhne dříve. Iterace strategie princip Optimální strategii můžeme získat, i když je funkce užitku ještě nepřesná. Pokud je jedna akce jasně lepší než ostatní, potom užitek stavu nemusí být přesný. To můžeme využít u jiného algoritmu řešení MDP, tzv. iterace strategie, který je založený opakování následujících kroků: evaluace strategie výpočet U π i pro strategii π i protože známe akce, řešíme zjednodušené Bellmanovy rovnice U π i(s) = R(s) + γσ s P(s s, π i (s)) U π i(s ) pro malý počet č stavů ů n lze použít přesný ř výpočet č metodami lineární algebry časová složitost O(n 3 ) pro větší počet stavů použijeme několik kroků zjednodušené iterace hodnot U j+1 (s) R(s) + γ Σ s P(s s s, π i (s)) U j (s ) zlepšení strategie π i+1( (s) argmax a A(s) Σ s P(s s,a) U π i(s )

Iterace strategie algoritmus P π, a P(s s,a) a P(s s,a) P(s s,π(s)) π Strategií je konečně mnoho a při každém kroku strategii t zlepšujeme, proto algoritmus musí skončit.