Pravděpodobnostní (Markovské) metody plánování, MDP - obsah

Podobné dokumenty
OPPA European Social Fund Prague & EU: We invest in your future.

Teorie rozhodování (decision theory)

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

UČENÍ BEZ UČITELE. Václav Hlaváč

Teorie užitku. Marta Vomlelová 14. prosince / 23

Užitek a rozhodování

SLAM. Simultaneous localization and mapping. Ing. Aleš Jelínek 2015

2. PŘESNOST MĚŘENÍ A1B38EMA P2 1

Úvod do mobilní robotiky AIL028

Třídy složitosti P a NP, NP-úplnost

Nelineární model tepelné soustavy a GPC regulátor

Kalibrace scoringových modelů

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

7. Rozdělení pravděpodobnosti ve statistice

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

Stochastické modely Informace k závěrečné zkoušce

Statistika II. Jiří Neubauer

11. Tabu prohledávání

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Apriorní rozdělení. Jan Kracík.

VÝUKOVÝ MATERIÁL. Pro vzdělanější Šluknovsko. 32 Inovace a zkvalitnění výuky prostřednictvím ICT Bc. David Pietschmann.

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

Zada ní 1. Semina rní pra ce z pr edme tu Matematický software (KI/MSW)

Bilance nejistot v oblasti průtoku vody. Mgr. Jindřich Bílek

Markov Chain Monte Carlo. Jan Kracík.

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Vysoká škola finanční a správní, o.p.s. Katedra řízení podniku a podnikové ekonomiky. Metodické listy pro předmět ŘÍZENÍ PODNIKU I

Monte Carlo Lokalizace. Martin Skalský

Úvod do mobilní robotiky AIL028

Náhodné (statistické) chyby přímých měření

Simulace pohybu chodců pomocí celulárních modelů

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Analýza spolehlivosti tlakové nádoby metodou Monte Carlo

DODATEK. D0. Nejistoty měření

SENZORY PRO ROBOTIKU

Bayesovské rozhodování - kritétium minimální střední ztráty

Teorie informace: řešené příklady 2014 Tomáš Kroupa

Rozhodování, markovské rozhodovací procesy

Vícerozměrná rozdělení

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Náhodný vektor a jeho charakteristiky

Základy teorie pravděpodobnosti

Optimalizace obecný úvod. [proč optimalizovat?] Formalizace problému. [existují podobné problémy?]

IV117: Úvod do systémové biologie

Value at Risk. Karolína Maňáková

Upozornění: Dne:

Předvídání lidské volby:

NÁSTROJE A TECHNIKY PROJEKTOVÉHO MANAGEMENTU. Projektová dekompozice

Umělá inteligence II

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Výběrové charakteristiky a jejich rozdělení

Náhodné chyby přímých měření

Materiál má podobu pracovního listu s úlohami, pomocí nichž si žáci procvičí zobrazení, funkce a

Management projektu III. Fakulta sportovních studií přednáška do předmětu Projektový management ve sportu

Multirobotická kooperativní inspekce


Diskrétní náhodná veličina. November 12, 2008

NAUKA O PODNIKU I. Plánování a rozhodování v podniku

Složitost Filip Hlásek

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Téma 22. Ondřej Nývlt

Kalibrační proces ve 3D

rovnic), Definice y + p(x)y = q(x), Je-li q(x) = 0 na M, nazývá se y + p(x)y =

TRANSFORMACE BLOKOVÉHO SCHÉMATU NA CELKOVÝ PŘENOS

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Laboratorní úloha Seřízení PI regulátoru

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Úvod... VII. 1. Podstata marketingu Shrnutí... 8 Klíčová slova... 9 Otázky... 9 Literatura Strategické marketingové řízení...

Řízení projektů. Konstrukce síťového grafu pro řízení projektů Metoda CPM Metoda PERT

STROMOVE ALGORITMY Prohledavani do sirky (level-order) Po vodorovnejch carach fronta

Ing. Alena Šafrová Drášilová, Ph.D.

Definice spojité náhodné veličiny zjednodušená verze

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Stochastické procesy - pokračování

Metody a nástroje modelování Generation Adequacy. David Hrycej, CIIRC ČVUT

FINANČNÍ A INVESTIČNÍ MATEMATIKA 2

Dijkstrův algoritmus

10. Předpovídání - aplikace regresní úlohy

Asociační i jiná. Pravidla. (Ch )

Chyby a nejistoty měření

Martin Chudoba. Seminář - Stochastické modelování v ekonomii a financích KPMS MFF UK. dluhopisů pomocí. Black-Scholesova modelu. M.Chudoba.

Rozhodovací procesy 2

LBC 3011/x1 Panelové reproduktory

Národní informační středisko pro podporu jakosti

MANAŽERSKÉ ROZHODOVÁNÍ

oddělení Inteligentní Datové Analýzy (IDA)

EU PENÍZE ŠKOLÁM NÁZEV PROJEKTU : MÁME RÁDI TECHNIKU REGISTRAČNÍ ČÍSLO PROJEKTU :CZ.1.07/1.4.00/

Příklady ke čtvrtému testu - Pravděpodobnost

Ing. Alena Šafrová Drášilová

2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru.

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Složitost 1.1 Opera ní a pam ová složitost 1.2 Opera ní složitost v pr rném, nejhorším a nejlepším p ípad 1.3 Asymptotická složitost

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Optimální řízení pro geometrický Brownův pohyb

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

Transkript:

Pravděpodobnostní (Markovské) metody plánování, MDP - obsah Pravděpodobnostní plánování - motivace. Nejistota ve výběr akce Markovské rozhodovací procesy Strategie plán (control policy) Částečně pozorovatelné Markovské rozhodovací procesy Strategie plán - metoda iterace Cíl a cena za jeho dosažení (payoff/reward) Konstrkce fnkce ceny cesty a odměny Plánovací horizont Kmlativní fnkce odměny a exponenciální zapomínání Greedy sitace, konečný horizont, nekonečný horizont Optimální strategie pro plně pozorovatelný případ, Bellmanova rce. Výpočet ceny fnkce Užití v robotice Reference

Třídy problémů Deterministické vs. stochastické akce Plně vs. částečně pozorovatelné prostředí

Derministické, plně pozorovatelné Prostředí je téměř symetrické s úzkými a širokými průchody, robot se nachází ve střed (zelený bod) bez znalosti své orientace a míří do cíle (červený bod). Úkolem robot je dosáhnot (červeného) cíle.

Stochastické, plně pozorovatelné (Markov Decision Process, MDP) Cenová fnkce a strategie v MDP: (a) Deterministický důsledek akce (b) Nedeterministický důsledek aplikované akce možňje více cest V deterministickém model robot snadno navigje úzkými koridory a preferje delší cest v případě, že výstpy akce(akcí) jso nejisté za účelem snížení rizika kolize

Stochastické, částečně pozorovatelné (Partially Observable MDP, POMDP) Akce k získávání znalostí v POMDP: K dosažení cíle (červený bod) s jistoto větší než 50%, plánovač pracjící s věrohodností nejprve navigje do místa, kde může být stanovena globální orientace. (a) Sitace (nahoře) kazje odpovídající strategii a možné cesty, jenž může robot zvolit. (b) V závislosti na znalosti vlastní pozice, robot v prostředí (b) nebo (c) (střed a dole) může stanovit, odkd lze bezpečně dosáhnot cíle.

Markovský rozhodovací proces (Markov Decision Process - MDP) Příklad Markovského model (graf) se stavem s, pravděpodobností přecho <0,1> a odměno za dosažení stav r r=1 0.7 s 2 0.1 0.9 0.01 r=0 s 1 0.3 0.3 0.3 0.4 s 3 r=20 0.99 r=0 0.2 s 4 s 5 0.8 r=-10 Který stav je cílový?

Markovský rozhodovací proces (MDP) Zadání: Stavy systém: x Přípstné akce: Pravděpodobnosti přechodů,x x : p(x, Fnkce odměny (reward) za dosažení stav: r() Úloha - hledáme: Strategii p(, jenž maximalizje bdocí očekávano odměn r()

Odměny a strategie I Strategie (obecný případ), z t značí pozorování stav dosaženého akcí t : : z 1 : t 1, 1: t 1 t Strategie (plně pozorovatelný případ): : xt t Cíl a odměna za jeho dosažení je kvantitativně hodnocena, skládá se ze dvo komplementárních komponent: 1. Ceny (Vale fnction) vyjadřjící náklady na realizaci dané cesty, měří cen za akci. 2. Odměny (Reward, Payoff) za dosažení stav/cíle, měří úspěšnost akce. Obě předchozí kritéria se integrjí do společné cenové fnkce (Payoff fnction) jenž postihje jednak cen dosd vykonané cesty a jednak odměn za dosažený stav, popř. cíl. Takové řešení možňje važovat i v sitacích, kdy robot má nejisto polozici a msí važovat způsobem: Stojí zvyšjící se pravděpodobnost dosažení požadovaného cíle za vynaložené úsilí?

Volba strategie I Očekávaná (E - expectation) kmlativní odměna se zapomínáním γ: Typy strategií: T=1: greedy strategie T>1: sitace s konečným horizontem, typicky bez exp. zapomínání, γ = 1 T : sitace s nekonečným horizontem, konečná odměna za podmínky exp. zapomínání je s koeficientem γ < 1 (řada konvergje, pro každé r r max ) R T T E r t 1 Očekávaná kmlativní odměna za strategii: Optimální strategie: argmax R T ( x ) t R T ( x ) E t T 1 r t t ( z 1 : t 11: t 1) Varianty strategií moho být: 1-kroková strategie: Optimální strategie: 1( argmax r( ) Fnkce ceny cesty pro 1-krokovo optimalní strategii: V1 ( max r( )

Volba strategie II 2 - kroková strategie: Optimální strategie: Fnkce ceny: r ) 2( argmax r( V1 ( x') p( x', dx ( max ( ) V1 V2 ( x') p( x', dx' ' T - kroková strategie a popř. nekonečný horizont: Optimální strategie: Fnkce ceny: T V T ) VT VT ( ( argmax r( 1( x') p( x', dx' ( max r( ) 1 x') p( x', dx' popř. : V ( max r( ) V ( x') p( x', dx' jenž pro T vede k stálené hodnotě V ( a je označována jako Bellmanova rce. Lemma: Každá hodnota V( splňjící Bellmanov rci je ntno i postačjící podmínko optimality odpovídající strategie.

Iterace ceny a strategie Algoritms k dosažení (iteraci) optimální ceny cesty v nekonečném stavovém prostor (pro prostory s konečným počtem stavů, lze integrál nahradit sočtem přes stavy): for all x do Vˆ ( r endfor min {inicializace hodnot V(} popř. v diskr. podobě: Vˆ ( x i ) r min repeat ntil convergence for all x do Vˆ ( max r ( ) endfor endrepeat Vˆ( x') p( x', dx' popř. v diskr. podobě pro konečné stavové prostory: N Vˆ ( xi ) max r( xi, ) Vˆ( x j ) p( x j, xi ) j1 Přičemž optimální strategii (iteraci strategie) ze vztah: popř. v diskr. podobě: ( argmax r( ) Vˆ( x') p( x', dx' ( arg max MDP( Vˆ) ( lze rčit prostým výpočtem r( ) N j1 Vˆ( x ) p( x j j, xi )

Příklad - plánování pohyb robot Překážky (černá), cenová fnkce V( je vyjádřena šedo oblastí (vyšší hodnota odpovídá světlejší šedi). Hladová strategie podle hodnot cenové fnkce vede k řešení (za předpoklad, že pozice robot je pozorovatelná) Důležito vlastností je, že cenová fnkce je definována pro celé prostředí, což možní nalézt strategii i v případě, kdy pozice robot není přesně známa (je nejistá)

Iterace ceny a/nebo strategie? Optimální strategie bývá často dosaženo dříve než dojde ke konvergenci ceny cesty. Iterace strategie vypočítává/rčje novo strategii, která je založena na sočasné cenové fnkci. Nově rčená strategie následně rčí nov cenovo fnkci. Předchozí proces zhsta konvergje k optimální strategii rychleji.

Reference: Thrn S., Brgard W., Fox D.: Probabilistic Robotics, The MIT Press, Cambridge, Massachsetts, London, England, 2005, 647 pp., ISBN 0-262-20162-3 (Chapter 14, p.487-p.511) http://cs.wikipedia.org/wiki/markov%c5%afv_rozhodovac%c3%ad_proces