Pravděpodobnostní (Markovské) metody plánování, MDP - obsah Pravděpodobnostní plánování - motivace. Nejistota ve výběr akce Markovské rozhodovací procesy Strategie plán (control policy) Částečně pozorovatelné Markovské rozhodovací procesy Strategie plán - metoda iterace Cíl a cena za jeho dosažení (payoff/reward) Konstrkce fnkce ceny cesty a odměny Plánovací horizont Kmlativní fnkce odměny a exponenciální zapomínání Greedy sitace, konečný horizont, nekonečný horizont Optimální strategie pro plně pozorovatelný případ, Bellmanova rce. Výpočet ceny fnkce Užití v robotice Reference
Třídy problémů Deterministické vs. stochastické akce Plně vs. částečně pozorovatelné prostředí
Derministické, plně pozorovatelné Prostředí je téměř symetrické s úzkými a širokými průchody, robot se nachází ve střed (zelený bod) bez znalosti své orientace a míří do cíle (červený bod). Úkolem robot je dosáhnot (červeného) cíle.
Stochastické, plně pozorovatelné (Markov Decision Process, MDP) Cenová fnkce a strategie v MDP: (a) Deterministický důsledek akce (b) Nedeterministický důsledek aplikované akce možňje více cest V deterministickém model robot snadno navigje úzkými koridory a preferje delší cest v případě, že výstpy akce(akcí) jso nejisté za účelem snížení rizika kolize
Stochastické, částečně pozorovatelné (Partially Observable MDP, POMDP) Akce k získávání znalostí v POMDP: K dosažení cíle (červený bod) s jistoto větší než 50%, plánovač pracjící s věrohodností nejprve navigje do místa, kde může být stanovena globální orientace. (a) Sitace (nahoře) kazje odpovídající strategii a možné cesty, jenž může robot zvolit. (b) V závislosti na znalosti vlastní pozice, robot v prostředí (b) nebo (c) (střed a dole) může stanovit, odkd lze bezpečně dosáhnot cíle.
Markovský rozhodovací proces (Markov Decision Process - MDP) Příklad Markovského model (graf) se stavem s, pravděpodobností přecho <0,1> a odměno za dosažení stav r r=1 0.7 s 2 0.1 0.9 0.01 r=0 s 1 0.3 0.3 0.3 0.4 s 3 r=20 0.99 r=0 0.2 s 4 s 5 0.8 r=-10 Který stav je cílový?
Markovský rozhodovací proces (MDP) Zadání: Stavy systém: x Přípstné akce: Pravděpodobnosti přechodů,x x : p(x, Fnkce odměny (reward) za dosažení stav: r() Úloha - hledáme: Strategii p(, jenž maximalizje bdocí očekávano odměn r()
Odměny a strategie I Strategie (obecný případ), z t značí pozorování stav dosaženého akcí t : : z 1 : t 1, 1: t 1 t Strategie (plně pozorovatelný případ): : xt t Cíl a odměna za jeho dosažení je kvantitativně hodnocena, skládá se ze dvo komplementárních komponent: 1. Ceny (Vale fnction) vyjadřjící náklady na realizaci dané cesty, měří cen za akci. 2. Odměny (Reward, Payoff) za dosažení stav/cíle, měří úspěšnost akce. Obě předchozí kritéria se integrjí do společné cenové fnkce (Payoff fnction) jenž postihje jednak cen dosd vykonané cesty a jednak odměn za dosažený stav, popř. cíl. Takové řešení možňje važovat i v sitacích, kdy robot má nejisto polozici a msí važovat způsobem: Stojí zvyšjící se pravděpodobnost dosažení požadovaného cíle za vynaložené úsilí?
Volba strategie I Očekávaná (E - expectation) kmlativní odměna se zapomínáním γ: Typy strategií: T=1: greedy strategie T>1: sitace s konečným horizontem, typicky bez exp. zapomínání, γ = 1 T : sitace s nekonečným horizontem, konečná odměna za podmínky exp. zapomínání je s koeficientem γ < 1 (řada konvergje, pro každé r r max ) R T T E r t 1 Očekávaná kmlativní odměna za strategii: Optimální strategie: argmax R T ( x ) t R T ( x ) E t T 1 r t t ( z 1 : t 11: t 1) Varianty strategií moho být: 1-kroková strategie: Optimální strategie: 1( argmax r( ) Fnkce ceny cesty pro 1-krokovo optimalní strategii: V1 ( max r( )
Volba strategie II 2 - kroková strategie: Optimální strategie: Fnkce ceny: r ) 2( argmax r( V1 ( x') p( x', dx ( max ( ) V1 V2 ( x') p( x', dx' ' T - kroková strategie a popř. nekonečný horizont: Optimální strategie: Fnkce ceny: T V T ) VT VT ( ( argmax r( 1( x') p( x', dx' ( max r( ) 1 x') p( x', dx' popř. : V ( max r( ) V ( x') p( x', dx' jenž pro T vede k stálené hodnotě V ( a je označována jako Bellmanova rce. Lemma: Každá hodnota V( splňjící Bellmanov rci je ntno i postačjící podmínko optimality odpovídající strategie.
Iterace ceny a strategie Algoritms k dosažení (iteraci) optimální ceny cesty v nekonečném stavovém prostor (pro prostory s konečným počtem stavů, lze integrál nahradit sočtem přes stavy): for all x do Vˆ ( r endfor min {inicializace hodnot V(} popř. v diskr. podobě: Vˆ ( x i ) r min repeat ntil convergence for all x do Vˆ ( max r ( ) endfor endrepeat Vˆ( x') p( x', dx' popř. v diskr. podobě pro konečné stavové prostory: N Vˆ ( xi ) max r( xi, ) Vˆ( x j ) p( x j, xi ) j1 Přičemž optimální strategii (iteraci strategie) ze vztah: popř. v diskr. podobě: ( argmax r( ) Vˆ( x') p( x', dx' ( arg max MDP( Vˆ) ( lze rčit prostým výpočtem r( ) N j1 Vˆ( x ) p( x j j, xi )
Příklad - plánování pohyb robot Překážky (černá), cenová fnkce V( je vyjádřena šedo oblastí (vyšší hodnota odpovídá světlejší šedi). Hladová strategie podle hodnot cenové fnkce vede k řešení (za předpoklad, že pozice robot je pozorovatelná) Důležito vlastností je, že cenová fnkce je definována pro celé prostředí, což možní nalézt strategii i v případě, kdy pozice robot není přesně známa (je nejistá)
Iterace ceny a/nebo strategie? Optimální strategie bývá často dosaženo dříve než dojde ke konvergenci ceny cesty. Iterace strategie vypočítává/rčje novo strategii, která je založena na sočasné cenové fnkci. Nově rčená strategie následně rčí nov cenovo fnkci. Předchozí proces zhsta konvergje k optimální strategii rychleji.
Reference: Thrn S., Brgard W., Fox D.: Probabilistic Robotics, The MIT Press, Cambridge, Massachsetts, London, England, 2005, 647 pp., ISBN 0-262-20162-3 (Chapter 14, p.487-p.511) http://cs.wikipedia.org/wiki/markov%c5%afv_rozhodovac%c3%ad_proces