VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství

Podobné dokumenty
Popis obvodu U2407B. Funkce integrovaného obvodu U2407B

Rostislav Horčík. 13. října 2006

Výrobky válcované za tepla z konstrukčních ocelí se zvýšenou odolností proti atmosférické korozi Technické dodací podmínky

Lineární algebra. Vektorové prostory

Hlavní body. Úvod do nauky o kmitech Harmonické kmity

Výrazy lze též zavést v nečíselných oborech, pak konstanty označuji jeden určitý prvek a obor proměnné není množina čísel.

1.7. Mechanické kmitání

MS Word 2007 REVIZE DOKUMENTU A KOMENTÁŘE

ARG 200 plus NABÍDKOVÝ LIST. Pilous. Železná 9, Brno, Czech Republic Tel.:

10a. Měření rozptylového magnetického pole transformátoru s toroidním jádrem a jádrem EI

Žáci mají k dispozici pracovní list. Formou kolektivní diskuze a výkladu si osvojí grafickou minimalizaci zápisu logické funkce

Matematický model kamery v afinním prostoru

Vyvažování tuhého rotoru v jedné rovině přístrojem Adash Vibrio

(k 1)x k + 1. pro k 1 a x = 0 pro k = 1.

Český úřad zeměměřický a katastrální vydává podle 3 písm. d) zákona č. 359/1992 Sb., o zeměměřických a katastrálních orgánech, tyto pokyny:

I. Objemové tíhy, vlastní tíha a užitná zatížení pozemních staveb

Ekonomika Společnost s ručením omezeným

Diamantová suma - řešení příkladů 1.kola

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Reálná čísla

2.1. Pojem funkce a její vlastnosti. Reálná funkce f jedné reálné proměnné x je taková

Číslicová technika 3 učební texty (SPŠ Zlín) str.: - 1 -

Programový komplet pro evidence provozu jídelny v modul Sklad Sviták Bechyně Ladislav Sviták hotline: 608/

STANOVISKO č. STAN/1/2006 ze dne

ECB-PUBLIC ROZHODNUTÍ EVROPSKÉ CENTRÁLNÍ BANKY (EU) 2015/[XX*] ze dne 10. dubna 2015 (ECB/2015/17)

Zrnitost. Zrnitost. MTF, rozlišovací schopnost. Zrnitost. Kinetika vyvolávání. Kinetika vyvolávání ( D) dd dt. Graininess vs.

Časová analýza (Transient Analysis) = analýza časových průběhů obvodových veličin

VYUŽITÍ NEURONOVÝCH SÍTÍ PROSTŘEDÍ MATLAB K PREDIKCI HODNOT NÁKLADŮ PRO ELEKTRICKÉ OBLOUKOVÉ PECE

Pardubický kraj Komenského náměstí 125, Pardubice SPŠE a VOŠ Pardubice-rekonstrukce elektroinstalace a pomocných slaboproudých sítí

Gymnázium, Praha 10, Voděradská 2 Projekt OBZORY

PODPORA ČINNOSTI NESTÁTNÍCH NEZISKOVÝCH ORGANIZACÍ PŮSOBÍCÍCH NA ÚZEMÍ MČ PRAHA 7 V OBLASTI SPORTU PRO ROK 2015

2.6.4 Lineární lomené funkce s absolutní hodnotou

Komutace a) komutace diod b) komutace tyristor Druhy polovodi ových m Usm ova dav

Asymptoty grafu funkce

Tel/fax: IČO:

Měření základních vlastností OZ

Pokusy s kolem na hřídeli (experimenty s výpočty)

L 110/18 Úřední věstník Evropské unie

Fyzikální praktikum 3 - úloha 7

SYLABUS PŘEDNÁŠKY 6b Z INŽENÝRSKÉ GEODÉZIE (Polohové vytyčování) 4. ročník bakalářského studia studijní program G studijní obor G

Doplňující informace. A. Komentář k položkám Podklad pro stanovení záloh příspěvku vlastníka (nájemného) a na služby pro období 01/ /2015.

ŘÍZENÍ ABSORBERU KMITŮ POMOCÍ MATLABU

POKYNY Č. 45. Část I Zápis nové stavby jako samostatné věci

Č e s k ý m e t r o l o g i c k ý i n s t i t u t Okružní 31,

3.1.4 Trojúhelník. Předpoklady: Každé tři různé body neležící v přímce určují trojúhelník. C. Co to je, víme. Jak ho definovat?

7. Silně zakřivený prut

ČÁST PÁTÁ POZEMKY V KATASTRU NEMOVITOSTÍ

Matrika otázky a odpovědi Vidimace částečné listiny. Ing. Markéta Hofschneiderová Eva Vepřková

Steinbrenerova 6, VIMPERK. odbor výstavby a územního plánování Ú Z E M N Í R O Z H O D N U T Í

KRAJSKÝ ÚŘAD Pardubického kraje odbor životního prostředí a zemědělství

Studie o zkušenostech se špatným zacházením v dětském věku (ACE) realizovaná v ČR ZÁVĚREM. Velemínský Miloš

STANDARD 3. JEDNÁNÍ SE ZÁJEMCEM (ŽADATELEM) O SOCIÁLNÍ SLUŽBU

5 1 BITY A SADY BITŮ

KVALIFIKA NÍ DOKUMENTACE

Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/

Definice z = f(x,y) vázané podmínkou g(x,y) = 0 jsou z geometrického hlediska lokálními extrémy prostorové křivky k, Obr Obr. 6.2.

Teorie obnovy. Obnova

VYHLÁŠKA. číslo 1/2004 O POUŽITÍ SYMBOLŮ MĚSTA, ČESTNÉM OBČANSTVÍ A CENÁCH MĚSTA. Část I. Článek I. Článek II. Města Mělníka, okres Mělník

2 Trochu teorie. Tab. 1: Tabulka pˇrepravních nákladů

Příloha č. 3 VÝKONOVÉ UKAZATELE

PŘIJÍMACÍ ŘÍZENÍ. Strana

Dodávku diagnostik. Zadávací dokunientace podlimitní veřejné zakázky. pro provedení automatizované analýzy

ZADÁVACÍ DOKUMENTACE 1) Identifikace zadavatele 2) P esné vymezení p edm tu zakázky a požadavk zadavatele

ZATÍŽENÍ SNĚHEM A VĚTREM

CELNÍ ÚŘAD PRO PARDUBICKÝ KRAJ Palackého 2659, Pardubice DRAŽEBNÍ VYHLÁŠKA

Možnosti stanovení příčné tuhosti flexi-coil pružin

Změnu DPH na kartách a v ceníku prací lze provést i v jednotlivých modulech.

1. Orgány ZO jsou voleny z členů ZO. 2. Do orgánů ZO mohou být voleni jen členové ZO starší 18 let.

Úloha Zadání Vypočtěte spotřebu energie pro větrání zadané budovy (tedy energii pro zvlhčování, odvlhčování a dopravu vzduchu)

a m1 a m2 a mn zobrazení. Operaci násobení u matic budeme definovat jiným způsobem.

Směrnice pro přijímání a vyřizování žádostí o poskytnutí informací podle zákona č. 106/1999 Sb. o svobodném přístupu k informacím

499/2004 Sb. ZÁKON ČÁST PRVNÍ ARCHIVNICTVÍ A SPISOVÁ SLUŽBA

DRAŽEBNÍ VYHLÁŠKA VEŘEJNÉ DOBROVOLNÉ DRAŽBY podle zák. č. 26/2000 Sb., o veřejných dražbách, ve znění pozdějších předpisů

Svážíme bioodpad z obce Veselý Žďár malé komunální vozidlo s hákovým nosičem, kontejnery a sítě na kontejnery

VYSOKÁ ŠKOLA FINANČNÍ A SPRÁVNÍ, o.p.s. Fakulta ekonomických studií katedra řízení podniku. Předmět: ŘÍZENÍ LIDSKÝCH ZDROJŮ (B-RLZ)

VYHLÁŠKA ČÁST PRVNÍ STÁTNÍ ZKOUŠKY Z GRAFICKÝCH DISCIPLÍN. Předmět úpravy

Analýza a vyhodnocení systému hodnocení a hodnotících kritérií Operačního programu Rozvoj lidských zdrojů OP RLZ ( ) Závěrečná zpráva

METODICKÝ POKYN NÁRODNÍHO ORGÁNU

Grafické řešení soustav lineárních rovnic a nerovnic

Rychlé vyrovnávací paměti (cache)

1. LINEÁRNÍ APLIKACE OPERAČNÍCH ZESILOVAČŮ

Výboru pro vnitřní trh a ochranu spotřebitelů NÁVRH STANOVISKA

Manažerské koučování/mentoring pro zaměstnance SZIF

ODŮVODNĚNÍ VEŘEJNÉ ZAKÁZKY

Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/

ZADÁVACÍ DOKUMENTACE

OBEC HORNÍ MĚSTO Spisový řád

I. M E T P R O D E S T

Hydrogeologie a právo k

Zpracování lesních hospodářských osnov pro zařizovací obvod Rumburk

SMĚRNICE EVROPSKÉHO PARLAMENTU A RADY 2009/76/ES

Model dvanáctipulzního usměrňovače

B Kvantitativní test. Semestrální práce TUR. Novotný Michal

ZPRAVODAJSTVÍ Z OPERAČNÍHO PROGRAMU

AMC/IEM HLAVA B PŘÍKLAD OZNAČENÍ PŘÍMOČARÉHO POHYBU K OTEVÍRÁNÍ

RADA EVROPSKÉ UNIE. Brusel 30. srpna 2011 (OR. en) 12899/11 Interinstitucionální spis: 2011/0164 (NLE)

poslanců Petra Nečase, Aleny Páralové a Davida Kafky

ODPOVĚDI KOMISE NA VÝROČNÍ ZPRÁVU ÚČETNÍHO DVORA ZA ROK 2011 KAPITOLA 6 ZAMĚSTNANOST A SOCIÁLNÍ VĚCI

Geometrické plány (1)

Průzkum veřejného mínění věcné hodnocení

Článek 1 Identifikační údaje zadavatele a organizátora. Povodí Odry, státní podnik CZ

Transkript:

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Faula srojního inženýrsví RNDr. Ing. Tomáš Březina, CSc. EFEKTIVNÍ METODA Q UČENÍ: SIMULAČNÍ POSOUZENÍ POUŽITELNOSTI PRO ŘÍZENÍ AKTIVNÍHO MAGNETICKÉHO LOŽISKA EFFICIENT Q-LEARNING METHOD: SIMULATION ASSESSMENT OF ITS APPLICABILITY ON ACTIVE MAGNETIC BEARING CONTROL ZKRÁCENÁ VERZE HABILITAČNÍ PRÁCE BRNO 23

KLÍČOVÁ SLOVA opaovaně posilované učení, Q-učení, aivní magneicé ložiso, řízení KEYWORDS Reinforcemen learning, Q-learning, Acive Magneic Bearing, Conrol MÍSTO ULOŽENÍ PRÁCE Oddělení pro vědu a výzum Fauly srojního inženýrsví Vysoého učení echnicého v Brně Tomáš Březina ISBN: 8-214-2414-1 ISSN: 1213-418X

OBSAH 1 ÚVOD... 5 1.1 Heurisicé prohledávání a řízení... 6 1.2 Opimální řízení... 6 1.3 Heurisicé prohledávání v reálném čase... 6 2 MARKOVOVY ROZHODOVACÍ PROBLÉMY... 7 2.1 Nenasyná sraegie a rovnice opimaliy... 8 3 DYNAMICKÉ PROGRAMOVÁNÍ... 9 3.1 Off-line asynchronní ierace hodno... 9 4 UČENÍ JAKO ITERACE HODNOT V REÁLNÉM ČASE... 1 4.1 Asynchronní ierace v reálném čase... 1 4.2 Asynchronní ierace v reálném čase založená na pousu... 11 5 ADAPTIVNÍ ZPŮSOB OPTIMÁLNÍHO ŘÍZENÍ... 11 5.1 Záladní nepřímá meoda... 12 5.2 Adapivní asynchronní ierace hodno v reálném čase... 12 5.3 Q-učení jao adapivní přímá meoda... 13 6 NÁVRH ORGANIZACE Q-UČENÍ... 15 7 IMPLEMENTAČNÍ PŘÍSTUPY... 16 7.1 Výpočový model aivního magneicého ložisa... 16 7.2 Implemenace Q-funce... 17 7.3 Implemenace prozoumávání... 19 8 SIMULAČNÍ PŘÍSTUPY... 19 8.1 Sandardní podmíny simulací... 2 9 FÁZE PŘEDUČENÍ S LINEÁRNÍMI MŘÍŽKAMI Q-FUNKCE... 21 9.1 Průběh předučení... 21 9.2 Odolnos sraegie vůči náhodným chybám pozorování veličin sousavy... 22 9.3 Odolnos sraegie vůči zpoždění řídicího zásahu... 22 9.4 Výběr vhodné mřížy... 23 9.5 Porovnání s referenčním PID reguláorem... 23 1 FÁZE PŘEDUČENÍ S NELINEÁRNÍMI MŘÍŽKAMI Q-FUNKCE... 24 1.1 Průběh předučení... 24 1.2 Odolnos sraegie vůči náhodným chybám pozorování veličin sousavy... 24 1.3 Odolnos sraegie vůči zpoždění řídicího zásahu... 25 1.4 Výběr vhodných mříže... 26 1.5 Porovnání s referenčním PID reguláorem... 26 11 DALŠÍ ZKUŠENOSTI S FÁZÍ PŘEDUČENÍ... 27 11.1 Posilovací funce... 27 11.2 Způsob průchodu abulou... 28 11.3 Množina ací... 29 12 DOUČOVÁNÍ... 3 13 ZÁVĚR... 3 14 LITERATURA... 32 ABSTRACT... 35 3

PŘEDSTAVENÍ AUTORA HABILITAČNÍ PRÁCE Tomáš Březina se narodil v roce 1954 v Brně. V roce 1978 absolvoval FE VUT v Brně, obor slaboproud, v roce 1985 absolvoval PřF UJEP Brno, obor maemaicá informaia a zísal iul RNDr. V roce 1985 rovněž obhájil diserační práci v oboru radioeleronia a zísal iul CSc. Od rou 1979 pracuje na FS VUT v Brně. Nejdříve na aedře obráběcích a vářecích srojů (výrobních srojů a průmyslových roboů) jao asisen, později samosaný asisen a odborný asisen. Od r. 1986 do r. 1991 zasával funci vedoucího faulního výpočeního sředisa. Od r. 1991 odborného asisena na aedře informaiy a od 1994 na Úsavu auomaizace a informaiy. Od r. 1983 pedagogicy působí v předměech zaměřených na výpočení echniu. Přednášy a cvičení vyonával na FSI dosud v ěcho předměech: Konsruce a výpočení echnia, Teorie auomaů, Zálady numericé maemaiy a programování, Algorimy a programování, Zálady výpočení echniy, Daabáze, Informaia I, Informaia II, Maemaicé zálady informaiy, Programovací echniy, Algorimy umělé ineligence, Fuzzy sysémy a neuronové síě. Během působení na VUT spolupracoval na řešení něolia úolů rozvoje vědy a echniy a vedlejší hospodářsé činnosi. Od r. 1993 působil jao řešiel nebo spoluřešiel projeů TEM- PUS JEP 4143-92 Universiy Courses on Mecharonics (řešiel, 1993 1995), FR 789/96 Mecharonia (spoluřešiel, 1997), FR 63/97 Inovace sudijního programu mecharonia (spoluřešiel, 1998), MŠMT VS 96 122 Mecharonicé sousavy (spoluřešiel, 1996 2), výz. záměru CEZ: J22/98: 26119 Neradiční meody sudia omplexních a neurčiých sysémů (spoluřešiel, 2 22), GA ČR 11//1471 Sabilia řízení roorů na magneicých ložisách (řešiel, 2 22) a výz. záměru MSM 262124 Výzum a vývoj mecharonicých sousav (spoluřešiel 2 24). Od r. 1999 pracuje rovněž v Cenru mecharoniy, eré je společným pracovišěm FSI VUT v Brně a ÚT AV ČR (Úsav ermomechaniy Aademie věd ČR). Zde vede supinu umělé ineligence a roboiy. Od r. 1997 je členem mezinárodních programových výborů onferencí Mecharonics and Roboics 97, Mecharonics and Roboics 99, Mecharonics, Roboics and Biomechanics 21 a Mecharonics, Roboics and Biomechanice 23. Je auorem nebo spoluauorem 63 prací, z oho 12 zahraničních (Anglie, Bulharso, Němeco, Polso, Ruso, Slovenso, Španělso, USA). Jeho publiační činnos je orienována na inženýrsé apliace meod umělé ineligence. 4

1 ÚVOD Aivní magneicé ložiso (AML) je relaivně nový a velmi perspeivní onsruční prve eliminující přímý mechanicý doy leviací rooru v řízeném magneicém poli. Z mechanicého hledisa se vyznačuje zanedbaelnými řecími odpory, opořebením, nízou energeicou náročnosí, nízou hlučnosí a vysoou přesnosí i uhosí. Z hledisa řízení je velmi výhodná možnos měni jeho dynamicé vlasnosi za chodu sroje. Z hledisa provozního je nezanedbaelná jeho použielnos za exrémních nebo speciálních podmíne. Samoné AML je nesabilní, a proo je vždy pořeba AML sabilizova zpěnovazební regulační smyčou. Signál zpěné vazby je obvyle zísáván bezdoyovým snímačem polohy rooru. Reguláor vyhodnocuje odchylu rooru od geomericé osy ložisa, a ím se řídí hodnoa napájecího proudu eleromagneů ložisa. Na řídicí eleroniu jsou vša ladeny značné nároy, což mimo jiné vede vysoé ceně aových ložise. Přeso se ao ložisa již řadu le omerčně vyrábějí a jsou používána u něerých velých srojů (urbíny, urboompresory, velé elericé sroje), de je jejich cena přijaelná. Meody umělé ineligence (meody UI), zejména y, eré používají srojového učení v reálném čase, mohou předsavova východisa návrhu nových meod řízení ( ineligenních řídicích členů ) zlepšujících řízení AML, případně vyžadujících méně složiou řídicí eleroniu. Učení se doonce sane zásadním faorem, jesliže se prosředí nebo cíle subjeu řízení mění v čase. Zásahy do dynamiy AML prováděné řídicím členem mají podsaný vliv na dlouhodobou dynamiu AML. Bez úplného vyřešení požadovaného chování řídicího členu může bý velmi obížné zísa i malou množinu vzorů jeho požadovaného chování. Disponova dosaečně reprezenaivní množinou vzorů je ale nuné, je-li problém formulován jao úloha učení s učielem (Duda a Har [29]). Naproi omu v úlohách opaovaně posilovaného učení je ao problemaia formulována jao opimalizační úloha, erá použiím jednoduchého oamžiého ohodnocování zásahu subjeu do prosředí posupně zlepšuje odhad výonu ohoo subjeu. Na záladě dosaženého odhadu celového výonu se poom vybírají opimální zásahy do prosředí a, aby yo zásahy celový výon exremalizovaly. Ohodnocování očeávaného výonu subjeu může zahrnova nejrůznější riéria, jao např. minimální čas, minimální cenu, minimum olizí. Probíhá-li proces učení v reálném čase, může bý subje chápán jao řídicí člen a prosředí jao řízená sousava. Záladním rysem opaovaně posilovaného učení je a schopnos v průběhu procesu učení zlepšova chování řízené sousavy. Úlohu určení opimálního chování řídicích členů vložených do onečného, sacionárního Marovova prosředí lze chápa jao problém řešení sousavy nelineárních reurzivních rovnic (Ross [53], Berseas [11]). Ieračními meodami určenými jejich řešení disponuje oblas dynamicého programování. Byly vyvinuy v rámci eorie operačního výzumu (Bellman [9]). Meody opaovaně posilovaného učení yo výsledy rozpracovávají s cílem dosáhnou co nejvyšší výpočení efeivnosi, aby yo meody byly použielné pro úlohy řízení v reálném čase. Parně nejpoužívanější varianou opaovaně posilovaného učení je zv. Q-učení. Proces učení onvenčních archieur Q-učení je ale sále příliš pomalý na o, aby bylo Q-učení praicy použielné pro řešení něerých reálných úloh řízení. Apliací Q-učení na řízení AML výrazně ompliuje suečnos, že je AML nesabilní. Tím se zejména v počáečních eapách učení dramaicy zvyšuje poče výběrů řídicích zásahů generovaných řídicím členem, erý je nuný dosažení něerého z cílových savů AML. V předložené práci je navrženo rozdělení procesu Q-učení do dvou fází: do fáze předučení a fáze doučování. Speciálně organizovaná fáze předučení je výrazně efeivní, ale vyžaduje výpočový model. Vychází z Q-učení v reálném čase. Fáze doučování je určena dalšímu zlepšování řízení sousavy. Konvenčně využívá Q-učení v reálném čase a předpoládá ineraci se sousavou. 5

1.1 HEURISTICKÉ PROHLEDÁVÁNÍ A ŘÍZENÍ V UI znamená řízení proces rozhodování o om, ja manipulova s modelem doyčného problému ne nuně v reálném čase, a proo eno ermín nemá sejný význam jao v eorii řízení. V UI je řízení procesem formálního prohledávání (zpravidla heurisicého). Algorimy heurisicého prohledávání, eré jsou speciálním případem algorimů prohledávání savového prosoru, používají modelu řešeného problému, erý se sládá z a) množiny savů, b) množiny operáorů, eré zobrazují množinu savů do množiny savů, c) počáečního savu a d) množiny cílových savů. Tyo algorimy hledají posloupnos operáorů, erá zobrazuje počáeční sav do množiny cílových savů a evenuálně opimalizuje nějaou míru ceny nalezené cesy. V předložené práci je pojmu řízení používáno pro řízení dynamicých sysémů, eré explicině pracují s časem, a nioliv pro prohledávání savového prosoru. V eorii řízení je heurisicým prohledáváním obvyle off-line procedura návrhu řízení, erá s využiím modelu sousavy navrhuje sraegii řízení v oevřené smyčce pro daný počáeční sav. Řízení v oevřené smyčce je použielné pouze ehdy, jsou-li splněny následující podmíny: a) model použiý návrhu řídicí sraegie je přesným modelem sousavy, b) může bý přesně určen počáeční sav sousavy, c) sousava je deerminisicá a d) neexisují žádné nemodelované poruchy. Tyo podmíny jsou splněny pouze pro něeré úlohy UI a neplaí pro reálné úlohy řízení. V případě sochasicého sysému nebo v případě exisence nemodelovaných poruch nelze při návrhu řízení v oevřené smyčce předcháze důsledům náhodných nebo nemodelovaných jevů a vždy se lépe bude chova řízení v uzavřené smyčce. U řízení v uzavřené smyčce závisí veliosi řídicích veličin na auálním pozorování sousavy. V úvahu mohou bý brána nejen auální pozorování, ale i minulá pozorování sousavy, či evenuálně další vniřní informace řídicího členu. Teorie řízení se věšinou zabývá úlohami off-line návrhu odpovídajících sraegií uzavřené smyčy za předpoladu, že je dispozici přesný model řízeného sysému. Off-line procedura návrhu ypicy dává výpočeně efeivní meody pro určení řídicích veličin sysému. 1.2 OPTIMÁLNÍ ŘÍZENÍ V úloze opimálního řízení je cílem řízení exremalizova nějaou cenovou funcí (rieriální funci) řízení. Proože je rajeorie součásí řešení úlohy opimálního řízení, souvisejí aové úlohy úzce s úlohami heurisicého prohledávání. Pro řešení úloh opimálního řízení exisují specializované meody, eré obvyle předpoládají lineární sysémy a vadraicé cenové funce. Numericé meody používají zejména gradienní meody a meody dynamicého programování a umožňují řeši i úlohy s nelineárními sysémy a nevadraicými cenami. Podobně jao algorimy heurisicého prohledávání jsou meody dynamicého programování off-line procedurami návrhu opimální řídicí sraegie a vyvářejí (na rozdíl od algorimů heurisicého prohledávání) v nedeerminisicé případě opimální sraegii uzavřené smyčy. 1.3 HEURISTICKÉ PROHLEDÁVÁNÍ V REÁLNÉM ČASE K řešení úloh heurisicého prohledávání savového prosoru, ve erých je model sousavy rozšířen a, aby uvažoval čas, se používají algorimy heurisicého prohledávání v reálném čase (např. Korf [34]). Savový prosor musí mí yo vlasnosi: 6

a) v aždém oamžiu exisuje jediný sav řízeného sysému, sav je řídicímu členu znám, b) během aždého z posloupnosi časových inervalů, eré jsou onsanní a omezené dély, musí řídicí člen předloži jedinou aci, j. předloži výběr operáoru a c) sysém může měni savy na onci aždého časového inervalu pouze podle auálního savu a poslední ace předložené řídicím členem. Exisuje proo pevná horní hranice doby, ve eré řídicí člen musí rozhodnou, erou aci povés, má-li bý ao ace založena na nejnovější informaci o savu. Proo může bý algorimus heurisicého prohledávání v reálném čase vhodný pro řízení v uzavřené smyčce. 2 MARKOVOVY ROZHODOVACÍ PROBLÉMY Příomnos neurčiosí zvýhodňuje zpěnovazební nebo reaivní řízení před řízením v oevřené smyčce. Proo jsou významné eoreicé rámce, eré zahrnují sochasicé problémy. V Marovových rozhodovacích problémech nabývají operáory varu ací, j. řídicí veličiny sousavy pravděpodobnosně určují následníy savů. Ačoliv z hledisa eorie jsou ace primiiva, v apliacích mohou bý i příazy vyšší úrovně, eré mohou provádě složiá chování. Marovův rozhodovací problém je definován na záladě sochasicých dynamicých sysémů S = 1, K, n. Čas je předsavován posloupnosí časových roů s onečnou množinou savů { } =,1, K. Řídicí člen pozoruje v aždém časovém rou auální sav sysému a vybírá řídicí aci, erá se používá jao vsup sysému. Je-li i pozorovaný sav, je ace vybírána z onečné u U i, přejde sysém v dalším ča- množiny U( i ) přípusných ací. Provede-li řídicí člen aci ( ) sovém rou do savu j s pravděpodobnosí pij ( ) cenu ci ( u ). u. Použií ace u ve savu i vyvolá oamžiou Sraegie řízení v uzavřené smyčce určuje aždou aci jao funci pozorovaného savu. Taová sraegie je označena µ = { µ ( 1, ) K, µ ( n) }. Řídicí člen provádí aci µ ( i) µ, dyoliv pozoruje sav i. Jedná se o sacionární sraegii, proože se nemění v čase. Ke aždé sraegii exisuje funce f µ, nazývaná ohodnocovací funce nebo cenová funce (cena), odpovídající sraegii µ. Tao µ funce přiřazuje aždému savu celovou cenu f ( i), o eré se očeává, že vznine v průběhu času, bude-li řídicí člen používa (počínaje savem i) sraegii µ. V éo práci je ohodnocovací µ funce f ( i) pro libovolnou sraegii µ a sav i definována jao očeávaná hodnoa disonní ceny neonečného horizonu, jesliže bude řídicí člen počínaje savem i používa sraegii µ: µ f () i = E c s = i µ γ, (2-1) = de γ, γ 1 je disonní faor použiý e snížení budoucích oamžiých cen a E µ je očeá- µ vání (sřední hodnoa), bude-li řídicí člen používa sraegie µ. O f ( i) se hovoří jao o ceně savu i při sraegii µ. Cílem uvažovaného Marovova rozhodovacího problému je naléz sraegii µ = { µ ( 1, ) K, µ ( n) }, erá minimalizuje cenu podle (2-1) aždého savu. Tao sraegie je opimální sraegií, závisí na γ a nemusí bý jediná. Všem opimálním sraegiím ale odpovídá jediná ohodnocovací funce f, erá je opimální ohodnocovací funcí (opimální cenovou funcí); j. je-li µ libovolná opimální sraegie, pa f µ = f. 7

Disonní verze Marovova rozhodovacího problému s neonečným horizonem ( γ < 1) je maemaicy nejjednodušší a zajišťuje, že vždy exisuje opimální sraegie, erá je sacionární. Je-li γ = 1 (nedisonní případ), nemusí bý cena savu podle (2-1) onečná. Proo se zavádí absorbční množina savů. Jde o množinu savů, eré nemohou bý nidy opušěny, jamile se do nich jednou vsoupí. Oamžiá cena použií ace v jaémoliv savu z absorbční množiny je. Ohodnocovací funce neonečného horizonu pro sraegii, erá převádí sysém do absorbční množiny, je pa omezená, i dyž γ = 1. Jao v disonním případě, exisuje alespoň jedna opimální sraegie, erá je sacionární. Tyo úlohy nazývá Berseas a Tsisilis [12] úlohami sochasicé nejraší cesy. Absorbční množina savů bude dále nazývána cílová množina. Dále se zavádí pojem orení sraegie. Sraegie dosažení cílového savu je orení, vyplývá-li z jejího použií při libovolném počáečním savu nenulová pravděpodobnos dosažení cílového savu. 2.1 NENASYTNÁ STRATEGIE A ROVNICE OPTIMALITY I dyž ohodnocovací funce f µ udává cenu aždého savu při sraegii µ, nevybírá sraegie µ nuně ace, eré podle ohodnocení f µ vedou na nejlepší následníy auálního savu. To zajišťuje sraegie, erá je nenasyná vzhledem e své ohodnocovací funci. Pro definici nenasyné sraegie je dále použio Wainsovy Q noace [68], erá se používá v meodách Q-učení popsaných v ods. 5.3. Nechť je f reálná funce savů. Může bý buď ohodnocovací funcí pro nějaou sraegii nebo odhadem dobré ohodnocovací funce (např. heurisicou ohodnocovací funcí v heurisicém u U i nechť prohledávání) nebo je o libovolná funce. Pro aždý sav i a aci ( ) f de Q (, ) (, ) ( ) γ ( ) ( ) f Q i u ci u pij u f j j S = +, (2.1-1) i u je cena ace u ve savu i při ohodnocení f. Jde o souče oamžié ceny a očeávaných hodno cen všech následníů při aci u. Sraegie µ je nenasyná vzhledem f, jesliže pro všechny savy i je µ () i ace, erá splňuje ( µ ( )) u U() i ( ) f f Q i, i = min Q i, u. (2.1-2) f Označme jao µ jaouoliv sraegii, erá je nenasyná vzhledem f. Vzhledem f může exisova více nenasyných sraegií a opačně, libovolná sraegie je nenasyná vzhledem více různým ohodnocovacím funcím, ale opimálními mohou bý pouze y sraegie, eré jsou nenasyné vzhledem e svým ohodnocovacím funcím. Jesliže je edy µ opimální sraegie, pa její ohodnocovací funce je opimální ohodnocovací funcí f f a µ = µ, j. pro aždý sav i ( µ ()) u U() i ( ) f f Q i, i = min Q i, u. (2.1-3) Je-li f známá, je možné definova opimální sraegii jednoduše a, aby splňovala (2.1-3). Položíme-li (, ) f Q i u = Q ( i, u), je nejdůležiějším důsledem, že f je opimální ohodnocovací funcí právě dyž pro aždý sav i plaí 8

( ) () ( ) f i = min Q i, u u U i = min ci( u) + γ pij( u) f ( j). u U() i j S (2.1-4) Jedná se o jeden z varů Bellmanovy rovnice opimaliy, erou lze řeši pro libovolné f ( i) i S. Jamile je nalezena f, může bý pro sav i podle (2.1-1) určena opimální ace. Výpočení složios nalezení opimální ace užiím éo meody je určena výpočení složiosí nalezení f. 3 DYNAMICKÉ PROGRAMOVÁNÍ Je-li dán úplný a přesný model Marovova rozhodovacího problému v podobě známých prav- u U i, děpodobnosí přechodů savů ( ) ij p u a oamžiých cen c ( u ) pro všechny savy i a ace ( ) je možné off-line řeši rozhodovací problém meodami dynamicého programování (DP). Dále bude popsána jedna z verzí záladní meody dynamicého programování nazývaného ierace hodno (aproximace v prosoru funcí, Bellman a Kalaba [7]). Exisují i jiné meody dynamicého programování, např. ierace sraegie (aproximace v prosoru sraegií). Ierace hodno je úspěšná aproximační procedura, erá onverguje opimální ohodnocovací funci f. Exisuje mnoho varian ierace hodno, eré se liší v onréní organizaci výpoču. 3.1 OFF-LINE ASYNCHRONNÍ ITERACE HODNOT Nechť f označuje odhad f v -é eapě výpoču. V aždé eapě se přepočíávají ceny nějaé podmnožiny savů, přičemž ceny osaních savů zůsávají nezměněny (Berseas [1], Berseas a Tsisilis [12]). Podmnožina savů, jejichž ceny jsou zálohovány, se s eapami může měni. Volba ěcho podmnožin určuje onréní chování algorimu. Asynchronní ieraci hodno lze zapsa jao de S f + 1 u U() i () i () i ( ) f min Q i, u pro i S =, (3.1-1) f jina S je množina savů, jejichž ceny budou v -é eapě zálohovány a =,1, K. Asynchronní ierace hodno zahrnuje jao zvlášní případ i synchronní ieraci hodno. Synchronní případ nasane, je-li S = S, pro aždé. Disonní asynchronní ierace hodno onverguje f za podmíny, že je aždý sav obsažen v neonečně mnoha podmnožinách S, =,1, K. V nedisonním případě ( γ = 1) onverguje asynchronní ierace hodno (Berseas a Tsisilis [12]), jesliže: a) počáeční cena aždého cílového savu je nulová, b) exisuje nejméně jedna orení sraegie, c) všechny sraegie, eré nejsou orení, vyvolávají neonečně velou cenu nejméně jednoho savu a d) cena aždého savu je zálohována neonečně mnohorá. Za splnění uvedených podmíne onverguje cena aždého savu opaovaným zálohováním opimální ceně. Pořadí provádění záloh cen savů (v závislosi na úloze) má vliv na poloměr onvergence (různé variany viz např. Lin [43], Ugoff a Clouse [67] a Whiehead [7]). i, 9

4 UČENÍ JAKO ITERACE HODNOT V REÁLNÉM ČASE Naznačený algorimus ierace hodno sice posupně aproximuje opimální ohodnocovací funci, ale jeho eapy se nevzahují časovým roům, během nichž se odehrává řešený rozhodovací problém. Uvažujme algorimus, ve erém řídicí člen provádí asynchronní ierace hodno paralelně s auálním procesem řízení (s procesem provádění ací). Předpoládáme, že exisuje úplný a přesný model rozhodovacího problému (Suon [61]). Pro aové použií je vhodná asynchronní verze ierace hodno. Podle oho, ja se řízená sousava suečně chová, mohou bý ierace hodno sousředěny na y množiny savů, eré jsou pro řízení sousavy nejvýznamnější. Třída aových algorimů se nazývá ierace hodno v reálném čase. V dalším exu je použio indexu pro eapy ierace hodno a indexu je použio označení časového rou, je-li řešena úloha řízení. sousava s u c f µ řídicí člen Obr. 4-1 Schéma ierace hodno v reálném čase Schéma ierace hodno v reálném čase je znázorněno na obr. 4-1. Nechť s je poslední sav pozorovaný před časem, a nechť je celový poče eap asynchronních ierací hodno uončených do času. Pa f značí poslední odhad opimální ohodnocovací funce f, erý je dispozici pro výběr ace u U( s). Provedení ace u vyvolá oamžiou cenu cs ( u ) a sav sousavy se změní na s + 1. Do oamžiu, než má bý vybrána další ace u + 1, jsou provedeny pořebné eapy asynchronní ierace hodno a je určena ohodnocovací funce f +. Označme množinu savů, jejichž ceny byly mezi časem a + 1 zálohovány, jao B 1. Různé variany paralelního provádění ierace hodno a řízení bývají mnoha auory nazývány opaovaně posilovaným učením. V ěcho meodách se časo nepracuje s oamžiou cenou savu cs ( u ), ale s oamžiým posílením Rs ( u ) ( ) = cs u, eré a předsavuje cenu s opačným znaménem. Je-li oamžié posílení ladné, hovoří se o odměně, je-li záporné, hovoří se o pouě, a v rovnicích je pouze nahrazen operáor min operáorem max. 4.1 ASYNCHRONNÍ ITERACE V REÁLNÉM ČASE Při asynchronní ieraci hodno v reálném čase paralelně probíhá asynchronní ierace hodno a proces řízení. Inerace probíhá a, že: a) řídicí člen vždy používá sraegii, erá je nenasyná vzhledem f ; nejednoznačnosi výběru ací jsou řešeny náhodně nebo a, že je rvale zajišěn posupný výběr všech nenasyných ací, b) mezi provedením u a u + 1 je cena savu s vždy zálohována, j. s B pro všechna. 1

Nejjednodušší volbou je B { s} =, pro všechna. Obecněji může B obsahova i libovolné savy, eré byly generovány libovolnou meodou dopředného prohledávání. Řeneme, že asynchronní ierace hodno v reálném čase onverguje, jesliže její asynchronní ierace hodno onverguje f. Proože řídicí člen vždy vybírá ace, eré jsou nenasyné vzhledem auálnímu odhadu f, je onvergenním procesem dosaženo opimálního řídicího chování. Exisuje-li více než jedna opimální sraegie, bude se řídicí člen přepína mezi opimálními sraegiemi, proože opimální ace bude vybírána z více nenasyných ací. Pro onvergenci plaí podmíny uvedené v odsavci 3.1. V nedisonním případě je navíc požadováno, aby nebyl žádný sav úplně vyloučen ze zálohování své ceny. Proože asynchronní ierace hodno v reálném čase vždy zálohuje cenu auálního savu, je oho možné dosáhnou a, že řídicí člen sále navšěvuje aždý ze savů, např. použiím opaovaných pousů. 4.2 ASYNCHRONNÍ ITERACE V REÁLNÉM ČASE ZALOŽENÁ NA POKUSU Pous předsavuje provádění asynchronní ierace hodno v reálném čase během časového inervalu nenulové omezené dély. Po uplynuí ohoo inervalu je sousava nasavena do nového počáečního savu a začíná nový pous. Jednoduchým způsobem, ja oho dosáhnou, je pousy organizova a, že je aždý sav s pravděpodobnosí 1 počáečním savem neonečně mnohorá v neonečné posloupnosi pousů. Téo meody nemůže bý použio vždy, ale pro řadu úloh je eno přísup možný. Proo asynchronní ierace hodno v reálném čase založená na pousu onverguje s pravděpodobnosí 1 pro libovolný disonní Marovův rozhodovací problém a libovolnou počáeční ohodnocovací funci f. V nedisonních úlohách nejraší cesy onverguje asynchronní ierace hodno v reálném čase založená na pousu s pravděpodobnosí 1, jsou-li splněny podmíny onvergence uvedené v odsavci 3.1, s výjimou bodu d). Vhodná volba savů může onvergenci zrychli. Zajímavý přísup, erý navrhl Peng a Williams [5] a Moore a Aeson [49], nazývaný upřednosňované procházení, směruje provádění záloh na nejpravděpodobnější předchůdce savů, jejichž ceny se významně mění. 5 ADAPTIVNÍ ZPŮSOB OPTIMÁLNÍHO ŘÍZENÍ Uvedené verze ierace hodno vyžadují jedna znalos pravděpodobnosí přechodů savů pij ( u) pro všechny savy i, j a všechny ace u U( i) (přesný model sousavy), jedna vyžadují znalos oamžiých cen ci ( u ) pro všechny savy i a ace u U( i). Není-li ao informace dispozici, jde o Marovův rozhodovací problém s neúplnou informací. Meody řešení ěcho problémů jsou přílady meod adapivního opimálního řízení. Exisují dvě hlavní řídy adapivních meod pro Marovovy rozhodovací problémy s neúplnou informací (Kumar [36]). Bayesovsé meody používají odhadu pravděpodobnosí přechodů savů Bayesových formulí, nebayesovsé, věšinou výpočeně méně ompliované, používají odhadu pravděpodobnosí jiných způsobů jejich odhadů a jsou pro řadu úloh praičější. Nepřímé meody explicině modelují sousavu, erá má bý řízena. K aualizaci modelu sousavy v libovolném čase během řízení používají algorimů idenifiace sysémů. Při provádění řídicích rozhodnuí ypicy předpoládají, že auální model je přesným modelem sousavy (Berseas [11]). Naproi omu přímé meody vyvářejí sraegie bez použií expliciních modelů. Přímo odhadují sraegii nebo informace jiné než model sousavy, např. ohodnocovací funci. Pro obě meody je zásadním problémem onfli mezi řízením sysému (využívání) a zoumáním chování sysému s cílem řízení zlepši (prozoumávání). Něeré z mechanismů řešení ohoo 11

rozporu, pro eré jsou dispozici eoreicé výsledy, porovnává Kurnar [36]. Další přísupy uvádí Baro a Singh [2], Kaelbling [31], Moore [47] Schmidhuber [56], Suon [6], Wains [68], Thrun [65] a Thrun a Möller [66]. V následujících odsavcích jsou uvedeny nebayessovsé meody pro řešení Marovových rozhodovacích problémů s neúplnou informací. 5.1 ZÁKLADNÍ NEPŘÍMÁ METODA Nepřímé adapivní meody pro Marovovy rozhodovací problémy s neúplnou informací odhadují neznámé pravděpodobnosi přechodů savů (a evenuálně oamžié ceny). Nejjednodušší možnosí, ja provés uo idenifiaci, je onsruova model sysému a, aby se v aždém časovém rou sládal z maximálně věrohodných odhadů neznámých pravděpodobnosí přechodů u savů, označených pij ( u ), pro všechny dvojice savů i, j a ací u U( i). Nechť nij ( ) je pozorovaný poče provedení ace u před časovým roem, dy sysém přešel ze savu i do savu j. Pa u u n n p u i ( ) = ( ) značí poče provedení ace u ve savu i a maximálně věrohodný odhad ( ) v čase je p ij j S ( u) ij u ij u i ( ) () = n n. (5.1-1) Jesliže bude v neonečně mnoha časových rocích vybrána aždá ace v aždém savu neonečně mnohorá, bude eno model sysému onvergova přesnému modelu sysému. V aždém časovém rou se používá určení opimální ohodnocovací funce f pro aualizovaný model sousavy asynchronní ierace hodno (ne v reálném čase). Pro přesný model by plailo f = f. Opimální sraegie pro časový ro je jaáoliv sraegie µ = { µ ( 1, ) K, µ ( n) }, erá je nenasyná vzhledem f a v časovém rou je µ ( s) opimální ací. Vhodné je algorimus inicializova v aždém časovém rou odhadem f, erý byl vyvořen v předchozím časovém rou. Proože během jednoho časového rou dochází pouze malým změnám modelu sysému, nebudou se pravděpodobně opimální ohodnocovací funce f a f + 1 významně liši. Objem výpočů nuný provedení jedné asynchronní ierace hodno ale může bý a vysoý, že znemožní řešení úlohy řízení. Řídicí člen by měl při sledování cílů řízení provádě posloupnosi ací pouze podle µ. Proože ale auální model nuně není přesný, musí řídicí člen sledova i idenifiační cíle (např. Kumar [36]), musí občas vybra aci jinou, než µ. Jedním z nejjednodušších způsobů navození průzumného chování je použií sochasicých sraegií, ve erých jsou ace vybírány podle pravděpodobnosí, eré závisejí na hodnoách auální ohodnocovací funce. Každá ace má vždy nenulovou pravděpodobnos provedení, přičemž auální opimální ace podle µ má uo pravděpodobnos nejvyšší. Časo je používána meoda výběru ace založená na Bolzmanově rozložení (Wains [68], Lin [42] a Suon [6]). 5.2 ADAPTIVNÍ ASYNCHRONNÍ ITERACE HODNOT V REÁLNÉM ČASE Meoda adapivní asynchronní ierace hodno v reálném čase je sejná, jao meoda uvedená v odsavci 3.1 s výjimou oho, že a) model sysému je aualizován vhodnou on-line meodou idenifiace sousavy, např. podle (5.1-1) ij 12

b) během provádění eap je míso přesného modelu sysému používáno auálního modelu sousavy a c) ace je v aždém časovém rou určena náhodnou sraegií, erá vyvažuje cíle idenifiace a řízení. Adapivní asynchronní ierace hodno v reálném čase je blízá mnoha exisujícím algorimům, viz např. Suon [61], Lin [41, 42] a Jalali a Ferguson [3]. Pro zefeivnění idenifiace doporučuje např. Suon [6] zálohova ceny savů, u erých exisuje rozumná spolehlivos přesnosi odhadovaných pravděpodobnosí přechodů savů. Taová sraegie vyvolává prozoumávání používající idenifiaci, erá ale může bý v rozporu s řízením. Kaelbling [31], Thrun [65] a Thrun a Möller [66] uvádějí yo i další možnosi. 5.3 Q-UČENÍ JAKO ADAPTIVNÍ PŘÍMÁ METODA Na rozdíl od obou uvedených nepřímých adapivních meod Q-učení (Wains [68]) přímo odhaduje opimální Q-hodnoy dvojic savů a přípusných ací (nazývaných přípusné dvojice Q i, u u U i ace-sav). Připomeňme, že podle (2.1-4) je opimální Q-hodnoa ( ) savu i a ace ( ) cenou za generování ace u ve savu i, erá vyhovuje opimální sraegii. Libovolná sraegie vybírající vzhledem opimálním Q-hodnoám nenasyné ace je opimální sraegií. Jsou-li edy dispozici opimální Q-hodnoy, lze opimální sraegii urči s relaivně málo výpočy. Výlad Q-učení v éo práci se poněud liší od Wainsova výladu [68] i dalších výladů (např. Suon [6], Baro a Singh [2]). Chápe meodu Q-učení jao meodu adapivního on-line učení. K zdůraznění vzahu Q-učení a asynchronní ierace hodno je nejprve uvedeno Q-učení jao off-line asynchronní meoda ierace hodno, erá nevyžaduje přímý přísup pravděpodobnosem přechodů savů rozhodovacího problému. Dále je uvedeno obvylejší pojeí on-line Q-učení. 5.3.1 Off-line Q-učení Zde Q-učení provádí odhady ohodnocovací funce pro aždou přípusnou dvojici sav-ace. Nechť pro libovolný sav i a aci u U( i) je Q ( i, u ) odhadem Q ( i, u) v -é eapě výpoču. S uvážením, že podle (2.1-4) je f v aždém savu minimem opimálních Q-hodno, lze chápa Q-hodnoy v -é eapě jao implicině definované odhady f funce f, eré jsou pro libovolný sav i dány jao ( ) () ( ) f i = min Q i, u. u U i (5.3.1-1) Q-hodnoy obsahují více expliciní informace než ohodnocovací funce. Výběr ací nenasyné sraegie lze napřílad provés pouze použiím Q-hodno. Míso přímého používání pravděpodobnosí přechodů savů používá off-line Q-učení pouze funci, erá s ěmio pravděpodobnosmi generuje následníy savu. Nezávisle proměnnou éo funce je sav i a ace u U( i) a závisle proměnnou s pravděpodobnosí pij ( u ) sav j. Označíme-li uo funci succ, lze psá j = succ ( i, u). V aždé -é eapě aualizuje off-line Q-učení synchronně pouze Q-hodnoy podmnožiny přípusných dvojic sav-ace a podmnožina přípusných dvojic sav-ace, jejíž Q-hodnoy jsou aualizovány, se eapu od eapy mění. Výběr ěcho podmnožin určuje charaer algorimu. Q Nechť pro aždé =, 1, K, značí S { ( iu, ) i Su, U( i) } podmnožinu přípusných dvojic sav-ace, jejichž Q-hodnoy jsou aualizovány v -é eapě. Pro aždou dvojici sav-ace z S je řeba definova paramer učení, erý určuje, do jaé míry je nová Q-hodnoa určena svou Q 13

<, < 1 ozna- původní hodnoou a do jaé míry zálohovanou hodnoou. Nechť α ( iu, ), α ( iu) čuje paramer učení aualizace Q-hodnoy dvojice ( iu, ) v -é eapě. Pa ( 1 α ( iu, )) Q ( iu, ) α ( ) ( ) + γ ( ) Q ( i u) + Q 1 (, Q + i u) = iu, ci u f ( succ iu, ), pro ( iu, ) S,,, jina, (5.3.1-2) de f je definováno podle (5.3.1-1). Zálohování Q-učení (zálohování Q-hodnoy) znamená použií (5.3.1-2) pro jednu dvojici sav-ace ( iu, ). Posloupnos (, ) Q i u generovaná off-line Q-učením onverguje pro s pravděpodob- nosí 1 Q ( i, u) je-li: { } pro všechny přípusné dvojice ( iu, ) (viz Wains [68], Wains a Dayan [69]), a) zálohování Q-hodno prováděno pro aždou přípusnou dvojici sav-ace (, ) mnohorá a v neonečně mnoha eapách a b) snižuje-li se během eap vhodným způsobem paramer učení ( iu, ) α. iu neonečně Q-hodnoy v -é eapě definují ohodnocovací funci f podle (5.3.1-1), pro všechny přípusné dvojice sav-ace. Eapa off-line Q-učení definovaná podle (5.3.1-2) a může bý chápána jao aualizace f na f + 1, pro erou je ( ) + 1 + 1 u U i () ( ) f i = min Q i, u, pro aždý sav i. Tao aualizace ohodnocovací funce ale neodpovídá eapě obvylého zálohování při ieraci hodno, proože pro vybrané ace určené dvojicemi sav-ace v S používá pouze savů daných funcí succ. Naproi omu zálohování při ieraci hodno používá suečné očeávané ceny následníů pro všechny přípusné ace v daném savu. Off-line Q-učení je asynchronní na úrovni přípusných dvojic sav-ace. Každé zálohování Q-učení vyžaduje při určení () f i podle (5.3.1-1), erého se používá ve výrazu f succ ( i, u) Q ( ) v (5.3.1-2), minimalizaci přes všechny přípusné ace v daném savu. Nevyžaduje ale výpoče uvažující všechny možné následníy. Nevýhodou vša je vyšší složios prosoru Q-učení a dále o, že zálohování asynchronní ierace hodno je srovnaelné s provedením více zálohování Q-učení. 5.3.2 Q-učení v reálném čase Budeme-li provádě off-line Q-učení paralelně s řízením, zísáme on-line algorimus. Na rozdíl od ods. 5.2 Q-učení v reálném čase nepoužívá žádného modelu sousavy vymezujícího rozhodovací problém. Funci následnía předsavuje přímo sousava. Meoda provádí zálohování Q-hodnoy pouze pro jedinou dvojici sav-ace v aždém časovém rou řízení. Dvojice sav-ace se sládá z pozorovaného auálního savu a ace, erá je právě prováděna. Předpoládejme, že v aždém časovém rou pozoruje řídicí člen sav s a má dispozici odhad opimálních Q-hodno vyvářených všemi předchozími eapami Q-učení v reálném čase., iu,. Řídicí člen vybírá Označme yo odhady Q ( i u ) pro všechny přípusné dvojice sav-ace ( ) 14

aci u U( s ) změny savu sysému do 1, přičemž umožňuje prozoumávání. Po provedení ace u zísá řídicí člen během s + oamžiou cenu ( ) c u. Pa se Q + 1 vypoče jao s ( 1 α( s, u) ) Q( s, u) α ( ) ( ) + γ ( ) ( ) ( ) Q ( i, u), jina, + Q + 1 ( i, u) = s, u cs u f s + 1, pro iu, = s, u, (5.3.2-1) de f ( s ) = min ( ) Q ( s, u) a ( s, u ) + 1 u U s+ 1 + 1 α je paramer učení v časovém rou pro auální dvojici sav-ace. Too zálohování se opauje pro aždý časový ro. K definici úplného adapivního řídicího algorimu využívajícího Q-učení v reálném čase je nezbyné urči, ja mají bý na záladě auálních Q-hodno vybírány ace, aby bylo umožněno prozoumávání. Konvergence opimální sraegii vyžaduje sejný způsob prozoumávání, jao idenifiaci sysému vyžadují nepřímé meody. 6 NÁVRH ORGANIZACE Q-UČENÍ Definujeme-li cílové savy AML jao savy s malou výchylou x a napřílad malou rychlosí rooru x&, ve erých budeme roor poláda za sabilizovaný, lze úlohu řízení AML formulova jao sochasicou úlohu nalezení nejraší cesy z libovolného počáečního savu do něerého z cílových savů (ods. 2, Berseas a Tsisilis [12]). Množina cílových savů ale není absorpční množinou, proože navšívení něerého z jejich savů ješě neznamená, že AML nemůže usuečni přechod do savu, erý prvem éo množiny není ( omu dojde napřílad dosaečně velou a náhlou změnou záěžné síly rooru). Důsledem je, že úlohu nelze definova jao Marovův rozhodovací problém s nedisonním neonečným horizonem ( γ = 1), ale je nuno uvažova disonní neonečný horizon ( γ < 1). Žádoucí je voli γ co nejblíže 1. Samoné AML je nesabilní, a proo exisuje pouze velmi malá pravděpodobnos, že zejména v počáečních eapách učení bude i sofisiovaným prozoumáváním (ods. 5) dosaženo cílového savu. Nesabilia AML vyhroí onfli mezi idenifiací a řízením. To a zpomalí onvergenci opimálním cenám savů, že je disuabilní jejich použielnos pro řešení úloh ohoo ypu. Odhady opimálních cen savů budou po mnoho eap s malou pravděpodobnosí blízé opimálním cenám savů a z nich odvozené sraegie budou s malou pravděpodobnosí blízé opimální sraegii. Proo se jao vhodné jeví použií asynchronní ierace hodno v reálném čase. K zajišění onvergence je nuné, aby aždý sav byl navšíven neonečně mnohorá (ods. 4.1). Toho lze dosáhnou použiím opaovaných pousů organizovaných a, že aždý sav bude s pravděpodobnosí 1 počáečním savem pousu neonečně mnohorá v neonečné posloupnosi pousů (ods. 4.2). Bude-li navíc aždý z pousů probíha během aového časového inervalu nenulové omezené dély, že během něj dojde právě jednomu přechodu savu, bude organizace aového elemenárního pousu sále vyhovova podmínám onvergence a přiom bude na nejvyšší možnou míru omezen vliv auální sraegie na výběr savů zálohování. Bude edy na nejvyšší možnou míru polačen onfli mezi idenifiací a řízením (ods. 5). Fyziální sousavu vša nelze obecně nasavi do libovolného předepsaného savu, erý by odpovídal počáečnímu savu pousu. Proo je nuné chování sousavy simulova s použiím výpočového modelu. Proože není dispozici model Marovova rozhodovacího problému, je nuno voli meodu, erá je navíc adapivní (ods. 5). Zvoleno bylo Q-učení v reálném čase (ods. 5.3.2) jao efeivní reprezenan (přímé) adapivní asynchronní ierace hodno v reálném čase založené na pousu. Proces Q-učení byl rozdělen do dvou fází: 15

a) fáze předučení a b) fáze doučování. Fáze předučení předsavuje provádění elemenárních pousů, eré začínají se zvolenými dvoji- iu,, i S, u U( i) a eré realizují jediný přechod savu, aby bylo možno cemi sav-ace ( ) provés zálohu Q-hodnoy pro uo dvojici ( iu, ) podle (5.3.1-2). Funci následnía savu i při aci u posyuje výpočový model sousavy. Elemenární pousy jsou prováděny s počáečními dvojicemi ( iu, ), eré sysemaicy a opaovaně procházejí celou množinu přípusných dvojic sav-ace. Tím je zaručeno provádění aových pousů, eré splňují podmínu a) onvergence Q-učení (viz ods. 5.3.1). Splnění i podmíny b) onvergence Q-učení má za důslede o, že posloupnos Q-hodno generovaná ve fází předučení podle (5.3.1-2) onverguje s pravděpodobnosí 1 opimálním hodnoám Q a po provedení dosaečného poču eap fáze předučení může bý použio dosažených Q-hodno určení sraegie velmi blízé opimální sraegii. Tao sraegie není cilivá na malé chyby v aproximaci Q-hodno (Singh a Yee [57]) a lze proo použí přibližného výpočového modelu sousavy. Během fáze doučování je ao zísaná sraegie evenuálně dále zpřesňována, přizpůsobována suečným provozním podmínám sousavy ad. Jao počáečních Q-hodno je použio Q-hodno dosažených ve fázi předučení. Učení probíhá onvenčním způsobem, j. provádí se zálohování paralelně s řízením podle (5.3.2-1). Zde již funci následnía savu s při použií ace u S může posyova řízená sousava. Ace jsou sanovovány s využiím sochasicé sraegie (viz ods. 7.3), erá umožňuje prozoumávání. Paramery éo sraegie jsou ale nasaveny a, aby pravděpodobnos prozoumávání byla nízá. 7 IMPLEMENTAČNÍ PŘÍSTUPY 7.1 VÝPOČTOVÝ MODEL AKTIVNÍHO MAGNETICKÉHO LOŽISKA Simulace byly prováděny s jednoduchým výpočovým modelem AML s jedním supněm volnosi (výchylou v rovině olmé na osu sroje), erý sesavil Půs [51]. Modelována byla časo publiovaná variana sousavy se sruurou podle obr. 7.1-1 (např. Laier a Marer [39]). u + I R,L I +i x, F e R,L F m - I -i d Obr. 7.1-1 Sruura AML Za předpoladu, že: symericý uhý roor je nahrazen hmoným bodem, je zanedbána vazba mezi vodorovným a svislým miáním, je zanedbán vliv íže a nelineariy jsou uvažovány pouze u eleromagneicého subsysému, lze psá 16

( ) ( ) ( ) ( ) mx && + bx& + Fm x, i = Fe Ri() + Li& () = u (), x( ) = x, i( ) = i, x& ( ) = x& pro, (7.1-1) de m a x ( ) jsou hmonos a výchyla hmoného bodu nahrazujícího roor od geomericé osy ložisa, i( ) je odchyla proudu eleromagneu ložisa od onsanní sejnosměrné složy I, R a L jsou odpor a indučnos napájecích obvodů a eleromagneu ložisa, Fe () je záěžná síla vázaná na nevyváženos rooru (porucha v mechanicé čási ložisa, homogeniy maeriálu, lasicá/roující nevyváženos) a onečně u( ) je budicí napěí magneu ložisa. Koeficien b visózního lumení zavádí do modelu vliv oolního prosředí. Fm ( x, i ) je síla, erou magneicé ložiso působí na roor. Hodnoy veličin jsou echnologicy omezené, onréně musí bý Pro F (, ) m x x, i( ) i, u( ) u. (7.1-2) max max max x I se poládá za vyhovující aproximace m 3 2 2 3 (,; ) = + + F x i c c x c i c x c ix c i x c i, c1, K, c 6 >. (7.1-3) 1 2 3 4 5 6 Hodnoy paramerů modelu podle (7.1-1) až (7.1-3) byly rovněž převzay z prací Půsa [51] a Kozána a ol. [35]. Jsou uvedeny v ab. 7.1-1. R = 2 [ Ω] L = 3 5 1 [H] m = 5.65 [g] b = -1 2 [g s ] c c c c c c 1 2 3 4 5 6 3-2 1289 1 [gs ] = = -2-1 454 [gms A ] 9-2 -2 3184 1 [gm s ] = 6-1 -2-1 841 1 [gm s A ] = 3-2 -2 38 1 [gs A ] = = -2-3 3 [gms A ] x i u max max max = 5 1 [m] = 2 [A] = 1 [V] Tab. 7.1-1 Hodnoy paramerů výpočového modelu AML Savy sousavy byly pro pořeby Q-učení vořeny hodnoami vybraných veličin sousavy pozorovanými v disréních časech. Pro posouzení možnosí navržené organizace Q-učení byly savy onsruovány ve dvou varianách: y = x, x&, && x, dále sručněji označovaný jao 3-D sav a a) řídimenzionální sav ( ) b) dvoudimenzionální sav y = ( x, x) 7.2 IMPLEMENTACE Q-FUNKCE & označovaný jao 2-D sav. Nezávisle proměnné Q-funce jsou vořeny dvojicemi sav-ace ( iu, ) z disréních onečných množin S a ( ) U i. Sav sousavy y Y vša předsavuje uspořádaná dimy -ice jisých (spojiých) veličin sousavy = ( y y ) y 1, K, dimy. Každé z veličin použiých při onsruci savu AML je proo řeba urči uzlové body rasru, eré pa vymezují podmnožiny savů sousavy (disréní savy Marovova rozhodovacího problému). Pro řídicí veličiny, eré jsou disréní, je vhodné 17

použí analogicy jejich přípusné hodnoy jao uzlové body rasrů ěcho veličin. Rasry všech veličin (ja savu AML, a řídicích veličin) definují mřížu abuly. g { } v g v w w= 1 Nechť ( ) označuje vzesupně uspořádanou posloupnos uzlových bodů rasru v -é veličiny savu AML, v= 1, K, dim Y, de g v znamená poče uzlových bodů příslušného rasru, erý musí bý lichý a gv 3. Buňou savů sousavy nazveme množinu D dimy = D K I, w() 1, w( 2, ), w( dimy) vwv, ( ) v= 1 { ;,, 1, } D = y y Y g y < g w = K g předsavuje savy sousavy vyhovující de ( ) ( ) vw, v w v v w+ 1 v omezení w -ým inervalem rasru v -é veličiny. y 2 Sousední buňy pro D 3,2 ( g 2 ) g2 D 2,4 ( g 2 ) 2 ( g 2 ) 1 ( g 1 ) 1 D 1,2 ( ) g 1 2 ( g 1 ) g1 y 1 Obr. 7.2-1 Rasr a buňy savů sousavy pro dimy = 2 O buňách D () ( ) K ( ) a D () ( ) K ( ) řeneme, že jsou sousední, právě dyž jsou w1 1 w1 2 w1 dimy 1 2 1 v různé a w ( v) w ( v) w2 1, w2 2,, w2 dimy, = 1, K, dim Y (viz obr. 7.2-1). Bylo použio symericých rasrů s uzlovými body definovanými pomocí oeficienů nelineariy rasrů r v. Nechť w ( v) ( g v ) = +, ( h ) 2 1 v w ( ) ( v) w w v = w, w= 1, K, gv, v= 1, K, dim Y, pa 1 ( ) ( ) ( ) ( h ) 1 v w v w v max v w v g = y h b, b v ( ) = r (7.2-1) w ( ) ( ) v 1 w v 1 1 v pro < r v 1. Mřížu pa lze charaerizova zápisem ( g1 r1,, gdim X rdimy ; gdimy+ 1 rdimy+ 1,, gdimy+ dim A rdimy+ dim A) K K. Pro lineární rasr v -é veličiny je dále použio míso symbolu 1 v g jednoduššího symbolu v g. Např. lineární rasr 2-D savu s 11 uzlovými body rasru výchyly rooru AML x, 7 uzlovými 18

body radiální rychlosi rooru x& a 3 možnými hodnoami jediné řídicí veličiny sejně od sebe vzdálenými je charaerizován zápisem ( 11, 7; 3 ). 7.3 IMPLEMENTACE PROZKOUMÁVÁNÍ K implemenaci prozoumávání bylo použio meody výběru ací používající Bolzmanova rozložení (Wains [68], Lin [42] a Suon [6]). Meoda přiřazuje v auálním savu aždé přípusné aci pravděpodobnos jejího provedení ( ) Qs, u/ T ( ) =, ( ) P u e ( ) v U s e ( ) Qs, u/ T u U s, (7.3-1) de T > je paramer, erý řídí, ja významně se yo pravděpodobnosi podílejí na výběru ace µ ( s) (viz ods. 5.1). Je-li T vysoé, je preferováno prozoumávání, s lesajícím T je náhodný µ s. Hodnoa parameru T se posupně snižuje podle výběr ace polačován a realizuje se ace ( ) ( ) T + 1 = Tmin + β T Tmin, (7.3-2) de je eapa zálohování a T = Tmax. Jao posloupnosi paramerů učení α ( iu, ) (ods. 5.3.2), erá vyhovuje podmínám onvergence Q-učení [68, 69], bylo použio posloupnosi podle Darena a Moodyho [24]) α n α ( iu, ) = n + n i u (, ), (7.3-3) de n ( i, u ) je poče záloh provedených na Q-hodnoě (, ) n je paramer určený řízení rychlosi snižování ( iu, ) iu do eapy, α je počáeční paramer učení a 8 SIMULAČNÍ PŘÍSTUPY α. V dále popisovaných simulacích je pous chápán poněud šířeji, než ja je vymezen v ods. 4.2. Předsavuje simulaci procesu řízení, erý rvá a dlouho, doud není a) dosaženo savu sousavy, ve erém je splněna podmína x = xmax ; pa hovoříme o neúspěšném pousu, nebo b) není vyčerpána maximální déla pousu N, edy předepsaný poče řídicích rozhodnuí (odvození ací řídicím členem), a pa hovoříme o úspěšném pousu. Délou pousu je označen poče řídicích rozhodnuí provedených během pousu a úspěšnos pousu je déla pousu vzažená na maximální délu pousu. Pous může nebo nemusí bý oddělen od Q-učení. Je-li pous od Q-učení oddělen, pa a) se nezálohují během něj prvy abuly Q-funce a b) řídicí rozhodnuí jsou realizována pouze podle (2.1-2), edy bez provádění prozoumávání. Pousů oddělených od Q-učení bylo použio esování dosaženého chování řídicího členu např. během fáze předučení. V éo fázi bylo sřídavě prováděno vždy něoli průchodů abulou Q-funce a poé něoli desíe pousů. Není-li pous oddělen od Q-učení, pa a) se zálohují během něj prvy abuly Q-funce a 19

b) řídicí rozhodnuí jsou realizována s prozoumáváním podle (7.3-1 a 7.3-2). Tao byly prováděny pousy ve fázi doučování. Proože opimální sraegie µ může bý dosaženo daleo dříve, než je splněno onvergenční riérium procesu Q-učení, nebyla při vyhodnocování simulací ve fázi předučení posuzována rychlos onvergence opimální Q-funci, ale rychlos předučení. Průměrná déla pousu a proceno úspěšných pousů byly sanovovány vždy ze 1 pousů, eré se lišily pouze v počáečním savu AML a průběhu záěžné síly Fe (). Déla předučení, erou se rozumí. maximální povolený poče průchodů abulou Q-funce, byla omezena na 1 průchodů. Počáeční savy AML byly voleny náhodně z aových savů sousavy, pro eré AML neusuečnilo během 1 1 [] s použiím libovolné ace z množiny { umax,, umax} přechod do savu s x = xmax. Tao byly hrubě odhadnuy řidielné savy sousavy. Záěžná síla Fe () byla modelována schodoviou funcí s náhodnou veliosí onsanních čásí z inervalu 2, 2 [N]. Aby byla zajišěna srovnaelnos esů, byly pro zmíněných 1 pousů vygenerovány jedna náhodné počáeční podmíny, jedna pro aždý pous 3 náhodných veliosí onsanních čásí záěžné síly (průběhů záěžné síly s 3 možnými změnami její veliosi) a uloženy do souboru označeného daa A. Pro podrobnější esování byl připraven i rozsáhlejší soubor označený daa B, do erého byly opě pro 1 pousů uloženy jedna náhodné 3 počáeční podmíny, jedna pro aždý pous 1 1 náhodných veliosí onsanních čásí 3 záěžné síly (průběhů záěžné síly s 1 1 možnými změnami její veliosi). Da A bylo použio pro vešeré esy, j. pro: a) sanovování průměrných déle pousu během fáze předučení, b) zjišění odolnosi dosažených sraegií vůči chybám pozorování veličin sousavy, c) zjišění odolnosi dosažených sraegií vůči zpoždění ačního zásahu a d) porovnávání chování AML řízeného dosaženou sraegií s chováním AML řízeného referenčním PID reguláorem. Da B bylo použio pouze pro podrobnější porovnání dosažených sraegií se sraegií referenčního PID reguláoru podle bodu d). Při změnách veliosi záěžné síly Fe () v daech A i B bylo generování hodno organizováno a, že po sobě mohlo následova nejvýše 1 nulových změn veliosí Fe () a změny veliosi Fe () byly posupně používány pro sanovení suečné veliosi záěžné síly, a o v oamžiu zahájení přechodu savu. Při délce rvání přechodu savu τ p se a náhodná déla onsanní čási záěžné síly mohla pohybova v inervalu τ,1 τ [s]. S výjimou fáze předučení, ve eré bylo použio jiných déle doby rvání přechodu (viz ods. 8.1), byla déla doby rvání přechodu pevná 1 1 [] s, j. déla onsanních čásí záěžné síly se pohybovala v inervalu 3 3 1 1, 1 1 [s] při celové době řízení 3 1 [] s pro daa A, a 1s [ ] pro daa B. Poznamenejme, že při použié organizaci simulací není dosažielná průměrná úspěšnos pousů 1 %. Je o dáno poměrně hrubým odhadem množiny řidielných savů, jejíž prvy byly používány jao počáeční savy jednolivých pousů. Na druhé sraně eno odhad umožňuje lépe porovna úspěšnos zísané sraegie se sraegií referenčního PID reguláoru. 8.1 STANDARDNÍ PODMÍNKY SIMULACÍ Poud není v exu uvedeno jina, byly v jednolivých sadách simulací brány jao výchozí sandardní podmíny simulace podle ab. 8.1-1, vůči erým byla měněna ypicy hodnoa jednoho parameru. 2

Množina řídicích ací { u,, u } max Déla rvání přechodu savu 5 3 1 1,1 1 [ s] Oamžié posílení prosá omezená poua Paramery předučení α =.2, n = 3, viz (7.3-3) γ =.999 viz (5.3.1-2), (5.3.2-1) Paramery doučování α =.1, n = 1, viz (7.3-3) Průchod abulou Záěžná síla max γ =.999, viz (5.3.1-2), (5.3.2-1) T = 5, T = 75, viz (7.3-2) min max β =.999 Sevenční dopředný náhodná schodoviá, F = 2 N ( ) [ ] e max Tab. 8.1-1 Sandardní podmíny simulací 9 FÁZE PŘEDUČENÍ S LINEÁRNÍMI MŘÍŽKAMI Q-FUNKCE 9.1 PRŮBĚH PŘEDUČENÍ Proces předučení za použií pevné doby rvání přechodu τ p (ods. 7.2) nevyazuje během prvních 1 průchodů abulou znay onvergence. Přiom nezáleží ani na délce doby rvání přechodu, ani na volbě mřížy abuly. Konvergenního procesu nebylo dosaženo ani při simulacích s řádově vyšším počem průchodů abulou. Podrobnějšími simulacemi bylo zjišěno, že proces předučení vyazuje ím rychlejší zlepšování průměrné úspěšnosi pousů, čím vyšší poče přechodů do sousedních buně savů AML je usuečněn během jednoho průchodu abulou. Klesne-li poče přechodů do sousedních buně pod přibližně 4 %, přesane proces předučení vyazova znay onvergence. Pro zvýšení poču přechodů do sousedních buně savů bylo proo použio proměnné (adapivní) dély doby rvání přechodu τ p, erá byla inicializována jao vhodně malá a byla prodlužována a dlouho, doud sousava nedosáhla savu, erý paří do sousední buňy. Adapivní dobou rvání přechodu savu již může bý zísán onvergenní proces předučení. Rychlos předučení ovlivňuje především horní hranice inervalu možného rvání doby přechodu τ p : čím je hranice vyšší, ím je i rychlos předu- 3 čení vyšší. Tao hranice vša nebyla prodlužována za 1 1 [s], aby doba výpoču zůsala v přijaelných mezích. Jao rozumný ompromis mezi délou doby výpoču a rychlosí předučení se 5 3 jeví inerval 1 1,1 1 [ s], erého bylo použio ve všech dalších simulacích. Pro lineární mřížy 3-D i 2-D savu s nejméně 12 buňami savů sousavy, j. pro mřížu ( 13,11; 3 ) a pro všechny mřížy 3-D savu, dosahuje proces předučení již po 8 průchodech abulou nejméně 94% průměrné úspěšnosi pousů (s výjimou občasných fluuací), přičemž při použiých podmínách simulací bylo dosaženo nejvýše 98% průměrné úspěšnosi pousů. Dále je možno usuzova, že čím nižší je horní hranice inervalu, ím více závisí rychlos předučení na volbě mřížy abuly. Použielnos sraegie zísané ve fázi předučení byla dále ověřována simulacemi, během erých byla esována jedna odolnos sraegie vůči chybám pozorování veličin sousavy, jedna vůči zpoždění ačního zásahu. 21