Varianty Monte Carlo Tree Search



Podobné dokumenty
Osadníci z Katanu. a Monte Carlo Tree Search. David Pěgřímek. MFF UK (2013) 1 / 24

Monte Carlo Tree Search. Marika Ivanová

Hry a UI historie. von Neumann, 1944 algoritmy perfektní hry Zuse, Wiener, Shannon, přibližné vyhodnocování

Algoritmy pro práci s neúplnou informací

Teorie her a ekonomické rozhodování. 4. Hry v rozvinutém tvaru

Algoritmy pro hraní tahových her

Obsah: Hry Prohledávání stavového prostoru. Algoritmus Minimax. Nedeterministické hry Hry s nepřesnými znalostmi

Složitost her. Herní algoritmy. Otakar Trunda

Hry a UI historie. agent musí brát v úvahu akce jiných agentů jak ovlivní jeho. vliv ostatních agentů prvek náhody. Hry: Obsah:

Pavel Veselý Proof-number search, Lambda search a jejich vylepšení

Úvod do teorie her

Hraní her. (Teorie a algoritmy hraní her) Řešení úloh hraní her. Václav Matoušek /

Obsah: Hry vs. Prohledávání stavového prostoru Algoritmus Minimax. Nedeterministické hry Hry s nepřesnými znalostmi. 72 studentů

Obsah: Hry vs. Prohledávání stavového prostoru Algoritmus Minimax. Nedeterministické hry Hry s nepřesnými znalostmi

Základy umělé inteligence

KAJOT MULTI GAME V.CZ-300 HERNÍ PLÁN A POPIS HRY

Obsah: Hry vs. Prohledávání stavového prostoru Algoritmus Minimax. Nedeterministické hry Hry s nepřesnými znalostmi

2. Řešení úloh hraní her Hraní her (Teorie a algoritmy hraní her)

Obsah: Hry vs. Prohledávání stavového prostoru Algoritmus Minimax. Nedeterministické hry Hry s nepřesnými znalostmi

Hry a UI historie. Obsah: Hry vs. Prohledávání stavového prostoru Algoritmus Minimax. Nedeterministické hry Hry s nepřesnými znalostmi

Hry a UI historie. Obsah: Hry vs. Prohledávání stavového prostoru Algoritmus Minimax. Nedeterministické hry Hry s nepřesnými znalostmi

HRY A UI HISTORIE. Hry vs. Prohledávání stavového prostoru. Obsah:

TEORIE HER

Obsah: Hry vs. Prohledávání stavového prostoru Algoritmus Minimax. Nedeterministické hry Hry s nepřesnými znalostmi

Stručný úvod do teorie her. Michal Bulant

BAKALÁŘSKÁ PRÁCE. MCTS pro hru Metro

S U P E R G A M E S HERNÍ PLÁN

Počítačové šachy. Otakar Trunda

Algoritmus Minimax. Tomáš Kühr. Projektový seminář 1

Obsah: Hry vs. Prohledávání stavového prostoru Algoritmus Minimax. Nedeterministické hry Hry s nepřesnými znalostmi

Analýza problému k vytvoření programu Dáma

TGH13 - Teorie her I.

Dokumentace programu piskvorek

Kajot Casino Ltd. Popis hry Joker 27

Gymnázium, Praha 6, Arabská 14. předmět Programování, vyučující Tomáš Obdržálek. Počítačová hra Fotbalový Manažer. ročníkový projekt.

Teorie her a ekonomické rozhodování. 7. Hry s neúplnou informací

Pravidla vybraných deskových her pro potřeby předmětů Projektový seminář 1 a 2 v roce 2011/2012. Tomáš Kühr

Univerzita Karlova v Praze. Matematicko-fyzikální fakulta. Jakub Tomek. Aplikace MCTS na hru Quoridor. Studijní program: informatika

Základy umělé inteligence

Anotace. Středník II!! programování her.

Teorie her a ekonomické rozhodování. 2. Maticové hry

Emotion Technická charakteristika

Seminář z umělé inteligence. Otakar Trunda

HERNÍ PLÁN A POPIS HRY

! Kyberne(ka!a!umělá!inteligence! 8.!Hraní!dvouhráčových!her,!adversariální! prohledávání!stavového!prostoru!!!!

A4B33ZUI Základy umělé inteligence

Uvažujeme jen hry s nulovým součtem, tj. zisk jednoho. Střídá se náš tah, kde maximalizujeme svůj zisk, s tahem

MAGIC FOX MULTIGAME V.2.3 CZ(750)

Metody návrhu algoritmů, příklady. IB111 Programování a algoritmizace

INTERACTIVE GAMES 750 CZK

TEORIE HER Meta hry PŘEDNÁŠKA. OPTIMALIZACE A ROZHODOVÁNÍ V DOPRAVĚ část druhá Přednáška 4. Zuzana Bělinová

KAJOT MULTI GAME V.CZ-kat.3 HERNÍ PLÁN A POPIS HRY

PRAVIDLA HRY S VÝKLADEM...

Martin Milata, Pokud je alespoň jeden rozměr čokolády sudý (s výjimkou tabulky velikosti 1x2, která už je od

starodávná asijská hra

Pravidla šachu FIDE platná od

Šachy, vrhcáby (backgammon) & dáma

strategická desková hra pro dva hráče

Kajot Casino Ltd. Popis hry Halloween King

ŠACHOVÉ ENGINY. Semestrální práce pro předmět 4IZ430 Principy inteligentních systémů

HERNÍ PLÁN SÁZKOVÉ HRY

Prohledávání do šířky a do hloubky. Jan Hnilica Počítačové modelování 15

CAS. Czech Association of Shogi

Výherní video automat. Návratnost hráči: 96.56%

e erz vaná v aco rozpr

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Geneticky vyvíjené strategie Egyptská hra SENET

PRAVIDLA: ÚROVEŇ 4 BALÍČEK VS BALÍČEK

Manuál k programu. Cílem tohoto manuálu je ukázat nejenom novým uživatelům možnosti a doporučené způsoby jak optimálně využívat losovací program.

Legendary Inventors. Komponenty. 20 karet vynálezců a 33 startovních žetonů znalostí:

Teorie her a ekonomické rozhodování. 3. Dvoumaticové hry (Bimaticové hry)

Vyplácení: a) Přes Hopper v mincích 10,-- Kč. b) pomocí klíčového spínače a tlačítka VÝPLATA (Handpay - funkce)

HERNÍ PLÁN: KAJOT ONLINE HRY

STRATEGICKÁ HRA MAGNETIC CHALLENGE

Abstrakt. V příspěvku se budeme zabývat kombinatorickými hrami s úplnou informací

Řešení problémů pomocí MCTS

B) EX = 0,5, C) EX = 1, F) nemáme dostatek informací.

PLAY IT AGAIN: POPIS HRY Strana 1 z 10 PLAY IT AGAIN : POPIS HRY. Pohled na obrazovku při sázce 2

Hry na Grafech Games on Graphs

Pravděpodobnost a statistika (BI-PST) Cvičení č. 1

ODDVILLE hra pro 2 4 hráče od 10 let

Hry v rozvinutém tvaru a opakované hry. Hry v rozvinutém tvaru

Japonská pravidla hry go

NADANÝ ŽÁK A JEHO MOŽNOSTI ROZVOJE VE VOLNÉM ČASE

Definice. B-stromu. B-strom řádu m je strom, kde každý uzel má maximálně m následníků a ve kterém platí:

Šachové algoritmy využívající hluboké neuronové sítě

UPPAAL příklady. Jiří Vyskočil 2010

HERNÍ PLÁN SÁZKOVÉ HRY

KIN-BALL ORGANIZACE TURNAJE

Povídání k sedmé sérii

Rating Elo. Obsah. Výpočet. Průběžná metoda

JAK HRÁT Petr Vojtěch Jindřich Pavlásek

Úvod do mobilní robotiky AIL028

Kunovice B Staré Město H

Pravděpodobně skoro správné. PAC učení 1

27-SEP-10. Black Cyan Magenta Yellow. CÍL HRY Jako první vytlačit šest. v tazích - své kuličky lze posunout. pole.

Hráči se střídají na tazích po směru hodinových ručiček. Hráč, který je na tahu, má tři možnosti:

Cíl hry. Herní komponenty. Spielablauf. Hra od Donalda X. Vaccariniho pro 2 4 hráče od 8 let

Umělá inteligence I. Roman Barták, KTIML.

Transkript:

Varianty Monte Carlo Tree Search tomas.kuca@matfyz.cz Herní algoritmy MFF UK Praha 2011

Témata O čem bude přednáška? Monte Carlo Tree Search od her podobných Go (bez Go) k vzdálenějším rozdíly a rozšíření MTCS

Připomenutí MCTS Postupné budování herního stromu Algoritmus opakuje čtyři fáze: Selekce vybere list z herního stromu (nejdříve nenavštívené) Multi-armed bandit problem typicky UCT algoritmus: U i = v i + c Expanze - přidá nový uzel ln N n i Simulace - odhad pravděpodobnosti výhry (bodového zisku) v daném uzlu na základě mnoha simulací Backpropagation - informace o hodnotě uzlu je propagována stromem na cestě ke kořeni

Výhody MTCS nepotřebuje nutně evaluační funkci lze přidávat doménově specifické heuristiky

Nevýhody MTCS má problémy s pozicemi, kde je jen jeden správný tah, tzv. killer move často nedokáže odhalit vyhrané (nebo prohrané pozice), obzvlášť ve hrách s náhlou smrtí (šachy, hex, lines of action) αβ-prohledávání nebo proof number search dávají v takových situacích lepší výsledky řeší tzv. MCTS solver

Lines of action hra dvou hráčů s perfektní informací, nulovým součtem hrací deska o velikosti 8 8 (obecně n n) počáteční pozice viz obr. hráči se střídají v tazích cílem hry je uspořádat kameny tak, aby se všechny kameny hráče dotýkaly (stačí diagonálně)

Tah v Lines of action během svého tahu hráč pohne jedním kamenem horizontálně, vertiáklně nebo diagonálně kámen se pohne o tolik pozic, kolik je v daném řádku/sloupci/diagonále kamenů nesmí přeskočit soupeřův kámen pokud skončí přeesně na pozici soupeřova kamene, zakryje ho (soupeřův kámen je ze hry odstraněn) pokud hráč nemůže hrát, passuje pokud se třikrát opakuje pozice remíza pokud spojení do jedné komponenty nastane současně remíza

MTCS pro Lines of action při selekci používá progressive bias U i = v i + c ln N n i + W Pc n i +1 W je konstanta (použitá hodnota 100) P c je pravděpodobnost tahu dané kategorie, získaná na základě předchozích her kategorie jsou určené dle typu tahu (zajetí, blokování) a dle počáteční a koncové pozice kamene (hrací deska se rozdělí na několik částí - střed, rohy, okraje) při simulaci nejsou tahy náhodně, ale též s pravděpodobností dle kategorií pokud evaluační funkce přesáhne určitou hranici, považuje se hra za vítěství (podobně prohra) při backpropagation se propagují hodnoty 1, 0, 1

Náhlá smrt tato varianta má stále problém s náhlou smrtí nalezení výherního tahu trvá dlouho

Náhlá smrt tato varianta má stále problém s náhlou smrtí nalezení výherního tahu trvá dlouho Backpropagation propagují se hodnoty {, 0, } propagace podobně jako v MINIMAX pokud je na tahu hráč a propaguji : propaguje, pokud mají všichni sourozenci propaguje 1 jinak obdobně pro výherní pozice jak to ovlivní selekci?

Volba tahu hodnota uzlu se může rychle měnit, proto nelze vzít uzel s nejlepší hodnotou pokud je nalezena vítězná strategie, hraje se ta, jinak v + A n, kde v je hodnota uzlu A je konstanta (např. 1) n je počet návštěv uzlu

Výsledky MTCS-solver porazí MTCS v 65 MTCS-solver porazí starší verze MIA 2000, 2002 (pravděpodobně nejlepší program, založený na αβ prohledávání) (získá cca 60% bodů) nejnovější verze MIA 2006 výrazně porazí i MTCS-solver (11%)

Hex hra dvou hráčů s perfektní informací, nulovým součtem hrací deska o velikosti 11 11 (obecně n n) hráči v každém tahu přidají jeden kámen své barvy hráči se střídají v tazích cílem hry spojit protilehlé strany desky (každý hráč má své dvě strany)

Mrtvé oblasti mrtvé buňky - nejsou zajímavé ani pro jednoho hráče zajaté území - pro jednoho z hráčů nemá smysl tam hrát

Promazávání polí některé tahy nemusím brát v úvahu, protože jsou dominovány jinými tahy

H-search algoritmus pro nalezení strategie pro spojení dvou buněk neúplný, občas přehlíží i pro člověka triviální tahy ale pokud existuje řešení, často ho najde

MTCS standartní MTCS nejsilnější pokud používá AMAF heuristiku, bez prohledávání (exploration) simulace náhodné (permutace prázdných polí) pouze bridge pattern, ostatní nepřidávají zlepšení při určitém počtu navštívení uzlu z něho spustí H-search prořezání stromu

Hex - prořezání

Hex - výsledky MTCS + brdige pattern vs MTCS 65% win rate MTCS + AMAF vs MTCS 74% win rate MTCS vs Wolve (nejlepší známý program) 49% win rate

Kriegspiel šachy, kdy neznám pozici soupeřových figur jen koncovka King + Rook vs King má prohledávací prostor jako dáma rozdíly oproti Phantom Go dynamické získaná informace rychle zastarává hra nemá omezený počet tahů podmínky pro vítězství standartní MTCS selhává místo simulace protivníka simulovat jen kategorie tahů omezit počet tahů při simulaci

Další hry Scrabble, Poker, Game of Scotland Yard, Bridge, generický hráč, evropské hry časem možná i RTS