Úvod do teorie her 2. Garanční řešení, hry s nulovým součtem a smíšené strategie Tomáš Kroupa http://staff.utia.cas.cz/kroupa/ 2017 ÚTIA AV ČR
Program 1. Zavedeme řešení, které zabezpečuje minimální výplatu dosažitelnou jednotlivými hráči. 2. Budeme studovat důležitou třídu her 2 hráčů s nulovým součtem. 3. Ukážeme si vztah garančního a Nashova rovnovážného řešení. 4. Smíšené strategie, Nashova věta a hledání rovnovážného řešení. 1
Příklad - hra s nerobustní rovnováhou Bob d e a 2, 1 2, 20 Alice b 3, 0 10, 1 c 100, 2 3, 3 Rovnovážný bod je (c, e). Pokud Alice nevěří, že Bob bude vybírat svou strategii v souladu s Nashovým ekvilibriem, může váhat, zda výběr c je racionální: pokud by Bob zvolil strategii d, utrpěla by totiž ztrátu 100. Alice tak bude preferovat strategii a, která zaručuje výplatu 2. Bob, je-li si vědom váhání Alice, zvoĺı raději strategii d. V čem je profil strategíı (a, d) význačný? 2
Maximin a minimax ve strategické hře G Předpokládejme, že všechna max a min ve výrazech existují. Pokud hráč i hraje podle strategie s i, jeho minimální výplata je Λ i (s i ) := min u i (s i, s i ). s i S i Nehledě na volby strategíı všech ostatních hráčů si tak může vždy zajistit výplatu alespoň v i := max s i S i Λ i (s i ). Voĺı-li ostatní hráči strategii s i S i, maximální výplata hráče i je Λ i (s i ) := max s i S i u i (s i, s i ). Nehledě na volbu strategie hráče i tak mohou ostatní hráči ze shora omezit výplatu hráče i hodnotou v i := min Λ i (s i ). s i S i 3
Garanční řešení Pozorování Pro každou strategickou hru G platí v i v i. Definice Strategie s i S i hráče i se nazývá garanční (maximinová), pokud platí u i (s i, s i ) v i pro všechna s i S i. d e a 2, 1 2, 20 b 3, 0 10, 1 c 100, 2 3, 3 v 1 = 2, v 1 = 3, v 2 = 0, v 2 = 1 Jediné garanční řešení je (a, d). 4
Garanční a Nashovo rovnovážné řešení Pozorování Necht G je strategická hra. Má-li každý hráč i strategii s i takovou, že u i (s i, s i ) u i (t i, s i ), t i S i, s i S i, pak je profil strategíı (s i ) i N garanční a rovnovážné řešení hry G. Tvrzení Necht s rovnovážné řešení hry G. Pak u i (s ) v i pro každé i N. Obecně není mezi garančním a rovnovážným řešením žádný vztah. Ukazuje se však, že obě splývají pro hry s nulovým součtem. 5
Antagonistická situace Definice Hra 2 hráčů s nulovým součtem je strategická hra G = ({1, 2}, (S 1, S 2 ), (u 1, u 2 )), kde u 1 (s 1, s 2 ) + u 2 (s 1, s 2 ) = 0, pro každé (s 1, s 2 ) S = S 1 S 2. Ve hře 2 hráčů s nulovým součtem stačí uvažovat výplatní funkci u 1. Matching Pennies Matice znázorňuje hodnoty u 1 (s 1, s 2 ): 0 1 0 1 1 1 1 1 6
Cena hry G dvou hráčů s nulovým součtem Klademe Λ(s 1 ) := Λ 1 (s 1 ) = min s 2 S 2 u 1 (s 1, s 2 ), Λ(s 2 ) := Λ 1 (s 2 ) = max s 1 S 1 u 1 (s 1, s 2 ), v := v 1 = max s 1 S 1 Λ(s 1 ), a nazýváme v dolní cenou a v horní cenou hry G. v := v 1 = min s 2 S 2 Λ(s 2 ) Hráč 1 nemůže získat více než mu hráč 2 může vyplatit: v v Definice Ve hře G existuje cena pokud v = v. Definujeme v := v = v a dále: Strategie s 1 je optimální pro hráče 1, pokud Λ(s 1 ) = v. Strategie s 2 je optimální pro hráče 2, pokud Λ(s 2 ) = v. 7
Cena hry: příklady Příklad d e f a 3 5 2 b 1 4 1 c 6 3 5 Platí v = 1 = v. Dvojice optimálních strategíı je (b, f ). Matching Pennies 0 1 0 1 1 1 1 1 Platí v = 1 < 1 = v. Cena hry neexistuje. 8
Rovnovážné řešení pro hry s nulovým součtem Pozorování Necht G = ({1, 2}, (S 1, S 2 ), (u 1, u 2 )) je hra dvou hráčů s nulovým součtem a (s 1, s 2 ) S 1 S 2 je profil strategíı. Následující tvrzení jsou ekvivalentní: (s1, s 2 ) je rovnovážné řešení hry G. (s 1, s 2 ) je sedlovým bodem funkce u 1, tj. pro každé s 1 S 1 a s 2 S 2 platí u 1 (s 1, s 2 ) u 1 (s 1, s 2 ) u 1 (s 1, s 2 ). 9
Garanční a rovnovážné řešení pro hry s nulovým součtem Věta Necht G = ({1, 2}, (S 1, S 2 ), (u 1, u 2 )) je hra dvou hráčů s nulovým součtem a mějme (s 1, s 2 ) S. Má-li hra cenu v a jsou-li s1 a s 2 jsou optimální strategie, potom je (s1, s 2 ) rovnovážné řešení. Pokud je (s1, s 2 ) je rovnovážné řešení, pak má hra cenu v a obě strategie s1 a s 2 jsou optimální. Pokud je splněna libovolná z podmínek výše, platí navíc v = u 1 (s 1, s 2 ). Velmi jednoduché strategické hry s nulovým součtem však nemají rovnovážné řešení. Je třeba zobecnit pojem strategie. 10
Smíšené strategie Předpokládejme, že G = (N, (S i ) i N, (u i ) i N ) je strategická hra n hráčů s neprázdnými konečnými prostory strategíı Definice S i = {s 1 i,..., s m i i }, i N, m i N. Smíšená strategie hráče i je pravděpodobnostní funkce p i na S i. Platí-li p i (s i ) = 1 pro nějaké s i S i, říkáme, že p i je čistá strategie. Množina smíšených strategíı hráče i tvoří (m i 1)-rozměrný simplex i v R m i : i := { p i : S i [0, 1] p i (s 1 1 ) +... p i (s m i i ) = 1 }. Množina strategíı S i je ztotožněna s množinou extremálních bodů i prostřednictvím čistých strategíı (=standardní báze v R m i ). 11
Smíšené rozšíření Definice Necht G = (N, (S i ) i N, (u i ) i N ) je strategická hra s konečnými neprázdnými prostory strategíı a S := S 1 S n. Smíšené rozšíření hry G je strategická hra G = (N, ( i ) i N, (U i ) i N ), kde výplatní funkce hráče i je U i (p) := u i (s 1,..., s n ) p 1 (s 1 ) p n (s n ), (s 1,...,s n) S pro p = (p 1,..., p n ) := 1 n. Rovnovážné řešení hry G nazveme rovnovážným řešením hry G ve smíšených strategíıch. 12
Smíšené rozšíření - vlastnosti Jelikož jsou množiny S i konečné, všechny prostory smíšených strategíı i i jsou kompaktní konvexní množiny v nějakém Eukleidovském prostoru. Výplatní funkce U i je spojitá a multiafinní, tj. pro každé p i i a všechna α [0, 1], p i, q i S i, platí U i (αp i + (1 α)q i, p i ) = α U i (p i, p i ) + (1 α) U i (q i, p i ). Test rovnováhy pomocí čistých strategíı Necht p = (p i ) i N. Následující tvrzení jsou ekvivalentní: p je rovnovážné řešení hry G ve smíšených strategíıch. Pro každého hráče i a každou čistou strategii p i i platí U i (p ) U i (p i, p i ). 13
Existence řešení konečných strategických her Nashova věta (1951) Každá strategická hra s n hráči a konečnými prostory strategíı má rovnovážné řešení ve smíšených strategíıch. Důkaz je nekonstruktivní, využívá Brouwerovu větu o pevném bodě. Jako důsledek dostaneme základní větu pro maticové hry. von Neumannova věta o minimaxu (1928) Necht G je strategická hra 2 hráčů s nulovým součtem a konečnými prostory strategíı. Potom existuje cena pro smíšené rozšíření G hry G. 14
Hledání rovnovážného řešení poznámky Struktura rovnovážných řešení je komplikovaná (Datta; 2003): Každá reálná algebraická varieta je izomorfní s množinou úplně smíšených rovnovážných řešení hry s konečnými prostory strategíı. Složitost (Daskalakis, Goldberg, Papadimitriou; 2006): Úloha hledání rovnovážného řešení je PPAD-úplná. Klasické omezení: hra 2 hráčů s nulovým součtem. Není jasné, jak postupovat v případě nekonečných množin S i. Ukážeme si obecnou formulaci problému, důležité speciální případy i teoretické nástroje, které mohou hledání usnadnit. 15
Hledání rovnovážného řešení nekonvexní optimalizační úloha Uvažujme smíšené rozšíření G = (N, ( i ) i N, (U i ) i N ) strategické hry G. Optimalizační formulace hledání rovnovážného řešení Mějme úlohu s proměnnými p = (p 1,..., p n ) a π 1,..., π n : maximalizovat f (p, π 1,..., π n ) := i (p) π i ) i N(U za podmínek p i i, π i R, i N, U i (s i, p i ) π i, i N, s i S i. Potom je maximální hodnota funkce f rovna 0 a nabývá se právě na množině všech p a π 1,..., π n R, kde p je rovnovážné řešení hry G a π i = U i (p ), i N. 16
Princip indiference a jeho aplikace Nosič smíšené strategie p i i hráče i je S(p i ) := {s i S i p i (s i ) > 0}. Tvrzení Bud p rovnovážné řešení strategické hry ve smíšených strategíıch a i N. Platí-li s i, t i S(p i ), potom U i(s i, p i ) = U i(t i, p i ) = U i(p ). Pokud by platilo U i (s i, p i ) > U i(t i, p i ), racionálně jednající hráč by se snažil zvýšit pravděpodobnost pi (s i) na úkor pi (t i). Důsledek Profil strategíı p je rovnovážné řešení ve smíšených strategíıch právě tehdy, pokud platí S(pi ) arg max U i (s i, p i), i N. s i S i 17
Test nosičů pro 2 hráče Tvrzení Necht T i S i pro i = 1, 2 a mějme systém lineárních nerovnic U 1 (s, p 2 ) U 1 (t, p 2 ), s S 1, t T 1, U 2 (p 1, s) U 2 (p 1, t), s S 2, t T 2, p i i, p i (t) > 0, t T i, p i (t) = 0, t / T i, i = 1, 2. (1) Pokud je (p1, p 2 ) řešením (1), potom je i rovnovážným řešením s nosiči S(pi ) = T i, i = 1, 2. Nemá-li (1) řešení, neexistuje rovnovážné řešení s nosiči T 1 a T 2. 18
Algoritmus generování nosičů pro 2 hráče Díky Nashově větě je výstupem následujícího algoritmu vždy jedno rovnovážné řešení hry 2 hráčů: Algoritmus 1. Vygeneruj T 1 S 1 a T 2 S 2. 2. Rozhodni, zda má systém (1) řešení pro T 1 a T 2 : ano konec, výstupem je nalezené řešení (p 1, p 2 ). ne přejdi na 1. Algoritmus vyžaduje otestovat nejvýše 2 S1 + S2 párů nosičů. Lemkeův-Howsonův algoritmus (1964) pro 2 hráče je založen na vhodně zorganizovaném testování všech možných nosičů. 19
Dominování strategíı Definice Strategie s i S i hráče i je striktně dominována pokud existuje strategie t i S i taková, že u i (s i, s i ) < u i (t i, s i ), s i S i. Racionálně jednající hráč nikdy nezvoĺı striktně dominovanou strategii. Striktně dominované strategie lze eliminovat v libovolném pořadí: c d e a 1, 0 1, 2 0, 1 b 0, 3 0, 1 2, 0 c d a 1, 0 1, 2 b 0, 3 0, 1 c d a 1, 0 1, 2 d a 1, 2 Ukážeme si obecnější výsledek pro dominování na smíšených strategíıch. 20
Dominování a rovnovážné řešení Tvrzení Pokud je čistá strategie s i S i hráče i N striktně dominována nějakou smíšenou strategíı p i i, potom pro každé rovnovážné řešení p ve smíšených strategíıch platí p i (s i) = 0. d e f a 6, 2 0, 6 4, 4 b 2, 12 4, 3 2, 5 c 0, 6 10, 0 2, 2 d e f a 6, 2 0, 6 4, 4 c 0, 6 10, 0 2, 2 d e a 6, 2 0, 6 c 0, 6 10, 0 1. b S 1 je striktně dominována strategíı p 1 (a) = p 1 (c) = 1 2. 2. f S 2 je striktně dominována strategíı p 2 (d) = 5 12, p 2(e) = 7 12. 3. Nemá čisté ekvilibrium, pomocí principu indiference získáme p 1 (a) = 3 5, p 1 (c) = 2 5, p 2 (d) = 5 8, p 2 (e) = 3 8. 21
Hry dvou hráčů s nulovým součtem maticová formulace Podle věty o minimaxu existuje ve hře 2 hráčů (Alice a Bob) s nulovým součtem cena v = max min U 1 (p 1, s 2 ) = min max U 1 (s 1, p 2 ) s 2 S 2 p 2 2 s 1 S 1 p 1 1 a rovnovážné řešení (p 1, p 2 ) splňující min U 1 (p1, s 2 ) = v = max U 1 (s 1, p2 ). s 2 S 2 s 1 S 1 Značení pro zvolené očíslování strategíı z S 1 a S 2 A R m1 m2 je výplatní matice Alice x R m1 a y R m2 jsou smíšené strategie Alice a Boba (sloupcové) x T Ay je příslušná střední hodnota užitku Alice 22
Příklad ( ) 2 4 Výplatní matice pro Alici je A =, vektory smíšených strategíı pro 3 1 Alici a Boba jsou x = (x, 1 x) T a y = (y, 1 y) T. Užitek Alice ve smíšeném rozšíření hry je funkce [0, 1] 2 R, U(x, y) = x T Ay = 4xy + 3x + 2y + 1, x, y [0, 1]. 1 1 y 0 0 x 1 Sedlový bod je (x, y ) = ( 1 2, 3 4 ) a U(x, y ) = 5 2 = v. 23
Obecná formulace Pro smíšené rozšíření G = ({1, 2}, ( 1, 2 ), (U 1, U 2 )) hry G dvou hráčů s nulovým součtem se původní optimalizační úloha díky vztahu U 2 = U 1 zjednoduší na úlohu lineárního programování: Důsledek (Optimalizační formulace hledání rovnovážného řešení) Mějme úlohu s proměnnými p 1, p 2, π 1, π 2 : maximalizovat f (p 1, p 2, π 1, π 2 ) := π 1 π 2 za podmínek p 1 1, p 2 2, π 1, π 2 R, U 1 (p 1, s 2 ) π 2, s 2 S 2, U 1 (s 1, p 2 ) π 1, s 1 S 1. Potom je maximální hodnota funkce f rovna 0 a nabývá se právě na množině všech (p1, p 2, π 1, π 2 ), kde (p 1, p 2 ) je rovnovážné řešení hry G a π1 = π 2 = U 1(p1, p 2 ) je její cena. 24
Dvě úlohy lineárního programování Pro Alici (x 0, x 1,..., x m1 ) Pro Boba (y 0, x 1,..., y m2 ) maximalizovat x 0 za podmínek A T x 1x 0 0, m 1 i=1 x 0. x i = 1, minimalizovat y 0 za podmínek Ay 1y 0 0, m 2 i=1 y 0. y i = 1, Jde o dvojici duálních úloh lineárního programování. Označme optimální řešení (x 0, x ) a (y 0, y ). Díky dualitě platí x 0 = y 0 = v a (x, y ) je rovnovážné řešení. 25
Hry s nekonečným počtem strategíı problémy Uvažujme strategickou hru G = (N, (S i ) i N, (u i ) i N ), kde množiny strategíı S i mohou být nekonečné. Smíšenou strategii hráče i lze modelovat jako pravděpodobnostní míru P i na vhodně zvolené σ-algebře podmnožin množiny S i. Definujeme střední hodnotu výplaty hráče i jako Lebesgueův integrál U i (P 1,..., P n ) := u i d(p 1 P n ), P i i. S Přímočaré zobecnění Nashovy věty neexistuje. Mnoho her s nulovým součtem nemá řešení. Jeho existence závisí zejména na topologických předpokladech (kompaktnost S i a spojitost u i ). 26
Kdo vybere větší přirozené číslo? Wald (1945) ukázal, že ve hře 2 hráčů s nulovým součtem a nejvýše spočetnými prostory strategíı existuje cena ve smíšených strategíıch, jen pokud je alespoň jeden prostor strategíı konečný. Příklad Mějme hru dvou hráčů s nulovým součtem, S 1 = S 2 = N, u 1 (s 1, s 2 ) = sgn(s 1 s 2 ). Smíšená strategie p i i hráče i je pravděpodobnostní funkce p i : N [0, 1], tj. p i (k) = 1. k=1 Je snadné ukázat, že pro smíšené rozšíření této hry neexistuje cena: sup p 1 1 inf U 1 (p 1, p 2 ) = 1 < 1 = inf p 2 2 p 2 2 sup U 1 (p 1, p 2 ). p 1 1 27