8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

KYBERNETIKA A UMĚLÁ INTELIGENCE 8-9. Pravděpodobnostní rozhodování a predikce laboratory Gerstner Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Rozhodování za neurčitosti Dosud v UI přednáškách: vyhledávání co nejlepšího řešení problému za deterministických podmínek (bez neurčitosti). Důležitou schopností inteligentních systémů je ale také schopnost vybrat co nejlepší rozhodnutí za nejistých podmínek (s neurčitostí). Příklad: Jet z A do B tramvají, nebo metrem? Tramvaj: rychlejší cesta dle jízdního řádu, ale velmi nejisté dodržení. Metro: delší cesta, ale téměř jisté dodržení. Příklad: kam směřovat dopis s tímto PSČ? 15700? 15706? 15200? 15206? Jak se optimálně rozhodnout? Oba příklady lze formalizovat stejným rámcem.

Příklad [Kotek, Vysoký, Zdráhal: Kybernetika 1990] Paní Nováková se vrací z práce. Co uvaří pan Novák k večeři? Napadly ho 3 možnosti rozhodnutí (d - decision): nic... neudělat nic žádná práce, ale zhorší náladu pí. Novákové. pizza... ohřát mraženou pizzu není pracné, ale neohromí. n.h.... nadívaná holoubata udělá jí radost, ale velmi pracné. P. Novák číselně zhodnotí míru nepříjemnosti způsobenou jednotlivými rozhodnutími. Ta závisí na tom, s jakou náladou přijde pí. Nováková domů, což je neznámý stav. Rozlišme tyto možnosti: dobrá... pí. Nováková má dobrou náladu. průměrná... pí. Nováková má průměrnou náladu. špatná... pí. Nováková má špatnou náladu. Pro každou z 9 možných situací (3 možná rozhodnutí 3 možné stavy) je nepříjemnost dána ztrátovou funkcí l(d, s) (l - loss): l(d, s) d = nic d = pizza d = n.h. x = dobrá 0 2 4 x = průměrná 5 3 5 x = špatná 10 9 6

Příklad (pokračování) Neznámý stav - náladu pí. Novákové - zkusí p. Novák odhadnout experimentem: sděĺı jí, že ztratil její obĺıbený časopis a sleduje její reakci. Předpokládá 4 možné reakce: mírná... nic se neděje, časopis najdeme. podrážděná... proč nedáváš věci na své místo? nasupená... proč já si toho Nováka brala? hrozivá... rezignované mlčení Reakce je přímo pozorovatelný příznak (zde nálady). Ze zkušenosti p. Novák ví, jak jsou jednotlivé reakce pravděpodobné při dané náladě: to vystihuje podmíněné rozložení P (x s). P (x s) x = x = x = x = mírná podrážděná nasupená hrozivá s = dobrá 0.5 0.4 0.1 0 s = průměrná 0.2 0.5 0.2 0.1 s = špatná 0 0.2 0.5 0.3

Rozhodovací strategie Rozhodovací strategie: pravidlo pro výběr rozhodnutí na základě pozorovaného příznaku. Tj. funkce d = δ(x). Příklady možných strategíı p. Nováka: δ(x) x = mírná x = podrážděná x = nasupená x = hrozivá δ 1 (x) = nic nic pizza n.h. δ 2 (x) = nic pizza n.h. n.h. δ 3 (x) = n.h. n.h. n.h. n.h. δ 4 (x) = nic nic nic nic Celkem má k dispozici 3 4 = 81 možných strategíı (3 možná rozhodnutí pro každou ze 4 možných hodnot příznaku). Jak určit, která ze dvou strategíı je lepší? Obecně: jak strategie uspořádat dle kvality? Definujeme riziko strategie při stavu s: střední hodnota ztráty podmíněná stavem s. R(δ, s) = x l(δ(x), s)p (x s)

Kritérium MiniMax Příklad: riziko strategie δ 1 při stavu s = dobrá je R(δ 1, dobrá) = l(δ 1 (mírná), dobrá) P (mírná dobrá)+l(δ 1 (podrážděná), dobrá) P (podrážděná dobrá) +l(δ 1 (nasupená), dobrá) P (nasupená dobrá) + l(δ 1 (hrozivá), dobrá) P (hrozivá dobrá) = l(nic, dobrá) 0.5 + l(nic, dobrá) 0.4 + l(pizza, dobrá) 0.1 + l(n.h., dobrá) 0 = 0 0.5 + 0 0.4 + 2 0.1 + 4 0 = 0.2 Podobně: R(δ 1, průměrná) = 4.4 a R(δ 1, špatná) = 8.3 Maximální riziko strategie δ 1 (přes všechny možné stavy) je tedy 8.3. Podobně: maximální riziko strategie δ 3 je 6. MiniMaxové kritérium: ze dvou strategíı je lepší ta, jejíž maximální riziko je nižší. Tedy podle MiniMaxu je δ 3 lepší než δ 1. Nejlepší strategie δ je podle MiniMaxu ta, která minimalizuje maximální riziko: δ = arg min δ max s R(δ, s) Pro její nalezení bychom v aktuálním příkladě museli spočítat max. rizika všech 81 možných strategíı.

Bayesovské kritérium Co když p. Novák ví, že p. Nováková má obvykle dobrou náladu? Obecněji: ví, jak jsou její jednotlivé nálady pravděpodobné, tj. zná rozložení P (s). Např: x = dobrá s = průměrná s = špatná P (s) = 0.7 0.2 0.1 MiniMaxové kritérium tuto znalost nezohledňuje. Díky znalosti P (s) lze spočítat střední riziko dané strategie přes všechny možné stavy: r(δ) = s R(δ, s)p (s) Tedy např. r(δ 1 ) = 0.2 0.7 + 4.4 0.2 + 8.3 0.1 = 1.85 r(δ 3 ) = 4 0.7 + 5 0.2 + 6 0.1 = 4.4 Bayesovské kritérium: ze dvou strategíı je lepší ta s nižším středním rizikem. Z Bayesovského hlediska je tedy δ 1 lepší než δ 3. Opačně proti MiniMaxovému kritériu!

Bayesovsky optimální strategie Bayesovsky optimální strategie je ta, která minimalizuje střední riziko. Tj. δ = arg min δ r(δ) Protože P (x s)p (s) = P (s x)p (x) (Bayesovo pravidlo), platí r(δ) = R(δ, s)p (s) = l(δ(x), s)p (x s)p (s) s s x = l(δ(x), s)p (s x)p (x) = P (x) l(δ(x), s)p (s x) s x x s }{{} Podmíněné riziko Optimální strategii tedy můžeme dostat minimalizací podmíněného rizika zvlášt pro každé x: δ (x) = arg min d l(d, s)p (s x) s Tedy narozdíl od MiniMaxové optimální strategie nemusíme počítat riziko pro všechny možné strategie. Bayesovsky optimální strategii lze sestrojit bod po bodu nalezením optimálního rozhodnutí pro jednotlivá pozorování x.

Statistické rozhodování: shrnutí Zadány: Množina možných stavů: S Množina možných rozhodnutí: D Ztrátová funkce: zobrazení l : D S R (reálná čísla) Množina možných hodnot příznaku X Pravděpodobnostní rozložení příznaku za daného stavu P (x s), x X, s S. Definujeme: Strategie: zobrazení δ : X D Riziko strategie δ při stavu s S: R(δ, s) = x l(δ(x), s)p (x s) MiniMaxová úloha: Dále zadána: množina přípustných strategíı. Úloha: nalézt optimální strategii δ = arg min δ max s S R(δ, s) Bayesovská úloha: Dále zadáno: pravděpodobnostní rozložení stavů P (s), s S. Dále definujeme: střední riziko strategie δ: r(δ) = s R(δ, s)p (s) Úloha: nalézt optimální strategii δ = arg min δ r(δ) Řešení: δ (x) = arg min d s l(d, s)p (s x)

Příznakové rozpoznávání Systémy pro rozpoznávání. Příklad úlohy: Lze převést na úlohu statistického rozhodování O jakou jde číslici? Příznak = vektor hodnot pixelů. Příznakové rozpoznávání číslic: klasifikace do jedné ze tříd 0... 9 na základě vektoru hodnot pixelů. Speciální případ statistického rozhodování: Příznakový vektor x = (x 1, x 2,... ): hodnoty pixelů č. 1, 2,.... Množina stavů S = množina rozhodnutí D = {0, 1,... 9}. Stav = skutečná třída, Rozhodnutí = rozpoznaná třída. Ztrátová funkce: l(d, s) = Střední riziko = střední chyba klasifikace. { 0, d = s 1, d s

Bayesovská klasifikace Obvyklé kritérium: minimalizace střední chyby Bayesovská klasifikační úloha. Optimální klasifikace při příznaku x: δ ( x) = arg min l(d, s) P (s x) = arg max P (s x) d }{{} s s 0 pokud d=s Voĺıme tedy nejpravděpodobnější třídu pro danou hodnotu příznakového vektoru. Obvykle ale není známo rozložení P (s x). Je třeba odhadnout z trénovacích dat (již klasifikovaných příkladů). Trénovací data (příklady): ( x 1, s 1 ), ( x 2, s 2 ),... ( x l, s l ). Odhad: Zásadní problém příznakové klasifikace: P (s x) počet příkladů v nichž x i = x a s i = s počet příkladů v nichž x i = x Počet příkladů l postačující ke spolehlivému odhadu P (s x) roste exponenciálně s počtem složek vektoru x. tj. např. s rozlišením (počtem pixelů) v rozpoznávaných obrazcích. prokletí kombinatorické exploze. Reálné úlohy: jmenovatel často nulový! Bayesovská klasifikace: horní limit kvality klasifikace, v praxi obvykle nedosažitelný.

Bayesovská klasifikace Lze též využít Bayesova vztahu: P (s x) = P ( x s)p (s) P ( x) Odhad P ( x s): analogicky jako odhad P (s x). Odhad P (s): jako relativní četnost jednotlivých tříd s v trénovacích datech, tj. P (s) P ( x) není třeba odhadovat. Proč? počet příkladů třídy s l Tento přístup sám o sobě neřeší problém množství dat potřebných k odhadu pravděpodobností. Ale umožňuje ho řešit nepřímo: 1. Hodnoty P (s) jsou často explicitně známy a není nutno je odhadovat. Příklad: při rozpoznávání 1. číslice PSČ je nejčastější číslice 1, např P (1) = 0.6. Takto je do klasifikace zapojena apriorní znalost o pravděpodobnostech tříd. P (s)... apriorní pravděpodobnost. 2. Přístup umožňuje formulovat zjednodušenou, tzv. naivní Bayesovskou klasifikaci, v níž nemusíme odhadovat P ( x s), ale pouze P (x(1) s), P (x(2) s),....

Naivní Bayesovská klasifikace Ve výjimečném případě statistické nezávislosti jednotlivých příznakových složek x(i) v rámci každé třídy s platí P ( x s) = P (x(1) s) P (x(2) s)... Stačí tedy odhadnout P (x(i) s) zvlášt pro každé i (a každé s). Např: P (x(3) 8) podíl případů číslice 8 s rozsvíceným 3. pixelem. Žádná kombinatorická exploze (pouze jednosložkové pravděpodobnosti). V praxi: nezávislost se často předpokládá, i když neplatí, příp. platí přibližně. Potom jde o tzv. Naivní Bayesovskou klasifikaci. Často úspěšná metoda. Nezávislost mezi příznakovými složkami je jen jedním z možných předpokladů, jehož splnění vede k zabránění kombinatorické explozi. Alternativní předpoklady jsou např.: Podobné objekty patří do stejné třídy klasifikace dle nejbližších sousedů. Třída je plně určena lineární kombinací složek příznaku klasifikace dle lineárního modelu. Podobně jako u naivní b.k. se metody založené na těchto předpokladech s úspěchem používají, i když jsou předpoklady splněné jen přibližně.

Klasifikace dle nejbližších sousedů Podobnost chápeme jako malou vzdálenost v prostoru příznakových hodnot. Funkce měřící vzdálenost dvou příznakových vektorů, tzv. metrika: ρ : X X R + {0} taková, že x, y, z: ρ(x, x) = 0, ρ(x, y) = ρ(y, x), ρ(x, z) ρ(x, y) + ρ(y, z). Příklad: Euklidovská metrika pro vektory x 1, x 2 se reálnými složkami x 1 (i) resp. x 2 (i): ρ E ( x 1, x 2 ) = i (x 1(i) x 2 (i)) 2 Jsou-li složky binární (z {0, 1}), tak ρ E ( x 1, x 2 ) 2 je počet složek, v nichž se x 1 liší od x 2 - tzv. Hammingova metrika. Zadáno: Klasifikace dle k nejbližších sousedů (k-nearest neighbor classification, k-nn). k ℵ trénovací příklady: ( x 1, s 1 ), ( x 2, s 2 ),... ( x l, s l ) metrika ρ : X X R neklasifikovaný objekt s příznakem x. Úloha: klasifikovat x Postup: z trénovacích příkladů vyber k nejbližších k x vzhledem k metrice ρ. Třída, které mezi nimi převládá, budiž třídou x.

Flexibilita klasifikace Jak volit k? Obecná odpověd neexistuje, záleží na konkrétních datech. Obecný trend: Uvažujme trénovací data se dvěma třídami (červená/zelená) a šumem (některé s i chybné). Značky - trénovací data, křivka - hranice klasifikace: k = 1: Dobré přizpůsobení trénovacím datům. Velká citlivost k šumu. Bayesovská klasifikace: Méně flexibilní než 1-nn, více než 15-nn. k = 15: Špatné přizpůsobení trénovacím datům. Malá citlivost k šumu. Vzpomeňte: Bayesovská klasifikace δ má nejnižší možné střední riziko r(δ ). Pozn.: Znázorněná Bayesovská vychází z přesných pravděpodobností P (s x), které jsou pro klasifikační algoritmus neznámé! Pozorování: příliš velká flexibilita (malé k) i příliš malá flexibilita (velké k) vedou ke klasifikátorům značně odlišným od Bayesovského, tedy ke zvyšování středního rizika r(δ). Podobný trend i klasifikaci založené na modelech (např. polynomiální model flexibilnější než lineární).

Trénovací chyba a střední riziko Střední riziko r(δ) klasifikátoru δ odpovídá relativní četnosti jeho nesprávných klasifikací. Definujme empirické střední riziko r E (δ) (též: trénovací chyba ) jako relativní četnost nesprávně klasifikovaných příkladů v trénovacích datech. Je r E (δ) dobrým odhadem skutečného středního rizika r(δ)? Příklad: 1-nn není dobrý klasifikátor (viz minulou stranu), přestože správně klasifikuje všechny trénovací příklady, tj. má trénovací chybu 0. Trénovací chyba tedy není dobrým odhadem středního rizika. Pro jeho odhad je třeba mít k dispozici trénovací množinu ( x 1, s 1 ),... ( x l, s l ) a nezávislou testovací množinu ( x l+1, s l+1 ),... ( x l+m, s l+m ) (může vzniknout rozdělením původních trénovacích dat např. v poměru 75% a 25%). klasifikátor sestrojit na základě trénovací množiny empirické střední riziko tohoto klasifikátoru spočítat na testovací množině. Empirické střední riziko na testovací množině je nevychýleným odhadem skutečného střední rizika. (Pozor: nevychýlený neznamená přesný!)

(Umělé) neuronové sítě Inspirovány poznatky o neuronech a nervových sítích živých organizmů Schopnost učit se = extrahovat a reprezentovat závislosti v datech, které nejsou zřejmé Schopnost řešit silně nelineární úlohy využití pro klasifikaci, regresi a predikci časových řad Základní výpočetní jednotkou je neuron Řešení problému: Volba typu sítě, metody učení Regularizace - návrh topologie, přizpůsobení sítě složitosti úlohy Učení - automatická optimalizace parametrů (vah) na základě trénovacích příkladů. ξ = n i=1 w ix i θ Sumační potenciál f(ξ) = 1 1+e λξ Aktivační funkce Nervová sít. Model neuronu.

Typy neuronových sítí Různé typy sítí pro různé typ úloh: vícevrstvá perceptonová (MLP) - viz. dále, Hopfieldova - autoasociační, Kohonenovy mapy - samoorganizující se, druh shlukové analýzy RBF (Radial Basis Function),... Autoasociativní pamět. Samoorganizující se mapy.

Perceptron vs. vícevrstvá sít Nejjednodušší dopředná neuronová sít - pouze dvě vrstvy Rosenblatt, 1957 hlavní přínos oproti neuronu je adaptační pravidlo w new = w old + α(out desired out actual )input, α - rychlost učení, konverguje pokud váhy existují Lineární (pro jeden výst. neuron binární) klasifikátor Vhodná demonstrace přechodu od lineární k nelineární klasifikaci Perceptron. Minsky, Papert: Perceptrons, 1969 Zásadní omezení perceptronů, nelze implementovat mj. funkci XOR Řešení až v 80. letech - vícevrstvá sít (navíc skrytá vrstva) Učení algoritmem zpětného šíření (backpropagation) Přirozené rozšíření metody nejmenších čtverců Gradientní optimalizace, chyba je zpětně šířena od výstupů na vnitřní neurony w = η J w, η - rychlost učení, J chybová funkce Aktivační funkcí typicky sigmoida nebo tanh (derivovatelnost)

Perceptron vs. vícevrstvá sít XOR jako vícevrstvá sít. [Duda, Hart, Stork: Pattern Classification].

Nelineární aproximace vícevrstvou sítí Aproximace nelineární funkce MLP sítí s architekturou 2-4-1. Je využito čtyř protilehle umístěných sigmoidálních fcí vnitřních neuronů. [Duda, Hart, Stork: Pattern Classification].

Nelineární aproximace vícevrstvou sítí Složitější architektury mohou implementovat libovolné rozhodovací hranice (nekonvexní, oddělené apod.) [Duda, Hart, Stork: Pattern Classification].