2. Entropie a Informace. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

KYBERNETIKA A UMĚLÁ INTELIGENCE 2. Entropie a Informace laboratory Gerstner Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Popis složitých systémů V minulé přednášce: stavový popis systému. Zkusme uplatnit na systém s velkým množstvím interagujících součástí: např. částice plynu v uzavřené komoře. Stav částice i: 6 hodnot: [x i, y i, z i, d x i d t, d y i d t, d z i d t ]. Stav celého systému 6 6 10 23 hodnot na 1 mol plynu! (Avogadrova konstanta) Dynamický model systému: řádově stejný počet rovnic zachování hybnosti. S takovým modelem nelze pracovat. Existuje jiná možnost? Ano, pokud upustíme od deterministického popisu. Stochastické (pravděpodobnostní) modely

Rychlokurs pravděpodobnosti (více v Matematice 3) Funkce Pr(A) přiřazující náhodnému jevu A číslo z intervalu [0; 1]. Interpretace: pro velký počet náhodných pokusů se relativní četnost A bĺıží Pr(A). Příklad: počet výsledků 6 lim počet hodů počet hodů = Pr(výsledku 6) = 1 6 Pravděpodobnost, že nenastane jev A = Pr( A) = 1 Pr(A). Sdružená pravděpodobnost: Pr(A, B) - pravděpodobnost, že současně nastanou A i B. Nezávislost: Jevy A i B jsou nezávislé, pokud Pr(A, B) = Pr(A) Pr(B). Příklad: Pr(černá 6, červená 1) = Pr(černá 6) Pr(červená 1) = 1 6 1 6 = 1 36 Pravděpodobnost, že nastane alespoň jeden z A, B: Pr(A B) = Pr(A) + Pr(B) Pr(A, B)

Rychlokurs pravděpodobnosti (více v Matematice 3) Podmíněná pravděpodobnost: Pr(A B) - pravděpodobnost jevu A za předpokladu, že nastal jev B. Platí Pr(A B) = Pr(A,B) Pr(B) Příklad: Pr(lichý 4) = Pr(lichý, 4) Pr( 4) = Pr(5) 1 Pr( 4) = 6 3 6 = 1 3 Náhodná veličina: funkce zobrazující výsledek náhodného pokusu na reálné číslo. Příklady: Součet výsledků 100 hodů kostkou - diskrétní n.v. (pouze celé hodnoty) Rychlost náhodně zvolené částice plynu - spojitá n.v. Distribuce diskrétní n.v.: P (x) Pr(X = x) (též: rozložení, rozdělení) Hustota spojité n.v. X: f(x) taková, že platí Pr(a X < b) = b a f(x)dx Tedy Pr(a X b) = plocha pod grafem f(x) mezi a a b. Proč ne jednoduše f(x) Pr(X = x) jako u diskrétní? Protože zde Pr(X = x) = 0 pro jakékoliv x! (výběr z množství hodnot!)

Příklad hustoty a distribuce, Střední hodnota Binomiální distribuce diskrétní n.v.: ( ) n P (x) = p x (1 p) n x x Např: P (x) = pravděpodobnost x orlů při n hodech mincí, kde Pr(orel) = p (zde p = 0.5). Normální hustota spojité n.v.: ( ) f(x) = 1 σ exp (x µ)2 2π 2σ 2 parametry: µ - střed, σ 2 - rozptyl (rozpětí zvonu ) Příklad: obvyklé rozložení chyb měření kolem skutečné hodnoty µ. Střední hodnota diskrétní n.v.: X = i= xp (x) (pro binom.: X = np). Intuitivně: průměr všech možných hodnot vážený jejich pravděpodobností. Střední hodnota spojité n.v.: X = xf(x)dx (pro normální X = µ). X se také nazývá očekávaná hodnota, někdy značená EX (E - jako Expectation).

Sdružená distribuce a hustota Sdružená distribuce dvou diskrétních n.v. P (x, y) Pr(X = x, Y = y) Podobně sdružená hustota f(x, y) pro dvě spojité n.v.: Pr(a X b, c Y d) = d c b a f(x, y)dxdy Alternativní zobrazení: 2D Kontury Hustota bodů náhodného vzorku

Marginalizace Podmíněná distribuce a hustota: P (x y) P (x, y) f(x, y), f(x y) = P (y) f(y) Z distribuce P (x, y) nebo P (x y) lze vypočítat hodnotu P (x) pro jakékoliv x: P (x) = y= P (x, y) = y= P (x y)p (y) (Součet přes všechny možné hodnoty y j n.v. Y ) Tzv. marginalizace, P (x i ) - marginální pravděpodobnost. Analogicky pro marginální hustotu spojité n.v. Příklad: tabulka pro P (x i, y j ): y 1 y 2 p(x i ) x 1 0.3 0.1 0.4 x 2 0.1 0.2 0.3 x 3 0.2 0.1 0.3 p(y j ) 0.6 0.4 1 marginální = na okraji f(x) = f(x, y)dy = f(x y)f(y)dy

Stochastický model systému Zpět k úvodnímu příkladu: jak popsat systém částic plynu, nelze-li deterministicky? Pomocí hustoty pravděpodobnosti. Maxwell-Boltzmannovo rozložení rychlosti částic (vám známé z Fyziky 2!). Pr(v 1 v v 2 ) = v2 v 1 f(x)dx = zelená plocha Model může být odvozen nebo experimentálně změřen. Podobně lze spočítat modely pro další stavové veličiny: pravděpodobnostní rozložení prostorových souřadnic částice pravděpodobnostní rozložení energie částice ( Boltzmannovo rozložení), atd. Srovnání: Oproti deterministickému modelu dynamiky stochastický model rozložení: Nerozlišuje stavy x i (t) konkrétních částic i v konkrétních časových okamžicích t. Pouze poskytuje pravděpodobnost stavu x pro libovolnou částici v libovolném okamžiku.

Stochastický model systému: širší souvislosti Více stavových veličin. Uvažovaný model bral v úvahu pouze jednu stavovou veličinu. Modelem stochastického systému s n stavovými proměnnými X 1, X 2,... X n je sdružená hustota f(x 1, x 2,... x n ) pro spojité resp. sdružená distribuce P (x 1, x 2,... x n ) pro diskrétní veličiny. Čím více proměnných, tím těžší je hustotu/distribuci odhadnout z dat, tj. sestrojit generativní systém z datového ( přednášky 8-9). Pouze v případě vzájemné statistické nezávislosti veličin se situace zjednoduší, nebot f(x 1, x 2,... x n ) = f(x 1 ) f(x 2 ) f(x n ) (stejně tak pro P (.)). P (x 1, x 2,... x n ) lze modelovat tzv. Bayesovskými sítěmi ( přednáška 10). Dynamika. V minulé přednášce: časový vývoj deterministických systémů. Lze popsat časový vývoj stochastického systému? Obor stochastických procesů. Speciální případ, tzv. Markovské řetězce: Předpoklad 1: Diskrétní čas k a jedna diskrétní stavová proměnná: x(k) Předpoklad 2: Hustota P (x(k + 1)) závisí pouze na x(k), nikoliv x(k 1), x(k 2),.... Model systému je pak podmíněná distribuce P (x(k+1) x(k)) a marginální distribuce P (x) ( počáteční podmínka ). Jednoduchá aplikace v příští přednášce.

Stochastický model systému NÁMITKA: Stochastický model zavádí do popisu neurčitost. Systém již nelze modelovat přesně. Odpověd 1: Záleží na rozlišovací úrovni. Ze stochastického modelu na úrovni částic vyplývají deterministické vztahy na úrovni celého systému (např. mezi p, V a T). Odpověd 2: I původně uvažovaný deterministický model vyplývá ze stochastických vztahů na vyšší rozlišovací úrovni (kvantový popis)! Střídání deterministických a stochastických modelů při změně rozlišovací úrovně... Nejedná se o obecný princip v kybernetice?? Ano! Jde o emergenci.

Emergence determinismu Podobné žebříčky i pro technické, biologické, apod. systémy. (Zkuste vymyslet!)

Neuspořádanost Díky čemu mohou ze stochastických systémů emergovat deterministické principy (přechodem na niží rozlišení či v čase)? Je-li snížena neuspořádanost stochastického systému. Vysoká neuspořádanost Nižší neuspořádanost Deterministický systém rovnoměrná hustota pravdě- kvantový model atomu klasický deterministický podobnosti výskytu částice - nerovnoměrná hustota model atomu embryo - 1. týden embryo - 2. týden embryo - 4. týden totožné kmenové buňky odlišné (specializované) buňky uspořádání do orgánů

Termodynamická entropie Neuspořádanost = zásadní kybernetická veličina. Ale jak ji matematicky definovat a měřit? Možnou mírou neuspořádanosti je termodynamická entropie S. Množství energie systému nevyužitelné k práci (podrobnosti ve Fyzice 2) EN - energie, TROP - měnit (řecky), tj. energie přeměněná na nevyužitelnou (= teplo). Jak to souvisí s neuspořádaností? Uvažujme dva termodynamické systémy: Lazare N.M. Carnot (1753-1823) Vysoká neuspořádanost Nízká schopnost konat práci (p 1 p 2 ). Vysoká entropie Nízká neuspořádanost Vysoká schopnost konat práci (p 1 >> p 2 ). Nízká entropie Termodynamická entropie tedy zjevně stoupá s neuspořádaností, ale...

Informace Pro kybernetiku potřebujeme obecnější definici entropie, nevázanou na pouze termodynamické systémy. Základní myšlenka: neuspořádanost - entropie - je množství informace potřebné k popisu (tj. odstranění neurčitosti) stavu. Jak ale počítat množství informace? Uvažujme znovu systém Zvolme náhodně jednu částici a rozlišme dva možné stavy: S {l, p}. l: částice je v levé komoře p: částice je v pravé komoře S je diskrétní náhodná veličina s distribucí P (l) = Pr(S = l), P (p) = Pr(S = p). Zprávou l resp. p kódujeme výsledek náhodného pokusu, tedy zda S = l resp. S = p Jak kvantifikovat množství informace I(l) resp. I(p) v takové zprávě?

Informace Uvažujme nejprve maximálně uspořádaný systém. Zde platí P (l) = 1. Stav l je tedy jistý a zpráva l nenese žádnou informaci. Obráceně: pokud by platilo P (p) = 1, nenesla by žádnou informaci zpráva p. Obecně pro zprávu s {l, p} tedy požadujeme: I(s) = 0 pokud pro stav s platí P (s) = 1 I(s) stoupá s klesající P (s) Požadavku vyhovuje funkce I(s) = log P (s)

Informace Proč právě logaritmická funkce? Vyhovuje dále požadavku aditivity: Mějme zprávu s i, s j o stavu dvou částic i a j (předpokládáme jejich statistickou nezávislost). Množství informace nezávisí na tom, zda informujeme o stavu i a j najednou, nebo zvlášt (ve dvou zprávách). Mělo by tedy platit: I(s i, s j ) = I(s i ) + I(s j ) Skutečně platí: I(s i, s j ) = log P (s i, s j ) = log [ P (s i ) P (s j ) ] = log P (s i ) log P (s j ) = I(s i )+I(s j ) Jaký základ má použitý logaritmus mít? Změna základu odpovídá pouze změně měřítka log a P (s) = log b P (s) log a b kde log a b je konstanta (a 1, b 1). Konvence: základ je 2 a měřítko se pak nazývá bit.

Informační entropie Uvažujme neúplně uspořádaný systém. Zde P (l) = 0.9 a P (p) = 1 P (l) = 0.1 Je-li částice v l, pak zpráva o tomto stavu nese informaci I(l) = log 2 0.9 0.152 Je-li částice v p, pak zpráva o tomto stavu nese informaci I(p) = log 2 0.1 3.322. Informační entropie H je pak střední hodnotou informace přes oba stavy: s {l,p} P (s) log 2 P (s) = 0.9 0.152 + 0.1 3.222 0.468 [bit] Obecně pro systém konečným počtem možných stavů S {s 1, s 2,..., s n }, n a pravděpodobnostní distribucí P (s i ) je informační entropie definována jako střední hodnota: H(S) = n P (s i ) log 2 P (s i ) [bit] i=1 (Pozn.: formálně definujeme 0 log 2 (0) 0.) Claude E. Shannon (1916-2001)

Vlastnosti informační entropie Uvažujme systém se dvěma stavy s 1, s 2 (tzv. binární systém). Necht P (s 1 ) = p, a tedy P (s 2 ) = 1 p. Entropie H je v tomto případě pouze funkcí p. Platí H(p) = p log 2 p (1 p) log 2 (1 p) H(p) = 0 pro p = 0 (odpovídá ) i pro p = 1 (odpovídá ). H(p) = 1 pro p = 0.5 (odpovídá ) H(0) = 0 log 2 0 1 log 2 1 = 0 0 = 0 H(1) = 1 log 2 1 0 log 2 0 = 0 0 = 0 H( 1 2 ) = 1 2 log 2 1 2 1 2 log 2 1 2 = 2 1 2 log 2 1 2 = ( 1) ( 1) = 1

Vlastnosti informační entropie Obecně pro n.v. S s n < možnými stavy: Entropie je maximální pro rovnoměrné rozložení P (s i ) = 1/n i H(S) = n i=1 1 n log 2 1 n = log 2 1 n = log 2 n Entropie je minimální pro zcela deterministický systém k P (s k ) = 1 a P (s i ) = 0 pro i k H(S) = n i=1 1 n log 2 1 n = log 2 1 = 0 Platí tedy 0 H(S) log 2 n Informační entropie je tedy mírou neuspořádanosti nezávislou na termodyn. veličinách. Narozdíl od informace I není entropie H závislá na délce zprávy. Pouze funkcí rozložení n.v.

Spojité veličiny: diferenciální entropie Uvažujme spojitou n.v. X s pravděpodobnostní hustotou f(x). Příklad: stav = rychlost částice v termodynamickém systému. Definujeme diferenciální entropii: h(x) = f(x) log 2 f(x)dx Diferenciální h není limitním zobecněním diskrétní H. Uvažujme diskrétní n.v. S a spojitou n.v. X. Necht P (s) = f(s), tj. distribuce S je diskretizací hustoty X s přesností (vzorkovacím intervalem). Oproti očekávání: h(x) lim 0 s= f(s) log 2 f(s) Pravá strana diverguje (ověřte), nebot log 2. Narozdíl od diskrétní H je hodnota h závislá na měřítku. Příklad: Necht X je spojitá n.v. s normálním rozložením, µ = 0, σ = 1. Necht Y je spojitá n.v.: Y = ax (a 1 je konstanta). Potom H(X) H(Y ) = H(X) + log 2 a. Zkuste ověřit.

Entropie jako počet mikrostavů odpovídajících makrostavu Uvažujme systém s N částicemi, každá ve stavu s = l, nebo s = p. Mikrostav := stavy všech částic (s 1, s 2,... s N ). Makrostav := L = počet částic v l. ( ) N Ω: počet možných mikrostavů pro makrostav L: = N! L L!(N L)! H: informační entropie při makrostavu L: L N log 2 L N N L N log 2 N L N log 2 Ω pro rostoucí L H pro rostoucí L Pozorování: H konst log 2 Ω (lze také odvodit z aproximace log n! n log n n). H roste s Ω: H je tedy také míra neurčitosti mikrostavu při známém makrostavu. Srovnejte se Boltzmanovým vztahem pro termodynamickou entropii: S = k ln W (k - Bolzmannova konstanta, W - počet možných mikrostavů odpovídajících makrostavu s S).

Druhá termodynamická věta Z predešlé strany: čím vyšší entropie makrostavu, tím vyšší počet odpovídajících mikrostavů. Důsledek: makrostavy s vysokou entropíı jsou častější. 2. termodynamická věta: Teplo nemůže přecházet ze studenějšího tělesa na teplejší. Jinými slovy: Systém se samovolně vyvíjí ke svému nejpravděpodobnějšímu stavu (s nejvyšší entropíı). Příklad: Rudolf Clausius (1822-1888) ne obráceně Příklad: voda + led studená voda, ne obráceně. Platí pro uzavřené (izolované) systémy. Entropii, neuspořádanost, neurčitost systému lze snížit jen dodáním energie z vnějšku systému. (Tvrzení neplatí pro informační entropii, pokud je vztažena na abstraktní/nefyzikální systémy.)

Maxwellův démon Opravdu platí druhá termodynamická věta? Myšlenkový experiment: Maxwellův démon (1871-1929) Démon propouští částice pouze z levé komory do pravé, zpět ne. (Alternativně: rychlé částice pouze z L do P, pomalé pouze z P do L.) Je tím snížena entropie uzavřeného systému?! Vysvětlení (Szilárd, 1929): Na získání informace, tj. odstranění neurčitosti o stavu částice (polohy, rychlosti atp.) musí démon vynaložit energii, např. vysláním fotonu. Entropie subsystému démon se tím zvyšuje (jeho počáteční energie se mění na nevyužitelnou). V součtu se entropie celého systému nesnižuje. James C. Maxwell (1831-1879) Leó Szilárd (1898-1964)

Příklad: entropie v přirozených jazycích Informační entropie je střední hodnota informace a není nutně vztažena na fyzikální systémy! Lze spočítat např. entropii jazyka J, H(J) = s P (s) log 2 P (s), kde P (s) je pravděpodobnost znaku s z abecedy {A, B, C,... } mezera P (s) jsou spočítány jako relativní četnosti znaků analýzou rozsáhlých textů. Potom např. H(angličtiny) 4.1 [bit], čestina zhruba stejně. Místo znaků přirozené abecedy lze také uvažovat celá slova apod. NÁMITKA 1: Nejvíce informace pak nese jazyk s rovnoměrným rozdělením P (i) se zprávami jako RIC SPO YUHNDROPQ LFRT FEO OSNTIEOL MCNAPCFNETTIUC N SDI?! Odpověd : ano, Shannonova entropie nekvantifikuje význam či užitečnost zprávy. Z hodnoty entropie ale můžeme např. zjistit, že takové zprávy nemůžeme komprimovat, zatímco zprávy přirozeného jazyka ano. Uvidíme příšte. NÁMITKA 2: Počítat entropii přirozeného jazyka výše uvedeným způsobem není rozumné. Kdo vymysĺı proč? Uvidíme příšte.

Souhrn přednášky Systémy s velkým množstvím interagujících součástí obvykle nelze modelovat deterministicky. Je nutno použít stochastický model, definovaný jednou čí více pravděpodobnostními distribucemi - pro spojité stavové veličiny. hustotami - spojité stavové veličiny. Mírou neuspořádanosti stochastického systému je informační entropie, počítaná z pravděpodobnostní distribuce resp. hustoty dané stavové veličiny. Informační entropie je střední hodnotou množství informace nutného k odstranění neurčitosti stavu. Informační entropie souvisí s entropíı termodynamickou: obě jsou rostoucí funkcí počtu možných mikrostavů pro makrostav s danou entropíı. Informační entropie je obecnější pojem: není vázána na pouze termodynamické systémy. Entropii (informační i termodynamickou) uzavřeného systému lze snížit jen dodáním energie z vnějšku systému. (Nemusí platit pro I.E. vztaženou na nefyzikální systémy).