Teorie informace. Mirko Navara. katedra kybernetiky FEL ČVUT Karlovo náměstí, budova G, místnost 104a navara/psi 3. 1.

Teorie informace Mirko Navara Centrum strojového vnímání katedra kbernetik FEL ČVUT Karlovo náměstí, budova G, místnost 4a http://cmp.felk.cvut.cz/ navara/psi.. 7 Obsah Informace Entropie. Entropie jako střední hodnota...................................... 4. Vlastnosti entropie............................................ 4 Informační divergence 5. Informační divergence jako střední hodnota............................... Vlastnosti informační divergence.................................... 7 4 Sdružená entropie 7 4. Podmíněná entropie........................................... 8 5 Vzájemná informace 9 5. Shrnutí vlastností vzájemné informace a podmíněné entropie.................... Informace Teorie pravděpodobnosti popisovala sstém, v němž bude proveden náhodný pokus. Jeho výsledk (i dílčí) popíše informace. Informací může být určení výsledku náhodného pokusu, tj. hodnot náhodné veličin, předpověď, stanovení výsledku, sdělení výsledku. Předpokládáme diskrétní rozdělení. Příklad. (provozování loterie). V loterii bude. = 5 losů po 4 $, z nichž vhraje M$. Certifikované losovací zařízení s 5 výsledk není. (Např. ruleta o průměru km.) Los očíslujeme a necháme nezávisle vlosovat číslice. Problém: Kolik máme zaplatit za vlosování číslic? (. číslice má jen 5 stejně pravděpodobných hodnot.) Řešení: Podle hr větší-menší vlosujeme 9 nezávislých binárních číslic, čímž rozlišíme 9 = 54 88 možností. Máme za vlosování každé číslice zaplatit stejně?

Ano! (Mj. proto, že všechn hod mincí mají stejnou pracnost.) K výběru z k (k N) stejně pravděpodobných možností potřebujeme informaci I( k ) := k I() = k b, I() = b (bit). Rchlejší řešení: Vžd vlosujeme ze možností, postačí nezávislých pokusů, = 5 44. Kolik informace I() dává výběr ze stejně pravděpodobných možností? 5 = 4. = 5 = 8, I(). = 8 5 =., = 5 44 =. 54 88 = 9, I() =. 9 =. 58,... log M = M = log M, I() = log M log M = log. =. 585. Obecně výběr z n stejně pravděpodobných možností nese informaci I(n) := log n. I = Hartleho míra informace. Je to jediná funkce I : N R s vlastnostmi: I(m n) = I(m) + I(n), I je neklesající, I() =. Základ logaritmu je, čímž je dána jednotka informace (b = bit). Speciálně pro n = k : I( k ) = k. Nadále základ neoznačujeme, log = log. 5 4 Funkce log p pro p (, Derivace: ( ) ln x (log x) = =... 44 = =. ln x ln.9 x x Kolik informace dostaneme, kdž se dovíme, že správná z n stejně pravděpdobobných možností patří do skupin s k < n prvk? Chbí informace I(k), abchom určili jediný výsledek, tj. abchom měli celkem I(n); nní máme I(n) I(k) = log n log k = log n k. Záleží jen na poměru n k, tj. na pravděpdobnosti p := k n, což dovoluje zobecnění ( n ) ( ) I = I := log n k p k = log p = log p. I pro iracionální p (, definujeme jako jedinou spojitou funkci s výše uvedenými hodnotami pro racionální argument: ( ) I := log p. p (Nepravděpodobnější výsledek větší informace.)

Entropie Příklad.. hodnota pravděpodobnost informace I() = log =..585 I ( Cena předplacené informace je střední hodnota h (, ) = log = log. =.585 ) := log + log = log Obecněji: hodnota x x pravděpodobnost p p informace kde ( I p ) ( = log p I p ) = log( p). =.98. h(p, p) := p log p ( p) log( p), }{{}}{{} ι(p) ι( p) ι(p) := p log p, p >, ι() :=. h(p, p) = entropie alternativního rozdělení..5..4.8....4.. Funkce p log p pro p, Funkce h(p, p) pro p, Obecně: hodnota x x... pravděpodobnost ( ) p ( ) p... informace I p = log p I p = log(p )... Entropie rozdělení s pravděpodobnostmi p = (p, p,...), p i = : i h(p) = h(p, p,...) := i ι(p i ) = i p i log p i. (Výsledků je spočetně mnoho, nutno předpokládat konvergenci sum.) Entropie náhodné veličin X s různými hodnotami x, x,... a pravděpodobnostní funkcí p X : H(X) := h(p X (x ), p X (x ),...) = x ι(p X (x)) = x p X (x) log p X (x) = E log X Příklad.. = E log p X (X). hodnota x 4 9 pravděpodobnost p X (x) 4 4 informace log p X (x) ( H(X) = h, 4, ) 4 = + 4 + 4 =.

Příklad.. hodnota x. pravd. p X (x)....5 inf. log p X (x) log. =. log 5. =. log 5. =. log = H(X) = h(.,.,.,.5) =. log +. log 5 +. log 5 +.5 =. Entropie jako střední hodnota =.5 log 5 +.. =. 7. Nahradili jsme hodnot náhodné veličin X jejich pravděpodobnostmi (jen na těch záleží!), tím jsme dostali náhodnou veličinu W = p X (X) s hodnotami v,. Její rozdělení popisuje pravděpodobnosti pravděpodobností náhodné veličin X. p W (w) = P [p X (X) = w] = pravděpodobnost, že X nabývá hodnot, jejíž pravděpodobnost je w,. Příklad.4. hodnota x A B C D E F pravd. p X (x)...5...5 informace log p X (x) log log log log 5 log 5 (přibl.)... 77.. W = p X (X): hodnota w..5..5 pravděpodobnost p W (w)..5.4.5 informace v x log w log =.. log. =.77 log 5 =.. První řádek vznikl opsáním všech různých hodnot z. řádku první tabulk. Ve skutečnosti potřebujeme jejich logaritm, jsou v posledním řádku. Druhý řádek obsahuje odpovídající pravděpodobnosti (každá bla vnásobena počtem svých výsktů ve. řádku první tabulk.. Vlastnosti entropie H(X) = E log p X (X) = E log W. =. =.. +.5.77 +.4. +.5. =. 54. H(X) log n, kde n je počet různých hodnot náhodné veličin X (je-li konečný). = H(X) jen pro Diracovo rozdělení, H(X) = log n (kde n je počet možných hodnot) jen pro rovnoměrné rozdělení: Věta.. Maximální entropie se nabývá jen pro rovnoměrné rozdělení. Důkaz. Předpokládejme, že rozdělení (p, p,..., p n ) není rovnoměrné. Pak některá z pravděpodobností je větší a některá menší než n ; BÚNO p > n, p < n. Změnou p := p ε, p := p + ε o malé ε se entropie změní o (ε) = h(p ε, p + ε, p,..., p n ) h(p, p, p,..., p n ) = = ι(p ε) + ι(p + ε) ι(p ) ι(p ), kde ι (p) = ( p log p) = ln log p. Funkce je diferencovatelná, () =, (ε) = ι (p ε) + ι (p + ε) = log(p ε) log(p + ε) = log p ε p + ε. 4

Pro dostatečně malé ε > je p ε > n > p + ε, (ε) > a (ε) >. Ted entropie h(p, p,..., p n ) není maximální. BÚNO = bez újm na obecnosti Důsledek.. Entropie rozdělení s nekonečně mnoha hodnotami může být libovolně velká. Věta.. Důkaz. ( p h(p, p, p,...) = h(p + p, p,...) + (p + p ) h, p + p ) p. p + p h(p, p, p,...) h(p + p, p,...) = = ι(p ) + ι(p ) ι(p + p ) = = p log p p log p + (p + p ) log(p + p ) = p p = p log p log = p + p p + p ( = (p + p ) p p log p ) p log = p + p p + p p + p p + p ( ) p p = (p + p ) h,. p + p p + p Informační divergence Příklad. (chbný předpoklad rovnoměrného rozdělení). Předpokládali jsme rozdělení q = (, ) a odhadli entropii h (, ) =. Ve skutečnosti blo rozdělení p = (, ( ) a entropie h, ). =.98. O kolik jsme nadhodnotili jeden znak? ( h, ) ( h, ).=.98 =.8. Příklad. (chbný předpoklad nerovnoměrného rozdělení). Předpokládali jsme rozdělení q = (, ) a odhadli entropii h (, ). =.9. Ve skutečnosti blo rozdělení p = (, ( ) 5 a entropie h, ) 5. =.5. O kolik jsme nadhodnotili jeden znak? Odpověď: ( h, ) ( h, 5 ).=.98.5 =.8. Špatně! Správná odpověď: hodnota x i x x předp. pravd. q i předp. informace log q i log =..585 log. =.585 5 skut. pravd. p i skut. informace log p i log =..585 log. 5 =. předp. skut. inf. log p i log q i = log pi q i log 5. 4 =. Střední chba odhadu informace je p log p q + p log p q. = ( ) + 5.. =.. 5

Příklad. (chbný předpoklad nerovnoměrného rozdělení ). Vměníme rozdělení z předchozího příkladu: Předpokládali jsme rozdělení q = (, ( ) 5 a odhadli entropii h, ) 5. =.5. Ve skutečnosti blo rozdělení p = (, ( ) a entropie h, ). =.9. O kolik jsme nadhodnotili jeden znak? Špatná odpověď: h (, ( ) 5 h, ). =.5.98 =.8. Správná odpověď: hodnota x i x x 5 předp. pravd. q i předp. inf. log q i log =..585 log. 5 =. skut. pravd. p i skut. inf. log p i log =..585 log. =.585. =. předp. skut. inf. Střední chba odhadu informace je Odhad bl opět nadhodnocený! (Ne stejně.) log p i log q i = log pi q i log 4 5 p log p q + p log p q. =.. =.9. Obecně: Předpokládali jsme rozdělení q = (q, q,...), ve skutečnosti blo p = (p, p,...). hodnota x i x x... předp. pravd. q i q q... předp. inf. log q i log q log q... skut. pravd. p i p p... skut. inf. log p i log p log p... předp. skut. inf. log p i log q i = log pi q i Střední chba odhadu informace je D(p q) := i log p q log p q... p i log p i = p i log p i q i i i }{{} h(p,p,...) p i log q i, kde log :=, log :=, r log r := pro r (,. D(p q) = Kullbackova Leiblerova divergence = informační divergence rozdělení p, q.. Informační divergence jako střední hodnota Máme náhodnou veličinu X, skutečnou pravděpodobnostní funkci p X a předpokládanou pravděpodobnostní funkci q X. (To zde není kvantilová funkce.) Dva pravděpodobnostní model budeme rozlišovat index, např E p X = x x p X (x), H p (X) = E p log p X (X) = h(p X (x ), p X (x ),...), E q X = x x q X (x), H q (X) = E q log q X (X) = h(q X (x ), q X (x ),...). Při výsledku x je předpokládaná informace log q X (x) a skutečná log p X (x). Střední hodnota rozdílu při skutečném rozdělení p je D(p X q X ) = E p log p X(X) q X (X) = E p(log p X (X) log q X (X)) = = E p log p X (X) E p log q X (X). }{{}}{{} H p(x) H q(x) Příklad.4 (chbný předpoklad rovnoměrného rozdělení pokr.). Proč nám to prvně všlo správně? Protože q X (X) = bla konstanta, H q (X) = E q log q X (X) = log = E p log q X (X).

. Vlastnosti informační divergence Může být D(p q) D(q p). Věta.. D(p q) ; rovnost nastává, právě kdž p = q. Důkaz. Předpokládejme p q, BÚNO p < q, p > q. Výraz V (q, q, q,...) := i p i log q i se změnou q := q ε, q := q + ε o malé ε změní o Funkce je diferencovatelná, () =, Pro dostatečně malé ε > je (ε) = V (q ε, q + ε, q,...) V (q, q, q,...) = = p log(q ε) + p log(q + ε) p log q p log q. (ε) = ln p q ε + ln p q ε < < p q + ε, p q + ε. (ε) > a (ε) >. Ted V (q, q, q,...) není maximální. Uvedený argument nelze použít jedině pro p = q, pak nabývá výraz maxima, a to V (p, p, p,...) := i p i log p i = h(p, p, p,...), D(p p) =. 4 Sdružená entropie Sdružená entropie H(X, Y ) náhodných veličin X, Y je entropie náhodného vektoru (X, Y ), počítaná podle stejného principu: X nabývá hodnot x, x,..., Y nabývá hodnot,,..., (X, Y ) nabývá hodnot (x, ), (x, ),..., (x, ), (x, ),...,..., zajímají nás jen jejich pravděpodobnosti p X,Y (x i, j ), z nichž vpočteme H(X, Y ) := i = x ι(p X,Y (x i, j )) = p X,Y (x i, j ) log p X,Y (x i, j ) = j i j ι(p X,Y (x, )) = p X,Y (x, ) log p X,Y (x, ) = x = E log p X,Y (X, Y ). 7

Pro X, Y nezávislé je pro všechna x,, ted i pro střední hodnot p X,Y (x, ) = p X (x) p Y (), log p X,Y (x, ) = log p X (x) log p Y (), H(X, Y ) = E log p X,Y (X, Y ) = E log p X (X) E log p Y (Y ) = = H(X) + H(Y ). Co znamená zápis H( )? p. argumentů tp argumentů význam příklad náhodná veličina entropie náh. veličin H(X) > náhodné veličin entropie náh. vektoru H(X, Y ) (sdr. entropie náh. veličin) Co znamená zápis h( )? p. argumentů tp argumentů význam příklad > čísla, entropie rozdělení h (,, ) se součtem číslo, zkratka pro entropii h ( ( ) = h, ( ) = h ) alternativního rozdělení Příklad 4. (poklad na ostrově). p X,Y (x, ): A B C p x X (x) p Y () H(X) = log. =.585, H(Y ) = log + + log. =. 459, H(X, Y ) = log. =.585 < < H(X) + H(Y ). =.585 +. 459 =. 44.Závislost X, Y nás připravila o H(X) + H(Y ) H(X, Y ). =. 44.585 =.459.Jak včíslit ztrátu informace z jedné proměnné, kdž jsme se dověděli druhou? 4. Podmíněná entropie Pokud nastal jev Y =, aktualizujeme pravděpodobnosti hodnot veličin X pomocí podmíněných pravděpodobností P [X = x, Y = ] p X Y (x ) := P [X = x Y = ] = = p X,Y (x, ). P [Y = ] p Y () V tomto modelu udává střední hodnotu informace veličin X podmíněná entropie H(X Y = ) := x ι(p X Y (x )) = x p X Y (x ) log p X Y (x ). Její střední hodnota v závislosti na Y je střední podmíněná entropie H(X Y ) := p Y () H(X Y = ) = p Y () p X Y (x ) log p X Y (x ) = x = p X,Y (x, ) log p X,Y (x, ) = p x Y () = p X,Y (x, ) log p X,Y (x, ) + p X,Y (x, ) log p Y () = x x = E log p X,Y (X, Y ) + E log p Y (Y ) = H(X, Y ) H(Y ). 8

H(X) H(Y ) H(X Y ) I(X; Y ) H(Y X) H(X, Y ) Obdobně H(Y X = x) = p Y X ( x) log p Y X ( x), H(Y X) = p X (x) H(Y X = x) = p X,Y (x, ) log p Y X ( x) = x x = E log p X,Y (X, Y ) + E log p X (X) = H(X, Y ) H(X). 5 Vzájemná informace Ze sdruženého rozdělení p X,Y vpočítáme marginální pravděpodobnosti p X (x) = p Y () = x p X,Y (x, ), p X,Y (x, ). Z nich vpočítáme sdružené rozdělení q X,Y (x, ) := p X (x) p Y (), které má stejné marginální pravděpodobnosti q X = p X, q Y = p Y, ale odpovídá nezávislým náhodným veličinám. Při rozdělení q X,Y b sdružená entropie všla H(X) + H(Y ). Skutečné rozdělení p X,Y vede na sdruženou entropii H(X, Y ) = p X,Y (x, ) log p X,Y (x, ) = E log p X,Y (X, Y ). x Ztrátu informace v důsledku závislosti X, Y vjadřuje vzájemná informace I(X; Y ) náhodných veličin X, Y, což je informační divergence D(p X,Y q X,Y ): 9

I(X; Y ) := D(p X,Y q X,Y ) = E log p X,Y (X, Y ) E log q X,Y (X, Y ) = = H(X, Y ) E log p X (X) p Y (Y ) = = H(X, Y ) E log p X (X) E log p Y (Y ) = = H(X, Y ) + H(X) + H(Y ). 5. Shrnutí vlastností vzájemné informace a podmíněné entropie Vzájemná informace vjadřuje, kolik informace o jedné proměnné nese druhá proměnná. Důsledk: I(X; Y ) = I(Y ; X), H(X) = I(X; Y ) + H(X Y ), H(Y ) = I(X; Y ) + H(Y X), I(X; Y ) = H(X) + H(Y ) H(X, Y ), H(X Y ) = H(X, Y ) H(Y ), H(Y X) = H(X, Y ) H(X). I(X; Y ) min(h(x), H(Y )), I(X; Y ) = X, Y jsou nezávislé, I(X; Y ) = H(X)!x : p X Y (x ) = (podm. rozdělení jsou Diracova), I(X; X) = H(X). Vše lze beze změn uplatnit i na náhodné vektor. Řetězcové pravidlo: H(X, X,..., X n ) = H(X X,..., X n ) + H(X X,..., X n ) +... + Příklad 5. (poklad na ostrově pokr.). p X,Y (x, ): A B C p x X (x) p Y () + H(X n X n ) + H(X n ). H(X) =..585, H(Y ) =..459, H(X, Y ) =..585. Model s nezávislými veličinami a stejnými marginálními rozděleními: p X (x) p Y (): x 9 9 9 p Y () A B C p X (x) 8 8 8 I(X; Y ) = D(p X,Y p X p Y ) = log + log. =.459, též I(X; Y ) = H(X) + H(Y ) H(X, Y ). =.585 +.459.585 =.459.

Kdbchom věděli, že Y =, pak b X přispívalo podm. entropií H(X Y = ): p X Y (x ): A B C x p Y () H(X Y = ) log střední hodnota H(X Y ) = + log =.., též H(X Y ) = H(X, Y ) H(Y ) =..585.459 =.. Kdbchom věděli, že X = x, pak b Y přispívalo podm. entropií H(Y X = x): p Y X ( x): x A B C p X (x) H(Y X = x) střední hodnota H(Y X) =, též H(Y X) = H(X, Y ) H(X). =.585.585 =.

Literatura [Roman] Roman, S.: Coding and Information Theor. Graduate Texts in Mathematics, Vol. 4, Springer, 99. [Moser] Moser, S.M.: Information Theor. National Chiao Tung Universit, Hsinchu, Taiwan,. [MacKa] MacKa, D.J.C.: Information Theor, Inference, and Learning Algorithms. Cambridge Universit Press,. [Cover, Thomson] Cover, T.M., Thomson, J.: Elements of Information Theor. Wile, 99. [Vajda] Vajda, I.: Teorie informace. ČVUT, Praha, 4. [MN: PMS] Navara, M.: Pravděpodobnost a matematická statistika. ČVUT, Praha, 7. [Apl. mat.] kol.: Aplikovaná matematika. Oborové encklopedie SNTL, Praha, 978. [Enc. Math.] Hazewinkel, M.: Encclopaedia of Mathematics. Kluwer Academic Publishers, 995.