Teorie informace. Mirko Navara. katedra kybernetiky FEL ČVUT Karlovo náměstí, budova G, místnost 104a navara/psi 3. 1.

Podobné dokumenty
Teorie informace: řešené příklady 2014 Tomáš Kroupa

Diskrétní náhodná veličina. November 12, 2008

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

NMAI059 Pravděpodobnost a statistika

13. cvičení z PSI ledna 2017

Základy teorie pravděpodobnosti

Komplexní analýza. Holomorfní funkce. Martin Bohata. Katedra matematiky FEL ČVUT v Praze

Odhady Parametrů Lineární Regrese

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

1 Rozptyl a kovariance

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Vzdálenost jednoznačnosti a absolutně

Matematika I. Přednášky: Mgr. Radek Výrut, Zkouška:

Algoritmy komprese dat

NÁHODNÝ VEKTOR. 4. cvičení

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

10. N á h o d n ý v e k t o r

Téma 22. Ondřej Nývlt

Pravděpodobnost a statistika I KMA/K413

Náhodný vektor a jeho charakteristiky

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Intervalová data a výpočet některých statistik

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Poznámky k předmětu Aplikovaná statistika, 4. téma

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Cvičení ze statistiky - 5. Filip Děchtěrenko

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Pravděpodobnost a aplikovaná statistika

Základy teorie pravděpodobnosti

Síla a významnost asociace mezi proměnnými v systému

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Poznámky k předmětu Aplikovaná statistika, 4. téma

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

Schéma identifikační procedury

Statistika II. Jiří Neubauer

Úvod do teorie kódování

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základy počtu pravděpodobnosti a metod matematické statistiky

Bayesovské metody. Mnohorozměrná analýza dat

Pravděpodobnost a matematická statistika

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Náhodná veličina a rozdělení pravděpodobnosti

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Doporučené příklady k Teorii množin, LS 2018/2019

Přednáška IV. Náhodná veličina, rozdělení pravděpodobnosti a reálná data

Odpřednesenou látku naleznete v kapitole 3.3 skript Diskrétní matematika.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

I. D i s k r é t n í r o z d ě l e n í

Úvod do teorie her

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Náhodné chyby přímých měření

Statistická teorie učení

p(x) = P (X = x), x R,

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

7. Rozdělení pravděpodobnosti ve statistice

, 4. skupina (16:15-17:45) Jméno: se. Postup je třeba odůvodnit (okomentovat) nebo uvést výpočet. Výsledek bez uvedení jakéhokoliv

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

2 Hlavní charakteristiky v analýze přežití

AVDAT Klasický lineární model, metoda nejmenších

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

12. cvičení z PST. 20. prosince 2017

Aplikace 2: Hledání informativních příznaků pro rozpoznávání

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Písemná zkouška z Matematiky II pro FSV vzor

Hloubka dat. kontury, klasifikace a konzistence. Daniel Hlubinka

Výběrové charakteristiky a jejich rozdělení

Odhady - Sdružené rozdělení pravděpodobnosti

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

10 Funkce více proměnných

Zápočtová písemka z Matematiky III (BA04) skupina A

+ 2y. a y = 1 x 2. du x = nxn 1 f(u) 2x n 3 yf (u)

Drsná matematika III 1. přednáška Funkce více proměnných: křivky, směrové derivace, diferenciál

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Chyby měření 210DPSM

Pravděpodobnostní algoritmy

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

11. přednáška 10. prosince Kapitola 3. Úvod do teorie diferenciálních rovnic. Obyčejná diferenciální rovnice řádu n (ODR řádu n) je vztah

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Funkce jedn e re aln e promˇ enn e Derivace Pˇredn aˇska ˇr ıjna 2015

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

NÁHODNÁ VELIČINA. 3. cvičení

Transkript:

Teorie informace Mirko Navara Centrum strojového vnímání katedra kbernetik FEL ČVUT Karlovo náměstí, budova G, místnost 4a http://cmp.felk.cvut.cz/ navara/psi.. 7 Obsah Informace Entropie. Entropie jako střední hodnota...................................... 4. Vlastnosti entropie............................................ 4 Informační divergence 5. Informační divergence jako střední hodnota............................... Vlastnosti informační divergence.................................... 7 4 Sdružená entropie 7 4. Podmíněná entropie........................................... 8 5 Vzájemná informace 9 5. Shrnutí vlastností vzájemné informace a podmíněné entropie.................... Informace Teorie pravděpodobnosti popisovala sstém, v němž bude proveden náhodný pokus. Jeho výsledk (i dílčí) popíše informace. Informací může být určení výsledku náhodného pokusu, tj. hodnot náhodné veličin, předpověď, stanovení výsledku, sdělení výsledku. Předpokládáme diskrétní rozdělení. Příklad. (provozování loterie). V loterii bude. = 5 losů po 4 $, z nichž vhraje M$. Certifikované losovací zařízení s 5 výsledk není. (Např. ruleta o průměru km.) Los očíslujeme a necháme nezávisle vlosovat číslice. Problém: Kolik máme zaplatit za vlosování číslic? (. číslice má jen 5 stejně pravděpodobných hodnot.) Řešení: Podle hr větší-menší vlosujeme 9 nezávislých binárních číslic, čímž rozlišíme 9 = 54 88 možností. Máme za vlosování každé číslice zaplatit stejně?

Ano! (Mj. proto, že všechn hod mincí mají stejnou pracnost.) K výběru z k (k N) stejně pravděpodobných možností potřebujeme informaci I( k ) := k I() = k b, I() = b (bit). Rchlejší řešení: Vžd vlosujeme ze možností, postačí nezávislých pokusů, = 5 44. Kolik informace I() dává výběr ze stejně pravděpodobných možností? 5 = 4. = 5 = 8, I(). = 8 5 =., = 5 44 =. 54 88 = 9, I() =. 9 =. 58,... log M = M = log M, I() = log M log M = log. =. 585. Obecně výběr z n stejně pravděpodobných možností nese informaci I(n) := log n. I = Hartleho míra informace. Je to jediná funkce I : N R s vlastnostmi: I(m n) = I(m) + I(n), I je neklesající, I() =. Základ logaritmu je, čímž je dána jednotka informace (b = bit). Speciálně pro n = k : I( k ) = k. Nadále základ neoznačujeme, log = log. 5 4 Funkce log p pro p (, Derivace: ( ) ln x (log x) = =... 44 = =. ln x ln.9 x x Kolik informace dostaneme, kdž se dovíme, že správná z n stejně pravděpdobobných možností patří do skupin s k < n prvk? Chbí informace I(k), abchom určili jediný výsledek, tj. abchom měli celkem I(n); nní máme I(n) I(k) = log n log k = log n k. Záleží jen na poměru n k, tj. na pravděpdobnosti p := k n, což dovoluje zobecnění ( n ) ( ) I = I := log n k p k = log p = log p. I pro iracionální p (, definujeme jako jedinou spojitou funkci s výše uvedenými hodnotami pro racionální argument: ( ) I := log p. p (Nepravděpodobnější výsledek větší informace.)

Entropie Příklad.. hodnota pravděpodobnost informace I() = log =..585 I ( Cena předplacené informace je střední hodnota h (, ) = log = log. =.585 ) := log + log = log Obecněji: hodnota x x pravděpodobnost p p informace kde ( I p ) ( = log p I p ) = log( p). =.98. h(p, p) := p log p ( p) log( p), }{{}}{{} ι(p) ι( p) ι(p) := p log p, p >, ι() :=. h(p, p) = entropie alternativního rozdělení..5..4.8....4.. Funkce p log p pro p, Funkce h(p, p) pro p, Obecně: hodnota x x... pravděpodobnost ( ) p ( ) p... informace I p = log p I p = log(p )... Entropie rozdělení s pravděpodobnostmi p = (p, p,...), p i = : i h(p) = h(p, p,...) := i ι(p i ) = i p i log p i. (Výsledků je spočetně mnoho, nutno předpokládat konvergenci sum.) Entropie náhodné veličin X s různými hodnotami x, x,... a pravděpodobnostní funkcí p X : H(X) := h(p X (x ), p X (x ),...) = x ι(p X (x)) = x p X (x) log p X (x) = E log X Příklad.. = E log p X (X). hodnota x 4 9 pravděpodobnost p X (x) 4 4 informace log p X (x) ( H(X) = h, 4, ) 4 = + 4 + 4 =.

Příklad.. hodnota x. pravd. p X (x)....5 inf. log p X (x) log. =. log 5. =. log 5. =. log = H(X) = h(.,.,.,.5) =. log +. log 5 +. log 5 +.5 =. Entropie jako střední hodnota =.5 log 5 +.. =. 7. Nahradili jsme hodnot náhodné veličin X jejich pravděpodobnostmi (jen na těch záleží!), tím jsme dostali náhodnou veličinu W = p X (X) s hodnotami v,. Její rozdělení popisuje pravděpodobnosti pravděpodobností náhodné veličin X. p W (w) = P [p X (X) = w] = pravděpodobnost, že X nabývá hodnot, jejíž pravděpodobnost je w,. Příklad.4. hodnota x A B C D E F pravd. p X (x)...5...5 informace log p X (x) log log log log 5 log 5 (přibl.)... 77.. W = p X (X): hodnota w..5..5 pravděpodobnost p W (w)..5.4.5 informace v x log w log =.. log. =.77 log 5 =.. První řádek vznikl opsáním všech různých hodnot z. řádku první tabulk. Ve skutečnosti potřebujeme jejich logaritm, jsou v posledním řádku. Druhý řádek obsahuje odpovídající pravděpodobnosti (každá bla vnásobena počtem svých výsktů ve. řádku první tabulk.. Vlastnosti entropie H(X) = E log p X (X) = E log W. =. =.. +.5.77 +.4. +.5. =. 54. H(X) log n, kde n je počet různých hodnot náhodné veličin X (je-li konečný). = H(X) jen pro Diracovo rozdělení, H(X) = log n (kde n je počet možných hodnot) jen pro rovnoměrné rozdělení: Věta.. Maximální entropie se nabývá jen pro rovnoměrné rozdělení. Důkaz. Předpokládejme, že rozdělení (p, p,..., p n ) není rovnoměrné. Pak některá z pravděpodobností je větší a některá menší než n ; BÚNO p > n, p < n. Změnou p := p ε, p := p + ε o malé ε se entropie změní o (ε) = h(p ε, p + ε, p,..., p n ) h(p, p, p,..., p n ) = = ι(p ε) + ι(p + ε) ι(p ) ι(p ), kde ι (p) = ( p log p) = ln log p. Funkce je diferencovatelná, () =, (ε) = ι (p ε) + ι (p + ε) = log(p ε) log(p + ε) = log p ε p + ε. 4

Pro dostatečně malé ε > je p ε > n > p + ε, (ε) > a (ε) >. Ted entropie h(p, p,..., p n ) není maximální. BÚNO = bez újm na obecnosti Důsledek.. Entropie rozdělení s nekonečně mnoha hodnotami může být libovolně velká. Věta.. Důkaz. ( p h(p, p, p,...) = h(p + p, p,...) + (p + p ) h, p + p ) p. p + p h(p, p, p,...) h(p + p, p,...) = = ι(p ) + ι(p ) ι(p + p ) = = p log p p log p + (p + p ) log(p + p ) = p p = p log p log = p + p p + p ( = (p + p ) p p log p ) p log = p + p p + p p + p p + p ( ) p p = (p + p ) h,. p + p p + p Informační divergence Příklad. (chbný předpoklad rovnoměrného rozdělení). Předpokládali jsme rozdělení q = (, ) a odhadli entropii h (, ) =. Ve skutečnosti blo rozdělení p = (, ( ) a entropie h, ). =.98. O kolik jsme nadhodnotili jeden znak? ( h, ) ( h, ).=.98 =.8. Příklad. (chbný předpoklad nerovnoměrného rozdělení). Předpokládali jsme rozdělení q = (, ) a odhadli entropii h (, ). =.9. Ve skutečnosti blo rozdělení p = (, ( ) 5 a entropie h, ) 5. =.5. O kolik jsme nadhodnotili jeden znak? Odpověď: ( h, ) ( h, 5 ).=.98.5 =.8. Špatně! Správná odpověď: hodnota x i x x předp. pravd. q i předp. informace log q i log =..585 log. =.585 5 skut. pravd. p i skut. informace log p i log =..585 log. 5 =. předp. skut. inf. log p i log q i = log pi q i log 5. 4 =. Střední chba odhadu informace je p log p q + p log p q. = ( ) + 5.. =.. 5

Příklad. (chbný předpoklad nerovnoměrného rozdělení ). Vměníme rozdělení z předchozího příkladu: Předpokládali jsme rozdělení q = (, ( ) 5 a odhadli entropii h, ) 5. =.5. Ve skutečnosti blo rozdělení p = (, ( ) a entropie h, ). =.9. O kolik jsme nadhodnotili jeden znak? Špatná odpověď: h (, ( ) 5 h, ). =.5.98 =.8. Správná odpověď: hodnota x i x x 5 předp. pravd. q i předp. inf. log q i log =..585 log. 5 =. skut. pravd. p i skut. inf. log p i log =..585 log. =.585. =. předp. skut. inf. Střední chba odhadu informace je Odhad bl opět nadhodnocený! (Ne stejně.) log p i log q i = log pi q i log 4 5 p log p q + p log p q. =.. =.9. Obecně: Předpokládali jsme rozdělení q = (q, q,...), ve skutečnosti blo p = (p, p,...). hodnota x i x x... předp. pravd. q i q q... předp. inf. log q i log q log q... skut. pravd. p i p p... skut. inf. log p i log p log p... předp. skut. inf. log p i log q i = log pi q i Střední chba odhadu informace je D(p q) := i log p q log p q... p i log p i = p i log p i q i i i }{{} h(p,p,...) p i log q i, kde log :=, log :=, r log r := pro r (,. D(p q) = Kullbackova Leiblerova divergence = informační divergence rozdělení p, q.. Informační divergence jako střední hodnota Máme náhodnou veličinu X, skutečnou pravděpodobnostní funkci p X a předpokládanou pravděpodobnostní funkci q X. (To zde není kvantilová funkce.) Dva pravděpodobnostní model budeme rozlišovat index, např E p X = x x p X (x), H p (X) = E p log p X (X) = h(p X (x ), p X (x ),...), E q X = x x q X (x), H q (X) = E q log q X (X) = h(q X (x ), q X (x ),...). Při výsledku x je předpokládaná informace log q X (x) a skutečná log p X (x). Střední hodnota rozdílu při skutečném rozdělení p je D(p X q X ) = E p log p X(X) q X (X) = E p(log p X (X) log q X (X)) = = E p log p X (X) E p log q X (X). }{{}}{{} H p(x) H q(x) Příklad.4 (chbný předpoklad rovnoměrného rozdělení pokr.). Proč nám to prvně všlo správně? Protože q X (X) = bla konstanta, H q (X) = E q log q X (X) = log = E p log q X (X).

. Vlastnosti informační divergence Může být D(p q) D(q p). Věta.. D(p q) ; rovnost nastává, právě kdž p = q. Důkaz. Předpokládejme p q, BÚNO p < q, p > q. Výraz V (q, q, q,...) := i p i log q i se změnou q := q ε, q := q + ε o malé ε změní o Funkce je diferencovatelná, () =, Pro dostatečně malé ε > je (ε) = V (q ε, q + ε, q,...) V (q, q, q,...) = = p log(q ε) + p log(q + ε) p log q p log q. (ε) = ln p q ε + ln p q ε < < p q + ε, p q + ε. (ε) > a (ε) >. Ted V (q, q, q,...) není maximální. Uvedený argument nelze použít jedině pro p = q, pak nabývá výraz maxima, a to V (p, p, p,...) := i p i log p i = h(p, p, p,...), D(p p) =. 4 Sdružená entropie Sdružená entropie H(X, Y ) náhodných veličin X, Y je entropie náhodného vektoru (X, Y ), počítaná podle stejného principu: X nabývá hodnot x, x,..., Y nabývá hodnot,,..., (X, Y ) nabývá hodnot (x, ), (x, ),..., (x, ), (x, ),...,..., zajímají nás jen jejich pravděpodobnosti p X,Y (x i, j ), z nichž vpočteme H(X, Y ) := i = x ι(p X,Y (x i, j )) = p X,Y (x i, j ) log p X,Y (x i, j ) = j i j ι(p X,Y (x, )) = p X,Y (x, ) log p X,Y (x, ) = x = E log p X,Y (X, Y ). 7

Pro X, Y nezávislé je pro všechna x,, ted i pro střední hodnot p X,Y (x, ) = p X (x) p Y (), log p X,Y (x, ) = log p X (x) log p Y (), H(X, Y ) = E log p X,Y (X, Y ) = E log p X (X) E log p Y (Y ) = = H(X) + H(Y ). Co znamená zápis H( )? p. argumentů tp argumentů význam příklad náhodná veličina entropie náh. veličin H(X) > náhodné veličin entropie náh. vektoru H(X, Y ) (sdr. entropie náh. veličin) Co znamená zápis h( )? p. argumentů tp argumentů význam příklad > čísla, entropie rozdělení h (,, ) se součtem číslo, zkratka pro entropii h ( ( ) = h, ( ) = h ) alternativního rozdělení Příklad 4. (poklad na ostrově). p X,Y (x, ): A B C p x X (x) p Y () H(X) = log. =.585, H(Y ) = log + + log. =. 459, H(X, Y ) = log. =.585 < < H(X) + H(Y ). =.585 +. 459 =. 44.Závislost X, Y nás připravila o H(X) + H(Y ) H(X, Y ). =. 44.585 =.459.Jak včíslit ztrátu informace z jedné proměnné, kdž jsme se dověděli druhou? 4. Podmíněná entropie Pokud nastal jev Y =, aktualizujeme pravděpodobnosti hodnot veličin X pomocí podmíněných pravděpodobností P [X = x, Y = ] p X Y (x ) := P [X = x Y = ] = = p X,Y (x, ). P [Y = ] p Y () V tomto modelu udává střední hodnotu informace veličin X podmíněná entropie H(X Y = ) := x ι(p X Y (x )) = x p X Y (x ) log p X Y (x ). Její střední hodnota v závislosti na Y je střední podmíněná entropie H(X Y ) := p Y () H(X Y = ) = p Y () p X Y (x ) log p X Y (x ) = x = p X,Y (x, ) log p X,Y (x, ) = p x Y () = p X,Y (x, ) log p X,Y (x, ) + p X,Y (x, ) log p Y () = x x = E log p X,Y (X, Y ) + E log p Y (Y ) = H(X, Y ) H(Y ). 8

H(X) H(Y ) H(X Y ) I(X; Y ) H(Y X) H(X, Y ) Obdobně H(Y X = x) = p Y X ( x) log p Y X ( x), H(Y X) = p X (x) H(Y X = x) = p X,Y (x, ) log p Y X ( x) = x x = E log p X,Y (X, Y ) + E log p X (X) = H(X, Y ) H(X). 5 Vzájemná informace Ze sdruženého rozdělení p X,Y vpočítáme marginální pravděpodobnosti p X (x) = p Y () = x p X,Y (x, ), p X,Y (x, ). Z nich vpočítáme sdružené rozdělení q X,Y (x, ) := p X (x) p Y (), které má stejné marginální pravděpodobnosti q X = p X, q Y = p Y, ale odpovídá nezávislým náhodným veličinám. Při rozdělení q X,Y b sdružená entropie všla H(X) + H(Y ). Skutečné rozdělení p X,Y vede na sdruženou entropii H(X, Y ) = p X,Y (x, ) log p X,Y (x, ) = E log p X,Y (X, Y ). x Ztrátu informace v důsledku závislosti X, Y vjadřuje vzájemná informace I(X; Y ) náhodných veličin X, Y, což je informační divergence D(p X,Y q X,Y ): 9

I(X; Y ) := D(p X,Y q X,Y ) = E log p X,Y (X, Y ) E log q X,Y (X, Y ) = = H(X, Y ) E log p X (X) p Y (Y ) = = H(X, Y ) E log p X (X) E log p Y (Y ) = = H(X, Y ) + H(X) + H(Y ). 5. Shrnutí vlastností vzájemné informace a podmíněné entropie Vzájemná informace vjadřuje, kolik informace o jedné proměnné nese druhá proměnná. Důsledk: I(X; Y ) = I(Y ; X), H(X) = I(X; Y ) + H(X Y ), H(Y ) = I(X; Y ) + H(Y X), I(X; Y ) = H(X) + H(Y ) H(X, Y ), H(X Y ) = H(X, Y ) H(Y ), H(Y X) = H(X, Y ) H(X). I(X; Y ) min(h(x), H(Y )), I(X; Y ) = X, Y jsou nezávislé, I(X; Y ) = H(X)!x : p X Y (x ) = (podm. rozdělení jsou Diracova), I(X; X) = H(X). Vše lze beze změn uplatnit i na náhodné vektor. Řetězcové pravidlo: H(X, X,..., X n ) = H(X X,..., X n ) + H(X X,..., X n ) +... + Příklad 5. (poklad na ostrově pokr.). p X,Y (x, ): A B C p x X (x) p Y () + H(X n X n ) + H(X n ). H(X) =..585, H(Y ) =..459, H(X, Y ) =..585. Model s nezávislými veličinami a stejnými marginálními rozděleními: p X (x) p Y (): x 9 9 9 p Y () A B C p X (x) 8 8 8 I(X; Y ) = D(p X,Y p X p Y ) = log + log. =.459, též I(X; Y ) = H(X) + H(Y ) H(X, Y ). =.585 +.459.585 =.459.

Kdbchom věděli, že Y =, pak b X přispívalo podm. entropií H(X Y = ): p X Y (x ): A B C x p Y () H(X Y = ) log střední hodnota H(X Y ) = + log =.., též H(X Y ) = H(X, Y ) H(Y ) =..585.459 =.. Kdbchom věděli, že X = x, pak b Y přispívalo podm. entropií H(Y X = x): p Y X ( x): x A B C p X (x) H(Y X = x) střední hodnota H(Y X) =, též H(Y X) = H(X, Y ) H(X). =.585.585 =.

Literatura [Roman] Roman, S.: Coding and Information Theor. Graduate Texts in Mathematics, Vol. 4, Springer, 99. [Moser] Moser, S.M.: Information Theor. National Chiao Tung Universit, Hsinchu, Taiwan,. [MacKa] MacKa, D.J.C.: Information Theor, Inference, and Learning Algorithms. Cambridge Universit Press,. [Cover, Thomson] Cover, T.M., Thomson, J.: Elements of Information Theor. Wile, 99. [Vajda] Vajda, I.: Teorie informace. ČVUT, Praha, 4. [MN: PMS] Navara, M.: Pravděpodobnost a matematická statistika. ČVUT, Praha, 7. [Apl. mat.] kol.: Aplikovaná matematika. Oborové encklopedie SNTL, Praha, 978. [Enc. Math.] Hazewinkel, M.: Encclopaedia of Mathematics. Kluwer Academic Publishers, 995.