Teorie informace II: obtížnější řešené příklady 2014 Tomáš Kroupa



Podobné dokumenty
Teorie informace: řešené příklady 2014 Tomáš Kroupa

Algoritmy komprese dat

13. cvičení z PSI ledna 2017

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

2. Určete jádro KerL zobrazení L, tj. nalezněte alespoň jednu jeho bázi a určete jeho dimenzi.

5. Lokální, vázané a globální extrémy

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

14. cvičení z PSI. 9. ledna Pro každý stav platí, že všechny hrany z něj vycházející mají stejnou pravděpodobnost.

14. cvičení z PSI. 9. ledna 2018

Úvod do teorie kódování

5.1. Klasická pravděpodobnst

Markovské metody pro modelování pravděpodobnosti

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

1 Linearní prostory nad komplexními čísly

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

0.1 Úvod do lineární algebry

Komprese dat (Komprimace dat)

Úvod do teorie informace

8 Kořeny cyklických kódů, BCH-kódy

Pravděpodobnost a statistika

1 Vektorové prostory.

Algoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Návrh Designu: Radek Mařík

[1] samoopravné kódy: terminologie, princip

Značení 1.1 (posloupnost výsledků pokusu). Mějme posloupnost opakovaných (i závislých) pokusů,

3 Lineární kombinace vektorů. Lineární závislost a nezávislost

4. Aplikace matematiky v ekonomii

Matice přechodu. Pozorování 2. Základní úkol: Určete matici přechodu od báze M k bázi N. Každou bázi napíšeme do sloupců matice, např.

Lineární programování

1 Determinanty a inverzní matice

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

Data v počítači. Informační data. Logické hodnoty. Znakové hodnoty

Generující kořeny cyklických kódů. Generující kořeny. Alena Gollová, TIK Generující kořeny 1/30

Úvod do teorie informace

3. ANTAGONISTICKÉ HRY

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

IB112 Základy matematiky

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Kódováni dat. Kódy používané pro strojové operace

Matematická analýza III.

SHANNONOVA TEORIE TAJNÉ KOMUNIKACE

6 Ordinální informace o kritériích

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

ALGEBRA. Téma 5: Vektorové prostory

BCH kódy. Alena Gollová, TIK BCH kódy 1/27

PRAVDĚPODOBNOST A STATISTIKA

1. DIFERENCIÁLNÍ POČET FUNKCE DVOU PROMĚNNÝCH

Cyklické kódy. Definujeme-li na F [x] n sčítání a násobení jako. a + b = π n (a + b) a b = π n (a b)

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

1 Co jsou lineární kódy

MKI Funkce f(z) má singularitu v bodě 0. a) Stanovte oblast, ve které konverguje hlavní část Laurentova rozvoje funkce f(z) v bodě 0.

1 Polynomiální interpolace

Parametrické programování

Bayesovské metody. Mnohorozměrná analýza dat

Matematické základy šifrování a kódování

1 Zobrazení 1 ZOBRAZENÍ 1. Zobrazení a algebraické struktury. (a) Ukažte, že zobrazení f : x

0.1 Úvod do lineární algebry

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

Matematika I, část I Vzájemná poloha lineárních útvarů v E 3

Vzdálenost jednoznačnosti a absolutně

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2014

Operace s maticemi. 19. února 2018

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru

Přijímací zkouška na navazující magisterské studium 2018

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Úlohy klauzurní části školního kola kategorie A

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

ANTAGONISTICKE HRY 172

Technická kybernetika. Obsah. Principy zobrazení, sběru a uchování dat. Měřicí řetězec. Principy zobrazení, sběru a uchování dat

Riemannův určitý integrál

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

CVIČNÝ TEST 15. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 15 IV. Záznamový list 17

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

Matematická analýza pro informatiky I. Limita funkce

TEORIE PRAVDĚPODOBNOSTI. 2. cvičení

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Řešení. Hledaná dimenze je (podle definice) rovna hodnosti matice. a a 2 2 1

Informace v počítači. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz

Základy matematické analýzy

cv3.tex. Vzorec pro úplnou pravděpodobnost

Odhad parametrů N(µ, σ 2 )

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2013/2014 Radim Farana. Obsah. Kybernetika

Cvičení Programování I. Stručné poznámky ke cvičení ze

Osnova přednášky. Informace v počítači. Interpretace dat. Údaje, data. Úvod do teorie informace. Výpočetní technika I. Ochrana dat

12. Lineární programování

Hammingovy kódy. dekódování H.kódů. konstrukce. šifrování. Fanova rovina charakteristický vektor. princip generující a prověrková matice

které je z různých pohledů charakterizují. Několik z nich dokážeme v této kapitole.

PŘEDNÁŠKA 2 POSLOUPNOSTI

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25

NÁHODNÝ VEKTOR. 4. cvičení

Průvodce studiem. do bodu B se snažíme najít nejkratší cestu. Ve firmách je snaha minimalizovat

Transkript:

Teorie informace II: obtížnější řešené příklady 204 Tomáš Kroupa. Máme n mincí, z nichž nejvýše jedna je falešná. Pozná se podle toho, že má jinou hmotnost než ostatní mince (ty váží všechny stejně). Mince vážíme na rovnoramenné váze se dvěma miskami. Nalezněte horní mez pro počet mincí n, která umožní nalézt falešnou minci pomocí k vážení a současně rozhodnout, zda je nalezená falešná mince lehčí či těžší. Pokuste se úlohu interpretovat z hlediska teorie informace. Pěkný výklad problému: http://www.geeksforgeeks.org/decision-trees-fake-coin-puzzle/ http://grokrate.blogspot.cz/2007/05/solving-oddball-problem-with-n-balls.html Velmi zjednodušeně lze řešení popsat takto. Při každém vážení nastane právě jedna ze tří možností: (a) první miska je těžší, (b) první miska je lehčí, (c) misky jsou v rovnováze. Pomocí zadaného počtu vážení k tak lze rozlišit nejvýše 3 k možností. Pro n mincí máme dohromady 2n + stavů (jedna z mincí je těžší, jedna z mincí je lehčí, žádná mince není falešná). Pokud chceme splnit zadání, musí nutně platit 2n + < 3 k, nebo-li n < 3k. 2 Možná interpretace z hlediska teorie informace: každé vážení přinese právě log 3 bity informace, entropie celé množiny stavů je log(2n+). K určení falešné mince je proto třeba realizovat vážení. To dává stejný výsledek. k > log(2n + ) log 3 2. Entropie a dělení. Náhodně vybereme přirozené číslo od do 050 a určíme jeho zbytek po dělení 5. Určete: (a) entropii vybraného čísla, (b) entropii jeho modulu, Strana z 4

Teorie informace II: obtížnější řešené příklady 204 (c) střední podmíněnou entropii modulu vzhledem k vybranému číslu, (d) střední podmíněnou entropii vybraného čísla vzhledem k modulu. (a) log 050. (b) Zbytky 0,..., 4 jsou zřejmě stejně pravděpodobné a proto je entropie modulu log 5. (c) Pokud známe vybrané číslo, potom zbytek je funkcí tohoto číslo a proto je entropie nulová. (d) Při znalosti zbytku po dělení 5 máme zřejmě na výběr mezi 050 5 stejně pravděpodobnými čísly a tudíž je entropie rovna log 20. 3. Entropie funkce náhodné veličiny. Uvažujme konečné abecedy Λ a Γ a zobrazení g : Λ Γ. Je-li X náhodná veličina s výběrovým prostorem Λ, položme Y = g(x). Ukažte, že zobrazením X nezvýšíme entropii H(X), přesněji: vždy platí H(X) H(Y ) a rovnost nastává právě tehdy, když g je prosté na množině { x Λ p X (x) > 0 }. Pro rozdělení veličiny Y platí p Y (y) = x Λ g(x)=y Entropii H(X) můžeme vyjádřit takto: H(X) = x Λ y Γ p X (x) log p X (x) = y Γ x Λ g(x)=y p X (x), y Γ. () x Λ g(x)=y p X (x) log p X (x) p X (x) log p Y (y) = y Γ p Y (y) log p Y (y) = H(Y ), kde nerovnost výše plyne z monotonie logaritmu a vztahu (). Rovnost přitom nastává právě tehdy, když za sumou y Γ je pouze jeden sčítanec, což je ekvivalentní požadavku, aby funkce g byla prostá s pravděpodobností. 4. Byl nalezen jednoznačně dekódovatelný n-ární kód s délkami kódových slov (,, 2, 3, 2, 3). Jaká je minimální možná hodnota n, tedy počet znaků kódovací abecedy? Strana 2 z 4

Teorie informace II: obtížnější řešené příklady 204 Každý jednoznačně dekódovatelný n-ární kód splňuje Kraftovu nerovnost a proto musí platit f(n) := n + n + n 2 + n 3 + n 2 + n 3. Kód nemůže být binární, neboť f(2) >. Zřejmě ( f(3) = 2 3 + 9 + ) = 26 27 27 a tudíž existuje ternární (n = 3) jednoznačně dekódovatelný kód nad abecedou {0,, 2} se zadanými délkami kódových slov. 5. Navrhněte kódovací algoritmus pro markovský zdroj informace a posuďte jeho efektivitu. Návod: použijte různé kódy v závislosti na aktuálně načteném zdrojovém symbolu. Uvažujme markovský řetězec s maticí přechodu P = (p ij ) i,j Λ, který popisuje náhodné přechody mezi symboly n-prvkové abecedy Λ. Pro každé i Λ, nalezněme Huffmanův kód C i H pro zdroj popsaný pravděpodobnostmi (p i,..., p in ). Kódování bude probíhat takto: (a) první znak lze zakódovat kódem s pevnou délkou slova, tedy nejvýše pomocí log n bitů; (b) libovolný znak i Λ na pozici m (m 2) zakódujeme pomocí kódu C j H, je-li na (m )-pozici znak j Λ. Efektivitu tohoto kódu budeme vyhodnocovat pomocí rychlosti entropie H(X ), která měří entropii na znak markovského zdroje. Při tom lze asymptoticky zanedbat první symbol z části (a), který se v celeém řetězci vyskytne pouze jednou. Uvažujeme, že p X = (p i ) i Λ je stacionární rozdělení tohoto řetězce a označme takto vzniklý kód jako C. Jelikož je Huffmanův kód optimální, platí pro každé i Λ což dává součtem přes i Λ H(X 2 X = i) L(C i H) < H(X 2 X = i) +, H(X 2 X ) p i L(CH) i < H(X 2 X ) +. i Λ } {{ } L(C) Strana 3 z 4

Teorie informace II: obtížnější řešené příklady 204 Jelikož pro markovský řetězec platí H(X ) = H(X 2 X ), redundance kódu C je nejvýše H(X ) +, tedy o jeden bit více než je entropie, což je stejný výsledek jako pro bezpaměťový zdroj. 6. Bezpaměťový zdroj nad abecedou Λ = {a, b, c} má pravděpodobnosti jednotlivých písmen p(a) = 0.3, p(b) = 0.6, p(c) = 0.. Nad znaky uvažujeme uspořádání a < b < c. Použijte algoritmus aritmetického kódování s délkou bloku 5 k zakódování zdrojového řetězce bacca. Dále popište způsob dekódování takto nalezeného kódového slova. Délka bloku M = 5. Jelikož je M stejné jako délka kódovaného řetězce, dostaneme pouze jedno kódové slovo. Položme dále p 0 =, F 0 = 0 a f a = 0, f b = p(a) = 0.3, f c = p(a) + p(b) = 0.9. Budeme postupně číst jednotlivé znaky řetězce bacca a počítat První krok: Druhý krok: p k = p k p(u k ), F k = F k + p k f uk, k =,..., 5. Konečně v pátem kroku dostaneme p = p(b) = 0.6, F = F 0 + p 0 f b = 0.3. p 2 = p p(a) = 0.8, F 2 = F + p f a = 0.3. p 5 = p 4 p(a) = 0.00054, F 5 = F 4 + p 4 f a = 0.4782. Určíme délku kódového slova: l = log p 5 + = 2. Číslo F 5 převedeme do dvojkové soustavy, ořízneme na délku 2 a k výsledku přičteme 2 2 : (F 5 ) 2 = (0.4782) 2 = (0.00000) 2, (F 5 ) 2 + 2 2 = (0.0000) 2. Strana 4 z 4

Teorie informace II: obtížnější řešené příklady 204 Výsledné binární kódové slovo je 0000. Jak bude probíhat dekódování? Máme k dispozici jen zakódované slovo a pravděpodobnosti zdrojových znaků. Z nich můžeme spočítat horní mez pro délku hypotetického kódového slova: lmax = 5 log + = 5 log 0 + = 8. p(c) Jelikož je slovo 0000 kratší než l max, stačí uvažovat celé zadané kódové slovo. Položme k =, p 0 = a určeme desítkové vyjádření čísla F = (0.0000) 2 : dostaneme F = 0.478274844. Hledáme největší f αi takové, že f αi F. Zřejmě α i = b, f b = 0.3. První zakódovaný znak byl tedy b a my provedeme update pravděpodobností zbylé části řetězce: F 2 = F f b = 0.2979407. p(b) p = p 0 p(b) = 0.6. Pravděpodobnost F 2 odpovídá zatím nedekódovanému řetězci acca. Postupujeme stejně: největší f αi je nyní f a = 0, což dává: F 3 = F 2 f a = 0.990397357. p(a) p 2 = p p(a) = 0.8. Takto pokračujeme analogicky až do pátého kroku, kdy dekódujeme poslední symbol a. 7. Instantní kódy. Pro informační zdroj nad 6-prvkovou abecedou produkující znaky s pravděpodobnostmi nalezněte p = 0., p 2 = p 3 = 0.25, p 4 = 0.05, p 5 = 0.5, p 6 = 0.2 (a) 2 různé kódy Shannonovského typu, (b) Fanův kód, (c) Shannonův kód, (d) Huffmanův kód. Určete jejich střední délky a posuďte efektivitu každého z nich. Strana 5 z 4

Teorie informace II: obtížnější řešené příklady 204 (a) Nalezeneme kódový strom, jehož 6 listů je v hloubce log p i, i =,..., 6. Tak dostaneme kód Shannonovského typu 00, 0,, 000, 0, 00. Jiný kód získáme bitovou inverzí výše uvedeného. (b) Fanův kód: 0, 00, 0,, 0, 0. (c) Uvažujeme permutaci π prvků z {,..., 6} takovou, že π(2) =, π(3) = 2, π(6) = 3, π(5) = 4, π() = 5, π(4) = 6. Binární kód slova C(i) určíme pomocí binárního rozvoje čísla F i, kde 0 i =, F i := i p π (j) i = 2,..., 6, j= přičemž uvažujeme vždy prvních l i := log p π (i) pozic z daného rozvoje. (d) Huffmanův kód může vypadat např. takto: 000, 0, 00, 00, 000, 0. 8. Blokové kódování. Bezpaměťový zdroj nad abecedou Λ = {, 2, 3, 4, 5, 6} generuje řetězec začínající znaky 32463324234 Zakódujte tuto část řetězce pomocí optimálního instantního kódu o délce vstupního bloku 2 a posuďte efektivitu takového kódování ve srovnání s optimálním kódováním jednotlivých symbolů abecedy Λ. Zdroj je bezpaměťový, pravděpodobnosti jednotlivých symbolů odhadneme na základě relativních četností z pozorované sekvence: p() = 2, p(2) = 3 2, p(3) = 4 2, p(4) = 3 2, p(6) = 2. Optimální kódování jednotlivých symbolů je Huffmanovo, jeho střední kódová délka je 2.67. Entropie zdroje je 2.26. Strana 6 z 4

Teorie informace II: obtížnější řešené příklady 204 V případě Huffmanova kódování o délce bloku 2 musíme nejprve určit pravděpodobnosti všech dvojic znaků z množiny {, 2, 3, 4, 6} {, 2, 3, 4, 6}: p() = p()p() = 2 2, p(2) = p()p(2) = 2 2 2 atd. Pro nový zdroj určíme blokový Huffmanův kód C 2, jeho střední délku L(C2 ) 2 porovnáme s entropií. 9. Optimální konstrukce otázek. Alice vybere náhodně přirozené číslo od do 5 s pravděpodobnostmi p = 0.25, p 2 = 0.25, p 3 = 0.2, p 4 = p 5 = 0.5. Úkolem Boba je uhodnout zvolené číslo pomocí sekvence binárních otázek (odpověď ano/ne). Jak má Bob postupovat, aby byl počet otázek minimální? Úlohu řešte za předpokladu, že pravděpodobnosti p,..., p 5 jsou pro Boba (a) známé, (b) neznámé. Za předpokladu (a) úlohu převedeme na konstrukci Huffmanova kódu pro zdroj s uvedenými pravděpodobnostmi. Binární Huffmanův kód vypadá např. takto: C() = 00, C(2) = 0, C(3) =, C(4) = 00, C(5) = 0. Otázky zkonstruujeme podle způsobu procházení Huffmanova kódového stromu od kořene. Začneme otázkou Je neznámé číslo 2 nebo 3?, neboť ta umožní odlišit první bit kódového slova. V případě kladné odpovědi se ptáme Je neznámé číslo 3?, v případě záporné Je neznámé číslo 4 nebo 5? atd. Střední hodnota počtu otázek, které musíme položit, je rovna střední délce Huffmanova kódu: L(C) = 2.3. V situaci (b) bude Bob (pesimisticky) předpokládat, že Alice volí všechna čísla se stejnou pravděpodobností. Tím dosáhne konzervativního odhadu počtu nutných otázek. Postup je stejný jako v (a). Nalezneme tak Huffmanův kód pro zdroj s pravděpodobnostmi rovnými 5 : C () = 00, C (2) = 0, C (3) =, C (4) = 00, C (5) = 0. Oba kódy C i C jsou stejné, jejich střední délka je však jiná, neboť L(C ) = 2.4. Tedy v průměru potřebuje Bob v situaci (b) více otázek. Strana 7 z 4

Teorie informace II: obtížnější řešené příklady 204 0. Pro bezpaměťový zdroj z Příkladu 6 dekódujte posloupnost 000000 které byla zakódována aritmetickým kodérem s délkou bloku M = 2. Spočítejme horní mez pro délku kódových slov: lmax = 2 log + = 2 log 0 + = 8. p(c) Vezmeme tedy prvních 8 bitů, položíme k =, p 0 =, a hledáme desítkové vyjádření čísla F = (0.000) 2. Dostaneme F = 0.905625. Jelikož f c = 0.9 < F, první znak je c. Upravíme pravděpodobnosti ve zbylé části řetězce: F 2 = F f c = 0.05625. p(c) p = p 0 p(c) = 0.. Položíme k = 2. Jelikož f a = 0 < F 2, druhý znak je a. Protože k = M, zbývá dopočítat skutečnou délku kódového slova: l = log + = 7. p(ca) Ze sekvence 000 délky 8 jsme tak extrahovali kódové slovo 000 délky 7. Dále tak pokračujeme dekódováním řetězce 000. Jelikož l max = 8, vezmeme slovo 0 délky 8 a postupujeme analogicky jako výše. Získáme tak kódové slovo 0 identické se vstupním, to odpovídá dvojici cc. V posleddním kroku dostaneme ze vstupního řetězce 00 kódové slovo, které reprezentuje dvojici ba. Zdrojový řetězec byl tedy caccba.. Máte k dispozici náhodný generátor bitů, tj. můžete simulovat hodnoty náhodné veličiny X takové, že p X (0) = p X () =. Uvažujme nad abecedou Λ = {a, b, c} pravděpodobnostní funkce 2 p(a) =, p(b) = p(c) = a q(a) =, q(b) =, q(c) =. 2 4 3 6 2 Strana 8 z 4

Teorie informace II: obtížnější řešené příklady 204 Popište, jakým způsobem byste simulovali náhodný výběr z rozdělení p a q pomocí opakovaného použití náhodného generátoru bitů. Pokuste se zdola odhadnout střední hodnotu počtu potřebných bitů. Simulace z p: stačí nalézt Huffmanův kód pro p, např. C H (a) = 0, C H (b) = 0, C H (c) =. Algoritmus: (a) je-li náhodný bit roven 0, pak vypiš a; (b) je-li náhodný bit roven, pak vygeneruj další bit a podle hodnoty vypiš buď b nebo c. Uvedený postup odpovídá kódovacímu stromu, jehož střední délka je L(C H ) = H(p) = 3 2. Průměrný počet potřebných bitů je tedy 3 2. Simulace z q: pravděpodobnosti nejsou dyadické, dosáhneme jich tedy pouze v dlouhé sérii pokusů. Algoritmus je určen nekonečným rozvojem pravděpodobností: = 3 n= 2 2n, = 6 n= 2 2n. Simulaci lze popsat (nekonečným) rozhodovacím stromem, algoritmus vypadá např. takto: (a) pokud je první bit roven, vypiš c; (b) pokud je první bit roven 0 a generované bitové slovo neobsahuje a končí 00, vypiš a; (c) pokud je první bit roven 0 a generované bitové slovo neobsahuje 00 a končí, vypiš b. Střední délka takového kodovacího stromu je L(C) = n2 n = 2, n= přičemž entropie je pouze H(q). =.46. To znamená, že k simulaci jednoho znaku potřebujeme v průměru 2 bity. 2. Pro bezpaměťový zdroj nad abecedou {a, b, c, d} s pravděpodobnostmi p(a) = 0., p(b) = 0.4, p(c) = p(d) = 0.25, nalezněte Tunstallův kód o délce kódového slova L = 3 a posuďte jeho efektivitu. Strana 9 z 4

Teorie informace II: obtížnější řešené příklady 204 Nejprve určíme počet neterminálních uzlů budovaného stromu: 2 3 N = = 2. 4 Dostaneme tedy n = + 3N = 7 zpráv. Tunstallova množina zpráv má tento tvar: {a, ba, bb, bc, bd, c, d}. Tunstallův kód vznikne např. tímto přiřazením: a 000, ba 00, bb 00, bc 00, bd 0, c 0, d 0. Střední délka zpráv je E(M) = + 0.4 =.4, entropie zdroje je H(U) =.86. Tedy L E(M) = 3.4. = 2.4 H(U) =.86. 3. Markovský řetězec má matici přechodu P = ( /6 5 /6 /2 /2 ) a počáteční rozdělení p X je rovno vektoru ( 8, 5 ). Určete, zda v této situaci existuje 23 23 rychlost entropie a v kladném případě určete její hodnotu. Markovský řetězec je ireducibilní aperiodický a počáteční rozdělení p X = ( 8, 5) je 23 23 rozdělením stacionárním, neboť platí p X P = p X. Proto existuje rychlost entropie H(X ) tohoto řetězce a nalezneme ji takto: H(X ) = H(X 2 X ) = 8 23 H( /6, 5 /6) + 5 } {{ } entropie. řádku P 23 H( /2, /2) } {{ } entropie 2. řádku P. = 0.7695. 4. Experimentálně (např. v MATLABu) zdůvodněte, proč je markovský řetězec z Příkladu 3 ireducibilní aperiodický. Dále přesně vysvětlete, proč je řetězec s maticí 0 2 3 0 3 3 0 2 3 0 Q = 0 3 0 2 3 2 3 0 3 0 Strana 0 z 4

Teorie informace II: obtížnější řešené příklady 204 ireducibilní, ovšem ne aperiodický. Tento fakt ověřte opět pomocí experimentů. Lze něco tvrdit o limitě n lim Q k? n n k= Pomocí vhodného nástroje snadno určíme hodnoty matice P n pro n. Zjistíme tak, že pro velmi velké n se matice P n blíží matici ( ) 2 /3 /3, 2 /3 /3 která má v každém řádku stacionární rozdělení. To není náhoda: markovský řetězec s maticí P a stacionárním rozdělením p je ireducibilní aperiodický právě tehdy, když platí lim n Pn = Všechny stavy v řetězci s maticí Q jsou trvalé a vzájemně dosažitelné, proto je tento řetězec ireducibilní. Není aperiodický, neboť návraty do libovolného stavu mohou nastat jen po sudém počtu kroků: každý stav má tak periodu 2. Protože je tento markovský řetězec ireducibilní, tvoří ergodický proces a platí pouze lim n n n Q k = k= p... p. přičemž vektor ( /4, /4, /4, /4) je stacionární rozdělení., 5. Pomocí jednoduché verze binárního LZ-kódování zakódujte řetězec babacbcccbcac. LZ-parsování daného řetězce délky n = 3 vypadá takto: b a ba c bc cc bca a Strana z 4

Teorie informace II: obtížnější řešené příklady 204 Pro kódování jednotlivých symbolů a, b, c je nutno vyhradit 2 bity, kodér může vypadat takto: g(a) = 00, g(b) = 0, g(c) = 0. Pro kódování ukazatelů je potřeba vyhradit log n =4 bity. Dostaneme tak následující kód, 0g(b) 0g(a) 00000g(a) 0g(c) 00000g(c) 000g(c) 0000g(a) 000 v němž jsou tučná bitová slova ukazatele na prefixy. 6. Alternativní míra závislosti dvou veličin. Nechť X a X 2 jsou diskrétní náhodné veličiny se stejným pravděpodobnostním rozdělením na konečné množině Λ. Předpokládejme H(X ) 0 a položme ρ = H(X 2 X ). H(X ) (a) Ukažte, že platí ρ = I(X ;X 2 ) H(X ). (b) Ukažte, že platí 0 ρ. (c) Kdy platí ρ = 0? (d) Kdy platí ρ =? (a) Platí ρ = H(X ) H(X 2 X ) H(X ) = H(X 2) H(X 2 X ) H(X ) = I(X ; X 2 ) H(X ). (b) Jelikož 0 H(X 2 X ) H(X 2 ) = H(X ), dostáváme 0 H(X 2 X ) H(X ), což znamená 0 ρ. (c) ρ = 0 I(X ; X 2 ) = 0 X a X 2 jsou nezávislé (d) ρ = H(X 2 X ) = 0 existuje funkce f : Λ Λ taková, že p X2 X (f(x ) x ) =, pro každé x Λ splňující p X (x ) > 0. 7. Dvojně stochastické matice. Matice přechodu P = (p ij ) Markovova řetězce se stavovým prostorem Λ = {,..., n} je dvojně stochastická, pokud platí i Λ p ij =, pro každé j Λ. Ukažte, že matice P je dvojně stochastická právě tehdy, když rovnoměrné rozdělení na Λ je stacionárním rozdělením Markovova řetězce. Strana 2 z 4

Teorie informace II: obtížnější řešené příklady 204 Nechť P je dvojně stochastická a p = (,..., ) je rovnoměrné rozdělení na Λ. Potom n n platí pp = (,..., )P = p a p je tudíž stacionární rozdělení Markovova řetězce. n n Obráceně, buď stacionární rozdělení p rovnoměrné, p = (p,..., p n ) = (,..., ). n n Potom pro každé j =,..., n, = p n j = n p i p ij = n i= n p ij. i= Tedy P je nutně dvojně stochastická. 8. Entropie geometrického rozdělení. Opakujme pokus se dvěma možnými výsledky 0 a nezávisle na sobě až do prvního výskytu. Pravděpodobnost je p (0, ). Náhodná veličina X označuje číslo pokusu, v němž došlo k prvnímu výskytu. Zřejmě tedy platí p X (x) = p( p) x, x N. Určete entropii H p, která je (přirozeně) definována jako H p = x= p X(x) log p X (x), a stanovte průběh funkce H p v závislosti na proměnné p. x= H p = ( p) x p ( (x ) log( p) + log p ) x= ( ) = p log( p) (x )( p) x + log p ( p) x. x= Součet první řady získáme takto: ( ( ) ) ( ( ) ( p) (x )( p) x = ( p) ( p) x 2 ) = ( p) p = p p 2. x=2 x= Druhá řada je geometrická. Z toho plyne ( p H p = p log( p) + ) p 2 p log p = p log( p) log p = p H(p, p). p Povšimněme si, že platí lim H p = 0 a lim H p = +. Výpočtem derivace se lze p p 0 + přesvědčit, že funkce H p je klesající (Obrázek ). Strana 3 z 4

Teorie informace II: obtížnější řešené příklady 204 H 6 4 2 0.2 0.4 0.6 0.8.0 p Obrázek : Průběh funkce H p Strana 4 z 4