X u zs speci kace { v etev matematiky zabyvaj. Verze : jaro 2018 Jan Staudek, FI MU Brno. X late Middle English

Podobné dokumenty
Informacn teorie. PV 062 Organizace soubor u. Jan Staudek Verze : jaro 2018

Uvod, celkov y prehled problematiky

Uvod, celkov y prehled problematiky

Rzen informacn bezpecnosti v organizaci

Rzen informacn bezpecnosti v organizaci

Distribuovan e algoritmy

Sekven cn soubory. PV 062 Organizace soubor u. Jan Staudek Verze : jaro 2018

Hasov an (hashing) na vn ejsch pam etech

Prklad dokumentov e z akladny ISMS

Vl akna. PB 152 Operacn syst emy. Jan ÐStaudek Verze : jaro 2015

Digit aln vysl an. PV 169 Z aklady prenosu dat. Jan Staudek Verze : podzim 2018

Soubor, souborov e organizace

Digit aln vysl an. K odov an spoje. PV 169 Z aklady prenosu dat. Prvek sign alu, prvek dat, stupe n sign alu. Stupe n dat, baudov a / bitov a rychlost

GPDR, General Data Protection Regulation

Spr ava hlavn pam eti

Sign aly. Data a sign aly. PV 169 Z aklady prenosu dat. Sign al, elektromagnetick y sign al. (Elektromagnetick y) sign al

Algoritmy komprese dat

Hierarchick e indexy, B / B+ stromy, tries

Podsyst em vstupu a v ystupu

Sign aly. PV 169 Z aklady prenosu dat. Jan Staudek Verze : podzim 2018

Spr ava hlavn pam eti

Hierarchick e indexy, B / B+ stromy, tries

Fakulta informacnch technologi CVUT v Praze Prijmac zkouska z matematiky 2018

Hierarchick e indexy, B / B+ stromy, tries

Data a sign aly. Data a sign aly. PV 169 Z aklady prenosu dat. Sign al, elektromagnetick y sign al

Projekt implementace ISMS

Úvod do teorie informace

Prepn an, switching. Propojovac probl em. PV 169 Z aklady prenosu dat. Prepnac, prepnan a st' Metody prepn an

Informace v počítači. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz

Osnova přednášky. Informace v počítači. Interpretace dat. Údaje, data. Úvod do teorie informace. Výpočetní technika I. Ochrana dat

Audit (prezkoum av an) bezpecnostnch opatren, politik, syst em u,...

Vl akna. Proces a vl akna. PB 152 Operacn syst emy. Resen editoru pomoc vl aken. Koncept sekvencnho procesu m uze b yt neefektivn

Obnova transakc po v ypadku

Volba v udce, Leader Election

Audit (prezkoum av an) bezpecnostnch opatren, politik, syst em u,...

Teorie informace: řešené příklady 2014 Tomáš Kroupa

Volba v udce, Leader Election

Teorie informace Obsah. Kybernetika. Radim Farana Podklady pro výuku

Politika informacn bezpecnosti, Dodatek

Automatizační technika. Obsah

Projekt implementace ISMS Dodatek 1, PDCA

Řešení: Dejme tomu, že pan Alois to vezme popořadě od jara do zimy. Pro výběr fotky z jara má Alois dvanáct možností. Tady není co počítat.

Teorie informace Obsah. Kybernetika. Radim Farana Podklady pro výuku

Vzdálenost jednoznačnosti a absolutně

Politika informacn bezpecnosti, Dodatek

N avrh a pouzit metrik informacn bezpecnosti, m eren v ISMS

Distribuovan e prostred, cas a stav v distribuovan em prostred

Soubor, souborov e organizace

Statistick anal 0 5za kompozi 0 0n ͺch tabulek

Distribuovan e prostred, cas a stav v distribuovan em prostred

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

N avrh a pouzit metrik informacn bezpecnosti, m eren v ISMS

Prklady opatren, zranitelnost a hrozeb

1 - Prostředí programu WORD 2007

Struktura a architektura počítačů (BI-SAP) 5

1. Základy teorie přenosu informací

Komprese dat (Komprimace dat)

p (1) k 0 k 1 je pravd podobnost p echodu ze stavu k i v l ; 1 kroku do stavu k j

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa

14/10/2015 Z Á K L A D N Í C E N Í K Z B O Ž Í Strana: 1

Line rn oper tory v euklidovsk ch prostorech V t to sti pou ijeme obecn v sledky o line rn ch oper torech ve vektorov ch prostorech nad komplexn mi sl

Podsyst em vstupu a v ystupu

Soubor, souborov e organizace

Virtu aln pam et' PB 152 Operacn syst emy. Jan Staudek Verze : jaro 2017

[1] samoopravné kódy: terminologie, princip

Aplikacn bezpecnost. Informacn bezpecnost z pohledu aplikacnch syst em u. PV 017 Bezpecnost informacnch technologi

platné nejsou Sokrates je smrtelný. (r) 1/??

Procesy. PB 152 Operacn syst emy. Jan Staudek Verze : jaro 2017

10 je 0,1; nebo taky, že 256

Rzen rizik. PV 017 Bezpecnost informacnch technologi. Jan Staudek Verze : podzim 2018

Politika informacn bezpecnosti

1 3Statistika I (KMI/PSTAT)

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2015

Fakulta informacnch technologi CVUT v Praze Prijmac zkouska z matematiky 2017

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2017

Aplikacn bezpecnost. PV 017 Bezpecnost informacnch technologi. Jan Staudek Verze : podzim 2017

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2013/2014 Radim Farana. Obsah. Kybernetika

Data v počítači EIS MIS TPS. Informační systémy 2. Spojení: jan.skrbek@tul.cz tel.: Konzultace: úterý

4.3 Operace nad ordin ln mi datov mi typy Operace nad logick m datov m typem Operace nad celo seln mi datov mi typy

Informace, kódování a redundance


Technická kybernetika. Obsah. Principy zobrazení, sběru a uchování dat. Měřicí řetězec. Principy zobrazení, sběru a uchování dat

Obnova transakc po v ypadku

Kódy a kódování dat. Binární (dvojkové) kódy. Kód Aikenův

Informace, kódování a redundance

Procesy. Uvodem k proces um. PB 152 Operacn syst emy. Program a proces. Uvodem k proces um

IB112 Základy matematiky

Národní informační středisko pro podporu kvality Tůmová

Projekt implementace ISMS

Rzen reakc na bezpecnostn incidenty

Multikriteri ln optimalizace proces 0 1 v elektrotechnice

Bezs n urov a telefonie, DECT

Žáci mají k dispozici pracovní list. Formou kolektivní diskuze a výkladu si osvojí grafickou minimalizaci zápisu logické funkce

Matematika (KMI/PMATE)

Predikátová logika. prvního řádu

Projekt implementace ISMS Dodatek 4, Prklad politiky ISMS

Stanovisko komise pro hodnocení dopadů regulace

Číselné vyjádření hodnoty. Kolik váží hrouda zlata?

Kapitola Základní množinové pojmy Princip rovnosti. Dvě množiny S a T jsou si rovny (píšeme S = T ) prvek T je také prvkem S.

Obsah. Logická zkoumání

Transkript:

C l p redna sky Abychom mohli informace efektivn e ukladat, z skavat c i p rena set, resp. i dlouhodob e uchovavat, mus me v ed et/znat Informacn PV 06 Organizace souboru Jan Staudek http://www..muni.cz/usr/staudek/vyuka/ X vyjad rovat kodovat X primarn e v na sem p r pad e ve sv et e binarn abecedy } co se rozum pojmem informace jak m er it mno zstv informace jak informaci vyjad rovat Odpov edi dav a Information Theory X V edn obor zabyvaj c se obecnymi zakonitostmi w A y < 5 4 3 1 0 / -., )+ ( %&' $ #!" Æ vytva ren, transformac a p renosu informac X u zs speci kace { v etev matematiky zabyvaj c se efektivnost a detaily procesu uchovav an, reprezentace a p renosu informac Verze : jaro 018 Kolik informace obsahuje tento obrazek? PV06 Organizace souboru { Informacn 1 Information, Oxford Dictionary Information facts provided or learned about something or someone X late Middle English (also in the sense 'formation of the mind, teaching') via Old French from Latin informatio, from the verb informare Inform, [reporting verb] give (someone) facts or information; tell X Middle English enforme, informe 'give form or shape to', also 'form the mind of, teach', from Old French enfourmer, from Latin informare 'shape, fashion, describe', from in- 'into' + forma 'a form' PV06 Organizace souboru { Informacn PV06 Organizace souboru { Informacn 3

Uvodn uvahy o pojmu informace Uvodn uvahy o pojmu informace P rij mame, z skav ame, pos lame, uklad ame, zpracovav ame,... texty, zvuky, obrazky,..., obecn e zpravy charakterizuj c objekty, udalosti, jevy... Tyto zpravy obsahuj (materializuj ) jista sd elen o objektech, udalostech, jevech,... obsahuj zformovane ideje, my slenky { informace X Signal je fyzikaln veli cina, ktera ve svych prom enach v c ase nese informaci Informace v sob e v zdy obsahuje (nese) konkretn znalost, ktera je pro jej ho p r jemce znalost novou, sni zuj c neur citost jeho poznan X Information { facts provided or learned about something or someone PV06 Organizace souboru { Informacn 4 Uvodn uvahy o pojmu informace PV06 Organizace souboru { Informacn Informace je v zdy p rena sena / uchovav ana pomoc konkretn ho nosi ce (signal, pam et'ove medium, pap r... ) ruzn ymi podobami (p smena, c slice, speci cke symboly, posloupnosti c slic, p smen, symbolu, charakteristicke prvky signalu, stavy pam eti,... ) Aby mohla byt informace p redana/uchovan a, mus byt n ejakym zpusobem zakodovan a, tj.p revedena do vhodne podoby podle pou ziteho nosi ce PV06 Organizace souboru { Informacn 5 Uvodn uvahy o pojmu informace 6 PV06 Organizace souboru { Informacn 7

Uvodn uvahy o pojmu informace Informace a informa cn teorie Informace ma smysl / vyznam pouze kdy z jej p r jemce je schopny ji interpretovat Informace je v zdy o n ec em (velikost parametru, vyskyt udalosti,...) Informace nemus byt,,precizn ", informace mu ze sd elovat pravdiva fakta, ale informace mu ze sd elovat i l ziva fakta, stale je to informace I ru sivy s um zpusobuj c utlum komunikace a zpusobuj c neporozum en zprav e lze chapat jako jistou formu informace PV06 Organizace souboru { Informacn X jedna se o nematematickou veli cinu, kterou nelze ani exaktn e de novat a ani exaktn e m er it X informace ma nehmotny charakter, vznika abstrakc, X ale v zdy je spojena s n ejakym fyzikaln m pochodem (signalem), ktery ji nese, uchovav a, zobrazuje,... 8 X americky matematik, elektroin zenyr, po c ta cn k X Bell Laboratories (1941{197), MIT(1956{001) X A mathematical theory of communication, Bell System Technical Journal, 1948 PV06 Organizace souboru { Informacn jak mu zeme m er it mno zstv informace? jak mu ze zajistit bezchybnost p renosu informace? co d elat, kdy z se v dusledku poruch v nosi ci informace naru s? kolik pam eti pot rebujeme pro uchovan informace? jak rychle lze informaci p renest ze zdroje k p r jemci? PV06 Organizace souboru { Informacn 9 Kvalita a kvantita informace Iniciator informa cn teorie { Claude E. Shannon, 1916 { 001 Porozum en pojmu informace r e s informa cn teorie poskytnut m odpov ed na otazky typu X X X X X Informa cn teorie Pojem informace je obt z n e formaln e posti zitelny, t ez ko se de nuje, p resna, jednozna cna de nice neexistuje Zprava nesouc informaci ma syntaxi (skladbu, formu) a semantiku (obsah) X syntaxe, uspo rad an, reprezentace mno zstv, { kvantitativn stranka, { p redm et na seho studia X semantika, vyznam, { nem er se, obvykle se nem en zm enou syntaxe, { kvalitativn stranka informace, { pragmaticky obsah ve vztahu k p r jemci informace, { nestudujeme 10 PV06 Organizace souboru { Informacn 11

Kvalita a kvantita informace intuitivn denice informace jako kvality: informace = vse co prijm ame formou text u, reci, obrazy { zpr avami { znalost odvozen a ze studia, ze zkusenost, z poucen { znalost konkr etn ud alosti nebo situace { kolekce fakt u nebo dat {... kvalitativn ch ap an = pohled softwarov eho inzen yrstv (SI) SI zajm a predevsm sdelen obsahu, pak teprve forma SI zpracov av a data { formalizovan e reprezentace fakt u, pojm u,... vhodn e pro komunikaci / interpretaci / zpracov an / uchov av an automatizacnmi prostredky nebo lidmi pro SI informace reprezentuje v yznam pridelen y udaj um shrom azden ych jist e zpr ave, resp. v yznam dan y konvencemi aplikovan ymi na tato data Kvalita a kvantita informace my ale potrebujeme denici informace jako kvantity: smysluplne zaveden y axiom umoz nuje odpovedet na ot azku: Kolik informace obsahuje dan a zpr ava? Vseobecne respektovan y uzus pro ch apan mry informace { informacn objem zpr avy je umern y mre prekvapen vyvolan emu prijetm zpr avy Informace je v urcite zpr ave obsazena jen tehdy, jestlize u prijmacho subjektu odstra nuje neurcitost informaci ch apeme jako neco nov e, co moment alne ci v budoucnosti ovlivn v nejak e forme kon an/znalost/vedom/... prjemce kvantitativn ch ap an = pohled informacn teorie Aby informaci slo pren aset, skladovat,..., mus b yt meriteln a Informace se st av a meritelnou velicinou stanovenm vhodn e mry Mru stanovuje Informacn teorie, Information Theory PV06 Organizace souboru { Informacn teorie 1 PV06 Organizace souboru { Informacn teorie 13 Informace je abstraktn pojem Neurcitost/entropie a mra mnozstv informace ve zpr av e Informace neobsahuje z adnou energii informace nez avis na zp usobu prenosu / uchov an pouzit ym jejm nositelem energie je nutn a pouze k transportu (prp. uchov an) informace na druhu a mnozstv energie z avis pouze kvalita (efektivnost, ucinnost) prenosu / uchov an informace koprov anm informace nedoch az ke zmensen velikosti (mnozstv) informace Sledujme v ysledek procesu v yb eru jedn e nebo vce alternativ z n ejak e mnoziny mozn ych alternativ zarzen I produkuje (se stejnou pravd epodobnost) znaky A nebo B nebo C ex. nejistota charakterizovateln a ot azkou,,kter y znak bude produkovan y jako prst?" { zarzen I vykazuje,,3-prvkovou"neurcitost (entropii) kdyz v ystupn hodnotu uvidme, neurcitost miz, snzenm (odstran enm) neurcitosti zsk av ame informaci mnozstv zskan e informace odpovd a velikosti odstran en e neurcitosti zsk anm informace velikost odstranen e neurcitosti lze charakterizovat pravdepodobnost v yskytu jednotliv ych v ystupnch hodnot PV06 Organizace souboru { Informacn teorie 14 PV06 Organizace souboru { Informacn teorie 15

Neurcitost/entropie a mra mnozstv informace ve zpr av e Vybrejme jist e predm ety x ze skladu, ve kter em je n r uzn ych typ u predmet u, {x 1, x,..., x n } Mnozstv informace I(x) dan e v yberem predmetu typu x k mus b yt funkc pravdepodobnosti volby x k, tj. I(x k ) = f{p(x k )} pokud bude ve skladu s n predmety po 1 ks kazd eho typu predmetu, pak plat pro n ahodn y v yber I(x k ) = f{1/n}, pro vsechna k Necht' se predmety pri v yberu ze skladu n ahodne bal do obal u v m r uzn ych barv ach c j, pak mnozstv informace dan e barvou obalu c j vybran eho predmetu je I(c j ) = f{p(c j )} pokud budou obaly vybran emu predmetu d av any n ahodne pak plat I(c j ) = f{1/m}, pro vsechna j Neurcitost/entropie a mra mnozstv informace ve zpr av e Pokud se nejprve ze skladu n ahodne vybere predmet x k a tomu se posl eze n ahodne pridel barevnost obalu c j, pak zskan e mnozstv informace odpovd a I(x k &c j ) = I(x k ) + I(c j ) = f{1/n} + f{1/m} Pokud se budou ve skladu bude nach azet n.m predmet u vsech typ u ve vsech barevn ych kombinacch po 1 ks, pak zskan e mnozstv informace n ahodn ym v yb erem odpovd a I(x k &c j ) = f{1/nm} Mnozstv zskan e informace v obou prpadech je prirozen e identick e, takze mus platit f{1/n} + f{1/m} = f{1/nm} Z mnoha mozn ych resen t eto funkcion aln rovnice je pro mru mnozstv informace nejvhodn ejs resen f{x} = log(x), zd uvodnen viz d ale PV06 Organizace souboru { Informacn teorie 16 PV06 Organizace souboru { Informacn teorie 17 Neurcitost/entropie a mra mnozstv informace ve zpr av e zarzen II produkuje (se stejnou pravd epodobnost) znaky 1 nebo ex. nejistota zda v ysledkem bude 1 ci, { zarzen II vykazuje -prvkovou neurcitost kombinovan e zarzen I+II produkuje v ystupy A1, A, B1, B, C1, C, kombinovan e zarzen I+II vykazuje 6 prvkovou neurcitost takto (multiplikativn e) se ale mnozstv informace nem er kdyz si prectu dve r uzn e knihy, zsk am mnozstv informace odpovdajc souctu mnozstv informace obsazen ych v kazd e z nich nikoli mnozstv odpovdajc poctu kombinac fakt u obsazen ych v kazd e z knih mra mnozstv informace kombinovan eho zdroje mus mt aditivn charakter Mra mnozstv informace ve zpr av e chceme, aby mra mnozstv informace m ela aditivn charakter pak pro urcen mnozstv informace produkovan e zarzenm I+II m uzeme msto vyj adren neurcitosti dan eho n asobenm poct u mozn ych v ystupnch hodnot (3 = 6) pouzt sct an z aporn ych hodnot logaritm u pravdepodobnost mozn ych v ystupnch hodnot (1/3, 1/): ( log(1/3)) + ( log(1/)) = log(1/6) logaritmick a mra mnozstv informace m a pozadovanou vlastnost aditivity pro nez avisl e statistick e experimenty b aze logaritmu pak urcuje clovou m ernou jednotkou { bity, 10 digits (dekadick e cifry), e {,,nats",... v yber mezi stejne pravdepodobn ymi ud alostmi reprezentuje mnozstv informace zn am e jako 1 bit, log (1/) = log () = 1 PV06 Organizace souboru { Informacn teorie 18 PV06 Organizace souboru { Informacn teorie 19

Mra mnozstv informace ve zpr av e Mra mnozstv informace ve zpr av e Necht' zarzen III trvale produkuje jedinou v ystupn hodnotu, napr. jedin y t on nebo posloupnost st ale stejn ych v ystupnch symbol u pozn anm v ystupn hodnoty nedojde ke snzen neurcitosti z pozn an v ystupn hodnoty nezsk ame z adnou informaci, je jist e, co bude na v ystupu zarzen III prste zarzen III generuje nulov e mnozstv informace, produkuje jedin y v ystup s pravdepodobnost 1, log(1) = 0 Zarzen IV reprezentuje h azen minc, produkuje dv e hodnoty,,,hlava"(0) nebo,,orel"(1) pravdepodobnost, ze padne,,hlava"a pravdepodobnost, ze padne,,orel" jsou v prpade nefalesn e mince shodn e (0.5) mnozstv generovan e informace hodem: log (1/) = log () = 1 [b] s pravdepodobnost 0,5 zsk ame 1 bitovou informaci (padne 0) a s pravdepodobnost 0,5 zsk ame 1 bitovou informaci (padne 1), a protoze z adn y jin y v ysledek nem uze nastat a v ysledky po sobe jdoucch hod u jsou na sobe nez avisl e zarzen IV produkuje zpr avy obsahujc 0, 5 log (1/) + 0, 5 log (1/) = 1 bitovou informaci PV06 Organizace souboru { Informacn teorie 0 PV06 Organizace souboru { Informacn teorie 1 Mra mnozstv informace ve zpr av e Zarzen IV reprezentuje h azen minc, produkuje dv e hodnoty,,,hlava"(0) nebo,,orel"(1) ALE POZOR: pokud by pri h azen casteji padala hlava nez orel, pravdepodobnosti v ysledku budou pak odlisn e, napr. p(hlava) = 0,99, p(orel) = 0,01 neurcitost v ysledku se snz, zpr ava o v ysledku hodu hlavy nese m ene informace KOLIK INFORMACE NESE ZPR AVA SD ELUJICI V YSLEDEK TAKOV EHO HODU? s pravdepodobnost 0,99 zsk ame log (0, 99) = 0, 01 [b] inf. a s pravdepodobnost 0,01 zsk ame log (0, 01) = 6, 64 [b] inf., zarzen IV produkuje zpr avy obsahujc 0, 99 log (0, 99) + 0, 01 log (0, 01) = 0, 99 0, 01 + 0, 01 6, 64 = 0, 0763 bitovou informaci Mra mnozstv informace ve zpr av e v textu nad abecedou s 6 psmeny X = {a;... ; q;... ; z; } pri stejne pravdepodobn em v yskytu kazd eho znaku nese jeden symbol 4,7 bitu informace, log 1/6 = 4, 7 statistick e anal yzy rkaj, ze neurcitost anglick eho textu d av a v pr umeru 1 az 1,5 b / znak textu, jednotliv e znaky se vyskytuj s r uznou frekvenc pak ale reprezentace znaku anglick eho textu k odem ASCII tj. 7 b/znak, zobrazuje anglick y text az t emer s 500 % redundanc (nadbytecnost) Proc se tedy pouzv a pro k odov an uchov avan e/pren asen e informace k od ASCII a ne nejak e efektivnejs k odov an? Odpoved': K od ASCII usnad nuje manipulaci s informacemi (tisk, zobrazeni na displeji,... ), jeho clem nen vyjadrovat informaci v minim alne mozn em bitov em prostoru PV06 Organizace souboru { Informacn teorie PV06 Organizace souboru { Informacn teorie 3

Mra mnozstv informace ve zpr av e Mnozstv informace obsazen e ve zpr av e X souvis s pravd epodobnost jejho v yskytu zpr ava "v rulete padlo cslo 17"prin as vets mnozstv informace nez zpr ava "V rulete padlo lich e cslo" Pozadavky na mru mnozstv informace ve zpr av e m ene pravdepodobn a zpr ava nese vce informace, jejm zsk an se snizuje vets neurcitost mnozstv informace je vzdy kladn e mnozstv informace obsazen e ve skupine nez avisl ych zpr av je rovno souctu mnozstv informac obsazen ych v jednotliv ych zpr av ach Mra mnozstv informace ve zpr av e Pozadavk um na vlastnosti mry mnozstv informace obsazen e ve zpr ave A generovan e s pravepodobnost P (A) vyhovuje funkce i(a) = log 1 = log P (A), v jednotk ach Sh, Shannon resp. P (A) 1 i(a) = log P (A) = log P (A) v jednotk ach bit Zpr ava A generovan a s pravepodobnost P (A) = 1 nese nulov e mnozstv informace, log 1 = 0 kdyz P (A) kles a z 1 k 0, i(a) = log P (A) roste Mnozstv informace nesen e dv emi nez avisl ymi zpr avami je souctem mnozstv informac nesen ych t emito zpr avami i(ab) = log 1 1 P (A) P (B) = log 1 P (A) + log 1 = i(a) + i(b) P (B) PV06 Organizace souboru { Informacn teorie 4 PV06 Organizace souboru { Informacn teorie 5 Mra mnozstv informace ve zpr av e, prklad Kolik informace m uze obs ahnout k-cifern e dekadick e cslo? kolik bit u potrebujeme pro vyj adren k-cifern eho dekadick eho csla? Mus platit 10 k 1 = x 1, tj. 10 k = x. a tedy x = k log 10/ log. = 3.3 k bit u tj. jednou dekadickou cifrou lze vyj adrit cca 3.3 bitu informace resp. naopak { pro vyj adren dekadick e cifry potrebujeme alespo n 4 bity: 1001 = 9, 1000 = 8,... 0000 = 0, obecne pro vyj adren cel eho csla i potrebujeme alespo n 1 + log i bit u Neurcitost zdroje, mnozstv informace generovan e zdrojem Necht' prjemce zpr avy predem zn a zpr avy, kter e mohou b yt produkov any (zn a mnozinu vsech mozn ych zpr av) Zdroji zpr av je ponech ana volnost v yberu z t eto mnoziny mozn ych zpr av. U prjemce existuje tedy neurcitost, nev kterou zpr avu obdrz. Prijetm zpr avy je pak tato neurcitost odstran ena. prijetm zpr avy o padnut csla 7 v rulete se odstran velk a neurcitost zpr avou o padnut hlavy pri hodu korunou se odstran mal a neurcitost Neurcitost, entropie, zdroje zpr avy X, H(X), je rovna mnozstv informace ve zpr ave obsazen e, H(X) = I(X), neurcitost je prijetm zpr avy odstran ena PV06 Organizace souboru { Informacn teorie 6 PV06 Organizace souboru { Informacn teorie 7

Neurcitost zdroje, mnozstv informace generovan e zdrojem Determinovan e syst emy maj nulovou entropii (neurcitost), zpr avy o jejich stavu nesou nulovou informac. Nejv ets neurcitost m a syst em, jehoz stavy jsou stejn e pravd epodobn e, tj. pri rovnom ern em rozd elen pravd epodobnost nast an jeho stav u, zpr avy o jeho stavech nesou maxim alne mozn e mnozstv informace Neurcitost syst emu (entropie) generujcho zpr avy v z avislosti na stavech, ve kter ych se nach az, z avis { na poctu stav u syst emu a { na pravd epodobnostech nast an (neurcitosti) jeho jednotliv ych stav u Neurcitost zdroje, mnozstv informace generovan e zdrojem M uze-li syst em nab yvat s mozn ych stav u s pravdepodobnostmi p 1, p,..., p s,, kde p 1 +..., +p s = 1, pak entropie H(X) syst emu je rovna H(X) = s i=1 p i H i, tj. kazd y stav s pravdepodobnost sv eho v yskytu prispv a do neurcitosti syst emu svoj neurcitost a tudz H(X) = s i=1 p i log p i [bit] Tento vztah nab yv a maxim aln hodnoty pri p 1 =..., = p s kde p i = 1 s, takze H max (X) = log s [bit] PV06 Organizace souboru { Informacn teorie 8 PV06 Organizace souboru { Informacn teorie 9 Neurcitost / entropie, Shannonova formule Maxim aln neurcitost / entropie zdroje { Neurcitost zdroje informac determinuje mnozstv informace zdrojem generovan e { Neurcitost zdroje je d ana pr umern ym prekvapov anm pri generov an nekonecn eho proudu jeho v ystupnch hodnot překvapení vyvolaná výstupy jednotlivých hodnot do tohoto průměru přispějí v poměru pravděpodobností výskytu příslušných hodnot ve výstupu { Shannonova formule: Neurcitost (entropie) diskr etn n ahodn e promenn e X, kter a m uze nab yvat hodnot {x 1,..., x n }, je H(X) = n i=1 p(x i) log p(x i ) kde p(x i ) = Pravdepodobnost (X = x i ) Funkce H pro prpad v ystupu jednoho ze znak u: pri stejn e pravdepodobnosti v ystupu kazd eho z M znak u je pravdepodobnost v ystupu jednoho z nich P i = 1/M tento sc en ar vykazuje maxim aln neurcitost a ta je rovna: M 1 H max = M log 1 M i=1 H max = ( 1 M log 1 M M ) 1 ( ) i=1 1 H max = M log 1 M M 1 H max = log M H max = log M PV06 Organizace souboru { Informacn teorie 30 PV06 Organizace souboru { Informacn teorie 31

Vlastnosti mry mnozstv informace podle Shannona mra je spojit a Jak akoliv mal a zmena jedn e z pravdepodobnost zmen v yslednou entropii pouze mal ym dlem mra je symetrick a Entropie se preuspor ad anm v ystupnch hodnot nemen H(X) = H(x 1, x,..., ) = H(x, x 1,..., ) =... entropie m a maximum Jsou-li vsechny v ystupy stejne pravdepodobn e, entropie je maxim aln Neurcitost je nejvets, jsou-li vsechny ud alosti stejne pravdepodobn e. Entropie vzroste, pokud se zv ys pocet mozn ych v ystup u. ( H n (p 1,..., p n ) H 1 n n,..., 1 ) ( ) n < 1 Hn+1 n+1,..., 1. n+1 PV06 Organizace souboru { Informacn teorie 3 Mra mnozstv zdroje informace, k odov an informace, prklad Co znamen a, kdyz se rekne mnozstv informace, kter e text/sign al (zpr ava) nese, je 1,75 b/symbol (prvek sign alu) Plat jedn a se o pr umern e mnozstv informace/symbol zpr avy po zak odov an do posloupnosti z {0, 1} mohou b yt r uzn e symboly zpr avy reprezentovan e texty s r uznou bitovou d elkou v pr umeru na 1 symbol zpr avy pripad a... (1,75) bit u jestlize v jist em jazyku nese 1 znak ve slove 1, b informace coz je zjisteno statistick ymi setrenmi pak pri ASCII k odov an znak u na 1 bit k odu znaku pripad a 1, 5,8 = 0, 17 b informace a = 0, 83 b redundantn informace 7 7 PV06 Organizace souboru { Informacn teorie 33 Mra mnozstv zdroje informace, k odov an informace, prklad zdroj generuje zpr avy slozen e ze symbol u nab yvajcch hodnot znak u A, C, G a T s pravdepodobnostmi: P A = 1, P C = 1 4, P G = 1 8, P T = 1 8 prklady takov ych zpr av: TAACCAAG, AAAA, ACAACG,...,,prekvapen"z v yskytu jednotliv ych znak u ( log P i ) jsou u A = 1 bit, u C = bity, u G = 3 bity, u T = 3 bity, a neurcitost dan eho zdroje (mnozstv jm produkovan e informace) je H = 1 1 + 1 4 + 1 8 3 + 1 3 = 1.75 (bit u / symbol) 8 minim aln k odov an symbol u na bity (tak e Fanovo k odov an) k odov a slova znak u maj d elky umern e mnozstv informace, kter e znaky nesou, napr.: A = 1, C = 01, G = 000 a T =001 napr. retez 8 symbol u ACATGAAC je k odovan y 14 bity, 10110010001101, tj. v pr umeru 14 = 1.75 b/symbol 8 Mra mnozstv zdroje informace, k odov an informace, prklad zdroj generuje zpr avy slozen e ze symbol u nab yvajcch hodnot znak u A, C, G a T s pravdepodobnostmi: P A = 1, P C = 1 4, P G = 1 8, P T = 1 8 prklady takov ych zpr av: TAACCAAG, AAAA, ACAACG,...,,prekvapen"z v yskytu jednotliv ych symbol u ( log P i ) jsou u A = 1 bit, u C = bity, u G = 3 bity, u T = 3 bity, a neurcitost dan eho zdroje (mnozstv jm produkovan e informace) je H = 1 1 + 1 4 + 1 8 3 + 1 3 = 1.75 (bit u / symbol) 8 ASCII k odov an symbol u na bity, uniformne 7 b/znak kazd y symbol je k odovan y 7 bity, tj. 4-n asobn ym poctem bit u retez 8 znak u ACATGAAC bude k odovan y 56 bity, pricemz zpr ava o 8 symbolech v pr umeru nese 8 1, 75 = 14 bit u informace { 4 bit u je redundance PV06 Organizace souboru { Informacn teorie 34 PV06 Organizace souboru { Informacn teorie 35

Diskr etn zpr ava, analogov a zpr ava informace se mus pro ucely zpracov an, sd elov an, skladov an, prenosu,... adekv atn e (efektivn e) vyj adrit kazd y ucel (zpracov an, sdelov an, skladov an, prenosu,... ) obvykle klade individu aln pozadavky na efektivitu vyj adren zpracov an { form atov an pro dostupn e operacn funkce/procedury sdelov an { srozumitelnost vyj adren pro aplikaci skladov an { typicky minimalizace redundace (min. bitov y objem) prenos { { ide aln prostred { minim aln redundace (min. bitov y objem) { prostred s poruchami { detekovatelnost / samoopravitelnost chyb, za cenu zv ysen redundance Diskr etn zpr ava, analogov a zpr ava statick e / textov e informace se vyjadruj diskr etnmi symboly, diskr etn zpr avy se formuj posloupnostmi diskr etnch symbol u vyj adren ych prvky adekv atn abecedy (znaky) dynamick e (napr. zvukov e) informace m uzeme vyj adrit (zachytit, zobrazit,... ) v case spojite / analogove, formou analogov ych zpr av, napr. do casov ych funkc (sign al u) { zmen tlaku vzduchu, { elektromagnetick ych vlastnosti prostred,... analogov e zpr avy lze vyjadrovat rovn ez posloupnostmi diskr etnch zpr av nesoucch hodnoty analogov ych charakteristik nam eren ych v jist ych v diskr etnch casech predmetem naseho z ajmu jsou diskr etn zpr avy PV06 Organizace souboru { Informacn teorie 36 PV06 Organizace souboru { Informacn teorie 37 Mnozstv informace ve zpr ave o n symbolech Necht' nyn zdroj generuje nikoli 1 z M v ystupnch hodnot, ale zpr avy o n symbolech, z nichz kazd y m uze n ahodne nab yvat hodnotu jednoho z m prvk u v ystupn abecedy Hled ame mnozstv informace ve zpr av ach o n symbolech k odovan ych abecedou s mohutnost m prvk u tak, ze kazd y prvek abecedy m a apriorn pravdepodobnost v yskytu v symbolech zpr av P i gener ator zpr av o n symbolech pak vykazuje neurcitost m H = n P i log P i, i=1 pricemz plat, ze pokud se v ystupn hodnoty vyskytuj se shodnou pravdepodobnost (P i =1/m), je entropie maxim aln H max = n log m K odov an K od, abeceda, k odov an zpr av necht' je zpr ava vyj adrena posloupnost symbol u symboly nab yvaj hodnot prvk u (znak u) abecedy k odov an proces nahrazov an symbol u (resp. posloupnost symbol u) zpr avy obsahujcch hodnoty znak u zdrojov e abecedy A symboly (resp. posloupnostmi symbol u) nab yvajcch hodnot znak u clov e (k odovac) abecedy A C Prklady aplikac k odov an: porizov an dat, sifrov an (utajov an) zpr av, samoopravn e k odov an, komprese (minimalizace,,prostoru pro uchov an") zpr av, transformace zpr av na sign alov e prvky pro prenos,... PV06 Organizace souboru { Informacn teorie 38 PV06 Organizace souboru { Informacn teorie 39

K od, abeceda, k odov an zpr av Abeceda { konecn a mnozina znak u (prvk u abecedy, psmen,... ) Pro nase zkoum an plat A C = {0, 1}, tj. prvk um ci posloupnostem prvk u zdrojov e abecedy prirazujeme bin arn posloupnosti K od ASCII prirazuje znaku a posloupnost 1000011, prirazuje znaku A posloupnost 1000001 K od, abeceda, k odov an zpr av Konecn a posloupnost symbol u vyj adren ych prvky (znaky) jist e abecedy tvor slovo D elku t eto posloupnosti naz yv ame d elkou slova, je-li slovo znaceno S, pak znacme jeho d elku S Mnozinu vsech slov nad abecedou A znacme A, mnozinu vsech slov nad abecedou A nenulov ych d elek oznacujeme A + K odov e slovo, resp. slovo v k odovac abecede jedn a se o prvek (znak) A C, resp. posloupnost prvk u (znak u) A C, pouzit y( a) pro vyj adren prvku A, resp. posloupnosti prvk u A Protoze v prpade k odov an do bin arn abecedy je k odov ych znak u (mnohem) m ene nez zdrojov ych znak u, je d elka (bin arnch) k odov ych slov vesmes vets nez jedna (k odov e slovo = posloupnost 1 a 0). PV06 Organizace souboru { Informacn teorie 40 PV06 Organizace souboru { Informacn teorie 41 K od, abeceda, k odov an zpr av K odov an je funkce (zobrazen) K : A A + C Zobrazen K prirazuje kazd e zdrojov e jednotce z mnoziny A pr ave jedno k odov e slovo z mnoziny A + C. k od C dan y k odov anm K je trojice C : (A, A + C, K), k odem dan ym k odov anm K se rozum obor hodnot zobrazen K, mnozina vsech k odov ych slov, pouzit a pro jistou konkr etn formu k odov an, tj. predpis pro zobrazov an (podmnozin) prvk u A do (podmnozin) prvk u A C Protoze je denicn obor zobrazen K konecn y, lze zobrazen K zapisovat pomoc tabulky Jednoznacn e dek odovateln y k od Nutn a vlastnost na dobrého / smyslupln eho k odu { k od je jednoznacne dek odovateln y Zobrazen K mus b yt prost e, kazd emu k odov emu slovu v clov e abecede odpovd a jedin a posloupnost znak u ve zdrojov e abecede a r uzn ym vzor um k od prirazuje r uzn e obrazy, tj. kazd e dva r uzn e zdrojov e prvky jsou zobrazov any na dve r uzn a k odov a slova Nutn a, nikoli vsak dostacujc, podmnka pro jednoznacnou dek odovatelnost k odu C, k prost emu zobrazen K existuje inverzn zobrazen PV06 Organizace souboru { Informacn teorie 4 PV06 Organizace souboru { Informacn teorie 43

Jednoznacn e dek odovateln y k od Mejme k od C : (A, A + C, K). Retezec x A + C je jednoznacne dek odovateln y vzhledem k zobrazen K, jestlize existuje pr ave jeden takov y retezec y A +, ze K(y) = x K od (A, A + C, K) je jednoznacne dek odovateln y k od pr ave tehdy, kdyz vsechny mozn e retezce z A + C jsou jednoznacn e dek odovateln e. Klasikace k od u, stupe n k odu, optim aln k od K od s k odov ymi slovy pevn e d elky { blokov y k od K od s k odov ymi slovy promenn e d elky cl pouzv an { redukce bit u pouzit ych pro zobrazen informace casteji se vyskytujc zdrojov a slova se k oduj na krats k odov a slova, ridceji se vyskytujc zdrojov a slova se k oduj na dels k odov a slova, viz d ale { napr. prexov y k od, suxov y k od stupe n (rate) k odu C { pr umern y pocet bit u v k odov ych slovech k odu C pouzit ych pro k odov an zdrojov ych znak u v k odu C optim aln k od m a stupe n minim aln e prevysujc mnozstv informace obsazen e v symbolech zdrojov ych zpr av PV06 Organizace souboru { Informacn teorie 44 PV06 Organizace souboru { Informacn teorie 45 Typick a strategie k odov an zpr avu S rozdelme na slova (fr aze, symboly,... ) S = s 1 s... s k, s i A + urcme C(s 1 ),..., C(s k ) A + C, kde C(s i ) jsou k odov a slova k odu C Plat K(S) = C(s 1 ) C(s )... C(s k ), resp. K(s 1 s... s k ) = C(s 1 ) C(s )... C(s k ) Prklad blokov eho k odu K od C zobrazujc prvky (znaky) abecedy A (napr. anglick e) do mnoziny prvk u abecedy A C (napr. bin arn) k odov ymi slovy tvoren ymi bitov ymi retezci pevn e d elky Napr. k od ASCII zobrazuje znaky (anglick e) abecedy a nekter e dals znaky na dekadick a csla 0 az 17, napr. A 65, a 97 18 = 7, sedmi bity lze k odovat 18 hodnot pro zpracov an v poctaci je k odovac abeceda {0,..., 17} d ale k odovan a sedmicemi bit u, napr. A 1 000 001 PV06 Organizace souboru { Informacn teorie 46 PV06 Organizace souboru { Informacn teorie 47

American Standard Code for Information Interchange, ASCII Prklad blokov eho k odu Napr. k od ASCII, pokrac. k od ASCII zobrazuje znaky anglick e abecedy na sedmice bit u text HELLO! zobrazuje k od ASCII na bin arn retezec 100100010001011001100100110010011110100011, resp. pro leps vizu aln n azornost s mezerou mezi barevne odlisen ymi symboly: 1001000 1000101 1001100 1001100 1001111 0100011 ASCII k od je jednoznacne dek odovateln y k od PV06 Organizace souboru { Informacn teorie 48 PV06 Organizace souboru { Informacn teorie 49 Neblokov e jednoznacn e dek odovateln e k ody Necht' zdroj generuje zpr avy slozen e ze symbol u nab yvajcch hodnot znak u A, C, G a T s pravdepodobnostmi: P A = 1, P C = 1 4, P G = 1 8, P T = 1 8 mnozstv inform. predstavovan e jednotliv ymi znaky ( log P i ) jsou i(a) = 1 bit, i(c) = bity, i(g) = 3 bity, i(t ) = 3 bity, a neurcitost dan eho zdroje (mnozstv jm produkovan e informace) je H = 1 1 + 1 4 + 1 8 3 + 1 3 = 1.75 (bit u / symbol) 8 Ctyri prklady neblokov ych k od u pro tento prklad Neblokov e jednoznacn e dek odovateln e k ody K od 1 nen jednoznacne dek odovateln y, d ale ignorujeme K odovac funkce k odu 1, K, nen prost a PV06 Organizace souboru { Informacn teorie 50 PV06 Organizace souboru { Informacn teorie 51

Neblokov e jednoznacn e dek odovateln e k ody Neblokov e jednoznacn e dek odovateln e k ody K odovac funkce, K, k od u, 3, 4, je prost a K ody, 3, 4 oznacujeme jako nesingul arn k ody je-li Dec dek odovac (inverzn) funkc ke K, pak pro nesingul arn k od plat Dec x A Dec(K(x)) = x K od ale nen jednoznacne dek odovateln y Pouh a prostost funkce K k jednoznacnosti dek odov an nepostacuje, prijet 0000 lze dek odovat na AAAA nebo GG nebo AAG nebo... K od 3 je nesingul arn jednoznacne dek odovateln y k od plat Dec x A Dec(K(x)) = x navc je bezprostredne jednoznacne dek odovateln y, coz je vysoce z adouc vlastnost k odu { jednotliv a k odov a slova se pri anal yze zleva doprava rozpozn avaj okamzite pri jejich precten, jedn a se o tzv. prexov y k od navc je to optim aln k od, m a stupe n minim alne prevysujc (=) mnozstv informace obsazen e v symbolech zdrojov ych zpr av PV06 Organizace souboru { Informacn teorie 5 PV06 Organizace souboru { Informacn teorie 53 Neblokov e jednoznacn e dek odovateln e k ody Klasikace k od u, probl em jednoznacn e dek odovatelnosti Dals prklad nesingul arnho k odu a jeho k odov an K od 4 je rovnez nesingul arn jednoznacne dek odovateln y k od nen ale bezprostredne jednoznacne dek odovateln y { k odov e slovo se rozpozn a az pri precten uvodn 0 dalsho k od. slova K od 4 nen optim aln k od, pro dan e rozlozen pravdepodobnost v yskyt u znak u zdrojov e abecedy existuje k od s mensm pr umernou d elkou k odov eho slova nez 1,875, (K od 3) zdrojov a abeceda: {A, B, C, D}, k odov a slova: {0, 010, 01, 10}) vyslac vyslal znak B, tj. bitovou posloupnost 010 prijmac prijme retez 010 a prijat y retez m uze dek odovat { na znak B { nebo na retez znak u CA nebo na retez znak u AD v yse uveden y k od nen jednoznacne dek odovateln y i kdyz jeho k odovac funkce je prost a pokud se vysl a zpr ava slozen a z vce symbol u k odovan ych obecn ym nesingul arnm k odem, mus se jednotliv a k odov a slova oddelovat speci alnm prvkem, napr.,,c arkou"(,) { oddelovac/separ ator,... nem a smysl d ale pracovat s k odov anm, kter e by bylo jednoznacne dek odovateln e pouze s pouzitm separ ator u posloupnost k odov ych slov mus b yt dek odovateln a jedin ym zp usobem, a to bez pouzit separ ator u PV06 Organizace souboru { Informacn teorie 54 PV06 Organizace souboru { Informacn teorie 55

Klasikace k od u, probl em jednoznacn e dek odovatelnosti K od (A, A C, K) je jednoznacne dek odovateln y k od pr ave tehdy, kdyz vsechny mozn e retezce z A + C jsou jednoznacn e dek odovateln e Retezec x A + C je jednoznacne dek odovateln y vzhledem k K, jestlize existuje pr ave jeden retezec y A + takov y, ze K(y) = x Kazd emu vygenerovan emu retezci k odov ych slov jednoznacne dek odovateln eho k odu odpovd a jedin y zdrojov y retezec, kter y jej produkuje, Ale { pro dek odov an zpr avy se nekdy mus nejprve analyzovat cel a zpr ava je vysoce z adouc mt moznost dek odov an resit on-line pri anal yze textu Klasikace k od u, jednoznacne dek odovateln y k od Mejme k od C(a) = 10, C(b) = 00, C(c) = 11 a C(d) = 110, pak C(ab) = 1000, C(cb) = 1100. pri prijet zpr avy 1000 lze hodnoty a a b rozpoznat,,on-line", bezprostredne jeste v pr ubehu cten jednotliv ych k odov ych slov, 1000 pri prijm an zpr avy 1100 se ale pozn a, zda se jedn a o c..., 11... a nikoli o o d..., 110..., az po anal yze cel eho retezu probl em { k odov e slovo c je prex k odov eho slova d Urcen, zda libovoln y nesingul arn k od je jednoznacn e dek odovateln y je algoritmicky neresiteln y probl em Existuj trdy nesingul arnch k od u, kter e jsou dokazateln e jednoznacn e dek odovateln e: prexov e k ody, suxov e k ody a blokov e k ody prexov e / suxov e k ody neomezuj d elku k odov ych slov na pevnou hodnotu, blokov e k ody maj pevnou d elku k odov ych slov PV06 Organizace souboru { Informacn teorie 56 PV06 Organizace souboru { Informacn teorie 57 Klasikace k od u, prexov y, suxov y a blokov y k od Jestlize z adn e k odov e slovo z A + jednoznacne C dek odovateln eho k odu nen prexem jin eho k odov eho slova z A + C, jedn a se o prexov y k od z adn e k odov e slovo prexov eho k odu nen zretezenm jin eho k odov eho slova (prexu) a dalsho retezce prexov y k od lze dek odovat prvek po prvku, behem cten zleva doprava, jedn a se o bezprostredne jednoznacne d ekodovateln y k od m uzeme zact s dek odov anm aniz bychom znali cel y k odov y text, kazd e k odov e slovo je,,samovycleniteln e" Mezi prexov e k ody patr naprklad k od UTF-8 Pro suxov y k od plat, ze z adn e jeho k odov e slovo nen prponou jin eho jeho k odov eho slova. Je dek odovateln y znak po znaku behem cten zprava doleva. Klasikace k od u, prexov y, suxov y a blokov y k od Pokud maj vsechna k odov a slova stejnou d elku, pak tento k od oznacujeme jako blokov y. Blokov ym k odem je naprklad k od ASCII Kazd y blokov y k od je prexov y k od, a tudz je jednoznacne dek odovateln y k od Prexov y q- arn k od s d elkami k odov ych slov d 1, d,..., d m existuje pr av e tehdy, kdyz je spln ena Kraftova nerovnost q- arn k od { k odovac abeceda obsahuje q znak u (prvk u) m i=1 q d i 1 A plat McMillanova v eta Kraftova nerovnost plat pro libovoln e jednoznacn e dek odovateln e k odov an. PV06 Organizace souboru { Informacn teorie 58 PV06 Organizace souboru { Informacn teorie 59

Kraftova nerovnost, prklad n avrhu k odu Navrhujeme bin arn (q = ) prexov y k od pro k odov an cifer 0, 1,..., 9 ve zpr avach s velmi casto se vyskytujcmi ciframi 0 a 1 a velmi rdce se vyskytujcmi ciframi 8 a 9 N apad 1, nerealizovateln y d elka k odov ych slov pro 0 a 1 bude rovna (0x) d elka k odov ych slov pro a 3 bude rovna 3 (1xx) d elka k odov ych slov pro 4, 5, 6 a 7 bude rovna 4 (1xxx) d elka k odov ych slov pro 8 a 9 bude rovna 5 (1xxxx) + 3 + 4 4 + 5 = 1, 065 N apad 1 je nerealizovateln y Kraftova nerovnost, prklad n avrhu k odu Navrhujeme bin arn (q = ) prexov y k od pro k odov an cifer 0, 1,..., 9 ve zpr avach s velmi casto se vyskytujcmi ciframi 0 a 1 a velmi rdce se vyskytujcmi ciframi 8 a 9 N apad, realizovateln y d elka k odov ych slov pro 0 a 1 bude rovna (0x) d elka k odov ych slov pro, 3, 4, 5, 6 a 7 bude rovna 4 (xxxx) d elka k odov ych slov pro 8 a 9 bude rovna 5 (1xxxx) + 6 4 + 5 = 0, 9375 0, 1: 00, 01, 3, 4, 5: 1000, 1001, 1010, 1011 6, 7: 1100, 1101 8, 9: 11110, 11111 PV06 Organizace souboru { Informacn teorie 60 PV06 Organizace souboru { Informacn teorie 61 Kraftova nerovnost, prklad n avrhu k odu Klasikace k od u N apad 3, jeste l epe navrzen y k od 0 { 00 1 { 01 { 100 3 { 1010 4 { 1011 5 { 1100 6 { 1101 7 { 1110 8 { 11110 9 { 11111 + 1 3 + 5 4 + 5 = 1 plat { kazd y prexov y k od je nesingul arn k od plat { kazd y prexov y k od je jednoznacne dek odovateln y k od existuj ale i jednoznacne dek odovateln e k ody, kter e { nejsou prexov e a { maj k odov a slova promenn e d elky a { nevyzaduj pouzv an separ ator u, viz k od 4 (viz v yse): C(A) = 0, C(C) = 01, C(G) = 011 a C(T ) = 0111 je nesingul arn jednoznacne dek odovateln y k od, { kazd a 0, n asledujc po nejak em existujcm symbolu, jednoznacne startuje nov y symbol nen prexov y k od { napr. C(a) = 0 je prexem vsech symbol u atd. 00100011 je k odov e slovo odpovdajc slovu abaac PV06 Organizace souboru { Informacn teorie 6 PV06 Organizace souboru { Informacn teorie 63

Klasikace k od u, prehled oblasti naseho z ajmu Reprezentace jednoznacne dek odovateln ych k od u bin arnmi stromy Pripome nme si kdy je k od optim aln { pro libovoln y optim aln k od C pro n ahodnou velicinu X plat H(X) L(C) < H(X) + 1, kde H je entropie n ahodn e veliciny a L je pr umern a bitov a d elka k odov eho slova (stupe n k odu) PV06 Organizace souboru { Informacn teorie 64 PV06 Organizace souboru { Informacn teorie 65 Proc se vlastne k oduje? Je nutn a zm ena velikosti a/nebo typu abecedy, napr. znaky a, b, c,... k odujeme na posloupnosti 0 a 1 { k odov an si vynucuje prostred do kter eho se zpr ava zapisuje, kter ym se pren as,... existuje pozadavek na utajen obsahu zpr avy { kryptograe PV017 a dals predm ety { k odov an omezujc prstup ke k odu jen na autorizovan e subjekty je nutn e dos ahnout leps vyuzit kapacity pam eti, resp. kapacity prenosov eho kan alu { komprese dat, tou se budeme d ale zab yvat hloubeji = identikace a odstran en redundance (nadbytecnosti) v origin aln zpr ave jejm k odov anm do jin e abecedy Cl kompresnho k odov an Clem kompresnho k odov an je: resen probl emu minimalizace ocek avan ych d elek k odov ych slov, tj. minimalizace stupne k odu, a to pri zachov an omezujc podmnky pozadujc zachovat schopnost on-line dek odovat k odov a slova bez vkl ad an separ ator u PV06 Organizace souboru { Informacn teorie 66 PV06 Organizace souboru { Informacn teorie 67

Komprese zpr av { role metodiky tvorby k odov ych slov Zdroj generuje zpr avy, jejichz symboly jsou k odovan e prvky abecedy o N prvcch Pro k odov an prvk u t eto abecedy do abecedy {0, 1} potrebujeme k odov a slova o pr umern e d elce alespo n log N bit u, pokud nechceme takov ym k odov anm snzit mozn e mnozstv informace ve zpr ave pokud N = 8, pak potrebujeme alespo n 3 bity, log 8 = 3, 3 = 8 pokud N = 6, pak potrebujeme alespo n 5 bit u, 5 = 3, 6 kombinac se pritom nevyuzije Komprese zpr av { role metodiky tvorby k odov ych slov k odov a slova pevn e d elky {0 110 001, 0 110 010,...} v yhoda { snadn a jednoznacn a dek odovatelnost, lze pouzt slovnky nerespektuj se z adn e statistick e charakteristiky v yskytu k odov a slova promenn e d elky {0, 10, 110, 1110, 1111} d elky k odov ych slov obvykle odr azej statistick e charakteristiky v yskytu jednotliv ych k odov ych slov z akladn z akon komprese dat je z adouc, aby casteji pouzit a k odov a slova mela krats d elku pozaduje se bezprostredn rozhodnutelnost pri dek odov an { vhodn a je prexov a vlastnost k odu, { vhodn e jsou prexov e k ody { z adn e k odov e slovo k odu nen prexem nekter eho jin eho k odov eho slova dan eho k odu PV06 Organizace souboru { Informacn teorie 68 PV06 Organizace souboru { Informacn teorie 69 Pr umern a d elka k odov eho slova k odu, stupe n / rate k odu Pr umernou d elkou k odov eho slova k odu C pro diskr etn n ahodnou velicinu X nab yvajc hodnot x A s prav epodobnostn funkc p(x) denujeme jako L(C) = x A p(x)c(x) pro jednoznacne dek odovateln y k od plat H(X) L(C) Necht' A = 0, 10, 11, p(0) = 0, 5, p(10) = 0, 4, p(11) = 0, 1: log (0, 5) = 1, log (0, 4) = 1, 3, log (0, 1) = 3, 3 H(X) = 0, 5 1 + 0, 4 1, 3 + 0, 1 3, 3 = 1, 36 a L(C) = 0, 5 1 + 0, 4 + 0, 1 = 1, 5 Necht' A = 00, 01, 11, p(00) = 0, 5, p(10) = 0, 4, p(11) = 0, 1: H(X) se zmenou k odov an nezmen, H(X) = 1, 36 a L(C) = 0, 5 + 0, 4 + 0, 1 =, jak d a rovnez i selsk y rozum Un arn k od Denice tvorby k odov ych slov C(1) = 1, C(i + 1) = 0C(i) nebo C(1) = 0, C(i + 1) = 1C(i) C(i) = i 1 nul n asledovan ych 1, napr. C(1) = 1, C() = 01, C(3) = 001, C(5) = 00001 resp. C(i) = i 1 jednicek n asledovan ych 0, napr. C(5) = 11110 optim aln (prexov y) k od pro p(i) 1 i PV06 Organizace souboru { Informacn teorie 70 PV06 Organizace souboru { Informacn teorie 71

Prexov y strom un arnho k odu Kazd y prexov y k od (nad bin arn k odovac abecedou) lze zn azornit bin arnm stromem { prexov ym stromem Prexov y strom lze vyuzt k dek odov an. K odov a slova reprezentuj v n ejs uzly, listy Bin arn k od Denice tvorby k odov ych slov: C(0) = 0, C(1) = 1, C(i) = C(i)0, C(i + 1) = C(i)1, napr. C(0) = 0, C(1) = 1, C() = C(1)0 = 10, C(3) = C(1)1 = 11, C(4) = C()0 = 100,... nespl nuje vlastnost dobr eho jednoznacne dek odovateln eho k odu, jeho pouzit vyzaduje pouzv an { bud'to oddelovac u nebo { pevn e d elky k odov ych slov { mus b yt denovan y jako blokov y k od pevn a d elka k odov ych slov vyzaduje apriorn znalost velikosti mnoziny k odovan ych csel { N, ponevadz ta pak determinuje velikost, d elku, k odov ych slov, B(N) = 1 + log N, a velikost mnoziny N nemus vzdy zn am e predem (B(n) { bin arn reprezentace cel eho csla n) bin arn k od je optim aln pro p(i) = 1/N PV06 Organizace souboru { Informacn teorie 7 PV06 Organizace souboru { Informacn teorie 73 Dals prklady prexov ych k od u (Eliasovy, Peter Elias, 1975) Elias uv k od je univerz aln k od pro kladn a cel a csla Nejcast ejs vyuzit je k odov an cel ych csel, u kter ych nen predem zjistiteln a jejich horn hranice K odov an { slovne Rozdelte cel e cslo na nejvyss mocninu dvou ( N ) a na zb yvajcch N bin arnch cslic cel eho csla Zak odujte N un arne; coz znamen a N nul a za nimi jednicka Pripojte onech zb yvajcch N bin arnch cslic k t eto reprezentaci csla N Dek odov an { slovne Ctete a poctejte nuly dokud nedos ahnete prvn jednicky ( N) Ona prvn dosazen a jednicka predstavuje hodnotu N. Nyn uz jen ctete a pripojte zb yvajcch N bit u. Dals prklady prexov ych k od u (Eliasovy, Peter Elias, 1975) necht' B(n) znac B(n) bez nejv yznam ejsho bitu (vzdy = 1) C 1 : kladn e cel e n se k oduje z apisem B(n) s prexem = d elce bin arn reprezentace n, B(n) v un arnmu k odu n = 38 = 100110, B(38) = 00110, B(38) = 6, C 1 (38) = 00000100110 n = 5 = 101, B(5) = 01, B(5) = 3, C 1 (5) = 00101 n = 1 = 1, B(1) = ε, B(1) = 1, C 1 (1) = 1 d elka C 1 (n) = log n + 1 C : preuspor ad an C 1 : kazd y z B(n) bit u se uvede prznakem 0, na konec k odov eho slova se prid a 1 C (5) = 00011, tj. d elkov y prex se rozpt yl do B(n) PV06 Organizace souboru { Informacn teorie 74 PV06 Organizace souboru { Informacn teorie 75

Prexov y strom Eliasova k odu C 1 Prexov y strom Eliasova k odu C PV06 Organizace souboru { Informacn teorie 76 PV06 Organizace souboru { Informacn teorie 77 Dals prklad Eliasov ych k od u K odov a slova Eliasova k odu C 1 k od jsou pro velk a csla dlouh a To je zp usobeno reprezentac d elky k odov eho slova csla un arnm k odem Elias uv k od C 3 pouzv a pro vyj adren d elky k odov eho slova csla msto un arnho k odu k od C Nejprve ilustrace s mal ym cslem, 50 (110010 ) K odov e slovo Eliasova k odu C 1 pro 50 je 00000110010, B(50) = 6 bit u, Jeho permutac na k odov e slovo C vznikne 01000001001 d elka k odov eho slova pro 50 v C 1 i v C je 11 bit u d elka k odov eho slova pro 50 v C 3 je 10 bit u C 1 (6) = 00110, C (6) = 01001, C 3 (50) = 0100110010 Dals prklady prexov ych k od u (Eliasovy) a nyn Elias uv k od C 3 pro 1 000 000 (11110100001001000000 ), d elka = 0 bit u K odov e slovo Eliasova k odu C 1 pro 1000000 je 000000000000000000011110100001001000000, B(1 000 000) = 0 bit u, C 1 (1 000 000) = 39 bit u d elku 0 vyj adrme v C, 0 = 10100, B(0) = 5, C 1 (0) = 000010100, C (0) = 000100001 K odov e slovo Eliasova k odu C 3 pro 1 000 000 je 0001000011110100001001000000 a m a d elku 8 bit u msto 39 bit u k odu t ehoz csla v C PV06 Organizace souboru { Informacn teorie 78 PV06 Organizace souboru { Informacn teorie 79

Pozn amky k porovn an k od u Prostorov e nejv yhodn ejs je samozrejm e bin arn k od, { ten ale nen bez pouzit oddelovac u jednoznacn e dek odovateln y Un arn k od je prexov y k od { to ho cin dobr ym k odem, je ale pouziteln y pouze pro mal a csla, { d elka jeho k odov ych slov v yrazne roste s rostouc hodnotou zdrojov e jednotky Eliasovy k ody jsou prklady prexov ych k od u pro velk a csla optim alnejsch nez un arn k od PV06 Organizace souboru { Informacn teorie 80