C l p redna sky Abychom mohli informace efektivn e ukladat, z skavat c i p rena set, resp. i dlouhodob e uchovavat, mus me v ed et/znat Informacn PV 06 Organizace souboru Jan Staudek http://www..muni.cz/usr/staudek/vyuka/ X vyjad rovat kodovat X primarn e v na sem p r pad e ve sv et e binarn abecedy } co se rozum pojmem informace jak m er it mno zstv informace jak informaci vyjad rovat Odpov edi dav a Information Theory X V edn obor zabyvaj c se obecnymi zakonitostmi w A y < 5 4 3 1 0 / -., )+ ( %&' $ #!" Æ vytva ren, transformac a p renosu informac X u zs speci kace { v etev matematiky zabyvaj c se efektivnost a detaily procesu uchovav an, reprezentace a p renosu informac Verze : jaro 018 Kolik informace obsahuje tento obrazek? PV06 Organizace souboru { Informacn 1 Information, Oxford Dictionary Information facts provided or learned about something or someone X late Middle English (also in the sense 'formation of the mind, teaching') via Old French from Latin informatio, from the verb informare Inform, [reporting verb] give (someone) facts or information; tell X Middle English enforme, informe 'give form or shape to', also 'form the mind of, teach', from Old French enfourmer, from Latin informare 'shape, fashion, describe', from in- 'into' + forma 'a form' PV06 Organizace souboru { Informacn PV06 Organizace souboru { Informacn 3
Uvodn uvahy o pojmu informace Uvodn uvahy o pojmu informace P rij mame, z skav ame, pos lame, uklad ame, zpracovav ame,... texty, zvuky, obrazky,..., obecn e zpravy charakterizuj c objekty, udalosti, jevy... Tyto zpravy obsahuj (materializuj ) jista sd elen o objektech, udalostech, jevech,... obsahuj zformovane ideje, my slenky { informace X Signal je fyzikaln veli cina, ktera ve svych prom enach v c ase nese informaci Informace v sob e v zdy obsahuje (nese) konkretn znalost, ktera je pro jej ho p r jemce znalost novou, sni zuj c neur citost jeho poznan X Information { facts provided or learned about something or someone PV06 Organizace souboru { Informacn 4 Uvodn uvahy o pojmu informace PV06 Organizace souboru { Informacn Informace je v zdy p rena sena / uchovav ana pomoc konkretn ho nosi ce (signal, pam et'ove medium, pap r... ) ruzn ymi podobami (p smena, c slice, speci cke symboly, posloupnosti c slic, p smen, symbolu, charakteristicke prvky signalu, stavy pam eti,... ) Aby mohla byt informace p redana/uchovan a, mus byt n ejakym zpusobem zakodovan a, tj.p revedena do vhodne podoby podle pou ziteho nosi ce PV06 Organizace souboru { Informacn 5 Uvodn uvahy o pojmu informace 6 PV06 Organizace souboru { Informacn 7
Uvodn uvahy o pojmu informace Informace a informa cn teorie Informace ma smysl / vyznam pouze kdy z jej p r jemce je schopny ji interpretovat Informace je v zdy o n ec em (velikost parametru, vyskyt udalosti,...) Informace nemus byt,,precizn ", informace mu ze sd elovat pravdiva fakta, ale informace mu ze sd elovat i l ziva fakta, stale je to informace I ru sivy s um zpusobuj c utlum komunikace a zpusobuj c neporozum en zprav e lze chapat jako jistou formu informace PV06 Organizace souboru { Informacn X jedna se o nematematickou veli cinu, kterou nelze ani exaktn e de novat a ani exaktn e m er it X informace ma nehmotny charakter, vznika abstrakc, X ale v zdy je spojena s n ejakym fyzikaln m pochodem (signalem), ktery ji nese, uchovav a, zobrazuje,... 8 X americky matematik, elektroin zenyr, po c ta cn k X Bell Laboratories (1941{197), MIT(1956{001) X A mathematical theory of communication, Bell System Technical Journal, 1948 PV06 Organizace souboru { Informacn jak mu zeme m er it mno zstv informace? jak mu ze zajistit bezchybnost p renosu informace? co d elat, kdy z se v dusledku poruch v nosi ci informace naru s? kolik pam eti pot rebujeme pro uchovan informace? jak rychle lze informaci p renest ze zdroje k p r jemci? PV06 Organizace souboru { Informacn 9 Kvalita a kvantita informace Iniciator informa cn teorie { Claude E. Shannon, 1916 { 001 Porozum en pojmu informace r e s informa cn teorie poskytnut m odpov ed na otazky typu X X X X X Informa cn teorie Pojem informace je obt z n e formaln e posti zitelny, t ez ko se de nuje, p resna, jednozna cna de nice neexistuje Zprava nesouc informaci ma syntaxi (skladbu, formu) a semantiku (obsah) X syntaxe, uspo rad an, reprezentace mno zstv, { kvantitativn stranka, { p redm et na seho studia X semantika, vyznam, { nem er se, obvykle se nem en zm enou syntaxe, { kvalitativn stranka informace, { pragmaticky obsah ve vztahu k p r jemci informace, { nestudujeme 10 PV06 Organizace souboru { Informacn 11
Kvalita a kvantita informace intuitivn denice informace jako kvality: informace = vse co prijm ame formou text u, reci, obrazy { zpr avami { znalost odvozen a ze studia, ze zkusenost, z poucen { znalost konkr etn ud alosti nebo situace { kolekce fakt u nebo dat {... kvalitativn ch ap an = pohled softwarov eho inzen yrstv (SI) SI zajm a predevsm sdelen obsahu, pak teprve forma SI zpracov av a data { formalizovan e reprezentace fakt u, pojm u,... vhodn e pro komunikaci / interpretaci / zpracov an / uchov av an automatizacnmi prostredky nebo lidmi pro SI informace reprezentuje v yznam pridelen y udaj um shrom azden ych jist e zpr ave, resp. v yznam dan y konvencemi aplikovan ymi na tato data Kvalita a kvantita informace my ale potrebujeme denici informace jako kvantity: smysluplne zaveden y axiom umoz nuje odpovedet na ot azku: Kolik informace obsahuje dan a zpr ava? Vseobecne respektovan y uzus pro ch apan mry informace { informacn objem zpr avy je umern y mre prekvapen vyvolan emu prijetm zpr avy Informace je v urcite zpr ave obsazena jen tehdy, jestlize u prijmacho subjektu odstra nuje neurcitost informaci ch apeme jako neco nov e, co moment alne ci v budoucnosti ovlivn v nejak e forme kon an/znalost/vedom/... prjemce kvantitativn ch ap an = pohled informacn teorie Aby informaci slo pren aset, skladovat,..., mus b yt meriteln a Informace se st av a meritelnou velicinou stanovenm vhodn e mry Mru stanovuje Informacn teorie, Information Theory PV06 Organizace souboru { Informacn teorie 1 PV06 Organizace souboru { Informacn teorie 13 Informace je abstraktn pojem Neurcitost/entropie a mra mnozstv informace ve zpr av e Informace neobsahuje z adnou energii informace nez avis na zp usobu prenosu / uchov an pouzit ym jejm nositelem energie je nutn a pouze k transportu (prp. uchov an) informace na druhu a mnozstv energie z avis pouze kvalita (efektivnost, ucinnost) prenosu / uchov an informace koprov anm informace nedoch az ke zmensen velikosti (mnozstv) informace Sledujme v ysledek procesu v yb eru jedn e nebo vce alternativ z n ejak e mnoziny mozn ych alternativ zarzen I produkuje (se stejnou pravd epodobnost) znaky A nebo B nebo C ex. nejistota charakterizovateln a ot azkou,,kter y znak bude produkovan y jako prst?" { zarzen I vykazuje,,3-prvkovou"neurcitost (entropii) kdyz v ystupn hodnotu uvidme, neurcitost miz, snzenm (odstran enm) neurcitosti zsk av ame informaci mnozstv zskan e informace odpovd a velikosti odstran en e neurcitosti zsk anm informace velikost odstranen e neurcitosti lze charakterizovat pravdepodobnost v yskytu jednotliv ych v ystupnch hodnot PV06 Organizace souboru { Informacn teorie 14 PV06 Organizace souboru { Informacn teorie 15
Neurcitost/entropie a mra mnozstv informace ve zpr av e Vybrejme jist e predm ety x ze skladu, ve kter em je n r uzn ych typ u predmet u, {x 1, x,..., x n } Mnozstv informace I(x) dan e v yberem predmetu typu x k mus b yt funkc pravdepodobnosti volby x k, tj. I(x k ) = f{p(x k )} pokud bude ve skladu s n predmety po 1 ks kazd eho typu predmetu, pak plat pro n ahodn y v yber I(x k ) = f{1/n}, pro vsechna k Necht' se predmety pri v yberu ze skladu n ahodne bal do obal u v m r uzn ych barv ach c j, pak mnozstv informace dan e barvou obalu c j vybran eho predmetu je I(c j ) = f{p(c j )} pokud budou obaly vybran emu predmetu d av any n ahodne pak plat I(c j ) = f{1/m}, pro vsechna j Neurcitost/entropie a mra mnozstv informace ve zpr av e Pokud se nejprve ze skladu n ahodne vybere predmet x k a tomu se posl eze n ahodne pridel barevnost obalu c j, pak zskan e mnozstv informace odpovd a I(x k &c j ) = I(x k ) + I(c j ) = f{1/n} + f{1/m} Pokud se budou ve skladu bude nach azet n.m predmet u vsech typ u ve vsech barevn ych kombinacch po 1 ks, pak zskan e mnozstv informace n ahodn ym v yb erem odpovd a I(x k &c j ) = f{1/nm} Mnozstv zskan e informace v obou prpadech je prirozen e identick e, takze mus platit f{1/n} + f{1/m} = f{1/nm} Z mnoha mozn ych resen t eto funkcion aln rovnice je pro mru mnozstv informace nejvhodn ejs resen f{x} = log(x), zd uvodnen viz d ale PV06 Organizace souboru { Informacn teorie 16 PV06 Organizace souboru { Informacn teorie 17 Neurcitost/entropie a mra mnozstv informace ve zpr av e zarzen II produkuje (se stejnou pravd epodobnost) znaky 1 nebo ex. nejistota zda v ysledkem bude 1 ci, { zarzen II vykazuje -prvkovou neurcitost kombinovan e zarzen I+II produkuje v ystupy A1, A, B1, B, C1, C, kombinovan e zarzen I+II vykazuje 6 prvkovou neurcitost takto (multiplikativn e) se ale mnozstv informace nem er kdyz si prectu dve r uzn e knihy, zsk am mnozstv informace odpovdajc souctu mnozstv informace obsazen ych v kazd e z nich nikoli mnozstv odpovdajc poctu kombinac fakt u obsazen ych v kazd e z knih mra mnozstv informace kombinovan eho zdroje mus mt aditivn charakter Mra mnozstv informace ve zpr av e chceme, aby mra mnozstv informace m ela aditivn charakter pak pro urcen mnozstv informace produkovan e zarzenm I+II m uzeme msto vyj adren neurcitosti dan eho n asobenm poct u mozn ych v ystupnch hodnot (3 = 6) pouzt sct an z aporn ych hodnot logaritm u pravdepodobnost mozn ych v ystupnch hodnot (1/3, 1/): ( log(1/3)) + ( log(1/)) = log(1/6) logaritmick a mra mnozstv informace m a pozadovanou vlastnost aditivity pro nez avisl e statistick e experimenty b aze logaritmu pak urcuje clovou m ernou jednotkou { bity, 10 digits (dekadick e cifry), e {,,nats",... v yber mezi stejne pravdepodobn ymi ud alostmi reprezentuje mnozstv informace zn am e jako 1 bit, log (1/) = log () = 1 PV06 Organizace souboru { Informacn teorie 18 PV06 Organizace souboru { Informacn teorie 19
Mra mnozstv informace ve zpr av e Mra mnozstv informace ve zpr av e Necht' zarzen III trvale produkuje jedinou v ystupn hodnotu, napr. jedin y t on nebo posloupnost st ale stejn ych v ystupnch symbol u pozn anm v ystupn hodnoty nedojde ke snzen neurcitosti z pozn an v ystupn hodnoty nezsk ame z adnou informaci, je jist e, co bude na v ystupu zarzen III prste zarzen III generuje nulov e mnozstv informace, produkuje jedin y v ystup s pravdepodobnost 1, log(1) = 0 Zarzen IV reprezentuje h azen minc, produkuje dv e hodnoty,,,hlava"(0) nebo,,orel"(1) pravdepodobnost, ze padne,,hlava"a pravdepodobnost, ze padne,,orel" jsou v prpade nefalesn e mince shodn e (0.5) mnozstv generovan e informace hodem: log (1/) = log () = 1 [b] s pravdepodobnost 0,5 zsk ame 1 bitovou informaci (padne 0) a s pravdepodobnost 0,5 zsk ame 1 bitovou informaci (padne 1), a protoze z adn y jin y v ysledek nem uze nastat a v ysledky po sobe jdoucch hod u jsou na sobe nez avisl e zarzen IV produkuje zpr avy obsahujc 0, 5 log (1/) + 0, 5 log (1/) = 1 bitovou informaci PV06 Organizace souboru { Informacn teorie 0 PV06 Organizace souboru { Informacn teorie 1 Mra mnozstv informace ve zpr av e Zarzen IV reprezentuje h azen minc, produkuje dv e hodnoty,,,hlava"(0) nebo,,orel"(1) ALE POZOR: pokud by pri h azen casteji padala hlava nez orel, pravdepodobnosti v ysledku budou pak odlisn e, napr. p(hlava) = 0,99, p(orel) = 0,01 neurcitost v ysledku se snz, zpr ava o v ysledku hodu hlavy nese m ene informace KOLIK INFORMACE NESE ZPR AVA SD ELUJICI V YSLEDEK TAKOV EHO HODU? s pravdepodobnost 0,99 zsk ame log (0, 99) = 0, 01 [b] inf. a s pravdepodobnost 0,01 zsk ame log (0, 01) = 6, 64 [b] inf., zarzen IV produkuje zpr avy obsahujc 0, 99 log (0, 99) + 0, 01 log (0, 01) = 0, 99 0, 01 + 0, 01 6, 64 = 0, 0763 bitovou informaci Mra mnozstv informace ve zpr av e v textu nad abecedou s 6 psmeny X = {a;... ; q;... ; z; } pri stejne pravdepodobn em v yskytu kazd eho znaku nese jeden symbol 4,7 bitu informace, log 1/6 = 4, 7 statistick e anal yzy rkaj, ze neurcitost anglick eho textu d av a v pr umeru 1 az 1,5 b / znak textu, jednotliv e znaky se vyskytuj s r uznou frekvenc pak ale reprezentace znaku anglick eho textu k odem ASCII tj. 7 b/znak, zobrazuje anglick y text az t emer s 500 % redundanc (nadbytecnost) Proc se tedy pouzv a pro k odov an uchov avan e/pren asen e informace k od ASCII a ne nejak e efektivnejs k odov an? Odpoved': K od ASCII usnad nuje manipulaci s informacemi (tisk, zobrazeni na displeji,... ), jeho clem nen vyjadrovat informaci v minim alne mozn em bitov em prostoru PV06 Organizace souboru { Informacn teorie PV06 Organizace souboru { Informacn teorie 3
Mra mnozstv informace ve zpr av e Mnozstv informace obsazen e ve zpr av e X souvis s pravd epodobnost jejho v yskytu zpr ava "v rulete padlo cslo 17"prin as vets mnozstv informace nez zpr ava "V rulete padlo lich e cslo" Pozadavky na mru mnozstv informace ve zpr av e m ene pravdepodobn a zpr ava nese vce informace, jejm zsk an se snizuje vets neurcitost mnozstv informace je vzdy kladn e mnozstv informace obsazen e ve skupine nez avisl ych zpr av je rovno souctu mnozstv informac obsazen ych v jednotliv ych zpr av ach Mra mnozstv informace ve zpr av e Pozadavk um na vlastnosti mry mnozstv informace obsazen e ve zpr ave A generovan e s pravepodobnost P (A) vyhovuje funkce i(a) = log 1 = log P (A), v jednotk ach Sh, Shannon resp. P (A) 1 i(a) = log P (A) = log P (A) v jednotk ach bit Zpr ava A generovan a s pravepodobnost P (A) = 1 nese nulov e mnozstv informace, log 1 = 0 kdyz P (A) kles a z 1 k 0, i(a) = log P (A) roste Mnozstv informace nesen e dv emi nez avisl ymi zpr avami je souctem mnozstv informac nesen ych t emito zpr avami i(ab) = log 1 1 P (A) P (B) = log 1 P (A) + log 1 = i(a) + i(b) P (B) PV06 Organizace souboru { Informacn teorie 4 PV06 Organizace souboru { Informacn teorie 5 Mra mnozstv informace ve zpr av e, prklad Kolik informace m uze obs ahnout k-cifern e dekadick e cslo? kolik bit u potrebujeme pro vyj adren k-cifern eho dekadick eho csla? Mus platit 10 k 1 = x 1, tj. 10 k = x. a tedy x = k log 10/ log. = 3.3 k bit u tj. jednou dekadickou cifrou lze vyj adrit cca 3.3 bitu informace resp. naopak { pro vyj adren dekadick e cifry potrebujeme alespo n 4 bity: 1001 = 9, 1000 = 8,... 0000 = 0, obecne pro vyj adren cel eho csla i potrebujeme alespo n 1 + log i bit u Neurcitost zdroje, mnozstv informace generovan e zdrojem Necht' prjemce zpr avy predem zn a zpr avy, kter e mohou b yt produkov any (zn a mnozinu vsech mozn ych zpr av) Zdroji zpr av je ponech ana volnost v yberu z t eto mnoziny mozn ych zpr av. U prjemce existuje tedy neurcitost, nev kterou zpr avu obdrz. Prijetm zpr avy je pak tato neurcitost odstran ena. prijetm zpr avy o padnut csla 7 v rulete se odstran velk a neurcitost zpr avou o padnut hlavy pri hodu korunou se odstran mal a neurcitost Neurcitost, entropie, zdroje zpr avy X, H(X), je rovna mnozstv informace ve zpr ave obsazen e, H(X) = I(X), neurcitost je prijetm zpr avy odstran ena PV06 Organizace souboru { Informacn teorie 6 PV06 Organizace souboru { Informacn teorie 7
Neurcitost zdroje, mnozstv informace generovan e zdrojem Determinovan e syst emy maj nulovou entropii (neurcitost), zpr avy o jejich stavu nesou nulovou informac. Nejv ets neurcitost m a syst em, jehoz stavy jsou stejn e pravd epodobn e, tj. pri rovnom ern em rozd elen pravd epodobnost nast an jeho stav u, zpr avy o jeho stavech nesou maxim alne mozn e mnozstv informace Neurcitost syst emu (entropie) generujcho zpr avy v z avislosti na stavech, ve kter ych se nach az, z avis { na poctu stav u syst emu a { na pravd epodobnostech nast an (neurcitosti) jeho jednotliv ych stav u Neurcitost zdroje, mnozstv informace generovan e zdrojem M uze-li syst em nab yvat s mozn ych stav u s pravdepodobnostmi p 1, p,..., p s,, kde p 1 +..., +p s = 1, pak entropie H(X) syst emu je rovna H(X) = s i=1 p i H i, tj. kazd y stav s pravdepodobnost sv eho v yskytu prispv a do neurcitosti syst emu svoj neurcitost a tudz H(X) = s i=1 p i log p i [bit] Tento vztah nab yv a maxim aln hodnoty pri p 1 =..., = p s kde p i = 1 s, takze H max (X) = log s [bit] PV06 Organizace souboru { Informacn teorie 8 PV06 Organizace souboru { Informacn teorie 9 Neurcitost / entropie, Shannonova formule Maxim aln neurcitost / entropie zdroje { Neurcitost zdroje informac determinuje mnozstv informace zdrojem generovan e { Neurcitost zdroje je d ana pr umern ym prekvapov anm pri generov an nekonecn eho proudu jeho v ystupnch hodnot překvapení vyvolaná výstupy jednotlivých hodnot do tohoto průměru přispějí v poměru pravděpodobností výskytu příslušných hodnot ve výstupu { Shannonova formule: Neurcitost (entropie) diskr etn n ahodn e promenn e X, kter a m uze nab yvat hodnot {x 1,..., x n }, je H(X) = n i=1 p(x i) log p(x i ) kde p(x i ) = Pravdepodobnost (X = x i ) Funkce H pro prpad v ystupu jednoho ze znak u: pri stejn e pravdepodobnosti v ystupu kazd eho z M znak u je pravdepodobnost v ystupu jednoho z nich P i = 1/M tento sc en ar vykazuje maxim aln neurcitost a ta je rovna: M 1 H max = M log 1 M i=1 H max = ( 1 M log 1 M M ) 1 ( ) i=1 1 H max = M log 1 M M 1 H max = log M H max = log M PV06 Organizace souboru { Informacn teorie 30 PV06 Organizace souboru { Informacn teorie 31
Vlastnosti mry mnozstv informace podle Shannona mra je spojit a Jak akoliv mal a zmena jedn e z pravdepodobnost zmen v yslednou entropii pouze mal ym dlem mra je symetrick a Entropie se preuspor ad anm v ystupnch hodnot nemen H(X) = H(x 1, x,..., ) = H(x, x 1,..., ) =... entropie m a maximum Jsou-li vsechny v ystupy stejne pravdepodobn e, entropie je maxim aln Neurcitost je nejvets, jsou-li vsechny ud alosti stejne pravdepodobn e. Entropie vzroste, pokud se zv ys pocet mozn ych v ystup u. ( H n (p 1,..., p n ) H 1 n n,..., 1 ) ( ) n < 1 Hn+1 n+1,..., 1. n+1 PV06 Organizace souboru { Informacn teorie 3 Mra mnozstv zdroje informace, k odov an informace, prklad Co znamen a, kdyz se rekne mnozstv informace, kter e text/sign al (zpr ava) nese, je 1,75 b/symbol (prvek sign alu) Plat jedn a se o pr umern e mnozstv informace/symbol zpr avy po zak odov an do posloupnosti z {0, 1} mohou b yt r uzn e symboly zpr avy reprezentovan e texty s r uznou bitovou d elkou v pr umeru na 1 symbol zpr avy pripad a... (1,75) bit u jestlize v jist em jazyku nese 1 znak ve slove 1, b informace coz je zjisteno statistick ymi setrenmi pak pri ASCII k odov an znak u na 1 bit k odu znaku pripad a 1, 5,8 = 0, 17 b informace a = 0, 83 b redundantn informace 7 7 PV06 Organizace souboru { Informacn teorie 33 Mra mnozstv zdroje informace, k odov an informace, prklad zdroj generuje zpr avy slozen e ze symbol u nab yvajcch hodnot znak u A, C, G a T s pravdepodobnostmi: P A = 1, P C = 1 4, P G = 1 8, P T = 1 8 prklady takov ych zpr av: TAACCAAG, AAAA, ACAACG,...,,prekvapen"z v yskytu jednotliv ych znak u ( log P i ) jsou u A = 1 bit, u C = bity, u G = 3 bity, u T = 3 bity, a neurcitost dan eho zdroje (mnozstv jm produkovan e informace) je H = 1 1 + 1 4 + 1 8 3 + 1 3 = 1.75 (bit u / symbol) 8 minim aln k odov an symbol u na bity (tak e Fanovo k odov an) k odov a slova znak u maj d elky umern e mnozstv informace, kter e znaky nesou, napr.: A = 1, C = 01, G = 000 a T =001 napr. retez 8 symbol u ACATGAAC je k odovan y 14 bity, 10110010001101, tj. v pr umeru 14 = 1.75 b/symbol 8 Mra mnozstv zdroje informace, k odov an informace, prklad zdroj generuje zpr avy slozen e ze symbol u nab yvajcch hodnot znak u A, C, G a T s pravdepodobnostmi: P A = 1, P C = 1 4, P G = 1 8, P T = 1 8 prklady takov ych zpr av: TAACCAAG, AAAA, ACAACG,...,,prekvapen"z v yskytu jednotliv ych symbol u ( log P i ) jsou u A = 1 bit, u C = bity, u G = 3 bity, u T = 3 bity, a neurcitost dan eho zdroje (mnozstv jm produkovan e informace) je H = 1 1 + 1 4 + 1 8 3 + 1 3 = 1.75 (bit u / symbol) 8 ASCII k odov an symbol u na bity, uniformne 7 b/znak kazd y symbol je k odovan y 7 bity, tj. 4-n asobn ym poctem bit u retez 8 znak u ACATGAAC bude k odovan y 56 bity, pricemz zpr ava o 8 symbolech v pr umeru nese 8 1, 75 = 14 bit u informace { 4 bit u je redundance PV06 Organizace souboru { Informacn teorie 34 PV06 Organizace souboru { Informacn teorie 35
Diskr etn zpr ava, analogov a zpr ava informace se mus pro ucely zpracov an, sd elov an, skladov an, prenosu,... adekv atn e (efektivn e) vyj adrit kazd y ucel (zpracov an, sdelov an, skladov an, prenosu,... ) obvykle klade individu aln pozadavky na efektivitu vyj adren zpracov an { form atov an pro dostupn e operacn funkce/procedury sdelov an { srozumitelnost vyj adren pro aplikaci skladov an { typicky minimalizace redundace (min. bitov y objem) prenos { { ide aln prostred { minim aln redundace (min. bitov y objem) { prostred s poruchami { detekovatelnost / samoopravitelnost chyb, za cenu zv ysen redundance Diskr etn zpr ava, analogov a zpr ava statick e / textov e informace se vyjadruj diskr etnmi symboly, diskr etn zpr avy se formuj posloupnostmi diskr etnch symbol u vyj adren ych prvky adekv atn abecedy (znaky) dynamick e (napr. zvukov e) informace m uzeme vyj adrit (zachytit, zobrazit,... ) v case spojite / analogove, formou analogov ych zpr av, napr. do casov ych funkc (sign al u) { zmen tlaku vzduchu, { elektromagnetick ych vlastnosti prostred,... analogov e zpr avy lze vyjadrovat rovn ez posloupnostmi diskr etnch zpr av nesoucch hodnoty analogov ych charakteristik nam eren ych v jist ych v diskr etnch casech predmetem naseho z ajmu jsou diskr etn zpr avy PV06 Organizace souboru { Informacn teorie 36 PV06 Organizace souboru { Informacn teorie 37 Mnozstv informace ve zpr ave o n symbolech Necht' nyn zdroj generuje nikoli 1 z M v ystupnch hodnot, ale zpr avy o n symbolech, z nichz kazd y m uze n ahodne nab yvat hodnotu jednoho z m prvk u v ystupn abecedy Hled ame mnozstv informace ve zpr av ach o n symbolech k odovan ych abecedou s mohutnost m prvk u tak, ze kazd y prvek abecedy m a apriorn pravdepodobnost v yskytu v symbolech zpr av P i gener ator zpr av o n symbolech pak vykazuje neurcitost m H = n P i log P i, i=1 pricemz plat, ze pokud se v ystupn hodnoty vyskytuj se shodnou pravdepodobnost (P i =1/m), je entropie maxim aln H max = n log m K odov an K od, abeceda, k odov an zpr av necht' je zpr ava vyj adrena posloupnost symbol u symboly nab yvaj hodnot prvk u (znak u) abecedy k odov an proces nahrazov an symbol u (resp. posloupnost symbol u) zpr avy obsahujcch hodnoty znak u zdrojov e abecedy A symboly (resp. posloupnostmi symbol u) nab yvajcch hodnot znak u clov e (k odovac) abecedy A C Prklady aplikac k odov an: porizov an dat, sifrov an (utajov an) zpr av, samoopravn e k odov an, komprese (minimalizace,,prostoru pro uchov an") zpr av, transformace zpr av na sign alov e prvky pro prenos,... PV06 Organizace souboru { Informacn teorie 38 PV06 Organizace souboru { Informacn teorie 39
K od, abeceda, k odov an zpr av Abeceda { konecn a mnozina znak u (prvk u abecedy, psmen,... ) Pro nase zkoum an plat A C = {0, 1}, tj. prvk um ci posloupnostem prvk u zdrojov e abecedy prirazujeme bin arn posloupnosti K od ASCII prirazuje znaku a posloupnost 1000011, prirazuje znaku A posloupnost 1000001 K od, abeceda, k odov an zpr av Konecn a posloupnost symbol u vyj adren ych prvky (znaky) jist e abecedy tvor slovo D elku t eto posloupnosti naz yv ame d elkou slova, je-li slovo znaceno S, pak znacme jeho d elku S Mnozinu vsech slov nad abecedou A znacme A, mnozinu vsech slov nad abecedou A nenulov ych d elek oznacujeme A + K odov e slovo, resp. slovo v k odovac abecede jedn a se o prvek (znak) A C, resp. posloupnost prvk u (znak u) A C, pouzit y( a) pro vyj adren prvku A, resp. posloupnosti prvk u A Protoze v prpade k odov an do bin arn abecedy je k odov ych znak u (mnohem) m ene nez zdrojov ych znak u, je d elka (bin arnch) k odov ych slov vesmes vets nez jedna (k odov e slovo = posloupnost 1 a 0). PV06 Organizace souboru { Informacn teorie 40 PV06 Organizace souboru { Informacn teorie 41 K od, abeceda, k odov an zpr av K odov an je funkce (zobrazen) K : A A + C Zobrazen K prirazuje kazd e zdrojov e jednotce z mnoziny A pr ave jedno k odov e slovo z mnoziny A + C. k od C dan y k odov anm K je trojice C : (A, A + C, K), k odem dan ym k odov anm K se rozum obor hodnot zobrazen K, mnozina vsech k odov ych slov, pouzit a pro jistou konkr etn formu k odov an, tj. predpis pro zobrazov an (podmnozin) prvk u A do (podmnozin) prvk u A C Protoze je denicn obor zobrazen K konecn y, lze zobrazen K zapisovat pomoc tabulky Jednoznacn e dek odovateln y k od Nutn a vlastnost na dobrého / smyslupln eho k odu { k od je jednoznacne dek odovateln y Zobrazen K mus b yt prost e, kazd emu k odov emu slovu v clov e abecede odpovd a jedin a posloupnost znak u ve zdrojov e abecede a r uzn ym vzor um k od prirazuje r uzn e obrazy, tj. kazd e dva r uzn e zdrojov e prvky jsou zobrazov any na dve r uzn a k odov a slova Nutn a, nikoli vsak dostacujc, podmnka pro jednoznacnou dek odovatelnost k odu C, k prost emu zobrazen K existuje inverzn zobrazen PV06 Organizace souboru { Informacn teorie 4 PV06 Organizace souboru { Informacn teorie 43
Jednoznacn e dek odovateln y k od Mejme k od C : (A, A + C, K). Retezec x A + C je jednoznacne dek odovateln y vzhledem k zobrazen K, jestlize existuje pr ave jeden takov y retezec y A +, ze K(y) = x K od (A, A + C, K) je jednoznacne dek odovateln y k od pr ave tehdy, kdyz vsechny mozn e retezce z A + C jsou jednoznacn e dek odovateln e. Klasikace k od u, stupe n k odu, optim aln k od K od s k odov ymi slovy pevn e d elky { blokov y k od K od s k odov ymi slovy promenn e d elky cl pouzv an { redukce bit u pouzit ych pro zobrazen informace casteji se vyskytujc zdrojov a slova se k oduj na krats k odov a slova, ridceji se vyskytujc zdrojov a slova se k oduj na dels k odov a slova, viz d ale { napr. prexov y k od, suxov y k od stupe n (rate) k odu C { pr umern y pocet bit u v k odov ych slovech k odu C pouzit ych pro k odov an zdrojov ych znak u v k odu C optim aln k od m a stupe n minim aln e prevysujc mnozstv informace obsazen e v symbolech zdrojov ych zpr av PV06 Organizace souboru { Informacn teorie 44 PV06 Organizace souboru { Informacn teorie 45 Typick a strategie k odov an zpr avu S rozdelme na slova (fr aze, symboly,... ) S = s 1 s... s k, s i A + urcme C(s 1 ),..., C(s k ) A + C, kde C(s i ) jsou k odov a slova k odu C Plat K(S) = C(s 1 ) C(s )... C(s k ), resp. K(s 1 s... s k ) = C(s 1 ) C(s )... C(s k ) Prklad blokov eho k odu K od C zobrazujc prvky (znaky) abecedy A (napr. anglick e) do mnoziny prvk u abecedy A C (napr. bin arn) k odov ymi slovy tvoren ymi bitov ymi retezci pevn e d elky Napr. k od ASCII zobrazuje znaky (anglick e) abecedy a nekter e dals znaky na dekadick a csla 0 az 17, napr. A 65, a 97 18 = 7, sedmi bity lze k odovat 18 hodnot pro zpracov an v poctaci je k odovac abeceda {0,..., 17} d ale k odovan a sedmicemi bit u, napr. A 1 000 001 PV06 Organizace souboru { Informacn teorie 46 PV06 Organizace souboru { Informacn teorie 47
American Standard Code for Information Interchange, ASCII Prklad blokov eho k odu Napr. k od ASCII, pokrac. k od ASCII zobrazuje znaky anglick e abecedy na sedmice bit u text HELLO! zobrazuje k od ASCII na bin arn retezec 100100010001011001100100110010011110100011, resp. pro leps vizu aln n azornost s mezerou mezi barevne odlisen ymi symboly: 1001000 1000101 1001100 1001100 1001111 0100011 ASCII k od je jednoznacne dek odovateln y k od PV06 Organizace souboru { Informacn teorie 48 PV06 Organizace souboru { Informacn teorie 49 Neblokov e jednoznacn e dek odovateln e k ody Necht' zdroj generuje zpr avy slozen e ze symbol u nab yvajcch hodnot znak u A, C, G a T s pravdepodobnostmi: P A = 1, P C = 1 4, P G = 1 8, P T = 1 8 mnozstv inform. predstavovan e jednotliv ymi znaky ( log P i ) jsou i(a) = 1 bit, i(c) = bity, i(g) = 3 bity, i(t ) = 3 bity, a neurcitost dan eho zdroje (mnozstv jm produkovan e informace) je H = 1 1 + 1 4 + 1 8 3 + 1 3 = 1.75 (bit u / symbol) 8 Ctyri prklady neblokov ych k od u pro tento prklad Neblokov e jednoznacn e dek odovateln e k ody K od 1 nen jednoznacne dek odovateln y, d ale ignorujeme K odovac funkce k odu 1, K, nen prost a PV06 Organizace souboru { Informacn teorie 50 PV06 Organizace souboru { Informacn teorie 51
Neblokov e jednoznacn e dek odovateln e k ody Neblokov e jednoznacn e dek odovateln e k ody K odovac funkce, K, k od u, 3, 4, je prost a K ody, 3, 4 oznacujeme jako nesingul arn k ody je-li Dec dek odovac (inverzn) funkc ke K, pak pro nesingul arn k od plat Dec x A Dec(K(x)) = x K od ale nen jednoznacne dek odovateln y Pouh a prostost funkce K k jednoznacnosti dek odov an nepostacuje, prijet 0000 lze dek odovat na AAAA nebo GG nebo AAG nebo... K od 3 je nesingul arn jednoznacne dek odovateln y k od plat Dec x A Dec(K(x)) = x navc je bezprostredne jednoznacne dek odovateln y, coz je vysoce z adouc vlastnost k odu { jednotliv a k odov a slova se pri anal yze zleva doprava rozpozn avaj okamzite pri jejich precten, jedn a se o tzv. prexov y k od navc je to optim aln k od, m a stupe n minim alne prevysujc (=) mnozstv informace obsazen e v symbolech zdrojov ych zpr av PV06 Organizace souboru { Informacn teorie 5 PV06 Organizace souboru { Informacn teorie 53 Neblokov e jednoznacn e dek odovateln e k ody Klasikace k od u, probl em jednoznacn e dek odovatelnosti Dals prklad nesingul arnho k odu a jeho k odov an K od 4 je rovnez nesingul arn jednoznacne dek odovateln y k od nen ale bezprostredne jednoznacne dek odovateln y { k odov e slovo se rozpozn a az pri precten uvodn 0 dalsho k od. slova K od 4 nen optim aln k od, pro dan e rozlozen pravdepodobnost v yskyt u znak u zdrojov e abecedy existuje k od s mensm pr umernou d elkou k odov eho slova nez 1,875, (K od 3) zdrojov a abeceda: {A, B, C, D}, k odov a slova: {0, 010, 01, 10}) vyslac vyslal znak B, tj. bitovou posloupnost 010 prijmac prijme retez 010 a prijat y retez m uze dek odovat { na znak B { nebo na retez znak u CA nebo na retez znak u AD v yse uveden y k od nen jednoznacne dek odovateln y i kdyz jeho k odovac funkce je prost a pokud se vysl a zpr ava slozen a z vce symbol u k odovan ych obecn ym nesingul arnm k odem, mus se jednotliv a k odov a slova oddelovat speci alnm prvkem, napr.,,c arkou"(,) { oddelovac/separ ator,... nem a smysl d ale pracovat s k odov anm, kter e by bylo jednoznacne dek odovateln e pouze s pouzitm separ ator u posloupnost k odov ych slov mus b yt dek odovateln a jedin ym zp usobem, a to bez pouzit separ ator u PV06 Organizace souboru { Informacn teorie 54 PV06 Organizace souboru { Informacn teorie 55
Klasikace k od u, probl em jednoznacn e dek odovatelnosti K od (A, A C, K) je jednoznacne dek odovateln y k od pr ave tehdy, kdyz vsechny mozn e retezce z A + C jsou jednoznacn e dek odovateln e Retezec x A + C je jednoznacne dek odovateln y vzhledem k K, jestlize existuje pr ave jeden retezec y A + takov y, ze K(y) = x Kazd emu vygenerovan emu retezci k odov ych slov jednoznacne dek odovateln eho k odu odpovd a jedin y zdrojov y retezec, kter y jej produkuje, Ale { pro dek odov an zpr avy se nekdy mus nejprve analyzovat cel a zpr ava je vysoce z adouc mt moznost dek odov an resit on-line pri anal yze textu Klasikace k od u, jednoznacne dek odovateln y k od Mejme k od C(a) = 10, C(b) = 00, C(c) = 11 a C(d) = 110, pak C(ab) = 1000, C(cb) = 1100. pri prijet zpr avy 1000 lze hodnoty a a b rozpoznat,,on-line", bezprostredne jeste v pr ubehu cten jednotliv ych k odov ych slov, 1000 pri prijm an zpr avy 1100 se ale pozn a, zda se jedn a o c..., 11... a nikoli o o d..., 110..., az po anal yze cel eho retezu probl em { k odov e slovo c je prex k odov eho slova d Urcen, zda libovoln y nesingul arn k od je jednoznacn e dek odovateln y je algoritmicky neresiteln y probl em Existuj trdy nesingul arnch k od u, kter e jsou dokazateln e jednoznacn e dek odovateln e: prexov e k ody, suxov e k ody a blokov e k ody prexov e / suxov e k ody neomezuj d elku k odov ych slov na pevnou hodnotu, blokov e k ody maj pevnou d elku k odov ych slov PV06 Organizace souboru { Informacn teorie 56 PV06 Organizace souboru { Informacn teorie 57 Klasikace k od u, prexov y, suxov y a blokov y k od Jestlize z adn e k odov e slovo z A + jednoznacne C dek odovateln eho k odu nen prexem jin eho k odov eho slova z A + C, jedn a se o prexov y k od z adn e k odov e slovo prexov eho k odu nen zretezenm jin eho k odov eho slova (prexu) a dalsho retezce prexov y k od lze dek odovat prvek po prvku, behem cten zleva doprava, jedn a se o bezprostredne jednoznacne d ekodovateln y k od m uzeme zact s dek odov anm aniz bychom znali cel y k odov y text, kazd e k odov e slovo je,,samovycleniteln e" Mezi prexov e k ody patr naprklad k od UTF-8 Pro suxov y k od plat, ze z adn e jeho k odov e slovo nen prponou jin eho jeho k odov eho slova. Je dek odovateln y znak po znaku behem cten zprava doleva. Klasikace k od u, prexov y, suxov y a blokov y k od Pokud maj vsechna k odov a slova stejnou d elku, pak tento k od oznacujeme jako blokov y. Blokov ym k odem je naprklad k od ASCII Kazd y blokov y k od je prexov y k od, a tudz je jednoznacne dek odovateln y k od Prexov y q- arn k od s d elkami k odov ych slov d 1, d,..., d m existuje pr av e tehdy, kdyz je spln ena Kraftova nerovnost q- arn k od { k odovac abeceda obsahuje q znak u (prvk u) m i=1 q d i 1 A plat McMillanova v eta Kraftova nerovnost plat pro libovoln e jednoznacn e dek odovateln e k odov an. PV06 Organizace souboru { Informacn teorie 58 PV06 Organizace souboru { Informacn teorie 59
Kraftova nerovnost, prklad n avrhu k odu Navrhujeme bin arn (q = ) prexov y k od pro k odov an cifer 0, 1,..., 9 ve zpr avach s velmi casto se vyskytujcmi ciframi 0 a 1 a velmi rdce se vyskytujcmi ciframi 8 a 9 N apad 1, nerealizovateln y d elka k odov ych slov pro 0 a 1 bude rovna (0x) d elka k odov ych slov pro a 3 bude rovna 3 (1xx) d elka k odov ych slov pro 4, 5, 6 a 7 bude rovna 4 (1xxx) d elka k odov ych slov pro 8 a 9 bude rovna 5 (1xxxx) + 3 + 4 4 + 5 = 1, 065 N apad 1 je nerealizovateln y Kraftova nerovnost, prklad n avrhu k odu Navrhujeme bin arn (q = ) prexov y k od pro k odov an cifer 0, 1,..., 9 ve zpr avach s velmi casto se vyskytujcmi ciframi 0 a 1 a velmi rdce se vyskytujcmi ciframi 8 a 9 N apad, realizovateln y d elka k odov ych slov pro 0 a 1 bude rovna (0x) d elka k odov ych slov pro, 3, 4, 5, 6 a 7 bude rovna 4 (xxxx) d elka k odov ych slov pro 8 a 9 bude rovna 5 (1xxxx) + 6 4 + 5 = 0, 9375 0, 1: 00, 01, 3, 4, 5: 1000, 1001, 1010, 1011 6, 7: 1100, 1101 8, 9: 11110, 11111 PV06 Organizace souboru { Informacn teorie 60 PV06 Organizace souboru { Informacn teorie 61 Kraftova nerovnost, prklad n avrhu k odu Klasikace k od u N apad 3, jeste l epe navrzen y k od 0 { 00 1 { 01 { 100 3 { 1010 4 { 1011 5 { 1100 6 { 1101 7 { 1110 8 { 11110 9 { 11111 + 1 3 + 5 4 + 5 = 1 plat { kazd y prexov y k od je nesingul arn k od plat { kazd y prexov y k od je jednoznacne dek odovateln y k od existuj ale i jednoznacne dek odovateln e k ody, kter e { nejsou prexov e a { maj k odov a slova promenn e d elky a { nevyzaduj pouzv an separ ator u, viz k od 4 (viz v yse): C(A) = 0, C(C) = 01, C(G) = 011 a C(T ) = 0111 je nesingul arn jednoznacne dek odovateln y k od, { kazd a 0, n asledujc po nejak em existujcm symbolu, jednoznacne startuje nov y symbol nen prexov y k od { napr. C(a) = 0 je prexem vsech symbol u atd. 00100011 je k odov e slovo odpovdajc slovu abaac PV06 Organizace souboru { Informacn teorie 6 PV06 Organizace souboru { Informacn teorie 63
Klasikace k od u, prehled oblasti naseho z ajmu Reprezentace jednoznacne dek odovateln ych k od u bin arnmi stromy Pripome nme si kdy je k od optim aln { pro libovoln y optim aln k od C pro n ahodnou velicinu X plat H(X) L(C) < H(X) + 1, kde H je entropie n ahodn e veliciny a L je pr umern a bitov a d elka k odov eho slova (stupe n k odu) PV06 Organizace souboru { Informacn teorie 64 PV06 Organizace souboru { Informacn teorie 65 Proc se vlastne k oduje? Je nutn a zm ena velikosti a/nebo typu abecedy, napr. znaky a, b, c,... k odujeme na posloupnosti 0 a 1 { k odov an si vynucuje prostred do kter eho se zpr ava zapisuje, kter ym se pren as,... existuje pozadavek na utajen obsahu zpr avy { kryptograe PV017 a dals predm ety { k odov an omezujc prstup ke k odu jen na autorizovan e subjekty je nutn e dos ahnout leps vyuzit kapacity pam eti, resp. kapacity prenosov eho kan alu { komprese dat, tou se budeme d ale zab yvat hloubeji = identikace a odstran en redundance (nadbytecnosti) v origin aln zpr ave jejm k odov anm do jin e abecedy Cl kompresnho k odov an Clem kompresnho k odov an je: resen probl emu minimalizace ocek avan ych d elek k odov ych slov, tj. minimalizace stupne k odu, a to pri zachov an omezujc podmnky pozadujc zachovat schopnost on-line dek odovat k odov a slova bez vkl ad an separ ator u PV06 Organizace souboru { Informacn teorie 66 PV06 Organizace souboru { Informacn teorie 67
Komprese zpr av { role metodiky tvorby k odov ych slov Zdroj generuje zpr avy, jejichz symboly jsou k odovan e prvky abecedy o N prvcch Pro k odov an prvk u t eto abecedy do abecedy {0, 1} potrebujeme k odov a slova o pr umern e d elce alespo n log N bit u, pokud nechceme takov ym k odov anm snzit mozn e mnozstv informace ve zpr ave pokud N = 8, pak potrebujeme alespo n 3 bity, log 8 = 3, 3 = 8 pokud N = 6, pak potrebujeme alespo n 5 bit u, 5 = 3, 6 kombinac se pritom nevyuzije Komprese zpr av { role metodiky tvorby k odov ych slov k odov a slova pevn e d elky {0 110 001, 0 110 010,...} v yhoda { snadn a jednoznacn a dek odovatelnost, lze pouzt slovnky nerespektuj se z adn e statistick e charakteristiky v yskytu k odov a slova promenn e d elky {0, 10, 110, 1110, 1111} d elky k odov ych slov obvykle odr azej statistick e charakteristiky v yskytu jednotliv ych k odov ych slov z akladn z akon komprese dat je z adouc, aby casteji pouzit a k odov a slova mela krats d elku pozaduje se bezprostredn rozhodnutelnost pri dek odov an { vhodn a je prexov a vlastnost k odu, { vhodn e jsou prexov e k ody { z adn e k odov e slovo k odu nen prexem nekter eho jin eho k odov eho slova dan eho k odu PV06 Organizace souboru { Informacn teorie 68 PV06 Organizace souboru { Informacn teorie 69 Pr umern a d elka k odov eho slova k odu, stupe n / rate k odu Pr umernou d elkou k odov eho slova k odu C pro diskr etn n ahodnou velicinu X nab yvajc hodnot x A s prav epodobnostn funkc p(x) denujeme jako L(C) = x A p(x)c(x) pro jednoznacne dek odovateln y k od plat H(X) L(C) Necht' A = 0, 10, 11, p(0) = 0, 5, p(10) = 0, 4, p(11) = 0, 1: log (0, 5) = 1, log (0, 4) = 1, 3, log (0, 1) = 3, 3 H(X) = 0, 5 1 + 0, 4 1, 3 + 0, 1 3, 3 = 1, 36 a L(C) = 0, 5 1 + 0, 4 + 0, 1 = 1, 5 Necht' A = 00, 01, 11, p(00) = 0, 5, p(10) = 0, 4, p(11) = 0, 1: H(X) se zmenou k odov an nezmen, H(X) = 1, 36 a L(C) = 0, 5 + 0, 4 + 0, 1 =, jak d a rovnez i selsk y rozum Un arn k od Denice tvorby k odov ych slov C(1) = 1, C(i + 1) = 0C(i) nebo C(1) = 0, C(i + 1) = 1C(i) C(i) = i 1 nul n asledovan ych 1, napr. C(1) = 1, C() = 01, C(3) = 001, C(5) = 00001 resp. C(i) = i 1 jednicek n asledovan ych 0, napr. C(5) = 11110 optim aln (prexov y) k od pro p(i) 1 i PV06 Organizace souboru { Informacn teorie 70 PV06 Organizace souboru { Informacn teorie 71
Prexov y strom un arnho k odu Kazd y prexov y k od (nad bin arn k odovac abecedou) lze zn azornit bin arnm stromem { prexov ym stromem Prexov y strom lze vyuzt k dek odov an. K odov a slova reprezentuj v n ejs uzly, listy Bin arn k od Denice tvorby k odov ych slov: C(0) = 0, C(1) = 1, C(i) = C(i)0, C(i + 1) = C(i)1, napr. C(0) = 0, C(1) = 1, C() = C(1)0 = 10, C(3) = C(1)1 = 11, C(4) = C()0 = 100,... nespl nuje vlastnost dobr eho jednoznacne dek odovateln eho k odu, jeho pouzit vyzaduje pouzv an { bud'to oddelovac u nebo { pevn e d elky k odov ych slov { mus b yt denovan y jako blokov y k od pevn a d elka k odov ych slov vyzaduje apriorn znalost velikosti mnoziny k odovan ych csel { N, ponevadz ta pak determinuje velikost, d elku, k odov ych slov, B(N) = 1 + log N, a velikost mnoziny N nemus vzdy zn am e predem (B(n) { bin arn reprezentace cel eho csla n) bin arn k od je optim aln pro p(i) = 1/N PV06 Organizace souboru { Informacn teorie 7 PV06 Organizace souboru { Informacn teorie 73 Dals prklady prexov ych k od u (Eliasovy, Peter Elias, 1975) Elias uv k od je univerz aln k od pro kladn a cel a csla Nejcast ejs vyuzit je k odov an cel ych csel, u kter ych nen predem zjistiteln a jejich horn hranice K odov an { slovne Rozdelte cel e cslo na nejvyss mocninu dvou ( N ) a na zb yvajcch N bin arnch cslic cel eho csla Zak odujte N un arne; coz znamen a N nul a za nimi jednicka Pripojte onech zb yvajcch N bin arnch cslic k t eto reprezentaci csla N Dek odov an { slovne Ctete a poctejte nuly dokud nedos ahnete prvn jednicky ( N) Ona prvn dosazen a jednicka predstavuje hodnotu N. Nyn uz jen ctete a pripojte zb yvajcch N bit u. Dals prklady prexov ych k od u (Eliasovy, Peter Elias, 1975) necht' B(n) znac B(n) bez nejv yznam ejsho bitu (vzdy = 1) C 1 : kladn e cel e n se k oduje z apisem B(n) s prexem = d elce bin arn reprezentace n, B(n) v un arnmu k odu n = 38 = 100110, B(38) = 00110, B(38) = 6, C 1 (38) = 00000100110 n = 5 = 101, B(5) = 01, B(5) = 3, C 1 (5) = 00101 n = 1 = 1, B(1) = ε, B(1) = 1, C 1 (1) = 1 d elka C 1 (n) = log n + 1 C : preuspor ad an C 1 : kazd y z B(n) bit u se uvede prznakem 0, na konec k odov eho slova se prid a 1 C (5) = 00011, tj. d elkov y prex se rozpt yl do B(n) PV06 Organizace souboru { Informacn teorie 74 PV06 Organizace souboru { Informacn teorie 75
Prexov y strom Eliasova k odu C 1 Prexov y strom Eliasova k odu C PV06 Organizace souboru { Informacn teorie 76 PV06 Organizace souboru { Informacn teorie 77 Dals prklad Eliasov ych k od u K odov a slova Eliasova k odu C 1 k od jsou pro velk a csla dlouh a To je zp usobeno reprezentac d elky k odov eho slova csla un arnm k odem Elias uv k od C 3 pouzv a pro vyj adren d elky k odov eho slova csla msto un arnho k odu k od C Nejprve ilustrace s mal ym cslem, 50 (110010 ) K odov e slovo Eliasova k odu C 1 pro 50 je 00000110010, B(50) = 6 bit u, Jeho permutac na k odov e slovo C vznikne 01000001001 d elka k odov eho slova pro 50 v C 1 i v C je 11 bit u d elka k odov eho slova pro 50 v C 3 je 10 bit u C 1 (6) = 00110, C (6) = 01001, C 3 (50) = 0100110010 Dals prklady prexov ych k od u (Eliasovy) a nyn Elias uv k od C 3 pro 1 000 000 (11110100001001000000 ), d elka = 0 bit u K odov e slovo Eliasova k odu C 1 pro 1000000 je 000000000000000000011110100001001000000, B(1 000 000) = 0 bit u, C 1 (1 000 000) = 39 bit u d elku 0 vyj adrme v C, 0 = 10100, B(0) = 5, C 1 (0) = 000010100, C (0) = 000100001 K odov e slovo Eliasova k odu C 3 pro 1 000 000 je 0001000011110100001001000000 a m a d elku 8 bit u msto 39 bit u k odu t ehoz csla v C PV06 Organizace souboru { Informacn teorie 78 PV06 Organizace souboru { Informacn teorie 79
Pozn amky k porovn an k od u Prostorov e nejv yhodn ejs je samozrejm e bin arn k od, { ten ale nen bez pouzit oddelovac u jednoznacn e dek odovateln y Un arn k od je prexov y k od { to ho cin dobr ym k odem, je ale pouziteln y pouze pro mal a csla, { d elka jeho k odov ych slov v yrazne roste s rostouc hodnotou zdrojov e jednotky Eliasovy k ody jsou prklady prexov ych k od u pro velk a csla optim alnejsch nez un arn k od PV06 Organizace souboru { Informacn teorie 80