Informacn teorie PV 062 Organizace soubor u Jan Staudek http://www..muni.cz/usr/staudek/vyuka/ Ð Û Å«Æ ±²³ µ ¹º»¼½¾ Ý Verze : jaro 2018
Cl predn asky Abychom mohli informace efektivn e ukl adat, zsk avat ci pren aset, resp. i dlouhodobe uchov avat, musme vedet/zn at co se rozum pojmem informace jak m erit mnozstv informace jak informaci vyjadrovat vyjadrovat k odovat prim arne v nasem prpade ve svete bin arn abecedy Odpov edi d av a Information Theory V edn obor zab yvajc se obecn ymi z akonitostmi vytv aren, transformac a prenos u informac uzs specikace { v etev matematiky zab yvajc se efektivnost a detaily proces u uchov av an, reprezentace a prenosu informac Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 1
Kolik informace obsahuje tento obrazek? Jan Staudek, FI MU Brno PV062 Organizace souboru { Informacn teorie 2
Information, Oxford Dictionary Information facts provided or learned about something or someone late Middle English (also in the sense 'formation of the mind, teaching') via Old French from Latin informatio, from the verb informare Inform, [reporting verb] give (someone) facts or information; tell Middle English enforme, informe 'give form or shape to', also 'form the mind of, teach', from Old French enfourmer, from Latin informare 'shape, fashion, describe', from in- 'into' + forma 'a form' Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 3
Uvodn uvahy o pojmu informace Prijm ame, zsk av ame, posl ame, ukl ad ame, zpracov av ame,... texty, zvuky, obr azky,..., obecn e zpr avy charakterizujc objekty, ud alosti, jevy... Tyto zpr avy obsahuj (materializuj) jist a sd elen o objektech, ud alostech, jevech,... obsahuj zformovan e ideje, myslenky { informace Informace v sob e vzdy obsahuje (nese) konkr etn znalost, kter a je pro jejho prjemce znalost novou, snizujc neurcitost jeho pozn an Information { facts provided or learned about something or someone Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 4
Uvodn uvahy o pojmu informace Informace je vzdy pren asena / uchov av ana pomoc konkr etnho nosice (sign al, pamet'ov e m edium, papr... ) r uzn ymi podobami (psmena, cslice, specick e symboly, posloupnosti cslic, psmen, symbol u, charakteristick e prvky sign alu, stavy pameti,... ) Sign al je fyzik aln velicina, kter a ve sv ych promen ach v case nese informaci Aby mohla b yt informace predan a/uchovan a, mus b yt nejak ym zp usobem zak odovan a, tj.prevedena do vhodn e podoby podle pouzit eho nosice Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 5
Uvodn uvahy o pojmu informace Jan Staudek, FI MU Brno PV062 Organizace souboru { Informacn teorie 6
Uvodn uvahy o pojmu informace Jan Staudek, FI MU Brno PV062 Organizace souboru { Informacn teorie 7
Uvodn uvahy o pojmu informace Informace m a smysl / v yznam pouze kdyz jej prjemce je schopn y ji interpretovat Informace je vzdy o necem (velikost parametru, v yskyt ud alosti,... ) Informace nemus b yt,,precizn", informace m uze sd elovat pravdiv a fakta, ale informace m uze sdelovat i lziv a fakta, st ale je to informace I rusiv y sum zp usobujc utlum komunikace a zp usobujc neporozum en zpr av e lze ch apat jako jistou formu informace Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 8
Informace a informacn teorie Pojem informace je obtzn e form aln e postiziteln y, t ezko se denuje, presn a, jednoznacn a denice neexistuje jedn a se o nematematickou velicinu, kterou nelze ani exaktne denovat a ani exaktne merit informace m a nehmotn y charakter, vznik a abstrakc, ale vzdy je spojena s nejak ym fyzik alnm pochodem (sign alem), kter y ji nese, uchov av a, zobrazuje,... Porozum en pojmu informace res informacn teorie poskytnutm odpov ed na ot azky typu jak m uzeme m erit mnozstv informace? jak m uze zajistit bezchybnost prenosu informace? co delat, kdyz se v d usledku poruch v nosici informace narus? kolik pam eti potrebujeme pro uchov an informace? jak rychle lze informaci pren est ze zdroje k prjemci? Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 9
Informa cn teorie 2 Iniciator informa cn teorie { Claude E. Shannon, 1916 { 2001 X americky matematik, elektroin zenyr, po c ta cn k X Bell Laboratories (1941{1972), MIT(1956{2001) X A mathematical theory of communication, Bell System Technical Journal, 1948 Jan Staudek, FI MU Brno PV062 Organizace souboru { Informacn teorie 10
Kvalita a kvantita informace Zpr ava nesouc informaci m a syntaxi (skladbu, formu) a s emantiku (obsah) syntaxe, uspor ad an, reprezentace mnozstv, { kvantitativn str anka, { predm et naseho studia s emantika, v yznam, { nemer se, obvykle se nemen zmenou syntaxe, { kvalitativn str anka informace, { pragmatick y obsah ve vztahu k prjemci informace, { nestudujeme Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 11
Kvalita a kvantita informace intuitivn denice informace jako kvality: informace = vse co prijm ame formou text u, reci, obrazy { zpr avami { znalost odvozen a ze studia, ze zkusenost, z poucen { znalost konkr etn ud alosti nebo situace { kolekce fakt u nebo dat {... kvalitativn ch ap an = pohled softwarov eho inzen yrstv (SI) SI zajm a predevsm sd elen obsahu, pak teprve forma SI zpracov av a data { formalizovan e reprezentace fakt u, pojm u,... vhodn e pro komunikaci / interpretaci / zpracov an / uchov av an automatizacnmi prostredky nebo lidmi pro SI informace reprezentuje v yznam prid elen y udaj um shrom azden ych jist e zpr ave, resp. v yznam dan y konvencemi aplikovan ymi na tato data Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 12
Kvalita a kvantita informace my ale potrebujeme denici informace jako kvantity: smysluplne zaveden y axiom umoz nuje odpovedet na ot azku: Kolik informace obsahuje dan a zpr ava? Vseobecn e respektovan y uzus pro ch apan mry informace { informacn objem zpr avy je umern y mre prekvapen vyvolan emu prijetm zpr avy Informace je v urcite zpr ave obsazena jen tehdy, jestlize u prijmacho subjektu odstra nuje neurcitost informaci ch apeme jako neco nov e, co moment alne ci v budoucnosti ovlivn v n ejak e form e kon an/znalost/v edom/... prjemce kvantitativn ch ap an = pohled informacn teorie Aby informaci slo pren aset, skladovat,..., mus b yt meriteln a Informace se st av a m eritelnou velicinou stanovenm vhodn e mry Mru stanovuje Informacn teorie, Information Theory Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 13
Informace je abstraktn pojem Informace neobsahuje z adnou energii informace nez avis na zp usobu prenosu / uchov an pouzit ym jejm nositelem energie je nutn a pouze k transportu (prp. uchov an) informace na druhu a mnozstv energie z avis pouze kvalita (efektivnost, ucinnost) prenosu / uchov an informace koprov anm informace nedoch az ke zmensen velikosti (mnozstv) informace Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 14
Neurcitost/entropie a mra mnozstv informace ve zpr av e Sledujme v ysledek procesu v yb eru jedn e nebo vce alternativ z n ejak e mnoziny mozn ych alternativ zarzen I produkuje (se stejnou pravd epodobnost) znaky A nebo B nebo C ex. nejistota charakterizovateln a ot azkou,,kter y znak bude produkovan y jako prst?" { zarzen I vykazuje,,3-prvkovou"neurcitost (entropii) kdyz v ystupn hodnotu uvidme, neurcitost miz, snzenm (odstran enm) neurcitosti zsk av ame informaci mnozstv zskan e informace odpovd a velikosti odstran en e neurcitosti zsk anm informace velikost odstran en e neurcitosti lze charakterizovat pravd epodobnost v yskytu jednotliv ych v ystupnch hodnot Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 15
Neurcitost/entropie a mra mnozstv informace ve zpr av e Vybrejme jist e predm ety x ze skladu, ve kter em je n r uzn ych typ u predmet u, {x 1, x 2,..., x n } Mnozstv informace I(x) dan e v yberem predmetu typu x k mus b yt funkc pravdepodobnosti volby x k, tj. I(x k ) = f{p(x k )} pokud bude ve skladu s n predmety po 1 ks kazd eho typu predmetu, pak plat pro n ahodn y v yber I(x k ) = f{1/n}, pro vsechna k Necht' se predmety pri v yberu ze skladu n ahodne bal do obal u v m r uzn ych barv ach c j, pak mnozstv informace dan e barvou obalu c j vybran eho predmetu je I(c j ) = f{p(c j )} pokud budou obaly vybran emu predmetu d av any n ahodne pak plat I(c j ) = f{1/m}, pro vsechna j Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 16
Neurcitost/entropie a mra mnozstv informace ve zpr av e Pokud se nejprve ze skladu n ahodne vybere predmet x k a tomu se posl eze n ahodne pridel barevnost obalu c j, pak zskan e mnozstv informace odpovd a I(x k &c j ) = I(x k ) + I(c j ) = f{1/n} + f{1/m} Pokud se budou ve skladu bude nach azet n.m predmet u vsech typ u ve vsech barevn ych kombinacch po 1 ks, pak zskan e mnozstv informace n ahodn ym v yb erem odpovd a I(x k &c j ) = f{1/nm} Mnozstv zskan e informace v obou prpadech je prirozen e identick e, takze mus platit f{1/n} + f{1/m} = f{1/nm} Z mnoha mozn ych resen t eto funkcion aln rovnice je pro mru mnozstv informace nejvhodn ejs resen f{x} = log(x), zd uvodnen viz d ale Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 17
Neurcitost/entropie a mra mnozstv informace ve zpr av e zarzen II produkuje (se stejnou pravd epodobnost) znaky 1 nebo 2 ex. nejistota zda v ysledkem bude 1 ci 2, { zarzen II vykazuje 2-prvkovou neurcitost kombinovan e zarzen I+II produkuje v ystupy A1, A2, B1, B2, C1, C2, kombinovan e zarzen I+II vykazuje 6 prvkovou neurcitost takto (multiplikativn e) se ale mnozstv informace nem er kdyz si prectu dve r uzn e knihy, zsk am mnozstv informace odpovdajc souctu mnozstv informace obsazen ych v kazd e z nich nikoli mnozstv odpovdajc poctu kombinac fakt u obsazen ych v kazd e z knih mra mnozstv informace kombinovan eho zdroje mus mt aditivn charakter Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 18
Mra mnozstv informace ve zpr av e chceme, aby mra mnozstv informace m ela aditivn charakter pak pro urcen mnozstv informace produkovan e zarzenm I+II m uzeme msto vyj adren neurcitosti dan eho n asobenm poct u mozn ych v ystupnch hodnot (3 2 = 6) pouzt sct an z aporn ych hodnot logaritm u pravd epodobnost mozn ych v ystupnch hodnot (1/3, 1/2): ( log(1/3)) + ( log(1/2)) = log(1/6) logaritmick a mra mnozstv informace m a pozadovanou vlastnost aditivity pro nez avisl e statistick e experimenty b aze logaritmu pak urcuje clovou m ernou jednotkou 2 { bity, 10 digits (dekadick e cifry), e {,,nats",... v yber mezi 2 stejne pravdepodobn ymi ud alostmi reprezentuje mnozstv informace zn am e jako 1 bit, log 2 (1/2) = log 2 (2) = 1 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 19
Mra mnozstv informace ve zpr av e Necht' zarzen III trvale produkuje jedinou v ystupn hodnotu, napr. jedin y t on nebo posloupnost st ale stejn ych v ystupnch symbol u pozn anm v ystupn hodnoty nedojde ke snzen neurcitosti z pozn an v ystupn hodnoty nezsk ame z adnou informaci, je jist e, co bude na v ystupu zarzen III prste zarzen III generuje nulov e mnozstv informace, produkuje jedin y v ystup s pravdepodobnost 1, log(1) = 0 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 20
Mra mnozstv informace ve zpr av e Zarzen IV reprezentuje h azen minc, produkuje dv e hodnoty,,,hlava"(0) nebo,,orel"(1) pravd epodobnost, ze padne,,hlava"a pravd epodobnost, ze padne,,orel" jsou v prpade nefalesn e mince shodn e (0.5) mnozstv generovan e informace hodem: log 2 (1/2) = log 2 (2) = 1 [b] s pravd epodobnost 0,5 zsk ame 1 bitovou informaci (padne 0) a s pravd epodobnost 0,5 zsk ame 1 bitovou informaci (padne 1), a protoze z adn y jin y v ysledek nem uze nastat a v ysledky po sobe jdoucch hod u jsou na sobe nez avisl e zarzen IV produkuje zpr avy obsahujc 0, 5 log 2 (1/2) + 0, 5 log 2 (1/2) = 1 bitovou informaci Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 21
Mra mnozstv informace ve zpr av e Zarzen IV reprezentuje h azen minc, produkuje dv e hodnoty,,,hlava"(0) nebo,,orel"(1) ALE POZOR: pokud by pri h azen casteji padala hlava nez orel, pravd epodobnosti v ysledku budou pak odlisn e, napr. p(hlava) = 0,99, p(orel) = 0,01 neurcitost v ysledku se snz, zpr ava o v ysledku hodu hlavy nese m ene informace KOLIK INFORMACE NESE ZPR AVA SD ELUJICI V YSLEDEK TAKOV EHO HODU? s pravdepodobnost 0,99 zsk ame log 2 (0, 99) = 0, 01 [b] inf. a s pravdepodobnost 0,01 zsk ame log 2 (0, 01) = 6, 64 [b] inf., zarzen IV produkuje zpr avy obsahujc 0, 99 log 2 (0, 99) + 0, 01 log 2 (0, 01) = 0, 99 0, 01 + 0, 01 6, 64 = 0, 0763 bitovou informaci Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 22
Mra mnozstv informace ve zpr av e v textu nad abecedou s 26 psmeny X = {a;... ; q;... ; z; } pri stejne pravdepodobn em v yskytu kazd eho znaku nese jeden symbol 4,7 bitu informace, log 2 1/26 = 4, 7 statistick e anal yzy rkaj, ze neurcitost anglick eho textu d av a v pr umeru 1 az 1,5 b / znak textu, jednotliv e znaky se vyskytuj s r uznou frekvenc pak ale reprezentace znaku anglick eho textu k odem ASCII tj. 7 b/znak, zobrazuje anglick y text az t emer s 500 % redundanc (nadbytecnost) Proc se tedy pouzv a pro k odov an uchov avan e/pren asen e informace k od ASCII a ne nejak e efektivnejs k odov an? Odpov ed': K od ASCII usnad nuje manipulaci s informacemi (tisk, zobrazeni na displeji,... ), jeho clem nen vyjadrovat informaci v minim alne mozn em bitov em prostoru Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 23
Mra mnozstv informace ve zpr av e Mnozstv informace obsazen e ve zpr av e X souvis s pravd epodobnost jejho v yskytu zpr ava "v rulet e padlo cslo 17"prin as v ets mnozstv informace nez zpr ava "V rulete padlo lich e cslo" Pozadavky na mru mnozstv informace ve zpr av e m ene pravdepodobn a zpr ava nese vce informace, jejm zsk an se snizuje v ets neurcitost mnozstv informace je vzdy kladn e mnozstv informace obsazen e ve skupin e nez avisl ych zpr av je rovno souctu mnozstv informac obsazen ych v jednotliv ych zpr av ach Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 24
Mra mnozstv informace ve zpr av e Pozadavk um na vlastnosti mry mnozstv informace obsazen e ve zpr ave A generovan e s pravepodobnost P (A) vyhovuje funkce i(a) = log 1 = log P (A), v jednotk ach Sh, Shannon resp. P (A) 1 i(a) = log 2 P (A) = log 2 P (A) v jednotk ach bit Zpr ava A generovan a s pravepodobnost P (A) = 1 nese nulov e mnozstv informace, log 1 = 0 kdyz P (A) kles a z 1 k 0, i(a) = log P (A) roste Mnozstv informace nesen e dv emi nez avisl ymi zpr avami je souctem mnozstv informac nesen ych t emito zpr avami i(ab) = log 1 1 P (A) P (B) = log 1 P (A) + log 1 P (B) = i(a) + i(b) Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 25
Mra mnozstv informace ve zpr av e, prklad Kolik informace m uze obs ahnout k-cifern e dekadick e cslo? kolik bit u potrebujeme pro vyj adren k-cifern eho dekadick eho csla? Mus platit 10 k 1 = 2 x 1, tj. 10 k = 2 x. a tedy x = k log 2 10/ log 2 2. = 3.32 k bit u tj. jednou dekadickou cifrou lze vyj adrit cca 3.32 bitu informace resp. naopak { pro vyj adren dekadick e cifry potrebujeme alespo n 4 bity: 1001 2 = 9, 1000 2 = 8,... 0000 2 = 0, obecn e pro vyj adren cel eho csla i potrebujeme alespo n 1 + log 2 i bit u Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 26
Neurcitost zdroje, mnozstv informace generovan e zdrojem Necht' prjemce zpr avy predem zn a zpr avy, kter e mohou b yt produkov any (zn a mnozinu vsech mozn ych zpr av) Zdroji zpr av je ponech ana volnost v yberu z t eto mnoziny mozn ych zpr av. U prjemce existuje tedy neurcitost, nev kterou zpr avu obdrz. Prijetm zpr avy je pak tato neurcitost odstran ena. prijetm zpr avy o padnut csla 27 v rulet e se odstran velk a neurcitost zpr avou o padnut hlavy pri hodu korunou se odstran mal a neurcitost Neurcitost, entropie, zdroje zpr avy X, H(X), je rovna mnozstv informace ve zpr ave obsazen e, H(X) = I(X), neurcitost je prijetm zpr avy odstran ena Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 27
Neurcitost zdroje, mnozstv informace generovan e zdrojem Determinovan e syst emy maj nulovou entropii (neurcitost), zpr avy o jejich stavu nesou nulovou informac. Nejv ets neurcitost m a syst em, jehoz stavy jsou stejn e pravd epodobn e, tj. pri rovnom ern em rozd elen pravd epodobnost nast an jeho stav u, zpr avy o jeho stavech nesou maxim alne mozn e mnozstv informace Neurcitost syst emu (entropie) generujcho zpr avy v z avislosti na stavech, ve kter ych se nach az, z avis { na poctu stav u syst emu a { na pravd epodobnostech nast an (neurcitosti) jeho jednotliv ych stav u Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 28
Neurcitost zdroje, mnozstv informace generovan e zdrojem M uze-li syst em nab yvat s mozn ych stav u s pravdepodobnostmi p 1, p 2,..., p s,, kde p 1 +..., +p s = 1, pak entropie H(X) syst emu je rovna H(X) = s i=1 p i H i, tj. kazd y stav s pravdepodobnost sv eho v yskytu prispv a do neurcitosti syst emu svoj neurcitost a tudz H(X) = s i=1 p i log 2 p i [bit] Tento vztah nab yv a maxim aln hodnoty pri p 1 =..., = p s kde p i = 1 s, takze H max (X) = log 2 s [bit] Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 29
Neurcitost / entropie, Shannonova formule { Neurcitost zdroje informac determinuje mnozstv informace zdrojem generovan e { Neurcitost zdroje je d ana pr umern ym prekvapov anm pri generov an nekonecn eho proudu jeho v ystupnch hodnot překvapení vyvolaná výstupy jednotlivých hodnot do tohoto průměru přispějí v poměru pravděpodobností výskytu příslušných hodnot ve výstupu { Shannonova formule: Neurcitost (entropie) diskr etn n ahodn e promenn e X, kter a m uze nab yvat hodnot {x 1,..., x n }, je H(X) = n i=1 p(x i) log 2 p(x i ) kde p(x i ) = Pravdepodobnost (X = x i ) Funkce H pro prpad v ystupu jednoho ze 2 znak u: Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 30
Maxim aln neurcitost / entropie zdroje pri stejn e pravdepodobnosti v ystupu kazd eho z M znak u je pravdepodobnost v ystupu jednoho z nich P i = 1/M tento sc en ar vykazuje maxim aln neurcitost a ta je rovna: M 1 H max = M log 1 2 M i=1 H max = ( 1 M log 1 M 2 M ) 1 ( ) i=1 1 H max = M log 1 2 M M 1 H max = log 2 M H max = log 2 M Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 31
Vlastnosti mry mnozstv informace podle Shannona mra je spojit a Jak akoliv mal a zmena jedn e z pravdepodobnost zm en v yslednou entropii pouze mal ym dlem mra je symetrick a Entropie se preuspor ad anm v ystupnch hodnot nem en H(X) = H(x 1, x 2,..., ) = H(x 2, x 1,..., ) =... entropie m a maximum Jsou-li vsechny v ystupy stejn e pravd epodobn e, entropie je maxim aln Neurcitost je nejv ets, jsou-li vsechny ud alosti stejn e pravd epodobn e. Entropie vzroste, pokud se zv ys pocet mozn ych v ystup u. ( H n (p 1,..., p n ) H 1 n n,..., 1 ) ( ) n < 1 Hn+1 n+1,..., 1. n+1 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 32
Mra mnozstv zdroje informace, k odov an informace, prklad Co znamen a, kdyz se rekne mnozstv informace, kter e text/sign al (zpr ava) nese, je 1,75 b/symbol (prvek sign alu) Plat jedn a se o pr umern e mnozstv informace/symbol zpr avy po zak odov an do posloupnosti z {0, 1} mohou b yt r uzn e symboly zpr avy reprezentovan e texty s r uznou bitovou d elkou v pr umeru na 1 symbol zpr avy pripad a... (1,75) bit u jestlize v jist em jazyku nese 1 znak ve slove 1,2 b informace coz je zjist eno statistick ymi setrenmi pak pri ASCII k odov an znak u na 1 bit k odu znaku pripad a 1,2 5,8 = 0, 17 b informace a = 0, 83 b redundantn informace 7 7 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 33
Mra mnozstv zdroje informace, k odov an informace, prklad zdroj generuje zpr avy slozen e ze symbol u nab yvajcch hodnot znak u A, C, G a T s pravdepodobnostmi: P A = 1 2, P C = 1 4, P G = 1 8, P T = 1 8 prklady takov ych zpr av: TAACCAAG, AAAA, ACAACG,...,,prekvapen"z v yskytu jednotliv ych znak u ( log 2 P i ) jsou u A = 1 bit, u C = 2 bity, u G = 3 bity, u T = 3 bity, a neurcitost dan eho zdroje (mnozstv jm produkovan e informace) je H = 1 2 1 + 1 4 2 + 1 8 3 + 1 3 = 1.75 (bit u / symbol) 8 minim aln k odov an symbol u na bity (tak e Fanovo k odov an) k odov a slova znak u maj d elky umern e mnozstv informace, kter e znaky nesou, napr.: A = 1, C = 01, G = 000 a T =001 napr. retez 8 symbol u ACATGAAC je k odovan y 14 bity, 10110010001101, tj. v pr umeru 14 = 1.75 b/symbol 8 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 34
Mra mnozstv zdroje informace, k odov an informace, prklad zdroj generuje zpr avy slozen e ze symbol u nab yvajcch hodnot znak u A, C, G a T s pravdepodobnostmi: P A = 1 2, P C = 1 4, P G = 1 8, P T = 1 8 prklady takov ych zpr av: TAACCAAG, AAAA, ACAACG,...,,prekvapen"z v yskytu jednotliv ych symbol u ( log 2 P i ) jsou u A = 1 bit, u C = 2 bity, u G = 3 bity, u T = 3 bity, a neurcitost dan eho zdroje (mnozstv jm produkovan e informace) je H = 1 2 1 + 1 4 2 + 1 8 3 + 1 3 = 1.75 (bit u / symbol) 8 ASCII k odov an symbol u na bity, uniformne 7 b/znak kazd y symbol je k odovan y 7 bity, tj. 4-n asobn ym poctem bit u retez 8 znak u ACATGAAC bude k odovan y 56 bity, pricemz zpr ava o 8 symbolech v pr umeru nese 8 1, 75 = 14 bit u informace { 42 bit u je redundance Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 35
Diskr etn zpr ava, analogov a zpr ava informace se mus pro ucely zpracov an, sd elov an, skladov an, prenosu,... adekv atn e (efektivn e) vyj adrit kazd y ucel (zpracov an, sdelov an, skladov an, prenosu,... ) obvykle klade individu aln pozadavky na efektivitu vyj adren zpracov an { form atov an pro dostupn e operacn funkce/procedury sd elov an { srozumitelnost vyj adren pro aplikaci skladov an { typicky minimalizace redundace (min. bitov y objem) prenos { { ide aln prostred { minim aln redundace (min. bitov y objem) { prostred s poruchami { detekovatelnost / samoopravitelnost chyb, za cenu zv ysen redundance Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 36
Diskr etn zpr ava, analogov a zpr ava statick e / textov e informace se vyjadruj diskr etnmi symboly, diskr etn zpr avy se formuj posloupnostmi diskr etnch symbol u vyj adren ych prvky adekv atn abecedy (znaky) dynamick e (napr. zvukov e) informace m uzeme vyj adrit (zachytit, zobrazit,... ) v case spojite / analogove, formou analogov ych zpr av, napr. do casov ych funkc (sign al u) { zmen tlaku vzduchu, { elektromagnetick ych vlastnosti prostred,... analogov e zpr avy lze vyjadrovat rovn ez posloupnostmi diskr etnch zpr av nesoucch hodnoty analogov ych charakteristik nam eren ych v jist ych v diskr etnch casech predmetem naseho z ajmu jsou diskr etn zpr avy Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 37
Mnozstv informace ve zpr ave o n symbolech Necht' nyn zdroj generuje nikoli 1 z M v ystupnch hodnot, ale zpr avy o n symbolech, z nichz kazd y m uze n ahodne nab yvat hodnotu jednoho z m prvk u v ystupn abecedy Hled ame mnozstv informace ve zpr av ach o n symbolech k odovan ych abecedou s mohutnost m prvk u tak, ze kazd y prvek abecedy m a apriorn pravd epodobnost v yskytu v symbolech zpr av P i gener ator zpr av o n symbolech pak vykazuje neurcitost H = n m P i log 2 P i, i=1 pricemz plat, ze pokud se v ystupn hodnoty vyskytuj se shodnou pravdepodobnost (P i =1/m), je entropie maxim aln H max = n log 2 m Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 38
K od, abeceda, k odov an zpr av K odov an necht' je zpr ava vyj adrena posloupnost symbol u symboly nab yvaj hodnot prvk u (znak u) abecedy k odov an proces nahrazov an symbol u (resp. posloupnost symbol u) zpr avy obsahujcch hodnoty znak u zdrojov e abecedy A symboly (resp. posloupnostmi symbol u) nab yvajcch hodnot znak u clov e (k odovac) abecedy A C Prklady aplikac k odov an: porizov an dat, sifrov an (utajov an) zpr av, samoopravn e k odov an, komprese (minimalizace,,prostoru pro uchov an") zpr av, transformace zpr av na sign alov e prvky pro prenos,... Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 39
K od, abeceda, k odov an zpr av Abeceda { konecn a mnozina znak u (prvk u abecedy, psmen,... ) Pro nase zkoum an plat A C = {0, 1}, tj. prvk um ci posloupnostem prvk u zdrojov e abecedy prirazujeme bin arn posloupnosti K od ASCII prirazuje znaku a posloupnost 1000011, prirazuje znaku A posloupnost 1000001 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 40
K od, abeceda, k odov an zpr av Konecn a posloupnost symbol u vyj adren ych prvky (znaky) jist e abecedy tvor slovo D elku t eto posloupnosti naz yv ame d elkou slova, je-li slovo znaceno S, pak znacme jeho d elku S Mnozinu vsech slov nad abecedou A znacme A, mnozinu vsech slov nad abecedou A nenulov ych d elek oznacujeme A + K odov e slovo, resp. slovo v k odovac abecede jedn a se o prvek (znak) A C, resp. posloupnost prvk u (znak u) A C, pouzit y( a) pro vyj adren prvku A, resp. posloupnosti prvk u A Protoze v prpade k odov an do bin arn abecedy je k odov ych znak u (mnohem) m ene nez zdrojov ych znak u, je d elka (bin arnch) k odov ych slov vesmes vets nez jedna (k odov e slovo = posloupnost 1 a 0). Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 41
K od, abeceda, k odov an zpr av K odov an je funkce (zobrazen) K : A A + C Zobrazen K prirazuje kazd e zdrojov e jednotce z mnoziny A pr ave jedno k odov e slovo z mnoziny A + C. k od C dan y k odov anm K je trojice C : (A, A + C, K), k odem dan ym k odov anm K se rozum obor hodnot zobrazen K, mnozina vsech k odov ych slov, pouzit a pro jistou konkr etn formu k odov an, tj. predpis pro zobrazov an (podmnozin) prvk u A do (podmnozin) prvk u A C Protoze je denicn obor zobrazen K konecn y, lze zobrazen K zapisovat pomoc tabulky Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 42
Jednoznacn e dek odovateln y k od Nutn a vlastnost na dobrého / smyslupln eho k odu { k od je jednoznacne dek odovateln y Zobrazen K mus b yt prost e, kazd emu k odov emu slovu v clov e abecede odpovd a jedin a posloupnost znak u ve zdrojov e abecede a r uzn ym vzor um k od prirazuje r uzn e obrazy, tj. kazd e dva r uzn e zdrojov e prvky jsou zobrazov any na dve r uzn a k odov a slova Nutn a, nikoli vsak dostacujc, podmnka pro jednoznacnou dek odovatelnost k odu C, k prost emu zobrazen K existuje inverzn zobrazen Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 43
Jednoznacn e dek odovateln y k od Mejme k od C : (A, A + C, K). Retezec x A + C je jednoznacne dek odovateln y vzhledem k zobrazen K, jestlize existuje pr ave jeden takov y retezec y A +, ze K(y) = x K od (A, A + C, K) je jednoznacne dek odovateln y k od pr ave tehdy, kdyz vsechny mozn e retezce z A + C jsou jednoznacn e dek odovateln e. Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 44
Klasikace k od u, stupe n k odu, optim aln k od K od s k odov ymi slovy pevn e d elky { blokov y k od K od s k odov ymi slovy promenn e d elky cl pouzv an { redukce bit u pouzit ych pro zobrazen informace casteji se vyskytujc zdrojov a slova se k oduj na krats k odov a slova, ridceji se vyskytujc zdrojov a slova se k oduj na dels k odov a slova, viz d ale { napr. prexov y k od, suxov y k od stupe n (rate) k odu C { pr umern y pocet bit u v k odov ych slovech k odu C pouzit ych pro k odov an zdrojov ych znak u v k odu C optim aln k od m a stupe n minim aln e prevysujc mnozstv informace obsazen e v symbolech zdrojov ych zpr av Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 45
Typick a strategie k odov an zpr avu S rozdelme na slova (fr aze, symboly,... ) S = s 1 s 2... s k, s i A + urcme C(s 1 ),..., C(s k ) A + C, kde C(s i ) jsou k odov a slova k odu C Plat K(S) = C(s 1 ) C(s 2 )... C(s k ), resp. K(s 1 s 2... s k ) = C(s 1 ) C(s 2 )... C(s k ) Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 46
Prklad blokov eho k odu K od C zobrazujc prvky (znaky) abecedy A (napr. anglick e) do mnoziny prvk u abecedy A C (napr. bin arn) k odov ymi slovy tvoren ymi bitov ymi retezci pevn e d elky Napr. k od ASCII zobrazuje znaky (anglick e) abecedy a n ekter e dals znaky na dekadick a csla 0 az 127, napr. A 65, a 97 128 = 2 7, sedmi bity lze k odovat 128 hodnot pro zpracov an v poctaci je k odovac abeceda {0,..., 127} d ale k odovan a sedmicemi bit u, napr. A 1 000 001 2 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 47
American Standard Code for Information Interchange, ASCII Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 48
Napr. k od ASCII, pokrac. Prklad blokov eho k odu k od ASCII zobrazuje znaky anglick e abecedy na sedmice bit u text HELLO! zobrazuje k od ASCII na bin arn retezec 100100010001011001100100110010011110100011 2, resp. pro leps vizu aln n azornost s mezerou mezi barevn e odlisen ymi symboly: 1001000 1000101 1001100 1001100 1001111 0100011 2 ASCII k od je jednoznacne dek odovateln y k od Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 49
Neblokov e jednoznacn e dek odovateln e k ody Necht' zdroj generuje zpr avy slozen e ze symbol u nab yvajcch hodnot znak u A, C, G a T s pravdepodobnostmi: P A = 1 2, P C = 1 4, P G = 1 8, P T = 1 8 mnozstv inform. predstavovan e jednotliv ymi znaky ( log 2 P i ) jsou i(a) = 1 bit, i(c) = 2 bity, i(g) = 3 bity, i(t ) = 3 bity, a neurcitost dan eho zdroje (mnozstv jm produkovan e informace) je H = 1 2 1 + 1 4 2 + 1 8 3 + 1 3 = 1.75 (bit u / symbol) 8 Ctyri prklady neblokov ych k od u pro tento prklad Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 50
Neblokov e jednoznacn e dek odovateln e k ody K od 1 nen jednoznacne dek odovateln y, d ale ignorujeme K odovac funkce k odu 1, K, nen prost a Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 51
Neblokov e jednoznacn e dek odovateln e k ody K odovac funkce, K, k od u 2, 3, 4, je prost a K ody 2, 3, 4 oznacujeme jako nesingul arn k ody je-li Dec dek odovac (inverzn) funkc ke K, pak pro nesingul arn k od plat Dec x A Dec(K(x)) = x K od 2 ale nen jednoznacne dek odovateln y Pouh a prostost funkce K k jednoznacnosti dek odov an nepostacuje, prijet 0000 lze dek odovat na AAAA nebo GG nebo AAG nebo... Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 52
Neblokov e jednoznacn e dek odovateln e k ody K od 3 je nesingul arn jednoznacne dek odovateln y k od plat Dec x A Dec(K(x)) = x navc je bezprostredn e jednoznacn e dek odovateln y, coz je vysoce z adouc vlastnost k odu { jednotliv a k odov a slova se pri anal yze zleva doprava rozpozn avaj okamzite pri jejich precten, jedn a se o tzv. prexov y k od navc je to optim aln k od, m a stupe n minim alne prevysujc (=) mnozstv informace obsazen e v symbolech zdrojov ych zpr av Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 53
Neblokov e jednoznacn e dek odovateln e k ody K od 4 je rovnez nesingul arn jednoznacne dek odovateln y k od nen ale bezprostredn e jednoznacn e dek odovateln y { k odov e slovo se rozpozn a az pri precten uvodn 0 dalsho k od. slova K od 4 nen optim aln k od, pro dan e rozlozen pravd epodobnost v yskyt u znak u zdrojov e abecedy existuje k od s mensm pr umernou d elkou k odov eho slova nez 1,875, (K od 3) Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 54
Klasikace k od u, probl em jednoznacn e dek odovatelnosti Dals prklad nesingul arnho k odu a jeho k odov an zdrojov a abeceda: {A, B, C, D}, k odov a slova: {0, 010, 01, 10}) vyslac vyslal znak B, tj. bitovou posloupnost 010 prijmac prijme ret ez 010 a prijat y ret ez m uze dek odovat { na znak B { nebo na retez znak u CA nebo na retez znak u AD v yse uveden y k od nen jednoznacne dek odovateln y i kdyz jeho k odovac funkce je prost a pokud se vysl a zpr ava slozen a z vce symbol u k odovan ych obecn ym nesingul arnm k odem, mus se jednotliv a k odov a slova oddelovat speci alnm prvkem, napr.,,c arkou"(,) { odd elovac/separ ator,... nem a smysl d ale pracovat s k odov anm, kter e by bylo jednoznacne dek odovateln e pouze s pouzitm separ ator u posloupnost k odov ych slov mus b yt dek odovateln a jedin ym zp usobem, a to bez pouzit separ ator u Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 55
Klasikace k od u, probl em jednoznacn e dek odovatelnosti K od (A, A C, K) je jednoznacne dek odovateln y k od pr ave tehdy, kdyz vsechny mozn e retezce z A + C jsou jednoznacn e dek odovateln e Retezec x A + C je jednoznacne dek odovateln y vzhledem k K, jestlize existuje pr ave jeden retezec y A + takov y, ze K(y) = x Kazd emu vygenerovan emu ret ezci k odov ych slov jednoznacn e dek odovateln eho k odu odpovd a jedin y zdrojov y retezec, kter y jej produkuje, Ale { pro dek odov an zpr avy se nekdy mus nejprve analyzovat cel a zpr ava je vysoce z adouc mt moznost dek odov an resit on-line pri anal yze textu Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 56
Klasikace k od u, jednoznacne dek odovateln y k od Mejme k od C(a) = 10, C(b) = 00, C(c) = 11 a C(d) = 110, pak C(ab) = 1000, C(cb) = 1100. pri prijet zpr avy 1000 lze hodnoty a a b rozpoznat,,on-line", bezprostredne jeste v pr ubehu cten jednotliv ych k odov ych slov, 1000 pri prijm an zpr avy 1100 se ale pozn a, zda se jedn a o c..., 11... a nikoli o o d..., 110..., az po anal yze cel eho retezu probl em { k odov e slovo c je prex k odov eho slova d Urcen, zda libovoln y nesingul arn k od je jednoznacn e dek odovateln y je algoritmicky neresiteln y probl em Existuj trdy nesingul arnch k od u, kter e jsou dokazateln e jednoznacn e dek odovateln e: prexov e k ody, suxov e k ody a blokov e k ody prexov e / suxov e k ody neomezuj d elku k odov ych slov na pevnou hodnotu, blokov e k ody maj pevnou d elku k odov ych slov Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 57
Klasikace k od u, prexov y, suxov y a blokov y k od Jestlize z adn e k odov e slovo z A + jednoznacne C dek odovateln eho k odu nen prexem jin eho k odov eho slova z A + C, jedn a se o prexov y k od z adn e k odov e slovo prexov eho k odu nen zretezenm jin eho k odov eho slova (prexu) a dalsho ret ezce prexov y k od lze dek odovat prvek po prvku, behem cten zleva doprava, jedn a se o bezprostredne jednoznacne d ekodovateln y k od m uzeme zact s dek odov anm aniz bychom znali cel y k odov y text, kazd e k odov e slovo je,,samovycleniteln e" Mezi prexov e k ody patr naprklad k od UTF-8 Pro suxov y k od plat, ze z adn e jeho k odov e slovo nen prponou jin eho jeho k odov eho slova. Je dek odovateln y znak po znaku behem cten zprava doleva. Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 58
Klasikace k od u, prexov y, suxov y a blokov y k od Pokud maj vsechna k odov a slova stejnou d elku, pak tento k od oznacujeme jako blokov y. Blokov ym k odem je naprklad k od ASCII Kazd y blokov y k od je prexov y k od, a tudz je jednoznacne dek odovateln y k od Prexov y q- arn k od s d elkami k odov ych slov d 1, d 2,..., d m existuje pr av e tehdy, kdyz je spln ena Kraftova nerovnost q- arn k od { k odovac abeceda obsahuje q znak u (prvk u) m i=1 q d i 1 A plat McMillanova v eta Kraftova nerovnost plat pro libovoln e jednoznacn e dek odovateln e k odov an. Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 59
Kraftova nerovnost, prklad n avrhu k odu Navrhujeme bin arn (q = 2) prexov y k od pro k odov an cifer 0, 1,..., 9 ve zpr avach s velmi casto se vyskytujcmi ciframi 0 a 1 a velmi rdce se vyskytujcmi ciframi 8 a 9 N apad 1, nerealizovateln y d elka k odov ych slov pro 0 a 1 bude rovna 2 (0x) d elka k odov ych slov pro 2 a 3 bude rovna 3 (1xx) d elka k odov ych slov pro 4, 5, 6 a 7 bude rovna 4 (1xxx) d elka k odov ych slov pro 8 a 9 bude rovna 5 (1xxxx) 2 2 2 + 2 2 3 + 4 2 4 + 2 2 5 = 1, 0625 N apad 1 je nerealizovateln y Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 60
Kraftova nerovnost, prklad n avrhu k odu Navrhujeme bin arn (q = 2) prexov y k od pro k odov an cifer 0, 1,..., 9 ve zpr avach s velmi casto se vyskytujcmi ciframi 0 a 1 a velmi rdce se vyskytujcmi ciframi 8 a 9 N apad 2, realizovateln y d elka k odov ych slov pro 0 a 1 bude rovna 2 (0x) d elka k odov ych slov pro 2, 3, 4, 5, 6 a 7 bude rovna 4 (xxxx) d elka k odov ych slov pro 8 a 9 bude rovna 5 (1xxxx) 2 2 2 + 6 2 4 + 2 2 5 = 0, 9375 0, 1: 00, 01 2, 3, 4, 5: 1000, 1001, 1010, 1011 6, 7: 1100, 1101 8, 9: 11110, 11111 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 61
Kraftova nerovnost, prklad n avrhu k odu N apad 3, jeste l epe navrzen y k od 0 { 00 1 { 01 2 { 100 3 { 1010 4 { 1011 5 { 1100 6 { 1101 7 { 1110 8 { 11110 9 { 11111 2 2 2 + 1 2 3 + 5 2 4 + 2 2 5 = 1 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 62
Klasikace k od u plat { kazd y prexov y k od je nesingul arn k od plat { kazd y prexov y k od je jednoznacne dek odovateln y k od existuj ale i jednoznacne dek odovateln e k ody, kter e { nejsou prexov e a { maj k odov a slova promenn e d elky a { nevyzaduj pouzv an separ ator u, viz k od 4 (viz v yse): C(A) = 0, C(C) = 01, C(G) = 011 a C(T ) = 0111 je nesingul arn jednoznacn e dek odovateln y k od, { kazd a 0, n asledujc po n ejak em existujcm symbolu, jednoznacn e startuje nov y symbol nen prexov y k od { napr. C(a) = 0 je prexem vsech symbol u atd. 00100011 je k odov e slovo odpovdajc slovu abaac Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 63
Klasikace k od u, prehled oblasti naseho z ajmu Pripome nme si kdy je k od optim aln { pro libovoln y optim aln k od C pro n ahodnou velicinu X plat H(X) L(C) < H(X) + 1, kde H je entropie n ahodn e veliciny a L je pr umern a bitov a d elka k odov eho slova (stupe n k odu) Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 64
Reprezentace jednoznacn e dek odovateln ych k od u bin arnmi stromy Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 65
Proc se vlastne k oduje? Je nutn a zm ena velikosti a/nebo typu abecedy, napr. znaky a, b, c,... k odujeme na posloupnosti 0 a 1 { k odov an si vynucuje prostred do kter eho se zpr ava zapisuje, kter ym se pren as,... existuje pozadavek na utajen obsahu zpr avy { kryptograe PV017 a dals predm ety { k odov an omezujc prstup ke k odu jen na autorizovan e subjekty je nutn e dos ahnout leps vyuzit kapacity pam eti, resp. kapacity prenosov eho kan alu { komprese dat, tou se budeme d ale zab yvat hloubeji = identikace a odstran en redundance (nadbytecnosti) v origin aln zpr ave jejm k odov anm do jin e abecedy Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 66
Cl kompresnho k odov an Clem kompresnho k odov an je: resen probl emu minimalizace ocek avan ych d elek k odov ych slov, tj. minimalizace stupne k odu, a to pri zachov an omezujc podmnky pozadujc zachovat schopnost on-line dek odovat k odov a slova bez vkl ad an separ ator u Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 67
Komprese zpr av { role metodiky tvorby k odov ych slov Zdroj generuje zpr avy, jejichz symboly jsou k odovan e prvky abecedy o N prvcch Pro k odov an prvk u t eto abecedy do abecedy {0, 1} potrebujeme k odov a slova o pr umern e d elce alespo n log 2 N bit u, pokud nechceme takov ym k odov anm snzit mozn e mnozstv informace ve zpr ave pokud N = 8, pak potrebujeme alespo n 3 bity, log 2 8 = 3, 2 3 = 8 pokud N = 26, pak potrebujeme alespo n 5 bit u, 2 5 = 32, 6 kombinac se pritom nevyuzije Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 68
Komprese zpr av { role metodiky tvorby k odov ych slov k odov a slova pevn e d elky {0 110 001, 0 110 010,...} v yhoda { snadn a jednoznacn a dek odovatelnost, lze pouzt slovnky nerespektuj se z adn e statistick e charakteristiky v yskytu k odov a slova promenn e d elky {0, 10, 110, 1110, 1111} d elky k odov ych slov obvykle odr azej statistick e charakteristiky v yskytu jednotliv ych k odov ych slov z akladn z akon komprese dat je z adouc, aby casteji pouzit a k odov a slova mela krats d elku pozaduje se bezprostredn rozhodnutelnost pri dek odov an { vhodn a je prexov a vlastnost k odu, { vhodn e jsou prexov e k ody { z adn e k odov e slovo k odu nen prexem nekter eho jin eho k odov eho slova dan eho k odu Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 69
Pr umern a d elka k odov eho slova k odu, stupe n / rate k odu Pr umernou d elkou k odov eho slova k odu C pro diskr etn n ahodnou velicinu X nab yvajc hodnot x A s prav epodobnostn funkc p(x) denujeme jako L(C) = x A p(x) C(x) pro jednoznacne dek odovateln y k od plat H(X) L(C) Necht' A = 0, 10, 11, p(0) = 0, 5, p(10) = 0, 4, p(11) = 0, 1: log 2 (0, 5) = 1, log 2 (0, 4) = 1, 32, log 2 (0, 1) = 3, 32 H(X) = 0, 5 1 + 0, 4 1, 32 + 0, 1 3, 32 = 1, 36 a L(C) = 0, 5 1 + 0, 4 2 + 0, 1 2 = 1, 5 Necht' A = 00, 01, 11, p(00) = 0, 5, p(10) = 0, 4, p(11) = 0, 1: H(X) se zmenou k odov an nezmen, H(X) = 1, 36 a L(C) = 0, 5 2 + 0, 4 2 + 0, 1 2 = 2, jak d a rovnez i selsk y rozum Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 70
Un arn k od Denice tvorby k odov ych slov C(1) = 1, C(i + 1) = 0C(i) nebo C(1) = 0, C(i + 1) = 1C(i) C(i) = i 1 nul n asledovan ych 1, napr. C(1) = 1 2, C(2) = 01 2, C(3) = 001 2, C(5) = 00001 2 resp. C(i) = i 1 jednicek n asledovan ych 0, napr. C(5) = 11110 2 optim aln (prexov y) k od pro p(i) 1 2 i Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 71
Prexov y strom un arnho k odu Kazd y prexov y k od (nad bin arn k odovac abecedou) lze zn azornit bin arnm stromem { prexov ym stromem Prexov y strom lze vyuzt k dek odov an. K odov a slova reprezentuj v n ejs uzly, listy Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 72
Bin arn k od Denice tvorby k odov ych slov: C(0) = 0, C(1) = 1, C(2i) = C(i)0, C(2i + 1) = C(i)1, napr. C(0) = 0, C(1) = 1, C(2) = C(1)0 = 10, C(3) = C(1)1 = 11, C(4) = C(2)0 = 100,... nespl nuje vlastnost dobr eho jednoznacn e dek odovateln eho k odu, jeho pouzit vyzaduje pouzv an { bud'to oddelovac u nebo { pevn e d elky k odov ych slov { mus b yt denovan y jako blokov y k od pevn a d elka k odov ych slov vyzaduje apriorn znalost velikosti mnoziny k odovan ych csel { N, ponevadz ta pak determinuje velikost, d elku, k odov ych slov, B(N) = 1 + log 2 N, a velikost mnoziny N nemus vzdy zn am e predem (B(n) { bin arn reprezentace cel eho csla n) bin arn k od je optim aln pro p(i) = 1/N Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 73
Dals prklady prexov ych k od u (Eliasovy, Peter Elias, 1975) Elias uv k od je univerz aln k od pro kladn a cel a csla Nejcast ejs vyuzit je k odov an cel ych csel, u kter ych nen predem zjistiteln a jejich horn hranice K odov an { slovne Rozdelte cel e cslo na nejvyss mocninu dvou (2 N ) a na zb yvajcch N bin arnch cslic cel eho csla Zak odujte N un arne; coz znamen a N nul a za nimi jednicka Pripojte on ech zb yvajcch N bin arnch cslic k t eto reprezentaci csla N Dek odov an { slovne Ctete a poctejte nuly dokud nedos ahnete prvn jednicky ( N) Ona prvn dosazen a jednicka predstavuje hodnotu 2 N. Nyn uz jen ctete a pripojte zb yvajcch N bit u. Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 74
Dals prklady prexov ych k od u (Eliasovy, Peter Elias, 1975) necht' B(n) znac B(n) bez nejv yznam ejsho bitu (vzdy = 1) C 1 : kladn e cel e n se k oduje z apisem B(n) s prexem = d elce bin arn reprezentace n, B(n) v un arnmu k odu n = 38 = 100110 2, B(38) = 00110 2, B(38) = 6, C 1 (38) = 00000100110 2 n = 5 = 101 2, B(5) = 01 2, B(5) = 3, C 1 (5) = 00101 2 n = 1 = 1 2, B(1) = ε, B(1) = 1, C 1 (1) = 1 2 d elka C 1 (n) = 2 log 2 n + 1 C 2 : preuspor ad an C 1 : kazd y z B(n) bit u se uvede prznakem 0, na konec k odov eho slova se prid a 1 C 2 (5) = 00011 2, tj. d elkov y prex se rozpt yl do B(n) Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 75
Prexov y strom Eliasova k odu C 1 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 76
Prexov y strom Eliasova k odu C 2 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 77
Dals prklad Eliasov ych k od u K odov a slova Eliasova k odu C 1 k od jsou pro velk a csla dlouh a To je zp usobeno reprezentac d elky k odov eho slova csla un arnm k odem Elias uv k od C 3 pouzv a pro vyj adren d elky k odov eho slova csla msto un arnho k odu k od C 2 Nejprve ilustrace s mal ym cslem, 50 (110010 2 ) K odov e slovo Eliasova k odu C 1 pro 50 je 00000110010 2, B(50) = 6 bit u, Jeho permutac na k odov e slovo C 2 vznikne 01000001001 2 d elka k odov eho slova pro 50 v C 1 i v C 2 je 11 bit u d elka k odov eho slova pro 50 v C 3 je 10 bit u C 1 (6) = 00110, C 2 (6) = 01001, C 3 (50) = 0100110010 2 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 78
Dals prklady prexov ych k od u (Eliasovy) a nyn Elias uv k od C 3 pro 1 000 000 (11110100001001000000 2 ), d elka = 20 bit u K odov e slovo Eliasova k odu C 1 pro 1000000 je 000000000000000000011110100001001000000 2, B(1 000 000) = 20 bit u, C 1 (1 000 000) = 39 bit u d elku 20 vyj adrme v C 2, 20 = 10100 2, B(20) = 5, C 1 (20) = 000010100 2, C 2 (20) = 000100001 2 K odov e slovo Eliasova k odu C 3 pro 1 000 000 je 0001000011110100001001000000 2 a m a d elku 28 bit u msto 39 bit u k odu t ehoz csla v C 2 Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 79
Pozn amky k porovn an k od u Prostorov e nejv yhodn ejs je samozrejm e bin arn k od, { ten ale nen bez pouzit oddelovac u jednoznacn e dek odovateln y Un arn k od je prexov y k od { to ho cin dobr ym k odem, je ale pouziteln y pouze pro mal a csla, { d elka jeho k odov ych slov v yrazne roste s rostouc hodnotou zdrojov e jednotky Eliasovy k ody jsou prklady prexov ych k od u pro velk a csla optim alnejsch nez un arn k od Jan Staudek, FI MU Brno PV062 Organizace soubor u { Informacn teorie 80