Entropie a informace Entr-Inf4.tex J. Obdržálek předběžná verze, 2007-2-0 Úvod. Motivace Zavedli jsme entropii. V termodynamice měla všechny atributy nepořádku, chaosu apod.: v izolovaném systému samovolně mohla jen růst nevratným procesem. Ve statistické fyzice souvisela s pravděpodobností daného makrostavu v konkurenci k makrostavům ostatním, majícím jiné počty jim odpovídajících mikrostavů. Na rozdíl od multiplikativní pravděpodobnosti nezávislých dějů) je entropie neinteragujících stavů) aditivní. Chtěli bychom z definice entropie odpreparovat všechno ostatní a ponechat jenom pravděpodobnost; tím by byl takový pojem použitelný všude, kde se s pravděpodobností pracuje např. právě v informatice. Ukážeme, že pokus o kvantifikování pojmů neurčitost, nejistota vede právě tímto směrem k pojmu entropie, známému z termodynamiky a statistické fyziky..2 Základní představy a označení Značme v souladu s normou IEC/ISO 80000, Díl ) log u logaritmus o základu u, lg log 0 logaritmus o základu 0; jednotka informace hartley, Hart; ln log e logaritmus o základu e logaritmus naturalis); jednotka informace nat, nat; lb log 2 logaritmus o základu 2 binární); jednotka informace shannon, Sh. Pro jevy J zavedeme pravděpodobnosti p, takové, že jev jistý I má pravděpodobnost p =, jev vyloučený O má pravděpodobnost p = 0, každý jiný jev J má pravděpodobnost 0 < p <. pravděpodobnost p, že nastane některý z navzájem se vylučujících jevů J i, J j, je rovna součtu jejich pravděpodobností: p = p i p j. Uvažujme úplný soubor jevů S E N, tvořený N elementárními jevy E i s pravděpodobnostmi p i pro i =... N), tj. s určitostí nastane některý z nich, nikdy nenastane současně více z nich. všechny mají stejnou pravděpodobnost p i ; zřejmě platí p i = N.
Dále uvažujme úplný soubor S K tvořený K jevy J i s pravděpodobnostmi p i pro i =... K), tj. s určitostí nastane některý z nich, nikdy nenastane současně více z nich. jev J i má pravděpodobnost p i ; zřejmě platí N i= p i =. Množinu všech pravděpodobností p i pro i =,..., N budeme značit buď výpisem všech p i, anebo {p i } N tedy také { 4 }4 pro N = 4), případně p. 2 Nejistota 2. Značení Každý úplný soubor S K tvořený K jevy J i je tedy charakterizován konečnou posloupností {p i } K tvořenou K pravděpodobnostmi {p i } K. Naším záměrem bude vyslyšet Galilea a přiřadit tomuto souboru číslo, které by měřilo naši nejistotu, máme-li uhádnout, který z jevů J i v jistém konkrétním případě nastane. Nejistotu označíme Hp), kde p {p i } K. Příležitostně užijeme označení typu H K ) pro zdůraznění počtu jevů, případně označení typu H A pro konkrétní hodnotu H. Velmi častý případ nejistoty souboru tvořeného N stejně pravděpodobnými elementárními) jevy budeme stručně značit H N H{ N }N ). Písmeno S užívané pro entropii se nám pro nejistotu nehodí, protože ho užíváme pro soubory. Naše písmeno H ovšem neznamená termodynamickou entalpii. Kdo by mocí mermo chtěl mít nějakou tu mnemoniku, tak ať si představí, že H měří horrorovitost situace. 2.2 Konkrétní příklad: Jiřík a Zlatovláska Jak známo, Jiřík poté, co zdolal všechny překážky, si měl vybrat svou Zlatovlásku ze dvanácti N = 2) na pohled stejných panen; jeho nezáviděníhodná nejistota byla nejprve H 2 = Hp) = H,,,,,,,,,,, ) 2 2 2 2 2 2 2 2 2 2 2 2. ) Tuto nejistotu bychom v dalším rádi kvantifikovali. Díky dobrotě srdce Jiříkova v předchozím dění mu však zlatá muška sednuvší na třetí pannu zleva změnila podmínky soutěže na mnohem příznivější situaci: H B2 = Hp B2 ) = H0, 0,, 0, 0, 0, 0, 0, 0, 0, 0, 0). 2) Jiřík měl nyní naprostou jistotu, že zvolí Zlatovlásku a nikoli povitruli. Nejistotu měl tedy nulovou: H B2 = 0. Fakticky byl ve stejné situaci, jako kdyby od Zlatovlásky dále nebyl nikdo: H B = Hp B ) = H0, 0, ) = H B2 ) anebo rovnou, kdyby tam byla jediná dívka, z níž by měl volit 2 H = H) = 0. 4) Co se dá změřit, má být změřeno, a co se nedá měřit, má být převedeno na měřitelné. 2 Princip voleb za totality Národní fronta) už současní studenti znají jen z vyprávění. 2
Připusťme však alternativní pohádku, kdy je letní parno, plno much kolem hradu i uvnitř a znavený Jiřík si není jistý, zda velká zlatá moucha přiletěvší náhle na první dívku je opožděnou pravou, velkou zlatou muškou či obyčejnou masařkou; nyní je situace H C2 = Hp C2 ) = H, 0,, 0, 0, 0, 0, 0, 0, 0, 0, 2 2 0), 5) fakticky stejná se situací H C2 = Hp C2 ) = H, ) 2 2 = H2, 6) odhlédneme-li od kandidátek evidentně klamných. Kdyby se mu přece jen velká a tlustá moucha zdála méně vhodná ke Zlatovlásce ale koneckonců kdoví, čeho se může nadít později... ), mohlo by to být třeba H D, = Hp D, ) = H 99, 0,, 0, 0, 0, 0, 0, 0, 0, 0, 00 00 0), 7) fakticky shodně se situací H D2 = Hp D2 ) = H, ) 99 00 00. 8) Pro úplnost připomeňme, že pořadí kandidátek v sevřené rojnici není jistě podstatné, takže záměna první a třetí dívky H D, = Hp D, ) = H 99, 0,, 0, 0, 0, 0, 0, 0, 0, 0, 00 00 0), 9) je opět fakticky stejná se situací ). 0) H D = Hp D ) = H 99, 00 00 Mění ovšem Jiříkovo rozhodnutí, nikoli však jeho šance, a tedy ani jeho nejistotu. Úhrnně můžeme kvalifikovat pořadí nejistot: 0 = H = H B2 = H B < H D, = H D2 = H D, = H D < H 2 = H C2 = H C2 < H 2, ) Pro kvantifikaci provedeme v dalším podrobnější rozbor. Zatím si prosím znovu pročtěte a promyslete Jiříkovy alternativy spolu s jeho kvalitativním hodnocení šancí podle rel. ). 2. Požadavky na kvantitativní hodnocení Stanovme nejprve, co očekáváme od nejistoty H jako takové: symetrie: Hodnota funkce H {p i } ) nezávisí na permutaci indexů: H {..., p i,..., p j,...} ) = H {..., p j,..., p i,...} ) pro každá i, j; 2) spojitost: Funkce H {p i } ) je spojitou funkcí každé ze svých proměnných p i ; monotonie vůči počtu možností): Pro nejistoty stejně pravděpodobných jevů v souborech S E N) platí: tedy 0 = H ) < H 2 2, 2 ) < H,, )... ) 0 =) H < H 2 <... < H N < H N <... ; 4) aditivita: Zapíšeme-li posloupnost jevů jako skupiny skupin těchto jevů, pak se všechny nejistoty všech skupin sečtou s příslušnými vahami). Tato formulace není asi příliš srozumitelná na první čtení. Osvětlíme ji v následujícím odstavci.
2.4 Aditivita rozděl a panuj) Představme si místo dobrého Jiříka zhýčkaného Žoržíka, kterému žádná zlatá muška nehodlá pomoci. Veze si ssebou proto tři oddané sluhy, aby se sám nemusel namáhat a aby oni převzali aspoň kus jeho práce i odpovědnosti. Teď se pokouší, zda by něco získal rozdělením nejistot mezi své sluhy. On sám má nejistotu H Ž ; podle rov. ) je však H Ž = H 2. ) }{{ 2} Ž Zkusí rozdělit odpovědnost tak, že Alfons navrhne mezi prvními pěti pannami, Bolton mezi dalšími čtyřmi a Cyril mezi zbývajícími třemi pannami., }{{ 2} A, }{{ 2} B ) }{{ 2} C Alfons má šanci může mít šťastnou ruku) v 5 případů a má nejistotu 2 HA = H 5, Bolton má šanci 4 s nejistotou 2 HB = H 4 a Cyril má nejmenší šanci, ale s nejistotou jen 2 HC = H. Žoržík se pak rozhodne mezi třemi návrhy svých sluhů, tedy mezi šancemi 5, 4, ) 2 2 2., }{{ 2}, }{{ 2} ) }{{ 2} } A {{ B C } Ž Uváží-li, jakou měl který sluha šanci uhádnout Zlatovlásku, přináší Žoržík sám nejistotu H Ž = H 5 2, 4 2, ) 2 Z nejistot každého z jeho sluhů se ovšem uplatní jen příslušná poměrná část. Celková výsledná nejistota koumáckého Žoržíka je tedy 5) 6) 7) 8) H Ž 5 2 HA 4 2 HB 2 HC = H 5 2, 4 2, ) 5 2 2 H 5 4 H 2 4 H 2 9) My ovšem víme, že spravedlnost vítězí, čili Žoržík si tím nemůže ani polepšit, ani pohoršit. Musí tedy platit H Ž =) H 2 = H 5 2, 4 2, ) 5 2 2 H 5 4 H 2 4 H 2 20) a to je náš předpoklad spravedlivého skládání nejistot v tomto konkrétním případě. Každý matfyzák to ovšem ihned přepíše obecně: Pro úplný soubor S K tvořený K jevy J i s pravděpodobnostmi p i pro i =... K) převeditelnými na společný jmenovatel tak, že p i = n i N, kde n i, N jsou přirozená čísla, platí ) H N = H K {pk } K K p k H nk, 2) k= ve všech pohádkách i ve školních učebnicích, včetně teoretické fyziky) 4
resp. po opuštění našich zkratek H N { N } N i= ) { } = nk K ) K HK N n k H { } nk ) k= N n k n k, 22) j= k= O situace, kdy pravděpodobnosti p i jsou iracionální a nelze je tedy převést na společný jmenovatel, se pak postará náš požadavek spojitosti. Řešení problému. Úloha Požadavky jsou formulovány; stačí tedy jen je splnit, tj. najít obecný vzorec pro { }) H { n } k K ) K pk HK, 2) N k= pro libovolnou posloupnost racionálních p k se společným jmenovatelem N), a případně najít řešení i pro iracionální p i..2 Zjednodušení Ukážeme, že namísto vyjádření 2) stačí vyjádřit všechna H N pro N =, 2,..., tedy nejistoty pro soubory SN E elementárních jevů pro všechna přirozená N. Hledaná 2) totiž při znalosti H N dostaneme pro libovolnou konečnou posloupnost { } p k s racionálními pk z rov. 2). To je ovšem znamenité zjednodušení.. Speciální případ: N = 2 n Případ N = je jasný: H = H ) = 0, žádná nejistota není. Ani pro případ N = 2 nám rov. 2) nepřinese nic nového: rozdělíme-li 2 jevy do 2 skupin po jevu, dostaneme H 2 = H 2 2, 2 ) 2 H 2 H = H 2 0 0 = H 2, 24) tedy identitu. Aspoň máme potvrzeno, že H = 0.) Až další případ, N = 4, dává něco nového: čtyři elementární jevy rozdělíme na dvě skupiny po dvou a dostaneme H 4 H 4 4, 4, 4, 4 Podobně postupujeme dále: ) = H2 2, 2) 2 H 2 2 H 2 = 2H 2. 25) H 8 H 8 { 8.}) = H 2, ) 2 2 2 H 4 2 H 4 = H 2, 26) H 6 H 6 { 6.}) = H 2, ) 2 2 2 H 8 2 H 8 = 4H 2, 27) a snadno dokážeme úplnou indukcí, že H 2 n = nh 2, 28) 5
neboli H N = lb N)H 2, 29) alespoň pokud je lb N = n přirozené číslo. Logaritmická závislost ve speciálním případě budí podezření, že vzorec jde zobecnit. Zkusíme proto dostat obecnou funkcionální rovnici..4 Další speciální případ: N = a b V předchozím odstavci jsme zvětšovali počet jevů násobením dvěma. Můžeme ovšem násobit i jiným číslem, třeba třemi. Jestliže je N = b, kde b je přirozené číslo, pak můžeme N jevů rozdělit na disjunktní skupiny po b elementárních jevech a rov. 2) dává H b = H H b = H H b 0) Nedá práci nahlédnout, že pro libovolná přirozená čísla platí Stačí tedy znát jen H p pro všechna prvočísla p..5 Obecné řešení pro H N a H{p i }) Funkcionální rov. ) má však známé řešení: H ab = H a H b ) H a = log a při libovolném základu logaritmu. 2) V informatice obvykle pracujeme s binární soustavou, a proto bereme logaritmy se základem 2, tedy lb x) = log 2 x). Připomeňme, že všechny logaritmy si jsou úměrné, takže platí např. lb 27 = lg 27/ lg 2. Volba základu logaritmu je tedy pouze otázkou volby konstanty měrné jednotky viz norma IEC/ISO 80000, Díl ). U binárních logaritmů je H 2 = ; jednotkou je proto shannon, Sh. Volba přirozených logaritmů ln se základem e dává jednotku nat, nat. Volba dekadických logaritmů lg dává jednotku hartley, Hart. Přibližné převodní vztahy jsou Sh 0,69 nat 0,0 Hart nat,4 Sh 0,44 Hart Hart,22 Sh 2,0 nat Dosazením do rov. 2) dostaneme ) H K {pk } K = K HN p k H nk pro p k = n k /N; tedy k= = K n k lb N) k= N lb n k) = K n k k= N lb n k N ) ) H K {pk } K = K p k lb p k ) ) k= Tento vzorec jsme odvodili jen pro racionální pravděpodobnosti p k, ale díky požadavku spojitosti H musí platit i pro p k zcela obecná. 6