Experimentální stanovení entropie českého textu



Podobné dokumenty
Teorie informace: řešené příklady 2014 Tomáš Kroupa

Algoritmy komprese dat

Vzdálenost jednoznačnosti a absolutně

13. cvičení z PSI ledna 2017

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

Úvod do teorie informace

Markovské metody pro modelování pravděpodobnosti

Teorie informace II: obtížnější řešené příklady 2014 Tomáš Kroupa

1. Základy teorie přenosu informací

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Komprese dat (Komprimace dat)

Statistická teorie učení

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

Jednofaktorová analýza rozptylu

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Úvod do teorie kódování

Pravděpodobnost a statistika

Zadání druhého zápočtového projektu Základy algoritmizace, 2005

Základy teorie pravděpodobnosti

7. Rozdělení pravděpodobnosti ve statistice

Poznámky k předmětu Aplikovaná statistika, 11. téma

Bakalářská práce Nejslabší! Máte padáka! Strategie ukládání

Fyzikální korespondenční seminář MFF UK

Teorie informace Obsah. Kybernetika. Radim Farana Podklady pro výuku

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Náhodné (statistické) chyby přímých měření

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Pravděpodobnost a její vlastnosti

Stochastické modely Informace k závěrečné zkoušce

14. cvičení z PSI. 9. ledna Pro každý stav platí, že všechny hrany z něj vycházející mají stejnou pravděpodobnost.

12. cvičení z PST. 20. prosince 2017

Teorie rozhodování (decision theory)

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Teorie informace. Mirko Navara. katedra kybernetiky FEL ČVUT Karlovo náměstí, budova G, místnost 104a navara/psi 3. 1.

Odhady - Sdružené rozdělení pravděpodobnosti

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Přednáška 3: Limita a spojitost

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují

Matematika III. Miroslava Dubcová, Daniel Turzík, Drahoslava Janovská. Ústav matematiky

Intuitivní pojem pravděpodobnosti

Náhodné chyby přímých měření

Automatizační technika. Obsah

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Pravděpodobnost a aplikovaná statistika

Bayesovské metody. Mnohorozměrná analýza dat

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Komprese obrazu. Úvod. Rozdělení metod komprese obrazů. Verze: 1.5, ze dne: 1. června Václav Hlaváč a Tomáš Svoboda

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Komprese obrazu. Verze: 1.5, ze dne: 1. června Václav Hlaváč a Tomáš Svoboda

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

Jaroslav Tuma. 8. února 2010

Množiny, relace, zobrazení

Teorie informace Obsah. Kybernetika. Radim Farana Podklady pro výuku

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Odpřednesenou látku naleznete v kapitole 3.3 skript Diskrétní matematika.

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Zdroje chyb. Absolutní a relativní chyba. Absolutní chyba. Absolutní chyba přibližného čísla a se nazývá absolutní hodnota rozdílu přesného

Náhodné jevy. Teorie pravděpodobnosti. Náhodné jevy. Operace s náhodnými jevy

pravděpodobnosti a Bayesova věta

Výběrové charakteristiky a jejich rozdělení

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Informace v počítači. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice

5 Orientované grafy, Toky v sítích

5.1. Klasická pravděpodobnst

Náhodný jev a definice pravděpodobnosti

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

1 Analytické metody durace a konvexita aktiva (dluhopisu) $)*

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Apriorní rozdělení. Jan Kracík.

Odhady Parametrů Lineární Regrese

1. Obyčejné diferenciální rovnice

Experimentální realizace Buquoyovy úlohy

U Úvod do modelování a simulace systémů

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

9.2. Zkrácená lineární rovnice s konstantními koeficienty

Diskrétní náhodná veličina. November 12, 2008

Kombinatorická minimalizace

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

10. N á h o d n ý v e k t o r

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

1 Linearní prostory nad komplexními čísly

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

Diskrétní matematika. DiM /01, zimní semestr 2017/2018

SHANNONOVA TEORIE TAJNÉ KOMUNIKACE

PRIMITIVNÍ FUNKCE. Primitivní funkce primitivní funkce. geometrický popis integrály 1 integrály 2 spojité funkce konstrukce prim.

Značení 1.1 (posloupnost výsledků pokusu). Mějme posloupnost opakovaných (i závislých) pokusů,

Osnova přednášky. Informace v počítači. Interpretace dat. Údaje, data. Úvod do teorie informace. Výpočetní technika I. Ochrana dat

DOE (Design of Experiments)

Zavedení a vlastnosti reálných čísel

V kompletním grafu nenastává problém. Každý uzel je soused se zbytkem vrcholů a může s nimi kdykoliv komunikovat.

Elegantní algoritmus pro konstrukci sufixových polí

3 Bodové odhady a jejich vlastnosti

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Fyzikální korespondenční seminář MFF UK

Transkript:

Experimentální stanovení entropie českého textu Antonín Novák novak.antonin@fel.cvut.cz Tomáš Báča bacatoma@fel.cvut.cz 4. dubna 2012 Abstrakt Práce se zabývá analýzou českého textu. Zkoumali jsme syntaktickou strukturu psaného jazyka pomocí nástrojů teorie informace, zejména entropie. Zjistili jsme, že český jazyk vykazuje velkou redundanci a tím silnou míru vnitřní struktury. Výsledkem práce je stanovení entropie češtiny a konstrukce prediktoru českého textu včetně implementace komunikačního kompresního kanálu založeného na znalosti pravděpodobnostního modelu českých znaků a slov. Motivace V roce 1950 C. E. Shannon [1] publikoval článek pojednávající o možnostech predikce anglického textu. Jeho experimenty byly založeny na myšlence, že anglický jazyk vykazuje velmi silná vnitřní pravidla syntaxe a při znalosti těchto pravidel není úplně náhodné, jaké písmeno či slovo bude následovat po tom, které už známe. Ukazuje se například, že pravděpodobnosti písmen následujících v souvislém anglickém textu po písmenu T nemají rovnoměrné rozdělení. Je to způsobeno např. tím, že v angličtině je nejčastějším slovem člen the tudíž je poměrně pravděpodobné, že po T bude následovat právě H a ne například Q. Tyto a jiné podněty dovedly Shannona k tomu zkoumat míru této vnitřní struktury syntaxe s využitím nástrojů teorie informace. Intuitivně lze očekávat, že méně entropický (později definujeme přesněji) text bude snadnější predikovat, jelikož je méně náhodný tudíž je svázán jistým množstvím pravidel, které jeho syntaktickou strukturu do jisté míry předurčují. Všechny používané logaritmy v této práci jsou dvojkového základu (pokud není uvedeno jinak). Definice Neformálně řečeno, rozumný způsob, jak definovat entropii textu, je nahlížet na konkrétní jazyk jako na informační zdroj ((X n ) n N ) nad abecedou χ, pro který existuje pojem rychlosti entropie (entropie na znak). Tento způsob definice se ukazuje být opodstatněný a přináší své výsledky [1]. Dle [2, s. 173] existuje několik způsobů, jak tuto rychlost entropie najít. Jedním z nich je například metoda stanovení horní a dolní hranice rychlost entropie pomocí sázek na následující písmena obdobně jako při sázkách na koně a výsledky interpretovat pomocí narůstajícího bohatství z případných výher. Tato partie teorie informace nazývána gambling je rozebrána v [2]. My jsme v naší práci postupovali podobně jako C. E. Shannon - výpočtem z definice. Pro to si nejprve musíme přesně zavést několik pojmů. Budeme tedy určovat entropii českého textu - jednou nad abecedou bez mezery a za využití pravděpodobností koncových a počátečních písmen a druhou pro abecedou obsahující mezeru. 1

Náhodné veličiny Písmeno Náhodná veličina X reprezentuje písmeno textu. Je to diskrétní náhodná veličina s rozdělením p X nad abecedou χ = {A,...,Ž, }. Písmeno CH, ačkoliv se jedná o dva znaky, uvažujeme jako jeden. Mezera je v abecedě χ přítomna při druhé variantě experimentu odhadování entropie. N-gram Náhodný vektor G N reprezentuje N-gram českého textu (N náhodných veličin X). Je definován pomocí p N, kde p N je pravděpodobnostní rozdělení N-gramu nad množinou všech N- gramů (uspořádaných n-tic písmen) χ N. Například množina 2-gramů (digramů) je χ 2 ={AA,...,ŽŽ} ve variantě abecedy bez mezer. Čeština je náhodný proces ((X n ) n N ) nad abecedou χ, který považujeme za stacio- Čeština nární. Střední podmíněná entropie písmena Střední podmíněná entropie písmena X podmíněná (N-1)-gramem je: H N = H(X G N 1 ) = = p N 1 (y)h(x G N 1 = y) = y χ N 1 = p N (yx)log p N(yx) p N 1 (y) a vyjadřuje průměrné množství informace, kterou se dozvíme při pozorování X při předcházející znalosti předchozích N-1 písmen. Mezní rychlost entropie Mezní rychlost entropie náhodného procesu ((X n ) n N ) je definována jako limita posloupnosti středních podmíněných entropií a tedy platí: Výpočet H((X n ) n N ) = lim N H N (2) Jak jsme již zmínili výše, experiment jsme provedli pro dvě různé abecedy χ - s mezerou a bez mezery. CH bylo považováno za jedno písmeno. Všechna data vycházejí z 700 MB českého textu s diakritikou pocházejícího z české a světové literatury, který byl vhodně zpracován počítačem. (1) Odhady pravděpodobnostních rozdělení X a G N Rozdělení p X Pravděpodobností rozdělení p X odhadneme pomocí relativní četnosti písmen nad zkoumanými daty. Pro ilustraci uvádíme v tabulce 1 prvních osm nejčetnějších písmen. Rozdělení digramu G 2 Podobným způsobem odhadneme pravděpodobnostního rozdělení veličiny G 2. Výsledkem je rozdělení p 2. Na obrázku 1 vidíme, že pravděpodobností rozdělení p 2 není rovnoměrné - z toho je zřejmé, že syntaxe češtiny vykazuje vnitřní strukturu a slova jazyka se negenerují ze všech n-tic písmen rovnoměrně. Důkaz nerovnoměrnosti tohoto rozdělení není pro nás klíčový, proto jej ponecháváme bez důkazu jen pro ilustraci. Abeceda má uspořádání: A-Z, Á-Ž, CH. 2

písmeno pst. e 0.0832 o 0.0809 a 0.0759 n 0.0593 l 0.0570 t 0.0540 s 0.0472 i 0.0439 Tabulka 1: Nejčetnější písmena češtiny 0.015 0.01 0.005 0 5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 40 Obrázek 1: Pravděpodobnostní rozdělení digramů Rozdělení trigramu G 3 Odhad pravděpodobností trigramů p 3 pro případ abecedy χ obsahující mezeru je analogický s odhadem p 2. Pokud mezeru nepovažujeme za znak abecedy, postup stanovení rozdělení se mírně změní. Musíme vzít v úvahu i trigramy, které spojují dvě po sobě jdoucí slova. Například v sousloví hnijící koudel bychom rádi započítali výskyt trigramů cík a íko. Formule popsaná v [1], pomocí které upravíme odhadnuté pravděpodobnosti, vypadá následovně: p 3 (y 1 y 2 y 3 ) = 3.83 5.83 ˆp 3(y 1 y 2 y 3 ) + 1 5.83 p T (y 1 )p 2 (y 2 y 3 ) + 1 5.83 p 2(y 1 y 2 )p S (y 3 ) (3) kde p S (y 1 ) je pst. že písmeno y 1 je začínajícím znakem slova, p T (y 3 ) je pst, že y 3 je koncovým znakem slova. Hodnota 5.83 je průměrná délka českého slova délky větší než 3 a vážena výskytem slova v textu. 3.83 je průměrný počet trigramů uvnitř českého slova. ˆp 3 je odhad na základě četnosti trojic písmen uvnitř slova. Tuto úpravu Shannon použil v [1] za předpokladu nezávislosti počátečního písmena jednoho slova a konečného písmena. Výpočtem s takto upraveným pravděpodobnostním rozdělením jsme dostali hodnotu H 3 větší než H 2, což indikuje chybu odhadu rozdělení. Proto soudíme, že tato metoda není pro češtinu 3

možná a dále pokračujeme s původními pravděpodobnostmi p 3. 10 3 10 4 relativni cetnost 10 5 10 6 10 7 10 8 10 0 10 1 10 2 10 3 10 4 poradi cetnosti Obrázek 2: Sestupně seřazené pravděpodobnosti trigramů v log-log měřítku Četnosti slov 4-gramy a více již nebudeme konstruovat z podobných důvodů jako uvádí Shannon [1] - věrohodnost však takových dat je již daleko nižší než v případě trigramů. Lepším způsobem pro další aproximaci limity posloupnosti H N je použít četnosti slov. V [3] Zipf postuloval, že rovnice (4) platí pro mnoho různých jazyků. p n je relativní četnost n-tého nejčastějšího slova. My jsme pro češtinu určili tvar této rovnice (5). p n = k n (4) p n = { 0.03/n 0.6 n 10 0.1/n n > 10 Na obrázku 3 vidíme v log-log měřítku četnosti nejčastějších českých slov. Modře jsou vyznačena naše data, červeně aproximace k = 0.1 pro angličtinu dle Shannona [1]. Zeleně je naše aproximace (5) pro češtinu. Rychlost entropie Pro stacionární náhodné procesy (a češtinu za něj považujeme) platí věta, že rychlost entropie se rovná mezní rychlosti entropie: 1 H((X n ) n N ) = lim n n H(X 1,..., X n ) = H((X n ) n N ) Pro výpočet mezní rychlosti entropie použijeme vztah (2). Začneme postupně rozepisovat jednotlivé členy posloupnosti. Při prvním přiblížení uvažujeme jen počet písmen v abecedě (bez mezery): H 0 = log χ = 5.39 bits/znak (6) (5) 4

10 2 a data aproximace 2. radu aproximace 1. radu 10 3 kde pst. slova v textu 10 4 10 5 dobre zarizení 10 6 nevydrzel 10 7 vtipnou 10 0 10 1 10 2 10 3 10 4 10 5 poradi cetnosti slova Obrázek 3: Sestupně seřazené pravděpodobnosti slov v log-log měřítku Ve druhém uvažujeme jejich samotné četnosti: H 1 = x χ p X (x)log(p X (x)) = 4.7187 bits/znak (7) Pro výpočet dalších středních podmíněných entropií si výraz (1) přepíšeme do vhodnější formy: H N = H(X G N 1 ) = Čili bude platit: = = = = p N (yx)log p N(yx) p N 1 (y) p N (yx)[log(p N (yx)) log(p N 1 (y))] p N (yx)log(p N (yx)) p N (yx)log(p N 1 (y)) p N (yx)log(p N (yx)) + p N (yx)log(p N (yx)) + log(p N 1 (y)) p N (yx) } {{ } =p N 1 (y) y χ N 1 log(p N 1 (y))p N 1 (y) (8) 5

H 2 = H(X G 1 ) = p 2 (yx)log(p 2 (yx)) + log(p 1 (y))p 1 (y) y χ 1 y χ 1 x χ } {{ } = H 1 = 8.4149 4.7187 = 3.6962 bits/znak a velmi podobně také pro trigramy: H 3 = H(X G 2 ) = p 3 (yx)log(p 3 (yx)) + log(p 2 (y))p 2 (y) (10) y χ 2 y χ 2 x χ = 11.5935 8.4149 = 3.1786 bits/znak Při odhadu pravděpodobnostních rozdělení jsme diskutovali, že dále budeme postupovat podle aproximace pomocí četnosti slov rovnicí (5). Aby p n byla pravděpodobnost, musí pro ní platit: (9) p n = 1 (11) n=1 Je zřejmé že suma z rovnice (11) diverguje a tudíž součet nemůže být až do nekonečna. Hodnota n, pro kterou se p n = 1 je 60800. Bez jakéhokoliv nároku na lepší odhad entropie slova ji stanovujeme jako: 60800 H w = p n log(p n ) = 12.04 bits/slovo = 2.07 bits/znak (12) n=1 Otázkou zůstává, s jakou hodnotou H N toto číslo ztotožnit. Ačkoliv je průměrná délka českého slova 5.83 znaků, tak entropie slova na znak je nižší než hodnota H 5.83. Důvodem, který zmiňuje i Shannon v [1], je, že slovo jazyka vykazuje silnější vnitřní strukturu než uspořádaná 6tice písmen, což vyústí v menší entropii bloku písmen poskládaného do slova, jakožto jazykové jednotky se silnou strukturou. Lze soudit, že entropie slova přísluší hodnotě přibližně H 7 či H 8. abeceda H 0 H 1 H 2 H 3 H w 42 p. 5.39 4.72 3.69 3.18 2.07 43 p. 5.42 4.57 3.71 3.17 2.07 Tabulka 2: Posloupnost podmíněných entropií Vidíme, že jsou v podstatě zanedbatelné rozdíly mezi abecedou obsahující mezeru a abecedou bez mezery. Pokud češtinu modelujeme 2-Markovským modelem písmen, pak je její entropie rovna přibližně 3.17 bitů na písmeno. Pokud přistoupíme k modelování pomocí N-Markovského řetězce slov (kde N není příliš velké), pak lze očekávat, že entropie bude menší než námi zjištěná hodnota 2.07 bitů na písmeno. Ze znalosti českého jazyka je zřejmé, že věrnějším odhadem bude N-Markovský řetězec slov, kde N není příliš velké. Proto definujeme-li redundanci českého jazyka procentuální poměr entropie na znak mezi nezávislým náhodným zdrojem a N-Markovským řetězcem slov, pak redundance bude přibližně 40%. Výsledky Entropie českého textu Zjistili jsme, že rozdíly v rychlosti entropie procesu nad abecedou obsahující mezeru a and abecedou bez mezery jsou zanedbatelné. Pokud češtinu modelujeme jako N-Markovkský řetězec 6

slov, kde N není příliš velké (jednotky), pak je rychlost entropie takového zdroje přibližně: Tabulky četnosti slov a písmen češtiny H(((X n ) n N )) = 2.07 bits/znak (13) Pro výpočet entropie bylo třeba zkonstruovat tabulky četností písmen, digramů, trigramů a četnosti slov. Tyto tabulky jsou součástí práce a uvolňujeme je pod licencí Creative Commons Attribution-NonComercial-ShareAlike 3.0 Unported. Prediktor textu 2-Markovský řetězec znaků Tento popis modeluje češtinu tak, že pravděpodobnost výskytu písmena je podmíněna dvěma předcházejícími. Tento popis přirozeně neposkytuje kvalitní predikci celých slov, avšak slouží dobře na predikci předložek, spojek či obecně kratších stavebních prvků češtiny. Následuje ukázka textu, který takový prediktor dokáže vygenerovat: jed_doostval_st_ja_př_sesi_e_dvalka řejake_sen měo_so_spro a_pjede_v_mustoabyto_a_pe_mne_přie_z_prby_ku_a_d_pako mijí_ ohou_pby_i_skte_žeale_stle_ný_kola_dbyl_veprol_nter_v_e_m_mu 2-Markovský řetězec slov Podobně jako se znaky můžeme zacházet i se slovy. Za pomocí předchozí analýzy jsme byli schopni zkonstruovat prediktor, který maximalizuje pravděpodobnost podmíněnou dvěma předchozími slovy. Jeho výstup pro představu je možné vidět zde: jednoho_dne_se_vrátí_do_své_kanceláře_a_zavřel_oči_a_pak_se_ otočil_a_zamířil_k_němu_a_řekl_jsem_a_on_se_na_něj_a_jeho_hlas _zněl_trochu_drsně_díky_žaludečním_šťávám_a_projít_se_po_něm Komunikační predikční kanál Ve své práci [1] Shannon popsal model komunikačního kanálu založeného na umístění identických prediktorů na vstupu a výstupu. Tento kanál přenáší prázdné kódové slovo, pokud prediktor správně na první pokus určí slovo na vstupu. Toto rozhodování provádí na základě znalosti předchozích znaků zprávy. Pokud se nepodaří správně určit znak napoprvé, tak se pokračuje sestupně přes všechny pravděpodobnosti a odešle se číslo iterace, kdy nastala shoda. Za předpokladu identičnosti prediktorů je pak možno odeslanou zprávu bezchybně rekonstruovat. Prázdné kódové slovo, jenž indikuje správnou predikci, je příhodné kódovat nejkratším možným kódovým slovem (např. nulovým bitem). Ostatní přenášená kódová můžeme kódovat běžným způsobem (např. Huffmanovým kódem). original text reduced text original text comparison comparison predictor predictor Obrázek 4: Shannonův model komunikačního kanálu dle [1] Čím bude lepší predikce, tím méně bitů je třeba přenášet. V extrémních případech lze předpokládat, že z jednoho počátečního písmena budu schopen na druhém konci rekonstruovat celou 7

zprávu. Naše implementace využívá 2-Markovského řetězce slov vytvořeného z cca. 200 MB českého textu. Při větší velikosti dat jsme se již potýkali s výkonovými problémy. Lze předpokládat, že lepší implementací by bylo možné dosáhnout lepších výsledků. Naše implementace pracuje jen s celými slovy. Proto když predikce není vůbec možná (z nedostatku dat), tak se odešle celé slovo najednou. Jednou námi navrhovaných změn je začlenění 2-Markovského řetězce znaků do predikce. Pro ilustraci uvádíme zprávu včetně jejího přenosu naší implementací kanálu: vstup: ahoj_tondo_píšu_ti_protože_bych_se_rád_zeptal_jak_se_máš_jakpak_se_má_tvůj_kocour _už_jsem_ho_dlouho_neviděl poslaná zpráva: ahoj_tondo_píšu_ti 1 bych 1 8 5 5 1 29 jakpak_se 7 110 kocour_už_jsem 12 359 13 výstup: ahoj_tondo_píšu_ti_protože_bych_se_rád_zeptal_jak_se_máš_jakpak_se_má_tvůj_kocour _už_jsem_ho_dlouho_neviděl Závěr Podařilo se nám ověřit předpoklad, že syntaxe českého jazyka vykazuje vnitřní strukturu, která redukuje jeho entropii. Rychlost entropie češtiny za předpokladu, že je modelována N-Markovským řetězcem slov, kde N je přiměřeně malé (jednotky) je menší než 2.07 bits/znak. Tato poměrně malá míra entropie implikuje větší předurčenost textu a tím jeho snadnější predikovatelnost. Se znalostí pravděpodobnostího rozdělení písmen a slov českého jazyka jsme byli schopni zkonstruovat komunikační kanál popsaný v [1]. Vzhledem k zajímavým výsledkům této práce věříme, že si problematika entropie textů zaslouží další zkoumání. Reference [1] SHANNON, C. E. Prediction and Entropy of Printed English. 1950. [2] THOMAS M. COVER, JOY A. THOMAS, Elements of Information Theory. 2nd editon, 2006 [3] ZIPF, G. K., Human Behavior and the Principle of Least Effort, Addison-Wesley Press, 1949 8