Experimentální stanovení entropie českého textu

Experimentální stanovení entropie českého textu Antonín Novák novak.antonin@fel.cvut.cz Tomáš Báča bacatoma@fel.cvut.cz 4. dubna 2012 Abstrakt Práce se zabývá analýzou českého textu. Zkoumali jsme syntaktickou strukturu psaného jazyka pomocí nástrojů teorie informace, zejména entropie. Zjistili jsme, že český jazyk vykazuje velkou redundanci a tím silnou míru vnitřní struktury. Výsledkem práce je stanovení entropie češtiny a konstrukce prediktoru českého textu včetně implementace komunikačního kompresního kanálu založeného na znalosti pravděpodobnostního modelu českých znaků a slov. Motivace V roce 1950 C. E. Shannon [1] publikoval článek pojednávající o možnostech predikce anglického textu. Jeho experimenty byly založeny na myšlence, že anglický jazyk vykazuje velmi silná vnitřní pravidla syntaxe a při znalosti těchto pravidel není úplně náhodné, jaké písmeno či slovo bude následovat po tom, které už známe. Ukazuje se například, že pravděpodobnosti písmen následujících v souvislém anglickém textu po písmenu T nemají rovnoměrné rozdělení. Je to způsobeno např. tím, že v angličtině je nejčastějším slovem člen the tudíž je poměrně pravděpodobné, že po T bude následovat právě H a ne například Q. Tyto a jiné podněty dovedly Shannona k tomu zkoumat míru této vnitřní struktury syntaxe s využitím nástrojů teorie informace. Intuitivně lze očekávat, že méně entropický (později definujeme přesněji) text bude snadnější predikovat, jelikož je méně náhodný tudíž je svázán jistým množstvím pravidel, které jeho syntaktickou strukturu do jisté míry předurčují. Všechny používané logaritmy v této práci jsou dvojkového základu (pokud není uvedeno jinak). Definice Neformálně řečeno, rozumný způsob, jak definovat entropii textu, je nahlížet na konkrétní jazyk jako na informační zdroj ((X n ) n N ) nad abecedou χ, pro který existuje pojem rychlosti entropie (entropie na znak). Tento způsob definice se ukazuje být opodstatněný a přináší své výsledky [1]. Dle [2, s. 173] existuje několik způsobů, jak tuto rychlost entropie najít. Jedním z nich je například metoda stanovení horní a dolní hranice rychlost entropie pomocí sázek na následující písmena obdobně jako při sázkách na koně a výsledky interpretovat pomocí narůstajícího bohatství z případných výher. Tato partie teorie informace nazývána gambling je rozebrána v [2]. My jsme v naší práci postupovali podobně jako C. E. Shannon - výpočtem z definice. Pro to si nejprve musíme přesně zavést několik pojmů. Budeme tedy určovat entropii českého textu - jednou nad abecedou bez mezery a za využití pravděpodobností koncových a počátečních písmen a druhou pro abecedou obsahující mezeru. 1

Náhodné veličiny Písmeno Náhodná veličina X reprezentuje písmeno textu. Je to diskrétní náhodná veličina s rozdělením p X nad abecedou χ = {A,...,Ž, }. Písmeno CH, ačkoliv se jedná o dva znaky, uvažujeme jako jeden. Mezera je v abecedě χ přítomna při druhé variantě experimentu odhadování entropie. N-gram Náhodný vektor G N reprezentuje N-gram českého textu (N náhodných veličin X). Je definován pomocí p N, kde p N je pravděpodobnostní rozdělení N-gramu nad množinou všech N- gramů (uspořádaných n-tic písmen) χ N. Například množina 2-gramů (digramů) je χ 2 ={AA,...,ŽŽ} ve variantě abecedy bez mezer. Čeština je náhodný proces ((X n ) n N ) nad abecedou χ, který považujeme za stacio- Čeština nární. Střední podmíněná entropie písmena Střední podmíněná entropie písmena X podmíněná (N-1)-gramem je: H N = H(X G N 1 ) = = p N 1 (y)h(x G N 1 = y) = y χ N 1 = p N (yx)log p N(yx) p N 1 (y) a vyjadřuje průměrné množství informace, kterou se dozvíme při pozorování X při předcházející znalosti předchozích N-1 písmen. Mezní rychlost entropie Mezní rychlost entropie náhodného procesu ((X n ) n N ) je definována jako limita posloupnosti středních podmíněných entropií a tedy platí: Výpočet H((X n ) n N ) = lim N H N (2) Jak jsme již zmínili výše, experiment jsme provedli pro dvě různé abecedy χ - s mezerou a bez mezery. CH bylo považováno za jedno písmeno. Všechna data vycházejí z 700 MB českého textu s diakritikou pocházejícího z české a světové literatury, který byl vhodně zpracován počítačem. (1) Odhady pravděpodobnostních rozdělení X a G N Rozdělení p X Pravděpodobností rozdělení p X odhadneme pomocí relativní četnosti písmen nad zkoumanými daty. Pro ilustraci uvádíme v tabulce 1 prvních osm nejčetnějších písmen. Rozdělení digramu G 2 Podobným způsobem odhadneme pravděpodobnostního rozdělení veličiny G 2. Výsledkem je rozdělení p 2. Na obrázku 1 vidíme, že pravděpodobností rozdělení p 2 není rovnoměrné - z toho je zřejmé, že syntaxe češtiny vykazuje vnitřní strukturu a slova jazyka se negenerují ze všech n-tic písmen rovnoměrně. Důkaz nerovnoměrnosti tohoto rozdělení není pro nás klíčový, proto jej ponecháváme bez důkazu jen pro ilustraci. Abeceda má uspořádání: A-Z, Á-Ž, CH. 2

písmeno pst. e 0.0832 o 0.0809 a 0.0759 n 0.0593 l 0.0570 t 0.0540 s 0.0472 i 0.0439 Tabulka 1: Nejčetnější písmena češtiny 0.015 0.01 0.005 0 5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 40 Obrázek 1: Pravděpodobnostní rozdělení digramů Rozdělení trigramu G 3 Odhad pravděpodobností trigramů p 3 pro případ abecedy χ obsahující mezeru je analogický s odhadem p 2. Pokud mezeru nepovažujeme za znak abecedy, postup stanovení rozdělení se mírně změní. Musíme vzít v úvahu i trigramy, které spojují dvě po sobě jdoucí slova. Například v sousloví hnijící koudel bychom rádi započítali výskyt trigramů cík a íko. Formule popsaná v [1], pomocí které upravíme odhadnuté pravděpodobnosti, vypadá následovně: p 3 (y 1 y 2 y 3 ) = 3.83 5.83 ˆp 3(y 1 y 2 y 3 ) + 1 5.83 p T (y 1 )p 2 (y 2 y 3 ) + 1 5.83 p 2(y 1 y 2 )p S (y 3 ) (3) kde p S (y 1 ) je pst. že písmeno y 1 je začínajícím znakem slova, p T (y 3 ) je pst, že y 3 je koncovým znakem slova. Hodnota 5.83 je průměrná délka českého slova délky větší než 3 a vážena výskytem slova v textu. 3.83 je průměrný počet trigramů uvnitř českého slova. ˆp 3 je odhad na základě četnosti trojic písmen uvnitř slova. Tuto úpravu Shannon použil v [1] za předpokladu nezávislosti počátečního písmena jednoho slova a konečného písmena. Výpočtem s takto upraveným pravděpodobnostním rozdělením jsme dostali hodnotu H 3 větší než H 2, což indikuje chybu odhadu rozdělení. Proto soudíme, že tato metoda není pro češtinu 3

možná a dále pokračujeme s původními pravděpodobnostmi p 3. 10 3 10 4 relativni cetnost 10 5 10 6 10 7 10 8 10 0 10 1 10 2 10 3 10 4 poradi cetnosti Obrázek 2: Sestupně seřazené pravděpodobnosti trigramů v log-log měřítku Četnosti slov 4-gramy a více již nebudeme konstruovat z podobných důvodů jako uvádí Shannon [1] - věrohodnost však takových dat je již daleko nižší než v případě trigramů. Lepším způsobem pro další aproximaci limity posloupnosti H N je použít četnosti slov. V [3] Zipf postuloval, že rovnice (4) platí pro mnoho různých jazyků. p n je relativní četnost n-tého nejčastějšího slova. My jsme pro češtinu určili tvar této rovnice (5). p n = k n (4) p n = { 0.03/n 0.6 n 10 0.1/n n > 10 Na obrázku 3 vidíme v log-log měřítku četnosti nejčastějších českých slov. Modře jsou vyznačena naše data, červeně aproximace k = 0.1 pro angličtinu dle Shannona [1]. Zeleně je naše aproximace (5) pro češtinu. Rychlost entropie Pro stacionární náhodné procesy (a češtinu za něj považujeme) platí věta, že rychlost entropie se rovná mezní rychlosti entropie: 1 H((X n ) n N ) = lim n n H(X 1,..., X n ) = H((X n ) n N ) Pro výpočet mezní rychlosti entropie použijeme vztah (2). Začneme postupně rozepisovat jednotlivé členy posloupnosti. Při prvním přiblížení uvažujeme jen počet písmen v abecedě (bez mezery): H 0 = log χ = 5.39 bits/znak (6) (5) 4

10 2 a data aproximace 2. radu aproximace 1. radu 10 3 kde pst. slova v textu 10 4 10 5 dobre zarizení 10 6 nevydrzel 10 7 vtipnou 10 0 10 1 10 2 10 3 10 4 10 5 poradi cetnosti slova Obrázek 3: Sestupně seřazené pravděpodobnosti slov v log-log měřítku Ve druhém uvažujeme jejich samotné četnosti: H 1 = x χ p X (x)log(p X (x)) = 4.7187 bits/znak (7) Pro výpočet dalších středních podmíněných entropií si výraz (1) přepíšeme do vhodnější formy: H N = H(X G N 1 ) = Čili bude platit: = = = = p N (yx)log p N(yx) p N 1 (y) p N (yx)[log(p N (yx)) log(p N 1 (y))] p N (yx)log(p N (yx)) p N (yx)log(p N 1 (y)) p N (yx)log(p N (yx)) + p N (yx)log(p N (yx)) + log(p N 1 (y)) p N (yx) } {{ } =p N 1 (y) y χ N 1 log(p N 1 (y))p N 1 (y) (8) 5

H 2 = H(X G 1 ) = p 2 (yx)log(p 2 (yx)) + log(p 1 (y))p 1 (y) y χ 1 y χ 1 x χ } {{ } = H 1 = 8.4149 4.7187 = 3.6962 bits/znak a velmi podobně také pro trigramy: H 3 = H(X G 2 ) = p 3 (yx)log(p 3 (yx)) + log(p 2 (y))p 2 (y) (10) y χ 2 y χ 2 x χ = 11.5935 8.4149 = 3.1786 bits/znak Při odhadu pravděpodobnostních rozdělení jsme diskutovali, že dále budeme postupovat podle aproximace pomocí četnosti slov rovnicí (5). Aby p n byla pravděpodobnost, musí pro ní platit: (9) p n = 1 (11) n=1 Je zřejmé že suma z rovnice (11) diverguje a tudíž součet nemůže být až do nekonečna. Hodnota n, pro kterou se p n = 1 je 60800. Bez jakéhokoliv nároku na lepší odhad entropie slova ji stanovujeme jako: 60800 H w = p n log(p n ) = 12.04 bits/slovo = 2.07 bits/znak (12) n=1 Otázkou zůstává, s jakou hodnotou H N toto číslo ztotožnit. Ačkoliv je průměrná délka českého slova 5.83 znaků, tak entropie slova na znak je nižší než hodnota H 5.83. Důvodem, který zmiňuje i Shannon v [1], je, že slovo jazyka vykazuje silnější vnitřní strukturu než uspořádaná 6tice písmen, což vyústí v menší entropii bloku písmen poskládaného do slova, jakožto jazykové jednotky se silnou strukturou. Lze soudit, že entropie slova přísluší hodnotě přibližně H 7 či H 8. abeceda H 0 H 1 H 2 H 3 H w 42 p. 5.39 4.72 3.69 3.18 2.07 43 p. 5.42 4.57 3.71 3.17 2.07 Tabulka 2: Posloupnost podmíněných entropií Vidíme, že jsou v podstatě zanedbatelné rozdíly mezi abecedou obsahující mezeru a abecedou bez mezery. Pokud češtinu modelujeme 2-Markovským modelem písmen, pak je její entropie rovna přibližně 3.17 bitů na písmeno. Pokud přistoupíme k modelování pomocí N-Markovského řetězce slov (kde N není příliš velké), pak lze očekávat, že entropie bude menší než námi zjištěná hodnota 2.07 bitů na písmeno. Ze znalosti českého jazyka je zřejmé, že věrnějším odhadem bude N-Markovský řetězec slov, kde N není příliš velké. Proto definujeme-li redundanci českého jazyka procentuální poměr entropie na znak mezi nezávislým náhodným zdrojem a N-Markovským řetězcem slov, pak redundance bude přibližně 40%. Výsledky Entropie českého textu Zjistili jsme, že rozdíly v rychlosti entropie procesu nad abecedou obsahující mezeru a and abecedou bez mezery jsou zanedbatelné. Pokud češtinu modelujeme jako N-Markovkský řetězec 6

slov, kde N není příliš velké (jednotky), pak je rychlost entropie takového zdroje přibližně: Tabulky četnosti slov a písmen češtiny H(((X n ) n N )) = 2.07 bits/znak (13) Pro výpočet entropie bylo třeba zkonstruovat tabulky četností písmen, digramů, trigramů a četnosti slov. Tyto tabulky jsou součástí práce a uvolňujeme je pod licencí Creative Commons Attribution-NonComercial-ShareAlike 3.0 Unported. Prediktor textu 2-Markovský řetězec znaků Tento popis modeluje češtinu tak, že pravděpodobnost výskytu písmena je podmíněna dvěma předcházejícími. Tento popis přirozeně neposkytuje kvalitní predikci celých slov, avšak slouží dobře na predikci předložek, spojek či obecně kratších stavebních prvků češtiny. Následuje ukázka textu, který takový prediktor dokáže vygenerovat: jed_doostval_st_ja_př_sesi_e_dvalka řejake_sen měo_so_spro a_pjede_v_mustoabyto_a_pe_mne_přie_z_prby_ku_a_d_pako mijí_ ohou_pby_i_skte_žeale_stle_ný_kola_dbyl_veprol_nter_v_e_m_mu 2-Markovský řetězec slov Podobně jako se znaky můžeme zacházet i se slovy. Za pomocí předchozí analýzy jsme byli schopni zkonstruovat prediktor, který maximalizuje pravděpodobnost podmíněnou dvěma předchozími slovy. Jeho výstup pro představu je možné vidět zde: jednoho_dne_se_vrátí_do_své_kanceláře_a_zavřel_oči_a_pak_se_ otočil_a_zamířil_k_němu_a_řekl_jsem_a_on_se_na_něj_a_jeho_hlas _zněl_trochu_drsně_díky_žaludečním_šťávám_a_projít_se_po_něm Komunikační predikční kanál Ve své práci [1] Shannon popsal model komunikačního kanálu založeného na umístění identických prediktorů na vstupu a výstupu. Tento kanál přenáší prázdné kódové slovo, pokud prediktor správně na první pokus určí slovo na vstupu. Toto rozhodování provádí na základě znalosti předchozích znaků zprávy. Pokud se nepodaří správně určit znak napoprvé, tak se pokračuje sestupně přes všechny pravděpodobnosti a odešle se číslo iterace, kdy nastala shoda. Za předpokladu identičnosti prediktorů je pak možno odeslanou zprávu bezchybně rekonstruovat. Prázdné kódové slovo, jenž indikuje správnou predikci, je příhodné kódovat nejkratším možným kódovým slovem (např. nulovým bitem). Ostatní přenášená kódová můžeme kódovat běžným způsobem (např. Huffmanovým kódem). original text reduced text original text comparison comparison predictor predictor Obrázek 4: Shannonův model komunikačního kanálu dle [1] Čím bude lepší predikce, tím méně bitů je třeba přenášet. V extrémních případech lze předpokládat, že z jednoho počátečního písmena budu schopen na druhém konci rekonstruovat celou 7

zprávu. Naše implementace využívá 2-Markovského řetězce slov vytvořeného z cca. 200 MB českého textu. Při větší velikosti dat jsme se již potýkali s výkonovými problémy. Lze předpokládat, že lepší implementací by bylo možné dosáhnout lepších výsledků. Naše implementace pracuje jen s celými slovy. Proto když predikce není vůbec možná (z nedostatku dat), tak se odešle celé slovo najednou. Jednou námi navrhovaných změn je začlenění 2-Markovského řetězce znaků do predikce. Pro ilustraci uvádíme zprávu včetně jejího přenosu naší implementací kanálu: vstup: ahoj_tondo_píšu_ti_protože_bych_se_rád_zeptal_jak_se_máš_jakpak_se_má_tvůj_kocour _už_jsem_ho_dlouho_neviděl poslaná zpráva: ahoj_tondo_píšu_ti 1 bych 1 8 5 5 1 29 jakpak_se 7 110 kocour_už_jsem 12 359 13 výstup: ahoj_tondo_píšu_ti_protože_bych_se_rád_zeptal_jak_se_máš_jakpak_se_má_tvůj_kocour _už_jsem_ho_dlouho_neviděl Závěr Podařilo se nám ověřit předpoklad, že syntaxe českého jazyka vykazuje vnitřní strukturu, která redukuje jeho entropii. Rychlost entropie češtiny za předpokladu, že je modelována N-Markovským řetězcem slov, kde N je přiměřeně malé (jednotky) je menší než 2.07 bits/znak. Tato poměrně malá míra entropie implikuje větší předurčenost textu a tím jeho snadnější predikovatelnost. Se znalostí pravděpodobnostího rozdělení písmen a slov českého jazyka jsme byli schopni zkonstruovat komunikační kanál popsaný v [1]. Vzhledem k zajímavým výsledkům této práce věříme, že si problematika entropie textů zaslouží další zkoumání. Reference [1] SHANNON, C. E. Prediction and Entropy of Printed English. 1950. [2] THOMAS M. COVER, JOY A. THOMAS, Elements of Information Theory. 2nd editon, 2006 [3] ZIPF, G. K., Human Behavior and the Principle of Least Effort, Addison-Wesley Press, 1949 8