Experimentální stanovení entropie českého textu

Rozměr: px
Začít zobrazení ze stránky:

Download "Experimentální stanovení entropie českého textu"

Transkript

1 Experimentální stanovení entropie českého textu Antonín Novák Tomáš Báča 4. dubna 2012 Abstrakt Práce se zabývá analýzou českého textu. Zkoumali jsme syntaktickou strukturu psaného jazyka pomocí nástrojů teorie informace, zejména entropie. Zjistili jsme, že český jazyk vykazuje velkou redundanci a tím silnou míru vnitřní struktury. Výsledkem práce je stanovení entropie češtiny a konstrukce prediktoru českého textu včetně implementace komunikačního kompresního kanálu založeného na znalosti pravděpodobnostního modelu českých znaků a slov. Motivace V roce 1950 C. E. Shannon [1] publikoval článek pojednávající o možnostech predikce anglického textu. Jeho experimenty byly založeny na myšlence, že anglický jazyk vykazuje velmi silná vnitřní pravidla syntaxe a při znalosti těchto pravidel není úplně náhodné, jaké písmeno či slovo bude následovat po tom, které už známe. Ukazuje se například, že pravděpodobnosti písmen následujících v souvislém anglickém textu po písmenu T nemají rovnoměrné rozdělení. Je to způsobeno např. tím, že v angličtině je nejčastějším slovem člen the tudíž je poměrně pravděpodobné, že po T bude následovat právě H a ne například Q. Tyto a jiné podněty dovedly Shannona k tomu zkoumat míru této vnitřní struktury syntaxe s využitím nástrojů teorie informace. Intuitivně lze očekávat, že méně entropický (později definujeme přesněji) text bude snadnější predikovat, jelikož je méně náhodný tudíž je svázán jistým množstvím pravidel, které jeho syntaktickou strukturu do jisté míry předurčují. Všechny používané logaritmy v této práci jsou dvojkového základu (pokud není uvedeno jinak). Definice Neformálně řečeno, rozumný způsob, jak definovat entropii textu, je nahlížet na konkrétní jazyk jako na informační zdroj ((X n ) n N ) nad abecedou χ, pro který existuje pojem rychlosti entropie (entropie na znak). Tento způsob definice se ukazuje být opodstatněný a přináší své výsledky [1]. Dle [2, s. 173] existuje několik způsobů, jak tuto rychlost entropie najít. Jedním z nich je například metoda stanovení horní a dolní hranice rychlost entropie pomocí sázek na následující písmena obdobně jako při sázkách na koně a výsledky interpretovat pomocí narůstajícího bohatství z případných výher. Tato partie teorie informace nazývána gambling je rozebrána v [2]. My jsme v naší práci postupovali podobně jako C. E. Shannon - výpočtem z definice. Pro to si nejprve musíme přesně zavést několik pojmů. Budeme tedy určovat entropii českého textu - jednou nad abecedou bez mezery a za využití pravděpodobností koncových a počátečních písmen a druhou pro abecedou obsahující mezeru. 1

2 Náhodné veličiny Písmeno Náhodná veličina X reprezentuje písmeno textu. Je to diskrétní náhodná veličina s rozdělením p X nad abecedou χ = {A,...,Ž, }. Písmeno CH, ačkoliv se jedná o dva znaky, uvažujeme jako jeden. Mezera je v abecedě χ přítomna při druhé variantě experimentu odhadování entropie. N-gram Náhodný vektor G N reprezentuje N-gram českého textu (N náhodných veličin X). Je definován pomocí p N, kde p N je pravděpodobnostní rozdělení N-gramu nad množinou všech N- gramů (uspořádaných n-tic písmen) χ N. Například množina 2-gramů (digramů) je χ 2 ={AA,...,ŽŽ} ve variantě abecedy bez mezer. Čeština je náhodný proces ((X n ) n N ) nad abecedou χ, který považujeme za stacio- Čeština nární. Střední podmíněná entropie písmena Střední podmíněná entropie písmena X podmíněná (N-1)-gramem je: H N = H(X G N 1 ) = = p N 1 (y)h(x G N 1 = y) = y χ N 1 = p N (yx)log p N(yx) p N 1 (y) a vyjadřuje průměrné množství informace, kterou se dozvíme při pozorování X při předcházející znalosti předchozích N-1 písmen. Mezní rychlost entropie Mezní rychlost entropie náhodného procesu ((X n ) n N ) je definována jako limita posloupnosti středních podmíněných entropií a tedy platí: Výpočet H((X n ) n N ) = lim N H N (2) Jak jsme již zmínili výše, experiment jsme provedli pro dvě různé abecedy χ - s mezerou a bez mezery. CH bylo považováno za jedno písmeno. Všechna data vycházejí z 700 MB českého textu s diakritikou pocházejícího z české a světové literatury, který byl vhodně zpracován počítačem. (1) Odhady pravděpodobnostních rozdělení X a G N Rozdělení p X Pravděpodobností rozdělení p X odhadneme pomocí relativní četnosti písmen nad zkoumanými daty. Pro ilustraci uvádíme v tabulce 1 prvních osm nejčetnějších písmen. Rozdělení digramu G 2 Podobným způsobem odhadneme pravděpodobnostního rozdělení veličiny G 2. Výsledkem je rozdělení p 2. Na obrázku 1 vidíme, že pravděpodobností rozdělení p 2 není rovnoměrné - z toho je zřejmé, že syntaxe češtiny vykazuje vnitřní strukturu a slova jazyka se negenerují ze všech n-tic písmen rovnoměrně. Důkaz nerovnoměrnosti tohoto rozdělení není pro nás klíčový, proto jej ponecháváme bez důkazu jen pro ilustraci. Abeceda má uspořádání: A-Z, Á-Ž, CH. 2

3 písmeno pst. e o a n l t s i Tabulka 1: Nejčetnější písmena češtiny Obrázek 1: Pravděpodobnostní rozdělení digramů Rozdělení trigramu G 3 Odhad pravděpodobností trigramů p 3 pro případ abecedy χ obsahující mezeru je analogický s odhadem p 2. Pokud mezeru nepovažujeme za znak abecedy, postup stanovení rozdělení se mírně změní. Musíme vzít v úvahu i trigramy, které spojují dvě po sobě jdoucí slova. Například v sousloví hnijící koudel bychom rádi započítali výskyt trigramů cík a íko. Formule popsaná v [1], pomocí které upravíme odhadnuté pravděpodobnosti, vypadá následovně: p 3 (y 1 y 2 y 3 ) = ˆp 3(y 1 y 2 y 3 ) p T (y 1 )p 2 (y 2 y 3 ) p 2(y 1 y 2 )p S (y 3 ) (3) kde p S (y 1 ) je pst. že písmeno y 1 je začínajícím znakem slova, p T (y 3 ) je pst, že y 3 je koncovým znakem slova. Hodnota 5.83 je průměrná délka českého slova délky větší než 3 a vážena výskytem slova v textu je průměrný počet trigramů uvnitř českého slova. ˆp 3 je odhad na základě četnosti trojic písmen uvnitř slova. Tuto úpravu Shannon použil v [1] za předpokladu nezávislosti počátečního písmena jednoho slova a konečného písmena. Výpočtem s takto upraveným pravděpodobnostním rozdělením jsme dostali hodnotu H 3 větší než H 2, což indikuje chybu odhadu rozdělení. Proto soudíme, že tato metoda není pro češtinu 3

4 možná a dále pokračujeme s původními pravděpodobnostmi p relativni cetnost poradi cetnosti Obrázek 2: Sestupně seřazené pravděpodobnosti trigramů v log-log měřítku Četnosti slov 4-gramy a více již nebudeme konstruovat z podobných důvodů jako uvádí Shannon [1] - věrohodnost však takových dat je již daleko nižší než v případě trigramů. Lepším způsobem pro další aproximaci limity posloupnosti H N je použít četnosti slov. V [3] Zipf postuloval, že rovnice (4) platí pro mnoho různých jazyků. p n je relativní četnost n-tého nejčastějšího slova. My jsme pro češtinu určili tvar této rovnice (5). p n = k n (4) p n = { 0.03/n 0.6 n /n n > 10 Na obrázku 3 vidíme v log-log měřítku četnosti nejčastějších českých slov. Modře jsou vyznačena naše data, červeně aproximace k = 0.1 pro angličtinu dle Shannona [1]. Zeleně je naše aproximace (5) pro češtinu. Rychlost entropie Pro stacionární náhodné procesy (a češtinu za něj považujeme) platí věta, že rychlost entropie se rovná mezní rychlosti entropie: 1 H((X n ) n N ) = lim n n H(X 1,..., X n ) = H((X n ) n N ) Pro výpočet mezní rychlosti entropie použijeme vztah (2). Začneme postupně rozepisovat jednotlivé členy posloupnosti. Při prvním přiblížení uvažujeme jen počet písmen v abecedě (bez mezery): H 0 = log χ = 5.39 bits/znak (6) (5) 4

5 10 2 a data aproximace 2. radu aproximace 1. radu 10 3 kde pst. slova v textu dobre zarizení 10 6 nevydrzel 10 7 vtipnou poradi cetnosti slova Obrázek 3: Sestupně seřazené pravděpodobnosti slov v log-log měřítku Ve druhém uvažujeme jejich samotné četnosti: H 1 = x χ p X (x)log(p X (x)) = bits/znak (7) Pro výpočet dalších středních podmíněných entropií si výraz (1) přepíšeme do vhodnější formy: H N = H(X G N 1 ) = Čili bude platit: = = = = p N (yx)log p N(yx) p N 1 (y) p N (yx)[log(p N (yx)) log(p N 1 (y))] p N (yx)log(p N (yx)) p N (yx)log(p N 1 (y)) p N (yx)log(p N (yx)) + p N (yx)log(p N (yx)) + log(p N 1 (y)) p N (yx) } {{ } =p N 1 (y) y χ N 1 log(p N 1 (y))p N 1 (y) (8) 5

6 H 2 = H(X G 1 ) = p 2 (yx)log(p 2 (yx)) + log(p 1 (y))p 1 (y) y χ 1 y χ 1 x χ } {{ } = H 1 = = bits/znak a velmi podobně také pro trigramy: H 3 = H(X G 2 ) = p 3 (yx)log(p 3 (yx)) + log(p 2 (y))p 2 (y) (10) y χ 2 y χ 2 x χ = = bits/znak Při odhadu pravděpodobnostních rozdělení jsme diskutovali, že dále budeme postupovat podle aproximace pomocí četnosti slov rovnicí (5). Aby p n byla pravděpodobnost, musí pro ní platit: (9) p n = 1 (11) n=1 Je zřejmé že suma z rovnice (11) diverguje a tudíž součet nemůže být až do nekonečna. Hodnota n, pro kterou se p n = 1 je Bez jakéhokoliv nároku na lepší odhad entropie slova ji stanovujeme jako: H w = p n log(p n ) = bits/slovo = 2.07 bits/znak (12) n=1 Otázkou zůstává, s jakou hodnotou H N toto číslo ztotožnit. Ačkoliv je průměrná délka českého slova 5.83 znaků, tak entropie slova na znak je nižší než hodnota H Důvodem, který zmiňuje i Shannon v [1], je, že slovo jazyka vykazuje silnější vnitřní strukturu než uspořádaná 6tice písmen, což vyústí v menší entropii bloku písmen poskládaného do slova, jakožto jazykové jednotky se silnou strukturou. Lze soudit, že entropie slova přísluší hodnotě přibližně H 7 či H 8. abeceda H 0 H 1 H 2 H 3 H w 42 p p Tabulka 2: Posloupnost podmíněných entropií Vidíme, že jsou v podstatě zanedbatelné rozdíly mezi abecedou obsahující mezeru a abecedou bez mezery. Pokud češtinu modelujeme 2-Markovským modelem písmen, pak je její entropie rovna přibližně 3.17 bitů na písmeno. Pokud přistoupíme k modelování pomocí N-Markovského řetězce slov (kde N není příliš velké), pak lze očekávat, že entropie bude menší než námi zjištěná hodnota 2.07 bitů na písmeno. Ze znalosti českého jazyka je zřejmé, že věrnějším odhadem bude N-Markovský řetězec slov, kde N není příliš velké. Proto definujeme-li redundanci českého jazyka procentuální poměr entropie na znak mezi nezávislým náhodným zdrojem a N-Markovským řetězcem slov, pak redundance bude přibližně 40%. Výsledky Entropie českého textu Zjistili jsme, že rozdíly v rychlosti entropie procesu nad abecedou obsahující mezeru a and abecedou bez mezery jsou zanedbatelné. Pokud češtinu modelujeme jako N-Markovkský řetězec 6

7 slov, kde N není příliš velké (jednotky), pak je rychlost entropie takového zdroje přibližně: Tabulky četnosti slov a písmen češtiny H(((X n ) n N )) = 2.07 bits/znak (13) Pro výpočet entropie bylo třeba zkonstruovat tabulky četností písmen, digramů, trigramů a četnosti slov. Tyto tabulky jsou součástí práce a uvolňujeme je pod licencí Creative Commons Attribution-NonComercial-ShareAlike 3.0 Unported. Prediktor textu 2-Markovský řetězec znaků Tento popis modeluje češtinu tak, že pravděpodobnost výskytu písmena je podmíněna dvěma předcházejícími. Tento popis přirozeně neposkytuje kvalitní predikci celých slov, avšak slouží dobře na predikci předložek, spojek či obecně kratších stavebních prvků češtiny. Následuje ukázka textu, který takový prediktor dokáže vygenerovat: jed_doostval_st_ja_př_sesi_e_dvalka řejake_sen měo_so_spro a_pjede_v_mustoabyto_a_pe_mne_přie_z_prby_ku_a_d_pako mijí_ ohou_pby_i_skte_žeale_stle_ný_kola_dbyl_veprol_nter_v_e_m_mu 2-Markovský řetězec slov Podobně jako se znaky můžeme zacházet i se slovy. Za pomocí předchozí analýzy jsme byli schopni zkonstruovat prediktor, který maximalizuje pravděpodobnost podmíněnou dvěma předchozími slovy. Jeho výstup pro představu je možné vidět zde: jednoho_dne_se_vrátí_do_své_kanceláře_a_zavřel_oči_a_pak_se_ otočil_a_zamířil_k_němu_a_řekl_jsem_a_on_se_na_něj_a_jeho_hlas _zněl_trochu_drsně_díky_žaludečním_šťávám_a_projít_se_po_něm Komunikační predikční kanál Ve své práci [1] Shannon popsal model komunikačního kanálu založeného na umístění identických prediktorů na vstupu a výstupu. Tento kanál přenáší prázdné kódové slovo, pokud prediktor správně na první pokus určí slovo na vstupu. Toto rozhodování provádí na základě znalosti předchozích znaků zprávy. Pokud se nepodaří správně určit znak napoprvé, tak se pokračuje sestupně přes všechny pravděpodobnosti a odešle se číslo iterace, kdy nastala shoda. Za předpokladu identičnosti prediktorů je pak možno odeslanou zprávu bezchybně rekonstruovat. Prázdné kódové slovo, jenž indikuje správnou predikci, je příhodné kódovat nejkratším možným kódovým slovem (např. nulovým bitem). Ostatní přenášená kódová můžeme kódovat běžným způsobem (např. Huffmanovým kódem). original text reduced text original text comparison comparison predictor predictor Obrázek 4: Shannonův model komunikačního kanálu dle [1] Čím bude lepší predikce, tím méně bitů je třeba přenášet. V extrémních případech lze předpokládat, že z jednoho počátečního písmena budu schopen na druhém konci rekonstruovat celou 7

8 zprávu. Naše implementace využívá 2-Markovského řetězce slov vytvořeného z cca. 200 MB českého textu. Při větší velikosti dat jsme se již potýkali s výkonovými problémy. Lze předpokládat, že lepší implementací by bylo možné dosáhnout lepších výsledků. Naše implementace pracuje jen s celými slovy. Proto když predikce není vůbec možná (z nedostatku dat), tak se odešle celé slovo najednou. Jednou námi navrhovaných změn je začlenění 2-Markovského řetězce znaků do predikce. Pro ilustraci uvádíme zprávu včetně jejího přenosu naší implementací kanálu: vstup: ahoj_tondo_píšu_ti_protože_bych_se_rád_zeptal_jak_se_máš_jakpak_se_má_tvůj_kocour _už_jsem_ho_dlouho_neviděl poslaná zpráva: ahoj_tondo_píšu_ti 1 bych jakpak_se kocour_už_jsem výstup: ahoj_tondo_píšu_ti_protože_bych_se_rád_zeptal_jak_se_máš_jakpak_se_má_tvůj_kocour _už_jsem_ho_dlouho_neviděl Závěr Podařilo se nám ověřit předpoklad, že syntaxe českého jazyka vykazuje vnitřní strukturu, která redukuje jeho entropii. Rychlost entropie češtiny za předpokladu, že je modelována N-Markovským řetězcem slov, kde N je přiměřeně malé (jednotky) je menší než 2.07 bits/znak. Tato poměrně malá míra entropie implikuje větší předurčenost textu a tím jeho snadnější predikovatelnost. Se znalostí pravděpodobnostího rozdělení písmen a slov českého jazyka jsme byli schopni zkonstruovat komunikační kanál popsaný v [1]. Vzhledem k zajímavým výsledkům této práce věříme, že si problematika entropie textů zaslouží další zkoumání. Reference [1] SHANNON, C. E. Prediction and Entropy of Printed English [2] THOMAS M. COVER, JOY A. THOMAS, Elements of Information Theory. 2nd editon, 2006 [3] ZIPF, G. K., Human Behavior and the Principle of Least Effort, Addison-Wesley Press,

Vysoká škola ekonomická v Praze. Fakulta financí a účetnictví

Vysoká škola ekonomická v Praze. Fakulta financí a účetnictví Vysoká škola ekonomická v Praze Fakulta financí a účetnictví Katedra bankovnictví a pojišťovnictví Diplomová práce Srovnání logistické regrese a rozhodovacích stromů při tvorbě skóringových modelů Ladislav

Více

KOMPRESE DAT ARNOŠT VEČERKA KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO

KOMPRESE DAT ARNOŠT VEČERKA KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO KOMPRESE DAT ARNOŠT VEČERKA VÝVOJ TOHOTO UČEBNÍHO TEXTU JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY

Více

Mřížkové kódování. Ivan Pravda

Mřížkové kódování. Ivan Pravda Mřížkové kódování Ivan Pravda Autor: Ivan Pravda Název díla: Mřížkové kódování Zpracoval(a): České vysoké učení technické v Praze Fakulta elektrotechnická Kontaktní adresa: Technická 2, Praha 6 Inovace

Více

KÓDOVÁNÍ A KOMPRESE DAT

KÓDOVÁNÍ A KOMPRESE DAT KÓDOVÁNÍ A KOMPRESE DAT URČENO PRO VZDĚLÁVÁNÍ V AKREDITOVANÝCH STUDIJNÍCH PROGRAMECH RADIM FARANA ČÍSLO OPERAČNÍHO PROGRAMU: CZ..7 NÁZEV OPERAČNÍHO PROGRAMU: VZDĚLÁVÁNÍ PRO KONKURENCESCHOPNOST OPATŘENÍ:

Více

PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Bezpečné kryptografické algoritmy. 2012 Zdeněk Müller

PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Bezpečné kryptografické algoritmy. 2012 Zdeněk Müller PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE Bezpečné kryptografické algoritmy 2012 Zdeněk Müller Anotace Diplomová práce hodnotí kryptografické metody a postupy z hlediska

Více

ˇ CESK E VYSOK E U ˇ CEN I TECHNICK E Fakulta jadern a a fyzik alnˇe inˇzen yrsk a DIPLOMOV A PR ACE 2006 Jan Vachulka

ˇ CESK E VYSOK E U ˇ CEN I TECHNICK E Fakulta jadern a a fyzik alnˇe inˇzen yrsk a DIPLOMOV A PR ACE 2006 Jan Vachulka ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ Fakulta jaderná a fyzikálně inženýrská DIPLOMOVÁ PRÁCE 2006 Jan Vachulka ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ Fakulta jaderná a fyzikálně inženýrská Katedra Matematiky Monitorování

Více

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV POČÍTAČOVÉ GRAFIKY A MULTIMÉDIÍ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND

Více

Biostatistika a matematické metody epidemiologie - stručné studijní texty

Biostatistika a matematické metody epidemiologie - stručné studijní texty Biostatistika a matematické metody epidemiologie - stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.

Více

Rozpoznávač hlasu na procesoru Cell. Pavel Bazika

Rozpoznávač hlasu na procesoru Cell. Pavel Bazika České vysoké učení technické v Praze Fakulta elektrotechnická ČVUT FEL katedra počítačů Diplomová práce Rozpoznávač hlasu na procesoru Cell Pavel Bazika Vedoucí práce: Ing. Miroslav Skrbek, Ph.D. Studijní

Více

INFORMAČNÍ SYSTÉMY JIŘÍ HRONEK KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO

INFORMAČNÍ SYSTÉMY JIŘÍ HRONEK KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO INFORMAČNÍ SYSTÉMY JIŘÍ HRONEK VÝVOJ TOHOTO UČEBNÍHO TEXTU JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY

Více

Základy biostatistiky s využitím Excelu

Základy biostatistiky s využitím Excelu Základy biostatistiky s využitím Excelu Karel Hrach Tento projekt je součástí IPRM Ústí n. L. Centrum. Tato publikace vznikla v rámci projektu Posilování kompetencí vysokoškolských pracovníků pro rozvoj

Více

Kódování cyklické kódy Coding cyclic code. Jakub Kettner

Kódování cyklické kódy Coding cyclic code. Jakub Kettner Kódování cyklické kódy Coding cyclic code Jakub Kettner Bakalářská práce 8 UTB ve Zlíně, Fakulta aplikované informatiky, 8 UTB ve Zlíně, Fakulta aplikované informatiky, 8 UTB ve Zlíně, Fakulta aplikované

Více

Numerické metody. Autoři textu: RNDr. Rudolf Hlavička, CSc.

Numerické metody. Autoři textu: RNDr. Rudolf Hlavička, CSc. FAKULTA STROJNÍHO INŽENÝRSTVÍ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Numerické metody Garant předmětu: doc. RNDr. Libor Čermák, CSc. Autoři textu: Mgr. Irena Růžičková RNDr. Rudolf Hlavička, CSc. Ústav matematiky

Více

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT. Jana Borůvková, Petra Horáčková, Miroslav Hanáček

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT. Jana Borůvková, Petra Horáčková, Miroslav Hanáček VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT Jana Borůvková, Petra Horáčková, Miroslav Hanáček 2013 Jana Borůvková, Petra Horáčková, Miroslav Hanáček STATISTICA

Více

Vysoká škola ekonomická v Praze

Vysoká škola ekonomická v Praze Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií Studijní program: Aplikovaná informatika Obor: Informační systémy a technologie Diplomant: Vedoucí diplomové

Více

Matematický ústav Slezské univerzity v Opavě NUMERICKÉ METODY. RNDr. Karel Hasík, Ph.D.

Matematický ústav Slezské univerzity v Opavě NUMERICKÉ METODY. RNDr. Karel Hasík, Ph.D. Matematický ústav Slezské univerzity v Opavě NUMERICKÉ METODY RNDr. Karel Hasík, Ph.D. Obsah 2 ÚVOD DO NUMERICKÉ MATEMATIKY 7 2.1 Rozdělení chyb........................... 7 2.2 Zaokrouhlovací chyby.......................

Více

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky STATISTIKA V SPSS Jana Borůvková, Petra Horáčková, Miroslav Hanáček 2014 Jana Borůvková, Petra Horáčková, Miroslav Hanáček STATISTIKA V SPSS 1. vydání

Více

Komprese XML souborů Compression of XML Files

Komprese XML souborů Compression of XML Files VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Komprese XML souborů Compression of XML Files 2010 Pavel Hruška Souhlasím se zveřejněním této diplomové práce

Více

Diplomová práce. Rekonstrukce povrchů geometrických objektů z roztroušených bodů

Diplomová práce. Rekonstrukce povrchů geometrických objektů z roztroušených bodů Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky Diplomová práce Rekonstrukce povrchů geometrických objektů z roztroušených bodů Plzeň, 2002 Surface reconstruction

Více

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Bc. Jana Divišová. Katedra algebry

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Bc. Jana Divišová. Katedra algebry Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Bc. Jana Divišová Kryptografie založená na mřížkách Katedra algebry Vedoucí diplomové práce: RNDr. David Stanovský, Ph.D. Studijní

Více

Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE. Michal Rychnovský Postupná výstavba modelů ohodnocení kreditního rizika

Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE. Michal Rychnovský Postupná výstavba modelů ohodnocení kreditního rizika Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Michal Rychnovský Postupná výstavba modelů ohodnocení kreditního rizika Katedra pravděpodobnosti a matematické statistiky Vedoucí

Více

KVANTITATIVNÍ METODY V PEDAGOGICKÉM VÝZKUMU

KVANTITATIVNÍ METODY V PEDAGOGICKÉM VÝZKUMU KVANTITATIVNÍ METODY V PEDAGOGICKÉM VÝZKUMU RADEK KRPEC CZ.1.07/2.2.00/29.0006 OSTRAVA, ČERVEN 2013 Studijní opora je jedním z výstupu projektu ESF OP VK. Číslo Prioritní osy: 7.2 Oblast podpory: 7.2.2

Více

UNIVERZITA PARDUBICE. Fakulta elektrotechniky a informatiky. Rozpoznání slov diskrétního diktátu Bc. Miloslav Kočí

UNIVERZITA PARDUBICE. Fakulta elektrotechniky a informatiky. Rozpoznání slov diskrétního diktátu Bc. Miloslav Kočí UNIVERZITA PARDUBICE Fakulta elektrotechniky a informatiky Rozpoznání slov diskrétního diktátu Bc. Miloslav Kočí Diplomová práce 2010 Prohlášení autora Prohlašuji, že jsem tuto práci vypracoval samostatně.

Více

Průzkumová analýza jednorozměrných dat (Teorie)

Průzkumová analýza jednorozměrných dat (Teorie) Míra nezaměstnanosti *%+ 211 Průzkumová analýza jednorozměrných dat (Teorie) Míra nezaměstnanosti *%+ (okres Opava, červen 21) Rozsah 77 Průměr 11,5 Minimum 5,5 Dolní kvartil 8,4 5 1 15 2 Medián 9,9 Horní

Více

ZÁKLADY TEORETICKÉ INFORMATIKY

ZÁKLADY TEORETICKÉ INFORMATIKY KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO ZÁKLADY TEORETICKÉ INFORMATIKY PAVEL MARTINEK VÝVOJ TOHOTO UČEBNÍHO TEXTU JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM

Více

Základy pravděpodobnosti poznámky. Jana Klicnarová

Základy pravděpodobnosti poznámky. Jana Klicnarová Základy pravděpodobnosti poznámky Jana Klicnarová 1 V této části připomeneme základní pojmy a vztahy pro práci s náhodou. 0.1 Náhodné jevy Uvažujme situace, které mohou a nemusí nastat a o kterých v nějakém

Více

Univerzita Hradec Králové Fakulta informatiky a managementu. Diplomová práce. 2014 Bc. Pavel KINC, DiS. Univerzita Hradec Králové

Univerzita Hradec Králové Fakulta informatiky a managementu. Diplomová práce. 2014 Bc. Pavel KINC, DiS. Univerzita Hradec Králové Univerzita Hradec Králové Fakulta informatiky a managementu Diplomová práce 214 Bc. Pavel KINC, DiS. Univerzita Hradec Králové Fakulta informatiky a managementu Katedra informatiky a kvantitativních metod

Více

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Jakub Vrána Obnovení diakritiky v českém textu Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: RNDr. Jan Hajič,

Více

Zpracování jazyka Toki Pona Tomáš Brukner Ročníková práce 2008/2009

Zpracování jazyka Toki Pona Tomáš Brukner Ročníková práce 2008/2009 Zpracování jazyka Toki Pona Tomáš Brukner Ročníková práce 2008/2009 Abstrakt Tato ročníková práce se zabývá oborem informatiky známým jako zpracování přirozeného jazyka na příkladu zpracování jednoduchého

Více

ZABEZPEČOVÁNÍ SPOLEHLIVOSTI

ZABEZPEČOVÁNÍ SPOLEHLIVOSTI ČESKÁ SPOLEČNOST PRO JAKOST Novotného lávka 5, 116 68 Praha 1 ZABEZPEČOVÁNÍ SPOLEHLIVOSTI materiály k setkání odborné skupiny pro spolehlivost 1. září 001 Praha 1, Novotného lávka 5 OBSAH METODY ANALÝZ

Více