PV030 Textual Information Systems

Rozměr: px
Začít zobrazení ze stránky:

Download "PV030 Textual Information Systems"

Transkript

1 Faculty of Informatics Masaryk University, Brno Spring 2010

2 Part I Kódování

3

4 Osnova(Týden jedenáctý) Kódování. Entropie, redundance. Universální kódování celých čísel. Huffmanovo kódování. Adaptivní Huffmanovo kódování.

5 Kódování základní pojmy Definition: Abeceda A je konečná neprázdná množina symbolů. Definition: Slovo(ˇretˇezec, zpráva) nad A je posloupnost symbolů z A. Definition: Prázdný ˇretˇezec ε je prázdná posloupnost symbolů. Množinuvšech neprázdnýchslov nad AznačímeA +. Definition:Kód Kje trojice (S,C,f), kdesje konečnámnožina zdrojových jednotek, C je konečná množina kódových jednotek, f : S C + je injektivnízobrazení. f lze rozšířitnas + C + : F(S 1 S 2...S k ) = f(s 1 )f(s 2 )...f(s k ). C + se někdynazývá kód.

6 Kódování základní pojmy Definition: Abeceda A je konečná neprázdná množina symbolů. Definition: Slovo(ˇretˇezec, zpráva) nad A je posloupnost symbolů z A. Definition: Prázdný ˇretˇezec ε je prázdná posloupnost symbolů. Množinuvšech neprázdnýchslov nad AznačímeA +. Definition:Kód Kje trojice (S,C,f), kdesje konečnámnožina zdrojových jednotek, C je konečná množina kódových jednotek, f : S C + je injektivnízobrazení. f lze rozšířitnas + C + : F(S 1 S 2...S k ) = f(s 1 )f(s 2 )...f(s k ). C + se někdynazývá kód.

7 Kódování základní pojmy Definition: Abeceda A je konečná neprázdná množina symbolů. Definition: Slovo(ˇretˇezec, zpráva) nad A je posloupnost symbolů z A. Definition: Prázdný ˇretˇezec ε je prázdná posloupnost symbolů. Množinuvšech neprázdnýchslov nad AznačímeA +. Definition:Kód Kje trojice (S,C,f), kdesje konečnámnožina zdrojových jednotek, C je konečná množina kódových jednotek, f : S C + je injektivnízobrazení. f lze rozšířitnas + C + : F(S 1 S 2...S k ) = f(s 1 )f(s 2 )...f(s k ). C + se někdynazývá kód.

8 Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

9 Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

10 Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

11 Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

12 Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

13 Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

14 Základní vlastnosti kódů Definition: Blokový kód délky n je takový kód, při kterém všechna kódová slova mají délku n. Example: blokový? prefixový blokový prefixový, ale ne naopak. Definition:Kód K = (S,C,f) nazvemebinární,jestliže C = 2.

15 Základní vlastnosti kódů Definition: Blokový kód délky n je takový kód, při kterém všechna kódová slova mají délku n. Example: blokový? prefixový blokový prefixový, ale ne naopak. Definition:Kód K = (S,C,f) nazvemebinární,jestliže C = 2.

16 Základní vlastnosti kódů Definition: Blokový kód délky n je takový kód, při kterém všechna kódová slova mají délku n. Example: blokový? prefixový blokový prefixový, ale ne naopak. Definition:Kód K = (S,C,f) nazvemebinární,jestliže C = 2.

17 Komprese a dekomprese Definition: Komprese (kódování), dekomprese (dekódování): Komprese (kódování) původní komprimovaná data data Dekomprese (dekódování) Definition: Kompresní pomˇer je poměr délky komprimovaných dat a délky původních dat. Example: Navrhněte binární prefixový kód pro desítkové číslice, jestliže se často vyskytují čísla 3 a 4,azřídka5a6.

18 Komprese a dekomprese Definition: Komprese (kódování), dekomprese (dekódování): Komprese (kódování) původní komprimovaná data data Dekomprese (dekódování) Definition: Kompresní pomˇer je poměr délky komprimovaných dat a délky původních dat. Example: Navrhněte binární prefixový kód pro desítkové číslice, jestliže se často vyskytují čísla 3 a 4,azřídka5a6.

19 Komprese a dekomprese Definition: Komprese (kódování), dekomprese (dekódování): Komprese (kódování) původní komprimovaná data data Dekomprese (dekódování) Definition: Kompresní pomˇer je poměr délky komprimovaných dat a délky původních dat. Example: Navrhněte binární prefixový kód pro desítkové číslice, jestliže se často vyskytují čísla 3 a 4,azřídka5a6.

20 Entropie a redundance I Necht Y je náhodná proměnná s pravděpodobnostním rozdělením p(y) = P(Y = y). Pak matematické očekávání(střední hodnota) E(Y) = y Yyp(y). Necht S = {x 1,x 2,...,x n }množinazdrojových jednotekanecht pravděpodobnostvýskytu jednotkyx i vinformačním zdrojisje p i pro i = 1,...,n,n N. Definition:Entropieinformaˇcního obsahu jednotkyx i (míra množstvíinformace resp. neurčitosti)je H(x i ) = H i = log 2 p i bitů. Zdrojová jednotka s větší pravděpodobností nese méně informace.

21 Entropie a redundance II Definition: Entropie informaˇcního zdroje S je H(S) = ( log 1 ). p(y) bitů. Platí,žeH(S) = p(y)log 1 p(y) = E y Y Definition:Entropiezdrojové zprávy X = x i1 x i2...x ik S + informaˇcního zdrojesje H(X,S) = H(X) = bitů. Definition: Délka l(x) zakódované zprávy X k k l(x) = f(x ij ) = d ij bitů. j=1 j=1 Theorem:l(X) H(X,S). k H i = j=1 n p i log 2 p i i=1 k log 2 p ij j=1

22 Entropie a redundance II Definition: Entropie informaˇcního zdroje S je H(S) = ( log 1 ). p(y) bitů. Platí,žeH(S) = p(y)log 1 p(y) = E y Y Definition:Entropiezdrojové zprávy X = x i1 x i2...x ik S + informaˇcního zdrojesje H(X,S) = H(X) = bitů. Definition: Délka l(x) zakódované zprávy X k k l(x) = f(x ij ) = d ij bitů. j=1 j=1 Theorem:l(X) H(X,S). k H i = j=1 n p i log 2 p i i=1 k log 2 p ij j=1

23 Entropie a redundance II Definition: Entropie informaˇcního zdroje S je H(S) = ( log 1 ). p(y) bitů. Platí,žeH(S) = p(y)log 1 p(y) = E y Y Definition:Entropiezdrojové zprávy X = x i1 x i2...x ik S + informaˇcního zdrojesje H(X,S) = H(X) = bitů. Definition: Délka l(x) zakódované zprávy X k k l(x) = f(x ij ) = d ij bitů. j=1 j=1 Theorem:l(X) H(X,S). k H i = j=1 n p i log 2 p i i=1 k log 2 p ij j=1

24 Entropie a redundance III Axiomatické zavedení entropie see [MAR], detaily odvození viz ftp:// k Definition:R(X) = l(x) H(X) = (d ij +log 2 p ij ) je redundance j=1 kódu Kpro zprávu X. Definition: Průmˇerná délka kódového slova kódu K je n AL(K) = p i d i bitů. i=1 Definition: Průmˇerná entropie zdroje S je n n AE(S) = p i H i = p i log 2 p i bitů. i=1 i=1 Definition: Průmˇerná redundance kódu K je n AR(K) = AL(K) AE(S) = p i (d i +log 2 p i ) bitů. i=1

25 Entropie a redundance III Axiomatické zavedení entropie see [MAR], detaily odvození viz ftp:// k Definition:R(X) = l(x) H(X) = (d ij +log 2 p ij ) je redundance j=1 kódu Kpro zprávu X. Definition: Průmˇerná délka kódového slova kódu K je n AL(K) = p i d i bitů. i=1 Definition: Průmˇerná entropie zdroje S je n n AE(S) = p i H i = p i log 2 p i bitů. i=1 i=1 Definition: Průmˇerná redundance kódu K je n AR(K) = AL(K) AE(S) = p i (d i +log 2 p i ) bitů. i=1

26 Entropie a redundance III Axiomatické zavedení entropie see [MAR], detaily odvození viz ftp:// k Definition:R(X) = l(x) H(X) = (d ij +log 2 p ij ) je redundance j=1 kódu Kpro zprávu X. Definition: Průmˇerná délka kódového slova kódu K je n AL(K) = p i d i bitů. i=1 Definition: Průmˇerná entropie zdroje S je n n AE(S) = p i H i = p i log 2 p i bitů. i=1 i=1 Definition: Průmˇerná redundance kódu K je n AR(K) = AL(K) AE(S) = p i (d i +log 2 p i ) bitů. i=1

27 Entropie a redundance III Axiomatické zavedení entropie see [MAR], detaily odvození viz ftp:// k Definition:R(X) = l(x) H(X) = (d ij +log 2 p ij ) je redundance j=1 kódu Kpro zprávu X. Definition: Průmˇerná délka kódového slova kódu K je n AL(K) = p i d i bitů. i=1 Definition: Průmˇerná entropie zdroje S je n n AE(S) = p i H i = p i log 2 p i bitů. i=1 i=1 Definition: Průmˇerná redundance kódu K je n AR(K) = AL(K) AE(S) = p i (d i +log 2 p i ) bitů. i=1

28 Entropie a redundance IV Definition: Kód je optimální, když má minimální redundanci. Definition: Kód je asymptoticky optimální, pokud pro dané rozložení pravděpodobností se poměr AL(K)/AE(S) blíží k 1, když se entropie blíží. Definition:Kód Kje universální,jestliže existují c 1,c 2 Rtak,že průměrnádélka kódovéhoslova AL(K) c 1 AE+c 2. Theorem:Universálníkódje asymptoticky optimální,jestliže c 1 = 1.

29 Universální kódování celých čísel Definition: Fibonacciho posloupnost ˇrádu m F n = F n m +F n m F n 1 pron 1. Example:F řádu 2: F 1 = 0,,F 0 = 1, F 1 = 1, F 2 = 2,F 3 = 3,F 4 = 5, F 5 = 8,... Example:F řádu 3: F 2 = 0, F 1 = 0, F 0 = 1, F 1 = 1, F 2 = 2,F 3 = 4, F 4 = 7, F 5 = 13,... Example:F řádu 4: F 3 = 0, F 2 = 0, F 1 = 0, F 0 = 1, F 1 = 1, F 2 = 2, F 3 = 4,F 4 = 8,F 5 = 15,... Definition:Fibonaccihoreprezentace R(N) = k i=1 d if i,kde d i {0,1}, d k = 1 Theorem: Fibonacciho reprezentace není jednoznačná, existuje však taková,ževposloupnostid i je nejvýše m 1 posobějdoucích jedniček.

30 Fibonacciho kódy Definition:Fibonaccihokód ˇrádu m FK m (N) = d 1 d 2...d k 1...1,kde }{{} m 1 krát d i jsoukoeficientyzpředchozívěty(jedničkyukončujíslovo). Example:R(32) = , tedy F(32) = Theorem:FK(2) je prefixový,universální kódsc 1 = 2, c 2 = 3,tedynení asymptoticky optimální.

31 Universální kódování celých čísel II asymptoticky optimální universální kód, c 1 = 1,doN = jsou lepší Fibonacciho kódy řádu n(fk(n)). unárníkód α(n) = }{{} N 1 binárníkód β(1) = 1,β(2N+j) = β(n)j,j=0,1. β není jednoznačně dekódovatelný (není prefixový). ternárníτ(n) = β(n)#. β (1) = ǫ,β (2N) = β (N)0,β (2N+1) = β (N)1,τ (N) = β (N)#. γ: každý bitβ (N)je vložen mezidvojici bitů zα( β(n) ). příklad: γ(6) = C γ = {γ(n) : N > 0} = (0{0,1}) 1 jeregulárníatedydekódovatelná konečným automatem.

32 Universální kódování celých čísel III γ (N) = α( β(n) )β (N) stejnédélky (permutace bitůγ(n)), ale čitelnější C γ = {γ (N) : N > 0} = {0 k 1{0,1} k : k 0} neníregulárnía dekodér potřebuje čítač δ(n) = γ( β(n) )β (N) příklad: δ(4) = γ(3)00 = dekodér δ: δ(?) = 0011? ω: K := 0; while log 2 (N) > 0 do begink := β(n)k; N := log 2 (N) end.

33 Komprese dat úvod Kódování informace pro komunikační účely; komprese dat. Přes bouřlivý vývoj kapacit pro uložení dat stále nedostatek místa. Redundance konstrukce minimálně redundantního kódu. Modeldat: struktura sada jednotek ke komprimaci + kontext výskytů; parametry pravděpodobnost výskytu jednotlivých jednotek. Komprimace: 1 vytvoření modelu dat; 2 vlastní kódování.

34 Komprese dat vývoj 1838 Morse,kód edle četnosti Shannon, Fano, Weaver Huffman;5bitůnaznak Ziv-Lempel; compress(roden, Welsh, Bell, Knuth, Miller, Wegman, Fiala,Green,...);4bityna znak. osmdesátá a devadesátá léta PPM, DMC, gzip(zlib), SAKDC; 2 3 bity/znak přelom tisíciletíbzip2;2bitynaznak....?

35 Vývoj kompresních algoritmů 6 5 Huffman Komprese (bitů na znak) LZ78 LZ77 compress GZip DMC PPM SAKDC rok

36 Predikce a modelování redundance(nestejnoměrná pravděpodobnost výskytu zdrojových jednotek) kodér, dekodér, model statické modelování(model nezávisí na konkrétních datech) semiadaptivní modelování (model závisí na datech, 2 průchody, nutnost přenosu modelu) adaptivní modelování(1. průchod, model vytvářen dynamicky u kodéra i dekodéra)

37 Predikce a modelování modely řádu 0 pravděpodobnosti izolovaných zdrojových jednotek(př. Morse, písmeno e) modely s konečným kontextem Markovovy modely, modely řádu n(př. Bach), P(a x 1 x 2...x n ) modely založené na konečných automatech synchronizační řetěz, nesynchronizační řetěz automat s konečným kontextem vhodné pro regulární jazyky, nevhodné pro bezkontextové jazyky,p(a q i )

38

39 Osnova(Týden jedenáctý) Huffmanovo kódování. Adaptivní Huffmanovo kódování. Aritmetické kódování. Slovníkové metody. Signaturové metody. Podobnost dokumentů. Komprese pomocí neuronových sítí.

40 Statistické metody komprese I Znakové techniky nullsupression nahrazeníopakování 2 znakunull, 255, speciální znaks c run-lengthencoding(rle) S c XC c zobecněnína libovolný opakujícíse znak$ 55 $S c 655 MNPClass 5 RLE CXXX DDDDDBBAAAA 5DDDBB4AAA half-byte packing,(ebcdic, ASCII) SI, SO diatomic encoding; nahrazování dvojic znaků jedním Byte Pair Encoding, BPE (Gage, 1994) pattern substitution Gilbert Held: Data & Image Compression

41 Statistické metody komprese II Shannon-Fano, 1949, model řádu 0, prefixový kód, kódový strom. kódováslova délky log 2 p i nebo log 2 p i +1 AE AL AE+1. kódový strom(2,2,2,2,4,4,8). obecně není optimální, dva průchody kodéru textem, statický

42 Shannon-Fano kódování Vstup: posloupnost n zdrojových jednoteks[i],1 i n, v pořadí neklesajících pstí. Výstup: n binárních kódových slov. begin přiřad všem kódovým jednotkám prázdný řetěz; SF-SPLIT(S) end procedure SF-SPLIT(S); beginif S 2then beginrozděl Sdoposloupností S1aS2tak, žeobě posloupnosti mají přibližně stejnou celkovou pst; přidejkevšem kódovým slovům zs10; přidejkevšem kódovým slovům zs21; SF-SPLIT(S1); SF-SPLIT(S2); end end

43 Huffmanovo kódování Huffmanovo kódování, varianty statická a dynamická. AEPL = n i=1 d[i]p[i]. optimální kód(ne jediný možný). O(n) za předpokladu utříděnosti zdrojových jednotek. stabilní rozložení příprava předem. Example: (2,2,2,2,4,4,8)

44 Huffmanovo kódování sourozenecká vlastnost Definition: Binární strom má sourozeneckou vlastnost právě tehdy, když 1 každý uzel kromě kořene má sourozence, 2 uzly mohou být seřazeny v pořadí neklesající posloupnosti tak, že každý uzel(kromě kořene) sousedící v seznamu s nějakým uzlem je jeho sourozenec(leví synové budou na lichých místech v seznamu a praví synové na sudých).

45 Huffmanovo kódování vlastnosti Huffmanových stromů Theorem: Binární prefixový kód je Huffmanův má sourozeneckou vlastnost. 2n 1 uzlů,max. 2n 1 možností, optimální binární prefixový kód, který není Huffmanův AR(X) p n +0,086, p n maximální pravděpodobnostzdrojové jednotky. Huffman je úplný, (špatná detekce chyb). možnorozšíritnaafixový kód, KWIC,levý apravýkontext, hledání X

46 Adaptivní Huffmanovo kódování FGK(Faller, Gallager, Knuth) potlačení minulosti zapomínacím koeficientem, zaokrouhlování, 1, r,r 2,r n. lineární čas kódování i dekódování vzhledem k délce slova. AL HD 2AL HS. VitterAL HD AL HS +1. implementační detaily, stromová reprezentace kódové tabulky.

47 Princip aritmetického kódování zobecnění Huffmanova kódování(pravděpodobnosti zdrojových jednotek nemusí být záporné mocniny dvou). uspořádání na zdrojových jednotkách; Kumulativní pravdˇepodobnost cp i = i 1 j=1 p j zdrojovéjednotkyx i s pravděpodobnostíp i. Výhody: libovolná blízkost entropii. adaptivnost je možná. rychlost.

48 Princip aritmetického kódování zobecnění Huffmanova kódování(pravděpodobnosti zdrojových jednotek nemusí být záporné mocniny dvou). uspořádání na zdrojových jednotkách; Kumulativní pravdˇepodobnost cp i = i 1 j=1 p j zdrojovéjednotkyx i s pravděpodobnostíp i. Výhody: libovolná blízkost entropii. adaptivnost je možná. rychlost.

49 Princip aritmetického kódování zobecnění Huffmanova kódování(pravděpodobnosti zdrojových jednotek nemusí být záporné mocniny dvou). uspořádání na zdrojových jednotkách; Kumulativní pravdˇepodobnost cp i = i 1 j=1 p j zdrojovéjednotkyx i s pravděpodobnostíp i. Výhody: libovolná blízkost entropii. adaptivnost je možná. rychlost.

50 Slovníkové metody komprese dat Definition:Slovník je dvojice D = (M,C), kdemje konečnámnožinaslov zdrojového jazyka, C zobrazení M na množinu kódových slov. Definition:L(m) značí délkukódovéhoslova C(m) v bitech,pro m M. Výběr zdrojových jednotek: statický(dohoda na slovníku předem) semiadaptivní(nutné dva průchody textem) adaptivní

51 Slovníkové metody komprese dat Definition:Slovník je dvojice D = (M,C), kdemje konečnámnožinaslov zdrojového jazyka, C zobrazení M na množinu kódových slov. Definition:L(m) značí délkukódovéhoslova C(m) v bitech,pro m M. Výběr zdrojových jednotek: statický(dohoda na slovníku předem) semiadaptivní(nutné dva průchody textem) adaptivní

52 Slovníkové metody komprese dat Definition:Slovník je dvojice D = (M,C), kdemje konečnámnožinaslov zdrojového jazyka, C zobrazení M na množinu kódových slov. Definition:L(m) značí délkukódovéhoslova C(m) v bitech,pro m M. Výběr zdrojových jednotek: statický(dohoda na slovníku předem) semiadaptivní(nutné dva průchody textem) adaptivní

53 Statické slovníkové metody Zdrojová jednotka délky n n-gramy Nejčastější bigramy(n = 2) npevné n proměnné(dle frekvencí výskytu) adaptivní (50 % anglického textu je tvořeno asi 150 nejfrekventovanějšími slovy) Nevýhody: nejsou schopny reagovat na rozdělení pravděpodobností komprimovaných dat předem připravený slovník

54 Statické slovníkové metody Zdrojová jednotka délky n n-gramy Nejčastější bigramy(n = 2) npevné n proměnné(dle frekvencí výskytu) adaptivní (50 % anglického textu je tvořeno asi 150 nejfrekventovanějšími slovy) Nevýhody: nejsou schopny reagovat na rozdělení pravděpodobností komprimovaných dat předem připravený slovník

55 Statické slovníkové metody Zdrojová jednotka délky n n-gramy Nejčastější bigramy(n = 2) npevné n proměnné(dle frekvencí výskytu) adaptivní (50 % anglického textu je tvořeno asi 150 nejfrekventovanějšími slovy) Nevýhody: nejsou schopny reagovat na rozdělení pravděpodobností komprimovaných dat předem připravený slovník

56 Semiadaptivní slovníkové metody Slovník Komprimovaná data Komprimovaný slovník Komprimovaná data Výhody: rozsáhlá data(slovník je malá část dat korpusy; CQP).

57 Semiadaptivní slovníkové metody Slovník Komprimovaná data Komprimovaný slovník Komprimovaná data Výhody: rozsáhlá data(slovník je malá část dat korpusy; CQP).

58 Semiadaptivní slovníkové metody postup vytvoření slovníku 1 Určí se frekvence N-gramů pron = 1,2,... 2 Slovník se inicializuje vložením unigramů. 3 Do slovníku se postupně přidávají N-gramy (N > 1) s největší frekvencí. Při vložení K-gramu se snižuje frekvence jeho složek (K 1)-gramů, (K 2)-gramů... Jestližese díkysnižování frekvencí frekvence nějaké položky velmi sníží, je ze slovníku vyloučena.

59 Semiadaptivní slovníkové metody postup vytvoření slovníku 1 Určí se frekvence N-gramů pron = 1,2,... 2 Slovník se inicializuje vložením unigramů. 3 Do slovníku se postupně přidávají N-gramy (N > 1) s největší frekvencí. Při vložení K-gramu se snižuje frekvence jeho složek (K 1)-gramů, (K 2)-gramů... Jestližese díkysnižování frekvencí frekvence nějaké položky velmi sníží, je ze slovníku vyloučena.

60 Semiadaptivní slovníkové metody postup vytvoření slovníku 1 Určí se frekvence N-gramů pron = 1,2,... 2 Slovník se inicializuje vložením unigramů. 3 Do slovníku se postupně přidávají N-gramy (N > 1) s největší frekvencí. Při vložení K-gramu se snižuje frekvence jeho složek (K 1)-gramů, (K 2)-gramů... Jestližese díkysnižování frekvencí frekvence nějaké položky velmi sníží, je ze slovníku vyloučena.

61 Adaptivní slovníkové metody LZ77 metody posuvného okna LZ78 metody rostoucího slovníku a b c b a b b a a b a c b zakódovaná část nezakód. část (okno, N 8192) ( B 10 20b) V zakódované části je vyhledána nejdelší předpona P řetězu v nezakódované oblasti. Pokud je takový řetězsnalezen,pakp jezakódováno pomocí (I,J,A), kde Ije vzdálenostprvníhoznakusodhranice,jje délkařetězusaajeprvní znakza předponoup. Oknoje posunuto oj+1znaků doprava. Jestliže podřetězsnalezennebyl,pakjevytvořena trojice (0,0,A),kdeAje prvníznak nezakódované části.

62 Adaptivní slovníkové metody LZ77 metody posuvného okna LZ78 metody rostoucího slovníku a b c b a b b a a b a c b zakódovaná část nezakód. část (okno, N 8192) ( B 10 20b) V zakódované části je vyhledána nejdelší předpona P řetězu v nezakódované oblasti. Pokud je takový řetězsnalezen,pakp jezakódováno pomocí (I,J,A), kde Ije vzdálenostprvníhoznakusodhranice,jje délkařetězusaajeprvní znakza předponoup. Oknoje posunuto oj+1znaků doprava. Jestliže podřetězsnalezennebyl,pakjevytvořena trojice (0,0,A),kdeAje prvníznak nezakódované části.

63 LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

64 LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

65 LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

66 LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

67 LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

68 LZSS (Bell, Storer, Szymanski) Kódem je posloupnost ukazatelů a znaků. Ukazatel(i, j) potřebuje pamět jakpznaků ukazateljen tehdy, kdyžušetříme, ale je třeba bit na rozlišení znaku od ukazatele. Počet položek slovníku je M = t+(n B) (B p) (uvažujíse jen podřetězydelší nežp). Počet bitů na zakódování je L(m) = 1+ log 2 t pro m T L(m) = 1+ log 2 N + log 2 (B p) jinak. (Délku d podřetězu můžeme reprezentovat jako B p).

69 LZB (Bell), LZH (Brent) Ukazatel(i, j) (analogie LZSS) Jestliže oknoneníplné(na začátku)a komprimovaný text je kratší než N, je plýtvání použitílog 2 Nbytů nazakódováníi. LZB používáfázování při bin. kód. prefixový kód s rostoucím počtem bitů pro rostoucí hodnoty čísel. Pro kódováníj používálzb Eliasův kódγ. LZSS, kde pro kódování ukazatelů je použito Huffmanovo kódování(tj. dle rozložení jejich pravděpodobností 2 průchody)

70 LZB (Bell), LZH (Brent) Ukazatel(i, j) (analogie LZSS) Jestliže oknoneníplné(na začátku)a komprimovaný text je kratší než N, je plýtvání použitílog 2 Nbytů nazakódováníi. LZB používáfázování při bin. kód. prefixový kód s rostoucím počtem bitů pro rostoucí hodnoty čísel. Pro kódováníj používálzb Eliasův kódγ. LZSS, kde pro kódování ukazatelů je použito Huffmanovo kódování(tj. dle rozložení jejich pravděpodobností 2 průchody)

71 Metody s rostoucím slovníkem Hlavní myšlenka: slovník obsahuje fráze. Nová fráze tak, že již existující fráze je rozšířena o symbol. Fráze je zakódována indexem předpony a přidaným symbolem.

72 LZ78 příklad Vstupní a b ab c ba Index Výstup (0,a) (0,b) (1,b) (0,c) (2,a) Vstupní bab aa aaa aaaa... Index Výstup (5,b) (1,a) (7,a) (8,a) 7 a a 0 a b c 1 2 a b a 3 5 b

73 LZFG(Fiala, Green) Slovník uložen ve stromové struktuře, hrany ohodnoceny řetězy znaků. Tytořetězyjsouvokněakaždýuzelstromuobsahujeukazateldookna a identifikující symboly na cestě z kořene do uzlu.

74 LZW (Welch), LZC Výstupem jsou pouze indexy, nebo slovník je iniciován položkami pro všechny vstupní symboly, poslední symbol každé fráze je prvním symbolem následující fráze. Vstup a b a b c b a b a b a a a a a Index Výstup Přeplnění další fráze není předávána a kódování pokračuje staticky. jetolzw+ Ukazatele jsou kódovány s prodlužující se délkou. Jakmile se kompresní poměr začne snižovat, slovník se vymaže a začíná se od začátku.

75 LZT, LZMW, LZJ Jako LZC, ale při přeplnění slovníku se ze slovníku vylučují fráze, které byly v nedávné minulosti nejméně použity. Používá frázování při bin. kód. indexů frází. Jako LZT, ale nová fráze se nevytváří přidáním jednoho symbolu k předchozí, ale konstruuje novou frázi zřetězením dvou posledně zakódovaných. Jiný princip konstrukce slovníku: Na začátku vloženy jednotlivé symboly. Slovník uložen ve stromu a obsahuje všechny podřetězy zprac. řetězem do délky h. Plný slovník statický postup, vynechávání uzlů s nízkou frekvencí použití.

76 Slovníkové metody s restrukturalizací slovníku Průběžné uspořádávávání zdrojových jednotek kratší řetězce kódu. Varianty heuristik(četnost, přesun na začátek (BSTW), výměna s předcházejícím, přesun o K vpřed). BSTW(výhoda: vysoká lokalita výskytů menšího počtu zdrojových jednotek). Example: Jádo lesa nepojedu,...,1 n 2 n k n. Zobecnění: koeficient nedávnosti, Intervalové kódování.

77 Intervalové kódování Reprezentace slova celkovým počtem slov od posledního výskytu. Slovníkobsahujeslova a 1,a 2,...,a n,vstupníposloupnostx 1,x 2,..., x m. HodnotaLAST(a i ) obsahujícíintervalod posledníhovýskytu je inicializovaná na nulu. fort := 1 to mdo begin{x t = a i } iflast(x t = 0)theny(t) = t+i 1 elsey(t) = t LAST(x t ); LAST(x t ):=t end. Posloupnosty 1,y 2,...,y m je výstupemkodéruamůžebýt zakódována některým kódem proměnné délky.

78 Syntaktické metody je známa gramatika jazyka zprávy. levý rozklad derivačního stromu řetězce. globální číslování pravidel. lokální číslování pravidel. jsou kódovány rozhodovací stavy LR analyzátoru.

79 Kontextové modelování pevnýkontext model řádun. kombinovaný přístup kontexty různých délek. p(x) = m n=0 w np n (x). w n pevné,proměnné. náročnéna čas a pamět. přiřazenípravděpodobnostinovézdrojové jednotce: e = 1 C n +1. automaty s konečným kontextem. dynamické Markovovo modelování.

80 Kontrola správnosti textu Kontrola textu pomocí frekvenčního slovníku. Kontrola textu pomocí dvojitého slovníku. Interaktivní kontrola textu(ispell). Kontrola textu založená na pravidelnosti slov, koeficient podivnosti.

81 Koeficient podivnosti Koeficient podivnosti trigramu xyz KPT = [log(f(xy) 1)+log(f(yz) 1)]/2 log(f(xyz) 1),kdef(xy) resp. f(xyz) jsou relativní frekvence digramu resp. trigramu, log(0) je definován jako 10. n Koeficient podivnosti slova KPS = (KPT i SKPT 2 ),kdekpt i je i=1 koeficient podivnosti i-tého trigramu SKPT je střední hodnota koeficientu podivnosti všech trigramů obsažených ve slově.

82 Koeficient podivnosti Koeficient podivnosti trigramu xyz KPT = [log(f(xy) 1)+log(f(yz) 1)]/2 log(f(xyz) 1),kdef(xy) resp. f(xyz) jsou relativní frekvence digramu resp. trigramu, log(0) je definován jako 10. n Koeficient podivnosti slova KPS = (KPT i SKPT 2 ),kdekpt i je i=1 koeficient podivnosti i-tého trigramu SKPT je střední hodnota koeficientu podivnosti všech trigramů obsažených ve slově.

83 Dotazování a modely TIS Booleovský model Různé metody hierarchizace a uložení dokumentů různé možnosti a efektivita dotazování. Booleovský model, SQL. Vektorový model. Rozšířené booleovské modely. Pravděpodobnostní model. Model shluků dokumentů.

84 Booleovský model Blairovo ladění dotazu Vyhledávání spočívá ve zmenšování neurčitosti tazatele (ladění dotazu). 1 Najdeme dokument s vysokou relevancí. 2 Začneme se dotazovat s jeho klíčovými slovy. 3 Odstraňujeme deskriptory, resp. je nahrazujeme disjunkcemi.

85 Booleovský model Blairovo ladění dotazu Vyhledávání spočívá ve zmenšování neurčitosti tazatele (ladění dotazu). 1 Najdeme dokument s vysokou relevancí. 2 Začneme se dotazovat s jeho klíčovými slovy. 3 Odstraňujeme deskriptory, resp. je nahrazujeme disjunkcemi.

86 Booleovský model Blairovo ladění dotazu Vyhledávání spočívá ve zmenšování neurčitosti tazatele (ladění dotazu). 1 Najdeme dokument s vysokou relevancí. 2 Začneme se dotazovat s jeho klíčovými slovy. 3 Odstraňujeme deskriptory, resp. je nahrazujeme disjunkcemi.

87 Booleovský model Infomap snaha o sémantické dotazování Systém pro práci s hledaným významem/konceptem(na rozdíl od pouhých řetězců znaků). Správný dotaz je polovina odpovědi. Vyhledávání spočívá v určení sémanticky nejbližších termů.

88 Booleovský model Booleovský model 50. léta: reprezentace dokumentů pomocí množin termů a dotazování založené na vyhodnocování booleovských výrazů. Výraz dotazu: induktivně z primitiv: term jméno atributu = hodnota atributu(porovnání) jméno funkce(term) (aplikace funkce) a dále pomocí závorekalogických spojek Xand Y,Xor Y,Xxor Y, not Y. disjunktivní normální forma, konjunktivní normální forma proximitní operátory regulární výrazy použití tezauru

89 Booleovský model Booleovský model 50. léta: reprezentace dokumentů pomocí množin termů a dotazování založené na vyhodnocování booleovských výrazů. Výraz dotazu: induktivně z primitiv: term jméno atributu = hodnota atributu(porovnání) jméno funkce(term) (aplikace funkce) a dále pomocí závorekalogických spojek Xand Y,Xor Y,Xxor Y, not Y. disjunktivní normální forma, konjunktivní normální forma proximitní operátory regulární výrazy použití tezauru

90 Jazyky pro vyhledávání SQL Booleovský model booleovské operátory and, or, xor, not. poziční operátory adj,(n) words, with, same, syn. SQL rozšíření: operace/dotazy s využitím tezauru BT(A) Broader term NT(A) Narrower term PT(A) Preferred term SYN(A) Synonyma termu A RT(A) Related term TT(A) Top term

91 Dotazování SQL příklady Booleovský model ORACLE SQL*TEXTRETRIEVAL SELECT specifikace_polozek FROM specifikace_tabulek WHERE polozka CONTAINS textovy_vyraz Example: SELECT TITLE FROM BOOK WHERE ABSTRACT CONTAINS TEXT AND RT(RETRIEVAL) řetěz řetěz * * řetěz ře?ěz ře%těz řetěza (m,n) řetězb víceslovná fráze BT( řetěz,n) BT( řetěz,*) NT( řetěz,n)

92 Dotazování SQL příklady Booleovský model Example: SELECT JMENO FROM ZAMESTNANEC WHERE VZDELANI CONTAINS RT(UNIVERSITA) AND JAZYKY CONTAINS ANGLICTINA AND NEMCINA AND PUBLIKACE CONTAINS KNIHA OR NT( KNIHA,*)

93 Booleovský model Stilesova technika/ asociační faktor asoc(q A,Q B ) = log 10 (fn AB N/2) 2 N AB(N A)(N B) A početdokumentů,,zasažených dotazem Q A B počet dokumentů,,zasažených dotazemq B (jehož relevanci počítáme) f počet dokumentů,,zasažených oběma dotazy N celkový početdokumentůvtis cutoff (relevantní/ nerelevantní) clustering/hnízdˇení 1. generace, 2. generace,...

94 Booleovský model Vektorový model Vektorový model dokumentů: Necht a 1,...,a n termy, D 1,...,D m dokumenty,amaticerelevance W = (w ij )typum,n, Dotaz Q = (q 1,...,q n ) { 0 nenírelevantní w ij 0,1 1 je relevantní S(Q,D i ) = i q iw ij koeficient podobnosti head(sort(s(q,d i ))) odpověd

95 Vektorový model: pros & cons Booleovský model CONS: nebere vúvahu? a?? nebo? PROS: možné vylepšení: normování vah Frekvence termu TF m Inverznífrekvence dokumentuidf log 2 k Rozlišení termů TD normování vah pro dokument: j TD3 j ( ) normování vah pro dotaz: TF m maxtf i log 2 k [POK, strany ].

96 Automatické strukturování textů Booleovský model Vzájemné vazby mezi dokumenty v TIS. Encyklopedie (OSN, Funk and Wagnalls New Encyclopedia). [SBA] Google/CiteSeer:,,automatic structuring of text files

97 Podobnost dokumentů Booleovský model Nejčastější kosinová míra výhody. Detailní přehled používaných podobnostních funkcí viz kapitola 5.7 z[kor] (podobnost).

98 Uložení lexikonu Booleovský model [MeM] Mehryar Mohri: On Some Applications of Finite-State Automata Theory to Natural Language Processing, Natural Language Engineering, 2(1):61 80,

99 Signaturové metody Booleovský model Vyhledávací metody IV. Předzpracování textu i vzorku(signaturové metody). řetězené vrstvené Dále [POK, strany 65 76], see [MAR].

100 Seznam materiálů u Marečka Booleovský model [MAR] Materiály k předmětu PV030 ke zkopírování v knihkupectví Mareček a v materiálech předmětu v ISu. 1 Slidy přednášek předmětu, 4 slidy na list A4. 2 kopie[mel]. 3 kopie[pok]. 4 článek [MEH]. 5 materiály o Google [GOO] (plus české shrnutí). 6 kapitola 5.7 z [KOR](podobnost). 7 [MeM]. 8 ostatní (NLP, diagram s kompresními algoritmy,...).

Komprese dat (Komprimace dat)

Komprese dat (Komprimace dat) Komprese dat (Komprimace dat) Př.: zakódovat slovo ARARAUNA K K 2 četnost absolutní relativní A 4,5 N,25 R 2,25 U,25 kód K : kód K 2 :... 6 bitů... 4 bitů prefixový kód: žádné kódové slovo není prefixem

Více

PV030 Textual Information Systems

PV030 Textual Information Systems Faculty of Informatics Masaryk University, Brno Spring 2010 Osnova(Týden sedmý) Exkurs do počítačové lingvistiky. Korpusová lingvistika jako příklad TIS. Vyhledávací metody s předzpracování textu i vzorku(dotazu).

Více

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky Komprese dat Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI přednášky Slovníkové metody Jan Outrata (Univerzita Palackého v Olomouci) Komprese dat Olomouc, únor březen 2016 1 / 23 Slovníkové

Více

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky Komprese dat Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI přednášky Statistické metody Jan Outrata (Univerzita Palackého v Olomouci) Komprese dat Olomouc, únor březen 2016 1 / 23 Tunstallův

Více

Algoritmy komprese dat

Algoritmy komprese dat Algoritmy komprese dat Slovníkové metody Phillip Walter Katz (1962-2000) 2.12.2015 NSWI072-10 Slovníkové metody komprese dat Idea opakující se fráze uloženy do slovníku výskyty fráze v textu ukazatel do

Více

Algoritmy komprese dat

Algoritmy komprese dat Algoritmy komprese dat Úvod do teorie informace Claude Shannon (1916 2001) 5.11.2014 NSWI072-7 Teorie informace Informace Co je to informace? Můžeme informaci měřit? Existují teoretické meze pro délku

Více

Automaty a gramatiky(bi-aag) Formální překlady. 5. Překladové konečné automaty. h(ε) = ε, h(xa) = h(x)h(a), x, x T, a T.

Automaty a gramatiky(bi-aag) Formální překlady. 5. Překladové konečné automaty. h(ε) = ε, h(xa) = h(x)h(a), x, x T, a T. BI-AAG (2011/2012) J. Holub: 5. Překladové konečné automaty p. 2/41 Formální překlady BI-AAG (2011/2012) J. Holub: 5. Překladové konečné automaty p. 4/41 Automaty a gramatiky(bi-aag) 5. Překladové konečné

Více

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. 1/25 KOMPRESE OBRAZŮ Václav Hlaváč, Jan Kybic Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD

Více

Kompresní techniky. David Bařina. 15. února David Bařina Kompresní techniky 15. února / 37

Kompresní techniky. David Bařina. 15. února David Bařina Kompresní techniky 15. února / 37 Kompresní techniky David Bařina 15. února 2013 David Bařina Kompresní techniky 15. února 2013 1 / 37 Obsah 1 Pojmy 2 Jednoduché techniky 3 Entropická kódování 4 Slovníkové metody 5 Závěr David Bařina Kompresní

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více

Kódy pro odstranění redundance, pro zabezpečení proti chybám. Demonstrační cvičení 5 INP

Kódy pro odstranění redundance, pro zabezpečení proti chybám. Demonstrační cvičení 5 INP Kódy pro odstranění redundance, pro zabezpečení proti chybám Demonstrační cvičení 5 INP Princip kódování, pojmy Tady potřebujeme informaci zabezpečit, utajit apod. zpráva 000 111 000 0 1 0... kodér dekodér

Více

STRUKTURA RASTROVÝCH DAT

STRUKTURA RASTROVÝCH DAT STRUKTURA RASTROVÝCH DAT dva typy rastrové vrstvy v GIS 1) Digitální obraz TV, počítač, mobil - obrazovka obraz z bodů mapa - mřížka s barevnými plochami 2) Rastrová data data pro analýzu a) binární -

Více

ZÁPADOČESKÁ UNIVERZITA V PLZNI

ZÁPADOČESKÁ UNIVERZITA V PLZNI ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA PEDAGOGICKÁ KATEDRA VÝPOČETNÍ A DIDAKTICKÉ TECHNIKY KOMPONENTY PRO VÝUKOVÝ ELEKTRONICKÝ MATERIÁL - KOMPRESE V OBLASTI POČÍTAČŮ BAKALÁŘSKÁ PRÁCE Lukáš Smutný Přírodovědná

Více

Úvod do teorie informace

Úvod do teorie informace PEF MZLU v Brně 24. září 2007 Úvod Výměna informací s okolím nám umožňuje udržovat vlastní existenci. Proces zpracování informací je trvalý, nepřetržitý, ale ovlivnitelný. Zabezpečení informací je spojeno

Více

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů BI-AAG (2011/2012) J. Holub: 1. Základní pojmy p. 2/29 Hodnocení předmětu BI-AAG (2011/2012) J. Holub: 1. Základní pojmy p. 4/29 Automaty a gramatiky(bi-aag) 1. Základní pojmy Jan Holub Katedra teoretické

Více

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut. 1/24 KOMPRESE OBRAZŮ Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD 2/24 Cíl:

Více

Komprese a dotazování nad XML dokumenty

Komprese a dotazování nad XML dokumenty Komprese a dotazování nad XML dokumenty Prezentace diplomové práce Lukáš Skřivánek České vysoké učení technické v Praze Fakulta elektrotechnická Katedra počítačů květen 2007 Vedoucí práce: Ing. Miroslav

Více

Teorie informace: řešené příklady 2014 Tomáš Kroupa

Teorie informace: řešené příklady 2014 Tomáš Kroupa Teorie informace: řešené příklady 04 Tomáš Kroupa Kolik otázek je třeba v průměru položit, abychom se dozvěděli datum narození člověka (den v roce), pokud odpovědi jsou pouze ano/ne a tázaný odpovídá pravdivě?

Více

doplněk, zřetězení, Kleeneho operaci a reverzi. Ukážeme ještě další operace s jazyky, na které je

doplněk, zřetězení, Kleeneho operaci a reverzi. Ukážeme ještě další operace s jazyky, na které je 28 [181105-1236 ] 2.7 Další uzávěrové vlastnosti třídy regulárních jazyků Z předchozích přednášek víme, že třída regulárních jazyků je uzavřena na sjednocení, průnik, doplněk, zřetězení, Kleeneho operaci

Více

Množinu všech slov nad abecedou Σ značíme Σ * Množinu všech neprázdných slov Σ + Jazyk nad abecedou Σ je libovolná množina slov nad Σ

Množinu všech slov nad abecedou Σ značíme Σ * Množinu všech neprázdných slov Σ + Jazyk nad abecedou Σ je libovolná množina slov nad Σ Abecedou se rozumí libovolná konečná množina Σ. Prvky abecedy nazýváme znaky (symboly) Slovo (řetězec) v nad abecedou Σ je libovolná konečná posloupnost znaků této abecedy. Prázdné posloupnosti znaků odpovídá

Více

/1: Teoretická informatika(ti) přednáška 4

/1: Teoretická informatika(ti) přednáška 4 456-330/1: Teoretická informatika(ti) přednáška 4 prof. RNDr Petr Jančar, CSc. katedra informatiky FI VŠB-TUO www.cs.vsb.cz/jancar LS 2009/2010 Petr Jančar (FI VŠB-TU) Teoretická informatika(ti) LS 2009/2010

Více

Vyhledávání v textu. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava

Vyhledávání v textu. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Vyhledávání v textu doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 9. března 209 Jiří Dvorský (VŠB TUO) Vyhledávání v textu 402

Více

Informace v počítači. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz

Informace v počítači. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz .. Informace v počítači Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz Osnova přednášky Úvod do teorie informace základní pojmy měření množství informace ve zprávě přenos a kódování

Více

Osnova přednášky. Informace v počítači. Interpretace dat. Údaje, data. Úvod do teorie informace. Výpočetní technika I. Ochrana dat

Osnova přednášky. Informace v počítači. Interpretace dat. Údaje, data. Úvod do teorie informace. Výpočetní technika I. Ochrana dat Osnova přednášky 2/44 Informace v počítači Ing Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelucz základní pojmy měření množství informace ve zprávě přenos a kódování dat parita kontrolní

Více

Binární vyhledávací stromy pokročilé partie

Binární vyhledávací stromy pokročilé partie Binární vyhledávací stromy pokročilé partie KMI/ALS lekce Jan Konečný 30.9.204 Literatura Cormen Thomas H., Introduction to Algorithms, 2nd edition MIT Press, 200. ISBN 0-262-5396-8 6, 3, A Knuth Donald

Více

Technická kybernetika. Obsah. Principy zobrazení, sběru a uchování dat. Měřicí řetězec. Principy zobrazení, sběru a uchování dat

Technická kybernetika. Obsah. Principy zobrazení, sběru a uchování dat. Měřicí řetězec. Principy zobrazení, sběru a uchování dat Akademický rok 2016/2017 Připravil: Radim Farana Technická kybernetika Principy zobrazení, sběru a uchování dat 2 Obsah Principy zobrazení, sběru a uchování dat strana 3 Snímač Měřicí řetězec Měřicí obvod

Více

Matematika IV 10. týden Kódování

Matematika IV 10. týden Kódování Matematika IV 10. týden Kódování Jan Slovák Masarykova univerzita Fakulta informatiky 22. 26. 4. 2013 Obsah přednášky 1 (n, k) kódy 2 Polynomiální kódy 3 Lineární kódy Kde je dobré číst? připravovaná učebnice

Více

AUTOMATY A GRAMATIKY

AUTOMATY A GRAMATIKY AUTOMATY A 1 GRAMATIKY Pavel Surynek Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra teoretické informatiky a matematické logiky Stručný přehled přednášky Automaty Formální jazyky, operace

Více

Výroková a predikátová logika - II

Výroková a predikátová logika - II Výroková a predikátová logika - II Petr Gregor KTIML MFF UK ZS 2015/2016 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - II ZS 2015/2016 1 / 18 Základní syntax Jazyk Výroková logika je logikou

Více

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu

Více

Teorie informace II: obtížnější řešené příklady 2014 Tomáš Kroupa

Teorie informace II: obtížnější řešené příklady 2014 Tomáš Kroupa Teorie informace II: obtížnější řešené příklady 204 Tomáš Kroupa. Máme n mincí, z nichž nejvýše jedna je falešná. Pozná se podle toho, že má jinou hmotnost než ostatní mince (ty váží všechny stejně). Mince

Více

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky Komprese dat Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI přednášky Literatura Sayood K.: Introduction to Data Compression, Fourth Edition. Morgan Kaufmann, 2012. ISBN 978-0124157965

Více

Datové struktury 2: Rozptylovací tabulky

Datové struktury 2: Rozptylovací tabulky Datové struktury 2: Rozptylovací tabulky prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy

Více

Teorie kódování aneb jak zhustit informaci

Teorie kódování aneb jak zhustit informaci Teorie kódování aneb jak zhustit informaci Jan Paseka Masarykova Univerzita Brno 13. února 2015 Cíl přednášky V této přednášce se pokusíme o stučný úvod do historie teorie kódování včetně teorie informace

Více

Výroková a predikátová logika - II

Výroková a predikátová logika - II Výroková a predikátová logika - II Petr Gregor KTIML MFF UK ZS 2013/2014 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - II ZS 2013/2014 1 / 20 Základní syntax Jazyk Výroková logika je logikou

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Kompresní metody první generace

Kompresní metody první generace Kompresní metody první generace 998-20 Josef Pelikán CGG MFF UK Praha pepca@cgg.mff.cuni.cz http://cgg.mff.cuni.cz/~pepca/ Stillg 20 Josef Pelikán, http://cgg.mff.cuni.cz/~pepca / 32 Základní pojmy komprese

Více

DIPLOMOVÁ PRÁCE. Petr Uzel Entropické kodéry

DIPLOMOVÁ PRÁCE. Petr Uzel Entropické kodéry Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Petr Uzel Entropické kodéry Katedra softwarového inženýrství Vedoucí diplomové práce: Mgr. Jan Lánský, Ph.D. Studijní program: Informatika,

Více

Vzdálenost jednoznačnosti a absolutně

Vzdálenost jednoznačnosti a absolutně Vzdálenost jednoznačnosti a absolutně bezpečné šifry Andrew Kozlík KA MFF UK Značení Pracujeme s šifrou (P, C, K, E, D), kde P je množina otevřených textů, C je množina šifrových textů, K je množina klíčů,

Více

Výroková logika. Teoretická informatika Tomáš Foltýnek

Výroková logika. Teoretická informatika Tomáš Foltýnek Výroková logika Teoretická informatika Tomáš Foltýnek foltynek@pef.mendelu.cz Teoretická informatika strana 2 Opakování z minulé přednášky Co je to formalismus a co je jeho cílem? Formulujte Russelův paradox

Více

Návrh Designu: Radek Mařík

Návrh Designu: Radek Mařík 1. 7. Najděte nejdelší rostoucí podposloupnost dané posloupnosti. Použijte metodu dynamického programování, napište tabulku průběžných délek částečných výsledků a tabulku předchůdců. a) 5 8 11 13 9 4 1

Více

Vyvažování a rotace v BVS, všude se předpokládá AVL strom

Vyvažování a rotace v BVS, všude se předpokládá AVL strom Vyvažování a rotace v BVS, všude se předpokládá AVL strom 1. Jednoduchá levá rotace v uzlu u má operační složitost a) závislou na výšce levého podstromu uzlu u b) mezi O(1) a Θ(n) c) závislou na hloubce

Více

Jednoznačné a nejednoznačné gramatiky

Jednoznačné a nejednoznačné gramatiky BI-AAG (2011/2012) J. Holub: 11. Bezkontextové gramatiky p. 2/36 Jednoznačné a nejednoznačné gramatiky BI-AAG (2011/2012) J. Holub: 11. Bezkontextové gramatiky p. 4/36 Automaty a gramatiky(bi-aag) 11.

Více

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI

Více

Algoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19

Algoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19 Algoritmy I Číselné soustavy přečíst!!! Číselné soustavy Každé číslo lze zapsat v poziční číselné soustavě ve tvaru: a n *z n +a n-1 *z n-1 +. +a 1 *z 1 +a 0 *z 0 +a -1 *z n-1 +a -2 *z -2 +.. V dekadické

Více

Programy na PODMÍNĚNÝ příkaz IF a CASE

Programy na PODMÍNĚNÝ příkaz IF a CASE Vstupy a výstupy budou vždy upraveny tak, aby bylo zřejmé, co zadáváme a co se zobrazuje. Není-li určeno, zadáváme přirozená čísla. Je-li to možné, používej generátor náhodných čísel vysvětli, co a jak

Více

[1] samoopravné kódy: terminologie, princip

[1] samoopravné kódy: terminologie, princip [1] Úvod do kódování samoopravné kódy: terminologie, princip blokové lineární kódy Hammingův kód Samoopravné kódy, k čemu to je [2] Data jsou uložena (nebo posílána do linky) kodérem podle určitého pravidla

Více

Stromy, haldy, prioritní fronty

Stromy, haldy, prioritní fronty Stromy, haldy, prioritní fronty prof. Ing. Pavel Tvrdík CSc. Katedra počítačů FEL České vysoké učení technické DSA, ZS 2008/9, Přednáška 6 http://service.felk.cvut.cz/courses/x36dsa/ prof. Pavel Tvrdík

Více

KOMPRESE DAT ARNOŠT VEČERKA KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO

KOMPRESE DAT ARNOŠT VEČERKA KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO KOMPRESE DAT ARNOŠT VEČERKA VÝVOJ TOHOTO UČEBNÍHO TEXTU JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY

Více

Turingovy stroje. Teoretická informatika Tomáš Foltýnek

Turingovy stroje. Teoretická informatika Tomáš Foltýnek Turingovy stroje Teoretická informatika Tomáš Foltýnek foltynek@pef.mendelu.cz Teoretická informatika strana 2 Opakování z minulé přednášky Jaké znáte algebraické struktury s jednou operací? Co je to okruh,

Více

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky Komprese dat Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI přednášky Obsah 1 Úvod Potřebné pojmy z teorie informace a kódování (entropie), taxonomie kompresních metod, modely dat, základní

Více

Databáze I. 5. přednáška. Helena Palovská

Databáze I. 5. přednáška. Helena Palovská Databáze I 5. přednáška Helena Palovská palovska@vse.cz SQL jazyk definice dat - - DDL (data definition language) Základní databáze, schemata, tabulky, indexy, constraints, views DATA Databáze/schéma

Více

Základy algoritmizace. Pattern matching

Základy algoritmizace. Pattern matching Základy algoritmizace Pattern matching 1 Pattern matching Úloha nalézt v nějakém textu výskyty zadaných textových vzorků patří v počítačové praxi k nejfrekventovanějším. Algoritmy, které ji řeší se používají

Více

Informační systémy ve zdravotnictví

Informační systémy ve zdravotnictví Informační systémy ve zdravotnictví ZS 2008/2009 Zoltán Szabó Tel.: (+420) 312 608 207 E-mail: szabo@fbmi.cvut.cz č.dv.: 504, 5.p Dnešní přednáška Kódování, komprese 2 1 Komprese dat Cíl komprese: redukovat

Více

/01: Teoretická informatika(ti) přednáška 5

/01: Teoretická informatika(ti) přednáška 5 460-4005/01: Teoretická informatika(ti) přednáška 5 prof. RNDr Petr Jančar, CSc. katedra informatiky FEI VŠB-TUO www.cs.vsb.cz/jancar LS 2010/2011 Petr Jančar (FEI VŠB-TU) Teoretická informatika(ti) LS

Více

Základní datové struktury III: Stromy, haldy

Základní datové struktury III: Stromy, haldy Základní datové struktury III: Stromy, haldy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní

Více

Regulární výrazy. Definice Množina regulárních výrazů nad abecedou Σ, označovaná RE(Σ), je definována induktivně takto:

Regulární výrazy. Definice Množina regulárních výrazů nad abecedou Σ, označovaná RE(Σ), je definována induktivně takto: IB102 Automaty, gramatiky a složitost, 6. 10. 2014 1/29 Regulární výrazy Definice 2.58. Množina regulárních výrazů nad abecedou Σ, označovaná RE(Σ), je definována induktivně takto: 1 ε, a a pro každé a

Více

Rekurzivní algoritmy

Rekurzivní algoritmy Rekurzivní algoritmy prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA) ZS

Více

Bezkontextové jazyky. Bezkontextové jazyky 1 p.1/39

Bezkontextové jazyky. Bezkontextové jazyky 1 p.1/39 Bezkontextové jazyky Bezkontextové jazyky 1 p.1/39 Jazyky typu 2 Definice 4.1 Gramatika G = (N, Σ, P, S) si nazývá bezkontextovou gramatikou, jestliže všechna pravidla z P mají tvar A α, A N, α (N Σ) Lemma

Více

Formální jazyky a gramatiky Teorie programovacích jazyků

Formální jazyky a gramatiky Teorie programovacích jazyků Formální jazyky a gramatiky Teorie programovacích jazyků doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Připomenutí základních pojmů ABECEDA jazyk je libovolná podmnožina

Více

Konvolučníkódy. MI-AAK(Aritmetika a kódy)

Konvolučníkódy. MI-AAK(Aritmetika a kódy) MI-AAK(Aritmetika a kódy) Konvolučníkódy c doc. Ing. Alois Pluháček, CSc., 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Evropský sociální fond Praha&

Více

12. Globální metody MI-PAA

12. Globální metody MI-PAA Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI

Více

3. přednáška z předmětu GIS1 atributové a prostorové dotazy

3. přednáška z předmětu GIS1 atributové a prostorové dotazy 3. přednáška z předmětu GIS1 atributové a prostorové dotazy Vyučující: Ing. Jan Pacina, Ph.D. e-mail: jan.pacina@ujep.cz Pro přednášku byly použity texty a obrázky z www.gis.zcu.cz Předmět KMA/UGI, autor

Více

8) Jaké jsou důvody pro použití víceprůchodového překladače Dříve hlavně kvůli úspoře paměti, dnes spíše z důvodu optimalizace

8) Jaké jsou důvody pro použití víceprůchodového překladače Dříve hlavně kvůli úspoře paměti, dnes spíše z důvodu optimalizace 1) Charakterizujte křížový překladač Překlad programu probíhá na jiném procesoru, než exekuce. Hlavním důvodem je náročnost překladače na cílovém stroji by ho nemuselo být možné rozběhnout. 2. Objasněte

Více

Kompresní algoritmy grafiky. Jan Janoušek F11125

Kompresní algoritmy grafiky. Jan Janoušek F11125 Kompresní algoritmy grafiky Jan Janoušek F11125 K čemu je komprese dobrá? Pokud je třeba skladovat datově náročné soubory. Např. pro záznam obrazu, hudby a hlavně videa je třeba skladovat překvapivě mnoho

Více

Výroková a predikátová logika - II

Výroková a predikátová logika - II Výroková a predikátová logika - II Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - II ZS 2017/2018 1 / 17 Předběžnosti Základní pojmy n-ární relace a funkce

Více

2) Napište algoritmus pro vložení položky na konec dvousměrného seznamu. 3) Napište algoritmus pro vyhledání položky v binárním stromu.

2) Napište algoritmus pro vložení položky na konec dvousměrného seznamu. 3) Napište algoritmus pro vyhledání položky v binárním stromu. Informatika 10. 9. 2013 Jméno a příjmení Rodné číslo 1) Napište algoritmus pro rychlé třídění (quicksort). 2) Napište algoritmus pro vložení položky na konec dvousměrného seznamu. 3) Napište algoritmus

Více

II. Úlohy na vložené cykly a podprogramy

II. Úlohy na vložené cykly a podprogramy II. Úlohy na vložené cykly a podprogramy Společné zadání pro příklady 1. - 10. začíná jednou ze dvou možností popisu vstupních dat. Je dána posloupnost (neboli řada) N reálných (resp. celočíselných) hodnot.

Více

Teorie informace 21.9.2014. Obsah. Kybernetika. Radim Farana Podklady pro výuku

Teorie informace 21.9.2014. Obsah. Kybernetika. Radim Farana Podklady pro výuku Teorie Radim Farana Podklady pro výuku Obsah Seznámení s problematikou a obsahem studovaného předmětu. Základní pojmy z Teorie, jednotka, informační obsah zprávy, střední délka zprávy, redundance. Kód.

Více

Univerzita Karlova v Praze. Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Bc. Lukáš Unger. Vylepšení víceproudé komprese

Univerzita Karlova v Praze. Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Bc. Lukáš Unger. Vylepšení víceproudé komprese Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Bc. Lukáš Unger Vylepšení víceproudé komprese Katedra softwarového inženýrství Vedoucí diplomové práce: RNDr. Michal Žemlička, Ph.D.

Více

Predikátová logika. prvního řádu

Predikátová logika. prvního řádu Predikátová logika prvního řádu 2 Predikát Predikát je n-ární relace - vyjadřuje vlastnosti objektů a vztahy mezi objekty - z jednoduchého výroku vznikne vypuštěním alespoň jednoho jména objektu (individua)

Více

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27. Jazykové modelování Pavel Smrž 27. listopadu 2006 Osnova 1 Úvod motivace, základní pojmy 2 Modely n-tic 3 Způsob vyhodnocování 4 Vyhlazování a stahování 5 Rozšíření modelů n-tic 6 Lingvisticky motivované

Více

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory Plán přednášky Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory Obecný algoritmus pro parsování bezkontextových jazyků dynamické programování 1 Zásobníkový

Více

Strukturální rozpoznávání

Strukturální rozpoznávání Strukturální rozpoznávání 1 Strukturální rozpoznávání obsah hierarchický strukturální popis systém strukturálního rozpoznávání teorie gramatik volba popisu výběr primitiv výběr gramatiky syntaktická analýza

Více

Naproti tomu gramatika je vlastně soupis pravidel, jak

Naproti tomu gramatika je vlastně soupis pravidel, jak 1 Kapitola 1 Úvod V přednášce se zaměříme hlavně na konečný popis obecně nekonečných množin řetězců symbolů dané množiny A. Prvkům množiny A budeme říkat písmena, řetězcům (konečným posloupnostem) písmen

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Algoritmy výpočetní geometrie

Algoritmy výpočetní geometrie Algoritmy výpočetní geometrie prof. Ing. Pavel Tvrdík CSc. Katedra počítačových systémů Fakulta informačních technologií České vysoké učení technické v Praze c Pavel Tvrdík, 2010 Efektivní algoritmy (BI-EFA)

Více

Virtuální počítač. Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor. PGS K.

Virtuální počítač. Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor. PGS K. Virtuální počítač Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor Virtuální počítač Překladač Překladač : Zdrojový jazyk Cílový jazyk Analytická část:

Více

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008. Úvod do informatiky přednáška čtvrtá Miroslav Kolařík Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008. Obsah 1 Pojem relace 2 Vztahy a operace s (binárními) relacemi

Více

Kódováni dat. Kódy používané pro strojové operace

Kódováni dat. Kódy používané pro strojové operace Kódováni dat Před zpracováním dat například v počítači je třeba znaky převést do tvaru, kterému počítač rozumí, tj. přiřadit jim určité kombinace bitů. Tomuto převodu se říká kódování. Kód je předpis pro

Více

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Obsah předmětu

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Obsah předmětu 1 Podklady předmětu pro akademický rok 2006/2007 Radim Farana Obsah 2 Obsah předmětu, Požadavky kreditového systému, Datové typy jednoduché, složené, Programové struktury, Předávání dat. Obsah předmětu

Více

Programovací jazyk Pascal

Programovací jazyk Pascal Programovací jazyk Pascal Syntaktická pravidla (syntaxe jazyka) přesná pravidla pro zápis příkazů Sémantická pravidla (sémantika jazyka) pravidla, která každému příkazu přiřadí přesný význam Všechny konstrukce

Více

Formální jazyky a automaty Petr Šimeček

Formální jazyky a automaty Petr Šimeček Formální jazyky a automaty Petr Šimeček Úvod Formální jazyky a automaty jsou základním kamenem teoretické informatiky. Na počátku se zmíníme o Chomského klasifikaci gramatik, nástroje, který lze aplikovat

Více

IV. Základní pojmy matematické analýzy IV.1. Rozšíření množiny reálných čísel

IV. Základní pojmy matematické analýzy IV.1. Rozšíření množiny reálných čísel Matematická analýza IV. Základní pojmy matematické analýzy IV.1. Rozšíření množiny reálných čísel na množině R je definováno: velikost (absolutní hodnota), uspořádání, aritmetické operace; znázornění:

Více

NPRG030 Programování I, 2018/19 1 / :03:07

NPRG030 Programování I, 2018/19 1 / :03:07 NPRG030 Programování I, 2018/19 1 / 20 3. 12. 2018 09:03:07 Vnitřní třídění Zadání: Uspořádejte pole délky N podle hodnot prvků Měřítko efektivity: * počet porovnání * počet přesunů NPRG030 Programování

Více

Pro každé formule α, β, γ, δ platí: Pro každé formule α, β, γ platí: Poznámka: Platí právě tehdy, když je tautologie.

Pro každé formule α, β, γ, δ platí: Pro každé formule α, β, γ platí: Poznámka: Platí právě tehdy, když je tautologie. Zpracoval: hypspave@fel.cvut.cz 5. Výroková logika, formule výrokové logiky a jejich pravdivostní ohodnocení, splnitelné formule, tautologie, kontradikce, sémantický důsledek, tautologicky ekvivalentní

Více

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE LL SYNTAKTICKÁ ANALÝZA DOKONČENÍ, IMPLEMENTACE.

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE LL SYNTAKTICKÁ ANALÝZA DOKONČENÍ, IMPLEMENTACE. PROGRAMOVACÍ JAZYKY A PŘEKLADAČE LL SYNAKICKÁ ANALÝZA DOKONČENÍ, IMPLEMENACE. VLASNOSI LL GRAMAIK A JAZYKŮ. 2011 Jan Janoušek BI-PJP Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Gramatika

Více

Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i,

Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i, [161014-1204 ] 11 2.1.35 Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i, kde i = 0, 1,..., takto: p 0 q právě tehdy, když bud p, q F nebo p, q F. Dokud i+1 i konstruujeme p

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

5. Sekvenční logické obvody

5. Sekvenční logické obvody 5. Sekvenční logické obvody 3. Sekvenční logické obvody - úvod Sledujme chování jednoduchého logického obvodu se zpětnou vazbou 3. Sekvenční logické obvody - příklad asynchronního sekvenčního obvodu 3.

Více

Informace, kódování a redundance

Informace, kódování a redundance Informace, kódování a redundance INFORMACE = fakt nebo poznatek, který snižuje neurčitost našeho poznání (entropii) DATA (jednotné číslo ÚDAJ) = kódovaná zpráva INFORAMCE = DATA + jejich INTERPRETACE (jak

Více

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Maturitní otázky z předmětu PROGRAMOVÁNÍ Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu PROGRAMOVÁNÍ 1. Algoritmus a jeho vlastnosti algoritmus a jeho vlastnosti, formy zápisu algoritmu ověřování správnosti

Více

Přijímací zkouška - matematika

Přijímací zkouška - matematika Přijímací zkouška - matematika Jméno a příjmení pište do okénka Číslo přihlášky Číslo zadání 1 Grafy 1 Pro který z následujících problémů není znám žádný algoritmus s polynomiální časovou složitostí? Problém,

Více

Algoritmizace prostorových úloh

Algoritmizace prostorových úloh INOVACE BAKALÁŘSKÝCH A MAGISTERSKÝCH STUDIJNÍCH OBORŮ NA HORNICKO-GEOLOGICKÉ FAKULTĚ VYSOKÉ ŠKOLY BÁŇSKÉ - TECHNICKÉ UNIVERZITY OSTRAVA Algoritmizace prostorových úloh Datové struktury Daniela Szturcová

Více

Téma 22. Ondřej Nývlt

Téma 22. Ondřej Nývlt Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené

Více

Bezkontextové jazyky 2/3. Bezkontextové jazyky 2 p.1/27

Bezkontextové jazyky 2/3. Bezkontextové jazyky 2 p.1/27 Bezkontextové jazyky 2/3 Bezkontextové jazyky 2 p.1/27 Transformace bezkontextových gramatik Bezkontextové jazyky 2 p.2/27 Ekvivalentní gramatiky Definice 6.1 Necht G 1 a G 2 jsou gramatiky libovolného

Více

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE 25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE Digitalizace obrazu a komprese dat. Uveďte bitovou rychlost nekomprimovaného číslicového TV signálu a jakou šířku vysílacího pásma by s dolním částečně

Více

NMAI059 Pravděpodobnost a statistika

NMAI059 Pravděpodobnost a statistika NMAI059 Pravděpodobnost a statistika podle přednášky Daniela Hlubinky (hlubinka@karlin.mff.cuni.cz) zapsal Pavel Obdržálek (pobdr@matfyz.cz) 205/20 poslední změna: 4. prosince 205 . přednáška. 0. 205 )

Více

1. Základy teorie přenosu informací

1. Základy teorie přenosu informací 1. Základy teorie přenosu informací Úvodem citát o pojmu informace Informace je název pro obsah toho, co se vymění s vnějším světem, když se mu přizpůsobujeme a působíme na něj svým přizpůsobováním. N.

Více

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2013/2014 Radim Farana. Obsah. Kybernetika

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2013/2014 Radim Farana. Obsah. Kybernetika 2 Podklady předmětu pro akademický rok 2013/2014 Radim Farana Obsah Základní pojmy z Teorie informace, jednotka informace, informační obsah zprávy, střední délka zprávy, redundance. Přenosový řetězec.

Více