PV030 Textual Information Systems

Podobné dokumenty
Komprese dat (Komprimace dat)

PV030 Textual Information Systems

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Algoritmy komprese dat

Algoritmy komprese dat

Automaty a gramatiky(bi-aag) Formální překlady. 5. Překladové konečné automaty. h(ε) = ε, h(xa) = h(x)h(a), x, x T, a T.

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

Kompresní techniky. David Bařina. 15. února David Bařina Kompresní techniky 15. února / 37

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Kódy pro odstranění redundance, pro zabezpečení proti chybám. Demonstrační cvičení 5 INP

STRUKTURA RASTROVÝCH DAT

ZÁPADOČESKÁ UNIVERZITA V PLZNI

Úvod do teorie informace

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

Komprese a dotazování nad XML dokumenty

Teorie informace: řešené příklady 2014 Tomáš Kroupa

doplněk, zřetězení, Kleeneho operaci a reverzi. Ukážeme ještě další operace s jazyky, na které je

Množinu všech slov nad abecedou Σ značíme Σ * Množinu všech neprázdných slov Σ + Jazyk nad abecedou Σ je libovolná množina slov nad Σ

/1: Teoretická informatika(ti) přednáška 4

Vyhledávání v textu. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava

Informace v počítači. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně haluza@mendelu.cz

Osnova přednášky. Informace v počítači. Interpretace dat. Údaje, data. Úvod do teorie informace. Výpočetní technika I. Ochrana dat

Binární vyhledávací stromy pokročilé partie

Technická kybernetika. Obsah. Principy zobrazení, sběru a uchování dat. Měřicí řetězec. Principy zobrazení, sběru a uchování dat

Matematika IV 10. týden Kódování

AUTOMATY A GRAMATIKY

Výroková a predikátová logika - II

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Teorie informace II: obtížnější řešené příklady 2014 Tomáš Kroupa

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Datové struktury 2: Rozptylovací tabulky

Teorie kódování aneb jak zhustit informaci

Výroková a predikátová logika - II

7. Rozdělení pravděpodobnosti ve statistice

Kompresní metody první generace

DIPLOMOVÁ PRÁCE. Petr Uzel Entropické kodéry

Vzdálenost jednoznačnosti a absolutně

Výroková logika. Teoretická informatika Tomáš Foltýnek

Návrh Designu: Radek Mařík

Vyvažování a rotace v BVS, všude se předpokládá AVL strom

Jednoznačné a nejednoznačné gramatiky

3. Třídy P a NP. Model výpočtu: Turingův stroj Rozhodovací problémy: třídy P a NP Optimalizační problémy: třídy PO a NPO MI-PAA

Algoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19

Programy na PODMÍNĚNÝ příkaz IF a CASE

[1] samoopravné kódy: terminologie, princip

Stromy, haldy, prioritní fronty

KOMPRESE DAT ARNOŠT VEČERKA KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO

Turingovy stroje. Teoretická informatika Tomáš Foltýnek

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Databáze I. 5. přednáška. Helena Palovská

Základy algoritmizace. Pattern matching

Informační systémy ve zdravotnictví

/01: Teoretická informatika(ti) přednáška 5

Základní datové struktury III: Stromy, haldy

Regulární výrazy. Definice Množina regulárních výrazů nad abecedou Σ, označovaná RE(Σ), je definována induktivně takto:

Rekurzivní algoritmy

Bezkontextové jazyky. Bezkontextové jazyky 1 p.1/39

Formální jazyky a gramatiky Teorie programovacích jazyků

Konvolučníkódy. MI-AAK(Aritmetika a kódy)

12. Globální metody MI-PAA

3. přednáška z předmětu GIS1 atributové a prostorové dotazy

8) Jaké jsou důvody pro použití víceprůchodového překladače Dříve hlavně kvůli úspoře paměti, dnes spíše z důvodu optimalizace

Kompresní algoritmy grafiky. Jan Janoušek F11125

Výroková a predikátová logika - II

2) Napište algoritmus pro vložení položky na konec dvousměrného seznamu. 3) Napište algoritmus pro vyhledání položky v binárním stromu.

II. Úlohy na vložené cykly a podprogramy

Teorie informace Obsah. Kybernetika. Radim Farana Podklady pro výuku

Univerzita Karlova v Praze. Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Bc. Lukáš Unger. Vylepšení víceproudé komprese

Predikátová logika. prvního řádu

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory

Strukturální rozpoznávání

Naproti tomu gramatika je vlastně soupis pravidel, jak

Dolování z textu. Martin Vítek

Algoritmy výpočetní geometrie

Virtuální počítač. Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor. PGS K.

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.

Kódováni dat. Kódy používané pro strojové operace

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Obsah předmětu

Programovací jazyk Pascal

Formální jazyky a automaty Petr Šimeček

IV. Základní pojmy matematické analýzy IV.1. Rozšíření množiny reálných čísel

NPRG030 Programování I, 2018/19 1 / :03:07

Pro každé formule α, β, γ, δ platí: Pro každé formule α, β, γ platí: Poznámka: Platí právě tehdy, když je tautologie.

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE LL SYNTAKTICKÁ ANALÝZA DOKONČENÍ, IMPLEMENTACE.

Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i,

Pravděpodobně skoro správné. PAC učení 1

5. Sekvenční logické obvody

Informace, kódování a redundance

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Přijímací zkouška - matematika

Algoritmizace prostorových úloh

Téma 22. Ondřej Nývlt

Bezkontextové jazyky 2/3. Bezkontextové jazyky 2 p.1/27

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE

NMAI059 Pravděpodobnost a statistika

1. Základy teorie přenosu informací

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2013/2014 Radim Farana. Obsah. Kybernetika

Transkript:

Faculty of Informatics Masaryk University, Brno Spring 2010

Part I Kódování

Osnova(Týden jedenáctý) Kódování. Entropie, redundance. Universální kódování celých čísel. Huffmanovo kódování. Adaptivní Huffmanovo kódování.

Kódování základní pojmy Definition: Abeceda A je konečná neprázdná množina symbolů. Definition: Slovo(ˇretˇezec, zpráva) nad A je posloupnost symbolů z A. Definition: Prázdný ˇretˇezec ε je prázdná posloupnost symbolů. Množinuvšech neprázdnýchslov nad AznačímeA +. Definition:Kód Kje trojice (S,C,f), kdesje konečnámnožina zdrojových jednotek, C je konečná množina kódových jednotek, f : S C + je injektivnízobrazení. f lze rozšířitnas + C + : F(S 1 S 2...S k ) = f(s 1 )f(s 2 )...f(s k ). C + se někdynazývá kód.

Kódování základní pojmy Definition: Abeceda A je konečná neprázdná množina symbolů. Definition: Slovo(ˇretˇezec, zpráva) nad A je posloupnost symbolů z A. Definition: Prázdný ˇretˇezec ε je prázdná posloupnost symbolů. Množinuvšech neprázdnýchslov nad AznačímeA +. Definition:Kód Kje trojice (S,C,f), kdesje konečnámnožina zdrojových jednotek, C je konečná množina kódových jednotek, f : S C + je injektivnízobrazení. f lze rozšířitnas + C + : F(S 1 S 2...S k ) = f(s 1 )f(s 2 )...f(s k ). C + se někdynazývá kód.

Kódování základní pojmy Definition: Abeceda A je konečná neprázdná množina symbolů. Definition: Slovo(ˇretˇezec, zpráva) nad A je posloupnost symbolů z A. Definition: Prázdný ˇretˇezec ε je prázdná posloupnost symbolů. Množinuvšech neprázdnýchslov nad AznačímeA +. Definition:Kód Kje trojice (S,C,f), kdesje konečnámnožina zdrojových jednotek, C je konečná množina kódových jednotek, f : S C + je injektivnízobrazení. f lze rozšířitnas + C + : F(S 1 S 2...S k ) = f(s 1 )f(s 2 )...f(s k ). C + se někdynazývá kód.

Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

Základní vlastnosti kódů Definition: Blokový kód délky n je takový kód, při kterém všechna kódová slova mají délku n. Example: blokový? prefixový blokový prefixový, ale ne naopak. Definition:Kód K = (S,C,f) nazvemebinární,jestliže C = 2.

Základní vlastnosti kódů Definition: Blokový kód délky n je takový kód, při kterém všechna kódová slova mají délku n. Example: blokový? prefixový blokový prefixový, ale ne naopak. Definition:Kód K = (S,C,f) nazvemebinární,jestliže C = 2.

Základní vlastnosti kódů Definition: Blokový kód délky n je takový kód, při kterém všechna kódová slova mají délku n. Example: blokový? prefixový blokový prefixový, ale ne naopak. Definition:Kód K = (S,C,f) nazvemebinární,jestliže C = 2.

Komprese a dekomprese Definition: Komprese (kódování), dekomprese (dekódování): Komprese (kódování) původní komprimovaná data data Dekomprese (dekódování) Definition: Kompresní pomˇer je poměr délky komprimovaných dat a délky původních dat. Example: Navrhněte binární prefixový kód pro desítkové číslice, jestliže se často vyskytují čísla 3 a 4,azřídka5a6.

Komprese a dekomprese Definition: Komprese (kódování), dekomprese (dekódování): Komprese (kódování) původní komprimovaná data data Dekomprese (dekódování) Definition: Kompresní pomˇer je poměr délky komprimovaných dat a délky původních dat. Example: Navrhněte binární prefixový kód pro desítkové číslice, jestliže se často vyskytují čísla 3 a 4,azřídka5a6.

Komprese a dekomprese Definition: Komprese (kódování), dekomprese (dekódování): Komprese (kódování) původní komprimovaná data data Dekomprese (dekódování) Definition: Kompresní pomˇer je poměr délky komprimovaných dat a délky původních dat. Example: Navrhněte binární prefixový kód pro desítkové číslice, jestliže se často vyskytují čísla 3 a 4,azřídka5a6.

Entropie a redundance I Necht Y je náhodná proměnná s pravděpodobnostním rozdělením p(y) = P(Y = y). Pak matematické očekávání(střední hodnota) E(Y) = y Yyp(y). Necht S = {x 1,x 2,...,x n }množinazdrojových jednotekanecht pravděpodobnostvýskytu jednotkyx i vinformačním zdrojisje p i pro i = 1,...,n,n N. Definition:Entropieinformaˇcního obsahu jednotkyx i (míra množstvíinformace resp. neurčitosti)je H(x i ) = H i = log 2 p i bitů. Zdrojová jednotka s větší pravděpodobností nese méně informace.

Entropie a redundance II Definition: Entropie informaˇcního zdroje S je H(S) = ( log 1 ). p(y) bitů. Platí,žeH(S) = p(y)log 1 p(y) = E y Y Definition:Entropiezdrojové zprávy X = x i1 x i2...x ik S + informaˇcního zdrojesje H(X,S) = H(X) = bitů. Definition: Délka l(x) zakódované zprávy X k k l(x) = f(x ij ) = d ij bitů. j=1 j=1 Theorem:l(X) H(X,S). k H i = j=1 n p i log 2 p i i=1 k log 2 p ij j=1

Entropie a redundance II Definition: Entropie informaˇcního zdroje S je H(S) = ( log 1 ). p(y) bitů. Platí,žeH(S) = p(y)log 1 p(y) = E y Y Definition:Entropiezdrojové zprávy X = x i1 x i2...x ik S + informaˇcního zdrojesje H(X,S) = H(X) = bitů. Definition: Délka l(x) zakódované zprávy X k k l(x) = f(x ij ) = d ij bitů. j=1 j=1 Theorem:l(X) H(X,S). k H i = j=1 n p i log 2 p i i=1 k log 2 p ij j=1

Entropie a redundance II Definition: Entropie informaˇcního zdroje S je H(S) = ( log 1 ). p(y) bitů. Platí,žeH(S) = p(y)log 1 p(y) = E y Y Definition:Entropiezdrojové zprávy X = x i1 x i2...x ik S + informaˇcního zdrojesje H(X,S) = H(X) = bitů. Definition: Délka l(x) zakódované zprávy X k k l(x) = f(x ij ) = d ij bitů. j=1 j=1 Theorem:l(X) H(X,S). k H i = j=1 n p i log 2 p i i=1 k log 2 p ij j=1

Entropie a redundance III Axiomatické zavedení entropie see [MAR], detaily odvození viz ftp://www.math.muni.cz/pub/math/people/paseka/lectures/kodo k Definition:R(X) = l(x) H(X) = (d ij +log 2 p ij ) je redundance j=1 kódu Kpro zprávu X. Definition: Průmˇerná délka kódového slova kódu K je n AL(K) = p i d i bitů. i=1 Definition: Průmˇerná entropie zdroje S je n n AE(S) = p i H i = p i log 2 p i bitů. i=1 i=1 Definition: Průmˇerná redundance kódu K je n AR(K) = AL(K) AE(S) = p i (d i +log 2 p i ) bitů. i=1

Entropie a redundance III Axiomatické zavedení entropie see [MAR], detaily odvození viz ftp://www.math.muni.cz/pub/math/people/paseka/lectures/kodo k Definition:R(X) = l(x) H(X) = (d ij +log 2 p ij ) je redundance j=1 kódu Kpro zprávu X. Definition: Průmˇerná délka kódového slova kódu K je n AL(K) = p i d i bitů. i=1 Definition: Průmˇerná entropie zdroje S je n n AE(S) = p i H i = p i log 2 p i bitů. i=1 i=1 Definition: Průmˇerná redundance kódu K je n AR(K) = AL(K) AE(S) = p i (d i +log 2 p i ) bitů. i=1

Entropie a redundance III Axiomatické zavedení entropie see [MAR], detaily odvození viz ftp://www.math.muni.cz/pub/math/people/paseka/lectures/kodo k Definition:R(X) = l(x) H(X) = (d ij +log 2 p ij ) je redundance j=1 kódu Kpro zprávu X. Definition: Průmˇerná délka kódového slova kódu K je n AL(K) = p i d i bitů. i=1 Definition: Průmˇerná entropie zdroje S je n n AE(S) = p i H i = p i log 2 p i bitů. i=1 i=1 Definition: Průmˇerná redundance kódu K je n AR(K) = AL(K) AE(S) = p i (d i +log 2 p i ) bitů. i=1

Entropie a redundance III Axiomatické zavedení entropie see [MAR], detaily odvození viz ftp://www.math.muni.cz/pub/math/people/paseka/lectures/kodo k Definition:R(X) = l(x) H(X) = (d ij +log 2 p ij ) je redundance j=1 kódu Kpro zprávu X. Definition: Průmˇerná délka kódového slova kódu K je n AL(K) = p i d i bitů. i=1 Definition: Průmˇerná entropie zdroje S je n n AE(S) = p i H i = p i log 2 p i bitů. i=1 i=1 Definition: Průmˇerná redundance kódu K je n AR(K) = AL(K) AE(S) = p i (d i +log 2 p i ) bitů. i=1

Entropie a redundance IV Definition: Kód je optimální, když má minimální redundanci. Definition: Kód je asymptoticky optimální, pokud pro dané rozložení pravděpodobností se poměr AL(K)/AE(S) blíží k 1, když se entropie blíží. Definition:Kód Kje universální,jestliže existují c 1,c 2 Rtak,že průměrnádélka kódovéhoslova AL(K) c 1 AE+c 2. Theorem:Universálníkódje asymptoticky optimální,jestliže c 1 = 1.

Universální kódování celých čísel Definition: Fibonacciho posloupnost ˇrádu m F n = F n m +F n m+1 +...+F n 1 pron 1. Example:F řádu 2: F 1 = 0,,F 0 = 1, F 1 = 1, F 2 = 2,F 3 = 3,F 4 = 5, F 5 = 8,... Example:F řádu 3: F 2 = 0, F 1 = 0, F 0 = 1, F 1 = 1, F 2 = 2,F 3 = 4, F 4 = 7, F 5 = 13,... Example:F řádu 4: F 3 = 0, F 2 = 0, F 1 = 0, F 0 = 1, F 1 = 1, F 2 = 2, F 3 = 4,F 4 = 8,F 5 = 15,... Definition:Fibonaccihoreprezentace R(N) = k i=1 d if i,kde d i {0,1}, d k = 1 Theorem: Fibonacciho reprezentace není jednoznačná, existuje však taková,ževposloupnostid i je nejvýše m 1 posobějdoucích jedniček.

Fibonacciho kódy Definition:Fibonaccihokód ˇrádu m FK m (N) = d 1 d 2...d k 1...1,kde }{{} m 1 krát d i jsoukoeficientyzpředchozívěty(jedničkyukončujíslovo). Example:R(32) = 0 1+0 2+1 3+0 5+1 8+0 13+1 21, tedy F(32) = 00101011. Theorem:FK(2) je prefixový,universální kódsc 1 = 2, c 2 = 3,tedynení asymptoticky optimální.

Universální kódování celých čísel II asymptoticky optimální universální kód, c 1 = 1,doN = 514228jsou lepší Fibonacciho kódy řádu n(fk(n)). unárníkód α(n) = 00...01. }{{} N 1 binárníkód β(1) = 1,β(2N+j) = β(n)j,j=0,1. β není jednoznačně dekódovatelný (není prefixový). ternárníτ(n) = β(n)#. β (1) = ǫ,β (2N) = β (N)0,β (2N+1) = β (N)1,τ (N) = β (N)#. γ: každý bitβ (N)je vložen mezidvojici bitů zα( β(n) ). příklad: γ(6) = 01001 C γ = {γ(n) : N > 0} = (0{0,1}) 1 jeregulárníatedydekódovatelná konečným automatem.

Universální kódování celých čísel III γ (N) = α( β(n) )β (N) stejnédélky (permutace bitůγ(n)), ale čitelnější C γ = {γ (N) : N > 0} = {0 k 1{0,1} k : k 0} neníregulárnía dekodér potřebuje čítač δ(n) = γ( β(n) )β (N) příklad: δ(4) = γ(3)00 = 01100 dekodér δ: δ(?) = 0011? ω: K := 0; while log 2 (N) > 0 do begink := β(n)k; N := log 2 (N) end.

Komprese dat úvod Kódování informace pro komunikační účely; komprese dat. Přes bouřlivý vývoj kapacit pro uložení dat stále nedostatek místa. Redundance konstrukce minimálně redundantního kódu. Modeldat: struktura sada jednotek ke komprimaci + kontext výskytů; parametry pravděpodobnost výskytu jednotlivých jednotek. Komprimace: 1 vytvoření modelu dat; 2 vlastní kódování.

Komprese dat vývoj 1838 Morse,kód edle četnosti. 1949 Shannon, Fano, Weaver. 1952 Huffman;5bitůnaznak. 1979 Ziv-Lempel; compress(roden, Welsh, Bell, Knuth, Miller, Wegman, Fiala,Green,...);4bityna znak. osmdesátá a devadesátá léta PPM, DMC, gzip(zlib), SAKDC; 2 3 bity/znak přelom tisíciletíbzip2;2bitynaznak....?

Vývoj kompresních algoritmů 6 5 Huffman Komprese (bitů na znak) 4 3 2 LZ78 LZ77 compress GZip DMC PPM SAKDC 1 1950 1960 1970 1980 1990 2000 rok

Predikce a modelování redundance(nestejnoměrná pravděpodobnost výskytu zdrojových jednotek) kodér, dekodér, model statické modelování(model nezávisí na konkrétních datech) semiadaptivní modelování (model závisí na datech, 2 průchody, nutnost přenosu modelu) adaptivní modelování(1. průchod, model vytvářen dynamicky u kodéra i dekodéra)

Predikce a modelování modely řádu 0 pravděpodobnosti izolovaných zdrojových jednotek(př. Morse, písmeno e) modely s konečným kontextem Markovovy modely, modely řádu n(př. Bach), P(a x 1 x 2...x n ) modely založené na konečných automatech synchronizační řetěz, nesynchronizační řetěz automat s konečným kontextem vhodné pro regulární jazyky, nevhodné pro bezkontextové jazyky,p(a q i )

Osnova(Týden jedenáctý) Huffmanovo kódování. Adaptivní Huffmanovo kódování. Aritmetické kódování. Slovníkové metody. Signaturové metody. Podobnost dokumentů. Komprese pomocí neuronových sítí.

Statistické metody komprese I Znakové techniky nullsupression nahrazeníopakování 2 znakunull, 255, speciální znaks c run-lengthencoding(rle) S c XC c zobecněnína libovolný opakujícíse znak$ 55 $S c 655 MNPClass 5 RLE CXXX DDDDDBBAAAA 5DDDBB4AAA half-byte packing,(ebcdic, ASCII) SI, SO diatomic encoding; nahrazování dvojic znaků jedním Byte Pair Encoding, BPE (Gage, 1994) pattern substitution Gilbert Held: Data & Image Compression

Statistické metody komprese II Shannon-Fano, 1949, model řádu 0, prefixový kód, kódový strom. kódováslova délky log 2 p i nebo log 2 p i +1 AE AL AE+1. kódový strom(2,2,2,2,4,4,8). obecně není optimální, dva průchody kodéru textem, statický

Shannon-Fano kódování Vstup: posloupnost n zdrojových jednoteks[i],1 i n, v pořadí neklesajících pstí. Výstup: n binárních kódových slov. begin přiřad všem kódovým jednotkám prázdný řetěz; SF-SPLIT(S) end procedure SF-SPLIT(S); beginif S 2then beginrozděl Sdoposloupností S1aS2tak, žeobě posloupnosti mají přibližně stejnou celkovou pst; přidejkevšem kódovým slovům zs10; přidejkevšem kódovým slovům zs21; SF-SPLIT(S1); SF-SPLIT(S2); end end

Huffmanovo kódování Huffmanovo kódování, 1952. varianty statická a dynamická. AEPL = n i=1 d[i]p[i]. optimální kód(ne jediný možný). O(n) za předpokladu utříděnosti zdrojových jednotek. stabilní rozložení příprava předem. Example: (2,2,2,2,4,4,8)

Huffmanovo kódování sourozenecká vlastnost Definition: Binární strom má sourozeneckou vlastnost právě tehdy, když 1 každý uzel kromě kořene má sourozence, 2 uzly mohou být seřazeny v pořadí neklesající posloupnosti tak, že každý uzel(kromě kořene) sousedící v seznamu s nějakým uzlem je jeho sourozenec(leví synové budou na lichých místech v seznamu a praví synové na sudých).

Huffmanovo kódování vlastnosti Huffmanových stromů Theorem: Binární prefixový kód je Huffmanův má sourozeneckou vlastnost. 2n 1 uzlů,max. 2n 1 možností, optimální binární prefixový kód, který není Huffmanův AR(X) p n +0,086, p n maximální pravděpodobnostzdrojové jednotky. Huffman je úplný, (špatná detekce chyb). možnorozšíritnaafixový kód, KWIC,levý apravýkontext, hledání X

Adaptivní Huffmanovo kódování FGK(Faller, Gallager, Knuth) potlačení minulosti zapomínacím koeficientem, zaokrouhlování, 1, r,r 2,r n. lineární čas kódování i dekódování vzhledem k délce slova. AL HD 2AL HS. VitterAL HD AL HS +1. implementační detaily, stromová reprezentace kódové tabulky.

Princip aritmetického kódování zobecnění Huffmanova kódování(pravděpodobnosti zdrojových jednotek nemusí být záporné mocniny dvou). uspořádání na zdrojových jednotkách; Kumulativní pravdˇepodobnost cp i = i 1 j=1 p j zdrojovéjednotkyx i s pravděpodobnostíp i. Výhody: libovolná blízkost entropii. adaptivnost je možná. rychlost.

Princip aritmetického kódování zobecnění Huffmanova kódování(pravděpodobnosti zdrojových jednotek nemusí být záporné mocniny dvou). uspořádání na zdrojových jednotkách; Kumulativní pravdˇepodobnost cp i = i 1 j=1 p j zdrojovéjednotkyx i s pravděpodobnostíp i. Výhody: libovolná blízkost entropii. adaptivnost je možná. rychlost.

Princip aritmetického kódování zobecnění Huffmanova kódování(pravděpodobnosti zdrojových jednotek nemusí být záporné mocniny dvou). uspořádání na zdrojových jednotkách; Kumulativní pravdˇepodobnost cp i = i 1 j=1 p j zdrojovéjednotkyx i s pravděpodobnostíp i. Výhody: libovolná blízkost entropii. adaptivnost je možná. rychlost.

Slovníkové metody komprese dat Definition:Slovník je dvojice D = (M,C), kdemje konečnámnožinaslov zdrojového jazyka, C zobrazení M na množinu kódových slov. Definition:L(m) značí délkukódovéhoslova C(m) v bitech,pro m M. Výběr zdrojových jednotek: statický(dohoda na slovníku předem) semiadaptivní(nutné dva průchody textem) adaptivní

Slovníkové metody komprese dat Definition:Slovník je dvojice D = (M,C), kdemje konečnámnožinaslov zdrojového jazyka, C zobrazení M na množinu kódových slov. Definition:L(m) značí délkukódovéhoslova C(m) v bitech,pro m M. Výběr zdrojových jednotek: statický(dohoda na slovníku předem) semiadaptivní(nutné dva průchody textem) adaptivní

Slovníkové metody komprese dat Definition:Slovník je dvojice D = (M,C), kdemje konečnámnožinaslov zdrojového jazyka, C zobrazení M na množinu kódových slov. Definition:L(m) značí délkukódovéhoslova C(m) v bitech,pro m M. Výběr zdrojových jednotek: statický(dohoda na slovníku předem) semiadaptivní(nutné dva průchody textem) adaptivní

Statické slovníkové metody Zdrojová jednotka délky n n-gramy Nejčastější bigramy(n = 2) npevné n proměnné(dle frekvencí výskytu) adaptivní (50 % anglického textu je tvořeno asi 150 nejfrekventovanějšími slovy) Nevýhody: nejsou schopny reagovat na rozdělení pravděpodobností komprimovaných dat předem připravený slovník

Statické slovníkové metody Zdrojová jednotka délky n n-gramy Nejčastější bigramy(n = 2) npevné n proměnné(dle frekvencí výskytu) adaptivní (50 % anglického textu je tvořeno asi 150 nejfrekventovanějšími slovy) Nevýhody: nejsou schopny reagovat na rozdělení pravděpodobností komprimovaných dat předem připravený slovník

Statické slovníkové metody Zdrojová jednotka délky n n-gramy Nejčastější bigramy(n = 2) npevné n proměnné(dle frekvencí výskytu) adaptivní (50 % anglického textu je tvořeno asi 150 nejfrekventovanějšími slovy) Nevýhody: nejsou schopny reagovat na rozdělení pravděpodobností komprimovaných dat předem připravený slovník

Semiadaptivní slovníkové metody Slovník Komprimovaná data Komprimovaný slovník Komprimovaná data Výhody: rozsáhlá data(slovník je malá část dat korpusy; CQP).

Semiadaptivní slovníkové metody Slovník Komprimovaná data Komprimovaný slovník Komprimovaná data Výhody: rozsáhlá data(slovník je malá část dat korpusy; CQP).

Semiadaptivní slovníkové metody postup vytvoření slovníku 1 Určí se frekvence N-gramů pron = 1,2,... 2 Slovník se inicializuje vložením unigramů. 3 Do slovníku se postupně přidávají N-gramy (N > 1) s největší frekvencí. Při vložení K-gramu se snižuje frekvence jeho složek (K 1)-gramů, (K 2)-gramů... Jestližese díkysnižování frekvencí frekvence nějaké položky velmi sníží, je ze slovníku vyloučena.

Semiadaptivní slovníkové metody postup vytvoření slovníku 1 Určí se frekvence N-gramů pron = 1,2,... 2 Slovník se inicializuje vložením unigramů. 3 Do slovníku se postupně přidávají N-gramy (N > 1) s největší frekvencí. Při vložení K-gramu se snižuje frekvence jeho složek (K 1)-gramů, (K 2)-gramů... Jestližese díkysnižování frekvencí frekvence nějaké položky velmi sníží, je ze slovníku vyloučena.

Semiadaptivní slovníkové metody postup vytvoření slovníku 1 Určí se frekvence N-gramů pron = 1,2,... 2 Slovník se inicializuje vložením unigramů. 3 Do slovníku se postupně přidávají N-gramy (N > 1) s největší frekvencí. Při vložení K-gramu se snižuje frekvence jeho složek (K 1)-gramů, (K 2)-gramů... Jestližese díkysnižování frekvencí frekvence nějaké položky velmi sníží, je ze slovníku vyloučena.

Adaptivní slovníkové metody LZ77 metody posuvného okna LZ78 metody rostoucího slovníku a b c b a b b a a b a c b zakódovaná část nezakód. část (okno, N 8192) ( B 10 20b) V zakódované části je vyhledána nejdelší předpona P řetězu v nezakódované oblasti. Pokud je takový řetězsnalezen,pakp jezakódováno pomocí (I,J,A), kde Ije vzdálenostprvníhoznakusodhranice,jje délkařetězusaajeprvní znakza předponoup. Oknoje posunuto oj+1znaků doprava. Jestliže podřetězsnalezennebyl,pakjevytvořena trojice (0,0,A),kdeAje prvníznak nezakódované části.

Adaptivní slovníkové metody LZ77 metody posuvného okna LZ78 metody rostoucího slovníku a b c b a b b a a b a c b zakódovaná část nezakód. část (okno, N 8192) ( B 10 20b) V zakódované části je vyhledána nejdelší předpona P řetězu v nezakódované oblasti. Pokud je takový řetězsnalezen,pakp jezakódováno pomocí (I,J,A), kde Ije vzdálenostprvníhoznakusodhranice,jje délkařetězusaajeprvní znakza předponoup. Oknoje posunuto oj+1znaků doprava. Jestliže podřetězsnalezennebyl,pakjevytvořena trojice (0,0,A),kdeAje prvníznak nezakódované části.

LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

LZSS (Bell, Storer, Szymanski) Kódem je posloupnost ukazatelů a znaků. Ukazatel(i, j) potřebuje pamět jakpznaků ukazateljen tehdy, kdyžušetříme, ale je třeba bit na rozlišení znaku od ukazatele. Počet položek slovníku je M = t+(n B) (B p) (uvažujíse jen podřetězydelší nežp). Počet bitů na zakódování je L(m) = 1+ log 2 t pro m T L(m) = 1+ log 2 N + log 2 (B p) jinak. (Délku d podřetězu můžeme reprezentovat jako B p).

LZB (Bell), LZH (Brent) Ukazatel(i, j) (analogie LZSS) Jestliže oknoneníplné(na začátku)a komprimovaný text je kratší než N, je plýtvání použitílog 2 Nbytů nazakódováníi. LZB používáfázování při bin. kód. prefixový kód s rostoucím počtem bitů pro rostoucí hodnoty čísel. Pro kódováníj používálzb Eliasův kódγ. LZSS, kde pro kódování ukazatelů je použito Huffmanovo kódování(tj. dle rozložení jejich pravděpodobností 2 průchody)

LZB (Bell), LZH (Brent) Ukazatel(i, j) (analogie LZSS) Jestliže oknoneníplné(na začátku)a komprimovaný text je kratší než N, je plýtvání použitílog 2 Nbytů nazakódováníi. LZB používáfázování při bin. kód. prefixový kód s rostoucím počtem bitů pro rostoucí hodnoty čísel. Pro kódováníj používálzb Eliasův kódγ. LZSS, kde pro kódování ukazatelů je použito Huffmanovo kódování(tj. dle rozložení jejich pravděpodobností 2 průchody)

Metody s rostoucím slovníkem Hlavní myšlenka: slovník obsahuje fráze. Nová fráze tak, že již existující fráze je rozšířena o symbol. Fráze je zakódována indexem předpony a přidaným symbolem.

LZ78 příklad Vstupní a b ab c ba Index 1 2 3 4 5 Výstup (0,a) (0,b) (1,b) (0,c) (2,a) Vstupní bab aa aaa aaaa... Index 6 7 8 9 Výstup (5,b) (1,a) (7,a) (8,a) 7 a a 0 a b c 1 2 a b a 3 5 b 8 6 9 4...

LZFG(Fiala, Green) Slovník uložen ve stromové struktuře, hrany ohodnoceny řetězy znaků. Tytořetězyjsouvokněakaždýuzelstromuobsahujeukazateldookna a identifikující symboly na cestě z kořene do uzlu.

LZW (Welch), LZC Výstupem jsou pouze indexy, nebo slovník je iniciován položkami pro všechny vstupní symboly, poslední symbol každé fráze je prvním symbolem následující fráze. Vstup a b a b c b a b a b a a a a a Index 4 5 6 7 8 9 10 Výstup 1 2 4 3 5 8 1 10 11 Přeplnění další fráze není předávána a kódování pokračuje staticky. jetolzw+ Ukazatele jsou kódovány s prodlužující se délkou. Jakmile se kompresní poměr začne snižovat, slovník se vymaže a začíná se od začátku.

LZT, LZMW, LZJ Jako LZC, ale při přeplnění slovníku se ze slovníku vylučují fráze, které byly v nedávné minulosti nejméně použity. Používá frázování při bin. kód. indexů frází. Jako LZT, ale nová fráze se nevytváří přidáním jednoho symbolu k předchozí, ale konstruuje novou frázi zřetězením dvou posledně zakódovaných. Jiný princip konstrukce slovníku: Na začátku vloženy jednotlivé symboly. Slovník uložen ve stromu a obsahuje všechny podřetězy zprac. řetězem do délky h. Plný slovník statický postup, vynechávání uzlů s nízkou frekvencí použití.

Slovníkové metody s restrukturalizací slovníku Průběžné uspořádávávání zdrojových jednotek kratší řetězce kódu. Varianty heuristik(četnost, přesun na začátek (BSTW), výměna s předcházejícím, přesun o K vpřed). BSTW(výhoda: vysoká lokalita výskytů menšího počtu zdrojových jednotek). Example: Jádo lesa nepojedu,...,1 n 2 n k n. Zobecnění: koeficient nedávnosti, Intervalové kódování.

Intervalové kódování Reprezentace slova celkovým počtem slov od posledního výskytu. Slovníkobsahujeslova a 1,a 2,...,a n,vstupníposloupnostx 1,x 2,..., x m. HodnotaLAST(a i ) obsahujícíintervalod posledníhovýskytu je inicializovaná na nulu. fort := 1 to mdo begin{x t = a i } iflast(x t = 0)theny(t) = t+i 1 elsey(t) = t LAST(x t ); LAST(x t ):=t end. Posloupnosty 1,y 2,...,y m je výstupemkodéruamůžebýt zakódována některým kódem proměnné délky.

Syntaktické metody je známa gramatika jazyka zprávy. levý rozklad derivačního stromu řetězce. globální číslování pravidel. lokální číslování pravidel. jsou kódovány rozhodovací stavy LR analyzátoru.

Kontextové modelování pevnýkontext model řádun. kombinovaný přístup kontexty různých délek. p(x) = m n=0 w np n (x). w n pevné,proměnné. náročnéna čas a pamět. přiřazenípravděpodobnostinovézdrojové jednotce: e = 1 C n +1. automaty s konečným kontextem. dynamické Markovovo modelování.

Kontrola správnosti textu Kontrola textu pomocí frekvenčního slovníku. Kontrola textu pomocí dvojitého slovníku. Interaktivní kontrola textu(ispell). Kontrola textu založená na pravidelnosti slov, koeficient podivnosti.

Koeficient podivnosti Koeficient podivnosti trigramu xyz KPT = [log(f(xy) 1)+log(f(yz) 1)]/2 log(f(xyz) 1),kdef(xy) resp. f(xyz) jsou relativní frekvence digramu resp. trigramu, log(0) je definován jako 10. n Koeficient podivnosti slova KPS = (KPT i SKPT 2 ),kdekpt i je i=1 koeficient podivnosti i-tého trigramu SKPT je střední hodnota koeficientu podivnosti všech trigramů obsažených ve slově.

Koeficient podivnosti Koeficient podivnosti trigramu xyz KPT = [log(f(xy) 1)+log(f(yz) 1)]/2 log(f(xyz) 1),kdef(xy) resp. f(xyz) jsou relativní frekvence digramu resp. trigramu, log(0) je definován jako 10. n Koeficient podivnosti slova KPS = (KPT i SKPT 2 ),kdekpt i je i=1 koeficient podivnosti i-tého trigramu SKPT je střední hodnota koeficientu podivnosti všech trigramů obsažených ve slově.

Dotazování a modely TIS Booleovský model Různé metody hierarchizace a uložení dokumentů různé možnosti a efektivita dotazování. Booleovský model, SQL. Vektorový model. Rozšířené booleovské modely. Pravděpodobnostní model. Model shluků dokumentů.

Booleovský model Blairovo ladění dotazu Vyhledávání spočívá ve zmenšování neurčitosti tazatele (ladění dotazu). 1 Najdeme dokument s vysokou relevancí. 2 Začneme se dotazovat s jeho klíčovými slovy. 3 Odstraňujeme deskriptory, resp. je nahrazujeme disjunkcemi.

Booleovský model Blairovo ladění dotazu Vyhledávání spočívá ve zmenšování neurčitosti tazatele (ladění dotazu). 1 Najdeme dokument s vysokou relevancí. 2 Začneme se dotazovat s jeho klíčovými slovy. 3 Odstraňujeme deskriptory, resp. je nahrazujeme disjunkcemi.

Booleovský model Blairovo ladění dotazu Vyhledávání spočívá ve zmenšování neurčitosti tazatele (ladění dotazu). 1 Najdeme dokument s vysokou relevancí. 2 Začneme se dotazovat s jeho klíčovými slovy. 3 Odstraňujeme deskriptory, resp. je nahrazujeme disjunkcemi.

Booleovský model Infomap snaha o sémantické dotazování Systém http://infomap.stanford.edu pro práci s hledaným významem/konceptem(na rozdíl od pouhých řetězců znaků). Správný dotaz je polovina odpovědi. Vyhledávání spočívá v určení sémanticky nejbližších termů.

Booleovský model Booleovský model 50. léta: reprezentace dokumentů pomocí množin termů a dotazování založené na vyhodnocování booleovských výrazů. Výraz dotazu: induktivně z primitiv: term jméno atributu = hodnota atributu(porovnání) jméno funkce(term) (aplikace funkce) a dále pomocí závorekalogických spojek Xand Y,Xor Y,Xxor Y, not Y. disjunktivní normální forma, konjunktivní normální forma proximitní operátory regulární výrazy použití tezauru

Booleovský model Booleovský model 50. léta: reprezentace dokumentů pomocí množin termů a dotazování založené na vyhodnocování booleovských výrazů. Výraz dotazu: induktivně z primitiv: term jméno atributu = hodnota atributu(porovnání) jméno funkce(term) (aplikace funkce) a dále pomocí závorekalogických spojek Xand Y,Xor Y,Xxor Y, not Y. disjunktivní normální forma, konjunktivní normální forma proximitní operátory regulární výrazy použití tezauru

Jazyky pro vyhledávání SQL Booleovský model booleovské operátory and, or, xor, not. poziční operátory adj,(n) words, with, same, syn. SQL rozšíření: operace/dotazy s využitím tezauru BT(A) Broader term NT(A) Narrower term PT(A) Preferred term SYN(A) Synonyma termu A RT(A) Related term TT(A) Top term

Dotazování SQL příklady Booleovský model ORACLE SQL*TEXTRETRIEVAL SELECT specifikace_polozek FROM specifikace_tabulek WHERE polozka CONTAINS textovy_vyraz Example: SELECT TITLE FROM BOOK WHERE ABSTRACT CONTAINS TEXT AND RT(RETRIEVAL) řetěz řetěz * * řetěz ře?ěz ře%těz řetěza (m,n) řetězb víceslovná fráze BT( řetěz,n) BT( řetěz,*) NT( řetěz,n)

Dotazování SQL příklady Booleovský model Example: SELECT JMENO FROM ZAMESTNANEC WHERE VZDELANI CONTAINS RT(UNIVERSITA) AND JAZYKY CONTAINS ANGLICTINA AND NEMCINA AND PUBLIKACE CONTAINS KNIHA OR NT( KNIHA,*)

Booleovský model Stilesova technika/ asociační faktor asoc(q A,Q B ) = log 10 (fn AB N/2) 2 N AB(N A)(N B) A početdokumentů,,zasažených dotazem Q A B počet dokumentů,,zasažených dotazemq B (jehož relevanci počítáme) f počet dokumentů,,zasažených oběma dotazy N celkový početdokumentůvtis cutoff (relevantní/ nerelevantní) clustering/hnízdˇení 1. generace, 2. generace,...

Booleovský model Vektorový model Vektorový model dokumentů: Necht a 1,...,a n termy, D 1,...,D m dokumenty,amaticerelevance W = (w ij )typum,n, Dotaz Q = (q 1,...,q n ) { 0 nenírelevantní w ij 0,1 1 je relevantní S(Q,D i ) = i q iw ij koeficient podobnosti head(sort(s(q,d i ))) odpověd

Vektorový model: pros & cons Booleovský model CONS: nebere vúvahu? a?? nebo? PROS: možné vylepšení: normování vah Frekvence termu TF m Inverznífrekvence dokumentuidf log 2 k Rozlišení termů TD normování vah pro dokument: j TD3 j ( ) normování vah pro dotaz: 1 2 1 2 TF m maxtf i log 2 k [POK, strany 85 113].

Automatické strukturování textů Booleovský model Vzájemné vazby mezi dokumenty v TIS. Encyklopedie (OSN, Funk and Wagnalls New Encyclopedia). [SBA] http://columbus.cs.nott.ac.uk/compsci/epo/epodd/ep056gs Google/CiteSeer:,,automatic structuring of text files

Podobnost dokumentů Booleovský model Nejčastější kosinová míra výhody. Detailní přehled používaných podobnostních funkcí viz kapitola 5.7 z[kor] (podobnost).

Uložení lexikonu Booleovský model [MeM] Mehryar Mohri: On Some Applications of Finite-State Automata Theory to Natural Language Processing, Natural Language Engineering, 2(1):61 80, 1996. http://www.research.att.com/~mohri/cl1.ps.gz

Signaturové metody Booleovský model Vyhledávací metody IV. Předzpracování textu i vzorku(signaturové metody). řetězené vrstvené Dále [POK, strany 65 76], see [MAR].

Seznam materiálů u Marečka Booleovský model [MAR] Materiály k předmětu PV030 ke zkopírování v knihkupectví Mareček a v materiálech předmětu v ISu. 1 Slidy přednášek předmětu, 4 slidy na list A4. 2 kopie[mel]. 3 kopie[pok]. 4 článek [MEH]. 5 materiály o Google [GOO] (plus české shrnutí). 6 kapitola 5.7 z [KOR](podobnost). 7 [MeM]. 8 ostatní (NLP, diagram s kompresními algoritmy,...).