PV030 Textual Information Systems

Transkript

1 Faculty of Informatics Masaryk University, Brno Spring 2010

2 Part I Kódování

3

4 Osnova(Týden jedenáctý) Kódování. Entropie, redundance. Universální kódování celých čísel. Huffmanovo kódování. Adaptivní Huffmanovo kódování.

5 Kódování základní pojmy Definition: Abeceda A je konečná neprázdná množina symbolů. Definition: Slovo(ˇretˇezec, zpráva) nad A je posloupnost symbolů z A. Definition: Prázdný ˇretˇezec ε je prázdná posloupnost symbolů. Množinuvšech neprázdnýchslov nad AznačímeA +. Definition:Kód Kje trojice (S,C,f), kdesje konečnámnožina zdrojových jednotek, C je konečná množina kódových jednotek, f : S C + je injektivnízobrazení. f lze rozšířitnas + C + : F(S 1 S 2...S k ) = f(s 1 )f(s 2 )...f(s k ). C + se někdynazývá kód.

8 Základní vlastnosti kódů Definition:x C + je jednoznaˇcnˇedekódovatelný vzhledem kf, jestliže existuje maximálnějedna posloupnosty S + taková,že f(y) = x. Definition: Kód K = (S, C, f) je jednoznaˇcnˇe dekódovatelný jestliže jsou jednoznačnědekódovatelnévšechnyřetězyvc +. Definition: Kód se nazývá prefixový, jestliže žádné kódové slovo není prefixem jiného. Definition: Kód se nazývá sufixový, jestliže žádné kódové slovo není sufixem jiného. Definition: Kód se nazývá afixový, jestliže je prefixový i sufixový. Definition: Kód je úplný jestliže po přidání libovolného dalšího kódového slova vznikne kód, který není jednoznačně dekódovatelný.

14 Základní vlastnosti kódů Definition: Blokový kód délky n je takový kód, při kterém všechna kódová slova mají délku n. Example: blokový? prefixový blokový prefixový, ale ne naopak. Definition:Kód K = (S,C,f) nazvemebinární,jestliže C = 2.

17 Komprese a dekomprese Definition: Komprese (kódování), dekomprese (dekódování): Komprese (kódování) původní komprimovaná data data Dekomprese (dekódování) Definition: Kompresní pomˇer je poměr délky komprimovaných dat a délky původních dat. Example: Navrhněte binární prefixový kód pro desítkové číslice, jestliže se často vyskytují čísla 3 a 4,azřídka5a6.

20 Entropie a redundance I Necht Y je náhodná proměnná s pravděpodobnostním rozdělením p(y) = P(Y = y). Pak matematické očekávání(střední hodnota) E(Y) = y Yyp(y). Necht S = {x 1,x 2,...,x n }množinazdrojových jednotekanecht pravděpodobnostvýskytu jednotkyx i vinformačním zdrojisje p i pro i = 1,...,n,n N. Definition:Entropieinformaˇcního obsahu jednotkyx i (míra množstvíinformace resp. neurčitosti)je H(x i ) = H i = log 2 p i bitů. Zdrojová jednotka s větší pravděpodobností nese méně informace.

21 Entropie a redundance II Definition: Entropie informaˇcního zdroje S je H(S) = ( log 1 ). p(y) bitů. Platí,žeH(S) = p(y)log 1 p(y) = E y Y Definition:Entropiezdrojové zprávy X = x i1 x i2...x ik S + informaˇcního zdrojesje H(X,S) = H(X) = bitů. Definition: Délka l(x) zakódované zprávy X k k l(x) = f(x ij ) = d ij bitů. j=1 j=1 Theorem:l(X) H(X,S). k H i = j=1 n p i log 2 p i i=1 k log 2 p ij j=1

24 Entropie a redundance III Axiomatické zavedení entropie see [MAR], detaily odvození viz ftp:// k Definition:R(X) = l(x) H(X) = (d ij +log 2 p ij ) je redundance j=1 kódu Kpro zprávu X. Definition: Průmˇerná délka kódového slova kódu K je n AL(K) = p i d i bitů. i=1 Definition: Průmˇerná entropie zdroje S je n n AE(S) = p i H i = p i log 2 p i bitů. i=1 i=1 Definition: Průmˇerná redundance kódu K je n AR(K) = AL(K) AE(S) = p i (d i +log 2 p i ) bitů. i=1

28 Entropie a redundance IV Definition: Kód je optimální, když má minimální redundanci. Definition: Kód je asymptoticky optimální, pokud pro dané rozložení pravděpodobností se poměr AL(K)/AE(S) blíží k 1, když se entropie blíží. Definition:Kód Kje universální,jestliže existují c 1,c 2 Rtak,že průměrnádélka kódovéhoslova AL(K) c 1 AE+c 2. Theorem:Universálníkódje asymptoticky optimální,jestliže c 1 = 1.

29 Universální kódování celých čísel Definition: Fibonacciho posloupnost ˇrádu m F n = F n m +F n m F n 1 pron 1. Example:F řádu 2: F 1 = 0,,F 0 = 1, F 1 = 1, F 2 = 2,F 3 = 3,F 4 = 5, F 5 = 8,... Example:F řádu 3: F 2 = 0, F 1 = 0, F 0 = 1, F 1 = 1, F 2 = 2,F 3 = 4, F 4 = 7, F 5 = 13,... Example:F řádu 4: F 3 = 0, F 2 = 0, F 1 = 0, F 0 = 1, F 1 = 1, F 2 = 2, F 3 = 4,F 4 = 8,F 5 = 15,... Definition:Fibonaccihoreprezentace R(N) = k i=1 d if i,kde d i {0,1}, d k = 1 Theorem: Fibonacciho reprezentace není jednoznačná, existuje však taková,ževposloupnostid i je nejvýše m 1 posobějdoucích jedniček.

30 Fibonacciho kódy Definition:Fibonaccihokód ˇrádu m FK m (N) = d 1 d 2...d k 1...1,kde }{{} m 1 krát d i jsoukoeficientyzpředchozívěty(jedničkyukončujíslovo). Example:R(32) = , tedy F(32) = Theorem:FK(2) je prefixový,universální kódsc 1 = 2, c 2 = 3,tedynení asymptoticky optimální.

31 Universální kódování celých čísel II asymptoticky optimální universální kód, c 1 = 1,doN = jsou lepší Fibonacciho kódy řádu n(fk(n)). unárníkód α(n) = }{{} N 1 binárníkód β(1) = 1,β(2N+j) = β(n)j,j=0,1. β není jednoznačně dekódovatelný (není prefixový). ternárníτ(n) = β(n)#. β (1) = ǫ,β (2N) = β (N)0,β (2N+1) = β (N)1,τ (N) = β (N)#. γ: každý bitβ (N)je vložen mezidvojici bitů zα( β(n) ). příklad: γ(6) = C γ = {γ(n) : N > 0} = (0{0,1}) 1 jeregulárníatedydekódovatelná konečným automatem.

32 Universální kódování celých čísel III γ (N) = α( β(n) )β (N) stejnédélky (permutace bitůγ(n)), ale čitelnější C γ = {γ (N) : N > 0} = {0 k 1{0,1} k : k 0} neníregulárnía dekodér potřebuje čítač δ(n) = γ( β(n) )β (N) příklad: δ(4) = γ(3)00 = dekodér δ: δ(?) = 0011? ω: K := 0; while log 2 (N) > 0 do begink := β(n)k; N := log 2 (N) end.

33 Komprese dat úvod Kódování informace pro komunikační účely; komprese dat. Přes bouřlivý vývoj kapacit pro uložení dat stále nedostatek místa. Redundance konstrukce minimálně redundantního kódu. Modeldat: struktura sada jednotek ke komprimaci + kontext výskytů; parametry pravděpodobnost výskytu jednotlivých jednotek. Komprimace: 1 vytvoření modelu dat; 2 vlastní kódování.

34 Komprese dat vývoj 1838 Morse,kód edle četnosti Shannon, Fano, Weaver Huffman;5bitůnaznak Ziv-Lempel; compress(roden, Welsh, Bell, Knuth, Miller, Wegman, Fiala,Green,...);4bityna znak. osmdesátá a devadesátá léta PPM, DMC, gzip(zlib), SAKDC; 2 3 bity/znak přelom tisíciletíbzip2;2bitynaznak....?

35 Vývoj kompresních algoritmů 6 5 Huffman Komprese (bitů na znak) LZ78 LZ77 compress GZip DMC PPM SAKDC rok

36 Predikce a modelování redundance(nestejnoměrná pravděpodobnost výskytu zdrojových jednotek) kodér, dekodér, model statické modelování(model nezávisí na konkrétních datech) semiadaptivní modelování (model závisí na datech, 2 průchody, nutnost přenosu modelu) adaptivní modelování(1. průchod, model vytvářen dynamicky u kodéra i dekodéra)

37 Predikce a modelování modely řádu 0 pravděpodobnosti izolovaných zdrojových jednotek(př. Morse, písmeno e) modely s konečným kontextem Markovovy modely, modely řádu n(př. Bach), P(a x 1 x 2...x n ) modely založené na konečných automatech synchronizační řetěz, nesynchronizační řetěz automat s konečným kontextem vhodné pro regulární jazyky, nevhodné pro bezkontextové jazyky,p(a q i )

38

39 Osnova(Týden jedenáctý) Huffmanovo kódování. Adaptivní Huffmanovo kódování. Aritmetické kódování. Slovníkové metody. Signaturové metody. Podobnost dokumentů. Komprese pomocí neuronových sítí.

40 Statistické metody komprese I Znakové techniky nullsupression nahrazeníopakování 2 znakunull, 255, speciální znaks c run-lengthencoding(rle) S c XC c zobecněnína libovolný opakujícíse znak$ 55 $S c 655 MNPClass 5 RLE CXXX DDDDDBBAAAA 5DDDBB4AAA half-byte packing,(ebcdic, ASCII) SI, SO diatomic encoding; nahrazování dvojic znaků jedním Byte Pair Encoding, BPE (Gage, 1994) pattern substitution Gilbert Held: Data & Image Compression

41 Statistické metody komprese II Shannon-Fano, 1949, model řádu 0, prefixový kód, kódový strom. kódováslova délky log 2 p i nebo log 2 p i +1 AE AL AE+1. kódový strom(2,2,2,2,4,4,8). obecně není optimální, dva průchody kodéru textem, statický

42 Shannon-Fano kódování Vstup: posloupnost n zdrojových jednoteks[i],1 i n, v pořadí neklesajících pstí. Výstup: n binárních kódových slov. begin přiřad všem kódovým jednotkám prázdný řetěz; SF-SPLIT(S) end procedure SF-SPLIT(S); beginif S 2then beginrozděl Sdoposloupností S1aS2tak, žeobě posloupnosti mají přibližně stejnou celkovou pst; přidejkevšem kódovým slovům zs10; přidejkevšem kódovým slovům zs21; SF-SPLIT(S1); SF-SPLIT(S2); end end

43 Huffmanovo kódování Huffmanovo kódování, varianty statická a dynamická. AEPL = n i=1 d[i]p[i]. optimální kód(ne jediný možný). O(n) za předpokladu utříděnosti zdrojových jednotek. stabilní rozložení příprava předem. Example: (2,2,2,2,4,4,8)

44 Huffmanovo kódování sourozenecká vlastnost Definition: Binární strom má sourozeneckou vlastnost právě tehdy, když 1 každý uzel kromě kořene má sourozence, 2 uzly mohou být seřazeny v pořadí neklesající posloupnosti tak, že každý uzel(kromě kořene) sousedící v seznamu s nějakým uzlem je jeho sourozenec(leví synové budou na lichých místech v seznamu a praví synové na sudých).

45 Huffmanovo kódování vlastnosti Huffmanových stromů Theorem: Binární prefixový kód je Huffmanův má sourozeneckou vlastnost. 2n 1 uzlů,max. 2n 1 možností, optimální binární prefixový kód, který není Huffmanův AR(X) p n +0,086, p n maximální pravděpodobnostzdrojové jednotky. Huffman je úplný, (špatná detekce chyb). možnorozšíritnaafixový kód, KWIC,levý apravýkontext, hledání X

46 Adaptivní Huffmanovo kódování FGK(Faller, Gallager, Knuth) potlačení minulosti zapomínacím koeficientem, zaokrouhlování, 1, r,r 2,r n. lineární čas kódování i dekódování vzhledem k délce slova. AL HD 2AL HS. VitterAL HD AL HS +1. implementační detaily, stromová reprezentace kódové tabulky.

47 Princip aritmetického kódování zobecnění Huffmanova kódování(pravděpodobnosti zdrojových jednotek nemusí být záporné mocniny dvou). uspořádání na zdrojových jednotkách; Kumulativní pravdˇepodobnost cp i = i 1 j=1 p j zdrojovéjednotkyx i s pravděpodobnostíp i. Výhody: libovolná blízkost entropii. adaptivnost je možná. rychlost.

50 Slovníkové metody komprese dat Definition:Slovník je dvojice D = (M,C), kdemje konečnámnožinaslov zdrojového jazyka, C zobrazení M na množinu kódových slov. Definition:L(m) značí délkukódovéhoslova C(m) v bitech,pro m M. Výběr zdrojových jednotek: statický(dohoda na slovníku předem) semiadaptivní(nutné dva průchody textem) adaptivní

53 Statické slovníkové metody Zdrojová jednotka délky n n-gramy Nejčastější bigramy(n = 2) npevné n proměnné(dle frekvencí výskytu) adaptivní (50 % anglického textu je tvořeno asi 150 nejfrekventovanějšími slovy) Nevýhody: nejsou schopny reagovat na rozdělení pravděpodobností komprimovaných dat předem připravený slovník

56 Semiadaptivní slovníkové metody Slovník Komprimovaná data Komprimovaný slovník Komprimovaná data Výhody: rozsáhlá data(slovník je malá část dat korpusy; CQP).

57 Semiadaptivní slovníkové metody Slovník Komprimovaná data Komprimovaný slovník Komprimovaná data Výhody: rozsáhlá data(slovník je malá část dat korpusy; CQP).

58 Semiadaptivní slovníkové metody postup vytvoření slovníku 1 Určí se frekvence N-gramů pron = 1,2,... 2 Slovník se inicializuje vložením unigramů. 3 Do slovníku se postupně přidávají N-gramy (N > 1) s největší frekvencí. Při vložení K-gramu se snižuje frekvence jeho složek (K 1)-gramů, (K 2)-gramů... Jestližese díkysnižování frekvencí frekvence nějaké položky velmi sníží, je ze slovníku vyloučena.

61 Adaptivní slovníkové metody LZ77 metody posuvného okna LZ78 metody rostoucího slovníku a b c b a b b a a b a c b zakódovaná část nezakód. část (okno, N 8192) ( B 10 20b) V zakódované části je vyhledána nejdelší předpona P řetězu v nezakódované oblasti. Pokud je takový řetězsnalezen,pakp jezakódováno pomocí (I,J,A), kde Ije vzdálenostprvníhoznakusodhranice,jje délkařetězusaajeprvní znakza předponoup. Oknoje posunuto oj+1znaků doprava. Jestliže podřetězsnalezennebyl,pakjevytvořena trojice (0,0,A),kdeAje prvníznak nezakódované části.

62 Adaptivní slovníkové metody LZ77 metody posuvného okna LZ78 metody rostoucího slovníku a b c b a b b a a b a c b zakódovaná část nezakód. část (okno, N 8192) ( B 10 20b) V zakódované části je vyhledána nejdelší předpona P řetězu v nezakódované oblasti. Pokud je takový řetězsnalezen,pakp jezakódováno pomocí (I,J,A), kde Ije vzdálenostprvníhoznakusodhranice,jje délkařetězusaajeprvní znakza předponoup. Oknoje posunuto oj+1znaků doprava. Jestliže podřetězsnalezennebyl,pakjevytvořena trojice (0,0,A),kdeAje prvníznak nezakódované části.

63 LZR (Rodeh) M = (N B) B t,tvelikostabecedy L(m) = log 2 (N B) + log 2 B + log 2 t Výhoda: hledání nejdelší předpony[kmp] LZR používá strom obsahující všechny předpony v dosud zakódované části. Je použita celá dosud zakódovaná část jako slovník. Protožeiv(i,j,a) můžebýtvelké, je použiteliasův kódpro zakódování celých čísel. Nevýhoda: růst velikosti stromu bez omezení po překročení vymezené paměti vymazán a konstrukce začíná od začátku.

68 LZSS (Bell, Storer, Szymanski) Kódem je posloupnost ukazatelů a znaků. Ukazatel(i, j) potřebuje pamět jakpznaků ukazateljen tehdy, kdyžušetříme, ale je třeba bit na rozlišení znaku od ukazatele. Počet položek slovníku je M = t+(n B) (B p) (uvažujíse jen podřetězydelší nežp). Počet bitů na zakódování je L(m) = 1+ log 2 t pro m T L(m) = 1+ log 2 N + log 2 (B p) jinak. (Délku d podřetězu můžeme reprezentovat jako B p).

69 LZB (Bell), LZH (Brent) Ukazatel(i, j) (analogie LZSS) Jestliže oknoneníplné(na začátku)a komprimovaný text je kratší než N, je plýtvání použitílog 2 Nbytů nazakódováníi. LZB používáfázování při bin. kód. prefixový kód s rostoucím počtem bitů pro rostoucí hodnoty čísel. Pro kódováníj používálzb Eliasův kódγ. LZSS, kde pro kódování ukazatelů je použito Huffmanovo kódování(tj. dle rozložení jejich pravděpodobností 2 průchody)

70 LZB (Bell), LZH (Brent) Ukazatel(i, j) (analogie LZSS) Jestliže oknoneníplné(na začátku)a komprimovaný text je kratší než N, je plýtvání použitílog 2 Nbytů nazakódováníi. LZB používáfázování při bin. kód. prefixový kód s rostoucím počtem bitů pro rostoucí hodnoty čísel. Pro kódováníj používálzb Eliasův kódγ. LZSS, kde pro kódování ukazatelů je použito Huffmanovo kódování(tj. dle rozložení jejich pravděpodobností 2 průchody)

71 Metody s rostoucím slovníkem Hlavní myšlenka: slovník obsahuje fráze. Nová fráze tak, že již existující fráze je rozšířena o symbol. Fráze je zakódována indexem předpony a přidaným symbolem.

72 LZ78 příklad Vstupní a b ab c ba Index Výstup (0,a) (0,b) (1,b) (0,c) (2,a) Vstupní bab aa aaa aaaa... Index Výstup (5,b) (1,a) (7,a) (8,a) 7 a a 0 a b c 1 2 a b a 3 5 b

73 LZFG(Fiala, Green) Slovník uložen ve stromové struktuře, hrany ohodnoceny řetězy znaků. Tytořetězyjsouvokněakaždýuzelstromuobsahujeukazateldookna a identifikující symboly na cestě z kořene do uzlu.

74 LZW (Welch), LZC Výstupem jsou pouze indexy, nebo slovník je iniciován položkami pro všechny vstupní symboly, poslední symbol každé fráze je prvním symbolem následující fráze. Vstup a b a b c b a b a b a a a a a Index Výstup Přeplnění další fráze není předávána a kódování pokračuje staticky. jetolzw+ Ukazatele jsou kódovány s prodlužující se délkou. Jakmile se kompresní poměr začne snižovat, slovník se vymaže a začíná se od začátku.

75 LZT, LZMW, LZJ Jako LZC, ale při přeplnění slovníku se ze slovníku vylučují fráze, které byly v nedávné minulosti nejméně použity. Používá frázování při bin. kód. indexů frází. Jako LZT, ale nová fráze se nevytváří přidáním jednoho symbolu k předchozí, ale konstruuje novou frázi zřetězením dvou posledně zakódovaných. Jiný princip konstrukce slovníku: Na začátku vloženy jednotlivé symboly. Slovník uložen ve stromu a obsahuje všechny podřetězy zprac. řetězem do délky h. Plný slovník statický postup, vynechávání uzlů s nízkou frekvencí použití.

76 Slovníkové metody s restrukturalizací slovníku Průběžné uspořádávávání zdrojových jednotek kratší řetězce kódu. Varianty heuristik(četnost, přesun na začátek (BSTW), výměna s předcházejícím, přesun o K vpřed). BSTW(výhoda: vysoká lokalita výskytů menšího počtu zdrojových jednotek). Example: Jádo lesa nepojedu,...,1 n 2 n k n. Zobecnění: koeficient nedávnosti, Intervalové kódování.

77 Intervalové kódování Reprezentace slova celkovým počtem slov od posledního výskytu. Slovníkobsahujeslova a 1,a 2,...,a n,vstupníposloupnostx 1,x 2,..., x m. HodnotaLAST(a i ) obsahujícíintervalod posledníhovýskytu je inicializovaná na nulu. fort := 1 to mdo begin{x t = a i } iflast(x t = 0)theny(t) = t+i 1 elsey(t) = t LAST(x t ); LAST(x t ):=t end. Posloupnosty 1,y 2,...,y m je výstupemkodéruamůžebýt zakódována některým kódem proměnné délky.

78 Syntaktické metody je známa gramatika jazyka zprávy. levý rozklad derivačního stromu řetězce. globální číslování pravidel. lokální číslování pravidel. jsou kódovány rozhodovací stavy LR analyzátoru.

79 Kontextové modelování pevnýkontext model řádun. kombinovaný přístup kontexty různých délek. p(x) = m n=0 w np n (x). w n pevné,proměnné. náročnéna čas a pamět. přiřazenípravděpodobnostinovézdrojové jednotce: e = 1 C n +1. automaty s konečným kontextem. dynamické Markovovo modelování.

80 Kontrola správnosti textu Kontrola textu pomocí frekvenčního slovníku. Kontrola textu pomocí dvojitého slovníku. Interaktivní kontrola textu(ispell). Kontrola textu založená na pravidelnosti slov, koeficient podivnosti.

81 Koeficient podivnosti Koeficient podivnosti trigramu xyz KPT = [log(f(xy) 1)+log(f(yz) 1)]/2 log(f(xyz) 1),kdef(xy) resp. f(xyz) jsou relativní frekvence digramu resp. trigramu, log(0) je definován jako 10. n Koeficient podivnosti slova KPS = (KPT i SKPT 2 ),kdekpt i je i=1 koeficient podivnosti i-tého trigramu SKPT je střední hodnota koeficientu podivnosti všech trigramů obsažených ve slově.

82 Koeficient podivnosti Koeficient podivnosti trigramu xyz KPT = [log(f(xy) 1)+log(f(yz) 1)]/2 log(f(xyz) 1),kdef(xy) resp. f(xyz) jsou relativní frekvence digramu resp. trigramu, log(0) je definován jako 10. n Koeficient podivnosti slova KPS = (KPT i SKPT 2 ),kdekpt i je i=1 koeficient podivnosti i-tého trigramu SKPT je střední hodnota koeficientu podivnosti všech trigramů obsažených ve slově.

83 Dotazování a modely TIS Booleovský model Různé metody hierarchizace a uložení dokumentů různé možnosti a efektivita dotazování. Booleovský model, SQL. Vektorový model. Rozšířené booleovské modely. Pravděpodobnostní model. Model shluků dokumentů.

84 Booleovský model Blairovo ladění dotazu Vyhledávání spočívá ve zmenšování neurčitosti tazatele (ladění dotazu). 1 Najdeme dokument s vysokou relevancí. 2 Začneme se dotazovat s jeho klíčovými slovy. 3 Odstraňujeme deskriptory, resp. je nahrazujeme disjunkcemi.

87 Booleovský model Infomap snaha o sémantické dotazování Systém pro práci s hledaným významem/konceptem(na rozdíl od pouhých řetězců znaků). Správný dotaz je polovina odpovědi. Vyhledávání spočívá v určení sémanticky nejbližších termů.

88 Booleovský model Booleovský model 50. léta: reprezentace dokumentů pomocí množin termů a dotazování založené na vyhodnocování booleovských výrazů. Výraz dotazu: induktivně z primitiv: term jméno atributu = hodnota atributu(porovnání) jméno funkce(term) (aplikace funkce) a dále pomocí závorekalogických spojek Xand Y,Xor Y,Xxor Y, not Y. disjunktivní normální forma, konjunktivní normální forma proximitní operátory regulární výrazy použití tezauru

89 Booleovský model Booleovský model 50. léta: reprezentace dokumentů pomocí množin termů a dotazování založené na vyhodnocování booleovských výrazů. Výraz dotazu: induktivně z primitiv: term jméno atributu = hodnota atributu(porovnání) jméno funkce(term) (aplikace funkce) a dále pomocí závorekalogických spojek Xand Y,Xor Y,Xxor Y, not Y. disjunktivní normální forma, konjunktivní normální forma proximitní operátory regulární výrazy použití tezauru

90 Jazyky pro vyhledávání SQL Booleovský model booleovské operátory and, or, xor, not. poziční operátory adj,(n) words, with, same, syn. SQL rozšíření: operace/dotazy s využitím tezauru BT(A) Broader term NT(A) Narrower term PT(A) Preferred term SYN(A) Synonyma termu A RT(A) Related term TT(A) Top term

91 Dotazování SQL příklady Booleovský model ORACLE SQL*TEXTRETRIEVAL SELECT specifikace_polozek FROM specifikace_tabulek WHERE polozka CONTAINS textovy_vyraz Example: SELECT TITLE FROM BOOK WHERE ABSTRACT CONTAINS TEXT AND RT(RETRIEVAL) řetěz řetěz * * řetěz ře?ěz ře%těz řetěza (m,n) řetězb víceslovná fráze BT( řetěz,n) BT( řetěz,*) NT( řetěz,n)

92 Dotazování SQL příklady Booleovský model Example: SELECT JMENO FROM ZAMESTNANEC WHERE VZDELANI CONTAINS RT(UNIVERSITA) AND JAZYKY CONTAINS ANGLICTINA AND NEMCINA AND PUBLIKACE CONTAINS KNIHA OR NT( KNIHA,*)

93 Booleovský model Stilesova technika/ asociační faktor asoc(q A,Q B ) = log 10 (fn AB N/2) 2 N AB(N A)(N B) A početdokumentů,,zasažených dotazem Q A B počet dokumentů,,zasažených dotazemq B (jehož relevanci počítáme) f počet dokumentů,,zasažených oběma dotazy N celkový početdokumentůvtis cutoff (relevantní/ nerelevantní) clustering/hnízdˇení 1. generace, 2. generace,...

94 Booleovský model Vektorový model Vektorový model dokumentů: Necht a 1,...,a n termy, D 1,...,D m dokumenty,amaticerelevance W = (w ij )typum,n, Dotaz Q = (q 1,...,q n ) { 0 nenírelevantní w ij 0,1 1 je relevantní S(Q,D i ) = i q iw ij koeficient podobnosti head(sort(s(q,d i ))) odpověd

95 Vektorový model: pros & cons Booleovský model CONS: nebere vúvahu? a?? nebo? PROS: možné vylepšení: normování vah Frekvence termu TF m Inverznífrekvence dokumentuidf log 2 k Rozlišení termů TD normování vah pro dokument: j TD3 j ( ) normování vah pro dotaz: TF m maxtf i log 2 k [POK, strany ].

96 Automatické strukturování textů Booleovský model Vzájemné vazby mezi dokumenty v TIS. Encyklopedie (OSN, Funk and Wagnalls New Encyclopedia). [SBA] Google/CiteSeer:,,automatic structuring of text files

97 Podobnost dokumentů Booleovský model Nejčastější kosinová míra výhody. Detailní přehled používaných podobnostních funkcí viz kapitola 5.7 z[kor] (podobnost).

98 Uložení lexikonu Booleovský model [MeM] Mehryar Mohri: On Some Applications of Finite-State Automata Theory to Natural Language Processing, Natural Language Engineering, 2(1):61 80,

99 Signaturové metody Booleovský model Vyhledávací metody IV. Předzpracování textu i vzorku(signaturové metody). řetězené vrstvené Dále [POK, strany 65 76], see [MAR].

100 Seznam materiálů u Marečka Booleovský model [MAR] Materiály k předmětu PV030 ke zkopírování v knihkupectví Mareček a v materiálech předmětu v ISu. 1 Slidy přednášek předmětu, 4 slidy na list A4. 2 kopie[mel]. 3 kopie[pok]. 4 článek [MEH]. 5 materiály o Google [GOO] (plus české shrnutí). 6 kapitola 5.7 z [KOR](podobnost). 7 [MeM]. 8 ostatní (NLP, diagram s kompresními algoritmy,...).