Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů hypotéza: dokument, v němž se vyskytuje hledaný term, je relevantní (a naopak) operace teorie množin a booleovské algebry určují binární relevanci (ANO / NE) 2 Irský logik a matematik, profesor matematiky v Queens College v Corku. George Boole 1815 1864 Průkopník moderní logiky a tvůrce prvního systému matematické ti logiky, jenž byl nazván algebrou logiky. hlavní dílo: The Mathematical Analysis of Logic (1847) 3 Aplikace booleovské logiky SQL (select, join) search engines 4 1
Notace booleovské logiky OR + sjednocení, logický součet AND * &., průnik, logický součin NOT!= ^ negace, logický rozdíl 5 Příklady booleovských dotazů muzea muzea OR divadla divadla AND muzea muzea NOT divadla muzea AND divadla OR Praha muzea AND divadla OR Praha AND Berlín (muzea OR divadla) AND (Praha OR Berlín) 6 STAIRS (Blair Maron) 2) Vektorový model Experiment z roku 1985 Booleovské fulltextové vyhledávání v 40 000 právnických textech Přesnost: 80 % Úplnost: 20 % dokumenty (D) a dotazy (Q) jsou reprezentovány vektory s nebinárně váženými indexovými termy hypotézy: 1) blízkost v prostoru vyjádřená vektory D a Q znamená i blízkost významu 2) vážení termů: dokument, v němž se vyskytuje hledaný term s vyšší vahou, je relevantnější operace lineární algebry určují míru relevance 7 8 2
vektory dokumentů D1 (1,0,1,0,1) D2 (1,1,0,1,0) D3 (0,0,0,1,1) D4 (0,0,1,0,0) D5 (1,0,0,0,1) (10001) Vektorový model dotaz: Praha a (zároveň) hotely Q (0,0,1,0,1) 9 Vektorový model vyhodnocování dotazu: postup: 1) skalární vynásobení vektoru dotazu s vektory dokumentů 2) výsledná čísla se seřadí pořadí podle relevance Příklad: D (1, 0, 1, 0, 1) Q (0, 0, 1, 0, 1) 0 +0 +1 +0 +1 = 2 10 Koeficient podobnosti similarity rate 3) Strukturní model podobnost vektoru dokumentu D s vektorem dotazu Q kombinuje reprezentaci dokumentů prostřednictvím indexových termů s explicitní informací o struktuře a/nebo vzájemných vztazích dokumentů nebo jejich množin 11 12 3
Příklady: Strukturní model explicitně vyjádřená informace o struktuře dokumentů výběr důležitých a relevantních dokumentů a/nebo jejich částí např. název, abstrakt, URL, meta tag XML dokumenty (XPath, XQuery) 13 Příklady: Strukturní model explicitně vyjádřené vztahy mezi dokumenty bibliografické citace (citační analýza) hypertextové odkazy (Google PageRank) 14 4) Pravděpodobnostní model Další typy vyhledávání dokumenty a dotazy jsou reprezentovány množinou indexových termů klíčový předpoklad: termy jsou rozdílně distribuovány v relevantních a v nerelevantních dokumentech např. latentní sémantické indexování, neuronové sítě, bayesovské sítě... pojmové vyhledávání definování komplexního dotazu obsahujícího i vztahy mezi termíny strom pojmu (topic tree) vyhledávání obrazové informace 15 16 4
Další typy vyhledávání pokračování automatické indexování shlukování shluková struktura, shluk, klastr (cluster): skupina vyhledávacích termínů, které jsou si něčím podobné (např. souvýskytem určitých termínů, frekvencí výskytu daného termínu apod.) využití: automatické doplnění dalších termínů do dotazu (rozšiřování dotazu) omezení množiny prohledávaných dokumentů pouze na vytipovaný klastr (zužování dotazu, urychlení vyhledávání) 17 Koordinace využití více lexikálních jednotek k vyjádření složených témat při formulaci dotazu prekoordinace vztahy definovány už při indexování dokumentu (na vstupu) zvyšuje přesnostř postkoordinace vztahy definovány až při formulaci dotazu (na výstupu) zvyšuje úplnost 18 prekoordinace popis dokumentu popis dotazu hodnocení profesorů hodnocení profesorů studenty studenty postkoordinace popis dokumentu popis dotazu hodnocení hodnocení profesoři AND studenti profesoři AND studenti klady zápory prekoordinace přesné vyjádření tématu dokumentu (i velmi specifické vztahy) obtížná formulace dotazu běžným uživatelem nevyhovuje interdisciplinárním dotazům postkoordinace možnost libovolného skládání pojmů omezení typů vztahů, jež lze použít 19 20 5