Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky



Podobné dokumenty
Inovace bakalářského studijního oboru Aplikovaná chemie

InternetovéTechnologie

InternetovéTechnologie

InternetovéTechnologie

Dobývání znalostí z textů text mining

Internetové vyhledávače

Rešerše....hledáme dokumenty a informace. Martin Krčál

EBSCO. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat.

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Uživatelská podpora v prostředí WWW

Téma dnešní přednášky

SCOPUS a WEB OF SCIENCE

3. přednáška z předmětu GIS1 atributové a prostorové dotazy

JAK PRACOVAT S INFORMACEMI TAK, ABY ONY PRACOVALY PRO NÁS? Přednáška kurzu Informační a databázové systémy v rostlinolékařství

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Fuzzy logika Osnova kurzu

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Základy práce s informačními zdroji pro bc. studenty ZUR. Mgr. Jan Kříž Mgr. Dana Mazancová, DiS. Brno, 2. listopadu 2015

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

HELP Rešerše průmyslových vzorů

Nástroj pro monitorování a analýzu českého internetu a sociálních médií

VYHLEDÁVÁNÍ V DATABÁZI WEB OF SCIENCE. Helena Landová Akademická knihovna JU

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Matematika B101MA1, B101MA2

EU-OPVK: VY_32_INOVACE_FIL17 Vojtěch Filip, 2013

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

Inovace a zkvalitnění výuky prostřednictvím ICT Základy programování a algoritmizace úloh. Ing. Hodál Jaroslav, Ph.D. VY_32_INOVACE_25 09

Matematická morfologie

Základní pojmy teorie množin Vektorové prostory

Matematika PRŮŘEZOVÁ TÉMATA

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

Vyhledávání v citační databázi Web of Science (WOS)

. Výuka pediatrie u lůžka pacienta Kazuistika založená na důkazu

Vybrané přístupy řešení neurčitosti

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 10

Lineární algebra Operace s vektory a maticemi

Vyhledávání na portálu Knihovny.cz

Elektronické informační zdroje z oboru GEOLOGIE

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Binární logika Osnova kurzu

Kde hledat odborné články?

Popis zobrazení pomocí fuzzy logiky

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Matematika analytická geometrie. Mgr. Pavel Liška

Ukládání a vyhledávání XML dat

Algoritmy a datové struktury

Database engine (databázový stroj, databázový motor, databázové jádro) Systém řízení báze dat SŘBD. Typy SŘBD podle způsobu práce s daty

Vědecký zákon. Dnešní témata. Příklady: zákon fungování vývojový zákon

XML databáze. Přednáška pro kurz PB138 Moderní značkovací jazyky Ing. Petr Adámek

RELACE, OPERACE. Relace

Elektronické inf. zdroje

Michal Krátký, Miroslav Beneš

Algoritmy pro shlukování prostorových dat

Indexování a vyhledávání matematických formulí

Vyhledávání informací Studijní a informační centrum, ČZU v Praze

Moderní metody vyhledávání dokumentů v rozsáhlých plnotextových databázích : příklad vektorového modelu

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

Číselné vyjádření hodnoty. Kolik váží hrouda zlata?

Espacenet

Maturitní témata profilová část

Využití informačních technologií v cestovním ruchu P1

ANALÝZA A KLASIFIKACE DAT

Vizualizace v Information Retrieval

Výroková a predikátová logika - VII

Paradigmata programování 1

Databáze I. 5. přednáška. Helena Palovská

Unární je také spojka negace. pro je operace binární - příkladem může být funkce se signaturou. Binární je velká většina logických spojek

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Informační zdroje v síti ČVUT

Formulace dotazu. Práce s online katalogy a bázemi dat v knihovnách

Databázové systémy. * relační kalkuly. Tomáš Skopal. - relační model

Booleovská algebra. Booleovské binární a unární funkce. Základní zákony.

Využití SVD pro indexování latentní sémantiky

SEM, SEO a PPC? Kouzelné formulky?

PRODUKTY. Tovek Tools

Výroková a predikátová logika - V

Matematika pro informatiky KMA/MATA

Dodatek č. 3 ke školnímu vzdělávacímu programu. Strojírenství. (platné znění k )

Operátory pro maticové operace (operace s celými maticemi) * násobení maticové Pro čísla platí: 2*2

Web of Science. Přednáška kurzu informační a databázové systémy v rostlinolékařství

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Nápověda k pokročilému vyhledávání

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

JÁ DĚLÁM TO SEO DOBŘE,

Algoritmus. Přesné znění definice algoritmu zní: Algoritmus je procedura proveditelná Turingovým strojem.

MBI - technologická realizace modelu

Analýza a modelování dat 3. přednáška. Helena Palovská

Mgr. Petr Šmejkal.

Datové struktury 2: Rozptylovací tabulky

Základy číslicové techniky z, zk

Vyhledávání informací

Pro každé formule α, β, γ, δ platí: Pro každé formule α, β, γ platí: Poznámka: Platí právě tehdy, když je tautologie.

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Experimentální systém pro WEB IR

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

konzultační hodiny: středa od 8:00-09:30 (předem napsat o konkrétním problému, který chcete konzultovat)

Role informační architektury a optimalizace pro vyhledavače v online publikování

Transkript:

Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů hypotéza: dokument, v němž se vyskytuje hledaný term, je relevantní (a naopak) operace teorie množin a booleovské algebry určují binární relevanci (ANO / NE) 2 Irský logik a matematik, profesor matematiky v Queens College v Corku. George Boole 1815 1864 Průkopník moderní logiky a tvůrce prvního systému matematické ti logiky, jenž byl nazván algebrou logiky. hlavní dílo: The Mathematical Analysis of Logic (1847) 3 Aplikace booleovské logiky SQL (select, join) search engines 4 1

Notace booleovské logiky OR + sjednocení, logický součet AND * &., průnik, logický součin NOT!= ^ negace, logický rozdíl 5 Příklady booleovských dotazů muzea muzea OR divadla divadla AND muzea muzea NOT divadla muzea AND divadla OR Praha muzea AND divadla OR Praha AND Berlín (muzea OR divadla) AND (Praha OR Berlín) 6 STAIRS (Blair Maron) 2) Vektorový model Experiment z roku 1985 Booleovské fulltextové vyhledávání v 40 000 právnických textech Přesnost: 80 % Úplnost: 20 % dokumenty (D) a dotazy (Q) jsou reprezentovány vektory s nebinárně váženými indexovými termy hypotézy: 1) blízkost v prostoru vyjádřená vektory D a Q znamená i blízkost významu 2) vážení termů: dokument, v němž se vyskytuje hledaný term s vyšší vahou, je relevantnější operace lineární algebry určují míru relevance 7 8 2

vektory dokumentů D1 (1,0,1,0,1) D2 (1,1,0,1,0) D3 (0,0,0,1,1) D4 (0,0,1,0,0) D5 (1,0,0,0,1) (10001) Vektorový model dotaz: Praha a (zároveň) hotely Q (0,0,1,0,1) 9 Vektorový model vyhodnocování dotazu: postup: 1) skalární vynásobení vektoru dotazu s vektory dokumentů 2) výsledná čísla se seřadí pořadí podle relevance Příklad: D (1, 0, 1, 0, 1) Q (0, 0, 1, 0, 1) 0 +0 +1 +0 +1 = 2 10 Koeficient podobnosti similarity rate 3) Strukturní model podobnost vektoru dokumentu D s vektorem dotazu Q kombinuje reprezentaci dokumentů prostřednictvím indexových termů s explicitní informací o struktuře a/nebo vzájemných vztazích dokumentů nebo jejich množin 11 12 3

Příklady: Strukturní model explicitně vyjádřená informace o struktuře dokumentů výběr důležitých a relevantních dokumentů a/nebo jejich částí např. název, abstrakt, URL, meta tag XML dokumenty (XPath, XQuery) 13 Příklady: Strukturní model explicitně vyjádřené vztahy mezi dokumenty bibliografické citace (citační analýza) hypertextové odkazy (Google PageRank) 14 4) Pravděpodobnostní model Další typy vyhledávání dokumenty a dotazy jsou reprezentovány množinou indexových termů klíčový předpoklad: termy jsou rozdílně distribuovány v relevantních a v nerelevantních dokumentech např. latentní sémantické indexování, neuronové sítě, bayesovské sítě... pojmové vyhledávání definování komplexního dotazu obsahujícího i vztahy mezi termíny strom pojmu (topic tree) vyhledávání obrazové informace 15 16 4

Další typy vyhledávání pokračování automatické indexování shlukování shluková struktura, shluk, klastr (cluster): skupina vyhledávacích termínů, které jsou si něčím podobné (např. souvýskytem určitých termínů, frekvencí výskytu daného termínu apod.) využití: automatické doplnění dalších termínů do dotazu (rozšiřování dotazu) omezení množiny prohledávaných dokumentů pouze na vytipovaný klastr (zužování dotazu, urychlení vyhledávání) 17 Koordinace využití více lexikálních jednotek k vyjádření složených témat při formulaci dotazu prekoordinace vztahy definovány už při indexování dokumentu (na vstupu) zvyšuje přesnostř postkoordinace vztahy definovány až při formulaci dotazu (na výstupu) zvyšuje úplnost 18 prekoordinace popis dokumentu popis dotazu hodnocení profesorů hodnocení profesorů studenty studenty postkoordinace popis dokumentu popis dotazu hodnocení hodnocení profesoři AND studenti profesoři AND studenti klady zápory prekoordinace přesné vyjádření tématu dokumentu (i velmi specifické vztahy) obtížná formulace dotazu běžným uživatelem nevyhovuje interdisciplinárním dotazům postkoordinace možnost libovolného skládání pojmů omezení typů vztahů, jež lze použít 19 20 5