Téma dnešní přednášky

Podobné dokumenty
Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Rešerše....hledáme dokumenty a informace. Martin Krčál

Management informačních fondů

Slovo rešerše odvozeno z francouzského recherche, což znamená hledání, vyhledávání, pátrání, vyšetřování, výzkum, průzkum, bádání, rešerše

Informační zdroje. Informační pramen. Dokumenty. Informační prameny a dokumenty

JAK PRACOVAT S INFORMACEMI TAK, ABY ONY PRACOVALY PRO NÁS? Přednáška kurzu Informační a databázové systémy v rostlinolékařství

Bibliografické databáze umění vyhledávat v záplavě pramenů relevantní informace

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

Dnešní témata Typy sociální komunikace Nepřímá komunikace Médium informační zdroj dokument

Informační zdroje v síti ČVUT

Základy vyhledávání odborné literatury

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

EBSCO. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat.

Pracovní skupina pro věcné zpracování

Dobývání znalostí z textů text mining

SCOPUS a WEB OF SCIENCE

Vyhledávání nebo nalezení informací

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Inovace bakalářského studijního oboru Aplikovaná chemie

Jak hledat informace - rešeršní činnost

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR

InternetovéTechnologie

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

VYHLEDÁVÁNÍ V DATABÁZI WEB OF SCIENCE. Helena Landová Akademická knihovna JU

Mgr. Petr Šmejkal.

Dnešní téma. Zpracování informací Metadata VOŠIS UIM 12 1

vyhledávací stromové struktury

Elektronické inf. zdroje

Internetové vyhledávače

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

Vyhledávání na portálu Knihovny.cz

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Databáze Madrid Express (WIPO)

Využití informačních technologií v cestovním ruchu P1

Databáze na webu Národní knihovny v Praze

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Microsoft Office. Excel vyhledávací funkce

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

České internetové medicínské zdroje v Národní lékařské knihovně

ELEKTRONICKÉ INFORMAČNÍ ZDROJE. Jihočeská vědecká knihovna v Českých Budějovicích Zpracovala: PhDr. Ludmila Benešová

Okruhy ke SZZK nmgr. studium knihovnické zaměření

Distanční opora předmětu: Databázové systémy Tématický blok č. 7: Fulltextové vyhledávání Autor: RNDr. Jan Lánský, Ph.D.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

PRODUKTY Tovek Server 6

Mgr. Petr Šmejkal.

Základní principy vyhledávání firem

Jak hledat informace. rychle a efektivně. Obsah:

Digitální knihovny v České republice

PRODUKTY. Tovek Tools

Dnešní témata Informační systém, informační služba Podnikový informační systém

Databáze na webu Národní knihovny v Praze

komb přednášející: Silvie Kořínková Presová Kabinet informačních studií a knihovnictví, FF MU

Zpráva o zhotoveném plnění

Database engine (databázový stroj, databázový motor, databázové jádro) Systém řízení báze dat SŘBD. Typy SŘBD podle způsobu práce s daty

Autor: JUDr. Lukáš Bohuslav Redakce: JUDr. Petr Flášar

Znalostní báze pro obor organizace informací a znalostí

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

PRODUKTY. Tovek Tools

InternetovéTechnologie

Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství. ing. Tomáš Vejlupek

Algoritmizace prostorových úloh

PŘÍRUČKA K PRÁCI S DATABÁZÍ CAB REVIEWS

Hodnocení životního prostředí. Přístupy, prostředky, postupy

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Role informační architektury a optimalizace pro vyhledavače v online publikování

Profesis KROK ZA KROKEM 2

InternetovéTechnologie

V praxi se může jednat například o procesní instrukce, pracovní instrukce a podobný druh dokumentace.

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

Pracovní skupina pro věcné zpracování

Databáze na webu Národní knihovny v Praze

Manuscriptorium v roce 2013

víceslovná lexikální jednotka, jejíž základ tvoří substantivum, a to

Znalostní báze pro obor organizace informací a znalostí

Základy práce s informačními zdroji pro bc. studenty ZUR. Mgr. Jan Kříž Mgr. Dana Mazancová, DiS. Brno, 2. listopadu 2015

Databáze I. 5. přednáška. Helena Palovská

ALGORITMY A DATOVÉ STRUKTURY

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ

Kde hledat odborné články?

Web of Science. Přednáška kurzu informační a databázové systémy v rostlinolékařství

Datové struktury 2: Rozptylovací tabulky

Aplikace. vliv na to, jakou mají strukturu i na to, jak pracné je je vyvinout. Bylo vypozorováno, že aplikace je možné rozdělit do skupin

Vyhledávání v citační databázi Web of Science (WOS)

VYHLEDÁVÁNÍ V NOVÉM PROSTŘEDÍ MEDVIK : ZÁKLADNÍ HLEDÁNÍ. Adéla Jarolímková Národní lékařská knihovna, referát metodiky a vzdělávání

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Vývojové trendy 1. Dnešní téma. Vývojové trendy 2. Vývojové trendy ve zpracování informací a znalostí

Připravované právní předpisy EU

MMHK & Dynamica, a.s. Eliška Dimovová & Boris Bělousov

Espacenet

Test prvočíselnosti. Úkol: otestovat dané číslo N, zda je prvočíslem

. Výuka pediatrie u lůžka pacienta Kazuistika založená na důkazu

Vyhledávání na Internetu

Jak vyhledávat. Vyhledávače KAPITOLA 3

Témata této a předchozí přednášky. Důležité pojmy. Typy systémů organizace znalostí

SEO Optimalizace pro vyhledávače

Analýza a testování uživatelského rozhraní bibliografické oborové brány Knihovnictví a informační vědy (KIV)

Big data ukážou mapu, TOVEK řekne kudy jít

23. Splnitelnost a platnost výrokových formulí, dedukce ve výrokové logice

Transkript:

Téma dnešní přednášky Vyhledávání informací Kognitivní a sémantické problémy Technologie vyhledávací algoritmy indexové soubory Modely podle postupu (strategie) podle typu dokumentů podle technologie VOŠIS UIM 15 1

Rekapitulace Typy metadat identifikační popisná vyhledávací (selekční) VOŠIS UIM 15 2

Důležité pojmy index zpětná vazba relevance retrieval term posting key (klíč) rank vyhledávání sekvenční / intervalové / binární strukturovaný / fulltextový index vyhledávání booleovské / vektorové VOŠIS UIM 15 3

Životní cyklus informace VOŠIS UIM 15 4

Co chce uživatel od informačního systému? VOŠIS UIM 15 5

Jak se dozvíme o relevantní informaci? 1) Sociální sítě (doporučení, odkaz, citace) vyhledávání 2) Metadata (bibliografický popis, obsahová analýza) 3) Počítačové porovnání dotazu (požadavku) s obsahem zdroje VOŠIS UIM 15 6

Procesy přístupu k informaci VOŠIS UIM 15 7

Procesy přístupu k informaci VOŠIS UIM 15 8

Procesy přístupu k informaci VOŠIS UIM 15 9

Co je to vlastně vyhledávání informací? stanovení, zda konkrétní údaj je prvkem určité množiny, a určení jeho umístění technika, která to umožní: porovnávání hodnoty vyhledávacího klíče s hodnotami prvků dané množiny (souboru) VOŠIS UIM 15 10

Obecný model vyhledávacího systému relevanční zpětná vazba VOŠIS UIM 15 11

Podmínky efektivního vyhledávání z množiny údajů 1) data musí být sémanticky popsaná (musí být znám jejich význam, tj. musí k nim existovat metadata) 2) data musí být organizovaná (uspořádaná, tj. musí být určeny vztahy mezi daty) VOŠIS UIM 15 12

<li>digitalizace</li> <p><em>jana Dobrovská</em></p> <li>knihovny v České republice</li> <p><em>pavel Souček</em></p> <li>umělá inteligence</li> <li><img src="../obrazky/zadano.gif" alt="zadano">web 2.0</li> <p><em>věra Janková<br> Karel Novák</em></p> VOŠIS UIM 15 13

<volné téma>digitalizace <student/ka>jana Dobrovská</student/ka></volné téma> <volné téma>knihovny v České republice <student/ka>pavel Souček</student/ka></volné téma> <volné téma>umělá inteligence</volné téma> <zadané téma>web 2.0 <student/ka>věra Janková</student/ka> <student/ka>karel Novák</student/ka></zadané téma> VOŠIS UIM 15 14

Kognitivní a sémantické problémy vyhledávání informací 1. kognitivní / gnozeologický šum 2. sémantický (významový) šum 3. sémantické problémy přirozeného jazyka (synonymie, homonymie, metafory, vágnost, kontext) VOŠIS UIM 15 15

Gnozeologický vztah uživatele k hledané informaci VOŠIS UIM 15 16

Gnozeologický šum A jakým způsobem budeš hledat, Sókrate, to, o čem vůbec nevíš, co to je? Kterou věc z těch, které neznáš, uděláš předmětem svého hledání? Nebo i kdybys nakrásně na ni připadl, jak budeš vědět, že to je to, co jsi neznal? Platón: Menón 1) na neznámé se ptáme prostřednictvím známého 2) nesnažíme se dosáhnout totožnosti, ale podobnosti dotazu a vyhledané informace VOŠIS UIM 15 17

Gnozeologicko-sémantický šum Jak určit / zjistit potřebu informace? VOŠIS UIM 15 18

Sémantický šum při přechodu informace z jednoho do druhého kanálu v důsledku redukce v bodech "překladu" (transformace) z jedné formy informace do další v průběhu komunikačního cyklu různou interpretací přisuzovaného významu subjektivnost v chápání významu (tj. i relevance) stejných objektů nebo znaků různými lidmi při interferenci (vzájemném prolínání) přenosu dvou či více zpráv VOŠIS UIM 15 19

Přístupové body VOŠIS UIM 15 20

Synonymie a homonymie v přirozeném jazyce A proto už není voda němá. A proto zvoní, cinká, ševelí a šeptá, zurčí a bublá, šplouná, šumí, hučí, ropotá, úpí a kvílí, burácí, řve, ječí a hřímá, stená a vzdychá a směje se, hraje jako na stříbrnou harfu, klokotá jako balalajka, zpívá jako varhany, duje jako lesní roh a hovoří jako člověk v radosti nebo v žalu. Karel Čapek. Pohádka vodnická Mezi básníky mě žádnej Vítězslav nezval Já však se přesto vetřel do jejich středu VOŠIS UIM 15 Jiří Suchý. Mezi básníky 21

Problém synonymie snižuje úplnost (recall): hrozí, že nenajdeme všechny relevantní informace řešení: tvorba seznamů synonymních termínů, které se automaticky berou v úvahu při použití jednoho z nich a) věcná (lexikální) synonymie: seznamy synonym např. tezaury, autority b) gramatická synonymie: lematizátor, derivátor c) nouzové řešení zkracování / maskování koncovek VOŠIS UIM 15 22

Problém homonymie snižuje přesnost (precision): hrozí, že najdeme nerelevantní informace řešení: 1. kontext buňka v ČNK 2. řízený slovník a) homonyma vyloučíme z používání balón viz míč b) jednotlivé významy upřesníme poznámkami balón (míč) VOŠIS UIM 15 23

Faktory ovlivňující způsob (model) a úspěšnost vyhledávání 1) Typ dokumentů v prohledávané množině 2) Způsob zpracování (organizace) množiny prohledávaných údajů 3) Typ informační potřeby VOŠIS UIM 15 24

Technologie vyhledávací techniky a algoritmy kritérium efektivnosti: počet prvků prohledávaného souboru (záznamů, dokumentů), které musíme otestovat (tj. doba potřebná k vyhledávání) VOŠIS UIM 15 25

Vyhledávací techniky a algoritmy rychlost vyhledávání 1) úplné vyhledávání 2) zkrácené vyhledávání v setříděném souboru 3) vyhledávání s použitím indexu stupeň zpracování VOŠIS UIM 15 26

Úplné vyhledávání sekvenční (lineární) vyhledávání v nesetříděném souboru tzv. grepping možnost použít regulární výrazy (nahrazení výrazu jiným výrazem) vždy je nutné zpracovat všechna data Příklad: lineární vyhledávání řetězců textovým editorem VOŠIS UIM 15 27

Zkrácené vyhledávání v setříděném souboru poté, co najdeme hledanou hodnotu, lze zpracování ukončit typy třídění: a) abecedně, chronologicky, číselně b) podle pravděpodobnosti požadavku sekvenční (lineární) intervalové binární (půlení intervalu) VOŠIS UIM 15 28

Sekvenční vyhledávání v setříděném souboru Alliprandi allomorfóza alluaudit allyl alma mater Alma redemptoris Mater Alma-Ata VOŠIS UIM 15 29

Intervalové vyhledávání v setříděném souboru tzv. blokový, řídký index dvoufázové vyhledávání: 1) sekvenční prohledávání seznamu intervalů 2) sekvenční prohledávání obsahu intervalu VOŠIS UIM 15 30

Binární vyhledávání v setříděném souboru půlení intervalu: hledanou hodnotu porovnáváme s prostředním prvkem souboru jestliže >, postupujeme zpět, jestliže <, postupujeme vpřed VOŠIS UIM 15 31

Vyhledávání s použitím indexu = pomocný soubor tříděný podle jiného hlediska než primární (základní) soubor, obsahující odkazy na údaje v primárním souboru. obecná struktura: klíč adresa klíč: hodnota převzatá z primárního souboru (slovo, fráze, atribut) adresa: odkaz (ukazatel, pointer) na místo uložení hodnoty v primárním souboru VOŠIS UIM 15 32

Tradiční metody uspořádání (organizace) dat Seznamy Kartotéky Indexy (rejstříky, registry) VOŠIS UIM 15 33

Indexy (rejstříky, registry) primární soubor pomocný soubor VOŠIS UIM 15 34

Index pro a proti klad: urychluje přístup k datům (zkracuje dobu vyhledávání) umožňuje vyhledávat podle více hledisek zápor: zabírá místo údržba indexu zpomaluje práci při aktualizaci primárního souboru VOŠIS UIM 15 35

Typologie indexů VOŠIS UIM 14 36

Modely vyhledávání informací 1 podle postupu (strategie) a) pull push b) vyhledávání filtrování prohlížení c) building blocks osekávání rostoucí perla VOŠIS UIM 15 37

1) Vyhledávání hunting, fishing, ad hoc, jednorázové dotazy dotaz formuluje aktivně sám uživatel a) hledání známého dotaz: identifikátor informačního zdroje (např. URL, bibliografická citace) b) hledání neznámého dotaz: téma, reprezentace informační potřeby široké tematické vyhledávání informace o dosud neznámé doméně úzké, dobře definované tematické vyhledávání v rámci známé domény komparace (firmy nad 1000 zaměstnanců) hledání nových vzorců a trendů (co se bude nosit na jaře 2014) fakta, statistiky (kdo, co, kde, kdy, jak, kolik?) a další VOŠIS UIM 15 38

2) Filtrování dotaz formuluje aktivně sám uživatel dotaz: profil, reprezentace informační potřeby v proudu nových informací jsou hledány ty, jež jsou relevantní pravidelné dodávky, např. RSS VOŠIS UIM 15 39

3) Prohlížení, listování (browsing) dotaz vychází z existující nabídky náhodné prohlížení bez předem stanoveného tématu navigace zkoumání neznámého VOŠIS UIM 15 40

Modely vyhledávání informací 2 podle typu dokumentů 1) database searching transakční dokumenty, strukturované záznamy booleovské vyhledávání cíl: získat data (fakta) z databáze 2) information retrieval narativní dokumenty, nestrukturované texty fulltextové vyhledávání cíl: něco se dozvědět VOŠIS UIM 15 41

"transakční" dokument Rekapitulace "narativní" dokument Sandro Botticelli (1445-1510) je malíř italské renesance. V jisté podzemní noře bydlel jeden hobit. Nebyla to žádná ošklivá, špinavá, vlhká díra, plná konečků žížal a páchnoucí slizem, ani vyschlá, holá písčitá jáma, kde by se nedalo na nic sednout a ničeho se najíst: byla to hobití nora, a to znamená komfort.

Modely vyhledávání informací 3 podle technologie 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další VOŠIS UIM 15 43

Rešerše - zpracování 1. etapa přípravy formulace a analýza rešeršního požadavku výběr vhodného zdroje pro vyhledávání informací vhodná kombinace klíčových slov volba rešeršní strategie VOŠIS UIM 15 44

Rešerše - zpracování 2. etapa vyhledávání samotné vyhledávání ve zvolených informačních zdrojích ladění rešeršního dotazu dle vyhledaných záznamů (tzn. zobecnění/zúžení dotazu) VOŠIS UIM 15 45

Rešerše - zpracování 3. etapa zpracování představení rešerše v přehledné a srozumitelné formě VOŠIS UIM 15 46

Rešeršní strategie Strategie stavebních kamenů: často užívaná zjednodušené formulování dotazu do několika dílčích dotazů jednotlivé klíčové pojmy (tzv. stavební kameny) vyhledáme VOŠIS UIM 15 47

Rešeršní strategie Strategie stavebních kamenů: kombinujeme různé výsledky vyhledávání pomocí booleovských operátorů: AND, OR, NOT VOŠIS UIM 15 48

Rešeršní strategie Strategie rostoucí perly: založena na postupném rozšiřování dotazu a jeho doplňování o další pojmy vyhledávání začíná od nejužšího, nejspecifičtějšího pojmu často je tato strategie využívána intuitivně VOŠIS UIM 15 49

Rešeršní strategie Strategie osekávání: zužování dotazu a zpřesňování pojmů s cílem snížit konečný počet dokumentů omezení např. na základě tématu, jazyka, časového či teritoriálního omezení distanční operátory (NEAR, ADJACENT, FOLLOWED BY VOŠIS UIM 15 50