Téma dnešní přednášky Vyhledávání informací Kognitivní a sémantické problémy Technologie vyhledávací algoritmy indexové soubory Modely podle postupu (strategie) podle typu dokumentů podle technologie VOŠIS UIM 15 1
Rekapitulace Typy metadat identifikační popisná vyhledávací (selekční) VOŠIS UIM 15 2
Důležité pojmy index zpětná vazba relevance retrieval term posting key (klíč) rank vyhledávání sekvenční / intervalové / binární strukturovaný / fulltextový index vyhledávání booleovské / vektorové VOŠIS UIM 15 3
Životní cyklus informace VOŠIS UIM 15 4
Co chce uživatel od informačního systému? VOŠIS UIM 15 5
Jak se dozvíme o relevantní informaci? 1) Sociální sítě (doporučení, odkaz, citace) vyhledávání 2) Metadata (bibliografický popis, obsahová analýza) 3) Počítačové porovnání dotazu (požadavku) s obsahem zdroje VOŠIS UIM 15 6
Procesy přístupu k informaci VOŠIS UIM 15 7
Procesy přístupu k informaci VOŠIS UIM 15 8
Procesy přístupu k informaci VOŠIS UIM 15 9
Co je to vlastně vyhledávání informací? stanovení, zda konkrétní údaj je prvkem určité množiny, a určení jeho umístění technika, která to umožní: porovnávání hodnoty vyhledávacího klíče s hodnotami prvků dané množiny (souboru) VOŠIS UIM 15 10
Obecný model vyhledávacího systému relevanční zpětná vazba VOŠIS UIM 15 11
Podmínky efektivního vyhledávání z množiny údajů 1) data musí být sémanticky popsaná (musí být znám jejich význam, tj. musí k nim existovat metadata) 2) data musí být organizovaná (uspořádaná, tj. musí být určeny vztahy mezi daty) VOŠIS UIM 15 12
<li>digitalizace</li> <p><em>jana Dobrovská</em></p> <li>knihovny v České republice</li> <p><em>pavel Souček</em></p> <li>umělá inteligence</li> <li><img src="../obrazky/zadano.gif" alt="zadano">web 2.0</li> <p><em>věra Janková<br> Karel Novák</em></p> VOŠIS UIM 15 13
<volné téma>digitalizace <student/ka>jana Dobrovská</student/ka></volné téma> <volné téma>knihovny v České republice <student/ka>pavel Souček</student/ka></volné téma> <volné téma>umělá inteligence</volné téma> <zadané téma>web 2.0 <student/ka>věra Janková</student/ka> <student/ka>karel Novák</student/ka></zadané téma> VOŠIS UIM 15 14
Kognitivní a sémantické problémy vyhledávání informací 1. kognitivní / gnozeologický šum 2. sémantický (významový) šum 3. sémantické problémy přirozeného jazyka (synonymie, homonymie, metafory, vágnost, kontext) VOŠIS UIM 15 15
Gnozeologický vztah uživatele k hledané informaci VOŠIS UIM 15 16
Gnozeologický šum A jakým způsobem budeš hledat, Sókrate, to, o čem vůbec nevíš, co to je? Kterou věc z těch, které neznáš, uděláš předmětem svého hledání? Nebo i kdybys nakrásně na ni připadl, jak budeš vědět, že to je to, co jsi neznal? Platón: Menón 1) na neznámé se ptáme prostřednictvím známého 2) nesnažíme se dosáhnout totožnosti, ale podobnosti dotazu a vyhledané informace VOŠIS UIM 15 17
Gnozeologicko-sémantický šum Jak určit / zjistit potřebu informace? VOŠIS UIM 15 18
Sémantický šum při přechodu informace z jednoho do druhého kanálu v důsledku redukce v bodech "překladu" (transformace) z jedné formy informace do další v průběhu komunikačního cyklu různou interpretací přisuzovaného významu subjektivnost v chápání významu (tj. i relevance) stejných objektů nebo znaků různými lidmi při interferenci (vzájemném prolínání) přenosu dvou či více zpráv VOŠIS UIM 15 19
Přístupové body VOŠIS UIM 15 20
Synonymie a homonymie v přirozeném jazyce A proto už není voda němá. A proto zvoní, cinká, ševelí a šeptá, zurčí a bublá, šplouná, šumí, hučí, ropotá, úpí a kvílí, burácí, řve, ječí a hřímá, stená a vzdychá a směje se, hraje jako na stříbrnou harfu, klokotá jako balalajka, zpívá jako varhany, duje jako lesní roh a hovoří jako člověk v radosti nebo v žalu. Karel Čapek. Pohádka vodnická Mezi básníky mě žádnej Vítězslav nezval Já však se přesto vetřel do jejich středu VOŠIS UIM 15 Jiří Suchý. Mezi básníky 21
Problém synonymie snižuje úplnost (recall): hrozí, že nenajdeme všechny relevantní informace řešení: tvorba seznamů synonymních termínů, které se automaticky berou v úvahu při použití jednoho z nich a) věcná (lexikální) synonymie: seznamy synonym např. tezaury, autority b) gramatická synonymie: lematizátor, derivátor c) nouzové řešení zkracování / maskování koncovek VOŠIS UIM 15 22
Problém homonymie snižuje přesnost (precision): hrozí, že najdeme nerelevantní informace řešení: 1. kontext buňka v ČNK 2. řízený slovník a) homonyma vyloučíme z používání balón viz míč b) jednotlivé významy upřesníme poznámkami balón (míč) VOŠIS UIM 15 23
Faktory ovlivňující způsob (model) a úspěšnost vyhledávání 1) Typ dokumentů v prohledávané množině 2) Způsob zpracování (organizace) množiny prohledávaných údajů 3) Typ informační potřeby VOŠIS UIM 15 24
Technologie vyhledávací techniky a algoritmy kritérium efektivnosti: počet prvků prohledávaného souboru (záznamů, dokumentů), které musíme otestovat (tj. doba potřebná k vyhledávání) VOŠIS UIM 15 25
Vyhledávací techniky a algoritmy rychlost vyhledávání 1) úplné vyhledávání 2) zkrácené vyhledávání v setříděném souboru 3) vyhledávání s použitím indexu stupeň zpracování VOŠIS UIM 15 26
Úplné vyhledávání sekvenční (lineární) vyhledávání v nesetříděném souboru tzv. grepping možnost použít regulární výrazy (nahrazení výrazu jiným výrazem) vždy je nutné zpracovat všechna data Příklad: lineární vyhledávání řetězců textovým editorem VOŠIS UIM 15 27
Zkrácené vyhledávání v setříděném souboru poté, co najdeme hledanou hodnotu, lze zpracování ukončit typy třídění: a) abecedně, chronologicky, číselně b) podle pravděpodobnosti požadavku sekvenční (lineární) intervalové binární (půlení intervalu) VOŠIS UIM 15 28
Sekvenční vyhledávání v setříděném souboru Alliprandi allomorfóza alluaudit allyl alma mater Alma redemptoris Mater Alma-Ata VOŠIS UIM 15 29
Intervalové vyhledávání v setříděném souboru tzv. blokový, řídký index dvoufázové vyhledávání: 1) sekvenční prohledávání seznamu intervalů 2) sekvenční prohledávání obsahu intervalu VOŠIS UIM 15 30
Binární vyhledávání v setříděném souboru půlení intervalu: hledanou hodnotu porovnáváme s prostředním prvkem souboru jestliže >, postupujeme zpět, jestliže <, postupujeme vpřed VOŠIS UIM 15 31
Vyhledávání s použitím indexu = pomocný soubor tříděný podle jiného hlediska než primární (základní) soubor, obsahující odkazy na údaje v primárním souboru. obecná struktura: klíč adresa klíč: hodnota převzatá z primárního souboru (slovo, fráze, atribut) adresa: odkaz (ukazatel, pointer) na místo uložení hodnoty v primárním souboru VOŠIS UIM 15 32
Tradiční metody uspořádání (organizace) dat Seznamy Kartotéky Indexy (rejstříky, registry) VOŠIS UIM 15 33
Indexy (rejstříky, registry) primární soubor pomocný soubor VOŠIS UIM 15 34
Index pro a proti klad: urychluje přístup k datům (zkracuje dobu vyhledávání) umožňuje vyhledávat podle více hledisek zápor: zabírá místo údržba indexu zpomaluje práci při aktualizaci primárního souboru VOŠIS UIM 15 35
Typologie indexů VOŠIS UIM 14 36
Modely vyhledávání informací 1 podle postupu (strategie) a) pull push b) vyhledávání filtrování prohlížení c) building blocks osekávání rostoucí perla VOŠIS UIM 15 37
1) Vyhledávání hunting, fishing, ad hoc, jednorázové dotazy dotaz formuluje aktivně sám uživatel a) hledání známého dotaz: identifikátor informačního zdroje (např. URL, bibliografická citace) b) hledání neznámého dotaz: téma, reprezentace informační potřeby široké tematické vyhledávání informace o dosud neznámé doméně úzké, dobře definované tematické vyhledávání v rámci známé domény komparace (firmy nad 1000 zaměstnanců) hledání nových vzorců a trendů (co se bude nosit na jaře 2014) fakta, statistiky (kdo, co, kde, kdy, jak, kolik?) a další VOŠIS UIM 15 38
2) Filtrování dotaz formuluje aktivně sám uživatel dotaz: profil, reprezentace informační potřeby v proudu nových informací jsou hledány ty, jež jsou relevantní pravidelné dodávky, např. RSS VOŠIS UIM 15 39
3) Prohlížení, listování (browsing) dotaz vychází z existující nabídky náhodné prohlížení bez předem stanoveného tématu navigace zkoumání neznámého VOŠIS UIM 15 40
Modely vyhledávání informací 2 podle typu dokumentů 1) database searching transakční dokumenty, strukturované záznamy booleovské vyhledávání cíl: získat data (fakta) z databáze 2) information retrieval narativní dokumenty, nestrukturované texty fulltextové vyhledávání cíl: něco se dozvědět VOŠIS UIM 15 41
"transakční" dokument Rekapitulace "narativní" dokument Sandro Botticelli (1445-1510) je malíř italské renesance. V jisté podzemní noře bydlel jeden hobit. Nebyla to žádná ošklivá, špinavá, vlhká díra, plná konečků žížal a páchnoucí slizem, ani vyschlá, holá písčitá jáma, kde by se nedalo na nic sednout a ničeho se najíst: byla to hobití nora, a to znamená komfort.
Modely vyhledávání informací 3 podle technologie 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další VOŠIS UIM 15 43
Rešerše - zpracování 1. etapa přípravy formulace a analýza rešeršního požadavku výběr vhodného zdroje pro vyhledávání informací vhodná kombinace klíčových slov volba rešeršní strategie VOŠIS UIM 15 44
Rešerše - zpracování 2. etapa vyhledávání samotné vyhledávání ve zvolených informačních zdrojích ladění rešeršního dotazu dle vyhledaných záznamů (tzn. zobecnění/zúžení dotazu) VOŠIS UIM 15 45
Rešerše - zpracování 3. etapa zpracování představení rešerše v přehledné a srozumitelné formě VOŠIS UIM 15 46
Rešeršní strategie Strategie stavebních kamenů: často užívaná zjednodušené formulování dotazu do několika dílčích dotazů jednotlivé klíčové pojmy (tzv. stavební kameny) vyhledáme VOŠIS UIM 15 47
Rešeršní strategie Strategie stavebních kamenů: kombinujeme různé výsledky vyhledávání pomocí booleovských operátorů: AND, OR, NOT VOŠIS UIM 15 48
Rešeršní strategie Strategie rostoucí perly: založena na postupném rozšiřování dotazu a jeho doplňování o další pojmy vyhledávání začíná od nejužšího, nejspecifičtějšího pojmu často je tato strategie využívána intuitivně VOŠIS UIM 15 49
Rešeršní strategie Strategie osekávání: zužování dotazu a zpřesňování pojmů s cílem snížit konečný počet dokumentů omezení např. na základě tématu, jazyka, časového či teritoriálního omezení distanční operátory (NEAR, ADJACENT, FOLLOWED BY VOŠIS UIM 15 50