Aplikovaná informatika Pokročilé vyhledávání, vyhledávací roboti ZEMÁNEK, Z. PLUSKAL,D. ŠUBRT, Z.

Aplikovaná informatika Pokročilé vyhledávání, vyhledávací roboti ZEMÁNEK, Z. PLUSKAL,D. ŠUBRT, Z. Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky amanagementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326

POKROČIL ILÉ VYHLEDÁVÁNÍ, VYHLEDÁVAC VACÍ ROBOTI i 1. Principy pokročil ilého vyhledávání 2. Využit ití vyhledávac vacích ch robotů 3. Možnosti vyhledávání informací z informačních databází a tvorby rešer erší 4. Kontrolní otázky a úkoly do samostudia

Cíle přednp ednášky 1. Charakterizovat princip a využit ití pokročil ilého vyhledávání. 2. Objasnit význam vyhledávac vacích ch robotů. 3. Vysvětlit princip zpracování výsledků informačního průzkumu z fulltextových zdrojů a jeho praktické využit ití.

Vyhledávání informací Východiskem vědeckého studia musí být pečlivé prostudování existující literatury o dané otázce, abychom nezjišťovali věci dávno známé. [1] Efektivní vyhledávání informací a jeho aplikování ve správnou dobu správnými (poučenými a informačně připravenými) lidmi je sice jen jedním, ale strategickým aspektem uspění v novodobém prostředí. Schopnost vyhledat relevantní informace patří mezi konkurenční výhody, a nezáleží, v jakém pracujeme oboru. [2]

Katalogové (předm edmětové) vyhledávání je charakteristická katalogizace dat odkazy jsou hierarchicky uspořádány vyhledávače: Google, Seznam, Nevýhody: Kvůli značnému podílu ruční práce je velikost značně omezena. 1. Každý katalog má jinak strukturované skupiny odkazů. 2. Časová náročnost (ta vychází ze struktury uživatel může strávit mnoho času, než najde správnou podkategorii). 3. Platnost, resp. neplatnost odkazů lze zčásti odstranit jejich automatizovanou kontrolou. C4 Vyhledávací roboti

Katalogové (předm edmětové) vyhledávání C4 Vyhledávací roboti

Pokročil ilé vyhledávání Vyhledávací operátory jsou prostředky dotazovacího jazyka sloužící k přesnému formulování rešeršního dotazu. Jejich význam, příp. přednastavení se může v jednotlivých vyhledávacích strojích lišit. Příkladem může být Google: http://www.google.cz/advanced_search?hl=cs Nebo Seznam: http://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/pokrocile-hledani V pokročilém vyhledávání jsou přednastaveny následující operátory: uvozovky (" "), čárka (,), not (-), intitle, inurl, intext, site, -site a filetype. Při vyhledávání na Seznamu můžeme dále použít následující operátory: plus (+), host, -host a lang. Schopnost nalézt správné informace je nezbytným předpokladem pro jejich další využití.

Principy pokročil ilého vyhledávání Umožňuje zadávat ve vyhledávačích Internetu složitější dotazy, které lze kombinovat pomocí podporovaných operátorů (na stránkách pokročil ilého hledání není potřeba operátory zadávat, vkládají se automaticky). Lze vyhledávat přesnou fulltextovou frázi, kde se má zadané slovo nacházet v titulku stránky, v URL, v textu stránky, omezit hledání na určitou doménu či naopak vybranou doménu z hledání vyloučit, umožňuje nastavit dokumenty, které se mají prohledávat.

Využit ití nastavení a filtrů Vyhledávání je možno zjednodušit využitím nastavením vyhledávače Ve svém profilu využitím filtrů vyhledávání (dle obsahu)

Vyhledávac vací centrály = integrace vyhledáva vačů v jednom prostřed edí Alenka Zajímavý Internetový portál s možností okamžitého vyhledávání na mnoha Českých i zahraničních vyhledávačích. Alenka není klasický metavyhledávač, ale umožňuje předat dotaz vybranému vyhledávači z jednoho místa, bez dalšího zpracování výsledků. C4 Vyhledávací roboti

Příklady vyhledávac vacích ch centrál www.alenka.cz www.globalsearch.cz www.odskok.cz/sluzby/robot.php C4 Vyhledávací roboti

Metavyhledáva vače Metavyhledávače neprohledávají Internet, ale využívají existující vyhledávací servery. Výhoda: odstraňují duplicity. Nevýhody: vzhledem k tomu, že musí čekat na odezvu více serverů, jsou pomalé, jejich rychlost je závislá na rychlém připojení k Internetu. C4 Vyhledávací roboti

Metavyhledáva vače 1. Dotaz uživateleu rozešlou několika nezávislým vyhledávacím strojům, které provedou vlastní hledání, a sám pouze uživateli prezentuje celkový výsledek vyhledání. www.metacrawler.com, www.webcrawler.com, http://www.dogpile dogpile.com/ C4 Vyhledávací roboti

Metavyhledáva vače 2. Rozesílací mechanismus je základem metavyhledávače (algoritmus rozhodující o tom, kterým vyhledávačům bude dotaz zaslán). www.metacrawler.com, www.webcrawler.com, http://www.dogpile dogpile.com/ C4 Vyhledávací roboti

Metavyhledáva vače 3. Agent rozhraní - převádí dotaz položený metavyhledávači do formy, které bude rozumět konkrétní vyhledávací stroj a poté zase výsledky jednotlivých vyhledávačů převést a sjednotit k zobrazení v rámci metavyhledávače. www.metacrawler.com, www.webcrawler.com, http://www.dogpile dogpile.com/ C4 Vyhledávací roboti

Metavyhledáva vače 4. Zobrazovací mechanismus jeho úkolem je odstranění vícenásobných odkazů (duplicit) na jeden dokument a verifikace jejich existence. www.metacrawler.com, www.webcrawler.com, http://www.dogpile dogpile.com/ www.metacrawler.com, www.webcrawler.com, http://www.dogpile dogpile.com/ C4 Vyhledávací roboti

Co je vyhledávac vací robot? Program (SW), který opakovaně vykonává nějakou rutinní činnost na internetu. Je spuštěn na portálu. Obvykle sbírá data, odesílá a zpracovává požadavky na služby. Příkladem robota jsou vyhledávací roboti internetových vyhledávačů (crawler, spider, gatherer doslova prolízač, pavouk, shromažďovač -český ekvivalent se nepoužívá). C4 Vyhledávací roboti

18 Proč vyhledávac vací robot? Usnadňuj ují orientaci v ohromném m množstv ství informací,, které se nachází na Internetu. Velmi podstatné zrychlení doby vyhledání odpovědi di na dotaz. Jedná se o fulltextové vyhledávání podle dotazu uživatele. u Robot průběž ěžně shromažď žďuje WWW dokumenty, ze kterých je vytvářena databáze (indexace). Roboti přitom mohou pracovat buď nepřetržitě, nebo v určitých časových intervalech.

Jak funguje robot (stroj) 1. Robot prochází jednotlivé webové stránky, hledá na nich odkazy na nové stránky (omezen např. doménou). 2. Indexuje obsah zpracovávaných stránek a odkazů. 3. Obsah je průběž ěžně ukládán do databáze nebo je aktualizován stávající záznam. 4. Umožňuje jejich následné prohledávání (dotaz-odpov odpověď). C4 Vyhledávací roboti

Příklady vyhledávac vacích ch robotů? + + - - Robot na kontrolu odkazů (linkchecker). Prochází zadané stránky a hledá na nich odkazy na již neexistující stránky. Roboti pro správu a údržbu portálů. Komentářový ový spam. Takový robot vyhledává formuláře na webu a vkládá do nich reklamní text nebo komerční sdělení (i konference). E-mailové adresy. Pro rozesílání nevyžádané pošty (spamu). C4 Vyhledávací roboti

Viditelný a neviditelný webw Pojem viditelný web (též visible web nebo surface web ), označuje dostupné a běžb ěžně indexovatelné stránky. Opakem je neviditelný web (často označovaný ovaný jako invisible web nebo deep web ) ) obsahuje dokumenty, které jsou obtížně vyhledatelné. Důvody [3]: vyhledávací stroje nedokážou indexovat dynamicky se měnící stránky (informace se generují z databáze) mnoho vyhledávacích strojů má omezení na počet indexovaných stránek z určité domény většina vyhledávacích strojů preferuje indexování populárních stránek přístup na některé stránky je chráněn heslem na vstup do katalogů knihoven je v řadě případů třeba se zalogovat http://aip.completeplanet.com, http://www.scirus.com/srsapp/

Neviditelný web Charakteristika neviditelného webu [3]: neviditelný web je až 500krát větší než tzv. povrchový web obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v povrchovém webu) je to nejrychleji rostoucí část webu až 95% informací v neviditelném webu patří k veřejně přístupným informacím, které jsou přístupné bez poplatků http://aip.completeplanet.com, http://www.scirus.com/srsapp/ [4]

Nové trendy ve vyhledávání Intelligent Agents SW, který uživateli asistuje, naviguje při práci s PC aplikacemi při čtení, filtrování, třídění, vyhledávání, správě informací za podpory: umělé inteligence, znalosti uživatelských preferencí, principů fuzzy logiky, neuronové sítě, dalších pokročilých algoritmů. zakomponované do vyhledávacích strojů (web spiders, web robots), aplikace competitive intelligence (zakomponované do mobilních technologií a atd. na základě stanovených podmínek (vestavěná znalost + uživatel) filtrují a vyhledávají informace na míru daného uživatele (autonomní režim) schopnost učit se, napodobovat naše již provedená rozhodnutí v nových situacích

Pojem: Rešer erše Z každého seriózně se tvářícího odborného textu by měly být patrné tři následující roviny: všeobecně známé poznatky, k čemu autor dospěl sám, tedy co jsou jeho vlastní názory, postoje, hodnocení, výsledky měření atd., co se dozvěděl od ostatních a jakým způsobem tyto cizí myšlenky převzal, zpracoval a citoval. [5] Rešerše jsou zpracovávány na základě požadavků, jejich charakteristickým znakem je adresnost a komplexnost (obsahují i anotace, nejen pouhé citace). Rešerše = výsledek (popř. proces) vyhledávání informací ve formě dokumentografických nebo faktografických záznamů, popř. plných textů dokumentů. [5]

Pojem: Anotace Anotace mohou mít m t formu: stručného shrnutí obsahu dokumentu, poznámek k jednotlivým místům textu, například na okraji knihy (marginálie), posouzení či kritiky dokumentu z hlediska uživatelů nebo odborníků (stručné recenze, hodnotící poznámky v časopisech, blozích a pod.). Popis: Stručně charakterizují jeho obsah pro usnadnění výběru uživatele (například anotace v databázi, v bibliografii, v nakladatelském katalogu), Obvykle mají rozsah 5-10 řádků

Pojem: Abstrakt Abstrakt (z angl. abstract) je stručný výtah vědeckého článku, dizertační práce, referátu nebo jakékoliv hloubkové analýzy jakéhokoliv předmětu nebo disciplíny. Slouží především jako pomoc čtenáři i rychle se zorientovat v dané publikované práci. Nachází se vždy na začátku práce. Pokud souhlasíme s tím co uvedl autor práce, lze po úpravě použít t jako anotaci v rámci našeho informačního průzkumu. Délka abstraktu záleží na disciplíně, zvyklostech daného časopisu nebo jiného média i na požadavcích autora práce. Typická délka je od 100 do 500 slov, velmi zřídka více než 1 strana.

Pojem: Abstrakt Akademický abstrakt obvykle nastiňuje čtyři součásti podstatné pro kompletní práci: 1. Těžiště výzkumu (tj. nastínění problému). 2. Použit ité výzkumné metody (experimentální výzkum, případové studie, anketa, atd.). 3. Výsledky výzkumu. 4. Celkový závěr z r a doporučen ení. Také může obsahovat stručné reference.

Publikace a Autorské právo Autorské právo (anglicky copyright law) je odvětví práva, které se zabývá právními vztahy uživatelů a tvůrců tzv. autorských děl k příslušným dílům. Autorské právo chrání Autorský zákon. Autorské právo nechrání samotné myšlenky či i ideje; chrání pouze konkrétn tní díla, konkrétní vyjádření takových myšlenek, dílo v objektivně vnímatelné podobě. Autorským dílem je pouze jedinečný výsledek tvůrčí činnosti autora, dílem není námět, zpráva, informace, metoda, teorie, vzorec, graf, tabulka fyzikálních konstant, výstup počítačového programu apod. [6] Autorské právo je třeba respektovat v naší práci, proto je nutné uvádět v rešerších - citace, tzn. odkazy na primární zdroje.

Zpracování výsledků informačního průzkumu Jednotlivé kroky informačního průzkumu: Definování cíle průzkumu Výběr r databáze a dotazovacích ch technik Výběr r termínů pro vyhledávání,, jejich kombinace Prohlížen ení vyhledaných záznamz znamů Tvorba rešer eršního katalogu Zhodnocení výstupů - relevantních záznamz znamů Případná změna rešer eršní strategie Ukončen ení průzkumu

Zpracování výsledků informačního průzkumu Vyhledané informace zpracovat do podoby bibliografických záznamz znamů s anotacemi nebo bez nich. Pokud je proveden průzkum ve více v identických informačních zdrojích pak jednotlivé záznamy znamy vzájemn jemně porovnat, aby se zabránilo duplicitě (vždy dát d t přednost p originálu). Pokud dva záznamy z znamy stejného origináln lního pramene, pak vybrat ten, který mám nejúpln plnější,, nejpřesn esnější a nejčerstv erstvější údaje.

Zpracování výsledků informačního průzkumu Neúplné záznamy, které se nedaly doplnit ani z jiných zdrojů, či záznamy znamy i s jinými formáln lními závadami ztěž ěžujícími identifikaci původnp vodního pramene - raději vyřadit ze soupisu vůbecv bec. Provést kontrolu obsahu informací podle stanovených kritéri rií. Pak realizovat rozhodnutí,, které záznamy znamy budou definitivně zařazeny azeny. Je zřejmz ejmé, že rešer erše e nemá obsahovat žádné informace, které by bezdůvodn vodně přesahovaly obsah zadání.

Kontrolní otázky a úkoly do samostudia Charakterizujte a objasněte fulltextové pokročilé vyhledávání informací. Uveďte praktický význam robotů při vyhledávání informací. Proveďte zpracování výsledků informačního průzkumu podle uvedených jednotlivých kroků. Objasněte a vyzkoušejte možnosti vyhledávání informací z informačních databází a tvorbu rešer eršíší ke KP.

Zdroje doplňující studijní literatura: 1. ŠESTÁK, Z. Jak psát a přednášet o vědě. Vyd.1. Praha: Academia, 2002. 204 s. ISBN 80-200-0755-5 2. PAPÍK, R. Vyhledávání informací I. Umění či věda? Národní knihovna. Knihovnická revue. roč. 12, č. 1. 2001. s.18-25 3. Infogram: Neviditelný web. [online]. Praha: MŠMT, 2013 - [cit. 2013-11- 5]. Dostupné z: http://www.infogram.cz/article.do?articleid=1765. 4. BERGMAN, M. "White Paper". The Deep Web: Surfacing Hidden Value [online]. Sioux Falls (SD, USA): BrightPlanet Corporation, September 24, 2001 [cit. 2013-11-8]. Dostupné z: http://www.brightplanet.com/images/stories/pdf/deepwebwhitepaper.pdf 5. KUŽELÍKOVÁ, L. - NEKUDA, J.- POLÁČEK, J. Sociálně-ekonomické informace a práce s nimi [online]. Brno: Masarykova univerzita, Ekonomicko-správní fakulta [cit. 2013-11-8]. Dostupné z: http://is.muni.cz/do/1456/soubory/oddeleni/svi/skripta/es2008-01.pdf. 6. Autorské právo. In: Wikipedie: otevřená encyklopedie [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2002-2013, naposledy edit. 2013-06-4 [cit. 2013-11-7]. Česká verze. Dostupné z: http://cs.wikipedia.org/wiki/autorské_právo.