Vymezení a struktura hlubokého webu

Podobné dokumenty
Internetové vyhledávače

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

České internetové medicínské zdroje v Národní lékařské knihovně

Číslo a název šablony III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Elektronické inf. zdroje

Využití informačních technologií v cestovním ruchu P1

PRODUKTY. Tovek Tools

Kde hledat odborné články?

PRODUKTY. Tovek Tools

Kurz pro studenty oboru Informační studia a knihovnictví 5. Informační architektura

Vyhledávání na Internetu

Digitální knihovny v České republice

Inovace bakalářského studijního oboru Aplikovaná chemie

Bibliografické databáze umění vyhledávat v záplavě pramenů relevantní informace

Vyhledávání na portálu Knihovny.cz

SCOPUS a WEB OF SCIENCE

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

Máte to? Summon jako základní vyhledávací nástroj NTK

Vyhledávání informací

ANL+ Veronika Ševčíková Národní knihovna ČR

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

Základní informace o světových, českých a čínských vyhledávačích, seznámení s RSS technologií

Internet. Osnova. II. Vyhledávací nástroje. Proč je vyhledávání na Internetu tolik komplikované? Jak se stát úspěšným hledačem pokladů na Internetu

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

The bridge to knowledge 28/05/09

Digitální knihovny v České republice

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna

CZ.1.07/1.5.00/

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

Internet - základní pojmy

Z HISTORIE SPOLEČNOSTI

Studijní informační zdroje

Jak vyhledávat. Vyhledávače KAPITOLA 3

Celosvětová síť Internet. IKT pro PD1

Informatika. 20 Internet

Inovace výuky prostřednictvím šablon pro SŠ

Internet zdroj informací

KAPITOLA 2 - ZÁKLADNÍ POJMY INFORMAČNÍCH A KOMUNIKAČNÍCH TECHNOLOGIÍ

Vyhledávání nebo nalezení informací

InternetovéTechnologie

Služby Internetu. Ing. Luděk Richter

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna

Internetový prohlížeč-vyhledávání a ukládání dat z internetu do počítače

EBSCO. EBSCOhost Web. Databáze je přístupná na adrese Poté se můžete buď přihlásit, nebo vstoupit jako host.

Impaktované časopisy. Citační index

Integrované vyhledávání v informačních zdrojích Národní lékařské knihovny - výzva 21. století

Nástroje pro správu bibliografických citací

Elektronické zdroje Národní technické knihovny

INFORMAČNÍ ZDROJE NEMEDICÍNSKÉHO PŮVODU RELEVANTNÍ PRO ŘEŠENÍ MEDICÍNSKÝCH INFORMAČNÍCH POTŘEB Richard Papík, Martin Souček

InternetovéTechnologie

Strategie budování sbírky Webarchiv u

VYHLEDÁVÁNÍ V NOVÉM PROSTŘEDÍ MEDVIK : ZÁKLADNÍ HLEDÁNÍ. Adéla Jarolímková Národní lékařská knihovna, referát metodiky a vzdělávání

Metodika budování sbírky Webarchivu

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ. PhDr. Iva Zadražilová, Moravská zemská knihovna

Ročníková práce. Metodika tvorby. Jan Divišek Alena Beňadiková

EBSCO. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat.

Začínáme s Tovek Tools

JÁ DĚLÁM TO SEO DOBŘE,

PRODUKTY Tovek Server 6

Informační zdroje na Univerzitě Palackého. Seminář Knihovny UP Podzim 2010

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

KDE A JAK HLEDAT KONKRÉTNÍ DOKUMENT

Strategie a metody rešerší, které mohou vést k přidané hodnotě

Oborová brána TECH tech.jib.cz

Novinky v ASEPu a zkušenosti s vkládáním plných textů

Při konfiguraci domácího směrovače a bezdrátové sítě se setkáte s obrovským počtem zkratek, jejichž význam je jen málokdy dostatečně vysvětlen.

Otevřený přístup (Open Access) v Akademii věd ČR

InternetovéTechnologie

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Jindřiška Pospíšilová Karolína Košťálová Hana Nemeškalová, Národní knihovna ČR

Produktový list. Firemní profily

INTERNETOVÉ VYHLEDÁVAČE

financnasprava.sk Portál Technologie Microsoft zjednodušují komunikaci občanů s Finanční správou SR a činí výběr daní transparentnějším.

Webové stránky. 1. Publikování na internetu. Datum vytvoření: str ánk y. Vytvořil: Petr Lerch.

JAK PRACOVAT S INFORMACEMI TAK, ABY ONY PRACOVALY PRO NÁS? Přednáška kurzu Informační a databázové systémy v rostlinolékařství

Vyhledávání a orientace ve vědeckých informacích z pohledu citační analýzy

Olga Rudikova 2. ročník APIN

Produktový list. Firemní profily

Vyhledávání v citační databázi Web of Science (WOS)

Dozvíte se mimo jiné, jak přinutit internetový vyhledávač, aby našel přesně to, co potřebujete.

PHP framework Nette. Kapitola Úvod. 1.2 Architektura Nette

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

Co je nového v aplikaci PaperPort 12?

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

Škola. Číslo projektu. Datum tvorby 12. září 2013

Informační zabezpečení studia na Zahradnické fakultě MENDELU. Elektronické informační zdroje

Úvod do informatiky 5)

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Internet 2 css, skriptování, dynamické prvky

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

volných zdrojích Internet Web 2.0

Bibliografické a rešeršní služby


Transkript:

MASARYKOVA UNIVERZITA V BRNĚ FILOZOFICKÁ FAKULTA KABINET INFORMAČNÍCH STUDIÍ A KNIHOVNICTVÍ Miroslav Buchta Vymezení a struktura hlubokého webu Magisterská diplomová práce Vedoucí práce: Mgr. Břetislav Šimral 2008

Prohlašuji, že jsem magisterskou diplomovou práci vypracoval samostatně s využitím uvedených pramenů a literatury... Podpis autora práce

PODĚKOVÁNÍ Mgr. Břetislavovi Šimralovi za cenná doporučení během vzniku této práce.

Anotace Diplomová práce se zabývá částí webu, kterou neindexují vyhledávací nástroje hlubokým webem. Popisuje a specifikuje jeho charakter a určující vlastnosti vůči povrchovému webu. Teorie zahrnuje vymezení webu, jeho rozsahu a struktury, popis vyhledávacích nástrojů a databází. Hlavní část - kapitola o neviditelném webu pojednává o rozdělení hlubokého webu ve vztahu k hledání odborných informací. Teorie je dokazována na případových studiích vyhledávacích služeb a databází, na nichž jsou prezentovány jejich dílčí vlastnosti. Závěrečná část se věnuje zviditelněním" a zpřístupněním informací v hlubokém webu a jeho budoucností. Summary The diploma thesis concentrates on the part of the web not indexed by searching engines - the deep web. It describes and specifies its nature and main characteristics in comparison with the surface web. The theoretical part contains the definition of the web, its scale and structure, as well as the description of searching engines and databases. The body of the thesis - the chapter about the invisible web - deals with the categorization of the deep web, which is based on the search for special information. The theory is being proved on the several case studies of searching services and databases, in which their partial features are presented. The final part engages in the "visualization", gradual disclosure of information in the deep web and its future. Klíčová slova: hluboký web, neviditelný web, vyhledávací stroje, Google, metavyhledávací stroje, akademický neviditelný web Keywords: deep web, hidden web, invisible web, Google, search engines, metasearch engines, crawler, crawling, academic invisible web

1 Úvod... 3 2 Vymezení a struktura webu... 6 2-1 Internet vs. World Wide Web... 7 2-2 Vymezení webu - Teorie motýlku... 8 2-3 Důsledky teorie motýlku... 9 2-4 Kolik je na webu informací... 11 2-5 Databáze... 13 2-5-1 Výhody používání databází... 13 2-5-2 Jak vybrat správnou databázi?... 14 2-5-3 Druhy databází podle oborů... 14 3 Vyhledávače... 15 3-1 Časová osa... 15 3-2 Jak vyhledávače fungují... 16 3-3 Indexování internetu... 17 3-3-1 Binární strom... 18 3-4 Vyhledávací roboti... 18 3-5 Kolik indexují tradiční vyhledávače?... 20 3-6 Porovnání vyhledávačů... 23 3-6-1 Jeden vyhledávač nestačí... 24 3-7 Vyhledávání v češtině?... 25 3-8 Metavyhledávače... 26 3-8-1 Jednotná informační brána... 26 3-8-2 MetaCrawler a Dogpile... 27 3-8-3 Clusty... 29 3-9 Google a googlování fenomén doby... 30 3-9-1 Page Rank jako reputační systém... 31 3-9-2 Vyhledávání v Google... 31 3-9-2-1 Booleovské vyhledávání... 32 3-9-3 Google a jeho služby... 32 3-9-3-1 Google News... 32 3-9-3-2 Google Book Search a Scholar... 33 3-9-3-3 -Google Finance... 33 4 Neviditelný web... 34 4-1 Definice neviditelného webu... 34 4-2 Historie neviditelného webu... 35 4-3 Vymezení neviditelného webu... 35 4-4 Struktura hlubokého webu... 37 4-4-1 Opaque web... 38 4-4-2 Soukromé a proprietární weby... 39 4-4-3 Pravý neviditelný web... 39 4-5 Velikost neviditelného webu... 40 4-5-1 Kritika Bergmanovy kalkulace... 41 3-7 Akademický neviditelný web... 43 5 Hledání v neviditelném webu... 44 5-1 Proč hluboký web?... 45 5-1-1 Specifický obsah... 45 5-1-2 Vyhledávací rozhraní... 46 1

5-1-2 Přesnost a úplnost... 46 5-1-3 Vyšší odbornost... 47 5-1-4 Informace jsou zdarma dostupné... 47 5-2 Vyhledávače neviditelného webu... 47 5-2-1 Operační model vyhledávače ve skrytém webu... 48 5-2-2 Turbo10... 49 5-2-3 Incywincy... 52 5-2-4 CompletePlanet... 53 5-3 Databáze v hlubokém webu... 55 5-3-1 Intute... 55 5-3-2 Infomine... 58 5-3-3 Scirus... 61 5-3-4 DOAJ - Directory of Open Access Journals... 63 5-3-5 OAIster... 65 5-3-5-1 OAI-PMH... 66 5-4 Zviditelnění obsahu v hlubokém webu... 67 5-5 Budoucnost neviditelného webu... 68 6 Závěr... 71 Seznam použitých zdrojů... 73 Seznam obrázků, tabulek a grafů... 77 2

1 Úvod Náš svět je utvářen technologiemi a proměny světa informací jsou s přibývajícím časem čím dál rychlejší. Počítače pronikají do všech sfér lidské činnosti. Vyhledávání na webu je nejpopulárnější on-line aktivita. 1 Vyhledat se dá všechno: digitalizované obrázky, mapy, knihy. Stále více a více materiálů je digitalizováno, aby jejich obsah mohl být následně zpřístupněn uživatelům prostřednictvím výsledků vyhledávacích nástrojů. Mnoho lidí však netuší, že obsah povrchového webu představuje jen zlomek toho, co je ukryto v hlubinách. Ve své práci se zaměřím na internetový fenomén, o kterém se ví, že existuje, ale málokdo si pod ním umí představit něco konkrétního hluboký web. Protože jeho hlavní přínos a potenciál vidím ve vědě a výzkumu, zaměřím se na zdroje, které jsou relevantní pro akademickou obec. Pokusím se kvantifikovat objem informací, které jsou přístupné v povrchové části webu, ale též i odhadnout, kolik informací, k nímž se bežné vyhledávače ve většině případů neumí dostat, je ukryto v hlubokém webu. Nejdříve bych rád vysvětlil termín hluboký web. K tomu mi poslouží jedna z nových teorií, která vymezuje strukturu webu a staví ji do ostrého světla oproti předchozím teoriím. Díky ní lépe pochopíme vztahy mezi hlubokým a povrchovým webem. Dále bych se chtěl zaměřit na tradiční vyhledávače, okrajově též na jejich historii a způsob, jakým pracují. Právě popis metody sběru dat na webu je totiž velmi důležitý k odůvodnění existence hlubokého webu. Stěžejní část této práce věnuji vymezení a struktuře neviditelného webu. Všechno se dá kvantifikovat, dokonce i množina informací mimo dosah běžných vyhledávačů. Podrobně se zaměřím na řadu omezení, které vedou k tomu, že značná část informací není na webu běžně dostupná. Vybral jsem několik případových studií, na kterých se pokusím ilustrovat přínosy hlubokého webu ve vztahu k vědě a výzkumu. Rozhodl jsme se zařadit nejen vyhledávače hlubokého webu, ale též databáze, které zpřístupňují obrovské množství relevantních informací a jejichž obsah je ve většině případů zdarma. U každého projektu jsem věnoval prostor i historii a pozadí jeho vzniku, stejně jako praktické části, kde se zabývám způsobem, jakým probíhá vyhledávání v těchto zdrojích z pohledu uživatele. Po představení jednotlivých případových studií následuje zhodnocení možných východisek. Jak se dá zpřístupnit obsah hlubokého webu? Jak vidím budoucnost hlubokého webu? Jaká je aktuální situace a jaké trendy můžeme očekávat? O tom všem bude pojednávat závěrečná část. 1 comscore Media Metrix, březen 2007 3

Předvídat budoucnost není o moc jednoduší než zachycovat budoucnost, která se odehrává v přítomném okamžiku a ve chvíli se stává minulostí. 2 V okamžiku kdy popíšete některou vyhledávací službu, může se k nepoznání změnit nebo úplně zaniknout. Firmy působící v oblasti vyhledávání (ale i internetové firmy obecně) provází nejen rychlý růst, ale často též o to rychlejší pád. 3 V angličtině, stejně jako v českých textech se používá výraz neviditelný web (Invisible Web). Tento výraz - jak si ukážeme dále - zdůrazňuje roli vyhledávačů, pro které jsou zdroje v hlubokém webu neviditelné. Zahrnují však stránky, které mohou být navštíveny, ale nejsou zaindexované v rejstříku vyhledávačů. Z tohoto důvodu někteří autoři místo toho preferují výraz deep web - hluboký web. Neviditelný web je tedy nevhodné pojmenování, protože informace nejsou neviditelné, jenom nejsou zaindexované. Proto i v této práci budu převážně používat výraz hluboký web. Mnoho odborných a vědeckých pracovníků / / pracuje s omezeným výběrem informačních zdrojů, které slouží k uspokojení jejich informačních potřeb. Ne příliš kvalitní výběr relevantních informačních zdrojů a jednostranná inklinace k využívání internetových zdrojů vede k deformaci informačního chování". Uživatelé se orientují v mnohých případech jen na prostředí internetu a na zdroje získatelné zdarma neznajíc svět profesionálních a ověřitelných zdrojů. Místo s informacemi a znalostmi se tak pracuje s "informačním smogem". Důležité je volba relevantních zdrojů informací, které jsou použitelné ve výzkumu i v praxi. Metodologie identifikace a volby relevantních informačních zdrojů, formy přístupu k informačním systémům a způsoby využívání informací a znalostí jsou předpoklady kompetitivních informačních dovedností ve "společnosti znalostí". 4 2 ZBIEJCZUK, Adam. Web 2.0 charakteristika a služby. Diplomová práce [online]. Brno: Masarykova Univerzita, Fakulta sociálních studií, Katedra mediálních studií a žurnalistiky, 2007 [cit. 2008-02-11]. Dostupné na WWW: <http://zbiejczuk.com/web20/>. Vedoucí práce Mgr. David Kořínek. 3 Kuželíková, Lucie - Nekuda, Jaroslav - Poláček, Jiří. Sociálně-ekonomické informace a práce s nimi. Elportál, Brno : Masarykova univerzita. ISSN 1802-128X. 2008. 26. dubna. 4 PAPÍK, Richard. Metody vyhledávání vědeckých informací: viditelný x neviditelný web.[online].2004. [cit. 2008-02-11]. Dostupné na WWW: <http://www.konjunktura.cz/index.php3?w=art&id=1623&s=%5brichard%20papik%5d&rub=473>. 4

5

2 Vymezení a struktura webu Internet je obrazem společnosti. Jestli se vám nelíbí, co v zrcadle vidíte, oprava zrcadla nepomůže. Vinton Cerf V této kapitole se pokusím definovat web, vysvětlit, v čem spočívá rozdíl oproti zažitému označení internet, a představit teorii motýlku. Tato kapitola je důležitá pro vysvětlení hlubokého webu v kapitole 4, která na ni navazuje. Obr. 1: 3D znázornění webu. Zdroj: www.opte.org 6

2-1 Internet vs. World Wide Web Internet není to samé co web. Internetem se rozumí největší celosvětová počítačová síť sítí, nedozírný celosvětový prostor počítačů propojený sadou síťových protokolů (TCP/IP). Internet je svého druhu vedení, které slouží k propojení a poskytování řady služeb (elektronická pošta, chat, www stránky, sdílení souborů, on-line hraní, vyhledávání, katalogy a pod.). Web je jedním z mnoha rozhraní internetu. Termín World Wide Web (www, nebo pouze zkráceně web) bývá překládán jako celosvětová pavučina a označuje aplikace internetového protokolu HTTP. Web je soustava propojených hypertextových dokumentů. 5 Web je starý 19 let 6, zatímco historie internetu se datuje mnohem dále až ke vzniku projektu počítačového výzkumu agentury DARPA. 7 Internetové protokoly a rozhraní kromě webu zahrnují také e-maily, fóra diskusních skupin, internetové mailingové seznamy, peer-to-peer sítě pro výměnu souborů a databáze přístupné přes webové rozhraní. 8 5 World Wide Web. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: <http://cs.wikipedia.org/wiki/web>. 6 V roce 1989 přišel Tim Berners-Lee s projektem vytvoření distribuovaného hypertextového systému, čímž byl zahájen projekt WWW. 7 Internet. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: <http://cs.wikipedia.org/wiki/internet>. 8 SHERMAN, Chris PRICE, Gary. The Invisible Web. Independent Pub Group 2001. s.7. ISBN 09-109- 6551-X. 7

Obr. 2: Znázornění webu kolem vyhledávače Google. Zdroj: Wikipedie Internet je tedy nohem více než web. Definice nám říká, že www je: Distribuovaný hypertextový internetový informační systém, v němž dokumenty obsahují odkazy na jiné místní nebo vzdálené dokumenty. Informační nástroj využívající text, grafiku, zvuk, video. Webové dokumenty jsou vytvořeny nejčastěji v jazyku HTML, pro přenos sítí se používají protokoly HTTP, FTP a další. Klientský program používaný pro zobrazování webových stránek a pro pohyb v informačním prostoru WWW se nazývá prohlížeč. 9 2-2 Vymezení webu - Teorie motýlku Svět informací dostupných na internetu zřejmě není tak dokonale propojen, jak by se mohlo zdát. Cílem společné studie IBM Research, Compaq Corporate Research Laboratories a AltaVista Company bylo zmapování a vymezení hranic webu. Studie dospěla k závěru, že regionální hranice často znemožňují a omezují volný pohyb po webu. 10 Mapa kyberprostoru ukazuje, že web se podobá motýlku (bowtie) s dělicími hranicemi, které znemožňují navigaci mezi regiony, činí ji obtížnou 9 TDKIV Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. Dostupné z: <http://sigma.nkp.cz/f/?func=file&file_name=find-a&local_base=ktd>. 10 Researchers Map the Web. [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: <http://www.almaden.ibm.com/almaden/webmap_press.html>. 8

a v některých případech i nemožnou. Předchozí výzkumy přitom předpokládaly, že web je vysoce propojen a navzájem provázán. 11 Předchozí studie, založené na menších vzorcích webů, naznačovaly existenci vysokého stupně provázanosti jednotlivých webů. V rozporu s těmito původními zjištěními ukázala studie založená na analýze více než 500 miliónů stránek, že World Wide Web je v podstatě rozdělen do čtyř rozsáhlých oblastí, přičemž každá oblast obsahuje přibližně stejný počet stránek. Výsledky studie také ukázaly, že existují obrovské soustavy webů nepřístupných pomocí odkazů, což je ten nejobvyklejší způsob pohybu uživatelů po internetu. Tzv. teorie motýlku vysvětlila dynamické chování webu a jeho komplexní uspořádání. 12 Obr. 3: Schematické znázornění teorie motýlku. Zdroj: IBM 2-3 Důsledky teorie motýlku Teorie motýlku pomůže do značné míry vysvětlit povahu hlubokého webu. Z výzkumu vyšel najevo obraz webu v podobě vázacího motýlku. Čtyři různé oblasti představují přibližně 90 % celkového objemu informací na internetu. Zbývajících (přibližně) 10 % webu je od zbytku obsahu úplně odpojeno. Silně propojený obsah s dobrými vazbami je uzlem motýlku. Ten si můžeme představit jako srdce celého internetu, které obsahuje přibližně jednu třetinu všech webových stránek. Uživatelé tak mohou velmi jednoduše procházet mezi těmito stránkami prostřednictvím hypertextových odkazů v rámci tohoto vysoce 11 SHERMAN, Chris. New Web Map Reveals Previously Unseen Bow Tie Organizational Structure. [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: <http://newsbreaks.infotoday.com/nbreader.asp?articleid=17813#bowtie>. 12 Previous studies, based on small samplings of the Web, suggested that there was a high degree of connectivity between sites as evidenced by recent reports on the "small world Web" and 19 degrees of separation. Contrary to those preliminary findings, the new study -- based on analysis of more than 500 million pages -- found that the World Wide Web is fundamentally divided into four large regions, each containing approximately the same number of pages. The findings further indicate that there are massive constellations of Web sites that are inaccessible by links, the most common route of travel between sites for Web surfers. Developing the "Bow Tie" Theory explained the dynamic behavior of the Web, and yielded insights into the complex organization of the Web. 9

propojeného jádra. Na jedné straně motýlku jsou původní / vstupní webové stránky, které tvoří téměř jednu čtvrtinu webu. Z těchto vstupních stránek se uživatelé relativně snadno dostanou k jádru webu, s nímž jsou spojeny. Z jádra k okraji, tj. ke vstupním stránkám se však dostat nemohou. Na druhé straně jsou s jádrem spojeny výstupní (zaniklé) stránky tvořící přibližně ¼ webu. Tento obsah v zaniklé části internetu může být přístupný z jádra, ale nemůže odkazovat zpět. Jinými slovy, z výstupní části webu (z pravé části motýlku) se uživatelé nedostanou k jádru, kde se ukrývá většina vysoce propojeného obsahu. Čtvrtou a poslední oblastí obsahu webu jsou odpojené stránky. Jedná se o zcela izolovanou část internetu, která tvoří cca. jednu pětinu zbývajícího obsahu. Odpojené stránky mohou být spojené se vstupními a/nebo výstupními stránkami, ale nejsou dosažitelné z jádra motýlku. 13 Studie identifikovala čtyři hlavní různé oblasti webu. Obr. 4: Jiné grafické znázornění teorie motýlku. Teorie motýlku nejen že vysvětlila dynamické chování webu, ale pomohla lépe nahlédnout do jeho struktury. Dala tak k dispozici podklad pro efektivnější strategie crawlování (procházení) obsahu internetu vyhledávacími nástroji. Crawling jak si ukážeme dále - je metoda používaná vyhledávači k organizaci obsahu na webu. Studie tak byla svého druhu významným počinem, který pomohl řídit topografii webu. Následující tabulka vychází z výzkumu Sajiho Gopinatha: 14 13 GOPINATH, Saji. Structural and conceptual changes in the information landscape: The new challenges for information professionals [online]. [cit. 2008-02-13]. Dostupné na WWW: <www.dspace.iimk.ac.in/bitstream/2259/251/1/07-saji-paper.pdf>. 14 Tamtéž 10

Starší teorie Nová teorie Struktura obsahu Pavučina Motýlek Propojitelnost Přístupnost Všechny uzly (webové stránky) jsou propojené Některé stránky mohou být přístupné z jakékoli další stránky na omezený počet kliknutí. Pouze uzly v jádru jsou spojené. Existuje mnoho spojení k jádru a mnoho spojení z jádra. Je také mnoho odpojených stránek a propojených výběžků. Je vysoká pravděpodobnost (téměř 0,75) že žádná spojení mezi náhodně vybranými částmi webových stránek neexistují. Tabulka 1: Srovnání teorie motýlku a pavučiny. 2-4 Kolik je na webu informací V publikaci How much information? 2003, kterou publikovala Kalifornská univerzita v Berkeley, 15 se uvádí, že nově vytvořené informace jsou ukládány na čtyři fyzická média papír, film, magnetické a optické nosiče. V roce 2002 bylo vyprodukováno a uloženo 5 exabytů infomací. Z toho 92 % bylo uloženo na magnetická záznamová média, převážně na pevné disky počítačů. 16 Na základě této prognózy se můžeme pouze domnívat, že část těchto informací (zejména těch relevantních) je přístupná i prostřednictvím sítě internet. Internet je totiž nejrychleji rostoucím médiem všech dob 17 a počet jeho uživatelů se neustále zvyšuje. V roce 1987, kdy vznikl pojem internet, bylo v síti 27 tisíc počítačů. V roce 2006 již tento počet přesáhl 1 miliardu. 18 Kolik je 5 exabytů? 19 miliónů knih v Kongresové knihovně obsahuje přibližně 10 TB informací a 5 exabytů je tedy ekvivalentem půl miliónu knihoven velikosti Kongresové knihovny. 19 15 LYMAN, Peter - HAL R. Varian. How Much Information? 2003. [online]. [cit. 2008-02-14]. Dostupné na WWW: <http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/>. 16 Tamtéž 17 ZBIEJCZUK, Adam. Web 2.0 charakteristika a služby. Diplomová práce [online]. Brno: Masarykova Univerzita, Fakulta sociálních studií, Katedra mediálních studií a žurnalistiky, 2007 [cit. 2008-02-11]. Dostupné na WWW: <http://zbiejczuk.com/web20/>. Vedoucí práce Mgr. David Kořínek. 18 Internet. In Wikipedie: Otevřená encyklopedie [online]. c2007 [cit. 2007-12-04]. Dostupné na WWW: <http://cs.wikipedia.org/w/index.php?title=internet&oldid=2004184>. 19 Tamtéž 11

Velikost internetu v roce 2002 (v terabytech). Medium TB Povrchový web 167 Hluboký web 91 850 E-maily 440 606 Instant messaging 274 Celkem 532 897 Tabulka 2: Velikost internetu. Zdroj: How much information 2003 Nielsen/Netratings uvádí, že v roce 2002 čítala celosvětová internetová populace 580 miliónů uživatelů. Odhad Mezinárodní telekomunikační unie (The International Telecommunications Union) předpokládá dokonce o 15 % vyšší počet uživatelů 665 miliónů. 20 V rámci zmiňované studie výzkumníci analyzovali obsah 9806 webových stránek, aby odhadli velikost a obsah průměrné stránky. Testovací vzorek 9806 stránek byl vybrán ze seznamu 61 miliónů náhodně vybraných URL z databáze Internet Archive (www.archive.org). U stránek bylo následně ověřeno, že se nacházejí v DNS registru, a poté byly staženy na lokální počítače. U každé stránky byla změřena celková velikost, celkový počet souborů a u každého typu souborů také celková velikost a jejich počet. Tento vzorek byl stažen z povrchové části webu jednalo se převážně o veřejně přístupné statické stránky. Velikost zkušebního vzorku se rovnala 33,1 GB a počet vybraných stránek (9806) představoval 0,02 procenta z 42,8 miliónů webových serverů (NetCraft Survey; 2003 21 ). Z těchto hodnot vědci s 95% pravděpodobností odhadli celkovou velikost povrchového webu na 167 TB. 22 Nelze s jistotou tvrdit, nakolik byla tato studie spolehlivá, co do výběru vzorků a použité metodologie. Výzkumníci stanovili celkový počet souborů různých formátů a na základě toho určili, jak jsou rozděleny typy souborů. Obrazová ifnrmace formáty obrázků, tvořily 23,2 procent obsahu povrchového webu, HTML soubory 17,8 % a PHP skripty 13 %. 20 Citováno dle záznam 13 21 Tamtéž 22 Z této hodnoty bylo vyvozeno, že velikost neviditelného webu je mezi 66 800 a 91 850 TB. Vzhledem k tomu, že vycházeli ze studie BrightPlanet, kterou dále v textu zpochybňuji, uvádím tyto údaje pouze v poznámce. 12

Graf 1: Rozložení povrchového webu podle typu souborů. Zdroj: Brightplanet 2-5 Databáze Databáze jsou uspořádané sbírky elektronických informací či bibliografických záznamů, které jsou přístupné prostřednictvím počítače. Jednotlivé záznamy (records) databází jsou složeny z polí (fields). Ta jsou tvořena bibliografickými a věcnými údaji: autor, název článku, název zdrojového dokumentu, ročník, číslo, počet stran, rok vydání, klíčová slova a abstrakt. Záznamy v databázích se vyhledávají pomocí těchto polí. V následujících řádcích jsem se pokusil sumarizovat výhody používání databází a současně navrhnout optimální vyhledávací strategii. 2-5-1 Výhody používání databází Používání databází provází řada výhod: o o o informace v elektronických databázích jsou jednoduše a rychle dostupné, nabízí se přístup k informacím z celého světa, v databázích je uloženo velké množství informací, o obsahují záznamy všech možných druhů publikací (kapitoly knih, noviny nebo sborníky), 13

o vyhledávat lze rychle a efektivně (ovšem za předpokladu, že uživatel s databázemi umí pracovat), o obsahují nejen aktuální údaje, ale i retrospektivu, o záznamy jsou často doplněné o abstrakt (krátký obsah článku) včetně plného textu, o výstupy databází jsou v elektronickém formátu, s kterým se následně dá pohodlně pracovat. 2-5-2 Jak vybrat správnou databázi? Protože každá databáze obsahuje různé typy informačních pramenů (časopisy, noviny, disertace, monografie, plné texty), je při výběru potřeba posoudit více hledisek. Nabízí se otázka, jak staré informace hledáme, neboli jakou má daná databáze retrospektivu. S tím souvisí otázka pravidelné aktualizace, tedy jak často a v jaké kvalitě jsou do požadovaného zdroje ukládány nové informace. K posouzení a výběru správné databáze si všímáme také rozsahu požadovaných informací. Okruhy vhodných databází lze vymezit teritoriálně (angloamerická produkce, Evropská unie apod.) i jazykově (naprostá většina databází obsahuje informace v angličtině). Pro úspěšnost vyhledávání je nutné použít více zdrojů databází, přičemž platí, že závisí na výběru správných databází. Pokud chceme něco najít, je nutné nejdříve určit klíčová slova, která co možná nepřesněji vystihují hledané téma. Následně vybereme vhodný vyhledávací nástroj. Je potřeba vzít v úvahu rozsah a obsah databáze. Prostudujeme nápovědu u databáze (help, search tips), formulujeme dotaz pomocí klíčových slov a zhodnotíme výsledky vyhledávání. Pokud je to ještě potřeba, opravíme dotaz a zkusíme nové vyhledávání případně i v jiné databázi. 2-5-3 Druhy databází podle oborů Databáze bývají zaměřeny většinou podle oborů. Z pohledu nejen humanitních a sociálně-ekonomických věd jsou důležité databáze obsahující určité druhy dokumentů (periodika, disertace atd.) nebo určité druhy dat (statistická data). Jednooborové databáze sledují zdroje vztahující se k jedné disciplíně, zatímco víceoborové se týkají informací z více oborů. Bibliografické databáze dat obsahují bibliografické informace, které mohou být doplněny o abstrakt. Informace v plnotextových databázích jsou uspořádané do podoby plných textů a doplněny o bibliografické údaje. Bibliografické databáze obsahují především přesnou bibliografickou citaci informačního zdroje. Ve většině případů je k dispozici i abstrakt (krátká anotace), z níž se můžeme dozvědět o míře použitelnosti daného dokumentu. Tento druh databází je průběžně aktualizován a používá se v nich jednotná terminologie (např. deskriptory, klíčová slova ). Faktografické 14

databáze slouží pro získání konkrétních údajů, které mohou mít textový nebo numerický charakter, popřípadě kombinaci obou 23. Při práci s faktografickými databázemi nepotřebujeme získat primární dokument, protože konkrétní data jsou již primární informace, většinou statistického charakteru. Jejich hlavním úkolem tedy není bibliografická identifikace, ale poskytnutí přímé odpovědi (údaje - data) na konkrétní dotaz. Fulltextové databáze: jedná se o báze dat obsahující plné texty primárních dokumentů. Většinou pracují pouze s textovou informací a s obrazovou již poměrně omezeně.tyto databáze jsou také specifické tím, že používají efektivní vyhledávací algoritmy pro práci s dokumenty a výhodnější pomocné datové struktury pro vyhledávání, např. hypertext. Další vlastností fulltextových databází je skutečnost, že se na výstupu zobrazí plný text dostanete kompletní text primárního dokumentu, ve kterém můžeme provádět vyhledávání. Kromě výše uvedených databází se můžeme setkat též s databázemi katalogů a rejstříků. Databáze přístupné přes webové rozhraní představují významnou část neviditelného webu. 3 Vyhledávače Běžné (tradiční, konvenční, univerzální) vyhledávací nástroje ovlivňují způsob, jakým uživatelé vnímají web. Nevstřebáváme to, co skutečně existuje na internetu, nýbrž to, co indexují vyhledávače. I když se tradiční vyhledávače snaží přinášet uživatelům relevantní výsledky, potřebují také vydělávat. Řada z nich má podstatnou část příjmů z reklamy, proto ve výsledcích zvýhodňují informativní (nekomerční) stránky před komerčními. Některé také zvýhodňují stránky, které vznikly před dlouhou dobou a jsou často odkazované. Vyhledávání probíhá tak, že po zadání dotazu (klíčového slova) si vyhledávač projíždí tzv. reverzní indexy seznamy slov, informací a dat posbíraných roboty (crawlery). Některé vyhledávače zohledňují gramatické tvary podstatných jmen, přídavných jmen i sloves. Může tak dojít k transformaci podstatného jména na přídavné jméno. 3-1 Časová osa V této podkapitole si na časové ose ukážeme, jak se vyvíjely nejznámější vyhledávače. Historie vyhledávačů se datuje od roku 1945. Dnes existují stovky vyhledávačů. 24 23 Viz záznam 4 24 SHERMAN, Chris PRICE, Gary. The Invisible Web. Independent Pub Group 2001.s.15. ISBN 09-109-6551-X. 15

Historie vyhledávačů časová osa 1945 Vannever Bush připravuje MEMEX 1965 Ted Nelson vytváří hypertext 1972 Vzniká Dialog první komerční systém 1986 OWL představuje GUIDE (hypermedia browser) 1990 Archie pro FTP vyhledávání, Tim Berners-Lee vytváří Web 1991 Gopher: WAIS distribuované vyhledávání 1993 ALIWEB, WWWWander, JumpsStation, WWWWorm 1994 EINet Galaxy, WebCrawler, Lycos, Yahoo! 1995 Infoseek, SavvySearch, AltaVista, MetCrawler, Excite 1996 Hotbot, LookSmart 1997 NorthernLight 1998 Google 2000 Stovky vyhledávacích nástrojů Tabulka 3: Časová osa nejznámějších vyhledávačů 3-2 Jak vyhledávače fungují Je těžké určit, který vyhledávač je nejlepší. Skutečné techniky hledání, třídění, uchovávání a zpřístupňování informací na webu jsou bedlivě střeženým tajemstvím autorů (úspěšných) komerčních vyhledávacích systémů. Stačí si vyjmenovat dva základní požadavky na takový vyhledávač, aby bylo zřejmé, že skloubení jejich protichůdných poslání nebude žádný med. Dobrý vyhledávač by tedy měl v prvé řadě nalézt to, co hledáme, ale zároveň poskytnout vyhledané výsledky velmi rychle. 25 Vyhledávače se zásadně liší ve způsobu indexace dokumentu, její četnosti, rozsahu a v hodnocení relevance výsledků pomocí algoritmu pto řazení výsledků. 26 Lewandowski a Höchstötter 27 se pokusily o definování kvality vyhledávačů na základě čtyř kritérií: 1. Kvalita indexu: platí přímá úměra čím větší je databáze, tím větší je šance na nalezení nejlepší odpovědi, pochopitelně však tím déle vyhledání seznamu výsledků potrvá. 28 Kvalitní index je nezbytný pro získávání kvalitních výsledků. Svou roli hraje pokrytí webu geografické vymezení hledání (Vaughan; Thelwall: 2004) 29 a aktuálnost indexu (Lewandowski; Wahlig; Meyer-Bautor: 2006), 25 Kuželíková, Lucie - Nekuda, Jaroslav - Poláček, Jiří. Sociálně-ekonomické informace a práce s nimi. Elportál, Brno : Masarykova univerzita. ISSN 1802-128X. 2008. 26. dubna. 26 Different Engines, Different Results: A Research Study by Dogpile.com. [online] Queensland University of Technology and Pennsylvania State University. 2007 [cit. 2008-04-06]. Dostupné na WWW: < www.infospaceinc.com/onlineprod/overlap-differentenginesdifferentresults.pdf >. 27 LEWANDOWSKI, Dirk. The Retrieval Effectiveness of Web Search Engines: Considering Results Descriptions. Journal of Documentation [online]. 2008 [cit. 2008-04-07]. Dostupné na WWW: <http://eprints.rclis.org/archive/00012971/01/jdoc2008_preprint.pdf>. 28 Kuželíková, Lucie - Nekuda, Jaroslav - Poláček, Jiří. Sociálně-ekonomické informace a práce s nimi. Elportál, Brno : Masarykova univerzita. ISSN 1802-128X. 2008. 26. dubna. 29 Tzv. country bias 16

2. Kvalita výsledků: vyhledávač, který poskytne uživateli kvalitní výsledky, je nesporně lepší, než vyhledávač, který vyhledá nesouvisející informace. Vyvstává však otázka, jak se dá kvalita výsledků změřit. Každý totiž hledá něco jiného a za jiným účelem, 3. Uživatelské rozhraní: vyhledávač by měl kombinovat vhodně zvolené uživatelské prostředí a vhodně navržený dotazovací jazyk, 4. Použitelnost vyhledávače: vyhledávač by měl pracovat efektivně a nemarnit čas uživatele. Některé vyhledavače berou v úvahu stáří webu, stránky, uživatelského účtu a podobně. Tyto údaje mají svou váhu v posuzování důvěryhodnosti osoby, stránky či dokumentu. Starší mají obvykle lepší pozici, ale zároveň mohou být upřednostněny (např. u vyhledavačů specializovaných na novinky či blogy) i nové dokumenty. Čerstvé příspěvky, které jsou zároveň citovány na mnoha jiných webech (příbuzných blozích) mohou krátkodobě uspět ve výsledcích vyhledávání lépe, neboť bývají odkazovány z hlavní stránky. V okamžiku kdy se dotyčný článek dostane do archivu a z titulní strany zmizí, není již odkazován ze stránky s vysokým PR a jeho pozice se tedy zhorší. 30 Některé vyhledávače se také pokouší určit, jak často je vhodné servery kontrolovat (zpravodajský server často, statické stránky občas). Totéž se někdy provádí i s jednotlivými stránkami. Svou roli samozřejmě hraje dobré technické zázemí toho kterého vyhledávače. Čím výkonnější datacentrum, tím rychlejší bude celý proces hledání. Pro zajímavost uveďme, že serverová farma firmy Google tvoří nejvýkonnější superpočítač na světě, neboť podle posledních odhadů obsahuje 719 racků, 63 272 počítačů, 126 544 procesorů, 253 088 GHz výpočetního výkonu, 126 544 GB operační paměti a 5062 TB kapacity pevných disků. 31 Stejně tak důležitý je software, který umí naplno využít potenciál hardwaru: primární úlohu mají indexovací nástroje, tj. implementace algoritmů pro optimální třídění dat a jejich následné procházení co nejkratší cestou k cíli. 32 3-3 Indexování internetu Index je v podstatě archiv nebo informační banka, kterou si budují vyhledávače. V indexu probíhá faktické vyhledávání. Větší vyhledavače mají zaindexované miliardy stránek. Proces hledání probíhá přes reverzní indexy slov a vrací výsledky postavené na odpovídajících vektorech. Vyhledávače umí vyhledat i dokumenty s příbuznými slovy na základě sémantických a tzv. stemming (zohlednění tvarů jmen a sloves) algoritmů. 30 Google Patent 20050071741: Získávání informací založené na datech o jejich stáří 31 Podle informací uveřejněných firmou Google při jejím vstupu na burzu v dubnu 2004. 32 Viz záznam 25 17

3-3-1 Binární strom V databázi pojmů je na každý výraz napojená množina odkazů na texty obsahující požadované klíčové slovo. Abychom našli ten správný pojem, je potřeba porovnat velké množství termínů tzv. sekvenčním procházením. Pokud tyto pojmy šikovně uspořádáme do stromu, jehož uzly obsahují zkoumané pojmy, a to tak že pojmy v abecedě před pojmem aktuálně vybraného uzlu zavěsíme do levé části podstromu a naopak pojmy v abecedě za pojmem zavěsíme vpravo, pak k nalezení libovolného pojmu nám bude postačovat počet porovnání odpovídající odmocnině šířky stromu. 33 Obr. 5: Pojmy setříděné v binárním stromu V datové struktuře binárního stromu je uspořádáno 31 pojmů v pěti patrech a pro nalezení libovolného termínu by stačilo maximálně pět porovnání. S narůstajícím počtem termínů by počet maximálně nutných porovnání zůstal lineární. 34 V praxi se nevyužívají přímo binární stromy, ale (pokud vůbec daný indexovací nástroj ze stromovité struktury vychází) nejrůznější vylepšené verze, které lze snáze upravovat za pochodu, s vícero větvemi a dalšími rozšířeními. 35 3-4 Vyhledávací roboti Internetové vyhledávače používají webové crawlery (crawler robot, někdy zvaný též spider, gatherer, scutter). 36 Crawler je softwarový program nebo skript, který automatizovaně prochází webové stránky, vyhledává na nich hypertextové odkazy, indexuje obsah stránek a umožňuje tak jejich následné zpracování. 37 Crawlery vytváří kopie navštívených stránek pro pozdější zpracování 33 Tamtéž 34 Tamtéž 35 Tamtéž 36 Web crawler. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: <http://en.wikipedia.org/wiki/web_crawler> 37 Internetový robot. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-06]. Dostupné na WWW: < http://cs.wikipedia.org/wiki/internetov%c3%bd_robot > 18

vyhledávačem, který indexuje stažené stránky za účelem rychlejšího prohledávání. 38 Jak vlastně vyhledávače fungují a k čemu slouží indexace? Google využívá paralelně několik crawlerů ke stažení dokumentů, které mu určí URL Server. Crawlery udržují stovky otevřených spojení k webserverům, aby se nezdržovaly čekáním na odpovědi. Dokumenty, které stáhne crawler, jsou uloženy do depozitáře. Každá stránka obdrží identifikátor. Ten je přidělen, když je získáno nové URL. Další složkou vyhledávače Google je Indexer, který dělí dokumenty dle počtu výskytů klíčových slov, pozice a relativní velikosti písma. Tyto záznamy jsou ukládány do částečně setříděného indexu - tzv. Barrels. Kromě toho Indexer filtruje odkazy a ukládá je do zvláštního souboru, který následně zpracuje URLresolver. Jeho úkolem je převést relativní cesty na absolutní URL. Texty odkazů jsou zahrnuty v indexu k danému dokumentu, na nějž odkazují. Tyto údaje potom slouží pro výpočet PageRanku. Komponenta zvaná Sorter (třídič) třídí index do zpětného indexu. Vyhledávač běží na webovém serveru a za pomoci slovníku, zpětného indexu a pageranků odpovídá na dotazy 39. Obr. 6: Struktura Googlu. Zdroj: Wikipedie 38 Viz záznam 33 39 Google (vyhledávač). In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-05]. Dostupné na WWW: <http://cs.wikipedia.org/wiki/google_%28vyhled%c3%a1va%c4%8d%29> 19

Crawlery získávají obsah pouze z veřejně přístupných indexovatelných webů, na které např. odkazuje hypertextový odkaz. Crawlery také ignorují vyhledávací formuláře a stránky vyžadující autorizaci či registraci. Crawlery ale hlavně ignorují nepřeberné množství vysoce kvalitního obsahu. 3-5 Kolik indexují tradiční vyhledávače? Existuje obrovské množství různých vyhledávačů. ComScore Media Metrix uvádí, že na světě je 298 on-line vyhledávačů (data za březen 2007). 40 Vyhledávání informací je nejoblíbenější činnost na Internetu, neboť 96,7 procent 41 lidí, kteří jsou on-line, používá vyhledávače. Vyhledávání je nejpopulárnější online aktivita. Web je nekonečně rozsáhlý prostor s milióny nových stránek přidávaných každý den, takže nikdo vlastně neví, jaký je v tomto okamžiku přesný počet webových stránek. Google a Yahoo přestaly uvádět počet indexovaných stránek na sklonku roku 2005. Podle odhadů Cyberatlasu a MIT z dubna 2005 42 bylo ve veřejně přístupné části World Wide Webu 45 miliard statických webových stránek. Dále byla na webu 5 miliard statických stránek dostupných v rámci soukromých intranetových webů. Více než 200 miliard stránek bylo dostupných jenom jako dynamický obsah databází neviditelný web. Výzkumníci na Università di Pisa a University of Iowa odhadli objem indexované části webu na 11,5 miliard stránek. 43 Odvolali se na další výzkum, který navíc odhadoval podíl neviditelného webu tedy počet neindexovaných webových stránek - na více než 500 miliard. 44 Když se podíváme zpátky, objem informací na internetu od roku 1995 dramaticky vzrostl. Sullivan zkoumal počet textových dokumentů, které v rozmezí prosince 1995 a září 2003 indexovaly vyhledávače Google, AlltheWeb, Inktomi, Teoma a AltaVista. 45 Z grafu je patrné, že indexy vyhledávačů kontinuálně rostou. 40 comscore Media Metrix, březen 2007. Cit. dle 23 41 Tamtéž 42 Different Engines, Different Results: A Research Study by Dogpile.com [online]. Queensland University of Technology and Pennsylvania State University. 2007 [cit. 2008-04-06]. Dostupné na WWW: < www.infospaceinc.com/onlineprod/overlap-differentenginesdifferentresults.pdf >. 43 A. Gulli and A. Signorini. Building an open source metasearch engine. In: 14 th WWW, 2005. 44 SHERMAN, Chris. Search Engine Watch Newsletter. 2005 [cit. 2008-04-06]. Dostupné na WWW: <http://www.searchenginewatch.com>. 45 SULLIVAN, Danny. Search Engine Sizes [online]. 2005 [cit. 2008-04-06]. Dostupné na WWW: <http://searchenginewatch.com/showpage.html?page=2156481>. 20

Graf 2: Roustoucí indexy vyhledávačů - prosinec 1995- září 2003.46 Zdroj: Search Engine Watch Graf 3: Miliardy indexovaných textových dokumentů únorc 2002- září 2003 Zdroj: Search Engine Watch Studie vedená A. Gullim a A. Signorinim 47 dokazuje, že je značná část webu neindexována a plně jej nepokrývá žádný z uvedených vyhledávačů. Tento výzkum odhadoval viditelný web (URL adresy, ke kterým se vyhledávače 46 GG = Google, ATW = AllTheWeb, INK = Inktomi (nyní Yahoo!), TMA = Teoma (nikoli Ask), AV = AltaVista (nyní Yahoo!) 47 Gulli and A. Signorini. Building an open source metasearch engine. In 14 th WWW, 2005. Cit. dle 25 21

dostanou) na více než 11,5 miliard stránek. Počet indexovaných stránek v době výzkumu odhadl na zhruba 9,4 miliard. Vyhledávač Počet uváděn ý společn ostí (Miliar dy) Odhadovaný počet (Miliardy) Pokrytí indexovan ého webu (%) 48 Pokrytí celkov ého objem u webu (%) Google 8.1 8.0 76.2 69.6 Yahoo! 4.2 6.6 69.3 57.4 Ask 2.5 5.3 57.6 46.1 Live (beta) 5.0 5.1 61.9 44.3 Indexovaný N/A 9.4 N/A N/A Web Celkový Web N/A 11.5 N/A N/A N/A ~ údaj není k dispozici Tabulka 4: Počet indexovaných stránek. Zdroj: A. Gulli, A. Singorini, 2005 Novější výzkum firem Google.com, Yahoo.com, Cyberatlas a univerzity MIT z podzimu 2007 49 přinesl pravděpodobnější výsledky a nabídl následující zjištění: o Google.com indexuje 12,5 miliard veřejných webových stránek, o 71 miliard statických webových stránek je veřejně přístupných. Tyto stránky mohou být snadno nalezeny vyhledávači. (například www.honda.com, www.australia.gov.au), o 6.5 miliard statických stran leží v neviditelné části internetu. Jsou nepřístupné jako soukromý obsah intranetů, tyto stránky jsou také součástí korporátních webů (např. employees.honda.com, secure.australia.gov.au), o více než 220 miliard stránek je ukryto v dynamicky generovaném obsahu rozsáhlých databází a pro vyhledávací nástroje je zcela neviditelných, 48 Indexovaný web je ta část webu, ke které se dostanou vyhledávače 49 GIL, Paul. What is "The Invisible Web [online]. 2007 [cit. 2008-04-06]. Dostupné na WWW: <http://netforbeginners.about.com/cs/secondaryweb1/a/secondaryweb.htm >. 22

o Google, považovaný za nejpopulárnější vyhledávač, umí pokrýt pouze zlomek celkového obsahu internetu. Google indexuje pouze 12.5 miliard stránek, aniž by dosáhl na 220 miliard stránek v neviditelném webu, což je méně než 6 % dostupného obsahu na Internetu, o jestliže Google operuje pouze s 6% webového obsahu, kde je ukryto těch zbývajících 94 %? 3-6 Porovnání vyhledávačů V dubnu a červnu 2005 spolupracovala společnost Dogpile (vlastněna a řízena ogranizací InfoSpace) s výzkumníky z University of Pittsburgh 50 a Pennsylvania State University na výzkumu, který měl zjistit do jaké míry se překrývají a jakým způsobem se řadí a hodnotí výsledky různých vedoucích webových vyhledávačů. 51 Studie vznikla také za účelem změřit přínos použití metavyhledávačů k prohledávání internetu. Studie nazvaná Different Engines, Different Results vyhodnotila výsledky od 10 316 náhodných uživatelů vyhledávačů Google, Yahoo! a Ask Jeeves. Výsledky výzkumu ukázaly, že testované vyhledávače dávají výsledky pro daný dotaz zobrazené na první stránce shodné pouze ze 3,2 %. 52 V červnu 2005 byly v rámci studie vyhodnoceny výsledky vyhledávacích dotazů 12 570 náhodných uživatelů, kteří v dané době zadali dotaz do některého z vyhledávačů Google, Yahoo!, MSN Search a Ask Jeeves. Výsledkem studie bylo, že pouze 1,1 % výsledků zobrazených na první stránce se shodovalo s výsledky ostatních vyhledávačů na daný dotaz. Pouze 2,6 % výsledků zobrazených na první stránce se překrývalo s výsledky vyhledávačů Google, Yahoo! a Ask Jeeves na daný dotaz. Dogpile.com v dubnu 2007 spolu s výzkumníky z Queensland University of Technology a Pennsylvania State University následně provedl nový výzkum překrývání prvních stran. V rámci studie byly vyhodnoceny 4 nejpopulárnější vyhledávače Google, Yahoo!, Windows Live (dříve MSN Search) a Ask (před tím Ask Jeeves) a zapojeno 19 332 uživatelů zadávajících vyhledávací dotaz. Výsledky této studie upozornily na skutečnost, že existují obrovské rozdíly jak mezi všemi čtyřmi, tak i mezi jednotlivými vyhledávači navzájem. Míra překrytí mezi prvními stránkami zobrazených výsledků vyhledávání ze všech 4 vyhledávačů byla pouze 0,6 % v průměru na daný dotaz. Tato studie chtěla poskytnout přesvědčivý důkaz, proč metavyhledávací nástroje nabízí koncovým uživatelům větší šanci na naleznutí nejlepších výsledků pro jejich téma. Studie kromě jiného také přišla s tvrzením, že uživatelé vnímají vyhledávače tak, že mají podobnou funkci, přináší podobné 50 SPINK, Amanda. Public Searching of the Web [online]. Springer Publishers. 2004. [cit. 2008-04-06]. Dostupné na WWW: <http://www.sis.pitt.edu/~aspink/>. 51 Different Engines, Different Results: A Research Study by Dogpile.com. Queensland University of Technology and Pennsylvania State University. 2007 [cit. 2008-04-06]. Dostupné na WWW: < www.infospaceinc.com/onlineprod/overlap-differentenginesdifferentresults.pdf >. 52 Tamtéž 23

výsledky a indexují značnou část webu. Nicméně podle obou studií je patrné, že výsledky každého vyhledávače jsou stále do značné míry jedinečné. 53 Zvláštní studie realizovaná společností comscore Media Metrix shledala, že mezi 54 62 procenty všech hledání na čtyřech nejpoužívanějších vyhledávačích je výsledkem kliknutí na první stránku výsledků. 54 3-6-1 Jeden vyhledávač nestačí To, že výsledkem více než poloviny všech hledání na internetu je kliknutí na první stránku, by mohl být nezvratný důkaz, že rešeršér nenajde vždy to, co chce najít jen s jediným vyhledávačem. Američtí uživatelé internetu používají průměrně 3,04 vyhledávače za měsíc. 55 Zdá se, že toto chování ilustruje potřebu uživatelů po efektivnějším vyhledávacím řešení. Metavyhledávače jsou možným řešením na tento problém, neboť mohou najít lepší výsledky a ty zobrazí na jednom místě. Cílem metavyhledávacích nástrojů je zmírnit podstatné rozdíly jednotlivých vyhledávačů, čímž mají zajistit nejlepší výsledky hledání. Metavyhledávač neprochází web a nebuduje databázi, ale vysílá vyhledávací dotaz do každého vyhledávače zvlášť. Nejlepší výsledky tak mají být zobrazeny společně na jedné stránce. O metavyhledávačích se dozvíme v podkapitole 3-8. Dogpile publikoval podrobné výsledky svého výzkumu. Pouze 0,6 % všech 776 435 prvních stran bylo stejných napříč uvedenými vyhledávači. 56 Výsledky výzkumu můžeme sumarizovat do těchto bodů: o Procento unikátních výsledků hledání jednoho vyhledávače je 88,3%. o Procento shodně zobrazených výsledků hledání sdílené dvěma vyhledávači je 8,9%. o Procento shodně zobrazených výsledků hledání sdílené libovolnými třemi vyhledávači je 2,2%. o Procento shodně zobrazených výsledků mezi 4 vyhledávači je 0,6 %. Výsledky studií % unikátních výsledku na jeden vyhledávač % výsledků sdílených dvěmi vyhledávači červen 2005 (%) duben 2007 84.9 88.3 % 11.4 8.9 % 53 Tamtéž 54 comscore qsearch Data, January 2007, Custom Success Rate Analysis. Cit. Dle 25 55 comscore Media Metrix, March 2007, U.S. cit dle 25 56 Viz záznam 43 24

% výsledků sdílených třemi vyhledávači % výsledků sdílených všemi 4 vyhledávači 2.6 2.2 % 1.1 0.6 % Tabulka 5: Srovnání výsledků studie Dogpile. Zdroj: www.dogpile.com Studie také předpokládala, že tento trend se bude dále rozvíjet spolu s tím, jak jednotlivé vyhledávače budou modifikovat technologie crawlování a hodnocení relevance stránek. 57 3-7 Vyhledávání v češtině? Společnost Ataxo publikovala zprávu, ve které srovnává relevanci výsledků lokálního vyhledávání v Česku nejpoužívanějších vyhledávačů (Seznam.cz, centrum.cz, Atlas.cz a Google.com). 58 Lokálním vyhledáváním se podle Ataxa rozumí situace, kdy uživatel hledá něco někde. Na základě vyhodnocení relevance více než 2 000 výsledků lokálního vyhledávání dochází studie k závěru, že relevance výsledků Googlu je u lokálního vyhledávání výrazně lepší než relevance výsledků hledání sledovaných českých vyhledávačů, ačkoliv Google nepracuje s českou gramatikou. Hlavní přednosti Googlu se ukazují v tom, že velmi zřídka podává výsledky, které jsou nerelevantní, a že zároveň dosahuje nejvyššího procenta výsledků, které přesně odpovídají dotazu uživatele, uvádí zpráva. Pojďme se nyní podívat, jak zobrazují výsledky jednotlivé vyhledávače. Přirozené (nesponzorované) výsledky se u všech zmíněných vyhledávačů (Seznamu, Centra, Atlasu a Googlu) ukazují jako modře podtržené titulky s dvěma či třemi řádky doprovodného popisu. Zatímco Google v popisu stránky zobrazuje její obsah a shrnutí (přibližně 150 znaků), který je uveden ve zdrojovém kódu stránky jako meta description, případně katalogový popisek nebo úryvek stránky, české vyhledávače mají popisek stránky obvykle delší (až 300 znaků) a přejímají ho buď z katalogu nebo používají úryvek ze stránky. Při vyhledávání v češtině Google někdy zobrazí speciální výsledky jako zprávy (nedávno spuštěné Google News či Google Finance, ke kterým se ještě dostaneme), encyklopedie či obrázky. Podle podrobné studie firmy Ataxo se zobrazení výsledků u jednotlivých služeb liší jen v detailech. Podstatnější je relevance výsledků vyhledávání, neboť v případě českých vyhledávačů jsou přirozené výsledky na první pohled nerozlišitelné od placených odkazů (Atlas.cz) a na prvních pozicích zobrazují placené odkazy (Seznam, Centrum). Hodnocení relevance výsledků vyhledávání 57 Tamtéž 58 DOLEŽAL, Pavel. Nejkvalitnější výsledky hledání v Česku poskytuje Google [online].30. 4. 2007 [cit. 2008-01-29]. Dostupné na WWW: <http://www.ataxo.cz/firma/tiskove-zpravy/0704-relevancevyhledavani/>. 25

je téměř nemožné, vezmeme-li v úvahu mnohoznačnost hledaných frází, nedostupnost objektivního měřítka informační kvality obsahu a skutečnost, že 59 požadavky uživatelů se často velmi liší. Studie firmy Ataxo dochází k překvapivému závěru: ačkoliv Google nepracuje s českým skloňováním a dalšími specifiky češtiny, jeho výsledky vyhledávání jsou v oblasti lokálního vyhledávání o poznání relevantnější než výsledky českých vyhledávačů. Rozdíly mezi ostatními vyhledávači nejsou velké, výsledky Atlasu z uživatelského hlediska nicméně velmi trpí nevhodným smíšením s placenými odkazy. 3-8 Metavyhledávače Princip práce metavyhledávacích nástrojů se liší od způsobu vyhledávání tradičními vyhledávači. Metavyhledávače totiž dotazy posílají simultánně do více vyhledávačů (rešeršních nástrojů), využívají existující indexy a databáze jiných vyhledávačů, aniž by používaly vlastní roboty a crawlery. Shromážděné výsledky jsou zobrazeny na jednom místě, v jednom výpisu a s odstraněnými duplikáty. Podle definice se jedná o druh vyhledávací služby v prostředí internetu, která umožňuje uživateli na základě jednoho dotazu paralelní prohledávání databází několika vyhledávacích služeb. 60 Existuje celá řada metavyhledávačů, z nichž za všechny můžeme jmenovat Metacrawler, Clusty či Kartoo (ten nabízí i vizualizaci výsledků vyhledávání). Ty však pouze agregují výsledky běžných vyhledávačů. Z hlediska vědy a výzkumu jsou podstatné metavyhledávací služby, které umí z jednoho prostředí prohledávat knihovní katalogy, plnotextové databáze a citační rejstříky. 61 Při použití metavyhledávacích nástrojů odpadá nutnost prohledávat různé zdroje separátně v prostředí různých vyhledávačů. Definici metavyhledávačů vyhovuje Jednotná informační brána (JIB). 3-8-1 Jednotná informační brána JIB je propojena se 113 českými i zahraničními zdroji, jako jsou například katalogy knihoven, souborné katalogy, plnotextové databáze, Google či Wikipedie. Jelikož některé uvedené zdroje jsou licencované (plný seznam je na webu JIB 62 ), přístup k nim je možný z prostředí knihoven nebo institucí, které mají zaplacený přístup. 63 Bez ohledu na místo pobytu či registraci v knihovně však může každý využívat volně přístupné zdroje. Zdroje zpřístupněné v JIB tedy můžeme rozdělit na volně dostupné (zdarma) a licencované (dostupné pouze z 59 Tamtéž 60 TDKIV Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. Dostupné z: <http://sigma.nkp.cz/f/?func=file&file_name=find-a&local_base=ktd>. 61 Viz záznam 25 62 www.jib.cz 63 Tamtéž 26

určitých předem nadefinovaných IP adres). 64 Jednotná informační brána vznikla jako společný projekt Národní knihovny ČR a Ústavu výpočetní techniky Univerzity Karlovy v roce 2002, od roku 2004 se jedná o projekt národní. Tyto instituce také zajišťují její provoz. Mezi výhody projektu patří snadný přístup k informacím z různých zdrojů z jednoho prostředí. Jedná se o otevřený systém, který lze rozšiřovat či mu naopak zužovat rešeršní základnu v závislosti na licenčních právech toho kterého zdroje. Knihovny mohou v projektu získat výhodu v podobě odpadnutí nutnosti řešení technických problémů způsobených nekompatibilitou. Vyhledávání v JIB je realizováno přes graficky přívětivý formulář. V možnostech snadného hledání si můžeme vybrat skupiny zdrojů, chceme-li hledat české či zahraniční knihy, české nebo zahraniční články a česká periodika. V pokročilých možnostech vyhledávání lze v rolovacím menu určit výběrová pole (předmět, autor, název, ISBN, ISSN, rok vydání) a použít booleovské operátory. Dále lze v JIB vyhledávat podle zdroje (encyklopedie, plnotextové databáze), poskytovatele či kategorie (portály, historické fondy atd.). Kromě toho si v JIB můžeme vytvořit osobní profil, uložit formulace dotazů a výsledky vyhledávání do tzv. E-schránky či vybrat vlastní skupiny preferovaných zdrojů a s těmi nadále pracovat. Obr 7: Vyhledávací rozhraní JIB. Zdroj. www.jib.cz 3-8-2 MetaCrawler a Dogpile MetaCrawler 65 vznikl v roce 1994 na University of Washington. Tento metavyhledávací nástroj využívá databází a vrací výsledky z populárních vyhledávačů Google, Yahoo!, Live Search, Ask, About, MIVA (dřívě FindWhat.com), LookSmart a dalších. 64 Více informací: http://info.jib.cz/ 65 http://www.metacrawler.com/ 27

Stejně jako MetaCrawler i Dogpile 66 patří společnosti Infospace a oba produkty jsou víceméně stejné co se týče použitého vyhledávacího rozhraní. V uživatelském rozhraní těchto metavyhledávacích nástrojů si můžeme nastavit vlastní předvolby. Ty zahrnují možnost filtrování explicitně sexuálního a hrubého obsahu ve třech úrovních (žádný, střední a těžký), zvýraznění klíčových slov (hledaných výrazů) tučným písmem a zobrazení posledních hledání. Kromě toho si můžeme nastavit způsob zobrazení výsledků na základě relevance, podle použitého vyhledávacího nástroje, zdroje (obrázek, audio či video) a/nebo dle data. Vyhledávání v Dogpile a MetaCrawleru se neomezuje jenom na základní hledání s použitím operátorů booleovské logiky, ale v rozšířených možnostech lze vybrat i jazyk stránek a (národní) doménu. Dogpile přeposílá dotazy do obecně známých vyhledávačů, jako jsou Google, Yahoo! Search, Live Search, Ask.com, About, MIVA, či LookSmart. Novinky Dogpile vyhledává v serverech ABC News, Yahoo News, FoxNews a Topix. Dogpile se kromě toho zaměřuje také na multimediální obsah - video, audio a obrázky. Obr 9: Titulní stránka Metacrawler. Zdroj: www.metacrawler.com 66 www.dogpile.com 28

3-8-3 Clusty Mezi metavyhledávací nástroje patří i Clusty 67 z produkce firmy Vivísimo. Výsledky získané hned z několika vyhledávacích služeb zobrazuje vlastním způsobem a s přidanou hodnotou. Podle zadaného tématu se výsledky seskupují do tzv. clusterů (shluků), což zvyšuje užitnou hodnotu vyhledávání. Díky tomu, že výsledky získáme roztříděné a vidíme je v souvislostech, lze na danou problematiku nahlížet z více hledisek a dostaneme se k dalším zdrojům. V levém panelu si můžeme vybrat požadovanou kategorii (shluk), v záložce sources zjistíme, jaké výsledky nabízí ten který vyhledávač a záložka sites nám výsledky roztřídí podle národních domén (com, edu, cz). Uživatelské rozhraní Clusty je velmi jednoduché a patří k tomu nejlepšímu na poli metavyhledávání. Clusty poslouží nejen jako náhrada vyhledávače obecně, ale i jako plnohodnotný nástroj, který vám zpříjemní a usnadní proces vyhledávání. Základní vyhledávání umožňuje použití operátorů AND, OR, NOT (-) a frázové hledání zadáním dotazu do vyhledávacího pole s použitím uvozovek. Možnosti pokročilého vyhledávání lze vybrat formou dialogu, můžeme použít např. site:jménodomeny, které vrátí výsledky se specifickou doménou, např. site:cz najde české stránky, dále pak site:jménostránky.cz vrátí výsledky ze specifické stránky, např. site:ihned.cz bude prohledávat pouze tuto adresu a filetype:soubor bude hledat požadovaný formát souborů (.doc,.xls.,.ppt, atd.) např. filetype:pdf vyhledá dokumenty pouze v PDF formátu. Obr 8: Vásledky vyhledávání Clusty. Zdroj: www.clusty.com 67 www.clusty.com 29

3-9 Google a googlování fenomén doby Google dal světu synonymum pro vyhledávání dnes se v běžné mluvě často používá googlovat ve smyslu hledat na internetu. To také svědčí o úspěchu korporace, která začala s vyhledávačem a dnes nabízí celou rodinu produktů Společnost Google se během posledních let stala nepřehlédnutelnou. V dubnu 2007 byla ve výzkumu Brandz označena za nejdražší značku vůbec (její hodnota byla odhadnuta na 66 miliard dolarů)68 a její zisky se vyšplhaly ze 7 milionů dolarů v roce 2001 na sumu přesahující 4 miliardy USD. Klíčovou aktivitou Googlu je vyhledávání informací. Když firma v roce 1998 začínala v garáži s několik počítači, světová síť Internetu obsahovala už miliony stránek, ale Google indexoval pouhých 25 000 stránek. Google postavil svůj úspěch na prostém faktu, že zjednodušil proces vyhledávání a poskytl uživatelům požadované informace z široké škály zdrojů, v jazyce a místě, které si vyberou. Vše se přitom děje prostřednictvím jednoho prostého vyhledávacího pole. Jádrem vyhledávače Google je tzv. PageRank. Jedná se o algoritmus vyvinutý v rámci výzkumného projektu na Stanfordské univerzitě zakladateli společnosti Sergejem Brinem a Larrym Pagem, po němž nese jméno. Držitelem patentu PageRank je Stanfordská universita a Google má pouze práva na exkluzivní používání do roku 2011. Obr 9: Hlavní stránka Googlu doplněná o další služby. Zdroj: www.google.com 68 Google Rises to the Top of the BRANDZ Ranking with a Brand Value of $66,434 Million. Business Wire [online]. 23. 4. 2007 [cit. 2008-02-11]. Dostupné na WWW: <http://www.businesswire. com/portal/site/google/index.jsp?ndmviewid=news_view&newsid=20070423005431&newslang=en>. 30

3-9-1 Page Rank jako reputační systém Google prochází a indexuje co největší množství stránek (v současnosti není počet stránek uveřejňován, ale v roce 2006 jich bylo přes 25 miliard), 69 které prozkoumá jak z hlediska obsahu tak kvůli odkazům. Analýza zpětných odkazů funguje na podobném principu jako citace při hodnocení vědeckých prací, neboť každá stránka je hodnocena tím, kdo a jak na ni odkazuje. Hodnocení stránek pomocí algoritmu PageRank nepočítá přímé odkazy na stránku. Odkaz ze stránky A na stránku B interpretuje jako hlas odevzdaný stránce B stránkou A. Jedná se tak o největší reputační systém vůbec, 70 neboť význam té které stránky je hodnocen podle počtu obdržených hlasů a reputace stránek, které takto svůj hlas odevzdaly. Ačkoli se to zdá jednoduché, je PageRank rovnicí o více než 500 milionech proměnných a dvou miliardách členů. Častým problémem na internetu je příliš velké množství dat, spojené s nemožností kvalifikovaně rozhodnout, která z nich jsou užitečná a která nikoliv. Je proto nutné nasazení reputačních systémů, které agregují velké množství ohlasů a na jejich základě pak přidělují hodnocení. V jádru takto funguje i PageRank, základní nástroj vyhledávače Google, který určuje relevanci stránky na základě její reputace: množství a váhy (odkaz z důležité stránky má větší váhu než z málo navštěvované) odkazů na ni směřujících. 71 3-9-2 Vyhledávání v Google Google je především vyhledávač, ale do jeho rodiny patří řada dalších služeb a pod hlavičkou Googlu vzniká množství projektů. Vyhledávací rozhraní Googlu nabízí i mnohá vylepšení, která stojí za to zmínit: 72 kešování obsahu zobrazení obsahu nalezené stránky přímo na webu Googlu; v případech, kdy originální obsah není dostupný hledání podobných stránek vyhledávač sám sestaví dotaz z obsahu vybrané stránky automatizovaný překlad webových stránek obsah nalezených stránek lze přeložit mezi angličtinou a arabštinou, čínštinou, francouzštinou, italštinou, japonštinou, korejštinou, němčinou, španělštinou a portugalštinou hledání v různých databázích typu telefonní seznam či patenty podle jejich identifikátorů číselné operace vyhledávací pole lze použít jako jednoduchou kalkulačku či převodník fyzikálních jednotek a různých světových měn 69 Viz záznam 15 70 BATTELLE, John. 2006. The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture. New York: Portfolio. ISBN 1-59184-141-0. 71 Viz záznam 58 72 Podrobný popis výše zmíněných funkcí lze nalézt na www.google.cz/intl/cs/help/features.html. Citováno dle záznam 25 31

přímý přístup k praktickým informacím například hledání burzovních informací, předpověď počasí či informace pro cestovatele 3-9-2-1 Booleovské vyhledávání Řada vyhledavačů (nejen Google) umožňuje používat při vyhledávání operátory booleovské logiky, jako AND, OR a NOT. Standardně chápou výrazy jako spojené operátorem AND, čili výsledná stránka musí být relevantní pro všechna zadaná klíčová slova. Příklad: Vyhledávání Green Book vrátí stránky s výrazy Green a Book Vyhledávání "Green Book" vrátí stránky s frází "Green Book" Vyhledávání Green Book - John vrátí stránky s výrazy Green a Book, ovšem vyřadí všechny, kde je obsaženo slovo John Některé vyhledavače umožňují upřesňovat zadání pomocí dalších operátorů, např.: řada čísel: 12...18 vrátí vyhledávání čísel mezi 12 a 18. Nedávno upravené: inflation {frsh=100} najde všechny nedávno aktualizované dokumenty. MSN umožňuje zvýhodnit lokální dokumenty, Google zase stránky pouze v určitém jazyce. Příbuzné stránky: related:www.komora.cz najde stránky obsahově podobné webu Hospodářské komory ČR. Typ souboru: Inflation filetype:pdf najde PDF dokumenty o inflaci. Doména: GDP inurl:.edu Stránky se zmínkou o HDP na topdoménách.edu, které jsou vyhrazeny vzdělávacím institucím. 3-9-3 Google a jeho služby Ačkoli je Gooogle neustále vylepšován, většiny změn si návštěvník na první pohled nevšimne. Hranice webu se posouvají a internet nabízí i obsah, který byl dříve nedostupný nebo se na internetu obtížně hledal. Google svou pozornost upřel zejména na zpravodajství, knihy a mapy. 3-9-3-1 Google News Google News (http://news.google.com/) zveřejňuje nejčastěji hledané zprávy a seřazuje je tak, aby ty nejdůležitější byly zobrazeny jako první. Čerpá přitom z více než 400 zpravodajských kanálů v českém jazyce. Uživatel tak může mít pohled na věc z různých perspektiv. Tato zpravodajská služba nemá žádné lidské editory, výsledky jsou sestaveny pomocí počítačových algoritmů a nehrozí tak ideologické zaujetí. Události jsou na Google News aktualizovány každých 15 32

minut. Zpravodajský portál Googlu byl doplněn o Google News Archive Search, který vyhledává zprávy hluboko v minulosti v archivu za minulá dvě století. Obr 10: Hlavní stránka Google News. Zdroj: www.google.com 3-9-3-2 Google Book Search a Scholar Služba Google Book (http://books.google.com) umožňuje vyhledávat knihy v nejrůznějších světových jazycích. Její index nyní obsahuje knihy ve více než 100 jazycích. Google spolupracuje s více než 10 000 nakladateli i s nejvýznamnějšími vědeckými knihovnami na digitalizaci plných textů knih. V případě, že vydavatel k tomu dal svolení nebo se na knihu nevztahují autorská práva, je možné zobrazit náhled či celý text. Pokud je kniha veřejně k dispozici, lze si ji uložit ve formátu PDF a vytisknout. U každé knihy jsou k dispozici alespoň základní bibliografické údaje. Tato služba zatím není dostupná v češtině, pouze vyhledávací rozhraní a nápověda jsou lokalizované. Digitalizované knihy v programu Google Book Search můžeme vyhledávat i prostřednictvím Jednotné informační brány (www.jib.cz). Jen na okraj zmiňuji také Google Scholar. Ten slouží k vyhledávání akademických prací (diplomové práce, odborné studie, abstrakty a články) z jednoho místa. Scholar podporuje běžné vyhledávací operátory a v rozšířených možnostech také omezení výsledků jen na konkrétního autora, název práce nebo dobu publikování. Google Scholar pak mezi výsledky hledání zobrazí i odkaz na knihovnu, jež daný zdroj zpřístupňuje, nebo odkazy na související články. 3-9-3-3 -Google Finance Na webu Google Finance (http://finance.google.com/) najdeme kromě informací o akciích a profilů společností také aktuální grafy doplněné souvisejícími zprávami z databáze Google News. Služba zobrazuje příjem firmy, kontaktní informace a profily zástupců firem. Google Finance spolupracuje s dodavateli jako Reuters Group PLC, Morningstar, Dun & Bradstreet Corp s Hoovers a Revere Data LLC. Google Finance je podobný Yahoo Finance (případně MSN Money), kde dost 33

možná najdeme více informací, ale také více reklamy. Všechny údaje jsou zveřejňované s prodlevou 15 minut od Nasdaq Stock Market a 20 minut od New York Stock Exchange. 4 Neviditelný web Internet, nedozírný celosvětový prostor počítačů propojených síťovým protokolem TCP/IP, se dělí na povrchový a neviditelný (invisible, hidden, deep web nebo také dark matter). Vyhledávání informací na internetu si můžeme představit jako vláčení sítě pod hladinou oceánu. Zatímco do sítí vyhledávačů se chytí hodně informací, stále jich velké množství zůstává ukryto v hlubinách. Většina informací je totiž schována v dynamicky generovaných stránkách, ke kterým se standardní vyhledávače nemohou dostat. A protože velká část informací na internetu není přístupná většině vyhledávacím nástrojům, je potřeba použít některý ze speciálních nástrojů, který nás ke skrytému obsahu dovede. 4-1 Definice neviditelného webu Viditelný web je to, co vidíte ve výsledcích běžných vyhledávačů. Ty k odhalování webu používají programy - roboty ( crawlery, anglicky často také spider pavouk) procházející a indexující stránky na webu prostřednictvím hypertextových odkazů. Jsou to softwarové programy nebo skripty, které mechanicky a automatizovaně procházejí world wide web. Pokud narazí na databázi zdrojů, kde je nutné se zaregistrovat či zahájit vyhledávání zadáním klíčového slova, jsou crawlery bezradné a databáze jsou pro ně neviditelné. Jedna z definic neviditelného webu postuluje: Internetové informační zdroje, jejichž obsah není dostupný prostřednictvím standardních vyhledávacích strojů. Může se jednat o informace, které jsou uloženy v databázích a generují se dynamicky až na základě interakce uživatele se systémem (např. online katalogy knihoven nebo bibliografické báze dat) nebo o informace, ke kterým je přístup chráněn heslem a jsou dostupné pouze autorizovaným uživatelům, často pouze na komerční bázi (plné texty časopisů apod.). Běžné vyhledávací nástroje (vyhledávací stroje) nemohou podobný typ informací ve svých databázích registrovat, buď pro technická omezení nebo proto, že je jejich robotům vstup do těchto zdrojů zakázán. Vyhledávací služby sice poskytnou informaci o existenci podobného informačního zdroje, ale nevyhledají informace, které jsou v něm obsaženy. Některé vyhledávací služby však již tyto informace dokáží zpracovávat (např. vyhledávací stroj Scirus - Elsevier Science). 73 73 TDKIV Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. Dostupné z: <http://sigma.nkp.cz/f/?func=file&file_name=find-a&local_base=ktd>. 34

Tu část internetu, kterou vyhledávače z různých důvodů nemohou indexovat, nazýváme neviditelným webem. Jinými slovy, neviditelný web je část internetu těžce dosažitelná pro indexující roboty vyhledavačů (a proto z jejich pohledu neviditelná). Obsah neviditelného webu jsou tedy všechny informace v elektronické a sdílené podobě, které nemůžeme objevit pomocí vyhledávačů a jejich odkazů ve vyhledaných výsledcích. Jedná se o prohledávatelné databáze, kde musíme zadat konkrétní dotaz. Výsledky v těchto speciálních databázích jsou doručovány v podobě dynamicky generovaných stránek a jsou dostupné jen po dobu, co si je prohlížíme (databáze neukládají výsledky všech možných dotazů na všechny možné termíny). Zjednodušeně řečeno je neviditelný web ta část obsahu World wide webu, která není součástí povrchového webu indexovaného vyhledávacími stroji. Může se zdát, že všechny zdroje jsou přístupné prohledáváním povrchového webu. Mnoho zdrojů je uzamčeno v databázích, ze kterých jsou webové stránky generovány prostřednictvím vyhledávacího dotazu. Tyto stránky sice mají unikátní URL adresu, ale není možné se k nim dostat, neboť nejsou uloženy jako statické stránky a není na ně odkazováno. Hluboký web zahrnuje také zdroje, které vyžadují registraci a/nebo jsou zpoplatněny 4-2 Historie neviditelného webu Pojem neviditelný web poprvé použila americká knihovnice Jill H. Ellsworth v roce 1994. 74 Označila tak informace, které nebylo možné najít pomocí tehdejších vyhledávačů. 75 Různé zdroje uvádí, že mezi první vizionáře používající výraz neviditelný web patřili Bruce Mount a Mathew B. Koll ze společnosti Personal Library Software, když se pokoušeli popsat vyhledávač nazvaný AT1. Termín invisible web použili v tiskové zprávě k uvedení jejich nástroje k prohledávání hlubokého webu. Specificky termín deep web spolu s bližším vysvětlením poprvé použil Michael K. Bergman ve své studii 76, kde rovněž provedl patrně první přesnější odhad velikosti a struktury hlubokého webu. Historie neviditelného webu je pevně spjata s rozvojem webu a zejména s historií vyhledávacích nástrojů. 4-3 Vymezení neviditelného webu Jedním z paradoxů neviditelného webu je skutečnost, že je velmi snadné porozumět tomu, proč existuje, ale je velmi těžké ho definovat konkrétními a 74 BERGMAN, Michael K. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing [online]. 2003. [cit. 2008-02-11]. Dostupné z: <http://www.press.umich.edu/jep/07-01/bergman.html>. 75 "It would be a site that's possibly reasonably designed, but they didn't bother to register it with any of the search engines. So, no one can find them! You're hidden. I call that the invisible Web." 76 Viz záznam 74 35

specifickými pojmy. 77 Je jisté, že v hlubokém webu se skrývá nemírné informační bohatství. Obsah neviditelného webu je totiž z velké části tvořen z hodnotných akademických databází. Zdroje v neviditelném webu můžeme rozdělit do následujících kategorií: 78 Dynamický obsah dynamicky generované stránky, které požadovanou informaci vrátí jenom na základě přímého dotazu (vyplnění vyhledávacích polí) a které jsou dostupné prostřednictvím formuláře. Takový obsah je uzamčen v databázích - jedná se o informace a data uložená komerčních databázových centrech, digitálních knihovnách a v on-line katalozích. Kromě toho tam patří také institucionální zdroje citlivé na ochranu, elektronické časopisy, knihy a sborníky, na které se vztahují autorská práva a jejich obsah je rovněž zpoplatněn Neprolinkovaný obsah stránky, na které není odkazováno, jsou nedostupné pro crawlery, indexující web. Do tohoto druhu obsahu můžeme zařadit stránky, na které nevedou žádné přímé a neobsahují ani zpětné odkazy. Soukromé weby zdroje chráněné heslem, vyžadující registraci a login. Autorizovaný obsah, který může i nemusí být zpoplatněn. V takovém případě je obsah těchto stránek vyhledávačům zcela nepřístupný. Kontextuální weby stránky s obsahem, který se mění podle toho, v jakém kontextu k němu uživatel přistupuje. Stránky ke kterým bychom se nedostali bez zadání přesné navigační sekvence, stránky omezené pro určité IP adresy apod. Obsah s omezeným přístupem weby, které omezují přístup k obsahu na základě technologických omezení. Jsou to stránky, které využívají Robots Exclusion standard, 79 jsou zabezpečené testem CAPTCHA, 80 nebo mají zakódovaný příkaz no-cache, který zabraňuje vyhledávači vytvořit kešovanou kopii. Skriptovaný obsah - Stránky, na něž se dostaneme prostřednictvím odkazů vytvořených v JavaScriptu. Do oblasti neviditelného webu v této kategorii patří i dynamický obsah, který je z webového serveru stažen přes Flash nebo AJAX. 77 SHERMAN, Chris PRICE, Gary. The Invisible Web. Independent Pub Group, 2001. s. 55. ISBN 09-109-6551-X. 78 Deep Web. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: < http://en.wikipedia.org/wiki/deep_web>. 79 Robots.txt - Jedná se o textový soubor, který povolí nebo zakáže přístup crawlerů a dalších botů. Tento soubor se musí nacházet v kořenovém adresáři daného webu. 80 CAPTCHA je Turingův test, který se používá pro odlišení uživatelů od robotů. Je to akronym pro Completely Automated Public Turing test to tell Computers and Human Aparts. Test spočívá zpravidla v zobrazení obrázku s deformovaným textem, přičemž úkolem uživatele je zobrazený text opsat do příslušného vstupního políčka. Předpokládá se, že lidský mozek dokáže správně rozeznat i deformovaný text, ale internetový robot při použití technologie OCR nebude schopen text správně rozpoznat. Důvod, proč se CAPTCHA vůbec používá, je ten, že bez něj by se do různých diskusních fór pomocí spamových robotů dostalo velké množství spamu, který ve velké míře chrlí některé spamové servery. Nevýhodou obrázkové CAPTCHA je nepřístupnost pro zrakově postižené uživatele. Citováno dle záznamu 66 36

Obsah ve specifickém formátu Obsah, který není v obvyklém formátu, s kterým umí operovat vyhledávače. Textový obsah může být například kódovaný do multimediálních souborů (obraz nebo video) či uložený ve specifických formátech. 4-4 Struktura hlubokého webu Internet můžeme také rozdělit do 4 vrstev. V první vrstvě jsou statické webové stránky, ke kterým se uživatelé dostanou velmi snadno, neboť jsou indexovány vyhledávači. Jedná se o hlavní stránky webových prezentací apod. Ve druhé vrstvě jsou uloženy stránky se speciálním obsahem, třetí a čtvrtá vrstva tvoří hluboký web. Struktura hlubokého webu je tvořena dynamickým obsahem databází a privátními stránkami. Obr 11: Strukrura webu podle obsahu Chris Sherman a Gary Price rozdělili obsah hlubokého webu do následujících oblastí: 81 Opaque web, soukromé a proprietární weby a pravý neviditelný web. Pojďme se na ně podívat blíže. 81 Viz záznam 65 37

4-4-1 Opaque web Opaque web neboli temný, neprůhledný web. Obsah tohoto druhu neviditelného webu je v porovnání se skutečným neviditelným webem mnohem těžší najít. Přitom obsah temného webu mohou vyhledávací nástroje sbírat a indexovat, ale z mnoha důvodů se tak neděje. Jednou z příčin, proč obsah temného webu není indexován vyhledávači, je fakt, že hloubka sběru dat není dostatečná; jinými slovy, vyhledávače jdou při procházení daného webu příliš po povrchu. Domnívám se, že kromě finančních důvodů (je rozdíl v ceně indexace jedné, padesáti, nebo pěti tisíc stránek dané webové prezentace) zde vyhledávače naráží na technické limity. Omezení, proč vyhledávač zaindexuje jen určitý počet stránek, je dáno kromě jiného i tím, že část obsahu webu není provázána hypertextovými odkazy a obsah je generován na základě specifické navigační sekvence, potažmo skriptem běžícím na webovém serveru. Crawlery javascriptové příkazy většinou ignorují a materiál v JavaScriptovém vyskakovacím okně nemůže být indexován. 82 Počet indexovaných stránek se však neustále zvyšuje (což dokládají další kapitoly) a je reálná naděje, že hlubiny temného (opaque) webu se budou postupně odkrývat. Kromě hloubky procházení jde též o frekvenci procházení. Zatímco těm největším vyhledávačům jistě nebude činit problémy projít denně desítky miliónů stránek, menší vyhledávače v takovém objemu zřejmě neindexují. Navíc se může stát a stává se, že během jedné hodiny jsou staré stránky nahrazeny novými, nezaindexovanými. Dokud vyhledávač nově vzniklý obsah nezaindexuje, tvoří tento neviditelnou část webu. Dalším důvodem jsou odpojené a nefunkční URL odkazy. Jsou dva způsoby, proč a jak vyhledávač navštíví danou stránku. 83 V prvním případě někdo zaregistruje adresu stránek prostřednictvím speciálního formuláře přímo ve vyhledávači a ten následně web zaindexuje. Druhým způsob je běžná práce vyhledávačů - crawler najde URL odkaz přes který se dostane k webu. V případě, že na stránku nevedou žádné odkazy, se vyhledávač na stránku sám nedostane nemá jak. Společná studie IBM, Compaq a AltaVista 84 z roku 2000 uvádí, že celkový počet odpojených URL adres není zanedbatelný jedná se zhruba o 20 % potenciálně indexovatelného webu. Jiný zdroj však uvádí, že se jedná o přibližně 10 % takto odpojeného obsahu. 85 82 LHOTÁK, Martin. Neviditelný web - co vyhledávací stroje nenajdou encyklopedie [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: <http://www.inforum.cz/archiv/inforum2002/prednaska4.htm>. 83 Viz záznam 65, s. 72 84 Tamtéž 85 Viz kapitolu: 1-3 Důsledky teorie motýlka 38

4-4-2 Soukromé a proprietární weby Technicky vzato se jedná o obsah, který může být zaindexován, ale z vůle majitelů stránek (webmasterů) se tak nemůže stát. Důvodů je několik. Stránky mohou být chráněné heslem, využívat ochranu proti robotům (případně obsahují noindex meta tag). Můžeme se domnívat, že stránky chráněné heslem nejsou tak informačně bohaté a slouží pouze omezené skupině lidí. V případě proprietárního webu se jedná o obsah, který může být informačně hodnotný a může mít potenciál pro vědu a výzkum. Do této kategorie spadá oblast webů, které jsou přístupné na základě registrace a vyžadují vyplnění formuláře. Nemusí jít nutně o placený obsah registrace je v mnoha případech zdarma a návštěvník tak platí svými osobními údaji nebo jen e-mailovou adresou. Součástí proprietárního webu jsou samozřejmě také weby placené. Některé na základě paušálního poplatku, jiné za cenu jednorázového přístupu. Tradiční poskytovatelé informací typu Dialog, LexisNexis či DowJones do oblasti proprietárních webů nespadají. Tyto služby sice mají zpoplatněný přístup přes webové rozhraní, ale nabízejí informace, které jsou součástí jejich vlastních databází, jež existovaly dlouho před tím, než byl vynalezen web. 86 4-4-3 Pravý neviditelný web Webové stránky, jejichž obsah nemůže být z technických důvodů procházen vyhledávači a indexován, nazýváme opravdu neviditelným (truly invisible). 87 Pokud se na stránkách vyskytuje obsah v některém z problémových formátů, pak jej crawlery vyhledávačů nezaindexují. Dlouhou dobu byl takto neviditelný formát PDF, ale dnes jej např. Google indexuje zcela běžně. Ten dokonce všechny tyto formáty převádí na HTML formát s tím, že ve výstupu nabídne zobrazit jako text /HTML. Mezi problematické formáty patří např. PostScript, Shockwave, Flash, spustitelné soubory, streamované video a komprimované soubory. Pravý neviditelný web ovšem tvoří také dynamicky generované stránky. Nejedná se o ani tak o technický problém, ale často o neochotu následovat odkaz obsahující skript či příkaz. Crawlery často ignorují skripty v URL odkazech, protože bývají zneužívány ke spamování vyhledávače a pod. Informace uložené v relačních databázích řadíme rovněž do sféry pravého neviditelného webu. Jedná se totiž o materiál generovaný na základě specifického dotazu. Crawlery nejsou naprogramované na zadávání dotazů v konkrétním dotazovacím jazyce a nerozumí ani databázové struktuře daného webu. Přitom propojení HTML obsahu a relačních databází je již dlouhou dobu velmi populární. Značná část webů je 86 Viz záznam 65, s. 74 87 Tamtéž 39

vytvořena kombinací značkovacího jazyka HTML a skriptového jazyka PHP a napojená na relační databáze (MySQL, MS SQL atd.). 4-5 Velikost neviditelného webu Velikost neviditelného webu je velmi obtížně měřitelná, což dokazuje i to, že nejvýznamnější studie této oblasti se rozcházejí a jsou v akademických kruzích vzájemně zpochybňovány. Kalifornská univerzita v Berkeley publikovala studii s názvem Kolik je tam informací? (How much information is there?) 88, která odhaduje, že hluboký web může obsahovat 91000 TB dat, přičemž povrchový internet je velký pouhých 167 TB. Pro srovnání, Kongresová knihovna (Library of Congress) obsahuje přibližně 11 TB informací. Podle výzkumu Michaela K. Bergmana 89 (BrighPlanet, 2000) je množství informací v hlubokém webu asi 400 až 550krát větší než na běžně dostupném internetu. Hlavní rysy neviditelného webu: o hluboký web obsahuje asi 7500 terabytů informací oproti 19 TB v povrchovém webu a 550 biliónů jednotlivých dokumentů oproti jednomu bilionu na povrchu, o 60 největších databázových center soustřeďuje asi 750 TB informací, což 40x přesahuje velikost běžně dostupného internetu, o hluboký web je nejrychleji rostoucí oblastí nových informací na internetu, o informace v neviditelném webu jsou mnohem detailnější a tématické oblasti užší, o více než polovina obsahu neviditelného webu se nachází v předmětových databázích a 95 % jeho obsahu není zpoplatněna a je veřejně přístupná. Metodologickou stránku Bergmanovy kalkulace kritizoval prof. Dirk Lewandowski z Heinrich Heyne Universität v Dusseldorfu. 90 Podle něho se jedná o nadhodnocený výpočet. Ke kritice se připojil také Chris Sherman a Gary Price v knize Invisible Web: Uncovering Information Sources Search Engines can t 88 LYMAN, Peter - HAL R. Varian. How Much Information? 2003. [online]. [cit. 2008-02-14]. Dostupné na WWW: <http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/>. 89 Viz záznam 74 90 LEWANDOWSKI, Dirk MAYR Philipp. Exploring the Academic Invisible Web. [online]. 2008 [cit. 2008-04-08]. Dostupné na WWW: <http://dlist.sir.arizona.edu/1127/> 40

see. 91 Podle něho jsou ve studii uváděny i specializované adresáře, které běžné vyhledávače dokáží indexovat. Kritizovaná studie BrightPlanet také do svého výpočtu prý zahrnovala nerelevantní zdroje obsahující pomíjivá data o počasí a výsledky astronomických měření, které z hlediska výzkumu nemají prakticky žádný potenciál. Novější zdroje uvádí, že neviditelný web je 2 50krát větší než viditelný. 92 Je však potřeba si uvědomit, že zatímco čísla týkající se kvantity je obtížné přesně určit a mohou růst, poměr hlubokého a povrchového webu se výrazně nemění. 4-5-1 Kritika Bergmanovy kalkulace Cílem této podkapitoly není kritizovat Bergmanovu vědeckou práci, která byla bezpesporu velmi záslužná, ale spíše ilustrovat obtížnost měření velikosti hlubokého webu. Michael K. Bergmann je v oblasti neviditelného webu jedním z nejcitovanějších vědců. Jeho výpočet velikosti neviditelného webu byl v tomto směru vůbec prvním pokusem. Přesto jeho kalkulace trpí závažnými nedostatky. Jak již bylo uvedeno, podle Bergmana je neviditelný web asi 550krát větší než povrchová část internetu a obsahuje přibližně 550 miliard dokumentů. Bergmanův výpočet vychází ze seznamu 60 databází ukrytých ve skrytém webu. Tento seznam sestavil manuálně na základě výběru z různých adresářů poté, co byly odstraněny duplicity. Bergmanův seznam Top 60 zdrojů přitom obsahoval 85 miliard dokumentů s celkovou velikostí 748,504GB. 93 První dva zdroje přitom dohromady obsahovaly celkem 585,40GB, což je více než 75 procent celkového množství všech zdrojů uvedených v TOP 60. 94 Dalším Bergmanovým předpokladem bylo, že v hlubokém webu existuje přibližně 100 000 databází. Toto číslo vyhází z jeho srovnávací analýzy napříč největšími adresáři neviditelných zdrojů. Bergman dále ve výpočtu použil průměrnou hodnotu, kdy jedna neviditelná datábaze měla obsahovat 5,43 miliónu dokumentů. Na základě toho Bergman vypočítal celkovou velikost neviditelného webu (průměrná velikost jedné databáze vynásobená počtem databází) a vyšlo 543 miliard dokumentů. Ve vztahu k tehdejší odhadované velikosti povrchového webu v čase výzkumu (2001), která činila 1 miliardu dokumentů (Lawrence a Gilles, 1999), Bergman stanovil, že neviditelný web je 550krát větší než povrchový web. Tato čísla byla následně upravena (Sherman, 2001), ale nikdo nevyvětlil, v čem udělal Bergmann základní chybu. Odpovědí byl výzkum Dirka Lewandowskeho a Philippa Mayra. 95 Ti určili, že chybou v kalkulaci bylo použití průměrné hodnoty pro odhad celkové velikosti. Zatímco průměrná velikost jedné databáze byla velmi vysoká (5,43 miliónu dokumentů), střední hodnota (medián) velikosti všech databází byla relativně nízká pouze 4 950 dokumentů. Pokud se podíváme na na 91 SHERMAN, Chris PRICE, Gary. The Invisible Web, Uncovering Information Sources Search Engines Can t see. Independent Pub Group 2001, ISBN 09-109 6551-X. 92 Tamtéž. 93 Viz záznam 78 94 Viz záznam 79 95 Tamtéž 41

Bergmanův TOP60 seznam zdrojů, pak vidíme, že křivka s velikostí databází je velmi skosená. Graf 4: Velikost datábází v Bergmanově TOP60 Dalším úskalím Bergmanova výpočtu je skutečnost, že pracoval s velikostí dat v GB namísto s počtem záznamů v té které databázi. Toto se jeví jako obzvláště problematické, neboť velikost jednotlivých záznamů se liší a záleží na použitých typech dat a dokumentů (obrázky, bibliografické záznamy, plné texty záznamů, tabulky, atd.). Bergman tedy udělal první chybu statistickou, když použil průměr místo střední hodnoty a podruhé chyboval v určení velikosti dat v GB. Nás by však mělo spíše zajímat, jaká část neviditelného webu obsahuje akademicky relevantní obsah. 96 Když se podíváme na Bergmanův seznam TOP60 zdrojů, shledáme, že opravdu 90 procent by mohlo být označeno jako akademický obsah, nicméně jestliže bychom ze seznamu vynechali databáze obsahující syrová data, zúží se podíl akademického obsahu na pouhá 4 procenta, která korespondují s obsahem uloženým v povrchové části webu (Lawrence a Gilles, 1999). Převážná část Bergmanova neviditelného webu je tvořena syrovými daty, jako jsou satelitní obrázky Země. Pouhé záznamy v těchto databázích mohou být větší než některé (rozsáhlé) textové databáze. 96 Viz záznam 78 42

3-7 Akademický neviditelný web Při studiu neviditelného webu se nelze vyhnout souvislostem spojeným s obsahem databází, neboť problém neviditelného webu je hlavně problémem obsahu databází. 97 Je důležité mít na paměti, že pro akademický sektor jsou vybrané zdroje v povrchovém webu stejně hodnotné, jako ty ukryté v hlubokém webu. Akademický neviditelný web se skládá převážně z databázích relevantních akademické sféře. Akademický neviditelný web se skládá z databází, které by knihovníci indexovali - pokud by to bylo možné a je tvořen především textovými dokumenty (v různých formátech, jako jsou PDF, PPT, DOC). Z výše uvedeného vyplývají následující premisy: 98 o Neviditelný web se týká databází o Zdroje v povrchovém webu jsou stejně důležité jako zdroje ve skrytém webu o Akademický neviditelný web obsahuje relevantní obsah pro univerzity o Akademický neviditelný web obsahuje databáze, které by knihovníci měli indexovat Do oblasti akademického neviditelného webu patří všechny relevantní zdroje pro vědecké procesy a jeho obsah tvoří zejména literatura (článků, disertací, reportů, elektronických knih atd.) a výzkumná data. 99 Poskytovatelé obsahu akademického neviditelného webu jsou dodavatelé či producenti databází, kteří klasifikují bibliografické záznamy podle předmětu, tezauru apod. V tomto případě se jedná o lidské indexování. Komerční vydavatelé nabízejí převážně plnotextový obsah. Knihovny naopak vytváří bibliografické záznamy v katalozích OPAC (Online Public Access Catalogue). Jejich obsahem jsou katalogizační a bibliografické záznamy primárních dokumentů a informačních pramenů a jsou přístupné přes webové rozhraní. Definice OPAC nám říká, že se jedná o veřejně dostupný on-line katalog určený uživatelům knihovny. Kromě vlastního vyhledávání záznamů dokumentů obvykle také zpřístupňuje řadu dalších služeb, např. umožňuje správu uživatelského konta, přístup k dalším informačním zdrojům apod. 100 Kromě výše uvedeného Lewandowski do akademického neviditelného webu zařadil také zdroje v korporátních repozitářích společností (např. Association for Computing Machinery) a jiné veřejně přístupné digitální knihovny a repotitáře (např. Citebase, OpenROAR). Lewandowski také uvedl, že spousta materiálů v 97 Tamtéž 98 Tamtéž 99 Tamtéž 100 TDKIV Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. Dostupné z: <http://sigma.nkp.cz/f/?func=file&file_name=find-a&local_base=ktd>. 43

uvedených zdrojích nemusí být součástí akademického neviditelného webu, ale ve skutečnosti nejsou pokryty vyhledávacími nástroji. 101 V roce 199 byl proveden výzkum, 102 který určil, že pouze 6 % všech webových severů obsahuje vědecký obsah. Rozdělení informací povrchového webu je podle tohoto výzkumu následující. Zhruba 83 % webových serverů prý obsahuje komerční obsah (například domovské stránky společností). Rozdělení ostatních serverů je patrné z následujícího grafu. Obr 12: Rozdělení serverů. Zdroj: Lawrence - Gilles 5 Hledání v neviditelném webu V následující kapitole si shrneme důvody, proč hledat v hlubinách skrytého webu. Kromě toho, že hluboký web nabízí specifické výsledky z tematicky zaměřených zdrojů, umožňuje též lepší kontrolu nad nalezenými výsledky. Asi každý zná situaci, kdy na přímý vyhledávací dotaz obdržel nepřebernou množinu výsledků a následně se probral jen prvními několika málo zdroji, aniž by to bylo k užitku. V databázích neviditelného webu si můžeme přesně určit, jaké výsledky budeme chtít vrátit (v časovém rozmezí, podle druhu zdroje atd.). Velmi důležitá je taky skutečnost, že velká část zdrojů v neviditelném webu je tvořena akademicky hodnotnými zdroji. Jak výstižně popsal Chris Sherman v článku Invisible web, primárně jde o čas a zvolení správného nástroje: Dobrý knihovník by nikdy nezačal s hledáním telefonního čísla (specializovaná informace z neviditelného webu) listováním v Encyclopedii Britanica (obecně známý zdroj). Profesionální a zběhlý rešeršér by se minimálně mohl obávat toho, 101 Viz záznam 65 102 Lawrence, S. - Giles, C.L. (1999), "Accessibility of information on the web", Nature, Vol. 400, s. 107-109. 44

že ztratí příliš mnoho času a nenajde informace, které jsou jinak snadno dostupné použitím správného nástroje. 103 5-1 Proč hluboký web? Proč by si měl uživatel vybrat zdroje v neviditelné webu k uspokojení svých informačních potřeb? Obecně využitelné a univerzální vyhledávací nástroje nebo adresáře jsou uživatelsky přívětivé a snadno se používají. Protože jsou tak přístupné a zdánlivě všemocné, nabízejí zdroje určené především pro masu uživatelů a snaží se nabídnou pro každého něco. Zdroje v neviditelném webu jsou více zaměřené na danou problematiku, jdou více do hloubky a k tématu nabídnou lepší výsledky. 104 Jedná se o konflikt mezi rychlostí hledání a přesností výsledků. Vyhledávací nástroje v tomto směru nabízí kompromis mezi hledáním správné odpovědi, hledáním nejlepší odpovědi a hledáním nejsnazší odpovědi. 105 Akademické instituce, univerzity a vzdělávací organizace však potřebují co nejpřesnější odpovědi a vyčerpávající informace. Výsledky hledání v tradičních vyhledávačích často nabízí povrchní zdroje, referáty, populárně naučné články či seminární práce, které z hlediska výzkumu a vědy nemají žádný význam. V následujícím členění jsem se inspiroval v knize Invisible Web. 5-1-1 Specifický obsah Databáze v hlubokém webu mají specifický obsah a nabízí vyčerpávající výsledky. Zdroje v neviditelném webu jsou tematicky zaměřené a nabízí výživné informace ke konkrétnímu problému. Do oblasti neviditelného webu spadají databáze akademických institucí, databáze plných textů odborných článků a vědeckých pojednání. Svou roli zde hraje čas výzkumníci na univerzitách nejsou časem omezeni. Důležitější než rychlost hledání je přesnost nalezených výsledků. 106 Pokud existuje časové omezení, výzkumník si určí vlastní dobu hledání a raději dá přednost relevantním výsledkům před nejrychleji vráceným výsledkům z tradičních vyhledávačů. Pokud použije konveční způsob hledání informací v běžných vyhledávačích (typu Google) a precizuje vyhledávací dotaz, nemusí to znamenat, že ztratí mnoho času probíráním se houštinou nalezených výsledků z povrchového webu. V kvalitních databázích jsou uložené vyčerpávající informace, ke kterým se crawlery univerzálních vyhledávačů nedostanou. 103 Viz záznam 8 104 Viz záznam 65, s.92 105 Tamtéž 106 Tamtéž 45

5-1-2 Vyhledávací rozhraní Specifické vyhledávací rozhraní nabízí lepší kontrolu nad nalezenými výsledky. Speciální databáze v hlubokém webu disponují specifickým vyhledávacím rozhraním. Univerzální a tradiční vyhledávače jsou často vybaveny pouze jedním vyhledávacím formulářem pro základní hledání a rozšířeným vyhledávačem pro přesnější zadání dotazu. Vyhledávací rozhraní speciálních databází kombinují několik polí pro zadání přesného dotazu. Naše vyhledávání můžeme omezit na základě relevance, data, retrospektivy apod. Můžeme hledat podle autorů, názvů vědeckých prací, podle oborů a jiných kritérií. Speciální vyhledávací rozhraní té které databáze nabídne daleko přesnější výsledky, ušetří čas probíráním se množinou odkazů a umožní pracovat jen s relevantním materiálem. Zdroje v neviditelném webu umožňují konkrétnější a přesnější hledání a nad zobrazeným výsledky tak máme lepší kontrolu. 5-1-2 Přesnost a úplnost Měřítkem výkonu vyhledávacích nástrojů jsou podle Shermana a Pricea 107 dva základní faktory: Přesnost a úplnost. 108 Úplnost (recall) podle nich reprezentuje poměr celkového počtu relevantních záznamů získaných v důsledku specifického vyhledávacího dotazu a celkového počtu relevantních dokumentů v celém indexu daného vyhledávače. 100% úplnost znamená, že vyhledávač vrátí všechny relevantní dokumenty ze svého indexu, které korespondují se zadaným dotazem. Úplnost je vyvážená přesností. Přesnost (Precision) je poměr počtu vyhledaných relevantních dokumentů a celkového počtu vyhledaných dokumentů. Jestliže vyhledávač vrátí 100 výsledků a pouze 20 jich je relevantních, přesnost odpovídá percentilu 20% (100/20). Přesnost však není objektivně měřitelná, protože informační hodnota se liší podle informačních potřeb a každý hledá něco jiného. Pro někoho může být relevantní takový dokument, který pro ostatní nemá žádnou informační hodnotu. Vyhledávače se snaží simultánně dosáhnout co nejlepšího poměru přesnosti a úplnosti, ale v praxi se jim to příliš nedaří. Velikost indexů vyhledávačů se neustále zvyšuje indexují více a více relevantních dokumentů pro daný dotaz, čímž se zvyšuje úplnost. Když se zvyšuje úplnost, sníží se tím přesnost, protože pro hledající je těžší lokalizovat relevantní dokument v rostoucí množině redundantních výsledků. 109 Zdroje v neviditelném webu (s omezením hledání dle tématu či předmětu) nabízejí vyšší přesnost, zatímco se zvyšuje celková úplnost. Rešeršér se nemusí prodírat džunglí 1 000 000 vyhledaných 107 Viz záznam 65, s. 94 108 Jedná se o běžně používané pojmy v informační vědě. Použil jsem srozumitelný výklad Shermana a Pricea 109 Tamtéž 46

záznamů, z čehož vyplývá vysoká přesnost nalezených záznamů a vyšší informační hodnota pro hledajícího. 5-1-3 Vyšší odbornost Zdroje v neviditelném webu nabízí vyšší úroveň odbornosti. Mnoho zdrojů v neviditelném webu se pyšní skvělou reputací mezí knihovníky a odbornou veřejností. Dostanete se k mimořádně rozsáhlým kolekcím informačních zdrojů, k hodnotným a prestižním databázím a k unikátním specializovaným zdrojům. Nejde však jen o exkluzivní obsah; v hlubokém webu jsou specializované databáze, které umožňují vytvářet citační analýzy trendů v oborech, sledovat nejnovější literaturu či dokonce vytvářet citační mapy. 110 5-1-4 Informace jsou zdarma dostupné Informace nejsou nikde jinde dostupné. Takové je myšlení většiny uživatelů vyhledávačů typu Google. Růst webu spolu s relativně snadným způsobem hledání on-line informací vytváří mylný předpoklad, že to, co není dostupné online přes běžné vyhledávače, neexistuje. Obrovské množství informací je zpřístupněno přes webová rozhraní, ale z mnoha (v této práci podrobně rozebraných) důvodů není přístupné robotům vyhledávacích strojů. Tyto informace jsou on-line dostupné a často dokonce úplně zdarma. 5-2 Vyhledávače neviditelného webu Vyhledávače v hlubokém webu jsou vlastně metavyhledávače, které se naučily pokládat dotazy specializovaným databázím. Samy o sobě tak žádný obsah neindexují, pouze položený dotaz překládají dalším vyhledávacím formulářům a následně agregují navrácené výsledky. 111 Mezi vyhledávače neviditelného webu se nově řadí i Google, který využil technologického know-how firmy Transformic, kterou akvíroval v roce 2005. Google nyní indexuje hluboký web v testovacím provozu. 112 Přístup některých vyhledávačů (na teoretické úrovni) a modelů vyhledávačů v prostředí hlubokého webu je založen na skutečnosti, že crawler dostane specifickou sadu instrukcí a definic, kdy každá popisuje specifický vyhledávací 110 Např. Web Of Knowledge jedna z nejdražších databází v kolekci Masarykovy univerzity. 111 Viz záznam 25 112 MADHAVAN, Jayant - HALEVY, Alon. Crawling through HTML forms [online]. 2008 [cit. 2008-04- 11]. Dostupné na WWW: <http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-htmlforms.html>. 47

dotaz. Crawler by pak měl použít tento popis k rozpoznání relevantního dotazovacího formuláře a naučit se položit dotaz. 113 Architektura vyhledávače v hlubokém webu je patrná z následujícího schématu. 114 Obr 13: Architektura crawleru v hlubokém webu Komponenta zvaná Form Analyzer Finder je filtr, který umožňuje vyhledat a analyzovat správný formulář pomocí některé z přednastavených doménových specifikací. 115 5-2-1 Operační model vyhledávače ve skrytém webu Základní rozdíl mezi tradičním crawlerem a crawlerem v prostředí neviditelného webu si ukážeme na následujícím srovnání. Na obrázku vidíme postup kroků, kdy uživatel vyplňuje formulář, aby se dostal ke skrytému obsahu databází. Vedlejší 113 ÁLVAREZ, M. - RAPOSO, J. CACHEDA, F. PAN, A. A Task-specific Approach for Crawling. Department of Information and Communications Technology, University of A Coruña, 2006. Engineering Letters. Vol. 13, no. 2, s. 204-215. 114 Tamtéž 115 Viz záznam 102 48

obrázek zase ukazuje stejnou interakci, avšak automatizovanou za použití crawleru. Obr 14: Porovnání lidského přístupu a vyhledávače hlubokého webu 5-2-2 Turbo10 Turbo10 116 je metavyhledávací nástroj, který loví informace v hlubokém webu. Indexuje zdroje pomocí asi 800 vyhledávacích nástrojů, do kterých posílá vyhledávaný dotaz. Výstup hledání je seznam nalezených zdrojů, jako první se zobrazují nejdříve nalezené. Výsledky je možné upřesnit pomocí souvisejících klíčových slov (shluků), což velmi usnadňuje hledání. Počet vyhledaných výsledků je mnohem nižší, než u jiných vyhledávačů - na dotaz inflation vrátil Turbo10 23 relevantních výsledků, zatímco Google zobrazil 48 700 000 často nepoužitelných výsledků. Turbo10 je uživatelsky příjemný a jednoduchý nástroj. Jediné, co je potřeba, je zadat výraz do vyhledávacího okna. Do seznamu nástrojů si můžeme přidat libovolné zdroje a vytvořit si tak vlastní kolekci pokud chcete vyhledávat v Encyklopedii Britannica, jedním kliknutím si ji přidáte do své sbírky. Pro snazší pohyb mezi vyhledanými výsledky slouží fialový grafický posuvník s marketingovým označením Search-o-Meter. Ten umožňuje rychlejší orientaci ve výsledcích tak, jak je vrací nejrychlejší vyhledávače. 116 http://turbo10.com 49

Obr 15: Vyhledávací rozhraní Turbo10. Zdroj: www.turbo10.com Vyhledávací stroj Turbo10 funguje na základě třech hlavních subsystémů: 117 Adapter Manageru, Trawler Serveru a Browseru (prohlížeče). Metavyhledávače většinou měří relevanci výsledků na straně serveru, což má za následek jisté zpomalení, neboť vyhledávač musí čekat na všechny použité stroje před tím, než se výsledek zobrazí v prohlížeči. Turbo10 vrací výsledky, měří relevanci výsledku i shlukuje zdroje na straně webového prohlížeče - klienta. První výsledky se tady zobrazí ve chvíli, kdy odpoví nejrychlejší vyhledávač. Server posílá asynchronní výsledek do prohlížeče a program na straně klienta kešuje výsledky v paměti. Protože všechny výsledky jsou nahrány v jednu chvíli, zobrazení tématických shluků a stránek s výsledky nevyžaduje opětovné zaslání vyhledávacího dotazu. Na straně serveru: Trawler Server vysílá zadané klíčové slovo do všech vyhledávacích strojů souběžně. Jakmile se vrátí nejrychlejší odpověď, je výsledek vyslán a zobrazen v okně našeho vyhledávače. Trawler Server udržuje množinu přípojek na zdroje v hlubokém webu tzv. bazén, který slouží pro spojení s vyhledávacími stroji. Ten je jednou denně manuálně kontrolován a aktualizován. Následně jsou kontrolovány i vazby na zdroje v neviditelném webu. V Adapter Manager (správce přípojek) se analyzují cílové vyhledávače, testují existující vazby a připojují nové. Jestliže je některá z vazeb přerušená, pak ji správce automaticky opraví. Činí tak na základě jediné informace: URL adresy webu, který obsahuje vyhledávací okno. 118 Všechny další informace Turbo10 117 HAMILTON, Nigel. The Mechanics of a Deep Net Metasearch Engine. [online]. 2003 [cit. 2008-04-20]. Dostupné na WWW: < http://turbo10.com/papers/deepnet.pdf >. 118 Tamtéž 50

shromažďuje automaticky. Metodika tohoto vyhledávače pracuje s další důležitou komponentou zvanou Form Finder, neboli vyhledávač formulářů. Identifikuje jednotlivé parametry vyhledávacích formulářů, jako jsou kategorie dotazů, nastavení cookie metod a zařazení formuláře. Ve chvíli, kdy Form Finder nalezne vhodný formulář, vyšle testovací vyhledávací dotaz k získaní výsledku a zdroj si zalinkuje. Další součástí Turbo10 je tzv. Back Link Finder, který vrací výsledky z cílových vyhledávačů. Pracuje poměrně náročným a dobře utajovaným způsobem. Nicméně je jisté, že výsledky a jejich obsah jsou následně porovnávány v komponentě zvané Centroid, která určuje validitu testovacích dotazů. 119 Nejsložitější komponentou vyhledávače Turbo 10 je tzv. Extractor Finder, který si můžeme představit jako úložiště sématických a strukturálních informací ve výsledkové listině hledaného dotazu. Opět se jedná se o velmi složitou metodiku. Náročnost celého procesu ilustruje následující schéma. Obr 16: Tři hlavní subsystémy Turbo10: Adapter Manager, Trawler Server a Browser. Prohledávání neviditelného webu prostřednictvím Turbo10 je zdarma. Zajišťuje přístup k on-line vládním informacím, obchodním a univerzitním databázím. V době psaní této práce shromažďoval Turbo10 přesně 802 vyhledávačů a pořád existovala možnost přidat své vlastní zdroje. Přidat vlastní vyhledávací nástroj je jednoduše možné ve třech krocích. Nejdříve je potřeba zadat přesné URL, kde se nachází vyhledávací okénko vašeho zdroje, zadat vyhledávací dotaz a kliknou na alespoň dva výsledky. Jestliže je proces úspěšný, je váš zdroj bezprostředně připojený. 119 tamtéž 51

5-2-3 Incywincy Incywincy indexuje více než 150 miliónů stránek a vyhledává prostřednictvím tisíců vyhledávačů. 120 Jeho specialitou je, že umí vyhledávat formuláře, které jsou pro běžné vyhledávací nástroje nedostupné. Nabídne výpis stránek a k jednotlivým záznamům řazeným dle relevance přidá formulářové okno pro zadání konkrétního dotazu. Incywincy využívá index adresáře ODP (Open Directory Project) proto si můžeme vybrat, kterou konkrétní oblast chcete prohledávat. V nastavení (preferences) si zase vybereme konkrétní vědní oblast, například Science Social Science - Demography and Population Studies. Výsledky se potom řadí právě podle vámi zvolené kategorie. Kromě webu umí vyhledávat nejen formuláře, ale také obrázky. Vyhledávání zjednodušují funkce jako omezení duplicit a výběr souvisejících vyhledávačů. Incywincy při vyhledávání nabídne i výběr konkrétní oblasti, do které patří hledané klíčové slovo. Výsledky je možné zužovat do nabídnutých shluků. Pomocí tohoto vyhledávače dostanete množství hodnotných výsledků, které byste v běžném vyhledávači nikdy nenašli. Incywincy je skvělý nástroj pro hledání v hlubinách neviditelného webu a nezbývá, než ho vřele doporučit. Incywincy využívá Net Research Server (NRS) ve verzi 5.0. Jedná se o produkt zajišťující kompletní služby v oblasti prohledávání internetových portálů, který vyvíjí a dodává firma LoopIP LLC. 121 120 Incywincy.com 121 Tamtéž 52

Obr 17: Vyhledávač Incywincy. Zdroj: www.incywincy.com 5-2-4 CompletePlanet Nyní si představíme projekt společnosti BrightPlanet adresář hlubokého webu a vyhledávač společnosti CompletePlanet. 122 Jedná se jak o veřejný vyhledávač, tak o rozvojový projekt, na kterém si BrightPlanet testuje nové funkcionality a následně je integruje do komerčních produktů. BrightPlanet se totiž primárně zaměřuje na nabízení placených produktů pro podnikovou sféru. CompletePlanet zpřístupňuje tématické informace z hlubokého webu a vyhledává ve více než 70 000 databázích a speciálních vyhledávacích strojích. BrightPlanet využívá nástroj SQSTR (Semantic Query, Storage, Transformation, and Reporting), který v sobě kombinuje různé vyhledávací algoritmy. Je umístěn v jádře Deep Query Manageru (DQM), což je komerční systém pro sběr informací na internetu a firemním intranetu jakási obdoba crawleru doplněná o analytické nástroje. Complete Planet vznikl jako platforma pro testování DQM. BrightPlanet proslula především již zmiňovanou studí Michaela Bergmana, na kterou se na svém webu stále odvolávají i přesto, že byla zpochybněna její metodologická stránka. Společnost na svých stránkách uvádí, že rozdíl mezi DQM a CompletePlanet.com a jiných vyhledávačů spočívá v tom, že na webu 122 http://www.completeplanet.com 53

CompletePlanet (a jiných) není možné sdílet a manipulovat s výsledky vyhledávání, zatímco DQM toto umožňuje. 123 Obr18: Vyhledávací rozhraní CompletePlanet. Zdroj: Brightplanet.com Na úvodní stránce je zobrazena tématická struktura. V kategorii Finance & Economics je zařazeno zhruba tisícovka databází, ale v podkategorii Stock Market je jich pouze 19 - každá hlavní kategorie totiž obsahuje podoblasti, které vás tematicky navedou. Lze tak vyhledávat klíčová slova přímo v dané kategorii. Pokud nevíme, jaké téma chceme prohledávat, vyzkoušíme možnosti rozšířeného vyhledávání. Můžeme tak hledat v textech, názvu nebo popisu toho kterého dokumentu či podle klíčových slov. Můžeme si vybrat aktuální dokumenty, stejně jako zdroje staršího data. Dostaneme se k velmi hodnotným dokumentům v takových databázích, které nemohou být indexovány vyhledávači povrchového webu, a přitom mají nemalý potenciál pro vědu a výzkum. 123 http://aip.completeplanet.com/ 54

5-3 Databáze v hlubokém webu V této kapitole si na případových studiích představíme databáze, které zpřístupňují hluboký web. Svou pozornost upřeme na nejvýznamnější zdroje odborných informací. Hodnotícím kritériem výběru níže uvedených databází byla právě užitečnost pro akademickou sféru všechny zdroje mají potenciál ve vědě a výzkumu. 5-3-1 Intute Jedná se o víceoborovou databázi. Intute je on-line akademická brána, která zdarma zpřístupňuje nejlepší webové informační zdroje pro výuku a výzkum v přírodních, technických a hlavně společenských vědách. Jedná se o projekt britských univerzit a jejich partnerských organizací. Všechny odkazy na výhradně kvalitní a prověřené zdroje jsou navíc doplněny o stručný komentář. Dimenze ekonomických věd je v Intute velmi silně zahrnuta. Intute představuje vynikající nástroj, s jehož pomocí snadno objevíme ty nejlepší internetové zdroje. V současné době obsahuje Intute 123 106 záznamů. 124 Projekt Intute byl spuštěn v polovině roku 2006, aby navázal na iniciativu Resource Discovery Network (RDN). Od začátku bylo hlavním cílem Intute zajistit vyučujícím, výzkumníkům a studentům přístup ke kvalitním internetovým zdrojům. Jádrem projektu Intute je konsorcium sedmi významných univerzit. Intute byla založen organizací JISC 125 s podporou dalších dvou organizací. 126 Mezi partnerské instituce Intute však patří všechny nejvýznamnější univerzity a výzkumná střediska ve Velké Británii. 127 Intute nabízí řadu užitečných nástrojů a služeb, z nichž ty nejzajímavější si nyní v abecedním pořadí - stručně představíme. AHRC Projekty (Arts and Humanities Research Council) spadají do oblasti humanitních věd. Jedná se o velmi obsáhlý katalog vědeckých projektů, které mají vlastní webovou stránku. AHRC katalog shromažďuje pouze informačně hodnotné zdroje, které musely projít náročným výběrem. Jelikož se jedná o katalog, jsou jednotlivé zdroje přehledně roztříděny dle vědecké kategorie (například History and Philosophy and Science) či geografického zaměření (German, Slavonic). Po rozkliknutí kategorie se 124 http://www.intute.ac.uk/ 125 Joint Information Systems Committee 126 Jednalo o Arts and Humanities Research Council (AHRC) a Economic and Social Research Council (ESRC) 127 Seznam partnerů je na adrese http://www.intute.ac.uk/partners.html 55

dostaneme k výpisu zdrojů se stručnou anotací a přímým odkazem k danému zdroji. Další službou jsou Electronic Journals, která zahrnuje vzrůstající počet on-line a volně dostupných elektronických časopisů nejen z oblasti humanitních věd. Výčet zdařilých služeb v nabídce Intute doplňují také moderní blogy s novinkami v jednotlivých vědních sférách a výpisy nejnovějších RSS zdrojů. Za zmínku stojí rovněž agregát novinek z nepřeberného množství odborných serverů Intute Newsround, který sbírá titulky aktuálních článků z tisíců zdrojů po celém světě. Ty jsou aktualizovány každou hodinu a jsou též plně prohledávatelné. Tato agregační služba je velmi užitečná v případě, že hledáme horká a aktuální témata. Obr 19: Hlavní stránka Intute. Zdroj: www.intute.co.uk Kromě užití funkce vyhledávání lze databázi zdrojů v Intute procházet podle oborů. Ty jsou řazeny abecedně, a jelikož každý zdroj byl zatříděn podle předmětového hesláře sestaveného odborníky, je procházení velmi intuitivní a přehledné. Intute Další vzdělávání (Further Education Database, FE Database) je on-line služba, která zdarma zpřístupňuje ty nejlepší zdroje na webu. Specialisté jednotlivých oborů vybírají a kategorizují webové stránky obsažené v databázi Intute a přidávají popis každého zdroje. FE databáze nyní obsahuje více než 4000 záznamů. 128 Kromě možnosti přímého vyhledávání klíčových slov můžeme použít také procházení podle oborů. Pokud by nestačilo hledání v základní databázi, Intute nabízí službu Harverster. Ta prochází více zdrojů, ale v popisu služby je uvedeno, že obvykle vrací výsledky v horší kvalitě, neboť některé zdroje nemusí být evaluovány pracovníky Intute. Harverster je v podstatě 128 Tento počet se však neustále rozrůstá 56

vyhledávací software, který indexuje všechny zdroje obsažené ve všech databázích Intute, které jsou aktualizovány každý měsíc. Kvantita v tomto případě ovšem neznamená kvalitu. Zatímco zdroje v základním databázi jsou ručně ověřené a jako přidanou hodnotu nabízejí přídavný popis od knihovníků, zdroje v obsáhlejší databázi Harvesteru přebírají popis automaticky přímo z daného zdroje. Z tohoto důvodu Intute negarantuje kvalitu nalezených výsledků. Intute zpřístupňuje hluboký web zajímavým způsobem pomocí softwaru Intute - Include, který si kdokoli může nainstalovat na svůj webový server. Tato služba může být zajímavá pro knihovny, neboť umožňuje umístění přizpůsobeného vyhledávacího okénka na jejich stránky a výsledky vyhledávání jsou vráceny tamtéž. Výhodou této služby je fakt, že jde dokonale přizpůsobit jak vzhled a funkce vyhledávacího formuláře, tak i podoba výsledků jednotnému lokálnímu HTML či CSS stylu výchozí stránky. Obr 20: Ukázka přizpůsobeného vyhledávacího okna. Zdroj: www.intute.co.uk Intute na svém webu vybízí k používání nástroje OpenSearch, což je otevřený XML formát, který je používán na tvorbu vyhledávacích modulů do webových prohlížečů. Jeho vývoj zahájila a nadále podporuje firma Amazon. 129 Autor webu, který obsahuje možnost vyhledávání, může jednoduše vytvořit vlastní modul ve formátu OpenSearch, vystavit jej na svém webu a dát tak uživatelům možnost, aby si jej přidali do svého webového prohlížeče. Tím jim bude zpřístupněno vyhledávání na daném webu či službě. 130 Web je obrovský prostor, a jak už bylo několikrát zmiňováno, tradiční vyhledávače sbírají jen malý počet excelentního 129 http://www.opensearch.org/ 130 Open Search. In Wikipedie: Otevřená encyklopedie [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: < http://cs.wikipedia.org/wiki/opensearch >. 57

obsahu. A různé druhy obsahu vyžadují různé druhy vyhledávačů. OpenSearch obsahuje sadu specifikací, mezi něž patří dva nejdůležitější: OpenSearch Descriptions a OpenSearch Response, které slouží k popisu vyhledávacího stroje a k popisu nalezených výsledků. V základním vyhledávání Intute podporuje operátory booleovské logiky (AND, OR, NOT). Mezi termíny je standardně použit operátor AND. Zástupný znak je *, který v hledaném výrazu nahradí libovolný řetězec. V pokročilém hledání si v rozbalovacím menu můžeme vybrat, ve kterých polích (všechna pole, titul, popis, klíčová slova), ve kterých vědních oblastech (např. pouze v Social sciences) a v jakých zdrojích (blogy, případové studie, e-books) bude Intute hledat. Výsledky se zobrazí buď abecedně nebo podle relevance. 5-3-2 Infomine Infomine 131 je virtuální knihovna internetových zdrojů, které jsou relevantní pro akademickou sféru. Za vznikem této kolekce stojí úsilí knihovníků převážně z University of California, Wake Forest University, California State University a z University of Detroit. Při vývoji Infomine byl vůbec poprvé použit ivia Virtual Library Software, což je volně šiřitelný program pro portály a virtuální knihovny. 132 Infomine nabízí bohaté možnosti vyhledávání a procházení rozsáhlé kolekce zdrojů. Mezi její charakteristické vlastnosti patří popisy zdrojů na dvou úrovních, automaticky a knihovníkem. 133 Digitální knihovna Infomine obsahuje více než 120 000 akademicky hodnotných zdrojů a zpřístupňuje různé druhy dokumentů (periodika, referenční zdroje, e-booky, diskusní skupiny atd.). Odborníci na konkrétní oblasti průběžně doplňují odborné dokumenty o nové a rozšiřují tak kolekci zdrojů. Například oblast Business and Economics zahrnuje mnoho odvětví, z nichž za všechny lze jmenovat např.: finance, bankovnictví, management, podnikání, marketing, lidské zdroje, účetnictví, národní hospodářství, environmentální ekonomie, mezinárodní obchod, veřejné finance atd. Záznamy uložené v Infomine jsou jak placené, tak i zdarma. Možnost výběru pouze neplacených informaci je ve vyhledávacím formuláři. 131 www.infomine.com 132 http://ivia.ucr.edu/ 133 BARTOŠEK, Miroslav. Od SE k Digitálnim knihovnám [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: < http://www.ics.muni.cz/mba/eiz/eiz7.pdf>. 58

Databáze ejournals periodicals serials news letters database, data set, time series image- base directories virtual libraries, search engines reference resources instructional uses, textbooks, manuals, courses, curriculum teaching books etexts, text archives maps & mapping digital libraries, eprint/ preprint archives Biological, Agricultural &Medical Sciences7569 2624 1899 631 407 364 491 480 610 63 Business Economics 3036 1829 365 291 170 173 73 74 45 16 Cultural Diversity 1246 788 97 75 53 50 71 48 47 17 Ejournals 17875 16327 681 140 96 240 194 114 34 49 GovernmentInformation 7121 1662 1621 1339 571 260 298 252 1055 63 Maps & GIS 2780 119 419 131 76 68 55 66 1818 28 PhysicalSciencesEngineeringComputing &Math 5708 2538 1028 357 275 387 271 223 496 133 SocialSciences& Humanities 9684 4398 960 845 734 753 587 839 297 271 Visual &PerformingArts 1840 493 361 222 186 159 130 184 45 60 Celkem 16826 5330 2848 1948 1888 1525 1732 2979 478 Tabulka 6: Rrozložení zdrojů podle oborů. Zdroj www.infomine.com Infomine obsahuje databázi více než 16 000 elektronických časopisů, které zahrnují webové magazíny, volně přístupné časopisy a newslettery. Všechny zdroje jsou pečlivě kontrolovány vzhledem k jejich relevanci pro akademické účely. Pro přístup k těmto materiálům často záleží na tom, jestli má daná univerzita zaplacen přístup, jestli je nějaké omezení pro vybrané IP adresy a jestli požadovaný zdroj umožňuje využití proxy serveru pro pohodlný přístup k informacím mimo doménu té které univerzity. Infomine rovněž obsahuje vyhledávací rozhraní, které kombinuje klasické vyhledávací nástroje (s využitím Google, AltaVista, AllTheWeb a HotBot) a metavyhledávací rozhraní. To používá nejen MetaCrawler, který dotazy přeposílá do About.com, AltaVista, DirectHit, Excite, Google, GoTo.com, Infoseek, Looksmart, Lycos, Realnames, Thunderstone a Webcrawler, ale také Vivisimo využívající Ask Jeeves, Yahoo!, Lycos, HotBot a další. Vyhledávací rozhraní 59

kromě toho obsahuje záložku Subject indexes. Po jejím rozkliknutí můžeme prohledávat indexy takových prestižních katalogů internetových zdrojů, jako jsou BUBL, Librarians' Index to the Internet, Open Directory a National Science Digital Library. Infomine dále nabízí přímé vyhledávání v mailingových seznamech a diskusních (diskutujících) skupinách. K tomu používá CyberFiber, kterážto služba prohledává více než 120 000 zdrojů 134 a Google Groups. Infomine využívá předmětové třídění dle hesláře LCSH (Library of Congress Subject Headings) a klasifikaci LCC (Library of Congress Classifications). Obr 21: Hlavní stránka Infomine. Zdroj: www.infomine.com Infomine třídí obsah na základě cílové skupiny. Tuto vlastnost lze také zahrnout při zadávání vyhledávacího dotazu. Tzv. Audience level odkazuje na skutečnost, že různé zdroje mají různou hodnotu pro různé skupiny uživatelů. Akademické zdroje jsou nejužitečnější pro výzkumníky a vysokoškolské studenty, zatímco jiné zdroje jsou vhodné pro školáky a jejich učitele. Základní vyhledávání funguje na bázi přednastaveného formuláře, kde lze vyhledávat podle autora, názvu, popisu a předmětového hesla. Hledat lze samozřejmě také klíčová slova a můžeme využít též plnotextové hledání. Rovněž si můžeme určit způsob zobrazení výsledků a vyhledávání omezit na (ne)placené zdroje a záznamy vytvořené experty s využitím či bez pomoci robotů. Infomine uvádí, že záznamy vytvořené ručně jejich experty nabízejí tu nejvyšší kvalitu, ale relativně malý počet desítky tisíc. 135 Automaticky vytvořené záznamy mají kvalitu horší, ale představují větší počet milióny. Hledání může do jisté míry usnadnit také možnost výběru druhu 134 http://www.cyberfiber.com/ 135 Podle informací na webu Infomine 60

zdroje, chceme-li abstrakty, databáze článků, společnosti, digitální knihovny, elektronické knihy či magazíny, preprinty, patenty atd. Možnosti zobrazení výsledků jsou již v základním vyhledávání uživatel si může vybrat, zda chce zobrazit pouze tituly nebo plný popis, třídit výsledky podle relevance a abecedně dle titulů, případně kolik výsledků se má zobrazit na jednu stránku (30 / 50 /100). V pokročilém vyhledávání lze navíc vybrat i danou oblast a kategorii (například ekonomické, sociální nebo humanitní vědy). Ve vyhledávání můžeme použít booleovské operátory, zástupné znaky (*) a konkrétní fráze v uvozovkách. Celou kolekci lze také procházet vybráním určité oblasti z hlavní stránky Infomine. Uživatel si vybere oblast zájmu a danou kategorii může procházet podle předmětu, klíčových slov, jmen autorů, údajů z názvů a též podle druhu zdroje. V procházení jednotlivých položek jde určit, zda chceme zobrazit pouze expertní záznamy, vybrané ručně odborníky, nebo automaticky indexované zdroje. 5-3-3 Scirus 136 Vyhledávač Scirus nabízí odborné informace, které nejsou dostupné prostřednictvím běžných vyhledávačů. Scirus nyní prohledává více než 450 miliónů 137 webových stránek obsahujících výhradně vědecké a prověřené informace. K vyhledání výzkumných zpráv, článků, knih, diplomových prací, disertací, patentů, preprintů a časopisů využívá Scirus řadu uznávaných databází, digitálních knihoven a repozitářů. Protože Scirus zpřístupňuje opravdu vyčerpávající množství informací, doporučuje se vyzkoušet možnosti pokročilého vyhledávání, které vám umožní pracovat s menším počtem relevantnějších výsledků z určitého vědního oboru (ekonomické a společenské vědy). Scirus byl vyvinut nizozemským vydavatelstvím Elsevier za účelem oddělit informace relevantní pro vědu, výzkum a vzdělávání od ostatního obsahu webu. V roce 2001 a 2002 byl Scirus vybrán službou Search Engine Watch jako nejlepší speciální vyhledávač a získal i ocenění WebAward 2004. 138 Scirus dále v roce 2007 získal prestižní cenu "Best Specialty Search Engine" od asociace WMA. 139 Scirus je poháněn vyhledávací technologií Fast Search & Transfer (FAST), která funguje na bázi vertikálního (nebo také tématického) hledání. Scirus je založen na modelu paralelního vyhledávání ve volně přístupných webových zdrojích a zdrojích pro registrované uživatele (v tomto případě zdrojů informací odborného charakteru). 140 Zaměřuje se na zdroje s výhradně vědeckým obsahem a indexuje je. Vyhledávání je založeno na principu obrácené pyramidy. Základ obsahuje 136 www.scirus.com 137 Údaj z 12.4.2008. V červenci 2007 to bylo 415 miliónů stránek. 138 VÍTŮ, Martin. Google Scholar se rozvíjí - má Scirus konkurenci? Ikaros [online]. 2005, roč. 9, č. 3 [cit. 2008-04-12]. Dostupný na WWW: <http://www.ikaros.cz/node/1871>. ISSN 1212-5075. 139 Web Marketing Association 140 VOJTÁŠEK, Filip. Online služba Scirus indexuje volně přístupné webové a komerční zdroje. Ikaros [online]. 2001, roč. 5, č. 9 [cit. 2008-04-12]. Dostupný na World Wide Web: <http://www.ikaros.cz/node/817>. ISSN 1212-5075. 61

seed list s manuálně kontrolovanými URL. Scirus dále používá robota, který ovšem neprochází web jako klasické vyhledávače pomocí hypertextových dotazů, ale zaměřuje se pouze na weby s vědeckým obsahem. Pokud například prochází stránku www.newscientist.com, soustředí se pouze na zdroje v této doméně a ignoruje odkazy, které nejsou v seed listu. Robot prochází weby s akademickým obsahem a hledá nové dokumenty a aktualizuje ty stávající. Dokumenty jsou následně shromážděny v Indexu. Zatímco se tak děje, Scirus nahrává a doplňuje data ze specifických zdrojů z partnerských projektů (OAI Open Archive Initiative). 141 Tyto zdroje v současnosti zahrnují arxiv.org, NASA, CogPrints, Project Euclid a různé servery s preprinty. Další fází vyhledávání je klasifikace, která má za úkol rozčlenit dokumenty do některé z 20 disciplín - tematických oblastí (Medicína, Fyzika, Sociologie atd.) a podle druhu dokumentu (článek a pod.). Po dokončení fáze klasifikace je index zdrojů připraven k prohledávání. Vrací výsledky jak z celého webu, tak ze zdrojů s omezeným přístupem, která spadají do oblasti hlubokého webu. 142 Obr 22: Hlavní stránka Scirus. Zdroj. www.scirus.com Základní vyhledávání podporuje možnost použití operátorů AND, OR, NOT. Na výběr je možnost hledání v preferovaných zdrojích a podle přesné fráze. S výsledky lze dále pracovat, například zmenšit počet záznamů podle nalezených klíčových slov a omezit záznamy dle typu zdroje. Pokročilé vyhledávání v jednotlivých polích (nabízí se možnost prohledání kompletní dokumentů, názvů článků, názvů časopisů, klíčových slov, ISSN) se též řídí booleovskou logikou a výsledky se dají omezit podle data, typu informace a požadovaného formátu (PDF, Word a pod.). Dále je možné určit preferované zdroje, a to jak databáze, tak 141 http://www.openarchives.org/ 142 http://www.scirus.com/press/pdf/whitepaper_scirus.pdf 62

webové archivy. Zástupným znakem je *. Výhodné je vybrat konkrétní vědní oblast, například Economics, Business and Management, potažmo další. Výsledky jsou tříděny jako internetové zdroje, zdroje časopisů a podle relevance či data. 5-3-4 DOAJ - Directory of Open Access Journals DOAJ zdarma zpřístupňuje plné texty vědeckých a odborných článků z celého světa. Kvalita obsahu adresáře je zaručená, protože ještě před zařazením zdroje do databáze jsou časopisy a jejich obsah ověřeny odborníky na konkrétní vědní obory. Adresář DOAJ pokrývá všechny vědecké oblasti ve všech světových jazycích. V současné době zpřístupňuje 3 340 časopisů, z čehož 1 127 časopisů je prohledávatelných na úrovni článků. Služba DOAJ celkem zahrnuje 181 342 článků. 143 Myšlenka vytvoření databáze volně přístupných vědeckých časopisů byla poprvé diskutována na First Nordic Conference on Scholarly Communication v Lundu (Copenhagen) v roce 2002. 144 Motorem vzniku tohoto adresáře byl jasný závěr: vznik takové databáze by byl mimořádným přínosem pro vědeckou a vzdělávací komunitu na celosvětové úrovni. Cílem iniciativy DOAJ je zviditelnění všech volně dostupných vědeckých časopisů a zároveň zvýšení jejich využitelnosti ve všech sférách vědy a výzkumu. Časopisy procházejí systémem kontroly kvality, aby byl garantován vědecký obsah. Projekt DOAJ je financován příspěvky z několika institucí, jako jsou například Open Society Institute (http://www.osi.hu/infoprogram/), SPARC (http://www.arl.org/sparc/), SPARC Europe (http://www.sparceurope.org/), BIBSAM (http://www.kb.se/bibsam/) a Axiell (http://www.axiell.se/). Kromě toho projekt sponzoruje Univerzita v Lundu, Švédská národní knihovna a EBSCO. Podle definice Open Access Journals se jedná o volně dostupné časopisy, které uživatel může stahovat, kopírovat, distribuovat, tisknout, prohledávat a může také odkazovat na plné texty článků. 145 Výběrová kritéria zahrnují několik bodů, z nich za všechny můžeme jmenovat pokrytí. Musí se jednat o akademický (vědecký) obsah, typem zdroje musí být periodika, která publikují plné texty odborných článků. Mezi akceptované zdroje patří periodika z akademického, vládního, komerčního a neziskového sektoru, přičemž cílovou skupinou těchto časopisů musí být primárně vědecko-výzkumná komunita. Veškerý obsah v adresáři DOAJ musí být zdarma přístupný, přijatelná je pouze bezplatná registrace uživatelů. Na články zařazené v databázi DOAJ se nesmí vztahovat žádné informační embargo. Všechna periodika v DOAJ by měla mít vlastní ISSN (International Standard Serial Number, http://www.issn.org). Pokud je do databáze přidán nový zdroj, je ihned zkatalogizován na úrovni nadpisu článku. Aby byl obsah nově přidaného periodika prohledávatelný, musí obsahovat metadata, která zadává (a za která je 143 www.doaj.org 144 http://www.lub.lu.se/ncsc2002 145 Budapest Open Access Initiative [online]. [cit. 2008-04-12]. Dostupné na WWW: <http://www.earlham.edu/~peters/fos/boaifaq.htm#openaccess> 63

odpovědný) vlastník časopisu. K identifikaci dokumentů využívá DOAJ dobře etablovaný systém DOI. Dle definice je DOI prostředek pro trvalou identifikaci a propojení dokumentů (objektů), na které se vztahuje intelektuálního vlastnictví. Identifikuje především objekt samotný, nikoliv jeho umístění na síti. Vzhledem k tomu, že se vztahuje k obsahu dokumentu, nikoliv k jeho formě, je DOI údaj shodný pro dokumenty zpřístupňované současně v různých formátech (např. PDF, HTML apod.). Liší se rovněž od dalších běžně používaných identifikátorů, jako jsou např. ISBN, ISRC apod., neboť je navázán na určité služby a sám funguje na síti jako prostředek, jehož cílem je poskytovat uživateli určitou službu (např. lokalizovat dokument). DOI pro konkrétní objekt vypadá např. takto: 10.1007/s00203-002-0481-8 (článek z časopisu nakladatelství Springer). Ve spojení se zprostředkující službou (http://dx.doi.org/10.1007/s00203-002-0481-8) přesměruje prohlížeč na dokument nalézající se na síti. 146 Obr.23: Rozhraní adresáře DOAJ. Zdroj: www.doaj.org Hledání v DOAJ je velmi pohodlné. Pokud víme, co hledáme, můžeme využít abecední výpis všech titulů. Práci s tímto zdrojem nám dále do velké míry usnadní využití vyhledávacího rozhraní. V základním vyhledávání je možné přímo z hlavní stránky vyhledat časopisy na základě klíčových slov a procházet je podle jména v abecedním pořádku nebo podle vědního oboru. Ve výsledcích se zorientujeme snadno kliknutím na nalezený záznam se dostaneme k plnému textu článku v elektronické podobě. V případě pokročilého vyhledávání se dají články najít jednoduše tak, že v sekci Find Articles zadáme do polí několik klíčových slov oddělených operátory AND, OR, NOT. Více než dvě slova jsou 146 TDKIV Česká terminologická databáze z oblasti knihovnictví a informační vědy [online]. c2008 [cit. 2008-04-12]. Dostupné na WWW: <http://sigma.nkp.cz/f/?func=file&file_name=finda&local_base=ktd>. 64