Využití WWW jako efektivního informačního zdroje Jiří Jelínek jelinek@fm.vse.cz Fakulta managementu VŠE, J. Hradec Efektivní vyhledávání nacházení požadovaného s minimem úsilí a nákladů v knihovně: procházet dokud něco nenajdete procházet dokud zapomenete co chcete procházet dokud neprojdete všechno použití katalogu knihovny využití služeb někoho (něčeho), kdo ví, jak na to potřebné vybavení příprava a znalosti vyhledávací systémy jak se ptát
World Wide Web obsáhlost 6. 2004 cca 52 000 000 WWW serverů obsahová i formátová pestrost dokumenty, data, obrázky, video, atd. dynamika obsahu i stránek nespolehlivost absence sémantického popisu nízká strukturovanost neuspořádanost nevhodné pro strojové zpracování včetně vyhledávání dostupnost nejúspěšnější publikační medium všech dob Vyhledávací strategie přímý odkaz odvození URL z běžných zvyklostí http://www.firma.com online databáze oborové použití vyhledávacích systémů indexové systémy adresáře a předmětové katalogy integrované systémy výsledek do 12 minut
Vyhledávací systémy Indexové systémy stejně jako adresáře a katalogy se snaží vytvářet obraz WWW prostoru jsou data strukturována, uspořádána, indexována a centrálně spravována obraz (index) většinou tvořen automaticky roboti větší chybovost základem klíčová slova
Indexové systémy vhodné netypické a specifické zvláštní nebo málo frekventovaná témata témata na pomezí obvyklých oblastí či spadající do více oblastí vyhledávání specifických WWW stránek Centrální index Problémy definice dotazu aktualizace indexu hodnocení důležitosti a relevance stránek rozšiřitelnost rozdíly mezi systémy funkce, velikost pay-per-click (PPC) konstrukce a optimalizace WWW stránek schopnost ohodnotit nalezené výsledky Získáno K věci Použitelný výstup WWW Prostor
Adresáře a předmětové katalogy vyhledávání podle témat hierarchická navigace většinou konstruovány experty selektivnější, přesnější, spolehlivější (nefunkční URL) méně stránek, důraz na kvalitu před kvantitou není jednotné uspořádání v hierarchických strukturách vhodné zkoumání tématu zkoumání logicky svázaných stránek důraz na kvalitu stránek Integrované systémy podobná struktura jako u meta vyhledávačů přímá práce s WWW zdroji e-business Rozhraní Sběrač Sběrač Sběrač Zdroj 1 Zdroj 2 Zdroj n
Problémy heterogenní zdroje různé datové modely: relační, objektový různá schémata a formy zobrazení Keanu Reeves nebo Reeves, K. atd. omezené schopnosti vyhledávání méně schopností než indexové systémy vliv rozhraní paměť na dotazy Vyhledávací systémy indexové systémy Google (www.google.com) Alltheweb (www.alltheweb.com) HotBot (www.hotbot.com) AltaVista (www.altavista.com) Yahoo (www.yahoo.com) Seznam (www.seznam.cz) Atlas (www.atlas.cz) indexové metasystémy Metacrawler (www.metacrawler.com) DogPile (www.dogpile.com) předmětové katalogy About (www.about.com) Yahoo (www.yahoo.com) Quick (www.quick.cz) integrované systémy MySimon (www.mysimon.com) BizRate (www.bizrate.com)
Zvláštní schopnosti shlukování výstupů Vivisimo (vivisimo.com) důsledné užití logických operátorů GigaBlast (gigablast.com) hledání ve zvláštních strukturách WebLogs > Daypop (www.daypop.com) maillists > Topica (www.topica.com) životopisy > Biography (www.biography.com) věda > Scirus (www.scirus.com) přibližné hledání možnosti upřesňování Teoma (teoma.com) variantní rozhraní Soople (www.soople.com) práce s přirozeným jazykem Ask Jeeves (www.ask.com) speciální nástroje KartOO (www.kartoo.com) Hodnocení výstupů autoritativnost identifikace autora kvalifikace autora a vztah k tématu vazba na renomovanou instituci (URL) aktuálnost datum vytvoření poslední aktualizace funkčnost odkazů 0,6 0,5 0,4 0,3 0,2 obsah kolekce odkazů (rozcestník) nebo autoritativní stránka hloubka a pokrytí tématu nové poznatky korektnost a přesnost citace a odkazy na jiné zdroje (i klasické) kdo stránku navštěvuje meta popis struktura URL (TLD) název stránky META data struktura stránky com netorg edu gov 0,1 0 1day 1day- 1week- 1month- 4months 1week 1month 4months
Neviditelný Web WWW prostor nezachycený ve vyhledávačích a proto pro většinu uživatelů neviditelný neúmyslně rozsah WWW, neexistence odkazu úmyslně obecný či závadný obsah, dynamický web, eliminace podle nastavených pravidel indexováno max. cca 40% WWW prostoru cca 2 3 krát větší než viditelný Web Google k 23.6. 2004 indexuje 4 285 199 774 stránek Search Engine Optimization (SEO) Podpora koncového uživatele Web Mining - shromažďování a zpracování dat dostupných na WWW nebo dat generovaných v průběhu užívání webu predikce chování a zájmů uživatele založená na předem naučených pravidlech a uživatelských profilech Web Content Mining zpracování obsahu WWW stránek Web Structure Mining získávání informací ze struktury WWW prostoru Web Usage Mining analýza chování uživatele (clickstream analýza)
Sémantické vyhledávání význam stránek vs. klíčová slova zasazení pojmu (URL) do struktury podle významu definice vazeb taxonomie ontologie nutno popsat obsah stránek tak, aby nám stroje byly schopné pomoci v orientaci v nich metadata a XML multimediální sémantika Problémy existence jednotných a dostatečně obsáhlých pojmových ontologií ručně vs. učení WordNet (www.cogsci.princeton.edu/~wn/) doménové ontologie (medicína) Dublin Core Metadata Initiative (www.dublincore.org) ontologický popis současného WWW prostoru ekonomická náročnost a motivace pro úpravy sémantický popis stránek vs. sémantické vyhledávání nástroje pro vytváření sémantického popisu
Úloha knihoven orientace v heterogenním prostředí výběr vhodných nástrojů vyhledání relevantního obsahu konverze obsahu do vhodné podoby ti, kdo vědí (kde a jak) služby integrace obsahu (rešerše) individuální služby uživatelům správa a tvorba ontologií tvorba meta popisu Děkuji za pozornost Tato prezentace byla vytvořena s pomocí následujících materiálů: Search Engine Watch, Tips About Internet Search Engines & Search Engine Submission, http://searchenginewatch.com/ Search Engine Showdown, The Users' Guide to Web Searching, http://www.searchengineshowdown.com Netcraft: Growth in Hostnames, IP Addresses and Web Facing Servers 1999-2004, http://news.netcraft.com/archives/2004/06/15/growth_in_hostnames_ip_addresses_and_web_facing_serv ers_19992004.html Search Strategies, http://www.searchengineshowdown.com/strat/ Invisible-web.net - Searchable databases and specialized search engines, http://www.invisible-web.net/ KartOO visual meta search engine, http://www.kartoo.com/ Tempelman-Kluit N.: Searching the Web, http://www.nyu.edu/library/resources/instruct/searchingweb.ppt Search Engine Watch: Tips About Internet Search Engines & Search Engine Submission, http://searchenginewatch.com/ Cho J.: Searching the Web, UCLA Computer Science, http://oak.cs.ucla.edu/~cho/talks/2001/cs201.ppt Williamson J.: Sure-Fire Surfing: A Crash Course in Search Techniques, King Faisal School and Brown University Partnership, http://www.brown.edu/departments/iese/kfs/resource/internetsearchingforkfs.ppt Levene M.: Searching the Web, School of Computer Science and Information Systems, Birkbeck University of London, http://www.dcs.bbk.ac.uk/~mark/download/lec4_searching_the_web.ppt Bocher B.: Searching the Web Basic and Advanced www.dpi.state.wi.us/dltcl/pld/searching.html MacColl J.: What is the Semantic Web?, HILT Workshop, University of Strathclyde, 2001, http://hilt.cdlr.strath.ac.uk/dissemination/presentations/john%20mccoll.ppt Mazzocchi S.: Enabling Semantic Searching, http://www.betaversion.org/~stefano/papers/semanticsearching.ppt