Vyhledávání informací v prostředí webu mírný pokrok v mezích zákona



Podobné dokumenty
Vilém Sklenák Inforum2009,

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

PRODUKTY. Tovek Tools

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

PRODUKTY. Tovek Tools

Sémantický web 10 let poté

Vizualizace v Information Retrieval

PRODUKTY Tovek Server 6

Quo vadis, vyhledávání (na webu)?

co uživatel? Vilém Sklenák Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství

Uživatelská podpora v prostředí WWW

Rub a líc vyhledávačů aneb jejich odvrácená tvář

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Web 2.0 vs. sémantický web

Vyhledávání na Internetu

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Vyhledávání nebo nalezení informací

Základní informace o světových, českých a čínských vyhledávačích, seznámení s RSS technologií

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Dobývání znalostí z webu web mining

Internet zdroj informací

Historie Internetu instalace prvního uzlu společností ARPA

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

Internetové vyhledávače

Web 2.0, Search 2.0 jak se to rýmuje?


Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Strategie a metody rešerší, které mohou vést k přidané hodnotě

Big data ukážou mapu, TOVEK řekne kudy jít

Využití informačních technologií v cestovním ruchu P1

Dozvíte se mimo jiné, jak přinutit internetový vyhledávač, aby našel přesně to, co potřebujete.

Dolování z textu. Martin Vítek

Studium informační vědy a znalostního managementu v evropském kontextu

Informační média a služby

NEJVYŠŠÍ SPRÁVNÍ SOUD

Po ukončení tohoto kurzu budete schopni:

Datová věda (Data Science) akademický navazující magisterský program

Znalostní systém nad ontologií ve formátu Topic Maps

C3 Vyhledávání na Internetu

Integrované vyhledávání v informačních zdrojích Národní lékařské knihovny - výzva 21. století

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

VY_32_INOVACE_IKTO2_0460 PCH

Z HISTORIE SPOLEČNOSTI

Vyhledávání informací

Webové stránky. 1. Publikování na internetu. Datum vytvoření: str ánk y. Vytvořil: Petr Lerch.

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Dokumentace k projektu Usnesení Zastupitelstva Obce

Informace pro uznávání předmětů ze zahraničních studijních pobytů (2016/17) Státnicové předměty navazujících magisterských studijních oborů

ROZHRANÍ PRO ZPŘÍSTUPNĚNÍ A PREZENTACI ZNALOSTNÍ DATABÁZE INTERPI UŽIVATELSKÁ PŘÍRUČKA

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

Produktový list. Firemní profily

InternetovéTechnologie

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

Vyhledávání a georeferencování map

Marketingové využití internetu

Učební osnovy pracovní

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

MBI - technologická realizace modelu

Masterský studijní obor datové & webové inženýrství

Využití metod strojového učení v bioinformatice David Hoksza

CZ.1.07/1.5.00/

Ontologie. Otakar Trunda

Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade

Jakub Klímek Zlín

Modulární systém dalšího vzdělávání pedagogických pracovníků JmK v přírodních vědách a informatice CZ.1.07/1.3.10/

Pojmenuje a ovládá základní funkce počítače, seznámí se s jednoduchou historií vývoje počítačů. Pojmenuje a ovládá základní funkce počítače

Indexování a vyhledávání matematických formulí

Produktový list. Firemní profily

III. Informační systém & databáze

Internet. základní služby VY_32_INOVACE_INT_17

InternetovéTechnologie

Jak vypadá opravdová discovery služba

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

Studijní informační zdroje

InternetovéTechnologie

Databáze Bc. Veronika Tomsová

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

Co je nového v aplikaci PaperPort 12?

Reaguje vyhledávání na potřeby uživatelů nebo tomu je naopak?

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Zpráva o zhotoveném plnění

Základní popis obsluhy lokalizačního serveru systému REX

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

VYHLEDÁVÁNÍ V NOVÉM PROSTŘEDÍ MEDVIK : ZÁKLADNÍ HLEDÁNÍ. Adéla Jarolímková Národní lékařská knihovna, referát metodiky a vzdělávání

CZ.1.07/1.5.00/

Produktový list. Firemní profily

Počítačové kurzy buildit

Inovace výuky prostřednictvím šablon pro SŠ

Řízení znalostí, týmová spolupráce a vyhledávání ve velkých a středních firmách

EndNote Web. Stručné informace THOMSON SCIENTIFIC

DoplněkCite While You Write pro aplikaci Microsoft Word

Sémantický web a extrakce

VYHLEDÁVÁNÍ INFORMACÍ obecné a specifické otázky

Nejčastější kladené dotazy

Inovace bakalářského studijního oboru Aplikovaná chemie

Transkript:

Vyhledávání informací v prostředí webu mírný pokrok v mezích zákona Vilém Sklenák * sklenak@vse.cz 1 Úvod Abstrakt: Nabídka služeb pro vyhledávání informací je v poslední době poměrně stabilizovaná. Rozšiřování funkčních možností jednotlivých služeb jde cestou postupných změn. Další zkvalitnění vyhledávání informací je očekáváno především v souvislosti s rozvojem technik a metod dobývání znalostí aplikovaných na textové dokumenty (text mining) a rovněž tak metod zohledňujících specifické rysy webu (web mining). Klíčová slova: vyhledávání informací, Internet, web, vyhledávací služby, trendy Vyhledávání informací v prostředí webu se stalo rutinní součástí života. S nostalgií můžeme vzpomínat na vzrušení při procházení stromů kategorií prvních předmětových katalogů nebo na nadšení z prvních fulltextově orientovaných vyhledávacích strojů. Je také pravda, že situace v oblasti vyhledávacích služeb je poměrně stabilizovaná v žebříčcích popularity kralují známé firmy, jako jsou Google, Yahoo, Seznam, Centrum, Atlas apod. Zdá se tedy, že doba revolučních změn typu nástupu služby Google, byla již před časem vystřídána dobou změn evolučních. Také trochu ochladla medializace růstu webu a růstu databází vyhledávacích strojů. Ještě před 2 3 roky pronikaly výsledky studií o velikosti webu (tehdy se poprvé začalo počítat v miliardách dokumentů) i na stránky renomovaných světových deníků, rovněž tak okamžik, kdy Google indexoval miliardu dokumentů, byl zaznamenatelný. Dnes Google indexuje více než 8 miliard dokumentů. Problém kvantity ztěžuje hledání kvality. Také proto se odvíjejí úvahy, proč nevyzkoušet metody dobývání znalostí, které již mají svou tradici v oblasti dat relačního typu. Proč nebrat do úvahy při vyhledávání informací také chování uživatele? A proto se jakoby najednou objevují text mining či web mining aj. Jinými slovy uživatelé webu mají naději, že se dříve nebo později dočkají vyhledávacích služeb kvalitativně jiného typu. Problém spočívá jen v tom, že nelze přesně říci kdy. Do té doby používejme současné vyhledávací nástroje. Možná lze říci, že funkčně toho nabízejí dokonce již dnes i více, než běžní uživatelé vědí 2 Co je nového? 2.1 Integrace vyhledávání Google Desktop Search Novým nápadem z laboratoří firmy Google je vytvoření jakési vyhledávací centrály, která umožní uživateli prohledávat různé typy dokumentů, které vznikají během každodenní práce: zprávy elektronické pošty (Outlook, Outlook Express), * Katedra informačního a znalostního inženýrství, Fakulta informatiky a statistiky, Vysoká škola ekonomická, nám. W. Churchilla 4, 130 67 Praha 3 1

soubory na lokálních discích nejen běžné kancelářské formáty (doc, ppt, xls, pdf), ale také multimediální formáty (hledá se v metadatech daného typu souboru), webové stránky v odkládacím prostoru webových prohlížečů (Internet Explorer, Mozilla, Firefox), a pomocí zásuvných modulů (plug-inů) také další proprietární formáty. Pro řadu uživatelů (zejména těch méně pořádných) může jít o užitečnou pomůcku, která sice neudělá v souborech pořádek, ale přesto dokáže rychle najít, co je právě potřeba. Instalace je velmi jednoduchá, nutnou fází je pak také indexování obsahu prohledávatelných objektů. Použití je velmi jednoduché aplikace se spouští v okně Internet Exploreru, vypadá na první pohled jako běžný Google, ale kromě upraveného loga je zde navíc volba pro lokální vyhledávání (Search Desktop). Vyhledávat lze buď jen lokálně, nebo volitelně mohou být výsledky lokálního vyhledávání integrovány do výsledků webového hledání viz obr. 1. Google Desktop Search není jedinou možností pro daný účel. Podobné funkce nabízejí rovněž konkurenční firmy: Yahoo Desktop Search, MSN Desktop Search nebo Copernicus Desktop Search aj. Obr. 1 2.2 Agregace informací ze zpravodajství Další typ informačního zdroje, který neunikl pozornosti vyhledávacích služeb, jsou zpravodajské servery. Typickým příkladem je Google News (http://news.google.com, viz 2

obr. 2). Myšlenka je velmi jednoduchá díky robotům agreguje zprávy z mnoha zpravodajských serverů (více než 4 500) a provádí jednak jejich shlukování do podoby rubrik (svět, USA, obchod a podnikání, věda a technika, sport, zábava a zdraví), jednak identifikuje zprávy věnované téže události (ukazuje se pak jedna zpráva s možností zobrazení všech ostatních). Uživatel tak získává na jednom místě aktuální přehled o dění. Kromě agregace je další podstatnou výhodou možnost vyhledávání. Pokročilé možnosti nabízejí řadu zajímavých filtrů jako je např. zdroj, nebo výskyt zprávy v čase. Růst obliby služby Google News je současně trnem v oku provozovatelům některých zpravodajských serverů. Nejdále v tomto směru zašla francouzská agentura AFP, která podala na firmu Google žalobu za porušování práv. V českém prostředí lze služby podobného typu označit: Nový den http://novyden.cz/ Právě Dnes http://pravednes.cz/ pro vyhledávání lze doporučit službu Morfeo http://morfeo.cz/ 2.3 Experimenty ze stáje Google Obr. 2 Aktivity firmy Google jsou velmi široké a lze s poměrně velkou jistotou říci, že většina každodenních uživatelů setrvává jen u jednoduchého nebo pokročilého vyhledávání. Ale přitom je tak zajímavé nahlédnout do laboratoře (http://labs.google.com). Co se třeba nabízí k vyzkoušení: Google Sets služba, která může poradit uživateli při výběru termínů. Do formuláře stačí vymezit předmětnou oblast pomocí termínů známých uživateli a pak si lze zvolit mezi malou a velkou množinou obsahově příbuzných termínů. Například v situaci dle obr. 3 byly nabízeny mj.: intelligent agents, indexing, natural language 3

processing, human computer interaction aj. Nabízené termíny lze okamžitě použít jako dotaz. Google Suggest jedná se rovněž o doporučující službu, která ale pracuje na odlišném principu. Doporučovaná slova jsou nabízena během psaní. Nejde jen o prosté dokončování rozepsaných slov, ale současně jsou nabízena další upřesňující slova. U každého doporučení je ihned vidět jeho četnost v databázi služby Google. V situaci dle obr. 4 se např. po zadání semantic nabízely formulace semantic web, semantics, semantics definition, semantic memory aj. Podle zveřejněných informací jedním z faktorů přispívajících k volbě doporučení je popularita dotazů (podrobněji viz služba Google Zeitgeist http://www.google.com/press/zeitgeist.html). Obr. 3 Obr. 4 3 Další vlivy 3.1 Text Mining Rostoucí počty dokumentů dostupných prostřednictvím webu, rostoucí počty nalézaných dokumentů, naléhavější potřeby rychlejšího získání informací z nalezených dokumentů to jsou jen některé faktory, které vyvolávají stále větší zájem o různé techniky pro klasifikaci, sumarizaci, shlukování, filtrování dokumentů nebo extrakci informací z dokumentů. Tento okruh problémů se obvykle označuje jako text mining (TM). Východiskem TM je známější data mining (DM, česky obvykle překládaný jako dobývání znalostí z databází ). Mezi základní úlohy DM patří mj. klasifikace, shlukování a predikce. Lze vidět velkou podobnost s cíli TM. Zásadní rozdíl však spočívá v typech dat. DM je určen pro data spíše relačního (tabulkového) typu typickým příkladem jsou bankovní transakce, měřené údaje o pacientech, data o prodejích apod. jinými slovy jde o strukturovaná data. Texty, a webové dokumenty nevyjímaje, jsou typicky nestrukturované, v lepším případě jsou semistrukturované. Na TM lze nahlížet jako na činnost skládající se ze dvou částí. První částí je předzpracování, kdy je vstupní dokument převáděn do určité mezilehlé podoby, se kterou se 4

provádí další zpracování. V této části je zpravidla ze vstupního dokumentu extrahován pouze text, který je následně převeden na stejný druh písma (velikost, font, zvýraznění). Vynechány jsou jakékoli obrázky nebo elementy prezentující informace v jiné než textové podobě. Naopak se obvykle zachovává struktura textu, která při následné analýze může napomoci kvalitnějšímu určení významu daných termů (základních objektů, s nimiž se provádí další zpracování). Pojem term nemá v TM pevně stanovený význam. Jedná se o základní prvek, s nímž probíhá zpracování, ale jeho tvar se může lišit podle metody, která ho využívá, např. věta při sumarizaci textu nebo jednotlivá slova (sousloví) při extrakci informací. Druhou částí TM je získávání znalostí, když znalosti nebo vzory jsou odvozovány z mezilehlé formy. V této části dochází podle účelu k analýze vygenerovaných termů a k rozhodovacímu procesu vedoucímu k požadovaným výsledkům zařazení dokumentu do kategorie, poskytnutí abstraktu dokumentu, naplnění tabulky daty, aj. 3.2 Web Mining Techniky a algoritmy TM jsou určeny pro texty libovolného původu, je lhostejno zda pocházejí webu nebo z databáze plných textů. Je ovšem pravda, že web představuje obrovskou výzvu, a proto jsou snahy o obecnější přístupy. Už také proto, že řada algoritmů, které fungují dobře v malém, selhává při aplikaci na nekonečný web. Nehledě k tomu, že ve vztahu k vyhledávání informací je web velmi inspirativní. Web Mining (WM) se proto obvykle dělí na tři oblasti (viz obr. 3): Web Content Mining aplikace technik TM na webové dokumenty, Web Structure Mining použití hypertextové struktury jako dodatečné informace (viz algoritmus PageRank používaný službou Google pro řazení výsledků vyhledávání), Web Usage Mining analýza chování uživatele při interakci s webovým serverem. 3.3 Web Intelligence Obr. 5 Web Intelligence (WI) je nově se rozvíjející oblast výzkumu a vývoje. Je vlastně kombinací interakce lidského myšlení a umělé inteligence se sítěmi a technologiemi. Růst webu a jeho informačního potenciálu zvýrazňuje poptávku po inteligentních systémech, jež budou na dotazy vracet smysluplné odpovědi. Studium WI zasahuje do různých oborů: matematika, psychologie, lingvistika a informační technologie. Pro podporu rozvoje WI bylo založeno mezinárodní konsorcium WIC (Web Intelligence Consortium). V rámci aktivit WIC bylo identifikováno 9 klíčových okruhů problémů (viz obr. 6 vlevo) a jedním z nich je rovněž vyhledávání informací. 5

Obr. 6 Z hlediska WI je současný web charakterizován jako infantilní a musí proto ještě dospět, aby jej bylo možno považovat za distribuované inteligentní prostředí. Výzkum v oblasti inteligentních systémů má dlouhou tradici. Je sice pravda, že některé vize o myšlení strojů, jež stály na počátku rozvoje umělé inteligence, se zatím nenaplnily, nicméně existuje řada metod pro získávání znalostí, pro strojové učení, pro odvozování znalostí apod., na něž lze navázat. Pro vyhledávání informací v prostředí webu bude dříve nebo později aktuální konceptuální extrakce informací, automatická kategorizace, vyhledávání informací založené na ontologii, multimodální vyhledávání, vícejazyčné vyhledávání apod. 4 Závěr Vyhledávací stroje se budou dále vyvíjet. Námětů na zlepšování kvality výsledků vyhledávání je a bude stále dost. Je zřejmé, že velké úsilí je věnováno tomu, jak začlenit do vyhledávání informaci také znalosti. Jinými slovy aktivit a výzkumných proudů směřujících k novým metodám vyhledávání informací je dostatek a jsou nadějným příslibem. Použitá literatura a WWW odkazy 1. BAEZA-YATES, Ricardo, CASTILLO, Carlos. Web Search [online]. [cit. 2005-03-25]. Dostupné na World Wide Web: <http://db.uwaterloo.ca/~tozsu/courses/cs856/w05/papers/ricardo- WebSearch.pdf>. 2. BERENDT, Bertina, HOTHO, Andreas, MLADENIC, Dunja, SOMEREN, Maarten van, SPILIOPOULOU, Myra, STUMME, Gerd. A Roadmap for Web Mining: From Web to Semantic Web [online]. [cit. 2005-03-25]. Dostupné na World Wide Web: <http://eprints.pascalnetwork.org/archive/00000841/01/roadmap.pdf>. 3. CURRAN, Kevin, MURPHY, Cliona, ANMESLEY, Stephen. Web Intelligence in Information Retrieval. Information Technology Journal [online], 2004, vol. 3, no. 2, s. 196 201. Dostupné na World Wide Web: < http://www.ansinet.org/fulltext/itj/itj32196-201.pdf>. 4. FŰRNKRANZ, Johaness. Web Mining. Darmstadt : TU Knowledge Engineering Group, 2004 [online]. [cit. 2005-03-25]. Dostupné na World Wide Web: <http://www.ke.informatik.tu- darmstadt.de/lehre/ss05/web-mining/web-mining-crc.pdf>. 5. GUPTA, G. C. Web Intelligence. In International Conference on Cognitive Systems. New Deplhi, 2004 [online]. [cit. 2005-03-25]. Dostupné na World Wide Web: <http://www.niitcrcs.com/iccs/iccs2004/papers/255%20g%20c%20gupta.pdf>. 6. RAO, Ramana. From IR to Seach and Beyond. ACM Queue[online], 2004, vol. 2, no. 3. Dostupné na World Wide Web: <http://www.ramanarao.com/papers/rao-2004-05-acmqueue.pdf>. 7. http://www.searchengineshowdown.com/ 8. http://www.searchenginewatch.com/ 6