AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.



Podobné dokumenty
Propojení virtuální knihovny s textovou databází AmphorA

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Služby Internetu. Ing. Luděk Richter

PRODUKTY. Tovek Tools

České internetové medicínské zdroje v Národní lékařské knihovně

E-NABÍDKA PARTNER.REDA.CZ

Strategie ochrany před negativními dopady povodní a erozními jevy přírodě blízkými opatřeními v České republice

Začínáme s Tovek Tools

Po ukončení tohoto kurzu budete schopni:

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Zpráva o zhotoveném plnění

S databázemi se v běžném životě setkáváme velmi často. Uvádíme běžné použití databází velkého rozsahu:

Modul MWA - Publikace a články

DISKUZNÍ DATABÁZE PRO ČLENY TNK

Sklady. Níže popsaný návod je určen pro uživatele s rolí Administrátor nebo Správce skladu. Přehled funkcí 2. Postup pro vytvoření nového skladu 2

PRODUKTY. Tovek Tools

The bridge to knowledge 28/05/09

Máte to? Summon jako základní vyhledávací nástroj NTK

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

Možnosti využití dat RÚIAN poskytovaných VDP pomocí webových služeb

IMPLEMENTACE A PROVOZ DISCOVERY SYSTÉMU UKAŽ NA UNIVERZITĚ KARLOVĚ. Mgr. Martin Ledínský, Univerzita Karlova , Praha, NTK

PRŮZKUMNÍK ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP)

2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

MBI - technologická realizace modelu

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Průzkumník IS DP. Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o.

Vzdělávací obsah vyučovacího předmětu

Postupy práce se šablonami IS MPP

Nápověda pro aplikaci Manuscriptorium Kandidátů (M-Can)

Znalostní systém nad ontologií ve formátu Topic Maps

EndNote Web. Stručné informace THOMSON SCIENTIFIC

DoplněkCite While You Write pro aplikaci Microsoft Word

DISTRIBUCE STANOVISEK K PRACOVNÍM DOKUMENTŮM CEN, CENELEC, ETSI, ISO a IEC. Návod pro zpracovatele úkolů mezinárodní spolupráce

WORKWATCH ON-LINE EVIDENCE PRÁCE A ZAKÁZEK

VYHLEDÁVÁNÍ V NOVÉM PROSTŘEDÍ MEDVIK : ZÁKLADNÍ HLEDÁNÍ. Adéla Jarolímková Národní lékařská knihovna, referát metodiky a vzdělávání

Specifikace požadavků. POHODA Web Interface. Verze 1.0. Datum: Autor: Ondřej Šrámek

METIS 2. T-WIST aplikace. uživatelská dokumentace

Tvorba kurzu v LMS Moodle

Část 1 - Začínáme. Instalace

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

RadioBase 3 Databázový subsystém pro správu dat vysílačů plošného pokrytí

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Manuscriptorium jako základ pro virtuální badatelské prostředí

KAPITOLA 2 - ZÁKLADNÍ POJMY INFORMAČNÍCH A KOMUNIKAČNÍCH TECHNOLOGIÍ

Publikování map na webu - WMS

Uživatelská dokumentace

VKLÁDÁNÍ, EDITACE, SPRÁVA ZÁZNAMŮ PUBLIKACÍ V ÚČTU RID POMOCÍ ENDNOTE WEB

Semestrální práce 2 znakový strom

ROZHRANÍ PRO ZPŘÍSTUPNĚNÍ A PREZENTACI ZNALOSTNÍ DATABÁZE INTERPI UŽIVATELSKÁ PŘÍRUČKA

Dobrý SHOP Popis produktu a jeho rozšíření

Popis funkcí webu s redakčním systémem, katedra 340

VY_32_INOVACE_IKTO2_0460 PCH

Databáze MS-Access. Obsah. Co je to databáze? Doc. Ing. Radim Farana, CSc. Ing. Jolana Škutová

Studijní informační systém KOS ikos přístup pro referenty

Praktické možnosti online vzdělávání pro knihovníky

Novinky v oblasti MIS a DashBordů. David Černý,

ODBORNÁ KNIHOVNA ČESKÉ POJIŠŤOVNY ONLINE SW ŘEŠENÍ AIP SAFE

Využití informačních technologií v cestovním ruchu P1

CZ.1.07/1.5.00/

Bibliografické databáze umění vyhledávat v záplavě pramenů relevantní informace

Metadata a Geoportál ČÚZK. Ing. Petr Dvořáček Ing. Bohumil Vlček Zeměměměřický úřad

Sociální síť informatiků v regionech České republiky

Vznik a vývoj DDI. Struktura DDI. NESSTAR Systém pro publikování, prezentaci a analýzu dat. PhDr. Martin Vávra, Mgr. Tomáš Čížek

DATABÁZE MS ACCESS 2010

UNIVERZITA PARDUBICE Fakulta elektrotechniky a informatiky Katedra softwarových technologií

PHOTO-ON Profesionální on-line správa fotografií

Kontingenční tabulky v MS Excel 2010

Paralelní vyhledávač MetaLib verze 3. Martin Ledínský Univerzita Karlova v Praze Ústav výpočetní techniky

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

Webové stránky. 1. Publikování na internetu. Datum vytvoření: str ánk y. Vytvořil: Petr Lerch.

Manuál Redakční systém

Nabídka internetového obchodu

Na vybraném serveru vytvoříme MySQL databázi. Soubory scratch.jpa, kickstart.php a en-gb.kickstart.ini nahrajeme na vybraný server.

SíťIT: Portál na podporu sociální sítě informatiků v ČR

Výpočetní technika. PRACOVNÍ LIST č. 9. Ing. Luděk Richter

Registr práv a povinností

Aktualizováno ke dni: DISKUSNÍ DATABÁZE PRO ČLENY TNK. Návod k použití. verze 1.1

Nastavení provozního prostředí webového prohlížeče pro aplikaci

Registr práv a povinností

Intranet jako podpora řízení dopravní firmy

PŘÍRUČKA UŽIVATELE. Připraveno společností Neit Consulting, s.r.o. Datum poslední aktualizace: Verze: 2.0

SADA VY_32_INOVACE_PP1

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Elektronické zdroje Národní technické knihovny

Administrace webu Postup při práci

Nephele systém. Akademie výtvarných umění v Praze. Ústav teorie informace a automatizace AV ČR, v.v.i. Ústav anorganické chemie AV ČR, v.v.i.

Veřejný dálkový přístup (VDP) Podpora editorům RÚIAN. Dana Pohanková

Souborný katalog ČR pro veřejné knihovny Veřejné knihovny pro Souborný katalog ČR

Informační systém pro vedení živnostenského rejstříku IS RŽP

Administrační systém

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

BUDOVÁNÍ DIGITÁLNÍ KNIHOVNY VUT V BRNĚ

Transkript:

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK. Václav Snášel, Jiří Dvorský, Petr Šaloun, Daniela Ďuráková VŠB Technická univerzita, 17. listopadu 15, 708 33 Ostrava Abstract Textová databáze AmphorA poskytuje informace s přidanou hodnotou týkající se informačních zdrojů na internetu. Propojení textové databáze virtuální knihovnou vytváří výkonný vyhledávač využívající spojení moderní technologie a tradičního popisu dokumentu. 1. Úvod Při tvorbě textové databáze AmphorA jsme se původně zabývali indexováním dokumentům, které jejich autoři připravili v textovém editoru, byl použit MS Word. Tyto dokumenty byly dostupné na lokálním pevném disku. Pro zvýšení informační hodnoty dodávaného produktu, bylo rozhodnuto zařadit do systému i zdroje dostupné na internetu a do textové databáze přidat i texty z různých URL. V tomto okamžiku jsme museli řešit dvě otázky: 1. kde vzít seznam vhodných URL adres, 2. stažení a uložení již stažených WWW stránek. Seznam smysluplných URL adres nám zcela logicky poskytla virtuální knihovna, dále zkráceně VK, jejímž cílem je shromažďovat hodnotné URL adresy. Stahování a ukládání WWW stránek bylo vyřešeno v rámci systému AmphorA. Textová databáze AmphorA obsahuje výkonný nástroj na stahování internetových stránek. Tyto stránky se stahují pouze v textovém formátu, protože ten je pro fulltextový vyhledávač zajímavý. Stažené stránky jsou ukládány ve formě XML dokumentů. Uložení stažených WWW stránek ve formě XML dokumentu umožňuje získat další informace pro indexování a prezentaci vyhledaného dokumentu. Stažená stránka je uložena ve tvaru XML dokumentu, který umožňuje k textu WWW stránky připojit další informace viz následující příklad. Příklad 1. <?xml version="1.0" encoding="windows-1250"?> - <DOCUMENT> - <HEADER> <HEADLINE>AGRITEC s. r. o., Šumperk</HEADLINE> <SOURCE>http://www.agritec.cz/</SOURCE> <DATE>11.1.2001</DATE> <TIME>2:5:55</TIME> <DESCRIPTION></DESCRIPTION> <STOPWORD>Ltd</STOPWORDS> </HEADER> - <DOC> 177

- <TEXT> <P>AGRITEC s. r. o., Šumperk</P> <P>http://www.vukrom.cz</P> <P>výzkum, šlechtění a služby s. r. o.,</p> <P>Šumperk</P> <P>AGRITEC</P> <P>Research, Breeding Services Ltd.,</P> <P>Šumperk, the Czech Republic</P> <P></P> <P>výzkum šlechtění </P> <P>služby profil firmy </P> <P>e-mail mapa</p> <P>on-line databáze genových zdrojů luskovin</p> </TEXT> </DOC> </DOCUMENT> AmphorA obsahuje pouze jednoduchý nástroj pro editaci indexovaných www stránek, proto je vhodné propojit Amphoru s jiným nástrojem, umožňujícím pohodlnou správu URL odkazů, jakou je virtuální knihovna. 1.1 Virtuální knihovny Pro usnadnění orientace v prostoru WWW (World Wide Web) byly vytvořeny vyhledávací služby, které jsou velice oblíbené a které jsou využívané většinou uživatelů Internetu. Virtuální knihovny spadají do kategorie předmětově orientovaných vyhledávacích služeb. V současnosti většina z nich nabízí i rozhraní umožňující hledání prostřednictvím klíčových slov. V tomto článku popisujeme spojení VK s plnotextovým systémem. Databáze VK jsou vytvářeny odborníky z řad profesionálních informačních pracovníků a knihovníků, kteří výběrem kvalitních zdrojů, připojením popisu a hodnocení podle přesně stanovených kritérií vytvářejí přidanou hodnotu poskytovanou virtuální knihovnou. Informační zdroje ve virtuálních knihovnách jsou zpravidla organizovány logicky, obdobně jako je tomu u tradičních informačních zdrojů, na jejichž tvorbě se informační profesionálové podílejí. Kromě kvalitního pořádacího systému nabízejí tyto služby uživatelům Internetu také odkazy na kvalitní informační zdroje. Definici pojmu VK obsahuje např. [1]. 2. Aplikace Virtuální knihovna Námi vytvořená virtuální knihovna uchovává záznamy obsahující základní informace o každém ze zadaných zdrojů, tj. jeho název, autory, URL adresu a jazyk spolu se stručným popisem, deskriptory a klíčovými slovy. Každý zdroj je jednoznačně určen svojí URL adresou. Vyhledávací služba virtuální knihovny je schopna poskytnout informace o všech zdrojích, které odpovídají vyhledávací podmínce. 178

Pro usnadnění přidávání, vyhledávání, modifikace, rušení a pro kontrolu aktuálnosti záznamů jsou k dispozici podpůrné nástroje. Celý databázový systém je přístupný z kteréhokoliv počítače připojeného k Internetu. Propojení virtuální knihovny s textovou databází AmphorA přináší uživateli další účinné možnosti při vyhledávání a zpracování elektronických informačních zdrojů v prostředí WWW. Propojení je definováno datově s využitím standardu XML. 3. Propojení VK a AmphorA Plnotextový nástroj AmphorA je s VK provázán výstupem v XML formátu. Systém AmphorA jsme popsali v [4]. Výstup v hlavičce určuje vlastnosti záznamu VK, mezi značkami <TEXT> pak obsahuje text odkazovaného dokumentu. Dokument obsahuje informaci o datu a času, umístění, klíčových slovech či stop-slovech. Umístění rozhoduje o případném budoucím přístupu k dokumentu. Lokální soubory budou dostupné jen v rámci intranetu. Textová část XML dokumentu může obsahovat celý text libovolného dokumentu. To nám při plnotextovém zpracování dává jistotu, že můžeme vyhledávat jak podle obsahu dokumentu, tak využít obsah záznamu položky VK a vyhledávat tedy s využitím přidané hodnoty záznamu ve VK. Dokument zpracovaný VK a Amphorou může být: 1. plně k dispozici, umístění v Intranetu, 2. k dispozici na Internetu, propojení jen přes URL po zaindexování zůstala jen hlavička, textový obsah je odstraněn; 3. odkaz je vyhledávacím nástrojem popsaným knihovníkem, další vyhledávání pak typicky využívá možností odkazovaného serveru (např. yahoo.com, www.springer.de apod.) Obsah XML (viz Příklad 1.) dokumentu je v systému AmphorA využíván v následujících subsystémech: vyhledávací, prezentační. Vyhledávací subsystém využívá informace ze sekcí DESCRIPTION a STOPWORDS. Tyto informace jsou v průběhu indexování připojeny k indexu dokumentu. Prezentační subsystém využívá informace ze sekcí HEADLINE, SOURCE, TEXT. HEADLINE je vypsán do hlavičky zobrazeného dokumentu. SOURCE umožňuje zobrazit zdrojový dokument. TEXT obsahuje textový tvar dokumentu ve kterém jsou vyznačeny slova relevantní pro daný dotaz. Položka TEXT může být prázdná, v tomto případě je jako vyhledaný dokument prezentován dokument z položky SOURCE. 179

4. Indexování www stránek Další možností propojení VK a systému AmphorA je možnost indexování www stránek. Indexování WWW stánek je možno provádět pomocí menu pro editaci WWW. Vzhled aplikace ukazuje obrázek 1. Položka menu Editace WWW adres slouží k editaci seznamu adres internetových serverů. Po zadání adres je možné automaticky stahovat stránky z uvedených serverů. V tabulce specifikujeme URL adresy, hloubku stromu stránek kam až se mají zkoumat odkazy ve stahovaných stránkách (hloubka nula znamená jen v tabulce specifikovanou stránku), omezení Site tj. stahovat stránky jen v rámci tohoto serveru, All stahovat i stránky z odkazů mimo daný server. Obr. 1: Rozhraní programu AmphorA pro virtuální knihovnu. Druhá položka v menu WWW je Stoplist WWW adres. V tomto okně je možno specifikovat URL adresy ze kterých se nemají stahovat žádané stránky, jako příklad si můžeme představit různé internetovské vyhledávače. Jejich stránky obsahují tisíce a tisíce odkazů prakticky kamkoliv a stahování takového množství stránek by zcela znehodnotilo ostatní data. Při stahování WWW stránek jsou jednotlivé odkazy na něž program ve stránkách narazí filtrovány přes tento seznam. Položka Volitelný text obsahuje seznam deskriptorů a stop slov jak bylo popsáno v předcházejících částech. 180

Tlačítko Import/Export umožňuje výměnu dat s virtuální knihovnou. Výsledkem stahování dokumentů jsou XML dokumenty jejichž struktura byla popsána v předcházející části. Na obrázku 2 uvádíme ukázku vyhledání v zaindexovaných www stránkách. 5. Závěr V navrženém a realizovaném databázovém systému určeném ke zpracování elektronických dat byly spojeny výhody virtuálních knihoven (záznamy o kvalitních zdrojích informací, s odborným popisem dodaným knihovníkem) spolu s výhodami vyhledávacích strojů (automatické vyhledávání) a textových systémů. Systém dále obsahuje automatickou kontrolu aktuálnosti dat. Popsaná VK je z větší části provozována Zemědělským výzkumným ústavem Kroměříž, s.r.o. Tato práce byla řešena na katedře informatiky FEI VŠB TU Ostrava jako součást grantu MŠMT INFRA2 č. LB98227. Tento příspěvek vznikl za částečné podpory grantu číslo 201/00/1031 Grantové agentury ČR. Obr. 2: Vyhledávání ve WWW stránkách. 181

Použitá literatura a www odkazy 1. Tkačíková, Daniela. Vyhledávací nástroje klíč ke zdrojům Internetu [online]. [cit. 20. 03. 2001]. Dostupné na World Wide Web: <http://knihovna.vsb.cz/>. 2. Chudoba, Petr. Virtuální knihovna. Diplomová práce, FEI VŠB TU Ostrava, 1999. 3. Pokorný Jaroslav, SNÁŠEL Václav, HÚSEK J. Dokumentografické informační systémy. Karolinum, skriptum MFF UK Praha, Praha 1998, ISBN 80-7184-764-X. 158 stran. 4. Snášel Václav, DVORSKÝ Jiří, ŠALOUN Petr, ĎURÁKOVÁ Daniela. Prostředky pro zpřístupnění a vyhledávání textových informací. Sborník z konference Tvorba softwaru 2000, ISBN 80-85988-49-6, s. 173-181. 5. http://www.vukrom.cz 6. Snášel Václav, DVORSKÝ Jiří, ŠALOUN Petr, ĎURÁKOVÁ Daniela. Propojení virtuální knihovny s textovou databází AmphorA. AKP 2001, v tisku. 182