Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz



Podobné dokumenty
Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

PRODUKTY Tovek Server 6

PRODUKTY. Tovek Tools

The bridge to knowledge 28/05/09

Programování a implementace Microsoft SQL Server 2014 databází

Úvod. Klíčové vlastnosti. Jednoduchá obsluha

PRODUKTY. Tovek Tools

Integrované řešení pro správu informací - Microsoft

Zpráva o zhotoveném plnění

Vyhledávání na portálu Knihovny.cz

Microsoft SharePoint Portal Server Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR

icc Next Generation atlantis Copyright 2011, atlantis

ABBYY Automatizované zpracování dokumentů

Univerzální vyhledávací portál jako integrační řešení pro digitální knihovny

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

SCOPUS a WEB OF SCIENCE

MBI - technologická realizace modelu

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

Oborová brána TECH tech.jib.cz

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

financnasprava.sk Portál Technologie Microsoft zjednodušují komunikaci občanů s Finanční správou SR a činí výběr daní transparentnějším.

Ukládání a vyhledávání XML dat

ISPOP. Integrovaný systém plnění ohlašovacích povinností v oblasti životního prostředí. Ondřej Kupča

Vzdělávací obsah vyučovacího předmětu

Zpětná vazba od čtenářů 11 Dotazy 11 Zdrojové kódy ke knize 11 Errata 11 Typografické konvence použité v knize 12

Jádrem systému je modul GSFrameWork, který je poskytovatelem zejména těchto služeb:

UDS for ELO. Univerzální datové rozhraní. >> UDS - Universal Data Source

IBM Content Manager Collaboration Edition ECM služby pro IBM Lotus Quickr

Enterprise Mobility Management

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Manuscriptorium jako základ pro virtuální badatelské prostředí

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

RadioBase 3 Databázový subsystém pro správu dat vysílačů plošného pokrytí

Ochranný svaz autorský zefektivnil svou činnost s produktem Webtica HelpDesk na platformě Microsoft

Big data ukážou mapu, TOVEK řekne kudy jít

Příloha č. 1. k zadávací dokumentaci veřejné zakázky DATOVÝ SKLAD. Technická specifikace

UŽIVATELSKÉ ŠKOLENÍ LOTUS NOTES

Projekt informačního systému pro Eklektik PRO S EK. Řešitel: Karolína Kučerová

Cloudové řešení pro ŠKODA AUTO

ERP: Integrační platforma ve výrobní společnosti. Ing. Tomáš Hanáček Dynamica, a.s.

Vyhledávání na Internetu

Semestrální práce: Mashup. Observatory Star Explorer

Experimentální systém pro WEB IR

Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery

NTK Discovery. Od katalogu k centralizovanému vyhledávání

DOCUMENT MANAGEMENT TOOLKIT

Počítačové kurzy buildit

Domino 10 nové komponenty a související témata (node.js, ES )

Máte to? Summon jako základní vyhledávací nástroj NTK

Portál úředníka. Lubomír Forejtek

Plutino Přehledná správa a sledování zakázek

Kde hledat odborné články?

VYHLEDÁVÁNÍ V NOVÉM PROSTŘEDÍ MEDVIK : ZÁKLADNÍ HLEDÁNÍ. Adéla Jarolímková Národní lékařská knihovna, referát metodiky a vzdělávání

Manažerský informační systém na MPSV. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý

Rozšíření systému na sledování státní a veřejné podpory pro Ministerstvo financí

Základní principy vyhledávání firem

Databázové systémy BIK-DBS

InternetovéTechnologie

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Centrální přístupový bod k informačním zdrojům resortu Ministerstva zemědělství Portál MZe a Portál eagri

Představuje. Technický Informační Systém nové generace

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

PROVOZOVÁNÍ PRIVATE CLOUD VE VEŘEJNÉ SPRÁVĚ

DODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM Č. 15

ve spolupráci s Zavádíme a provozujeme užitečné informační technologie v organizacích.

InternetovéTechnologie

Copyright 2001, COM PLUS CZ a.s., Praha

Microsoft Day Dačice - Rok informatiky

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320 M A T U R I T N Í T É M A T A P Ř E D M Ě T U

InternetovéTechnologie

Cloud Computing pro státní správu v praxi. Martin Vondrouš - Software602, a.s. Pavel Kovář - T-Systems Czech Republic a.s.

MMHK & Dynamica, a.s. Eliška Dimovová & Boris Bělousov

Úvod do FlexiBee REST API. Petr Ferschmann FlexiBee Systems s.r.o.

Tieto Future Office. Přehled. Země: Česká republika. Odvětví: Samospráva

PODNIKOVÁ INFORMATIKA

Efektivní ukládání a vyhledávání informací

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Business Intelligence

MIS. Manažerský informační systém. pro. Ekonomický informační systém EIS JASU CS. Dodavatel: MÚZO Praha s.r.o. Politických vězňů Praha 1

Doporučeno pro předpokládané využití serveru pro zpracování 2000 dokumentů měsíčně. HW: 3GHz procesor, 2 jádra, 8GB RAM

Co je (staro)nového v DSpace

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ DATABÁZOVÉ SYSTÉMY ARCHITEKTURA DATABÁZOVÝCH SYSTÉMŮ. Ing. Lukáš OTTE, Ph.D.

Připravte se na konjunkturu se systémem řízení údržby SGM. SGM moderní nástroj pro řízení údržby nejen výrobních zařízení

Aplikační podpora národní inventarizace kontaminovaných míst

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320

Excel a externí data KAPITOLA 2

Řízení znalostí, týmová spolupráce a vyhledávání ve velkých a středních firmách

Znalostní systém nad ontologií ve formátu Topic Maps

7. října 2008, Systémy pro zpřístupňování evškp Miroslav Křipač Michal Brandejs, Jitka Brandejsová, Jan Kasprzak, Martin Stančík

Technologická centra obcí ZKUŠENOSTI HOSTOVÁNÍ ŘEŠENÍ SPISOVÉ SLUŽBY

BPC 10.1 on HANA Classic. Ondra Klouček

Datová věda (Data Science) akademický navazující magisterský program

Jednorázová hesla pro zvýšení bezpečnosti vzdáleného přístupu mobilních uživatelů

Unified Communications. Customer Contact. Cisco Unified Contact Center Enterprise. Hlavní výhody. Způsoby nasazení

Transkript:

Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem k existenci řešení pro zajištění vysoce dostupných databází a robustních webových aplikací vzniká prostor pro vývoj dalších nadstavbových řešení, jako například inteligentní metody pro prohledávání. Zajímavé je sledovat vývoj ve vyhledávacích technologiích z rodiny Oracle, hlavně tedy Oracle Database a Oracle Aplikační Server a doplňující nadstavby, jako je Oracle Text a Secured Enterprise Search. Zkušenost s fulltextovými systémy získala společnost SEFIRA tím, že vytvořila nadstavbu nad produktem Oracle Text, která řeší velmi pokročile problematiku našich jazyků při fulltextovém vyhledávání a má již mnoho úspěšných instalací a implementací. Společnost SEFIRA se mnoho let zabývá fulltextovými systémy, implementací fulltextových nástrojů od společnosti Oracle, jejich vylepšováním a tvorbou nadstaveb. V článku se zabývám produkty Oracle Secured Enterprise Search a Oracle Text, a to z pohledu použití při vyhledávání. 1 Úvod V dnešní době má mnoho organizací potřebu vytvářet ucelený zdroj informací a umožnit svým pracovníkům rychle vyhledávat relevantní informace z rozmanitých datových zdrojů a zároveň chránit citlivé informace. Architektura takového zdroje informací vychází z klasické představy úložiště dat, vhodného indexování a v neposlední řadě vyhledávacího nástroje. Dále se objevuje tlak na bezpečné uložení informací, inteligentní výsledky vyhledávání a řeší se, jak sbírat zdrojové informace. Obrázek 1: Schéma systému poskytující informace

Do hry vstupuje kromě výkonu a způsobu práce s takovýmto zdrojem informací, také zpracování nestrukturovaných dat, fulltextové vyhledávání a přizpůsobení informací tak, aby zobrazovala uživatelům pouze ty výsledky vyhledávání, k nimž jsou oprávněni přistupovat. 2 Secure Search Organizace často řeší problematiku komplexního a bezpečného prohledávání veškerého intelektuálního kapitálu, který má uložen v aplikacích, na souborovém systému a dalších vlastních zdrojích,např. i na webu. Způsob, jak dostat informace do úložiště má několik následujících možností. Aplikace, kterou vytvoříme na míru pro prostředí organizace. Využijeme nástroje úložiště, které např. může číst data z externích datových zdrojů. Použijeme produkt, který umí napojit různé zdroje, respektuje bezpečnostní politiky a také je pružný při konfiguraci na vnitřní infrastruktuře organizace. Vytváření aplikace s sebou nese kromě míry chybovosti také komplikovaný způsob vývoje a nutnosti udržování znalostí o celém prostředí. Co se týká možnosti využití doplňujícího nástroje úložiště, disponuje Oracle databáze komponentou Ultra Search, která umožňuje prohledávat webové stránky, další databáze, mail servery a HTML. Architektura nástroje Ultra Search je postavena tak, že část řešení je uložena v databázi a část samostatně v aplikačním kontejneru. Obrázek 2: Ultra Search Společnost Oracle přichází v současnosti s dalším produktem Secure Enterprise Search 10g, jenž poskytuje uživatelům rychlý přístup k podnikovým informacím a zároveň zajišťuje dodržování podnikových zásad zabezpečení. Secure Enterprise Search 10g indexuje a vyhledává veřejný, soukromý a sdílený obsah na interních i externích webových serverech, v databázích, na souborových serverech, v úložištích dokumentů, v systémech pro správu podnikového obsahu, v aplikacích a na portálech. Jeho uživatelsky přístupná webová rozhraní vracejí vysoce relevantní výsledky s rychlou dobou odezvy. Secure Enterprise Search 10g se

přímo integruje s různými systémy ověřování uživatelů, uchovává index ve zvlášť odolném úložišti a pro přizpůsobení možností vyhledávání používá bezpečné programovací rozhraní. Obrázek 3: Použití Secure Search v organizaci Secure Search disponuje vyhledávací technologií, jež poskytuje výsledky přizpůsobené roli uživatele v organizaci. Téměř každá organizace udržuje svoji znalostní základnu, mohou to být technické dokumenty, smlouvy, webové portály, ale informace mohou být uloženy i v databázích. Bezpečný přístup k různým úložištím, formátům souborů, datům a obsahu je nezbytnou součástí. Stejně tak je důležité jednoduché ovládání, jediný bod přístupu a integrace s dalšími podnikovými aplikacemi. Organizace, které intenzivně pracují s informacemi, budou s rostoucím významem vyhledávání podnikových informací požadovat od vyhledávačů stejnou úroveň škálovatelnosti, spolehlivosti a globální podpory, jakou nyní očekávají od zbytku své infrastruktury IT. Obrázek 4: Architektura Secure Search

3 Oracle Text Společnost SEFIRA používá pro fulltextové systémy od svého počátku komponentu Oracle Text, která je součástí Oracle databáze. Ta funguje tak, že využívá standardní SQL dotazy pro práci s nestrukturovaným textem. Vyhledávací nástroje postavené na Oracle technologii, využívají pro analýzu textu komponentu Oracle Text, která může vykonávat lingvistickou analýzu na dokumentech, právě tak používání různé strategie včetně klíčových slov, kontextové dotazy, booleovské operace a porovnávací operátory, apod. Princip architektury Oracle Text je založen na vytváření fulltextových indexů, které se vytvářejí pomocí speciálních filtrů pro daný formát dat. Obrázek 5: Architektura Oracle Text Komponenta Oracle Text disponuje připravenou řadou filtrů pro nejběžnější formáty, tedy nejběžněji Microsoft Office, Adobe PDF, ale i HTML a XML. Pokud je to nutné lze využít volání standardních autorecognize filtrů. Obrázek 6: Způsoby uložení textů pro indexaci

Výhodou při používání Oracle Text je uložení všech dat v jednom datovém úložišti, jak strukturovaných i nestrukturovaných. Je zde uložen i index, dále úložiště poskytuje API pro vývoj aplikací a SQL pro práci. Jsou podporovány národní znakové sady. Obrázek 7: Vyhledávání pomocí Oracle Text Velkou výhodou Oracle Text je přizpůsobení uživatelským potřebám, ať už přizpůsobením indexů, CONTEXT, CTXCAT, CTXRULE, nebo také vkládáním uživatelských funkcí, tzv. klasifikace. Jedná se o silné mechanismy, kdy můžeme označovat důležité pasáže v nestrukturovaném dokumentu, např. témata, tituly, vybírat části dokumentu a zpracovávat je námi požadovaným způsobem. V poslední verzi 10g je kladen důraz na výkon, kde Oracle Text převyšuje výkonem a možnostmi jiné specializované nástroje pro vyhledávání. 5 ConText ConText je produkt společnosti SEFIRA a poskytuje řešení pro integrovanou správu nestrukturovaných informací. Umožňuje třídit textové informační zdroje (dokumenty) stejně efektivně jako strukturovaná data. ConText výrazně rozšiřuje schopnosti databáze Oracle podporovat všechny typy uživatelů a všechny typy dat. Umožňuje zpracovávat informace rychleji a efektivněji. Co tedy ConText ve spolupráci s Oracle Text nabízí: vyhledání českých slov v dokumentech i strukturovaných datech vyhledávání českých slov ve všech časech, resp. pádech vyhledávání podle stejného slovního základu nebo kmene vyhledávání s funkcí STEM o příklad: po zadání vyhledání slova jíst bude výsledková sada obsahovat dokumenty obsahující toto slovo i ve tvarech jedla, jez, jíme atd. o příklad: po zadání vyhledání slova kůň bude výsledková sada obsahovat dokumenty obsahující toto slovo i ve tvarech koně, koňmi atd. vyhledávání s různými operátory o AND slovo1 AND slovo2: dokument obsahuje obě slova o OR slovo1 OR slovo2: dokument obsahuje alespoň jedno ze slov o NEAR slovo1 NEAR slovo2: hledaná slova jsou v dokumentu blízko sebe

o NOT slovo1 NOT slovo2: dokument neobsahuje slovo2 Obrázek 8: Vyhledávání pomocí Oracle Text s ConText