obr. 2 - Dv vrstvy map témat; Zdroj: [15]



Podobné dokumenty
Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Objektové modely a znalostní ontologie podobnosti a rozdíly

POLOPROVOZ ZNALOSTNÍ DATABÁZE INTERPI DOKUMENTACE

Znalostní systém nad ontologií ve formátu Topic Maps

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

Sémantický web 10 let poté

Webové služby a ontologie

Doktorandské dny 07. Ústav informatiky. v.v.i. vydavatelství Matematicko-fyzikální fakulty University Karlovy v Praze

IMPLEMENTACE SYSTÉMU GROUPWISE NA PEF ČZU V PRAZE IMPLEMENTATION OF THE SYSTEM GROUPWISE ON THE PEF ČZU PRAGUE. Jiří Vaněk, Jan Jarolímek

Výzvy využívání otevřených dat v ČR

IDENTITY MANAGEMENT Bc. Tomáš PRŮCHA

ROZDÍLY MEZI RDF MODELEM A TOPIC MAPS DIFFERENCES BETWEEN RDF MODEL AND TOPIC MAPS. Martin Žáček

Webové služby. Martin Sochor

WWW jako dynamická knihovna

RDF a RDF Query. Jakub Nerad 1. prosince Nerad () RDF a RDF Query 1. prosince / 16

Dokumentační služba projektu Medigrid : dokumentování sémantiky lékařských dat

SPRÁVA ZÁKLADNÍCH REGISTRŮ PODMÍNKY PRO PŘIPOJENÍ AGENDOVÝCH INFORMAČNÍCH SYSTÉMŮ DO ISZR. verze 2.00

Webové služby a XML. Obsah přednášky. Co jsou to webové služby. Co jsou to webové služby. Webové služby a XML

INTEGRACE IS DO STÁVAJÍCÍ HW A SW ARCHITEKTURY

Microsoft Office 2003 Souhrnný technický dokument white paper

Internet Information Services (IIS) 6.0

Zabezpečení platformy SOA. Michal Opatřil Corinex Group

Modelování webových služeb v UML

Pokročilé Webové služby a Caché security. Š. Havlíček

NSWI108 Sémantizace Webu

1.1. Správa a provozní podpora APV ROS, HW ROS a základního SW

DOPLNĚK. Projekt Informační systém základních registrů je spolufinancován Evropskou unií z Evropského fondu pro regionální rozvoj.

ZNAČKOVACÍ JAZYKY A JEJICH VYUŽÍVÁNÍ MARKUP LANGUAGE AND THEIR USE. Zdeněk Havlíček

IS SEM - informační systém pro správu a evidenci nemovitého majetku hlavního města Prahy

VYUŽITÍ REGIONÁLNÍCH FUNKCÍ A WWW ROZHRANÍ V INTEGROVANÉM KNIHOVNÍM SYSTÉMU KPWINSQL

Technologická podpora v projektu KP-Lab

Logika pro sémantický web

Zakázka Vnitřní integrace úřadu v rámci PROJEKTU Rozvoj služeb egovernmentu ve správním obvodu ORP Rosice

Komponentní technologie

EXTRAKT z mezinárodní normy Extrakt nenahrazuje samotnou technickou normu, je pouze informativním materiálem o normě.

Referenční rozhraní. Jiří Kosek. Ministerstvo informatiky ČR. ISSS 25. března 2003

Projekt Konsolidace IT a nové služby TC ORP Litomyšl

RESTful API TAMZ 1. Cvičení 11

XML a nové trendy v publikování na Webu

MYBIZ - Řešení pro zpřístupnění dat ze stávajících aplikací na mobilních zařízeních (Mobilize your business!) Požadavky zákazníka.

Co je to Grid. Martin Kuba Superpočítačové Centrum Brno Seminář CESNET, Třešť

X33EJA Web Services. Martin Ptáček, KOMIX s.r.o.

Softwarové komponenty a Internet

1. Aplikační architektura

Certifikační prováděcí směrnice

Implementace systému registrů a agend Proxio - unifikace registrů, evidencí a agend

Funkční analýza Předmět Informační systémy. Daniela Szturcová

Elektronický podpis a jeho implementace v nákupním systému


RESTful web service v Javě

Servisně orientovaná architektura Základ budování NGII


Kolaborativní aplikace

MONDIS představení projektu

Technologie Java. Jaroslav Žáček

Logický datový model VF XML DTM DMVS

Servisně orientovaná architektura a její aplikace v systémech sledování a řízení výroby


PROTOKOLY ŘÍDÍCÍCH JEDNOTEK SÍTĚ PRO POUŽÍVÁNÍ VE VOJENSKÝCH VOZIDLECH

VLIV NEURČITOSTI, NEJASNOSTI, NEJISTOTY A SLOŽITOSTI NA ROZHODOVÁNÍ ORGANIZACÍ

Nasazení jednotné správy identit a řízení přístupu na Masarykově univerzitě s využitím systému Perun. Slávek Licehammer

UŽIVATELSKÁ DOKUMENTACE PRO DODAVATELE. Stav ke dni v. 2.0

Server-side technologie pro webové aplikace

ČESKÁ TECHNICKÁ NORMA

Architektura FRAME a ITS Akční plán

Úvod do Web Services

Systémy jednotného přihlášení Single Sign On (SSO)

SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR

1. Integrační koncept

SOAP & REST služby. Rozdíly, architektury, použití

RELAČNÍ DATABÁZOVÉ SYSTÉMY

SYSTÉM PRO KONFIGURACI KOMUNIKAČNÍCH TERMINÁLŮ A VIZUALIZACI STAVOVÝCH DAT Z KOLEJOVÝCH VOZIDEL

ÚLOHA ELEKTRONICKÉHO DOKUMENTU PŘI PODÁNÍ VŮČI ÚŘADU

LINKED DATA, OPEN DATA a BIG DATA

Analýza a Návrh. Analýza

RDF API a SPARQL syntaxe, API, příklady. 4IZ440 Reprezentace a zpracování znalostí na WWW Josef Petrák me@jspetrak.name

Ontologie v e-commerce

Příloha č. 18. Specifikace bloku PŘÍPRAVA. Příloha k zadávací dokumentaci veřejné zakázky Integrační nástroje, vstupní a výstupní subsystém

SYSTÉM PRO AUTOMATICKÉ OVĚŘOVÁNÍ ZNALOSTÍ

Jádrem systému je modul GSFrameWork, který je poskytovatelem zejména těchto služeb:

SAML a XACML jako nová cesta pro Identity management. SAML and XACML as a New Way of Identity Management

KAPITOLA 3. Architektura aplikací na frameworku Rails. V této kapitole: modely, pohledy, řadiče.

Katalog služeb a podmínky poskytování provozu

1. Webové služby. K čemu slouží? 2. RPC Web Service. 3. SOA Web Service. 4. RESTful Web services

Zvyšování výkonnosti firmy na bázi potenciálu zlepšení

Technologie Java Enterprise Edition. Přemek Brada, KIV ZČU

Aplikace s odvozováním nad ontologiemi

ČVUT FAKULTA ELEKTROTECHNICKÁ, TECHNICKÁ 2, PRAHA, ČESKÁ REPUBLIKA. Semestrální projekt. Systém speech2text (pracovní název)

Globální architektura ROS

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. RNDr. Jiří Barnat, Ph.D.

Statistica, kdo je kdo?

TECHNICKÁ SPECIFIKACE VEŘEJNÉ ZAKÁZKY

Aleš Rybák, Jiří Kadlec. Pluginy budoucnosti

Správa VF XML DTM DMVS Datový model a ontologický popis

Architektura aplikace

EXTRAKT z české technické normy

Manuál administrátora FMS...2

Michal Krátký, Miroslav Beneš

SIMPROKIM METODIKA PRO ŠKOLENÍ PRACOVNÍKŮ K IZOVÉHO MANAGEMENTU

Transkript:

Pavel Bartoš Fakulta informatiky a managementu, Univerzita Hradec Králové, pavel.bartos@uhk.cz, Abstrakt: Systém Globální sémantické sítě (GSS) je připravován v rámci detailní analytické studie řešení, jehož cílem je vytvořit aplikační server poskytující komplexní podporu pro využívání sdílených způsobů konceptualizace a podporu sémantiky na WWW síti. Tento příspěvek stručně charakterizuje dvě koncepce zabývající se strojovou interpretací informací na Internetu, dává přehled o jazycích sémantického webu a map témat a aplikacích pro jejich podporu. Dále příspěvek shrnuje základní principy a klíčové funkce systému Globální sémantické sítě. Tento systém umožňuje pracovat s informacemi v libovolné reprezentaci založené na grafech, podporuje elementární sémantiku konceptů identifikovaných na základě globálních identifikátorů URI a nabízí dynamickou správu inferenčních pravidel pro podporu sémantiky složitějších jazyků. Systém dále umožňuje ukládání a sdílení informací na počítačové síti, poskytuje dotazovací mechanismus založený na vyhledávání struktur grafů v distribuovaném prostředí a zajišťuje spolehlivost informací a autorizaci uživatelů. 1. Sémantický web a mapy témat Informace poskytované na WWW síti jsou z hlediska významu zcela neuspořádané a nelze zaručit jejich spolehlivost. Z tohoto důvodu vznikla v rámci konsorcia World Wide Web iniciativa, která zformulovala pojem sémantický web [24]. Sémantický web [1, 2] je množina technologických vrstev, které mají informacím na internetu zajistit strojově čitelnou sémantiku (obr. 1). obr. 1 - W3C Semantic Web Stack; Zdroj: [12] Adresování je realizováno prostřednictvím globálních identifikátorů URI [3], další vrstvu představuje obecný syntaktický standard v jazyce XML. Datový model pro uchovávání faktů je založen na jazyce Resource Description Framework [7] (RDF), SYSTÉMOVÁ INTEGRACE 2/2008 7

Pavel Bartoš který je rozšířen ontologickými strukturami RDFS [4] a OWL [16]. Tyto ontologické jazyky umožňují interpretovat sémantiku informací na základě definovaných slovníků (např. [13, 8]) a provádět odvozování implicitních informací aplikováním použitelné logiky. Poslední vrstva umožňuje zajistit spolehlivost informací. Více informací o sémantickém webu a jazyku RDF lze získat v uvedených zdrojích. Jinou formou popisu znalostí na WWW síti jsou mapy témat [19, 20], které vznikly v průběhu 90. let v rámci vývoje unifikovaného rejstříku unixové dokumentace. Cílem map témat [21] (TM) je poskytnout snadno použitelný systém reprezentace informací zaměřený zejména na organizaci rozsáhlých informačních zdrojů, integraci informací v distribuovaném prostředí a popis složitých procesů. Mapy témat nabízí prostředky pro reprezentaci znalostí a jejich vztahu k popisovaným informačním zdrojům (viz obr. 2). Mapy témat jsou logicky rozděleny na dvě vrstvy. Spodní vrstva obsahuje vlastní informační zdroje, které mají být popsány (vrstva informací). Tato vrstva je překryta znalostní vrstvou, která používá k popisu informací 3 základní koncepty: témata, asociace a výskyty. Role v asociacích, výskyty a názvy tématu tvoří charakteristiky, kterými lze popsat libovolné téma. Všechny tyto charakteristiky mohou mít definovanou oblast platnosti, která omezuje platnost charakteristik na určitý kontext. Každé téma reprezentuje právě jeden předmět reálného světa. Vztahy mezi tématy navzájem jsou vyjádřeny asociacemi, vztahy mezi tématy a informačními zdroji, které popisují, reprezentují tzv. výskyty. Pro identifikaci předmětů témat a informačních zdrojů jsou používány URI identifikátory. obr. 2 - Dvě vrstvy map témat; Zdroj: [15] 8 SYSTÉMOVÁ INTEGRACE 2/2008

Pro podporu práce s informacemi v jazyce RDF i TM byla vytvořena řada aplikací, které se zaměřují zejména na databázové, dotazovací a případně také zobrazovací funkce. Projekt Sesame [5] je platformou pro práci s RDF informacemi nezávislou na způsobu jejich uložení. Aplikace 3STore [11] je efektivní RDF databáze pro rozsáhlé datové množiny. Tento projekt se zaměřil zejména na optimalizaci rychlosti práce s informacemi reprezentovanými v jazyce RDF. V současné době je připravovávána podpora OWL. Aplikace RDF Gateway [14] umožňuje vytváření webových aplikací prostřednictvím interpretace skriptů v jazyce RDFQL a využívání takto získaných dat při generování dynamických HTML stránek. Dále lze využívat aplikační frameworky Jena [17], Redland, TAP či databázi RDFDB pro práci s informacemi v jazyce RDF. Ontopia Knowledge Suite je balík komerčních aplikací společnosti Ontopia pro vytváření a nasazování aplikací pracujících s mapami témat. Rozdíl oproti jazyku RDF je v tom, že způsob uchování informací v mapách témat umožňuje implementovat prohlížeče. Zajímavou studií z hlediska sdílení informací je experimentální aplikace TMShare [25] založená na architektuře P2P. Pro vývoj aplikací zabývajících se zpracováváním a využíváním tématickým map lze použít open source aplikačních frameworků TM4J či TM4Web [26]. 2. Systém Globální sémantické sítě Jak je patrné z výše uvedeného shrnutí, řešení podporující sémantické jazyky nejsou komplexní. Jsou zaměřené na realizaci obvykle jediného konkrétního úkolu v celém procesu práce s významovými informacemi, který představuje životní cyklus od jejich tvorby přes uchovávání a sdílení až k jejich využívání. Druhým aspektem výše uvedených řešení je nízká vzájemná interoperabilita mezi jednotlivými přístupy. Možnost použití jediného univerzálního sémantického jazyka k popisu informací je velmi komplikovaná vzhledem k zaměření jednotlivých jazyků na konkrétní úkoly. Na druhou stranu využití různých přístupů v kombinaci a vzájemné synergii (např. RDF, TM, XML Schéma) žádné z řešení nepodporuje. Na základě těchto východisek je hledáno řešení, které by komplexně podporovalo celý proces práce s významovými informacemi a zároveň umožnilo integrované využívání různých sémantických jazyků a přístupů ke konceptuálnímu modelování. Systém Globální sémantické sítě (GSS) je v současné době připravován jako detailní analytická studie řešení, jehož cílem je vytvořit aplikační server, který poskytuje komplexní podporu pro systémy pracující se sdílenými způsoby konceptualizace, a umožňuje vytvořit sdílený prostor pro strojově čitelná a interpretovatelná data. Dalším cílem je vybudovat integrační platformu pro aplikace, které využívají a zpracovávají informace v různých systémech reprezentace (od jednodušších jako XML, RSS po složitější jako TM či RDF). Systém GSS umožňuje pracovat s informacemi v libovolné reprezentaci založené na grafech, podporuje elementární sémantiku konceptů identifikovaných na základě globálních identifikátorů URI a nabízí dynamickou správu inferenčních pravidel pro podporu sémantiky složitějších jazyků. Systém dále umožňuje ukládání a sdílení informací na počítačové síti, poskytuje dotazovací mechanismus založený na vyhledávání struktur grafů v distribuovaném prostředí a zajišťuje spolehlivost informací a autorizaci uživatelů. Tento systém umožňuje integraci různých sémantických jazyků a používání více jazyků k popisu jediného konceptu. SYSTÉMOVÁ INTEGRACE 2/2008 9

Pavel Bartoš 3. Klíčové funkce systému GSS Funkce systému GSS je založena na interakci s ostatními systémy GSS s cílem získat pro uživatele požadované informace z libovolného informačního zdroje. Systém Globální sémantické sítě pracuje s informacemi reprezentovanými strukturami na bázi grafu s jednoznačně identifikovatelnými uzly nesoucími hodnotu a pojmenovanými neorientovanými hranami. Informace jsou zaznamenávány pomocí libovolných sémantických jazyků nebo přístupů ke konceptuálnímu modelování způsobem standardizovaným pro zaznamenávání informací daným jazykem na Globální sémantické síti. id Aplikace - Komponenty Systém GSS Dotazy Prohledávání Globální znalostní sítě API MPS Modul pro prohledávání sítě «delegate» «delegate» WS MPS «delegate» HTTP Vstupně výstupní rozhraní «delegate» Systém databáze GSS Publikační server Publikace na WWW «delegate» Informace k publikaci WS MPS - Rozhraní pro komunikací s ostatními systémy GSS prostřednictvím webových služeb obr. 3 - Model komponent systému Globální sémantické sítě Na obr. 3 je zobrazen model komponent systému GSS, kterými jsou zajištěny požadované funkce. Systém GSS spravuje informace, které byly vloženy do databáze systému GSS nebo informace dalších aplikací, které jsou mu dostupné prostřednictvím transformačních můstků. S těmito informacemi je možné manipulovat prostřednictvím vstupně-výstupního rozhraní. Publikační server systému GSS zajišťuje publikaci informací na WWW síti ve formě XML dokumentů (tzv. listin elementu) přístupných na základě identifikátoru (URL). Uživatelé a další systémy předávají systému GSS dotazy na získání informací. Tyto informace jsou vyhledány v databázi systému GSS a v připojených aplikacích. Dále mohou být také prohledány informace sdílené ostatními systémy GSS. Informace jsou sdílené pomocí publikace listin elementu nebo prostřednictvím výměny informací mezi jednotlivými systémy GSS. Pro správnou interpretaci informací může být nutné aplikovat inferenční pravidla pro získání odvozených, explicitně nezaznamenaných informací. Každý sémantický 10 SYSTÉMOVÁ INTEGRACE 2/2008

jazyk nebo způsob konceptualizace může mít definovanou skupinu inferenčních pravidel. Tato pravidla jsou ve formě plug-in modulů instalována do systému GSS a aplikována na zpracovávané informace. Instalace modulů inferenčních pravidel může být manuální i automatická. 3.1 Reprezentace a uchovávání informací Systém Globální sémantické sítě pracuje s informacemi reprezentovanými strukturami na bázi grafu s jednoznačně identifikovatelnými uzly nesoucími hodnotu a pojmenovanými neorientovanými hranami. Uzlem tohoto grafu je tzv. informační element, hranou grafu je pojmenovaná vazba mezi informačními elementy. Informace je reprezentována informačními elementy a vazbami mezi nimi. Informační element je nositelem elementární informace z hlediska logiky obsahu. Pro identifikaci informačních elementů je používán systém globálních identifikátorů URI. Informace vyjádřené na základě této reprezentace tvoří distribuovanou datovou strukturu spravovanou systémy GSS. Tato datová struktura má charakter množiny grafů a je nazývána Globální sémantickou sítí. S použitím terminologie teorie grafů lze za tzv. strukturu Globální sémantické sítě označit libovolný podgraf Globální sémantické sítě a za hledanou strukturu Globální sémantické sítě podgraf, který odpovídá definovaným požadavkům na strukturu podgrafu a hodnoty hran a uzlů. Globální sémantická síť představuje virtuální prostor pro elektronickou reprezentaci sémantiky reálného světa. cd Základní model Element - ID: URI - Predmet: literal Vazba - Nazev: literal obr. 4 - Formální model Globální znalostní sítě Formální model Globální sémantické sítě rozlišuje pouze dva základní koncepty: informační elementy a vazby (obr. 4). Informační element nese dvě vlastnosti: identifikátor a datovou reprezentaci předmětu informace. Vazba obsahuje vlastnosti pojmenování, zdrojový a cílový informační element. Níže uvedený obr. 5 obsahuje příklad jednoduchého tvrzení v jazyce RDF vyjádřený datovým modelem Globální sémantické sítě. Každý koncept modelovaný v daném tvrzení, včetně tvrzení samotného, získává vlastní identitu v publikačním prostoru některého aplikačního serveru Globální sémantické sítě. Tato identita je určena URI identifikátorem každého informačního elementu. SYSTÉMOVÁ INTEGRACE 2/2008 11

Pavel Bartoš obr. 5 - RDF tvrzení v datovém modelu Globální znalostní sítě Systém Globální sémantické sítě je vytvářen tak, aby podporoval existující sémantické jazyky a využíval jejich ontologické modely (např. RDFS či map témat). Tyto jazyky mají definovaný a standardizovaný způsob jejich zápisu, obvykle v jazyce XML. Předpokladem využití těchto prostředků pro vyjádření a publikaci informací na Globální sémantické síti je standardizace jejich reprezentace ve formě struktur Globální sémantické sítě. Formální model sémantického jazyka či ontologický model je zaznamenán ve formě struktur Globální sémantické sítě, což umožňuje jeho následné využití k reprezentaci libovolných informací. Tím je také umožněno vrstvení různých prostředků pro zaznamenávání sémantiky informací. Dále je možné libovolnou elementární informaci popsat pomocí několika sémantických jazyků. Pro interpretaci sémantiky jazyka je v některých případech nutné aplikovat inferenční pravidla pro odvození implicitních informací, které v datové struktuře nejsou explicitně obsaženy. Typickým příkladem takových informací je příslušnost k nadřazené třídě v objektovém modelování. Třída, která je potomkem nejbližší nadřazené třídy, je také potomkem všech dalších nadřazených tříd. Tato informace ovšem není explicitně zaznamenaná, ale musí být odvozena. Z tohoto důvodu jsou na informace Globální sémantické sítě aplikována inferenční pravidla ve dvou bodech jejich zpracování. Zaprvé při ukládání informací do databáze systému GSS a zadruhé při zpracování dotazu. V každém tomto kroku je získávána část odvozených informací. Použití inferenčních pravidel v uvedených krocích je prováděno s ohledem na optimální formu ukládaných informací a rychlost zpracování dotazů. 3.2 Uchovávání informací Uchovávání informací Globální sémantické sítě je založeno na decentralizované správě distribuovaného úložiště. Každý systém GSS spravuje a poskytuje informace z jednoho či více informačních zdrojů. Informace lze rozdělit do následujících typů: 1. informace uložené jejich autory do databáze systému GSS, 2. informace získané od dalších systémů GSS při získávání dat pro zodpovězení dotazů a 3. informace dalších aplikací zpřístupněné prostřednictvím transformačních můstků. 12 SYSTÉMOVÁ INTEGRACE 2/2008

Informace prvního typu jsou do databáze systému GSS vkládány jejich autory obvykle prostřednictvím dalších aplikací, které transformují interakci s uživatelem na data vhodná pro vstupně-výstupní rozhraní systému GSS. Tyto informace je možné považovat vždy za platné, protože databáze systému GSS je jejich primárním úložištěm a každá aktualizace či změna je prováděna přímo zde. Pro zodpovězení zadaného dotazu mohou být využity informace dalších informačních zdrojů získané výměnou sdílených informací mezi systémy GSS. Při zodpovídání dotazu dochází k vyhledávání hledaných informací od ostatních informačních zdrojů, tyto informace jsou informacemi druhého typu. Třetím typem jsou informace, jejichž primárním úložištěm jsou další aplikace připojené k systému GSS prostřednictvím transformačních můstků. Transformační můstky zajišťují transformaci dat ze způsobu reprezentace v primárním úložišti do reprezentace odpovídajícímu některému sémantickému jazyku či konceptuálnímu modelu Globální sémantické sítě. Transformované informace dalších aplikací mohou být dočasně ukládány do databáze systému GSS a využívány pro zodpovídání zadaných dotazů. V případě informací druhého a třetího typu slouží databáze systému GSS pouze jako vyrovnávací paměť (cache), proto je nutné řídit platnost těchto informací. Takto získané informace nelze považovat za platné po neomezeně dlouhou dobu, protože po jejich zjištění mohlo dojít ke změně. Platnost informací je řízena pomocí frekvence obnovy, což je nejdelší časový úsek, po který lze informaci považovat platnou. Tato doba je určena autorem informace pro každý informační element s ohledem na četnosti změn informace a významu důsledků neaktuálnosti. Informace získané v určitém okamžiku tak mohou být využívány po dobu definovanou autorem, aniž by bylo nutné je znovu získávat z jejich primárního zdroje. Tím je možné významně zkrátit dobu potřebnou k zodpovězení dotazu a snížit objem komunikace mezi systémy GSS. Při ukládání informací do databáze systému GSS dochází k aplikaci inferenčních pravidel, aby bylo zajištěno zachycení implicitních informací. Jedná se o jeden ze dvou bodů aplikace inferenčních pravidel, zbývající část odvozených informací je získávána aplikací inferenčních pravidel při zpracování dotazu. 3.3 Sdílení informací Sdílení informací na Globální sémantické síti je zajišťováno kombinací dvou přístupů. Každý informační element může získat datovou reprezentaci ve formě XML dokumentu (tzv. listina elementu) přístupnou na WWW síti prostřednictvím URL odpovídající identifikátoru elementu. V tomto XML dokumentu jsou obsaženy veškeré informace o informačním elementu identifikátor elementu, datová reprezentace předmětu informace, frekvence obnovy, seznam vazeb a popis použitelných rozhraní informačního zdroje, který informace spravuje. Uživatel určí požadované informace dotazem, který je modelem hledané struktury Globální sémantické sítě. Získávání informací tedy představuje prohledávání grafů Globální sémantické sítě. Informace mohou být získány postupným čtením listin elementů, přičemž URL následujícího elementu je získáno z popisu vazby v listině elementu. Druhým přístupem sdílení informací je výměna dat mezi systémy GSS. Při provádění dotazu systém GSS předává všem známým nebo vybraným systémům GSS tzv. rámce dotazu (prostřednictvím webových služeb), které umožňují získat dosud neznáme informace vyhovující dotazu. Každý rámec dotazu představuje SYSTÉMOVÁ INTEGRACE 2/2008 13

Pavel Bartoš jeden potencionální výsledek vyhledávání. Ovšem zda rámec skutečně nese informace plně vyhovující dotazu se ukáže až po dokončení prohledávání dané větve. Rámec má formu XML dokumentu. Tento dokument vždy obsahuje specifikaci dotazu a dále může obsahovat informační elementy, které vyhovují alespoň některé části dotazu. Systém GSS, který rámec přijme, doplní všechny známé informace vyhovující dotazu a navazující na dosud známé informační elementy a odešle rámec zpět systému, který ho vyslal. Pokud v rámci prohledávání grafu Globální sémantické sítě dojde k nalezení dvou nebo více cest vyhovujících dotazu, je rámec dotazu kopírován tak, aby každý rámec představoval jeden potencionální výsledek dotazu pro každou z možných cest. Tímto postupem dochází k výměně velkého množství rámců dotazů, systém GSS je zpracovává a informace dočasně ukládá do databáze. 3.4 Dotazování Získávání informací z Globální sémantické sítě je založeno na dotazování. Dotaz je modelem hledané struktury GSS, který obsahuje podmínky na jednotlivé elementy a vazby (např. obr. 6). Hledané struktury musí vyhovovat zadaným podmínkám. Dále jsou v dotazu určeny elementy a vazby, které mají být součástí vrácené datové množiny. obr. 6 Příklad dotazu v grafickém vyjádření Dotaz je předán systému GSS, který ho zpracuje a pokusí se vyhledat všechny vyhovující informace. V dotazu nebo v rámci navazování spojení musí být určeno, zda mají být informace vyhledány pouze v databázi systému GSS nebo zda mají být také prohledány další informační zdroje. Při využití více informačních zdrojů může být požadovaná informace určená dotazem distribuovaná. To znamená, že hledané struktury Globální sémantické sítě jsou spravovány více systémy GSS, přičemž žádný z nich nedisponuje kompletní informací. Z tohoto důvodu je nutné provést nejdříve vyhledání tzv. výchozích fragmentů na všech dostupných nebo vybraných informačních zdrojích. Výchozí fragment je struktura Globální sémantické sítě, která vyhovuje libovolné části 14 SYSTÉMOVÁ INTEGRACE 2/2008

zadaného dotazu. Vzhledem k tomu, že každý element eviduje vazby na sousední elementy, je možné strukturu prohledat a zjistit, zda daná část struktury skutečně představuje část výsledku dotazu, nebo zda je shoda jen částečná. Dochází tedy k prohledávání sdílených informací prostřednictvím procházení struktury Globální sémantické sítě. Informace jsou získávány čtením listin elementů nebo výměnou informací s ostatními systémy GSS pomocí rámců dotazu. Základem dotazovacího rozhraní je strukturovaný dotazovací jazyk, přičemž specifikace tohoto jazyka dosud nebyla vytvořena. Tento jazyk by měl uživatelům umožnit určit hledané struktury včetně volitelných a povinných částí, specifikovat vrácenou datovou množinu a vytvářet vnořené dotazy. Dále by tento jazyk měl umožnit manipulovat daty, vytvářet informační elementy a vazby mezi nimi. 3.5 Důvěryhodnost informací a řízení práv Důvěryhodnost informací je vedle obtížné strojové interpretovatelnosti druhou problematickou oblastí informací na Internetu. Aby bylo možné využívat informace Globální sémantické sítě k rozhodování a případně také k provádění dalších akcí, je nutné mít možnost jednoznačně určit identitu autora a zjistit tak důvěryhodnost informací. Informace jsou sdíleny prostřednictvím publikace listin elementů na WWW síti nebo výměnou dat mezi systémy GSS. Oba tyto způsoby sdílení informací je tedy nutné ošetřit tak, aby byla zajištěna důvěryhodnost informací. Koncept řešení systému GSS předpokládá zajištění autentizace poskytovaných dat prostřednictvím zabezpečeného komunikačního kanálu (např. SSL, TSL) či elektronického podpisu předávaných dat (XML signature [23]) a autorizaci přístupu uživatelů k informacím. Řízení práv uživatelů nad informacemi více informačních zdrojů je velmi komplikované. Vyžaduje existenci centrálního registru uživatelů, kterým jsou přiřazována práva. Zde je možné využít napojení systému GSS na adresářový server pomocí protokolu LDAP (např. Active Directory [22] či OpenLDAP [6]). Vlastní způsob přiřazování práv závisí na implementaci systému GSS. Je možné řídit práva nad konkrétními informačními elementy či nad jejich skupinami, modely apod. Předpokladem autorizace uživatele k získání požadovaných informací je jeho identifikace. Pro identifikaci uživatelů při získávání publikovaných listin elementů je možné využít některou z autentifikačních metod síťového protokolu. Uživatel získává přístup pouze k dokumentům, na které má právo na základě ověření jeho identity. V případě získávání informací výměnou s ostatními systémy GSS prostřednictvím rámců dotazu jsou používány autentizační metody protokolu SOAP [20]. Systém GSS ověří identitu uživatele a pro zadaný dotaz omezí základní množinu prohledávaných dat na data, na která má uživatel právo. Z důvodu nutnosti existence centrálního registru uživatelů a práv je autorizace možná pouze v komunitách uživatelů, kde je taková evidence možná. 3.6 Správa inferenčních pravidel Při uchovávání informací lze aplikovat různou úroveň zaznamenávání odvozených informací [5]. Lze ukládat informace v tzv. syntaktické rovině, tj. přímo v určitém jazyce. Dále ve strukturální rovině, což znamená uchovávat informace ve specifickém datovém modelu pro danou reprezentaci informací. Například v jazyce RDF se jedná o model zaznamenávající tvrzení - trojice predikát, objekt a subjekt SYSTÉMOVÁ INTEGRACE 2/2008 15

Pavel Bartoš (bez ohledu na syntaxi jazyka). Poslední úrovní je sémantická rovina, která představuje zaznamenávání informací strukturální roviny doplněné o odvozené informace vyplývající ze sémantiky používaného jazyka. Při definici a standardizaci způsobu zaznamenávání je nutné najít optimální kompromis mezi strukturální a sémantickou rovinou. Musí být určeno, které odvozené informace budou generovány při vkládání informací do Globální sémantické sítě a které budou odvozeny při vyhodnocování dotazu. V této souvislosti musí být zohledněna dvě omezení: výkonnostní optimalizace a distribuce informací na síti. Výkonnostní omezení řeší i existující aplikace (např. Sesame [5]). Při odvozování informací v okamžiku vkládání informací do datového úložiště by mohlo dojít k zahlcení úložiště daty, které při odvozování vzniknou. Na druhou stranu při odvozování informací v okamžiku dotazování dochází k zvýšení složitosti dotazu, zatěžování databázového stroje a složitému vyhodnocování dotazu. Mezi těmito dvěma přístupy je nutné najít optimální kompromis. Kompromisem může být ukládání informací, které předpokládají složité vyhodnocování a zároveň generují malé množství dat. Ostatní informace, které lze jednoduše odvodit, jsou generovány při dotazování. Tuto situaci ovšem komplikuje distribuce informací na různých informačních zdrojích. Systém GSS, který informace ukládá, může provést odvozování pouze na základě dostupných informací. Při uspořádání informací na Globální sémantické síti žádný informační zdroj nedrží kompletní množinu informací. Zajistit, že informace budou odvozeny na základě všech relevantních informací publikovaných různými, zdroji je velmi komplikované. Řešením tohoto problému je rozložení dotazu do GSS na více dotazů, které zajistí získání souvisejících informací. Správná interpretace informací zaznamenávaných pomocí některých sémantických jazyků vyžaduje aplikaci inferenčních pravidel, která zajistí odvození implicitních informací. Systém GSS podporuje aplikaci inferenčních pravidel ve dvou bodech zpracování informací. Prvním bodem je okamžik ukládání informací do databáze systému GSS, kdy dochází k zaznamenání odvozených informací s ohledem na všechny ostatní informace. Proces může probíhat jako paralelní asynchronní aktivita, aby nebylo zpomalováno vlastní ukládání informací do databáze. Druhým bodem je aplikace inferenčních pravidel na dotazy zadávané do systému GSS (s omezením pouze na dotazy typu čtení). Dotaz do systému GSS je modelem struktury Globální sémantické sítě. Na tuto strukturu lze aplikovat pravidla, která rozšíří dotaz tak, aby v jeho výsledku byly obsažené také odvozené informace explicitně neuložené do databáze. Může tak dojít k rozšíření dotazu či rozložení na více dotazů. Každý sémantický jazyk může mít definovanou množinu inferenčních pravidel, která mají být používána k interpretaci informací na Globální sémantické síti v obou bodech jejich aplikace. Tyto skupiny pravidel jsou ve formě knihovny programového kódu importovány jako plug-in moduly systémem GSS a následně využívány. Informační elementy modelu sémantického jazyka mohou mít definované moduly inferenčních pravidel potřebné pro jejich správnou interpretaci. Při provádění dotazu tak lze ověřit, zda systém GSS podporuje sémantiku získávaných informací a získaná data budou validní. Moduly inferenčních pravidel jsou publikovány jako informační elementy na GSS či WWW a mohou být automaticky či manuálně instalovány do systému GSS a využívány. 16 SYSTÉMOVÁ INTEGRACE 2/2008

4. Závěry Detailní analýza a návrh systém Globální sémantické sítě vzniká jako předmět disertační práce. Je zřejmé, že před realizací systému je nutné vyřešit celou řadu dalších otázek, zejména z oblasti výkonnostních omezení, vytvoření podpůrných jazyků a standardizace existujících prostředků pro využití na Globální sémantické síti. Dosažené výsledky však naznačují, že tento systém může být cestou k zajištění sémantických funkcí na Internetu síti a integraci informací obecně. obr. 7 Vrstva Globální sémantické sítě Systém Globální sémantické sítě je konceptem řešení, jehož cílem je vytvořit sdílený prostor (viz obr. 7) pro strojově čitelná a interpretovatelná data. Řešení, které umožňuje kombinovat výhody různých sémantických jazyků i jednoduchých modelovacích postupů a řeší společné problémy všech systémů pro modelování informací na základě sdíleného způsobu konceptualizace. Toto řešení přináší vyšší potenciál pro znuvupoužitelnost znalostí a umožňuje vývojářům a analytikům z oblasti sémantického webu soustředit se na vývoj modelovacích prostředků a sémantických jazyků pro popis informací. Literatura 1 ALESSO, H. P., SMITH, C. F. Developing Semantic Web services. Natick : A K Peters, 2005. 445 s. ISBN 1-56881-212-4. 2 BECKETT, Dave. RDF/XML Syntax Specification (Revised [online]. W3C, 2004. [cit. 2006-09-05]. Dostupný z WWW: <http://www.w3.org/tr/rdfsyntax-grammar/>. 3 BERNERS-LEE, T., FIELDING, R., MASINTER, L.: Uniform Resource Identifiers (URI): Generic Syntax. IETF RFC 3986. c2005. Dostupný z WWW: <http://gbiv.com/protocols/uri/rfc/rfc3986.html>. 4 BRICKLEY, D, GUHA, R.V. RDF Vocabulary Description Language 1.0: RDF Schema [online]. 2004 [cit. 2006-10-11]. Dostupný z WWW: <http://www.w3.org/tr/rdf-schema/ >. 5 BROEKSTRA, J., KAMPMAN, A., HARMELEN, F. Sesame: A Generic Architecture for Storing and Querying RDF and RDF Schema. In Proceedings of the First Internation Semantic Web Conference. Springer Verlag, 2002. SYSTÉMOVÁ INTEGRACE 2/2008 17

Pavel Bartoš s. 54-68. Dostupný z WWW: <http://www.cs.vu.nl/~frankh/postscript/iswc02.pdf>. 6 CARTER, G. LDAP System Administration. [s.l.] : O\'Reilly Media, Inc., 2003. 308 s. ISBN 978-1565924918. 7 CLYNE, G., CAROLL, J. (2004): Resource Description Framework (RDF): Concepts and Abstract Syntax. Dostupný z WWW: http://www.w3.org/tr/rdf-concepts/>. 8 Dublin Core Czech [online]. 2006, 20.11. 2006 [cit. 2007-02-15]. Dostupný z WWW: <http://www.ics.muni.cz/dublin_core/>. 9 GARSHOL, L.M. What Are Topic Maps. O\'Reilly xml.com [online]. 2002 [cit. 2007-02-22]. Dostupný z WWW: <http://www.xml.com/pub/a/2002/09/11/topicmaps.html>. 10 GARSHOL, L.M., MOORE, G. Topic Maps - Data Model [online]. 2006 [cit. 2007-03-01]. Dostupný z WWW: <http://www.isotopicmaps.org/sam/sammodel/>. 11 HARRIS, S., GIBBINS N.: 3store: Efficient Bulk RDF Storage. Proceedings of the 1st International Workshop on Practical and Scalable Semantic Systems, str. 1 14, 2003. Sanibel Island, Florida. Dostupný z WWW: <http://eprints.aktors.org/273/>. 12 HORROCKS, I., PARSIA, B., PATEL-SCHNEIDER, P., HENDLER J.: Semantic web architecture: Stack or two towers? In: Francois Fages and Sylvain Soliman, editors, Principles and Practice of Semantic Web Reasoning (PPSWR 2005), number 3703 in LNCS, pages 37-41. Springer, 2005. 13 IANNELLA, R. Representing vcard Objects in RDF/XML : W3C Note 22 February 2001 [online]. 2001, 22.2.2001 [cit. 2007-02-25]. Dostupný z WWW: <http://www.w3.org/tr/vcard-rdf>. 14 Intellidimension. RDF Gateway Documentation [online]. [2006] [cit. 2007-02- 04]. Dostupný z WWW: <http://www.intellidimension.com/pages/rdfgateway/default.rsp>. 15 KOSEK, Jiří. Topic Maps - Tutorial [online]. 2006 [cit. 2007-01-15]. Dostupný z WWW: <http://www.kosek.cz/xml/2006znalosti/>. 16 MCBRIDE, Brian. Handbook on ontologies. Staab, S., Studer, R. Berlin : Springer, 2004. ISBN 3-540-40834-7. The Resource Definition Framework and its Vocabulary Description Language, s. 51-66. 17 MCCARTHY, Philip. Introduction to Jena : Use RDF models in your Java applications with the Jena Semantic Web Framework [online]. 2004, [cit. 2007-03-02]. Dostupný z WWW: <http://www- 128.ibm.com/developerworks/java/library/j-jena/>. 18 Ontopia. Ontopia Topic Map Engine [online]. [2002] [cit. 2007-03-26]. Dostupný z WWW: <http://www.ontopia.net/solutions/engine.html>. 19 Ontopia. Omnigator [online]. [2006] [cit. 2007-04-21]. Dostupný z WWW: <http://www.ontopia.net/solutions/omnigator.html>. 18 SYSTÉMOVÁ INTEGRACE 2/2008

20 PAPAZOGLOU, M. Web Services : Principles and Technology. [s.l.] : Prentice Hall, 2007. 784 s. ISBN 978-0321155559. 21 PEPPER, Steve, MOORE, Graham. 27. XML Topic Maps (XTM) 1.0, Topic- Maps.Org Specification [online]. 2001 [cit. 2007-02-18]. Dostupný z WWW: <http://www.topicmaps.org/xtm/index.html>. 22 RICHARDS, J., ALLEN, R., LOWE-NORRIS, A. Active Directory : 3rd Edition. 3rd ILLUSTRATED edition. [s.l.] : O\'Reilly Media, Inc., 2006. 826 s. ISBN 978-0596101732. 23 ROSENBERG, J., REMY, D. Securing Web Services with WS-Security : Demystifying WS-Security, WS-Policy, SAML, XML Signature, and XML Encryption. [s.l.] : Sams, 2004. 408 s. ISBN 978-0672326516. 24 SHADBOLT, N, BERNERS-LEE, T., HALL, W. The Semantic Web Revisited. IEEE Intelligent Systems (2006/3) [online]. 2006 [cit. 2007-04-03], s. 96-101. Dostupný z WWW: <http://eprints.ecs.soton.ac.uk/12614/01/semantic_web_revisted.pdf>. ISSN 1541-167. 25 Techquila. TMShare - Topic Map Fragment Exchange In a Peer-To-Peer Application [online]. 2006 [cit. 2007-03-07]. Dostupný z WWW: <http://www.techquila.com/topicmapster.html>. 26 TM4J - Topic Maps For Java [online]. [2006] [cit. 2007-01-21]. Dostupný z WWW: <http://tm4j.org/>. SYSTÉMOVÁ INTEGRACE 2/2008 19