Přehled a hodnocení automatických systémů pro integraci a mapování znalostních modelů

Přehled a hodnocení automatických systémů pro integraci a mapování znalostních modelů Ondřej Zamazal, Vysoká škola ekonomická v Praze, Fakulta informatiky a statistiky Katedra informačního a znalostního inženýrství nám. W. Churchilla 4, 130 67, Praha 3 e-mail: ondrej.zamazal@vse.cz Abstrakt: Znalostní modely v podobě ontologií se dočkaly značného rozmachu s příchodem oblasti sémantického webu. Ontologie se také ve stále větší míře používají v podnikových informačních systémech, kde tvoří jejich znalostní vrstvu. Přístupy integrování a mapování ontologií tak mohou být použitelné i pro integraci podnikových informačních systémů. Tento článek přináší v českém jazyce první ucelený přehled současných nástrojů integrace a mapování ontologií. Kritériem představení systémů je jejich úspěšnost při vyhodnocování v rámci jedné ze sekcí mezinárodní kampaně vyhodnocování mapování ontologií za posledních osm let. Z každého roku vyhodnocování tak byly do přehledu zařazeny systémy s nejvyšší dosaženou F1-mírou pro ten který rok a dále systémy důležité pro oblast mapování. Klíčová slova: integrace znalostí, integrace systémů, ontologie, integrace ontologií, mapování ontologií, systémy mapování ontologií, OAEI, vyhodnocování mapování, F1- míra Abstract: Formal knowledge models such as ontologies became omnipresent with a dawn of Semantic web vision. Ontologies are also more often applied within Enterprise Resouce Planning systems where they can form their knowledge layer. Ontology matching and integration approaches thus can be usable for Enterprise Resource Planning systems. This paper provide the first survey on ontology matchinng tools and their evaluation in Czech language. Ontology mapping tools were selected according to their performance within one track in the annual campaign of ontology alignment evaluation in the last eight years. There is always one best ontology mapping system mentioned with regard to its performance measured by F1-measure and one system interesting with regard to community contribution. Key words: knowledge integration, system integration, ontology, ontology integration, ontology matching, ontology mapping system, OAEI, ontology alignment evalutation, F1-measure 1. Úvod Znalostní modely v podobě informatických ontologií se dočkaly značného rozmachu s příchodem sémantického webu (Berners-Lee, T. et al. 2001) od roku 2001. Inteligentní chování aplikací sémantického webu je postaveno na standardizovaným způsobem zapsaných znalostech do podoby ontologií. Přestože informatické ontologie na jednu stranu umožňují jasně definovat pojmy z dané aplikační oblasti, na druhou stranu nelze vždy zajistit využívání jedné ontologie pro danou oblast všemi zájmovými skupinami či podniky. Řešením je (polo-)automatické či ruční hledání souvislostí mezi 36 SYSTÉMOVÁ INTEGRACE 4/2013

Přehled a hodnocení automatických systémů pro integraci a mapování znalostních modelů jednotlivými částmi ontologií neboli mapování (integrování) ontologií. Hledání vazeb mezi modely je v oblasti podnikových informačních systémů dobře známé, tzv. mapování databázových schémat, a tvoří také důležitý zdroj inspirace pro novější oblast, mapování ontologií. Ať už mapování probíhá na úrovni datového modelu (tzn. mapování schémat) nebo na úrovni znalostního modelu (tzn. mapování ontologií), cílem je určovat podobnosti konceptů, vlastností a instancí na základě jejich pojmenování, struktury a logické interpretace. Informatické ontologie jsou v dnešní době používány rovněž v podnikových informačních systémech, kde tvoří jejich znalostní vrstvu. V automobilovém průmyslu tak například německá automobilka Volkswagen již řadu let využívá kontextové vyhledávání založené na informatických ontologiích, které přináší bohatší možnosti hledání a jednodušší rozšiřitelnost o další prohledávané aspekty v jejich podnikovém informačním systému (Greenly, W. et al. 2011). Příkladem využívání informatických ontologií v podnikové praxi v České republice je monitorovací a analytický systém podnikového informačního systému společnosti Telefónica O2, který své kontextové vyhledávání, vícejazyčnou podporu a kontrolu konzistence znalostí zakládá na informatických ontologiích (Kusý, V. 2013). Potřeba nasazení nástrojů integrace a mapování ontologií vyvstává přirozeně za situace, kdy dochází ke vzájemnému propojování podnikových informačních systémů (např. pokud by automobilka Volkswagen koupila jinou automobilku používající vlastní ontologii pro vyhledávání). Integrace ontologií je rovněž potřebná, pokud dochází k mezipodnikové spolupráci (Business-to-Business aplikace). Tak tomu může být v případě webových prodejních portálů (např. Amazon, ebay), které používají vzájemně různé elektronické katalogy. Ke vzájemné spolupráci je potřeba namapovat své katalogové charakteristiky produktů s ostatními prodejními portály, díky čemuž dochází k jejich integraci (Euzenat, J. & Shvaiko, P. 2007, Bouquet, P. et al. 2003). Elektronické katalogy jsou chápány jako odlehčené informatické ontologie. Mezipodniková komunikace se často odehrává v rámci dodavatelských řetězců, které tak představují síťové podnikové informační systémy (angl. networked enterprise). Navrhovaná řešení se opírají o sdílenou informatickou ontologii, jejíž vytvoření se zakládá na integraci s ostatními relevantními informatickými ontologiemi pomocí nástrojů mapování ontologií (Smirnov, A. et al. 2012, Lu, Y. et al. 2013). Cílem tohoto příspěvku je seznámit českého čtenáře s děním v oblasti mapování ontologií a to prostřednictvím poskytnutí stručného přehledu nejúspěšnějších systémů mapování ontologií za posledních osm let v rámci iniciativy OAEI (Ontology Alignment Evaluation Initiative). Úspěšnost systémů bude posuzována z perspektivy dosažených výsledků při mapování ontologií pro pořádání konferencí. Toto vyhodnocování autor příspěvku organizuje každým rokem od roku 2006. V tomto příspěvku se nově vyhodnotí všechny systémy napříč jednotlivými roky jednotným způsobem. V následující druhé části upřesníme jednotlivé termíny. Třetí část vysvětluje základní koeficienty vyhodnocování spolehlivosti systémů a ve čtvrté části představíme jednotlivé významné systémy posledních let na základě jejich úspěšnosti mapování nad kolekcí konferenčních ontologií. 2. Informatické ontologie a jejich mapování Informatické neboli znalostní ontologie (dále jen ontologie) umožňují výslovně zachytit sdílenou konceptualizaci dané oblasti (Gruber T. R. 1993). Výběr konceptů neboli SYSTÉMOVÁ INTEGRACE 4/2013 37

Ondřej Zamazal pojmů pro začlenění do ontologie je veden prizmatem zájmové oblasti, kterou daná ontologie zachycuje. Pojem hudebník tak bude důležitý pro hudební ontologii, naopak tomu bude pro ontologii zachycující automobilový průmysl. Obecné pojmy mohou mít (podle jejich charakteru) své konkrétní instance, např. koncept Hudebník a jeho instance Mick Jagger, Václav Koubek apod. Rozhodování, kdy jde o pojem nebo o jeho instanci, řeší různé metodiky pro návrh ontologií vyvíjené v rámci ontologického inženýrství, viz např. (Zdráhal, Z. 2013). Pojmy jsou tradičně hierarchicky řazeny vyznačujíc tak jejich vztah obecnosti a specifičnosti, např. pojem Hudebník je obecnějším pojmem pojmu Zpěvák. Vedle těchto vazeb ontologie také umožňují zachytit jakékoliv jiné pojmenované vztahy, které mezi sebou mohou pojmy mít. Docházíme tak k hlavním prvkům ontologií, jimiž jsou koncepty, vztahy a instance. S příchodem sémantického webu (Berners-Lee, T. 2001) a jeho rozsáhlého repertoáru standardů zaštítěných organizací World Wide Web Consortium reprezentaci ontologií podmanil jazyk OWL, Web Ontology Language (Hitzler, P. et al. 2009). Tento jazyk je k dispozici v mnoha variantách, které vyhovují různým aplikačním požadavkům (požadovaná míra expresivity vedoucí k různé míře výpočetní náročnosti) a vždy stojí na některé z deskripčních logik (Baader, F. et al. 2003). Ontologie tak mají pro vymezování svých pojmů k dispozici expresivitu podobnou expresivitě predikátové logiky s omezením na její rozhodnutelné části. V informatické praxi je přirozené, že v rámci jedné zájmové oblasti vznikají různé ontologie, které tak přispívají k heterogenitě (různorodosti) informatického prostředí a kladou tak potenciální překážky pro přímou komunikaci mezi systémy založenými na různých ontologiích. Děje se tak z různých důvodů, např. odlišný účel návrhu ontologií, různé perspektivy a odlišná odborná úroveň návrhářů ontologií, vybraná metodika pro návrh ontologie, používaný editor pro implementaci ontologie a zažité jmenné konvence v dané komunitě návrháře ontologie. Nabízí se v zásadě dvě řešení. Všeobecný konsensus pro používání jedné ontologie či sady ontologií z určité oblasti. Takový konsensus je v celosvětovém měřítku sotva dosažitelný. Toto řešení však může fungovat v rámci praxe jednoho podniku a jeho dceřiných poboček. Ostatní podniky pak pro komunikaci a integraci mohou využít druhou cestu. Druhým řešením je zjišťování vztahů mezi prvky různých ontologií ze stejné zájmové oblasti neboli proces mapování ontologií. Výstupem tohoto procesu je mapování neboli množina tzv. korespondencí mezi dvěma prvky různých ontologií. Tato mapování mohou být vystavena na webu a využita pro vzájemnou komunikaci systémů postavených nad danými ontologiemi. Mezi přední typy aplikací mapování ontologií patří překlad dotazů (query reformulation) umožňující dotazovat data specifikována podle jiné ontologie než je ta použitá v dotazu a datová migrace (data migration) pro převod dat z jednoho systému do systému jiného, které nemají na pozadí stejnou ontologii. V databázovém světě se tato aplikace nazývá datovou integrací. Další aplikací je spojování ontologií (ontology merging), kde se buďto obě ontologie spojí do jedné a nebo se jedna ontologie obohatí o prvky ontologie druhé. Analogickou aplikací v databázovém světě je integrace schémat potřebná při fúzi firem (Obitko, M. et al. 2013). 2.1 Ontologie pro pořádání konferencí a referenční mapování V roce 2005 vznikla kolekce ontologií z oblasti pořádání konferencí (Šváb, O. 2005). Hlavní motivací bylo poskytnout materiál pro experimentování s ontologickými nástroji. Zvlášť vhodná je kolekce pro vyhodnocování úspěšnosti systémů mapování ontologií díky různorodosti jejích ontologií. Od roku 2006 je kolekce každoročně zahrnuta 38 SYSTÉMOVÁ INTEGRACE 4/2013

Přehled a hodnocení automatických systémů pro integraci a mapování znalostních modelů v evaluační iniciativě OAEI (Ontology Alignment Evaluation Initiative) v rámci samostatné tzv. konferenční sekce. Kolekce byla postupně obohacována o další ontologie (nyní jich je 16) a bylo vytvořeno referenční mapování (gold standard) pro možnost automatického vyhodnocování (na podmnožině 7 ontologií). V roce 2011 bylo referenční mapování obohaceno o korespondence, které bylo možné automaticky odvodit na základě ostatních platných korespondencí zahrnutých v referenčním mapování. Odvozené korespondence byly podrobeny prozkoumání a v důsledku některých nových odvození byly zamítnuty původní korespondence, aby se tak dosáhlo koherentní (tzn. nekonfliktní) množiny korespondencí. Nově vzniklé referenční mapování tak má vyšší kvalitu a na rozdíl od původního referenčního mapování není volně k dispozici. 3. Měření kvality výsledků systémů a referenční metoda Určení spolehlivosti výsledků může být rozličného druhu pomocí tzv. vzorkování, pomocí úplného manuálního ohodnocení výsledků ad. V tomto příspěvku se omezíme na situaci, kdy známe správné ekvivalentní dvojice entit mezi jednotlivými páry ontologií. V takovém případě můžeme spočítat tři tradiční koeficienty: přesnost, úplnost a F-míra (Do, H.-H. et al. 2002): (1) (2) (3) Ve vzorci (1) a (2) M představuje mapování nalezené systémem a R představuje referenční mapování, tzn. všechny správné korespondence. Koeficient přesnosti, vzorec (1), zachycuje poměr všech správných korespondencí vzhledem ke všem nalezeným korespondencím. Koeficient úplnosti, viz vzorec (2), zachycuje poměr všech správných korespondencí vzhledem ke všem korespondencím, které jsou v referenčním mapování. Přesnost a úplnost jdou často proti sobě, proto se pro posouzení celkové spolehlivosti systému používá F-míra, viz vzorec (3). F-míra kombinuje oba předchozí koeficienty s tím, že jejích důležitost váží pomocí symbolu α. Všechny tyto koeficienty vycházejí v intervalu 0 až 1. F-míra, která váží obě míry stejně (tj. α symbol je 0,5) se nazývá F1-míra, viz vzorec (4): (4) Za účelem posouzení spolehlivosti systémů se hodnoty těchto koeficientů při jejich vyhodnocování porovnávají vůči jednoduchým metodám neboli referenčním (anglicky též baselines). V případě mapování ontologií se jako jednoduché řešení nabízí využít jen jmenný aspekt ontologií, což vede k použití tzv. řetězcových metod, které operují jen nad řetězci prvků ontologií. Metoda porovnání dvou řetězců, které jsou předtím převedeny na malá písmena, dosahuje nad uvedenou kolekcí ontologií F1-míry 0,52 za přesnosti 0,76 a úplnosti 0,39. O něco sofistikovanější metoda postavená na SYSTÉMOVÁ INTEGRACE 4/2013 39

Ondřej Zamazal editační vzdálenosti (Levenshtein, V. 1965) dosahuje F1-míry 0,55 za přesnosti 0,73 a úplnosti 0,44. Výsledky systémů budeme porovnávat s touto druhou metodou, proto v příspěvku nazývanou referenční. 4. Systémy mapování ontologií 4.1 Způsob vyhodnocení systémů V uplynulých osmi letech se integrování ontologií pro pořádání konferencí v rámci iniciativy OAEI účastnilo 49 systémů ze 24 zemí světa (na některých systémech spolupracovali zástupci z více zemí). Spolehlivost systémů lze měřit tradičními koeficienty, které jsou popsány v předcházející části 3. Pro představení současných systémů mapování ontologií jsme nově jednotným způsobem vyhodnotili všechny systémy, které se v uplynulých osmi letech účastnily konferenční sekce v kampani OAEI. Vyhodnocení jsme založili na hodnotách F1-míry. Jednotné zpracování pro všechny roky od roku 2006 spočívalo v tom, že jsme ze všech výsledků účastníků nejprve smazaly všechny korespondence, ve kterých se vyskytovaly instance, jiné vztahy než ekvivalence a nejobecnější třída tzv. Thing. Tyto korespondence nebyly předmětem zkoumání a jejich přítomnost by mohla výsledek systému zhoršit. Dále jsme koeficienty přesnost a úplnost spočítali pomocí nového referenčního mapování (přesnějšího a koherentního) tak, že jsme je spočítali najednou nad všemi korespondencemi ze všech párů ontologií a z nich pak vychází výsledná F1-míra. Alternativně je možné spočítat přesnost a úplnost pro každý pár ontologií zvlášť a poté hodnoty zprůměrovat pro výpočet F1-míry. Oba přístupy se ve výsledku drobně liší. V našem případě volíme první případ, protože tak žádný pár s ohledem na důležitost pro mapovací úlohu nez(ne)výhodňujeme. Takto získané výsledky jsme za každý rok agregovali pomocí průměrně dosažené F1-míry systému a maximální F1- míry, viz Tabulka 1. Ve čtvrtém sloupci ( # >= ) je uveden počet systémů, které v daném roce dosáhly vyšší nebo stejné F1-míry jako referenční metoda. Tabulka také uvádí top systém, což je systém s nejvyšší dosaženou F1-mírou. Poslední sloupec tabulky uvádí jeden další systém, který v daném roce významně přispěl k rozvoji oblasti integrace a mapování ontologií. Z rostoucí maximální F1-míry je vidět, že v oblasti dochází ke zlepšování. V posledních třech letech však výsledky nejlepšího systému zůstali stejné, avšak ostatní systémy se k němu začaly přibližovat. Na základě průměrných hodnot F1-míry můžeme říci, že i celkově jsou systémy od roku 2007 na vzestupu až na výjimku v roce 2011, kdy došlo k poklesu z důvodu většího množství horších systémů. Je zajímavé si povšimnout, že průměrná F1-míra dosažená v roce 2013 je současně maximem roku 2007 a 2010 a dokonce vyšší než v roce 2006, 2008 a 2009. Kolektivní zlepšování dobře dokresluje počet systémů lepších či stejných jako referenční metoda (sloupec # >= ). Za celou historii vyhodnocování lepších nebo stejných výsledků s ohledem na F1-míru dosáhlo již 22 systémů. 40 SYSTÉMOVÁ INTEGRACE 4/2013

Přehled a hodnocení automatických systémů pro integraci a mapování znalostních modelů Rok Počet systémů Tab. 1: souhrnné výsledky pro jednotlivé roky [zdroj: autor] Průměrná F1-míra # >= Maximální F1-míra Top systém Další zajímavý systém 2006 5 0.47 1 0.55 Falcon (Čína) RiMOM (Čína) 2007 6 0.35 1 0.56 Falcon (Čína) OLA (Kanada / Francie) 2008 3 0.42 0 0.44 Lily (Čína) DSSim (VB / Posko) 2009 7 0.43 1 0.54 Kosimap (Belgie / VB) 2010 8 0.50 3 0.56 CODI (Německo) 2011 19 0.45 6 0.71 YAM++ (Francie) 2012 18 0.54 10 0.71 YAM++ (Francie) 2013 21 0.56 13 0.71 YAM++ (Francie) AgreementMaker (USA) ASMOV (USA) LogMap (VB) Optima (USA) MapSSS (USA) 4.2 Významné systémy mapování ontologií posledních let Systém Falcon se vyhodnocování zúčastnil celkem třikrát (2006, 2007 a 2010), kde v prvních dvou letech dosáhl nejvyšší F1-míry v daném roce (0,55 F1-míra, 0,72 přesnost a 0,44 úplnost). Falcon (Hu, W. & Qu, Y. 2007) obsahuje tři elementární komponenty mapování, které jsou vzájemně zkombinovány. Komponenta V-Doc určuje podobnost prvků prostřednictvím porovnání vektorů reprezentujících jednotlivé prvky. Tyto vektory se tvoří z řetězců názvů prvků a jejich sousedů. Díky této technice se při hledání korespondencí neuvažují prvky izolovaně, ale bere se v úvahu i jejich okolí. Druhá komponenta I-Sub je řetězcového typu, která staví nejen na podobnosti řetězců ale také na jejich rozdílnosti. Poslední komponentou mapování je grafová metoda GMO, která zjišťuje strukturální podobnost mezi RDF bipartitními grafy reprezentujícími ontologie. Dále má tento systém speciální komponentu PBM pro rozsáhlé ontologie, které umožňuje rozdělit na menší a ty pak vzájemně mapovat pomocí tří uvedených komponent mapování. V roce 2006 se účastnil také další systém čínské provenience, RiMOM (později také v roce 2013), který dosáhl jen těsně horšího výsledku než systém Falcon (0,54 F1- míra, 0,71 přesnost a 0,43 úplnost). Systém RiMOM (Risk Minimization based Ontology Mapping) (Tang, J. et al. 2006) pojímá úlohu integrace a mapování ontologií jako rozhodovací problém, ve kterém hledá optimální řešení. Celý proces hledání korespondencí mezi dvěma ontologiemi zahrnuje následující kroky (Li, Y. et al. 2006). Nejprve se spočítají faktory podobnosti s ohledem na strukturální a jmenný aspekt. SYSTÉMOVÁ INTEGRACE 4/2013 41

Ondřej Zamazal Tyto faktory následně poslouží pro nastavení důležitosti mapovacích metod postavených na jazykových technikách a propagaci podobnosti na základě podobné struktury. Podle upřednostněného aspektu ontologie se spustí automatické mapovací nástroje (strategie) jako např. normalizace pojmenování prvků ontologií (tokenizace, rozšíření zkratek a akronymů), řetězcová editační vzdálenost, podobnost slov založená na WordNetu (Miller, G. A. 1995), algoritmus k-nejbližších sousedů, naivní bayesovský klasifikátor, datotypová podobnost a podobnost taxonomické struktury. Všechny získané podobnosti jsou reprezentovány v krychli o rozměrech k*m*n, kde k odpovídá počtu strategií, m odpovídá počtu prvků jedné ontologie a n počtu prvků druhé ontologie. Pro každý pár prvků z ontologií se jejich výsledné podobnosti kombinují do jediného čísla v intervalu 0 až 1. Následně se, dle v úvodu spočítaného faktoru strukturální podobnosti, aplikuje propagace podobnosti na základě struktury ontologií. Po propagaci podobností se přistoupí k extrakci korespondencí pro jednotlivé páry prvků ontologií na základě prahové hodnoty a případně dalších heuristik aplikovaných na míru podobnosti korespondencí. Tento proces mapování se cyklicky opakuje, dokud žádné další nové korespondence nejsou nalezeny. Svého času tento systém mezi mapovací metody inovativně zahrnul do mapování uvažování instancí a také umožňuje uživatelskou interakci prostřednictvím grafického rozhraní. V roce 2007 se těsně pod systémem Falcon umístil systém OLA (0,52 F1-míra, 0,68 přesnost, 0,42 úplnost). Systém OLA (Euzenat, J., & Valtchev, P. 2004) jako jeden z prvních systémů přišel s grafovou reprezentací ontologií. Vstupní ontologie převádí do grafové struktury, která zachycuje důležité atributy pro posuzování podobnosti prvků ontologií. Podobnost dvou prvků je tak odvozena od podobnosti uzlů v grafu, ale navíc se ještě uvažuje bohaté okolí prvku dle jeho typu, např. nadtřída, podtřída, obor hodnot, definiční obor apod. Právě bohatost a rozmanitost reprezentace je pro systém OLA příznačná. Reprezentace zahrnovala vše s ohledem na odlehčenou variantu jazyka OWL (OWL Lite). Celkově se podobnost dvou uzlů v grafové reprezentaci určuje systémem rovnic postavených na řetězcových, jazykových a strukturálních podobnostech, které jsou agregovány. Proces určení podobnosti probíhá v cyklu se zastavením, pokud se již nedosahuje zlepšení. Výstupní mapování je vypočítáno na základě hledání řešení mapovacího problému maximálního váženého párování grafů (Euzenat, J. & Shvaiko, P. 2007). Systém Lily dosáhl nejvyšší F1-míry (0,44 F1-míry za přesnosti 0,38 a úplnosti 0,58) v roce 2008, kdy se vyhodnocení účastnily jen tři systémy. Přístup systému Lily (Wang, P. & Xu, B. 2008) je založen na reprezentování prvků ontologie pomocí části grafů reprezentujících ontologii tzv. sémantických podgrafů. Proces mapování využívá informace z těchto sémantických podgrafů, ze kterých se sestavuje dokument pro řetězcové porovnání. Výsledné korespondence se propagují pomocí informací ze sémantických podgrafů. Výsledky propagace podobnosti se ještě kontrolují, aby se odstranily redundantní a z hlediska logiky chybné korespondence. Tento systém pro určování vztahu mezi prvky ontologií také využívá webové vyhledávání, jehož výsledky zpracovává pomocí připravených lexiko-syntaktických vzorů. V roce 2008 se také zúčastnil systém DSSim (0,42 F1-míra, 0,36 přesnost a 0,5 úplnost), který je vystaven jako multiagentní mapovací prostředí (Nagy, M. et al. 2008). Tento nástroj obecně umožňuje zapojení do různých typů aplikací jako například zodpovídání dotazů na webu (Nagy, M. & Vargas-Vera, M. 2010). Lexikální komponenta systému využívá rozšiřování (zpřesňování) jmenného popisu prvků 42 SYSTÉMOVÁ INTEGRACE 4/2013

Přehled a hodnocení automatických systémů pro integraci a mapování znalostních modelů ontologií pomocí taxonomických informací získaných z WordNetu (doménová znalost). Jmenné informace umožňují vytvořit graf prvku ontologie na základě jeho okolí v ontologii. Pro porovnávání těchto grafů se využívá řada metod, kde každá metoda je reprezentována jako agent se svým rozhodnutím. Agenty mají své rozhodnutí přirozeně zatíženo neurčitostí a subjektivitou. Kombinace příspěvků rozhodnutí od různých agentů je postavena na teorie evidence, Dempster-Shafer teorii (Shafer, G. 1976). V roce 2009 nejvyšší F1-míry 0,54 (za přesnosti 0,66 a úplnosti 0,45) dosáhl systém KOSImap (Reul, Q. & Pan, J. Z. 2009), který během fáze předzpracování kromě tradičních lexikálních operací (např. lematizace) odvozuje logické důsledky axiomů přítomných v ontologiích, které se dále využívají pro výpočet podobnosti prvků ontologií. Výpočet podobnosti pro prvky z ontologií je zvlášť počítán pro třídy a zvlášť pro vlastnosti. Využívají se klasické řetězcové metody podobnosti. Extrakce korespondencí nejprve probíhá na základě prahové hodnoty a následně se využívá odvozovací nástroj pro odstranění nevhodných korespondencí, které by způsobily nekoherentní stav integrované ontologie. Ve stejném roce dosáhl systém AgreementMaker (Cruz, I. F. et al. 2009) druhé nejvyšší F1-míry 0,51 (za přesnosti 0,58 a úplnosti 0,45). Tento systém vznikl s cílem poskytnout kvalitní automatické metody mapování a umožnit uživateli interagovat se systémem za účelem potvrzení či zamítnutí nalezených korespondencí. Systém tak nabízí řadu vizualizací, které umožňují porovnávat prvky ontologií. Pro samotné mapování systém používá řetězcové metody, jejichž výsledky skládá pomocí vážené lineární kombinace, kde váhy jsou nastaveny automaticky. Zkombinované výsledky řetězcových metod vstupují do strukturální metody, která využívá propagace podobnosti na základě taxonomie tříd v ontologiích. V posledním kroku je zapojena lexikální metoda využívající synonym z dostupných tezaurů, např. WordNet. Systém také experimentoval s možností automaticky konfigurovat jednotlivé mapovací metody a jejich parametry na základě vstupních dat o mapovací úloze, v rámci kterých se uvažovalo o alespoň částečné znalosti referenčního mapování (Cruz, I. et. al. 2012). V roce 2010 nejvyšší F1-míry 0,56 (za přesnosti 0,8 a úplnosti 0,43) dosáhl systém CODI (Combinatorial Optimization for Data Integration) (Noessner, J. & Niepert, M. 2010, Huber, J. et al. 2011), který je postaven na Markovské logice a řeší problém mapování ontologií jako optimalizační problém. Potenciální korespondence jsou zachyceny jako formule predikátové logiky s váhami reprezentujícími sílu platnosti dané korespondence. Systém generováním markovské sítě na základě vstupních korespondencí, jejich prvků z ontologií a jejich podobností určí pravděpodobnostní rozdělení možných korespondencí. Důležitým aspektem tohoto systému je garance logické správnosti (koherence) výsledných mapování, čehož dosahuje řadou omezení, např. mapování musí být 1:1. Zajištění koherence výsledků mapování je většinou řešeno až na závěr procesu mapování. Systém CODI korespondence způsobující nekoherenci maže již během samotného procesu mapování. Těsně za systémem CODI se v roce 2010 umístil systém ASMOV (0,55 F1-míra, 0,5 přesnost a 0,6 úplnost), který se opakovně vyhodnocování účastnil od roku 2007. Tento systém (Jean-Mary, Y. R. et al. 2010) integruje a mapuje ontologie ve třech fázích: předzpracování, iterativní proces a sémantická validace výsledků. Ve fázi předzpracování jsou ontologie načteny do systému, anotovány pomocí lexikálních systémů (doménových znalostí) jako např. WordNet a analyzovány, což slouží pro SYSTÉMOVÁ INTEGRACE 4/2013 43

Ondřej Zamazal potřeby nastavení parametrů mapování. V iterativní fázi jsou počítány podobnosti mezi prvky ontologií s využitím čtyř aspektů: textové popisky prvků (slovní označení prvku, komentář atd.), externí struktury (rodiče a děti), interní struktury (vlastnosti) a podobnost individuí (instancí). Na konci každé iterace probíhá validační proces, kde se kontroluje koherence (logická správnost) nalezených korespondencí. Zachytí se tak například situace, kdy jeden prvek z jedné ontologie je spárován s více prvky z jiné ontologie a tyto prvky nejsou ekvivalentní. Nekonzistentní korespondence se z mapování odstraní. Systém také umí pracovat s počátečním částečným mapováním jako vstupem do celého procesu mapování. Rok 2011 přinesl dva nové systémy (YAM++ a LogMap). Sytém YAM++ (not Yet Another Matcher) ve svém prvním roce účasti dokázal dosáhnout na nejvyšší F1-míru 0,71 (za přesnosti 0,78 a úplnosti 0,65), která dosud nebyla překonána. Systém YAM++ (Ngo, D. et al. 2011, Ngo, D. & Bellahsene, Z. 2013) nejprve hledá možné korespondence podle velmi podobných popisů prvků ontologií. Tyto potenciální korespondence následně podstupuje více podrobným metodám mapování (mapování na základě anotací, sdílených instancí a okolních prvků). Získané korespondence jsou zkombinovány tak, aby korespondence nebyly redundantní. Následně se již získané korespondence využívají pro propagaci podobnosti na základě strukturní informace grafově blízkých prvků v okolí. Na závěr procesu mapování se aplikuje ověřování korespondencí, zda nezpůsobují nekoherenci výsledného mapování. Systém YAM++ používá podobné vzory jako systém ASMOV a CODI. V roce 2013 se tvůrci systému především zaměřili na zrychlení procesu mapování, kde snížili výpočetní náročnost předzpracování ontologií na vstupu z kvadratické složitosti na lineární. Druhým novým systémem roku 2011 byl systém LogMap (F1-míra 0,61 za přesnosti 0,78 a úplnosti 0,5) (Jiménez-Ruiz, E. et al. 2011, Jiménez-Ruiz, E. et al. 2013). Hlavní motivací tvorby systému bylo vytvoření mapovacího nástroje, který je použitelný pro rozsáhlé ontologie (sta tisíce prvků v ontologii) při zachování logické koherence výsledných mapování. Při velkém rozsahu ontologií systémy obvykle nejsou schopné aplikovat odvozovací mechanismy. Systému LogMap se podařilo obojího dosáhnout díky důrazu na efektivní provádění výpočtu (např. efektivní řetězcové porovnávání), práce s menšími částmi ontologií (moduly) a efektivního ukládání grafové reprezentace ontologií. Pro odvozování se využívá reprezentace korespondencí Hornovými klauzulemi. V roce 2012 nejvyšších hodnot F1-míry dosáhly již představené systémy (YAM++, CODI a LogMap). Následujícím systémem byl systém Optima (F1-míra 0,61 za přesnosti 0,6 a úplnosti 0,63), který zaznamenal velké zlepšení oproti roku své první účasti (v roce 2011 dosáhl F1-míry 0,32). Systém Optima (Thayasivam, U. et al. 2012) pojímá úlohu mapování ontologií jako maximalizační problém za použití Expectation Maximization techniky ve dvoufázovém iterativním algoritmu. V každé iteraci se nejprve spočítají očekávané hodnoty podobnosti prvků ontologií (expectation) na základě minulé iterace (či na základě úvodní inicializace algoritmu) a následně se provádí maximalizace s využitím strukturní informace ontologie. Pro výpočet podobností prvků systém používá řetězcovou metodu editační vzdálenosti a lexikální metody založené na využívání informací z WordNetu. Extrakční modul systému zajišťuje získání minimální množiny korespondencí (nejsou vzájemně odvoditelné) a snaží se o koherentní mapování na základě jednoduchých pravidel. 44 SYSTÉMOVÁ INTEGRACE 4/2013

Přehled a hodnocení automatických systémů pro integraci a mapování znalostních modelů V roce 2013 se podruhé vyhodnocení účastnil systém MapSSS (F1-míra 0,58 za přesnosti 0,77 a úplnosti 0,46) (Cheatham, M. & Hitzler, P. 2013). Systém zde zařazujeme z důvodu velkého zlepšení (v předešlém roce dosáhl F1-míry 0,46), které bylo zapříčiněno vylepšením řetězcové komponenty. Systém používá tři aspekty ontologií pro zjištění správných korespondencí. Syntaktický neboli jmenný aspekt ontologie se odráží v použitých řetězcových metodách. Strukturní aspekt ontologie se odráží v reprezentaci ontologie jako grafu a uvažování blízkého okolí mapovaných prvků. Sémantický aspekt ontologie je zde postaven na určení podobnosti s využitím výsledků vyhledávání službou Google. Nejprve se pomocí služby Google hledá fráze pro prvek z první ontologie a následně se zjišťuje přítomnost vyhledané fráze v prvních vyhledaných dokumentech pro dotaz na základě druhého prvku z ontologie. V případě úspěšného nalezení takového dokumentu se provede opačné hledání a v případě úspěchu se daný pár prvků zařadí mezi platné korespondence. V původní verzi systém MapSSS používal techniku editační vzdálenosti. V nové verzi systém používá několik pravidel pro určení nejvhodnější řetězcové techniky pro daný pár ontologií (Cheatham, M. & Hitzler, P. 2013b). Díky tomuto novému způsobu systém dosáhl již zmíněného zlepšení. Tvůrci systému MapSSS při experimentování s řetězcovými metodami připravili i samostatný mapovací nástroj, StringsAuto, založený jen na automatickém výběru řetězcových metod, jejich aplikaci pro získání korespondencí a jejich následné extrakci na základě prahové hodnoty a algoritmu stabilního párování. Tento systém dosáhl dokonce vyšší F1-míry 0,6 (za přesnosti 0,74 a úplnosti 0,5) než komplexnější systém MapSSS. Tvůrci těchto dvou systémů si ponechali jako další úkol prozkoumat důvody horších výsledků systému MapSSS oproti jednoduššímu systému StringsAuto. 4.3 Vizualizace výsledků vybraných systémů V této části se pokusíme zobrazit postavení systémů v tzv. triangulárním grafu (viz Obr. 1), ve kterém jsou dány do souvislosti přesnost, úplnost a z nich odvozená F1- míra. Na horizontální ose je přesnost resp. úplnost, zatímco hodnoty F1-míry jsou oblasti ohraničené odpovídajícími čárami F1-míry pro hodnoty 0,5, 0,6 a 0,7. Tento typ grafu se každým rokem generuje pro vyhodnocení účastníku kampaně OAEI v rámci benchmarkové sekce pomocí Alignment API. 1 Verze obohacená o vyznačení oblastí F1-míry byla poprvé publikována v práci (Meilicke, Ch., 2011). 2 1 http://alignapi.gforge.inria.fr 2 V rámci vizualizace byly vybrány nejlepší a nejzajímavější systémy v jednotlivých letech tak, jak byly popsány v části 4.2. Celkově bylo 22 lepších či stejně kvalitních systémů jako referenční metoda. V grafu není možné zachytit systémy, které mají nízké hodnoty přesnosti a úplnosti, např. systémy Lily a DSSim z roku 2008. SYSTÉMOVÁ INTEGRACE 4/2013 45

5. Závěr Oblast integrace a mapování ontologií je významnou součástí nejen vize sémantického webu, ale podstatným způsobem může ovlivňovat také integraci podnikových systémů v závislosti na využívání ontologií v podnikových systémech. Cílem tohoto článku je poskytnout českému čtenáři přehled této oblasti v podobě představení nejlepších automatických systémů integrace a mapování ontologií za posledních osm let s ohledem na jejich dosažené výsledky v jedné sekci kampaně OAEI. Na základě informací podaných o těchto systémech lze vidět velkou šíři metod a postupů, které se pro úlohu hledání vztahů mezi prvky ontologií využívají. Vedle toho je také důležitý fakt, že jednoduché řetězcové metody mohou poměrně snadno dosáhnout vysoce spolehlivých výsledků (viz dvě základní metody zmiňované v části 3 a systém StringsAuto z části 4.2) a slouží tak jako referenční kritérium úspěšnosti sofistikovanějších metod. Vysoká úspěšnost jednoduchých řetězcových metod je umožněna díky stále platné praxi tvůrců ontologií pojmenovávat prvky ontologií srozumitelně a výstižně a neponechávat tak sémantiku jen v logických axiomech ontologie. Oproti minulým rokům se dnes stále více prosazuje ověřování nalezených korespondencí s ohledem na logickou koherenci výsledného mapování. Zatímco dříve se o koherenci staralo jen pár systémů (průkopníky jsou systémy ASMOV a CODI), dnes již tento cíl má většina systémů. Příznačné pro současné systémy je také důraz na využití doménových znalostí (angl. background knowledge ). Vedle možnosti automatického procesu mapování, nabízejí některé systémy propracované grafické uživatelské rozhraní pro interakci s uživatelem (např. systém AgreementMaker nebo Falcon). Specifikem některých systémů posledních let je soustředění se na mapování rozsáhlých ontologií s důrazem na škálovatelnost postupů použitých při mapování (systémy LogMap a YAM++). Z množství systémů a počtu zemí každoročně se účastnících vyhodnocování v rámci kampaně OAEI je vidět, že problematika integrace a mapování ontologií stále přitahuje velkou pozornost a na základě nejvyšších dosažených výsledků (F1-míra 0,71) je také zřejmé, že vývoj systémů má do budoucna stále ještě dost prostoru pro vylepšování svých postupů. Literatura Baader, F. et al., 2003: The description logic handbook: theory, implementation, and applications. Cambridge university press. Berners-Lee, T., Hendler, J. & Lassila, O., 2001: The Semantic Web, Scientific American (May 2001). Bouquet, P., Serafini, L., & Zanobini, S., 2003: Semantic coordination: a new approach and an application. In: 2nd International Semantic Web Conference, říjen 20-23, 2003, Sundial Resort, USA Cruz, I. F., Antonelli, F. P., Stroe, C., Keles, U. C. & Maduko, A., 2009: Using AgreementMaker to align ontologies for OAEI 2009: overview, results, and outlook, In: International Workshop on Ontology Matching, říjen 25, 2009, Chantilly, USA SYSTÉMOVÁ INTEGRACE 3/2013 46

Analýza rizik informačního systému nakládajícího s osobními údaji Cruz, I., Fabiani, A., Caimi, F., Stroe, C. & Palmonari, M., 2012: Automatic Configuration Selection Using Ontology Matching Task Profiling, In: Proceedings of 9th Extended Semantic Web Conference, květen 27-31, 2012, Kréta, Řecko Do, H.-H., Melnik, S. & Rahm E., 2002: Comparison of schema matching evaluations. In: Workshop on Web, Web-Services, and Database Systems, 2002: Erfurt (DE) Euzenat, J. & Shvaiko, P., 2007: Ontology Matching, Springer-Verlag Euzenat, J., & Valtchev, P., 2004: Similarity-based ontology alignment in OWL-lite, In: European conference on artificial intelligence, srpen 23-27, 2004, Valencia, Španělsko Greenly W., Sandeman-Craik Ch., Otero Y., & Streit J., 2011: Case Study: Contextual Search for Volkswagen and the Automotive Industry [Online] Dostupné na: http://www.w3.org/2001/sw/sweo/public/usecases/volkswagen/ [staženo 18. ledna 2014] Gruber T. R., 1993: A translation approach to portable ontology specifications, Knowledge Aquisition 5(2), pp.199-220 Hitzler, P., Krötzsch, M., Parsia, B., Patel-Schneider, P. F., & Rudolph, S., 2009: OWL 2 web ontology language primer, W3C recommendation, 27, pp. 1-123 Hu, W. & Qu, Y., 2007: Falcon-AO: A Practical Ontology Matching System, Journal of Web Semantics 6(3), pp. 237-239 Huber, J., Sztyler, T., Nößner J. & Meilicke, Ch., 2011: CODI: Combinatorial Optimization for Data Integration: results for OAEI 2011, In: International Workshop on Ontology Matching, říjen 24, 2011, Bonn, Německo Cheatham, M. & Hitzler, P., 2013: StringsAuto and MapSSS results for OAEI 2013, In: International Workshop on Ontology Matching, říjen 21, Sydney, Austrálie Cheatham, M. & Hitzler, P., 2013b: String Similarity Metrics for Ontology Alignment, In: 12th International Semantic Web Conference, říjen 21-25, 2013, Sydney, Austrálie Jean-Mary, Y. R., Shironoshita, E. P. & Kabuka M. R., 2010: ASMOV: results for OAEI 2010, In: International Workshop on Ontology Matching, list. 7, 2010, Šanghaj, Čína Jiménez-Ruiz, E., Grau, B. C. & Horrocks, I., 2013: LogMap and LogMapLt results for OAEI 2013, In: Intern. Workshop on Ontology Matching, říjen 21, Sydney, Austrálie Jiménez-Ruiz, E., Morant, A. & Grau, B. C., 2011: LogMap results for OAEI 2011, In: International Workshop on Ontology Matching, říjen 24, 2011, Bonn, Německo Kusý, V., 2013: Ontology as a Backbone of the Enterprise Information Systems and Current Applications in Czech Republic, Journal of Systems Integration 4(2), pp. 3-18 Levenshtein, V.,1965: Binary codes capable of correcting deletions, insertions, and reversals, Doklady akademii nauk SSSR 163(4), pp. 845-848 Li, Y., Li, J., Zhang, D., Tang J., 2006: Result of Ontology Alignment with RiMOM at OAEI06, In: International Workshop on Ontology Matching, list. 5, 2006, Georgia, USA Lu, Y., Panetto, H., Ni, Y., & Gu, X., 2013: Ontology alignment for networked enterprise information system interoperability in supply chain environment, International Journal of Computer Integrated Manufacturing 26(1-2), pp. 140-151 Meilicke, Ch., 2011: Alignment Incoherence in Ontology Matching. Dizertace, Universität Mannheim, Mannheim, 2011 SYSTÉMOVÁ INTEGRACE 3/2013 47

Jana Fortinová Miller G. A., 1995: WordNet: A Lexical Database for English, Communications of the ACM 38(11), pp. 39-41 Nagy, M. & Vargas-Vera, M., 2010: Towards an automatic semantic data integration: Multi-agent framework approach. In-Teh (2010), pp. 107-134 Nagy, M., Vargas-Vera, M., Stolarski, P. & Motta, E., 2008: DSSim results for OAEI 2008, In: International Workshop on Ontology Matching, říjen 26, 2008, Karlsruhe, DE Ngo, D. & Bellahsene, Z., 2013: YAM++ results for OAEI 2013, In: International Workshop on Ontology Matching, říjen 21, Sydney, Austrálie Ngo, D., Bellahsene, Z. & Coletta, R., 2011: YAM++ results for OAEI 2011, In: International Workshop on Ontology Matching, říjen 24, 2011, Bonn, Německo Noessner, J. & Niepert, M., 2010: CODI: Combinatorial Optimization for Data Integration: results for OAEI 2010, In: International Workshop on Ontology Matching, listopad 7, 2010, Šanghaj, Čína Obitko, M., Zamazal, O. & Svátek, V., 2013: Ontologie a sémantický web, In: Mařík, V. et al. Umělá inteligence 6. ACADEMIA, pp. 85-125 Reul, Q. & Pan, J. Z., 2009: KOSIMap: ontology alignments results for OAEI 2009, In: International Workshop on Ontology Matching, říjen 25, 2009, Chantilly, USA Smirnov, A., Levashova, T., & Shilov, N., 2012: Ontology Alignment for IT Integration in Business Domains. In: Business Information Systems Workshops, květen 21-23, 2012, Vilnius, Litva Shafer, G., 1976: A mathematical theory of evidence. Vol. 1. Princeton university press Šváb, O., Svátek, V., Berka, P., Rak, D., Tomášek, P. OntoFarm: Towards an Experimental Collection of Parallel Ontologies. In: Poster Track of ISWC 2005 Tang, J., Li, J., Liang, B., Huang, X., Li, T. & Wang K., 2006: Using Bayesian Decision for Ontology Mapping, Journal of Web Semantics 4(4), pp. 243-262 Thayasivam, U., Chaudhari, T., Doshi, P., 2012: Optima+ results for OAEI 2012, In: International Workshop on Ontology Matching, listopad 11, 2012, Boston, USA Wang, P. & Xu, B., 2008: Lily: ontology alignment results for OAEI 2008, In: International Workshop on Ontology Matching, říjen 26, 2008, Karlsruhe, Německo Zdráhal, Z., 2013: Ontologie: od filosofie k umělé inteligenci, In: Mařík, V. et al. Umělá inteligence 6. ACADEMIA, pp. 21-84 JEL Classification: D80, M15 48 SYSTÉMOVÁ INTEGRACE 3/2013