Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů (PC 3.2)... 2 4 Srovnání struktury datových modelů (PC 3.3)... 3 5 Přiřazení ZABAGED a ATKIS (PC 3.4)... 5 5.1 Postup... 5 5.2 Kvalita... 6 5.3 Výsledky... 8 Seznam tabulek Tabulka 4-1: Srovnání rozdělení témat objektů do kategorií objektů... 5 Tabulka 5-1: Kategorie k určení kvality, A=ATKIS, Z=ZABAGED... 6 Tabulka 5-2: Důvody chybějícího (podkategorie kategorie G)... 7 Seznam obrázků Obrázek 2-1: Postup při sémantické harmonizaci... 2 Obrázek 4-1: Struktura katalogů ZABAGED a ATKIS... 3 Obrázek 5-1: Kategorie z hlediska teorie množin... 6 Obrázek 5-2: Opakované s rozdílnými kategoriemi... 7 Obrázek 5-3: Jednoznačné a opakované ve vztahu k datovému modelu... 8 Obrázek 5-4: Podíly přiřazených kombinací v každém směru podle kategorií... 9 1
1 Úvod V této souhrnné zprávě jsou popsány nejdůležitější výsledky procesu sémantické harmonizace. Kapitola 2 v úvodu zprávy přináší přehled o teoretickém a metodickém zařazení sémantické harmonizace a jsou zde podrobně popsány jednotlivé kroky zvolené pracovní metody - integrace sladěním. Kapitola 3 je věnována zpracování dvojjazyčných katalogů objektů, na jejichž základě se modely srovnávají a zjišťují se podobnosti a rozdíly (viz kapitola 4). Závěrem je v kapitole 5 vysvětlen postup přiřazování objektů a posouzení kvality. 2 Metody sémantické harmonizace Pro sémantickou harmonizaci, tedy pro zajištění srovnatelnosti datových modelů, byl zvolen přístup integrace sladěním. Cílem je zajistit srovnatelnost obou dvou jinak nezávislých datových modelů ZABAGED a ATKIS, tj. učinit je interoperabilně využitelnými pro společné analýzy a aplikace v oblasti územního plánování. Použitý postup je znázorněn na Obrázek 2-1. Obrázek 2-1: Postup při sémantické harmonizaci 3 Dvojjazyčné katalogy objektů (PC 3.2) Výsledkem projektu jsou jednak překlady katalogů objektů ve formátu PDF, jednak dvojjazyčná databáze Access (MDB). Textové dokumenty obsahují úplný překlad originálních katalogů objektů obou datových modelů. Tabulky v databázi zobrazují strukturu datových modelů a jsou předpokladem pro následné databázové objektů. 2
4 Srovnání struktury datových modelů (PC 3.3) Aby bylo možné porovnat datové modely, musí mít podobnou strukturu. Znamená to stanovení základních parametrů datového modelu (Basis-parameter), které určují, jak se jednotlivé objekty začleňují do modelu: datová podrobnost měřítka 1:10 000, přechod na společný evropský souřadnicový systém ETRS89 či srovnatelná přesnost pod 5 cm jsou vhodnými geometrickými předpoklady pro harmonizaci dat ZABAGED a ATKIS. Dalším důležitým aspektem je struktura datových modelů, popisování objektů a způsob rozdělení objektů do nadřazených tříd. Struktura katalogů obou datových modelů je velmi podobná (viz Obrázek 4-1). Objekty mají atributy a hodnoty atributů jsou nejpřesnějším stupněm popisu objektu. Objekty jsou rozděleny do kategorií. V ATKIS existuje ještě další mezistupeň, a to skupiny typů objektů. Obrázek 4-1: Struktura katalogů ZABAGED a ATKIS Podíváme-li se na počet typů objektů, atributů a hodnot atributů, můžeme konstatovat, že v ZABAGED při vymezení objektů určitého typu hrají velkou roli předměty atributů a pouze v některých případech následně hodnoty jejich atributů, zatímco v ATKIS jsou objekty zpravidla blíže popsány pouze prostřednictvím hodnot atributů. Bez ohledu na strukturu katalogu má ATKIS podrobnější obsahové členění zejména při kategorizaci krajinných prvků. Rozdílná kritéria jsou pro zařazení typů objektů do kategorií. V ZABAGED jsou objekty tématicky rozděleny podle způsobu užívání. Naproti tomu je v modelu AAA v ATKIS kritériem pro zařazení způsob zobrazení a rozlišují se objekty, které celoplošně pokrývají a popisují zemský povrch, a objekty, které překrývají celoplošné objekty a přinášejí dodatečné podrobnější informace. Tím se mohou objevit objekty se stejným způsobem užívání ve více kategoriích. ( 3
Tabulka 4-1). 4
Tabulka 4-1: Srovnání rozdělení témat objektů do kategorií objektů 5 Přiřazení ZABAGED a ATKIS (PC 3.4) 5.1 Postup Pro vzájemné objektů obou modelů je nejprve nutno zjistit, zda stejné a podobné pojmy mají opravdu stejný význam, přičemž je zohledněna jejich denotace (slovníková definice) a odborné specifické použití. Důležitá je přitom i konzultace s odborníky, kteří dobře znají příslušný datový model. Přiřazení probíhá na úrovni kombinací typů objektů a hodnot atributů. Přiřazení nadřazených typů objektů není účelné, jelikož bližší specifikaci objektů určují právě hodnoty atributů. Existují ale některé atributy, které pro podobrobnější popis objektů nemají význam, protože nepřispívají k identifikaci objektu, resp. nijak neurčují, o jaký objekt se jedná. Vyloučíme-li tyto atributy, pak zůstane v ZABAGED 26 atributů a v ATKIS 39 atributů, které jsou důležité a podstatné pro propojení obou datových modelů. Většina typů objektů (v ZABAGED 90%, v ATKIS 80%) nemá atribut nebo má jen jeden atribut, maximálně však 5 atributů. V případě více atributů je nutno zohlednit kombinace všech hodnot. Pro typy objektů s více než jedním atributem vznikne matice typů objektů a hodnot atributů. Tato matice se zpracovává převážně ručně. Každé datové sadě matic je v tabulce přidělen klíč. Z toho vznikne 315 kombinací typů objektů a hodnot atributů pro ZABAGED a 1137 kombinací typů objektů a hodnot atributů pro ATKIS. 5
5.2 Kvalita Přiřazení se provádí v dvou směrech: ze ZABAGED do ATKIS a opačně. Přitom se neuvádějí jen jednoznačná, nýbrž všechna, která odpovídají objektu i jen částečně nebo mají pouze sémantickou podobnost. Prostřednictvím kategorií se uvádí kvalita, která vyjadřuje rozdílný stupeň nebo druh. Existuje celkem 7 kategorií (viz Obrázek 5-1 a Tabulka 5-1). Tabulka 5-1: Kategorie k určení kvality, A=ATKIS, Z=ZABAGED Obrázek 5-1: Kategorie z hlediska teorie množin O jednoznačné 1:1 (kategorie A) se jedná pouze tehdy, pokud v obou směrech existuje jednoznačná a úplná shoda objektu jednoho modelu s objektem druhého modelu. 6
Komplexnost již vyplývá z počtu a druhů kategorií. Značně rozdílný počet kombinací typů objektů a hodnot atributů (v ZABAGED 315 a v ATKIS 1137) a srovnání možných návrhů naznačují, že většinou najdeme jen částečné shody v druhém modelu. Proto nelze zabránit opakovanému. Příklad opakovaného je vidět na Obrázek 5-2. Typ objektů AX_Wald (AX-les) s vegetačním příznakem (VEG) Nadelholz (jehličnatý les) lze považovat za podmnožinu (kategorie D) typu objektů ZABAGED Lesní půda se stromy, tak i za nadmnožinu (kategorie B) typu objektů Lesní půda s kosodřevinou. Obrázek 5-2: Opakované s rozdílnými kategoriemi V některých případech lze definovat jako částečné (kategorie C). Část objektu má stejný význam, má ale navíc ještě další obsahy. Jedná se tedy o množinu se společnými prvky z obou datových modelů. Jiná lze provést pouze na abstraktnější úrovni sémanticky nadřazené návrhy (kategorie E). Kategorie F se použije pro kombinace typů objektů a hodnot atributů, kterým z důvodu rozdílů datových modelů nelze uvést konkrétní. Přesto je možné odvodit sémantickou informaci k příslušným objektům z prostorových vztahů. Mohou to být okolní nebo obsažené objekty. Ke skutečnému odvození sémantické informace je pak nutné zpracování dat v GIS. Kategorie G znamená. Ukázalo se, že důvody chybějícího jsou rozmanité, proto byly ještě definovány podkategorie (viz Tabulka 5-2). Objekty specifické v jedné zemi většinou nelze přiřadit objektům z datového modelu druhé země. Jedná se např. o kategorie vod, ochranná území a administrativní celky příslušných národních a politických struktur. Tabulka 5-2: Důvody chybějícího (podkategorie kategorie G) Kategorie G1 Kvalita Popis V přiřazovaném modelu se příslušná kombinace typů objektů a hodnot atributů nevede. 7
G2 Kombinace typů objektů a hodnot atributů obsahuje atribut, který při přiřazování nebyl dodatečně zohledněn. G3 Kombinace typů objektů a hodnot atributů patří ke složenému objektu. Přiřazení se provede přes jinou složku složeného objektu. G4 Pro kombinaci typů objektů a hodnot atributů neexistuje žádná reálná obdoba. G5 Kombinace typů objektů a hodnot atributů při možném vykazuje příliš malou sémantickou shodu. V zájmu kvality se tedy vůbec neuvádí. 5.3 Výsledky Tato kapitola se věnuje vyhodnocení přiřazování kombinací typů objektů a hodnot atributů. Kvalita sémantické harmonizace je závislá na rozložení jednoznačného resp. opakovaného, rozložení kategorií a také na důvodech chybějícího. Aby bylo možné výsledky srovnat se realitou, bylo provedeno reálné na testovacích datech ZABAGED a ATKIS v příhraniční oblasti. V ZABAGED má 74 % všech definovaných kombinací, v ATKIS 54% (viz Obrázek 5-3). Nižší procentuální hodnotu lze vysvětlit vyšší specifikací a stupněm zobrazení detailů datového modelu ATKIS. Podíváme-li se na počet pro každou kombinaci, můžeme rozlišit mezi jednoznačnými mi 1:1 a opakovanými mi (viz Obrázek 5-3). Výsledek ukazuje, že přes rozdíly v kategorizaci krajinných prvků a typu zobrazení přece jen existuje dobrá srovnatelnost obou datových modelů. Obrázek 5-3: Jednoznačné a opakované ve vztahu k datovému modelu Na oobrázek 5-4 je uveden počet přiřazených kombinací podle kategorií pro oba směry. Procentuální rozložení ZABAGED a ATKIS je pro většinu kategorií podobné. Rozdíly jsou u kategorie A 8
a kategorie D. ZABAGED vykazuje mnohem více jednoznačných 1:1, ATKIS má více v kategorii D. ATKIS tedy tvoří podmnožinu ZABAGED. Oba jevy mají svoji příčinu ve vyšším stupni podrobnosti datového modelu ATKIS. Obrázek 5-4: Podíly přiřazených kombinací v každém směru podle kategorií Z grafu je vidět, že právě v ATKIS značná část kombinací nenašla. Jsou to hlavně kombinace, které byly odebrány, protože obsahují atributy, jež dodatečně nebyly zohledněny (kategorie G2). Relevantní v obou datových modelech je i podkategorie G1, zejména v ZABAGED. Odtud vycházejí chybějící založené na sémantických resp. obsahových rozdílech. Zajímavá je také analýza použitých kombinací jiného datového modelu při přiřazování. Při k objektům v ATKIS bylo přibráno 73% kombinací ze ZABAGED, zejména typů objektů, které v ZABAGED jsou souhrnné pro různé objekty. Pro kombinace ATKIS existuje celkem jen 22% kombinací, které při nebyly použity. Jsou to objekty s velmi rozdílnou definicí základních charakteristických vlastností. Tyto objekty mohou být specifické v jedné zemi (např. silnice) nebo je příčina v rozdílném chápání užívání (např. u budov). Z vyhodnocení testovacího vzorku dat z česko-saského příhraničí vyplývá jiné rozložení kategorií, přičemž celkově je pro ATKIS výsledek příznivější. Kategorie G byla udělena méně než jedné třetině objektů, to znamená, že velmi specifické objekty se vyskytují jen velmi zřídka. Ve sledovaném příhraničním území ovšem nejsou velké sídelní útvary, které mají vysoký podíl specifických typů objektů v datovém modelu. Pro ZABAGED je podíl jednoznačných s hodnotou 33% značně nižší a při vyhodnocení testovacích dat ještě více vyniká problém opakovaného. Závěrem lze tedy konstatovat, že kvalita objektů a proveditelnost sémantické harmonizace vůbec, nejsou závislé jen na řešení konkrétního tématu, ale i na sledovaném území a tím i na existujících objektech. Po provedeném vyhodnocení výsledků lze obecně konstatovat, že mezi datovými modely české ZABAGED a saského ATKIS je možná kvalitní sémantická harmonizace. 9