Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií Studijní program: Aplikovaná informatika Obor: Informační systémy a technologie Webová aplikace s využitím Linked Open Data DIPLOMOVÁ PRÁCE Student : Dung Le Xuan Vedoucí : Ing. Dušan Chlapek, Ph.D. Oponent : Ing. Jan Kučera 2014
Prohlášení: Prohlašuji, že jsem diplomovou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze které jsem čerpal. V Praze dne 7. května 2014.................................. Dung Le Xuan
Poděkování Tímto bych chtěl poděkovat panu Ing. Dušanovi Chlapkovi, Ph.D. zato, že mi poskytoval svůj cenný čas a rady v průběhu zpracování mé diplomové práce.
Abstrakt Tato diplomová práce se zabývá problematikou otevřených dat. Cílem je představit čtenáři v současné době velmi populární téma. Propojení těchto dat nám poskytuje další výhody a možnosti, avšak velké množství otevřených dat je dnes zveřejněno ve formátech, které nelze vzájemně propojit. Proto se autor ve své práci zaměřil také na Linked Data. Důraz není kladen pouze na vznik, současný stav a budoucí vývoj, ale také na technickou stránku. Nejdříve budou čtenáři seznámeni s teoretickými pojmy, principem Linked Open Data, rozšířeností otevřených vládních dat v ČR i ve světě. V druhé kapitole se bude autor zabývat propojitelnými daty, RDF formátem, SPARQL jazykem. V poslední části se autor zaměří na nástroje pro práci s Linked Open Data a ukázkově navrhne pilotní aplikaci s využitím Linked Open Data. Přínosem celé práce je ucelený pohled na Linked Open Data jak z teoretické, tak i z praktické části. Hlavním cílem je poskytnout čtenáři kvalitní úvod do dané problematiky. Klíčová slova Open Data, Linked Data, Open Linked Data, RDF, SPARQL, opendata.cz
Abstract This thesis deals with the issue of open data. The aim is to introduce to reader the currently very popular topic. Linking these data together gives us more advantages and opportunities, however a large number of open data datasets are published in the format that cannot be linked together. Therefore, the author put great emphasis into his work on Linked Data. Emphasis is not placed only on the emergence, current status and future development, but also on the technical aspect. First, readers will be familiar with theoretical concepts, principles of Linked Open Data, expansion of open government data in the Czech Republic and abroad. In the next chapter, the author aimed at the data formats RDF, SPARQL language, etc. In the last section, the author introduce to readers the tools to work with Linked Open Data and design sample application using the Linked Open Data. The benefit of the whole work is a comprehensive view of the Linked Open Data both from a theoretical and from a practical part. The main goal is to provide to readers quality introduction to the issue. Keywords Open Data, Linked Data, Open Linked Data, RDF, SPARQL, opendata.cz
Obsah 1 Úvod... 8 1.1 Cíle, metriky a indikátory... 9 1.2 Používané metody a postup při zpracování práce... 10 1.3 Přínosy práce... 10 1.4 Předpoklady a omezení práce... 11 1.5 Rešerše prací na podobné téma... 11 1.5.1 Rešerše prací českých autorů... 11 1.5.2 Rešerše zahraničních prací... 13 2 Charakteristika Linked Open Data... 17 2.1 Definice pojmů... 17 2.2 Katalogizace LOD... 24 2.3 Rozšířenost LOD v EU a USA... 26 2.3.1 Open Data v USA... 27 2.3.2 Open Data v EU... 31 2.4 Rozšířenost LOD v ČR... 34 2.4.1 Projekty s LOD... 36 2.5 Rizika a omezení LOD... 38 2.6 Shrnutí... 38 3 Formáty LOD a nástroje pro práci s Linked Open Data... 39 3.1 Použití formátů Open Data... 40 3.2 Charakteristika formátu RDF... 42 3.2.1 RDF... 43 3.2.2 Ontologie... 45 3.2.3 RDFS... 45 3.2.1 SPARQL... 46 3.3 Nástroje pro práci s LOD... 47 3.3.1 Nástroje pro převod do RDF formátu... 48 3.3.2 Nástroje pro ukládání RDF... 53 3.4 Shrnutí... 57 4 Návrh a tvorba aplikace... 58 4.1 Analýza zdrojů dat... 58 4.2 Převod do RDF formátu... 59 4.3 Ukládání dat a vytvoření SPARQL endpointu... 64 4.4 Tvorba SW pro vizualizaci dat... 65 4.4.1 Požadavky... 65 4.4.2 Návrh... 65
4.4.3 Implementace... 68 4.5 Shrnutí... 71 5 Závěr... 72 Terminologický slovník... 74 Použité zdroje... 76 Seznam obrázků a tabulek... 83 Seznam obrázků... 83 Seznam tabulek... 83 Seznam grafů... 84 Příloha A: Seznam použitých knihoven... 85
Úvod 8 1 Úvod Tématem této diplomové práce je návrh a tvorba webové aplikace na bázi propojených a otevřených dat (Linked Open Data). V poslední době se stále více hovoří o otevřených datech, na světě vzniká čím dál tím více projektů zaměřených na toto téma. Když se Barack Obama v roce 2009 chopil vlády, podpořil iniciativu na otevřenost dat veřejné správy. Cílem bylo podat občanům transparentnější informace, posílit demokracii státu a zvýšit účinnost i efektivnost vlády (www.whitehouse.gov, 2014). Na světě vznikly projekty jako data.gov (data.gov, 2014), data.gov.uk (data.gov.uk, 2014) nebo opendata.cz, které publikují informace o veřejné správě ve strojově čitelném formátu. Avšak je zde také snaha tato data navzájem propojit a vytvořit tak Sémantický web (někdy také bývá označován jako Web 3.0). Tomuto webu kromě člověka rozumí také počítač, poradí si s komplexnějšími dotazy a poskytuje adekvátnější výsledky než současný web. Autor si toto téma vybral, jelikož jej považuje za velmi zajímavé a jako aktivní webový vývojář v něm vidí budoucnost vývoje celého konceptu webu. Primárním cílem této diplomové práce je seznámit čtenáře s charakteristikou i principy Linked Open Data a nastínit postup při jejich tvorbě a dalším znovupoužití při vývoji aplikací pro veřejnost. Celá práce je rozdělena na 4 kapitoly. V první kapitole budou představeny cíle, metodika i postup při zpracovávání celé práce. Neméně důležitou částí je literární rešerše existujících prací na podobné téma. V druhé kapitole se autor bude snažit charakterizovat LOD jak definicemi jednotlivých pojmů, které se v této oblasti vyskytují, tak i jejich vysvětlením na konkrétních příkladech. Záměrem je podat čtenáři ucelený pohled na danou problematiku. Dále bude čtenář podrobně seznámen s rozšířeností LOD jak v USA a Evropě, tak v ČR, a zároveň mu bude poskytnut přehled nejvýznamnějších projektů. Třetí kapitola se na rozdíl od druhé, která je zaměřena na pojmy a definice, bude zabývat technickou stránkou LOD. Čtenář bude seznámen s jednotlivými formáty, které se při tvorbě otevřených dat používají, a dozví se, jaké jsou jejich výhody či nevýhody. Autor se také pokusí o jejich porovnání z hlediska vhodnosti pro publikování propojených a otevře-
Úvod 9 ných dat. Dále autor zpracuje přehled nástrojů pro práci s LOD a provede jejich porovnání z hlediska vhodnosti pro začátečníka v této oblasti. Zatímco předchozí kapitoly byly spíše teoretické, poslední kapitola bude více prakticky zaměřená. Autor se zde bude snažit využít znalostí získaných při zpracování předchozích kapitol k návrhu a implementaci pilotní webové aplikace, která bude postavená na bázi Linked Open Data. Aplikace by měla mít nejen praktické využití, jejím cílem je zároveň obsáhnout všechny možnosti, které LOD nabízí, čímž by se měla stát demonstračním příkladem jejich používání. 1.1 Cíle, metriky a indikátory V tabulce č. 1 uvedené níže jsou přehledně uspořádány a vyjmenovány primární cíle, kterých by autor chtěl zpracováním této diplomové práce dosáhnout. Ve druhém sloupci jsou určeny metriky, jak dané cíle měřit. K vyhodnocení splnění cílů budou sloužit vyjmenované indikátory. Tabulka 1 - Cíle, metriky a indikátory Cíl Metrika Indikátor Charakteristika LOD a rešerše prací na související téma Obsah charakteristiky LOD, počet a zdroj prací zahrnuté do rešerše prací na související téma Charakteristika zahrnuje definice LOD, popis rozšířenosti LOD v Evropě, USA a ČR, projekty o LOD veřejné zprávy ČR, Rizika a omezení LOD. Rešerše prací musí obsahovat alespoň 5 českých a 5 zahraničních prací
Úvod 10 Cíl Metrika Indikátor Charakteristika používaných formátů a nástrojů pro práci s LOD Návrh a vývoj aplikace nad LOD Počet a míra využití jednotlivých formátů open data, obsah charakteristiky RDF formátu, počet charakterizovaných nástrojů pro práci s LOD, počet a relevantnost stanovených kritérií pro charakteristiku a porovnání nástrojů Do jaké míry aplikace splňuje navržené požadavky Alespoň 5 nejvyužívanějších formátů open data, souhrnný počet výskytu těchto formátů v národních katalozích, stručně popsán koncept RDF (struktura, ontologie, SPARQL), Alespoň 5 relevantních kritérií pro porovnání nástrojů, alespoň 5 nástrojů k porovnání u všech zvolených skupin, demonstrace užití nejlepších nástrojů Pilotní aplikace splňuje všechny navržené požadavky 1.2 Používané metody a postup při zpracování práce Teoretickou část práce bude autor zpracovávat metodou rešerší dostupných a relevantních zdrojů na dané téma. Při návrhu praktické části bude autor čerpat informace převážně z elektronických zdrojů. V kapitole 4 budou upřesněny všechny nástroje a technologie, které bude autor používat při tvorbě zvolené aplikace. Autor na celou práci nahlíží jako na projekt, který je podrobně rozštěpen na jednotlivé, menší části, které mají předem stanovený rozsah a termín dokončení. Cílem je pracovat na diplomové práci průběžně a dodržovat vymezené termíny. Jednotlivé části budou dále probírány s vedoucím práce a průběžně upravovány podle jeho zpětných vazeb. 1.3 Přínosy práce Přínosem této práce je poskytnutí uceleného pohledu na celou problematiku. Čtenáři budou seznámeni se základními pojmy, které se v této oblasti vyskytují. Dále získají přehled o formátech LOD a nástrojích, které usnadňují práci s LOD. Autor čtenářům stručně představí nástroje pro tvorbu RDF dokumentu, vytvoření SPARQL endpointu. Velkým příno-
Úvod 11 sem této práce je porovnávání nástrojů pro převod do RDF a ukládání těchto dat z hlediska vhodnosti pro začátečníka. Největším přínosem je postup při návrhu a implementace pilotní aplikace s využitím Linked Open Data. 1.4 Předpoklady a omezení práce Autor předpokládá, že čtenář této práce disponuje základními znalostmi v oblasti webových technologií. Dále autor také předpokládá, že jsou už předem vytvořené a publikované informace, které poslouží jako základ pro vybudování datové sady a pilotní webové aplikace. Jelikož je celá tématika poměrně nová, neexistuje mnoho publikací a materiálů, ze kterých by mohl autor čerpat informace. Primárním zdrojem informací jsou publikované články na toto téma a závěrečné práce na českých i zahraničních univerzitách. Další omezením je nezkušenost autora v této oblasti. Před zpracováváním této diplomové práce se problematikou LOD nezabýval a nemá žádné praktické zkušenosti s otevřenými daty. Protože je iniciativa otevřených dat v České republice poměrně nová, neexistuje mnoho datových sad, které by mohly být použity k tvorbě aplikace. Z tohoto důvodu spatřuje autor další omezení v originalitě aplikace. 1.5 Rešerše prací na podobné téma V této části diplomové práce provede autor rozbor jak závěrečných prací, tak odborných článků na podobné téma. Celá kapitola bude rozdělena na dvě části. V první části budou představeny práce českých autorů. Ve druhé části se autor zaměří na práce ze zahraničí. 1.5.1 Rešerše prací českých autorů Ve své práci na téma egovernment a otevřená data ve veřejné správě (Jedličková, 2013) M. Jedličková velmi dobře popsala egovernment v ČR a srovnala situaci s ostatními zeměmi v EU, primárně s Velkou Británií. V rámci teoretické části také stručně nastínila katalogizaci otevřených dat veřejné správy, kterou by autor dále rád využil v podkapitole 2.2 Katalogizace LOD. V práci je velmi dobře popsána a srovnána situace v ČR s Velkou
Úvod 12 Británií, získané informace budou využity v podkapitolách 2.3 Rozšířenost LOD v EU a USA a 2.4 Rozšířenost LOD v ČR. Primárním přínosem celé této práce je navržená metodika při publikování otevřených dat. Leckterá organizace dnes na síti publikuje otevřená data. Setkáváme se proto znovu s problémem rozšiřování internetu, a to důvěryhodností informací a dat. Každá organizace může publikovat data, která však mohou být chybná, nebo s nízkou kvalitou. T. Knap se v disertační práci (Knap, 2013) věnoval problematice důvěryhodnosti otevřených dat publikovaných na internetu. Hlavním cílem práce T. Knapa je nástroj ODCleanStore, který dokáže získat Linked Open Data, dotazovat na ně, pročistit a zbavit konfliktů a poskytnout je konzumentům LOD. Autor proto získané informace o tomto nástroji určitě zmíní při sestavování přehledu SW nástrojů pro práci s LOD. Vedle tohoto nástroje je v práci velmi dobře popsána struktura LOD. Autor se také inspiroval způsobem vysvětlení na základě konkrétního případu, který pomáhá čtenářům lépe porozumět problematice. Kroupa ve své závěrečné práci magisterského studia (Kroupa, 2012) podal zajímavý pohled na to, proč využívat otevřená a propojená data. Pro svoje odůvodnění nabídl velmi zajímavé příklady z historie i současnosti, které poukazují na přínos využití otevřených a propojených dat. Snahou autora je tento způsob zachytit a zakomponovat do první kapitoly při charakteristice LOD. Dále v charakteristice také velmi dobře odděluje Open Data a Linked Data, což jsou dva odlišné přístupy, které mohou být propojeny. Velmi stručně je zde rozebrána situace jak v ČR, tak v zahraničí. Nejdůležitějším a nejpodstatnějším bodem celé diplomové práce je podle autora popis katalogizace dat veřejné správy, který také využije při zpracování podkapitoly 2.2 Katalogizace LOD. V práci byly také zmíněny nástroje Comprehensive Knowledge Archive Network (CKAN) nebo Socrata, které slouží jako software pro vytváření a správu datového katalogu. Zatímco předchozí práce se zabývaly spíše teoretickou částí Linked Open Data, J. Dokulil se ve své rigorózní práci (Dokulil, 2006) zaměřil na technickou stránkou při vybudování sémantického webu. Podrobně je popsán dotazovací jazyk nad daty uloženými ve formátu RDF SPARQL. Tento praktický návod poslouží autorovi při tvorbě aplikace na LOD. T. Pošepný se při zpracovávání své práce (Pošepný, 2011) zabýval velmi podobným tématem, kdy v teoretické části stručně popisuje principy Linked Open Data a zvláště formátu RDF. Dále v praktické části Pošepný také vytváří experimentální aplikaci, která je
Úvod 13 postavená na bázi LOD. Autor by mohl z této práce čerpat praktické zkušenosti při zpracovávání jak teorie, tak i praktické aplikace. Velmi významným zdrojem informací je iniciativa pro otevřená data opendata.cz. Autor může čerpat jak zajímavé novinky z této oblasti, tak i prozkoumat katalog dat. Při návrhu aplikace se může inspirovat u zveřejněných aplikací a čerpat také zdroje dat, které jsou nabízeny ve formátu Linked Data. Obrázek 1 OpenData.cz (opendata.cz, 2014) 1.5.2 Rešerše zahraničních prací Autor při zpracovávání rešerše prací na podobné téma vybíral vedle českých i díla zahraničních autorů. Cílem bylo zjistit situaci LOD ve světě a získat informace i náměty na zpracování teoretické a praktické části práce. P. Archer, M. Dekkers, S. Geodertier a N. Loutas se ve své studii o obchodních modelech s využitím Linked Open Data (Archer, Dekkers, & Loutas, 2013) pro Evropskou komisi zabývali Linked Open Government Data všech zemí EU. Jedná se o otevřená a propojená data veřejné správy členských států. V práci se autoři snaží o charakteristiku obchodního modelu LOGD. Nahlížejí na celou problematiku z různých dimenzí, jako je nákladová struktura, segmenty trhu, příjmy, kanály nebo vztahy se zákazníky (konzumenty dat). Co avšak autor považuje za nejvíce přínosné, je 37 případů užití LOGD, které jsou podrobně zanalyzovány z výše vyjmenovaných hledisek. Vedle toho je v práci také zmínka o Linked Open Data as a Service nebo životním cyklu otevřených a propojených dat. Tato práce je velmi přínosná a její informace budou cenným podkladem při zpracovávání podkapitoly 2.1 Definice pojmů.
Úvod 14 Obrázek 2 Životní cyklus Linked Open Data (Archer, Dekkers, & Loutas, 1013) V průběhu vývoje informatiky se relační databáze dostaly do všech systémů a nyní je v nich uložena většina dat (Oracle, MySQL, MSSQL, ). S rostoucím významem sémantického webu vyvstala potřeba ukládat data do RDF formátu. Ručně by byl tento proces časově náročný, proto se C. Froment ve své diplomové práci (Froment, 2012) zabýval nástroji pro transformaci relačních dat na Linked Open Data. Christian P. Geiger a J. von Lucke (Geiger & von Lucke, 2012) ve svém článku podrobně definují jednotlivé pojmy jako Open Government Data, Linked Open Government Data nebo Open Data. Autoři článku se snažili jasně vysvětlit tyto pojmy, které jsou v praxi velmi často zaměňovány a nepřesně používány. Dále jsou v práci také vyjmenovány přínosy, ale také výzvy pro veřejnou správu při zpřístupnění veřejných dat občanům. Velmi zajímavá je SWOT analýza, která poukazuje na silné a slabé stránky otevřených veřejných dat. V práci byla také zmínka o Open Private Data, což s ohledem na samotný název termínu Open Private Data působí trochu paradoxně. Bauer a Kaltenbock ve své práci (Bauer & Kaltenbock, 2012) vyjmenovali základní principy Open Government Data a nastínili postup transformace z Open Data na Linked Open Data. Ve svém díle poukazují na náklady a výnosy při používání web dat. Největší přínos Bauerovy a Kaltenbockovy práce autor spatřuje v argumentaci, proč jsou Linked Open Data vhodná a proč by se na ně vývojáři měli zaměřit. Jak již bylo zmíněno výše, publikování Open Government Data pomáhá k větší transparentnosti, participaci a spolupráci veřejné správy. Avšak vedle toho přináší také nemalé ekonomické přínosy. Právě tomuto aspektu věnoval ve svém díle pozornost
Úvod 15 Mustafa (Mustafa, 2012), když analyzoval roli OGD v podnicích a jejich přínos. Tyto poznatky by autor rád zakomponoval do kapitoly 2 při charakterizaci LOD; velmi dobrý popis vývoje OGD v USA, VB a Rakousku bude sloužit jako pramen při zpracování podkapitoly 2.3 Rozšířenost LOD v Evropě a USA. Ačkoliv jsou Linked Open Data primárně používána ke zveřejňování dat veřejné správy nebo pro publikaci obecných informací občanům, najdou se i případy, které jsou velmi neobvyklé. Kdo by si pomyslel, že Linked Open Data nenajdou uplatnění třeba v komunistické Číně, kde je přísná cenzura a zveřejňování dat tamním lidem připadá naprosto absurdní a nemožné, tak se mýlí. Linked Open Data přinášejí nemalé výhody, a proto se dnes vyskytují a používají v mnoha oblastech. Jun Zhao ve svém článku (Zhao, 2010) popisuje publikování znalostí čínské medicíny jako Linked Data na webu. Obrázek 3 Aplikace pro alternativní medicínu (Zhao, 2010) Při zpracovávání literární rešerše dostupných zdrojů na podobné téma získal autor dobrý přehled nad danou problematikou. Autoři prací velmi dobře charakterizovali principy a přínosy otevřených dat. Při studování těchto podkladů získal autor ale dojem, že pojmy Open Data a Linked Data splývaly, přitom se jedná o dva odlišné přístupy k datům. Převážná část prací neodlišovala otevřená a propojená data, nebo propojeným datům nevěnovala dostatečnou pozornost. Proto by chtěl autor při zpracování teoretické části tyto
Úvod 16 principy jasně diferencovat a soustředit se spíše na Linked Open Data aktivity jak ve světě, tak v ČR.
Charakteristika Linked Open Data 17 2 Charakteristika Linked Open Data V této kapitole se autor bude snažit o definici nejenom Linked Open Data, ale i dalších termínů, které s tímto tématem souvisí. Cílem je jednak seznámení čtenáře s důležitými pojmy, které se v dalších částech práce budou vyskytovat, jednak vybudování pevného teoretického základu pro vývoj práce. Ačkoliv se jedná o jeden termín Linked Open Data, představuje dva zcela odlišné způsoby práce s daty, které se dají dobře zkombinovat. V následujících podkapitolách autor kromě definování pojmů čtenáře také seznámí s rozšířeností těchto konceptů jak ve světě, tak v ČR. Dále bude potřeba poskytnout informace o katalogizaci LOD veřejné správy a získat stručný přehled o projektech, které se zaměřují na otevřená a propojená data. Na konci kapitoly autor vyjmenuje jistá rizika a omezení Linked Open Data. 2.1 Definice pojmů Jak už název napovídá, Linked Open Data se skládá z Linked Data a Open Data. Dále se velmi často používá termín Open Government Data nebo také Linked Open Goverment Data. Na neodborníky toto může působit poněkud matoucím dojmem. Proto je cílem autora v této podkapitole vysvětlit vyjmenované, ale i další pojmy, které jsou pro zvolenou oblast klíčové. Open Data Matthew Fontaine Maury byl významný americký astronom a oceánograf. Když po poranění nohy nebyl schopen další plavby na moři, věnoval všechen svůj čas studiu navigace, meteorologie, větrů a mořských proudů. Jako náčelník Americké námořní observatoře a správce Mapového a přístrojového skladu měl Maury přístup ke všem lodním deníkům, do kterých kapitáni sepisovali veškeré svoje poznatky o mořích. Na základě těchto dat Maury vypracoval práci Wind and Current Chart of the North Atlantic, která poskytla významné informace o využívání větrů a mořských proudů. Díky němu dosáhla celá námořní doprava významných pokroků a doba plavby se výrazně zkrátila (U.S. Navy Museum, 2014). Zde vidíme způsob využívání dat lodních deníků, která
Charakteristika Linked Open Data 18 jsou přístupná a podařilo se díky nim vytvořit aplikaci, kterou využívali námořníci, čímž se dosáhlo ekonomického zisku. Na podobném principu fungují otevřená data. Podle definice Open Knowledge Foundation (Open Knowledge Foundation, 2014) jsou data otevřená tehdy, když jsou volně dostupná a konzumenti dat s nimi mohou volně nakládat, znovu je používat a distribuovat za předpokladu, že bude uveden jejich autor a budou zachována stejná oprávnění i pro další konzumenty. Dále je podle definice otevřené znalosti dílo otevřené, pokud splňuje následující podmínky: 1. Dostupnost dílo by mělo být dostupné za cenu ne vyšší než náklady na vytvoření jeho kopie a s možností stažení z internetu zdarma; 2. Redistribuce dílo by nemělo být omezováno licencí při dalším šíření; 3. Znovupoužití licence na dílo musí umožňovat jeho znovupoužití jinými subjekty a dílo musí být licencováno za obdobných podmínek jako originální dílo; 4. Neexistence technologického omezení dílo musí být k dispozici v takovém formátu, které neznemožňuje realizaci uvedených podmínek; 5. Uvedení autora licence musí obsahovat podmínku pro uvedení autora při dalším šíření a modifikaci díla; 6. Integrita upravené dílo musí mít podle licence jiný název než originální dílo za účelem zachování integrity; 7. Zákaz diskriminace osob a skupin licence nesmí diskriminovat žádnou skupinu osob; 8. Zákaz diskriminace oblasti použití licence nesmí omezovat žádnou oblast použití; 9. Šíření licence práva spojená s dílem se musí vztahovat na všechny dotčené strany, pro které je práce určena, bez nutnosti dodatečné licence; 10. Licence nesmí být specifická pro soubor; 11. Licence nesmí omezovat distribuci dalších prací. Dílo zde můžeme chápat jako část vložené znalosti nebo znalost jako celek. Termín znalost v sobě zahrnuje obsah, data nebo informace (Open Knowledge Foundation, 2014).
Charakteristika Linked Open Data 19 Otevřená data jsou všechna uchovávaná data, která mohou být přístupná na žádost veřejnosti bez jakýchkoliv omezení užívání a distribuce těchto dat (Geiger & von Lucke, 2012). Podle opendata.cz (opendata.cz, 2014) má otevřená podoba následující vlastnosti: 1. Technická otevřenost, tj. zveřejněná data jsou strojově čitelná; 2. Legislativní otevřenost; 3. Dostupnost a původnost; 4. Přehlednost (vytváření katalogů datových sad pro usnadnění vyhledávání). Obsahem otevřených dat mohou být vzdělávací materiály, zeměpisná data, statistiky, dopravní informace atd. V dnešní době otevřená data publikuje nejen veřejná správa, ale také podniky, univerzity nebo neziskové organizace (Geiger & von Lucke, 2012). Z tohoto důvodu vzniká mnoho otevřených dat a objevuje se zde problém s důvěryhodností zdrojů dat (Knap, 2013). Je velmi zajímavé, že žádná definice otevřených dat tento zásadní problém neřeší. V dnešní době už vydavatelé při publikaci většinou splňují první 3 podmínky otevřených dat, ale jejich data jsou publikována na různých portálech a přístup k nim je někdy velmi omezený (vzniká zde problém s přehledností). Pro vyřešení tohoto problému vznikají katalogy datových sad, které všechna data shromažďují na jednom místě. Více informací o katalozích bude poskytnuto v následující podkapitole 2.4. Linked Data Tim Berners-Lee, vynálezce World Wide Webu a současný ředitel konsorcia W3C, na svém webu publikoval v roce 2006 definici Linked Data (Berners-Lee, 2006). Ve svém článku Berners-Lee používá termín Sémantický Web, proto je dobré tento pojem nejprve vysvětlit. Definici si vypůjčíme z Wikipedie. Na rozdíl od klasického webu, kterým je web dokumentů, je sémantický web jeho dalším evolučním stupněm. Jedná se o web, kde jsou informace strukturovány a uloženy podle předem uložených pravidel, což usnadňuje jejich vyhledávání a zpracování. Místo dokumentů se na webu ukládají data, která jsou vzájemně propojená (Wikipedia, 2014). Sématický web je založen na klasických webových standardech jako HTTP a URI, ale i na specifických technologiích Linked Data jako RDF, OWL, SPARQL atd. (Kroupa, 2012). Tyto technologie budou dále popsány v kapitole 3.
Charakteristika Linked Open Data 20 Vraťme se nyní k Linked Data. Podstatou sémantického webu není jen přidávání dalších dat na web. Je potřeba je vzájemně propojit, aby se stroj nebo osoba, která má některá data k dispozici, mohla dostat k dalším souvisejícím datům. Tento přístup můžeme přirovnat k hypertextovým odkazům u klasických webů (Berners-Lee, 2006). Linked Data obsahují následující 4 pravidla při publikaci: 1. Používání URI k identifikaci zdrojů; 2. Používání HTTP URI, aby uživatelé mohli tyto zdroje najít; 3. Když uživatel najde URI zdroje, je potřeba mu poskytnout relevantní informace, které jsou ve standardních formátech (RDF); 4. Propojit URI s jinými, aby uživatelé mohli najít další související zdroje (Berners- Lee, 2006). Obrázek 4 vývoj webu (Bauer & Kaltenbock, 2012) Na obrázku 4 vidíme graf vývoje koncepce webu. Neznámějším projektem Linked Data je DBpedia, který extrahuje data z Wikipedie a transformuje je do podoby Linked Data. Díky tomu, že je DBpedia postavena na technologiích sémantického webu, umožňuje oproti Wikipedii komplexnější dotazy na daný obsah a poskytuje na ně adekvátnější data. Anglická verze obsahuje přes 4 milióny zdrojů, z toho 832 tisíc osob, 639 tisíc míst, 209 tisíc organizací atd. (DBpedia, 2014).
Charakteristika Linked Open Data 21 Další datové množiny jsou dále propojeny s DBpedií a vzniká Linked Data Cloud, který se velmi rychle rozrůstá. Na obrázku 5 je vidět Linked Data Cloud Diagram z roku 2011. Obrázek 5 LOD Cloud Diagram (Freie Universitat Berlin, 2011) Linked Open Data Navážeme na příklad Mauryho využití dat z lodních deníků. Námořníci v této době běžně používají kompas a data z něj získaná jim slouží k navigaci po moři. Nyní mají další data z práce od Mauryho, která propojí spolu s daty kompasu a získají mnohem mocnější nástroj, který jim umožňuje se lépe a rychleji pohybovat po moři. V tom tkví síla propojených a otevřených dat. Pokud otevřená data propojujeme, uživatel získá komplexnější a bohatší informace o dané problematice. Když se podíváme na výše definovaný pojem Linked Data, můžeme se na Linked Open Data dívat jako na Linked Data, která jsou otevřená jak z technologického, tak i legislativního hlediska, umožňují volné užívání a distribuci a jsou zařazená do katalogů pro větší přehlednost.
Charakteristika Linked Open Data 22 Obrázek 6 Kvalita LOD (Berners-Lee, 2006) Tim Berners-Lee navrhl kritéria, která hodnotí kvalitu publikovaných Linked Open Data. 1. Data jsou publikována jako otevřená data; 2. Data jsou strojově čitelná; 3. Data nejsou uložena v proprietárních formátech; 4. Data jsou publikována v RDF; 5. Data jsou provázána s dalšími daty (Berners-Lee, 2006). V následující tabulce č. 2 jsou vyjmenovány výhody jednotlivých úrovní kvalit pro konzumenta i producenta. Tabulka 2 - Kvalita LOD, výhody a podmínky (Kroupa, 2012) Stupeň kvality Výhody pro konzumenta Výhody a podmínky pro producenta 1 Data můžete prohlížet a tisknout. Jednoduchá publikace. Data můžete ručně zadat do jiného systému. Data můžete uložit a použít lokálně.
Charakteristika Linked Open Data 23 Stupeň kvality Výhody pro konzumenta Výhody a podmínky pro producenta 2 Všechny výhody předchozího stupně. Jednoduchá publikace. Data můžete exportovat do jiného strukturovaného formátu. Data můžete přímo zpracovávat pomocí proprietárního SW, např. pro výpočty nebo vizualizace. 3 Data můžete zpracovávat pomocí SW, který daný formát podporuje, nikoliv pouze s výchozím proprietárním SW. 4 Na data je možné odkazovat z jiného místa. Data je možné tagovat, je možné znovupoužít část dat. 5 Můžete procházet další související data (i publikovaná jinde). Znáte datové schéma. Data bude možná nutné konvertovat do otevřeného datového formátu. Stále se však jedná o jednoduchou publikaci. Je nutné přiřadit URI k datovým položkám a přemýšlet o tom, jak reprezentovat data. Získáte kontrolu nad datovými položkami, díky kterým můžete optimalizovat jejich přístup (load balancing, cache). Budete muset investovat prostředky do propojení dat s jinými daty na webu. Vaše data budou zjistitelná. Můžete zvýšit hodnotu svých dat. Open Government Data a Linked Open Goverment Data Jak názvy těchto termínů napovídají, týkají se dat veřejné správy. Důležitou motivací pro OGD je učinit data více přístupná a umožnit občanům a organizacím s nimi efektivně pracovat. Při využívání těchto dat mohou například zvýšit příjmy, čímž se zvýší bohatství celého státu (Mustafa, 2012). Tim Berners-Lee OGD definoval jako data, která jsou o dané zemi, ale netýkají se konkrétních osob. Tato data neobsahují ani informace soukromého charakteru, ani informace o armádě nebo státních tajemstvích (Mustafa, 2012). Open Government Data jsou všechna uložená data, která jsou zveřejněná veřejnou správou a veřejnost je může volně využívat a distribuovat. Z předchozí definice vychází i Linked
Charakteristika Linked Open Data 24 Open Government Data - jejich definice je ale doplněna o vzájemnou propojenost těchto dat. 2.2 Katalogizace LOD Jak už bylo řečeno výše, otevřená data jsou publikována jako datové sady, které jsou velmi často dostupné na stránkách dané instituce. Datové sady jsou datové množiny, které představují kolekci souvisejících dat, jež jsou publikována a spravována jedním subjektem, jsou volně stažitelná z internetu a vhodná ke strojovému zpracování (Chlapek, Kučera, & Nečaský, 2013). V ČR velmi aktivně publikuje Český statistický úřad nebo Ministerstvo financí. S iniciativou Open Governmentu a Open Data a publikováním dat veřejné správy v otevřeném formátu k posílení transparentnosti, participace a efektivnosti státu čím dál tím více organizací publikuje svoje data. V důsledku toho ale dochází k roztříštěnosti těchto informací a konzument dat časem ztrácí přehled o tom, která data se kde nachází. Původní cíl publikování otevřených dat jako prostředek zpřístupnění dat občanům tak ztrácí svůj smysl. Na podobném principu a s podobným účelem je založena snaha o vytvoření datového katalogu, který by soustředil veškeré dostupné datové na jednom místě a více zpřístupnil konzumentům dat informace k dalšímu užití. Datový katalog je množina záznamů popisující datové záznamy, usnadňuje uživatelům vyhledávání požadovaných datových množin, které mohou být publikovány na různých místech (Chlapek, Kučera, & Nečaský, 2013). V mnoha zemích již katalogizace otevřených a propojených dat započala. V USA se jedná o data.gov, ve Velké Británii portál data.gov.uk. Datový katalog neobsahuje data samotná, ale pouze jejich popisy. V tom je podobný katalogům v knihovnách, kde sice vlastní texty dokumentů nenaleznete, ale zato se z nich dozvíte například to, jak se k těmto textům dostat. Katalog obsahuje popisná (např. název nebo tagy) a přístupová metadata (např. odkaz, kde jsou data ke stažení) (Mynarz, 2012). Datový katalog působí jako seznam všech dostupných datových sad. U jednotlivých datových sad se kromě dat nachází také popisující metadata, která poskytují dostatečné informace o dané datové sadě. Tato metadata by měla být také strojově čitelná.
Charakteristika Linked Open Data 25 Datový katalog může mít mnoho podob, protože existuje mnoho variant, jak může být koncipován. V následující tabulce můžeme vidět možné varianty. Tabulka 3 - Vlastnosti a možnosti datového katalogu (Kroupa, 2012) Vlastnost Provoz Replikace dat Správa datového katalogu Plnění datového katalogu Konzumace dat Možnosti Centralizovaný X Distribuovaný Data umístěna u provozovatele X replikována do katalogu X kombinace obojího Veřejnost X Ověřený uživatel X Zástupce OVM X Redaktor Ruční X automatizované X poloautomatizované Vyhledávání a následná práce přímo se zdrojem X práce s daty prostřednictvím katalogu Varianta centralizovaného provozu předpokládá jediný hlavní katalog, který by byl povinný pro všechny producenty dat. Naopak distribuovaný provoz představuje soubor několika specifických katalogů podle určitého zaměření. U centralizovaného katalogu je výhodou snadná správa. Naopak u distribuovaného přístupu je možno speciálně upravit katalog pro danou oblast (specifická metadata) a tím co nejlépe popsat datové sady. Datové sady mohou být uloženy na stránkách vydavatele, nebo také fyzicky umístěny na serverech provozovatelů katalogu. Při umístění datových sad přímo v katalogu vzniká další povinnost pro správce katalogu, a to udržet všechna data aktuální. Na druhou stranu jsou data stále uchována, jestliže dojde k výpadku u poskytovatele dat. Dále mohou být datové katalogy odlišeny i správcem katalogu, nebo způsobem plnění dat. Katalog může být naplněn daty ručně, ale i automatizovaně. Datové katalogy mohou také nabízet práci s daty přímo v prostředí katalogu, např. pomocí SPARQL endpointů atd. (Kroupa, 2012). Dnes existuje mnoho softwarů, které umožňují vytvořit a spravovat datový katalog. Mezi nejvýznamnější patří open source nástroje jako CKAN nebo Socrata.
Charakteristika Linked Open Data 26 2.3 Rozšířenost LOD v EU a USA V této podkapitole se zaměříme na rozšířenost LOD ve světě. Cílem je vymezit všechny důležité projekty v USA a EU, národní i nadnárodní datové katalogy s důrazem na rozšířenost a využití Linked Open Data. Je velmi důležité poukázat na přístupy vlád jednotlivých zemí k problematice otevřených dat. Zpřístupnění informací pro celou veřejnost i vývojovou komunitu přináší státu obrovské výhody. Rufus Pollock, spoluzakladatel Open Knowledge Foundation, řekl: Nejzajímavější způsob využití vašich dat vymyslí někdo jiný (Boček, Mráček, & Mynarz, 2012). Obrázek 7 Míra adopce otevřených dat na světě (Boček, Mráček, & Mynarz, 2012) Podle studie McKinsey můžou otevřená data ušetřit vyspělým ekonomikám 100 miliard eur ročně na straně institucí a 450 miliard na straně klientů. Na obrázku 7 můžeme proto vidět, že mnoho států jako USA, Kanada, Velká Británie, Austrálie nebo také Keňa už si výhody otevřených dat uvědomují a aktivně přistupují k jejich publikování i správě (Boček, Mráček, & Mynarz, 2012). Velmi důležitá z hlediska otevřených dat je multilaterální iniciativa Partnerství pro otevřené vládnutí Open Government Partnership (OGP), která podporuje otevřenost, transparentnost a boj proti korupci. Tato iniciativa byla vyhlášena 8 státy v čele s USA a Brazílií v září 2011. S těmito státy také spolupracovaly významné neziskové organizace (např. Transparency and Accountability Initiative) (OGP, 2014).
Charakteristika Linked Open Data 27 Cílem celé iniciativy je více zapojit občany do řízení státu, vytvoření a zlepšování veřejné služby. Každá vláda, která se k iniciativě připojí, spolu s občany vytvoří závazek a pravidelně bude informovat o tom, jak se ho daří plnit. Konkrétně musí vláda shromáždit nápady, jež pak propojí a vytvoří projekt ( Akční plán ), který poté splní zhruba do 2 let (opengov.cz, 2014). Česká republika se dopisem tehdejší místopředsedkyně vlády Karolíny Peake k iniciativě připojila 14. září 2011. Jako nezisková organizace z ČR zde působí Nadace Open Society Fund Praha, která pomáhá vládě při sestavení Akčního plánu (opengov.cz, 2014). V rámci iniciativy vzniká řada projektů, které jsou postavené na principu Open Data a pomáhají lidem po celém světě zlepšit transparentnost a snížit míru korupce. V Brazílii vláda zavedla on-line sledování výdajů státních institucí, čímž došlo k okamžitému poklesu korupce. Chile uzákonilo politickým stranám povinnost zveřejňovat na webu financování volebních kampaní. Britové spustili centrální úložiště vládních dat, z nichž např. vyplynulo, které nemocnice jsou kvalitní a které ne úmrtnost při kardiochirurgických operacích vzápětí klesla na polovinu (Mráček, 2011). Jak už bylo řečeno, vznik a vývoj Open Data můžeme nalézt v mnoha zdrojích, některé jsou přímo zmíněné v rešerši literatur na podobné téma. Cílem této podkapitoly je zaměřit se na konkrétní využití Linked Open Data. 2.3.1 Open Data v USA Profesor G. Zhiyong Lan se ve své práci zabýval krizí veřejné správy ve ztrátě důvěryhodnosti občanů. Projekt egovernment měl být nástrojem, který tuto krizi napraví a posílí transparentnost, participaci a efektivnost veřejné správy. Právě Open Government Data je novým vývojovým stádiem egovernmentu v USA (Mustafa, 2012). Na začátku 21. století vláda USA volně zpřístupnila data o počasí a globální systém pro určování poloh GPS. Od té doby američtí podnikatelé a inovátoři využívají tato data k vytváření navigačních systémů, aplikací na práci s počasím atd. Tento krok vedl ke zvýšení životní úrovně v USA, vytvářel nová pracovní místa a stál za ekonomickým rozvojem. Tento fakt je jedním z podnětů, které vládu přesvědčily, že koncept otevřených vládních dat představuje pro veřejnou správu budoucnost (Park & VanRoekel, 2013).
Charakteristika Linked Open Data 28 Když se v lednu 2009 ujal úřadu nový prezident Barack Obama, vydal nové nařízení k zahájení inciativy otevřených vládních dat. Barack Obama si velmi dobře uvědomoval, že jedině otevřené vládnutí posílí transparentnost, participaci a spolupráci ve veřejné správě. Touto novou iniciativou chtěl posílit demokracii v USA (Boček, Mráček, & Mynarz, 2012). Datový katalog 21. května 2009 byl spuštěn centrální katalog otevřených vládních dat USA data.gov s 76 datových sad a 11 nástroji pro práci s otevřenými daty. Dnes už tento katalog obsahuje 90 565 datových sad, na nichž jsou postavené stovky webových a mobilních aplikací, které poskytují tato data občanům ve srozumitelnější a komfortnější podobě. Data.gov je dnes domovem pro americká otevřená vládní data. Nachází se na nich federální, státní i lokální data, nástroje a další zdroje, které mohou být využity k výzkumu, vytvoření aplikací, vizualizaci a mnoha dalším činnostem. Samotný katalog působí jako open-source, a tak se do jeho vývoje může zapojit každý (DATA.GOV, 2014). Data.gov se stal také vzorem pro státy USA i celý svět. Na následujícím obrázku 8 vidíme mapu 44 států USA, které mají vlastní lokální síť otevřených dat. Obrázek 8 Státy USA s lokální sítí otevřených dat (DATA.GOV, 2014) Na obrázku 9 pro změnu můžeme spatřit 45 států, které následovaly příklad USA a vybudovaly si vlastní síť otevřených vládních dat.
Charakteristika Linked Open Data 29 Obrázek 9 Státy na světě otevírající data pro občany (DATA.GOV, 2014) Projekty s LOD Dne 9. května 2013 americká vláda vydala prezidentské nařízení č. 13642, kterým stanovila, že výchozí stav nových a modernizovaných informačních zdrojů veřejné správy musí být otevřený a strojově čitelný. To se také shodovalo s memorandem nastiňujícím vytvoření politiky otevřených dat (Open Data Policy), které vyžaduje, aby vládní agentury shromažďovaly a vytvářely informace způsobem, který podporuje jejich následné zpracování a šíření. To zahrnuje používání strojově otevřených formátů, datových standardů, společného jádra a rozšiřitelných metadat (Gottlieb-Miller, Vaidyanathan, Wickner, CobleSarah Potvin, & Shirazi, 2013). V souvislosti s prezidentským nařízením a vytvořením politiky otevřených dat vznikl Project Open Data. Tento projekt vytvořený vládním CIO Stevenem VanRoekelem a CTO Toddem Parkem je online veřejné úložiště určené k podpoře spolupráce a neustálého zlepšování Open Data Policy. Todd Park a Steven VanRoekel celý tento projekt koncipovali jako open-source nástroj, kde může každý člověk přispět k jeho zlepšení. Project Open Data je publikován na GitHubu a tvoří platformu, která umožní vývojářské komunitě spolupracovat, sdílet a zlepšovat zdrojový kód (Park & VanRoekel, 2013).
Charakteristika Linked Open Data 30 Project Open Data obsahuje: 1. Definice pojmů jako otevřená data, otevřené licence nebo metadata; 2. Implementační návody pro zavedení otevřených dat; 3. Nástroje pro práci s otevřenými daty (např. nástroj na převod relačních databází na REST API, které poskytují data v XML, JSON nebo HTML); 4. Zdroje o otevřených datech; 5. Případové studie a best practices od úřadů veřejné správy, které úspěšně zavedly přístup otevřených dat (Project Open Data, 2014). Linked Open Data v USA Dosud jsme se zabývali jen vznikem a vývojem otevřených dat, ale nikoli propojenými daty. Z datového katalogu můžeme vyfiltrovat všechny datové sady, které jsou dostupné v RDF formátu. Ke dni zpracování této diplomové práce se zde nachází 144 datových sad (DATA.GOV, 2014). Toto číslo oproti celkem 92 124 datových sad představuje zanedbatelnou část. Pokud budeme hodnotit jejich kvalitu na škále definované Timem Berners- Leem (Berners-Lee, 2006), tak pouhých 0,1 % datových sad má 4 hvězdičky. Z katalogu data.gov nelze však zjistit, jestli jsou tato data propojená s dalšími datovými sady. S rostoucím významem otevřených dat v USA ovšem vzniká projekt Linking Open Goverment Data Portal (LOGD), kterého se chopil tým z agentury Tetherless World Constellation (TWC) na Rensselaer Polytechnic Institute. Jedná se o open-source portál, který data z portálu data.gov konvertuje, publikuje a obohacuje o další propojená data s cílem poskytnout uživatelům přístupnější data. Portál TWC LOGD má následující funkce: 1. Konverze/vytvoření dat většina dat je na data.gov publikována v surové podobě (XLS nebo CSV formát), TWC LOGD portál tato data převede na RDF formát a zároveň datovou sadu obohacuje o další metadata; 2. Obohacování dat vzniklá data se obohacují o další propojení na další datové sady; 3. Dotazování nad daty pomocí SPARQL se provádějí dotazy nad vytvořenými daty (DiFranzo, 2010).
Charakteristika Linked Open Data 31 Vedle otevřených vládních dat koncept Linked Open Data využívají i další veřejné i soukromé instituce. Kompletní seznam portálu Linked Open Data můžeme nalézt ve wiki organizace W3C (W3C, 2014). 2.3.2 Open Data v EU Vzoru USA jako první v Evropě následovala Velká Británie. V červnu 2009 požádal tehdejší britský premiér Gordon Brown profesory Tima Berners-Leeho a Nigela Shadbolta o to, aby zajistili otevřenost dat veřejné správy. Poté Berners-Lee a Shadbolt vytvořili tým čítající přes 2 400 vývojářů, kteří pracovali na beta verzi katalogu data.gov.uk, který byl spuštěn v září 2009. Oficiálně byl spuštěn 21. ledna 2010 a byl od začátku navržen technologiemi sémantického webu. Po vzoru USA a Velké Británie se i další státy EU začaly zajímat o Open Data a vytvářely svoje národní datové katalogy s cílem posílit transparentnost veřejné správy. Z hlediska otevřených dat je velmi důležitá novelizovaná směrnice 2003/98/ES o opakovaném použití informací veřejného sektoru ze dne 26. června 2013. Členské státy mají povinnost do 18. července 2015 přijmout nová opatření a zveřejnit právní a správní předpisy v souladu s touto směrnicí. Podobně jako prezidentské nařízení č. 13642 směrnice 2003/98/ES definuje data, která musejí být dostupná v otevřené podobě. Zákon klade důraz na zpoplatnění veřejných dat a na publikování těchto dat ve strojově čitelném formátu. Otevřenou normu musí splňovat především z hlediska formátu (Chlapek, Kučera, & Nečaský, 2013). Datové katalogy Během několika let bylo v Evropě vytvořeno mnoho datových katalogů. Jedná se jednak o nadnárodní katalogy (open-data.europa.eu datový portál Evropské komise nebo publicdata.eu agreguje katalogizační záznamy z národních katalogů), národní katalogy (data.gov.uk, data.gov.sk) nebo také katalogy lokálních a nevládních organizací. Na portálu datacatalogs.org (Opendatalogs.org, 2014), portálu založeném v Berlíně a vedeném významnými organizacemi z celého světa jako Světová banka atd., jehož cílem je sdružit všechny datové katalogy na světě, můžeme najít celkem 121 katalogů, které patří do skupiny oficiálních datových katalogů EU.
Charakteristika Linked Open Data 32 V následující tabulce se autor pokusil sestavit stručný seznam významných datových katalogů v EU. Jelikož nás zajímá rozšířenost Linked Open Data v EU, u každého katalogu bude také uveden počet a podíl datových sad dostupných ve formátu RDF na celkovém součtu datových sad. Tabulka 4 - Národní a EU datové katalogy Stát/Organizace Katalog Počet RDF datové sady Podíl RDF datových sad Velká Británie Data.gov.uk 17852 114 0,6% EU open-data.europa.eu 6528 14 0,2% EU Publicdata.eu 46699 433 0,9% Španělsko Opengov.es 869 1 0,1% Německo Offenedaten.de 578 1 0,1% Itálie It.ckan.net 243 6 2,4% Irsko Ie.ckan.net 268 0 0% Česká republika Cz.ckan.net 178 18 10% Slovensko Data.gov.sk 205 0 0% Jak vidíme z výsledků uvedených v tabulce 4, jen velmi malý podíl datových sad je přístupný ve formátu RDF, který je základem pro Linked Open Data. Většina datových sad je publikována ve formátu CSV, zůstává zde ale stále velký počet datových sad v PDF. Avšak ani RDF formát nám sám o sobě nepoví, že se jedná o Linked Open Data. Jen data.gov.uk nabízí filtr datových podle stupňů otevřenosti nadefinovaných Timem Berners- Leem (Berners-Lee, 2006), kde se nachází 81 datových sad s 5 hvězdičkami v RDF formátu. Z tohoto jasně vyplývá, že ačkoliv jsou Open Data v EU velmi rozšířená, je mezi nimi stále velká absence propojenosti. Proto také vznikají projekty jako LOD2 nebo Comsode, které
Charakteristika Linked Open Data 33 mají za cíl prosadit princip propojených otevřených dat jak do soukromé, tak i veřejné sféry EU. Projekty s LOD LOD2 je rozsáhlý čtyřletý integrační projekt spolufinancovaný Evropskou komisí z prostředků 7. rámcového programu pro informac ní a komunikac ní technologie (grantová dohoda č. 257943). V rámci tohoto projektu spolupracují výzkumníci v oblasti Linked Open Data, firmy a poskytovatelé služeb z mnoha zemí EU (i mimo EU Jižní Korea). Koordinátorem projektu je výzkumná skupina AKSW při Univerzitě Lipsko v Německu. Cílem projektu je poukázat na výhody Linked Open Data v oblastech médií a vydavatelství, firemních intranetů a egovernmentu (LOD2, 2012). LOD2 nabízí zdarma přístupné webináře, které se zabývají převážně nástroji pro práci s Linked Open Data. Ve webinářích je například integrační software Silk, sémantická wiki Ontowiki nebo RDF úložiště Virtuoso. Tyto webináře jsou zdarma dostupné na: http://lod2.eu/blogpost/webinar-series. Dále v rámci podpory organizací při práci s Linked Open Data nabízí LOD2 službu PUBLINK. Jedná se o bezplatné konzultace připravované konsorciem LOD2. V každém kole je vybráno 5 uchazečů, kteří budou mít během 10 20 dní zdarma k dispozici konzultace s experty v oblasti Linked Open Data. Mezi institucemi, které už těchto služeb využily, patří město Vídeň, Food and Agricultural Organisation Spojených národů (FAO) nebo Srbský statistický úřad. Asi neznámějším výstupem tohoto projektu je LOD2 Stack. Jedná se o integrovanou distribuci vzájemně spolupracujících nástrojů, které pokrývají dílčí fáze při přípravě a publikování Linked Open Data. Na obrázku uvedeném níže vidíme fáze životního cyklu LOD při použití LOD2 Stacku.
Charakteristika Linked Open Data 34 Obrázek 10 - Životní cyklus LOD v LOD2 Stacku (LOD2, 2012) Dalším projektem financovaným Evropskou unií je COMSODE (Components Supporting the Open Data Exploitation), který byl odstartován v září 2013. Cílem projektu je změnit současný způsob publikování otevřených dat. Data v katalozích jsou v různých formátech (velmi často v proprietárních), kvalita dat často neodpovídá standardu a propojení dat je na velmi nízké úrovni. Cílem projektu COMSODE je přepracovat způsob publikování dat za účelem zvýšení znovupoužitelnosti dat. Výstupem projektu by měla být platforma k publikování dat a souhrnná metodika pro práci s veškerými fázemi životního cyklu otevřených dat (Nečaský, Maurino, & Konečný, 2013). 2.4 Rozšířenost LOD v ČR První známější aktivity zaměřené na zprůhledňování dat patří do oblasti boje proti korupci, kdy vláda schválila dokument Strategie vlády v boji proti korupci na období let 2011 a 2012. Z hlediska otevřených dat Strategie obsahuje úkol, který se týká zprůhledňování veřejných zakázek. Cílem je zveřejnit veškeré informace o průběhu zadávání a přidělování veřejných zakázek (Úřad vlády ČR, 2012).
Charakteristika Linked Open Data 35 Jak už bylo uvedeno výše, do iniciativy Open Government Partnership se zapojila i Česká republika. V roce 2012 byl na základě podnětů komunity vypracován Akc ní plán (Úřad vlády ČR, 2012), který obsahoval 3 základní okruhy: 1. Přijetí zákona o úřednících veřejné správy zajišťující odpolitizování, profesionalizaci a stabilizaci veřejné správy; 2. Zefektivnění systému svobodného přístupu k informacím; 3. Zpřístupnění dat a informací. Z hlediska otevřených dat si Akc ní plán klade za cíl převést všechna data veřejné správy do otevřené podoby bez vyhodnocování, zda budou pro občany užitečná. Jako přínosy byly v Akčním plánu vyjmenovány následující: Přínosy pro veřejnou správu: 1. Úspora prostředků; 2. Efektivnější práce s daty; 3. Data budou uceleným zdrojem pro analýzy a následná kvantifikovaná rozhodnutí. Přínosy pro odbornou veřejnost, komerční a akademickou sféru: 1. Podklady pro svobodnou obchodní, vědeckou a výzkumnou činnost; 2. Efektivnější kontrola fungování veřejné správy; 3. Podpora fenoménu datové žurnalistiky, která data umí interpretovat a zpřístupňovat je tak občanům; 4. Podklady pro tvorbu softwarových aplikací. Mezi výstupy Akc ního plánu patří Koncepce katalogizace otevřených dat v ČR (Chlapek, Kučera, & Nečaský, 2012) a Metodika publikace otevřených dat veřejné správy ČR (Chlapek, Kučera, & Nečaský, 2012). Tyto dokumenty jsou dostupné na portálu Korupce.cz. Až dosud byl podán přehled stručného vývoje otevřených dat v ČR. Následující část bude zaměřena na rozšířenost Linked Open Data v ČR.
Charakteristika Linked Open Data 36 2.4.1 Projekty s LOD Opendata.cz Jedná se o iniciativu za otevřenou datovou infrastrukturu, na níž se podílejí akademici a studenti ze dvou českých fakult: Matematicko-fyzikální fakulta UK a Fakulta informatiky a statistiky VŠE. V oblasti Linked Data pracují členové iniciativy na převodu stávajících datových množin na formát RDF, vhodný pro propojování s dalšími daty. V rámci této práce byly přestavěny například datové sady elektronického zdravotnictví, kontrol, sankcí a zákazů ČOI, demografie, Výkazů zisku a ztrát obcí ČR (opendata.cz, 2014). Opendata.cz také pracuje na datovém katalogu. Jedná se o prototyp, který je postaven na open-source nástroji CKAN. Celý katalog je pojat jako otevřený projekt a kromě vyhledávání můžeme také přidávat další datové sady. V současné době se zde nachází 178 datových sad. Osmnáct datových sad je v rámci inciativy opendata.cz převedeno do formátu Linked Open Data. Velké množství datových sad je dále publikováno v XLS formátu. U většiny datových sad ale chybí otevřená licence (CKAN Czech Republic, 2014). Sémantické propojování dat ve veřejné správě Jedná se o projekt Interní grantové agentury VŠE (2011). Cílem projektu je ověřit možnosti využití technologií sémantického webu při publikování otevřených dat veřejné správy ČR. Mezi výstupy patří naplnění experimentálního katalogu dat cz.ckan.net, stanovení metodiky pro práci se softwarem CKAN, pokusy o triplifikace dat VS ČR a prvotní identifikace rolí v LOD (Chlapek, Kučera, & Nečaský, 2013). Ekonomické modely otevřených dat Tento projekt vznikl v rámci Interní grantové agentury VŠE (2013). Cílem projektu je analyzovat možnosti využití otevřených a propojených dat pro Elektronické obchodování a Služby veřejné správy (Chlapek, Kučera, & Nečaský, 2013). Výzvy a příležitosti využití LOD v ČR Řada organizací v ČR už data publikuje a další se k tomu také chystají. Abychom se vyhnuli případným problémům v budoucnosti, které by mohly vznikat z absence koordinace,
Charakteristika Linked Open Data 37 jako je pracnost publikace, vysoké nároky na katalogizaci, nepřehlednost atd., musíme si pro publikování těchto dat stanovit jasné podmínky. Dušan Chlapek a spol. z Fakulty informatiky a statistiky VŠE představili na konferenci ČSSI návrhy řešení, jak těmto problémům předejít (Chlapek, Kučera, & Nečaský, 2013). Tyto návrhy jsou vyjmenovány níže. 1. Publikace prioritních datových množin; 2. Sjednocení způsobu publikace; 3. Analýzy potenciálu otevřených dat pro konkrétní orgány VS; 4. Katalog otevřených dat ČR; 5. Implementace novely směrnice 2003/98/ES; 6. Komunikační strategie. Během zpracovávání této diplomové práce autor vytvořil několik návrhů pro využití Linked Open Data v ČR. 1. Převést prioritní datové množiny na formát vhodný pro Linked Open Data; 2. Propojit tyto prioritní datové množiny a vytvořit tak základ pro komplexnější aplikace; 3. Při sjednocení způsobu publikace zvolit jednotný formát vhodný pro Linked Open Data; 4. Rozšíření využití Linked Open Data do dalších oblastí, které jsou vhodné pro jejich využití (např. knihovnictví); 5. Aktivní přístup k vzdělávání v oblasti Linked Open Data. Pro identifikaci prioritních datových množin je vhodné tato data převést do takového formátu, který splňuje požadavky otevřenosti dat a umožní je snadno propojit s dalšími datovými množinami. Jako nejlepší formát se nabízí RDF. Při použití tohoto formátu můžeme dobře využívat výhod sémantického webu a zvýšit celkový přínos dat. Dále by bylo vhodné stanovit zákon, který RDF formát určí při publikování nových datových sad jako výchozí. Za této situace by instituce veřejné správy mohly využívat řadu materiálů jak z ČR, tak i ze světa, které poskytují kvalitní základ pro práci. V rámci LOD2 by instituce také mohly využívat služby PUBLINK, která jim poskytuje přístup ke konzultantským službám od expertů zcela zdarma. Projekt LOD2 také nabízí velmi dobře propracovaný balíček nástrojů LOD2 Stack pro práci s Linked Open Data.
Charakteristika Linked Open Data 38 Zároveň je velmi důležité klást důraz na vzdělávání studentů v oblasti sémantického webu. Veškeré dočasné akademické aktivity v ČR v oblasti Linked Open Data se týkaly převážně výzkumu. Jelikož autor považuje tuto oblast v budoucnu za jednu ze stěžejních, je potřeba ji zakomponovat do studijních programů a rozšířit tím znalosti i komunitu okolo Linked Open Data. Nakonec by nemělo dojít k omezení otevřených a propojených dat pouze na veřejnou správu. Využití nacházíme také v jiných oblastech jako knihovnictví, firemní intranety atd. 2.5 Rizika a omezení LOD Otevřená propojená data nemají pouze výhody, které byly doposud zmíněny, ale také určitá rizika a omezení, která mohou vznikat při nesprávném postupu publikování dat. M. Jedličková ve své práci (Jedličková, 2013) zmínila případné problémy se zveřejněním osobních a citlivých údajů, chybných a zavádějících dat a možnosti jejich zneužití. Dále také narazila na problém datové konzistence a nepravidelnosti publikování. V současnosti je situace taková, že data jsou publikována v různých formátech, proto při zpracovávání těchto dat vznikají další práce. Tím se navyšuje pracnost těchto operací. Data veřejné správy uložená na serverech často nejsou připravená k publikování, proto je potřeba další dostatečná investice do IT prostředků. Také absence znalostí pracovníků veřejné správy zvyšuje pracnost při publikování dat. Zveřejněná data mohou ztrácet svoji hodnotu, pokud nebudou používána dalšími subjekty (Jedličková, 2013). Z hlediska propojených otevřených dat vznikají podle autora další rizika a omezení při následné práci s převodem na RDF formát, jež mohou u nekompetentní osoby vyžadovat další dodatečné náklady, které jsou mnohdy velmi vysoké. 2.6 Shrnutí V této kapitole autor provedl podrobnou charakteristiku celého konceptu Linked Open Data, vymezil všechny důležité pojmy, které se v této oblasti objevují. Dále čtenáři byli seznámeni s katalogizací otevřených dat, rozšířeností LOD ve světě i v LOD aktivity v ČR.
Formáty LOD a nástroje pro práci s Linked Open Data 39 3 Formáty LOD a nástroje pro práci s Linked Open Data Jak už bylo řečeno výše v kapitole 2, mezi důležitá kritéria, podle kterých hodnotíme, zda se jedná o otevřená data, patří strojová čitelnost. Tato vlastnost otevřených dat umožňuje další automatizované zpracování výpočetní technikou. To bezprostředně souvisí také s použitím formátu pro publikování těchto dat. Dnes v datových katalozích najdeme řadu různorodých formátů, které se od sebe liší možností dalšího zpracování. Dušan Chlapek a spol. ve své práci Metodika publikace otevřených dat veřejné správy ČR (Chlapek, Kučera, & Nečaský, 2012) hodnotí nejfrekventovanější formáty z různých hledisek. Cílem je určit jejich vhodnost pro publikování otevřených dat. U jednotlivých kandidátů se hodnotilo, zda se jedná o proprietární formát (závislý na konkrétní aplikaci), data jsou ve strukturované podobě a existuje formalizovaný popis této struktury. Autoři ale také kladli důraz na to, zda lze data v daném formátu propojit a získat tak při zpracovávání dat další užitečné informace. V následující tabulce jsou uvedené formáty s hodnocením podle stanovených kritérií. Tabulka 5 - Vhodnost formátů pro publikování otevřených dat (Chlapek, & Kučera, & Nečaský, 2012) Formát Nezávislost Zápis ve struktu- Popis Popis sé- Vytváření Vhodnost použití na aplikace rované podobě struktury mantiky propojení 1= nejlepší dat dat PDF Ne Ne Ne Ne Ne 5 DOC(X), RTF Ne Ne Ne Ne Ne 5 TXT Ano Ne Ne Ne Ne 5 HTML Ano Částečně Ne Ne Ne 4 XLS(X) Ne Částečně Ne Ne Ne 4 CSV Ano Ano Částečně Ne Ne 3 JSON Ano Ano Částečně Ne Ne 3 XML Ano Ano Ano Ne Ne 2
Formáty LOD a nástroje pro práci s Linked Open Data 40 Formát Nezávislost Zápis ve struktu- Popis Popis sé- Vytváření Vhodnost použití na aplikace rované podobě struktury mantiky propojení 1= nejlepší dat dat OData Ano Ano Ano Částečně Částečně 2 RDF Ano Ano Ano Ano Ano 1 Jak je vidět z tabulky č. 5, jediný RDF formát umožňuje propojení a popis sémantiky dat. Jelikož má autor této práce za cíl soustředit se na propojená otevřená data, v této kapitole bude řeč převážně o tomto formátu, protože je jako jediný kandidát vhodný pro publikování propojených otevřených dat. Ostatně byl také vytvořen pro ukládání dat sémantických webů. Než se ale podíváme na formát RDF, autor se pokusí čtenáři přiblížit problematiku použitých formátů pro publikování otevřených dat. V podkapitole 3.1 bude uvedena autorem zpracovaná statistika používaných formátů ve vybraných národních i světových katalozích dat. Následovat bude charakteristika formátu RDF, analýza jeho výhod i nevýhod. Na konci kapitoly bude autor srovnávat jednotlivé SW nástroje určené pro práci s LOD z hlediska vhodnosti pro začátečníka s LOD. Tyto nástroje budou rozděleny do skupin podle etap při zpracovávání dat. V každé skupině bude vybrán nejvhodnější nástroj podle zvolených kritérií. 3.1 Použití formátů Open Data Autor si vybral datové katalogy, které byli zmíněny v kapitole 2. Mezi formáty vybral od strojově nečitelného formátu PDF přes proprietární formát XLS(X) až po HTML, CSV nebo XML. Cílem autora je poskytnout čtenáři přehled o podílu jednotlivých formátů v datových katalozích.
Formáty LOD a nástroje pro práci s Linked Open Data 41 Tabulka 6 - Výskyt vybraných formátů ve vybraných katalozích Formát PDF XLS(X) CSV HTML XML RDF Data.gov 19890 1704 3036 23825 15059 144 Data.gov.uk 804 1858 2959 942 244 171 open-data.europa.eu 94 24 16 5652 61 14 Publicdata.eu 1398 6261 10060 3526 1758 282 Opengov.es 3 1 27 0 59 1 Offenedaten.de 129 206 93 352 38 1 It.ckan.net 0 5 13 0 2 13 Ie.ckan.net 2 2 8 1 1 0 Cz.ckan.net 0 138 4 0 3 18 Data.gov.sk 0 1 131 3 57 0 Souhrn 22320 10200 16347 34301 17282 644 Graf 1 - Výskyt vybraných formátů v datových katalozích
Formáty LOD a nástroje pro práci s Linked Open Data 42 Graf 2 - Souhrn výskytu vybraných formátů Z grafu 1 je velmi dobře vidět, že hojně se vyskytující HTML formát dominuje v několika datových katalozích. Velmi populární je také proprietární formát od Microsoftu XLS(X). Početné zastoupení mají také strojově čitelnější formáty jako CSV nebo XML. Formát RDF se naopak podílí na celkovém množství datových sad jen velmi málo. Na grafu 2 máme celkový absolutní počet všech formátů. Je až překvapivé, jaké je zastoupení PDF formátů v oblasti Open Data. 3.2 Charakteristika formátu RDF Resource Description Framework v českém překladu se jedná o rámec pro popis zdrojů. Původně byl vyvíjen a představen v roce 1999 konsorciem W3C pro popis metadat webových dokumentů (autor, popis nebo název dokumentu atd.). V průběhu dalšího vývoje byl zdroj zobecněn na jakoukoliv věc, která by se dala identifikovat jednoznačným URI. Cílem je nejen udělat data strojově c itelná, ale také strojově srozumitelná. Počítač může díky tomu datům porozumět a nabídnout další související informace. Nedochází ke změně významu při přenosu mezi aplikacemi. RDF také nabízí propojování s dalšími datovými zdroji, proto je jako jediný formát vhodný pro publikování propojených otevřených dat (Lassila, 1999).
Formáty LOD a nástroje pro práci s Linked Open Data 43 3.2.1 RDF RDF je datový model, na kterém je celý koncept Linked Data založen. Jedná se o jednoduchý datový model, kdy RDF přiřazuje každé určité věci (webovému zdroji) jedinečný webový identifikátor URI a následně tomuto webovému zdroji přidává jeho určité atributy a hodnoty atributů. Formát navíc umožňuje přidávat datům sémantiku, což patří k hlavním přednostem tohoto formátu. V RDF terminologii rozlišujeme: Subjekt reprezentuje určitou věc a je identifikován pomocí URI; Predikát jedná se o vlastnost a je také identifikována pomocí URI; Objekt může se jednat o určitou hodnotu, pak se jedná o literál, nebo také o další věc, která je určena pomocí URI (W3C, 2004). RDF se skládá z tzv. triple (tvrzení, trojice), který se skládá ze subjektu, predikátu a objektu. Subjekt je určitá věc, které se popis týká. Predikát je vlastnost dané věci a objekt je hodnota této vlastnosti. Pomocí tohoto principu můžeme libovolnou větu převést do RDF formátu. Mějme knihu Javascript, kterou napsal David Flanagan a má ISBN 0596000480. Celou tuto větu můžeme rozložit na několik trojic a zobrazit na grafu. Na obrázku můžeme vidět toto rozložení. Obrázek 11 - Příklad RDF grafu Jak je vidět, jedná se orientovaný graf, kdy každý uzel představuje buď subjekt, nebo objekt. Směr grafu bývá pokaždé od subjektu k objektu. Hrany grafu představují zbývající člen z triple predikát. Můžeme zde vidět, že objekt může nabýt konkrétní hodnoty. V takovém případě se jedná o literál. Avšak objektem může být také nějaký jiný subjekt, který má určitý URI. Zobrazení grafem je velmi šikovné pro vizualizaci, ale RDF soubory musí být zapsány v určité notaci, která umožní ukládání do paměti databáze. Existuje ně-
Formáty LOD a nástroje pro práci s Linked Open Data 44 kolik způsobů serializace RDF grafu do textové podoby. Výsledkem je však vždy zdroj popsaný příslušnými trojicemi. Mezi často používanou syntaxi patří XML/RDF, která je založena na formátu XML. Tento formát je často poskytován strojům, které tato data dále zpracovávají. Na začátku se deklarují URI ontologií (slovníků) pomocí jmenných prostorů a jejich prefixů, které dále zpřehledňují a urychlují zápis dat. Předchozí graf by vypadal následovně: <rdf:rdf xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:ex="http://example.com/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"> <rdf:description rdf:about="http://example.com/book"> <foaf:name>javascript</foaf:name> <foaf:author>david Flanagan</foaf:name> <ex:isbn>0596000480</ex:name> </rdf:description> </rdf:rdf> Další běžně používanou syntaxí je Turtle, která díky své jednoduchosti umožňuje především rychlé čtení a zapisování dat. Stejně jako u XML/RDF syntaxe se používají prefixy. Pokud má subjekt více vlastností, stačí je od sebe oddělit pouze středníkem. Celý zápis se ukončuje tečkou na konci. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> @prefix ex: <http://example.org/ > @prefix foaf: <http://xmlns.com/foaf/0.1/> < http://example.com/book > foaf:name "Javascript" ; foaf:author "David Flanagan" ; ex:isbn 0596000480. Poslední dobře známou syntaxí je N-Triples, která je charakteristická svou jednoduchostí. Každé tvrzení obsahuje subjekt, predikát a objekt. Proto dochází k mnoha redundancím, avšak díky kompresím lze snadno zmenšit velikost výsledného souboru, a proto je syntax vhodná při posílání velkého množství dat (Meloun, 2012). <http://example.com/book> <http://xmlns.com/foaf/0.1/name> "Javascript". <http://example.com/book> <http://xmlns.com/foaf/0.1/author> "David Flanagan". <http://example.com/book> <http://example.com/isbn> 0596000480.
Formáty LOD a nástroje pro práci s Linked Open Data 45 3.2.2 Ontologie Aby se daly objekty přiřadit k subjektům, jsou zapotřebí vyjadřovací prostředky. Pro lepší přenositelnost je důležité tyto vyjadřovací prostředky standardizovat. Ontologie úzce souvisí se slovníky, které obsahují výrazy a přesné definice jejich významu. Ontologie následně využívá tyto výrazy k popisu vztahu mezi subjekty a objekty. Vyjadřovací prostředky v konkrétním případě RDF dokumentů představují definované třídy, jejichž instance představují konkrétní subjekty z reálného světa a jejich vlastnosti predikáty. Pro usnadnění komunikace a propojení dokumentů byly vytvořeny RDF slovníky, které obsahují soubor předdefinovaných predikátů, které mohou být využity při popisu subjektu. Vývojář se však nemusí omezovat pouze na tyto předdefinované slovníky a může vytvářet vlastní třídy a predikáty, a to pomocí RDF schématu (RDFS) nebo Web Ontology Language (OWL) (Meloun, 2012). V tabulce 7 vidíme stručný seznam nejpoužívanějších formátů. Tabulka 7 - Souhrn výskytu vybraných formátů Název Popis Jmenný prostor FOAF (Friend of a friend) Poskytuje vyjadřující prostředky pro popis lidí a vztahů mezi nimi <http://xmlns.com/foaf/0.1/> DCMI (Dublin Core Metadata Initiative) Slovník nabízí běžné výrazy pro popis skutečností <http://purl.org/dc/terms/> Good Relations VCard Ontologie pro popis společností, jejich služeb a produktů Poskytuje výrazy pro popis adres a kontaktů <http://purl.org/goodrelations/v1> <http://www.w3.org/2006/vcard/ns#> GeoNames Popis geografických údajů <http://www.geonames.org/ontology> 3.2.3 RDFS Jedná se o jazyk pro popis slovníků vyjadřovacích prostředků. RDFS umožňuje vytvářet specifické třídy a vlastnosti (predikáty). Dále lze jeho prostřednictvím vyjádřit vztahy mezi
Formáty LOD a nástroje pro práci s Linked Open Data 46 třídami a podtřídami (subclass a subproperty), vlastnostmi a podvlastnostmi (domain a range). U vlastností lze také určit definiční obor a obor hodnot. <rdfs:class rdf:about="http://xmlns.com/foaf/0.1/agent"> <owl:equivalentclass rdf:resource="http://purl.org/dc/terms/agent"/> <rdfs:label>agent</rdfs:label> <rdfs:comment>an agent (eg. person, group, software or physical artifact).</rdfs:comment> </rdfs:class> Výše vidíme převzatou definici Agenta ze slovníku FOAF. V prvním řádku je uveden URI třídy. Jedná se o samou třídu jako agent ve slovníku Dublin Core Metadata Initiative (owl:equivalentclass). Třída se jmenuje agent (vlastnost rdfs:label) a jedná se o určitou osobu, skupinu atd. (vlastnost rdfs:comment). Dále máme uvedenou definici organizace, která je podtřídou agenta (vyplývá to z vlastnosti subclassof). Proto je každá organizace také agentem. <rdfs:class rdf:about="http://xmlns.com/foaf/0.1/organization"> <rdfs:subclassof rdf:resource="http://xmlns.com/foaf/0.1/agent"/> <rdfs:label>organization</rdfs:label> <rdfs:comment>an organization</rdfs:comment> </rdfs:class> Níže je uveden úryvek z FOAF slovníku o definici predikátu made. <rdf:property rdf:about="http://xmlns.com/foaf/0.1/made"> <rdfs:label>made</rdfs:label> <rdfs:comment>something that was made by this agent.</rdfs:comment> <rdfs:domain rdf:resource="http://xmlns.com/foaf/0.1/agent"/> <rdfs:range rdf:resource="http://www.w3.org/2002/07/owl#thing"/> </rdf:property> Zde vidíme, že tato vlastnost se vztahuje pouze ke třídě agent, proto pouze instance této třídy mohou mít tuto vlastnost. Hodnoty objektů jsou určeny pomocí rdfs:range a jsou specifikovány pomocí URI http://www.w3.org/2002/07/owl#thing (Meloun, 2012). 3.2.1 SPARQL Celý název je SPARQL Protocol and RDF Query Language, byl standardizován W3C konsorciem dne 15. 1. 2008. Jedná se o Read-only dotazovací jazyk pro RDF. Znamená to,
Formáty LOD a nástroje pro práci s Linked Open Data 47 že nelze pomocí SPARQL ukládat nebo měnit data. Na to existuje jiný specializovaný jazyk SPARUL, který byl standardizován rovněž W3C v březnu 2013. PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT?nameX?nameY?nickY WHERE {?x foaf:knows?y ; foaf:name?namex.?y foaf:name?namey. } Výše je uveden příklad SPARQL dotazu. Na začátku lze nadefinovat prefixy, které pak dále usnadňují a zpřesňují zápis. Poté je potřeba určit, co potřebujeme vybrat. Lze také pomocí klauzule FROM specifikovat určitou datovou sadu. Pomocí klauzule WHERE lze stanovit určitá omezující kritéria. Proměnné jsou definovány ve formátu?promenna, výrazy jsou sepsány v jazyce Turtle. Dále můžeme také pomocí dalších klauzulí jako OPTINAL, FILTER, GROUP BY, ORDER BY nebo LIMIT detailněji specifikovat dotaz. Vedle SELECTU existují i další typy dotazů jako ASK, CONSTRUCT nebo DESCRIBE. Se SPARQL souvisí také SPARQL endpoint, což je v podstatě webová služba, která je specifikována a přístupná pomocí určitého URI, je postavená nad úložišti RDF dat a umožňuje uživatelům pomocí SPARQL endpointu dotazovat nad uloženými daty. Odpověď je vracena vždy ve strojově čitelném formátu (Meloun, 2012). 3.3 Nástroje pro práci s LOD Pro práci s LOD dnes existují řada nástrojů, které zajišťují určitou oblast. Z množství nástrojů je zřejmé, že o koncept LOD je velký zájem a celá komunita velmi aktivně přistupuje k vývoji tohoto konceptu. Cílem této podkapitoly je seznámit čtenáře s těmito nástroji, stručně je charakterizovat podle předem určených kritérií, vybrat a zdůvodnit si, proč autor daný nástroj vybral. Pro lepší přehled autor rozdělil nástroje do třech skupin. První skupina obsahuje nástroje, které jsou určené pro převod z jiných formátů do RDF. Druhá skupina zahrnuje nástroje pro ukládání a dotazování dat. Třetí skupina nástrojů se zabývá vizualizací dat. Autor se rozhodl, že ve své praktické části bude využívat nástroje pro převod a ukládání dat. V rámci tvorby pilotní aplikace bude vytvářet vizualizaci vlastními silami a nebude využívat žádný vizualizační nástroj. Proto v této podkapitole se bude řeč jen o 2 první skupiny, a to nástro-
Formáty LOD a nástroje pro práci s Linked Open Data 48 je pro převod a ukládání dat. Jelikož záměrem autora je seznámit čtenáře jak s konceptem Linked Open Data, tak i s nástroji pro jeho práci, důraz při stanovení kritérií a vyhodnocování je kladen vhodnost daného SW pro začínající uživatele. Autor při hodnocení nebude brát ohled na vyspělejší funkce, které mohou jednotlivá řešení nabízet, ale zaměří se na ty vlastnosti, které by jako SW pro začínající uživatele měl mít. V celkové hodnocení proto by měl vyjít nejvhodnější nástroj pro začátečníka v oblasti Linked Open Data. 3.3.1 Nástroje pro převod do RDF formátu Jak první nástroj pro práci s RDF, který se dostává k uživateli, patří konvertory zajišťující převod dat z jiných formátů do RDF. Autor při výběru nástrojů se soustředil na řešení, které převádějí populární formáty v oblasti Open Data, některé z nich byly už zmíněné v podkapitole 3.1 Použítí formátů Open Data. Konkrétně se jedná o XML, HTML, Excel, CSV a data z relačních databází. Vedle toho ale také existuje řada převodníků, které převádějí různá metadata do RDF formátu. Velmi dobře zpracovávaný seznam je k nalezení na wiki stránkách konsorcia W3C (W3C, 2014). Stanovení kritérií Pro charakteristiku a hodnocení autor stanovil určitá kritéria, podle kterých bude hodnotit daná řešení. Cílem autora je vymezit základní vlastnosti nástrojů, které budou působit na začínajícího uživatele v této oblasti. Licence velmi důležité kritérium při prvotním výběru nástroje je nepochybně licence. Uživatel si bude chtít produkt nejdříve vyzkoušet, a proto bude vybírat převážně ze skupiny open-source nástrojů. Většina z nich nabízejí základní funkce pro převod vstupních dat do RDF formátu. Naopak placené aplikace, které nabízejí vedle toho také pokročilejší funkce, se budou hodit spíše zkušenějším uživatelům. Proto při vyhodnocení bude řešení s open-source licencí lépe hodnocen než placené nástroje. GUI pro méně zkušené uživatele je grafické uživatelské rozhraní téměř povinné, avšak ne každý nástroj toto nabízí. Setkáváme se s řadou nástrojů, které lze ovládat pouze přes příkazový řádek. Proto při výběru bude autor hodnotit lépe ta řešení, která GUI nabízí. Instalace Některé nástroje pro konverzi dat jsou velmi složité už při instalovaní. Proto pro začátečníka je vhodnější nástroj s instalačním souborem. Uživatel pak postupuje klasickým procesem instalování, na který je zvyklý a nevznikají zbytečné problémy, které ho mohou odradit od používání nástroje.
Formáty LOD a nástroje pro práci s Linked Open Data 49 Vstupní formáty Veřejná správa publikuje datové sady v různých formátech. Nástroje si obvykle poradí jen s určitými formáty. Při hodnocení proto budou upřednostněny ty, které podporují co největší množství formátů. Mapování Při konverzi dat do RDF data ze stávajících souborů je potřeba provést mapování. Existují nástroje, které toto nabízí v rámci aplikace, ale i ty, které požadují dodatečné externí mapování. Pro začátečníka se samozřejmě vhodnější první varianta, kdy si nemusí dodatečně vytvářet složité mapování externě. Dokumentace a návody Neméně důležité jsou dokumentace a návody k nástroji. Dobře zpracovávaná dokumentace doplněná o tutoriály práci určitě zrychlí a zefektivní. V tabulce 8 jsou dále stručně charakterizovány nástroje pro konverzi do RDF formátu. Následně v tabulce 9 se nachází jejich porovnání podle zvolených kritérií vyjmenované výše. Přehled nástrojů pro převod do RDF Tabulka 8 - Přehled nástrojů pro konverzi do RDF Nástroj Popis Zdroj Anzo Express Anzo je produkt od Cambridge Semantics, který běží v prostředí MS (Cambridge Se- Excel. Jedná se proto o velmi intuitivní a pro většina uživatelů velmi mantic, 2014) známé prostředí. Anzo vedle dalších funkcí také nabízí nástroje pro tvorbu RDF. Díky propracovanému nástroji lze velmi jednoduše vytvářet nové ontologie, propojit Excel sešity a vše synchronizovat se serverem, kde se dá vytvářet různé vizualizace dat. Anzo umožňuje velmi rychlou tvorbu RDF z Excelu nebo CSV souboru. Nabízí také dotazování pomocí SPARQL. Základní verze nabízí zdarma kolaboraci pro 3 uživatelé. Pro další rozšíření a využití serveru je potřeba zakoupit licence. XLWrap XLWrap patří do kategorie jednodušších nástrojů z hlediska funkcí, ale naopak vyžaduje komplexnější znalosti uživatele. Po stáhnutí zdrojových souborů uživatel přes příkazový řádek nahraje Excel, CSV nebo OpenDocument sešit a soubor s mapováním a provede transformaci. Nástroj také nabízí jednoduchý SPARQL endpoint přístupný přes webové rozhraní. (XLWrap, 2014)
Formáty LOD a nástroje pro práci s Linked Open Data 50 Nástroj Popis Zdroj TabLinker Open Refine RDF123 Tarql Triplify ODCleanStore Krextor TabLinker podobně jako XLWrap požaduje mapování, které specifikuje, jak se má data transformovat. Hlavní funkcí je transformace dat z Excel sešitů do multidimenzionální kostky, kde jsou data navzájem propojená s využitím RDF formátu. Nástroj Google Refine byl původně vyvíjen Googlem, který se v roce 2012 o tento nástroj přestal zajímat a uvolnil jako open-source pro veřejnou komunitu. Ten byl dále vyvíjen a přejmenován na OpenRefine. Nabízí velmi intuitivní grafické uživatelské rozhraní přes webové rozhraní. Uživatel může velmi snadno a rychle nahrát Excel, CSV nebo XML soubor a transformovat do RDF formátu. Vedle toho také nabízí funkce k čištění dat a propojení s dalšími daty. Pro práci s RDF je potřeba doinstalovat LOD rozšíření. Celý balíček je také dostupný jako LODRefine a je také součástí LOD2 Stacku. RDF123 je aplikace (Windows, Linux nebo Java) i webová služba ke konverzi dat z Excel, CSV do RDF grafu. Uživatel vytváří základní šablonu RDF grafu a mapuje jednotlivé uzly grafu k buňkám v Excelu. Celý graf je uložen v RDF a umožňují další využití dat. Tarql nabízí uživatelské rozhraní přes příkazový řádek. Autor podle specifického příkazu nahraje CSV soubor, pomocí SPARQL provede mapování. Tarql poté vygeneruje odpověď uložený v RDF formátu. Triplify oproti zmíněným nástrojům nabízí funkce k zveřejnění dat webových aplikací postavené na relačních databázích jako Linked Data. Po začlenění do zdrojových souborů webové aplikace pomocí SQL dotazu specifikujeme, co chceme zveřejnit a Triplify tento dotaz přeloží do RDF formátu. ODCleanStore je vyvíjen na Karlově univerzitě v Praze a slouží jako ETL nástroj pro práci s RDF daty. Jedná se o velmi komplexní nástroj s grafickým uživatelským rozhraním pro administraci, ladění a monitoring ETL procesů. Nástroj nabízí funkce k pročištění RDF dat a tvorbu SPARQL endpointu. Cílem celého projektu je stát se součástí LOD2 Stacku. Tento nástroj umožňuje konverzi XML do RDF. Uživatel podobně jako u předchozích nástrojů nahraje zdrojový soubor a mapování a následně se vygeneruje RDF soubor (Hoekstra&Rietveld&M eroño-peñuela, 2014) (Morris&Guidry& Magdifier, 2014) (UMBC, 2007) (Tarql, 2014) (Triplify, 2010) (UK v Praze, 2014) (Trac, 2012)
Formáty LOD a nástroje pro práci s Linked Open Data 51 Porovnávání nástrojů podle zvolených kritérií Tabulka 9 - Srovnání nástrojů pro konverzi do RDF Nástroj Licence GUI Instalace Formáty Mapování Návody a dokumentace Anzo Express Zdarma pro 3 osoby bez Excel Instalační balíček (Windows, MS Excel, Součástí aplika- Velmi dobrá dokumentace, video serveru, další rozšíření Linux) CSV ce návody placené XLWrap Open-source Ne Zdrojové soubory ke stažení MS Excel, Externí mapo- Dokumentace s příklady užití OpenOffice vání spreadsheet, CSV TabLinker Open-source Ne Zdrojové soubory ke stažení MS Excel, Externí mapo- Velmi jednoduchá dokumentace (Potřeba doinstalovat Python) CSV vání OpenRefine Open-source Web Instalační soubor pro všechny MS Excel, Součástí aplika- Velmi dobrá dokumentace, video platformy CSV, TSV, ce návody jednotlivých případů užití JSON, XML RDF123 Open-source Aplikace, Instalační balíček (Windows, MS Excel, Externí šablona Průměrná dokumentace webová Linux, Java, Webová služba) CSV RDF grafu služba
Formáty LOD a nástroje pro práci s Linked Open Data 52 Nástroj Licence GUI Instalace Formáty Mapování Návody a dokumentace Tarql Open-source Ne Zdrojové soubory ke stažení, přístup přes příkazový řádek CSV Tvorba mapování pomocí SPARQL Průměrná dokumentace Triplify Open-source Ne Instalace do stávající webové Relační data- Tvorba mapo- Podrobná dokumentace aplikace báze vání pomocí SQL ODCleanStore Open-source Ano Složitá instalace, potřeba mít RDF + další V rámci aplika- Průměrná dokumentace řadu předinstalovaných kompo- data ce nent Krextor Open-source Ne Zdrojové soubory ke stažení, XML Definice mapo- Průměrná dokumentace použití pomocí ShellScript, vání v externím JavaWrapper XMl souboru
Formáty LOD a nástroje pro práci s Linked Open Data 53 Ze srovnání můžeme vidět, že pro převod do RDF formátu dnes existuje řada nástrojů, které nabízejí konverzi většina známých formátů. Ze široké palety produktů si autor vybral nástroj OpenRefine s rozšířením pro práci s RDF. Mezi důvody patří to, že se jedná o open-source software, který lze velmi snadno nainstalovat na všech známých platformách. Jako jeden z mála disponuje grafickým rozhraním a vedle převodu nabízí také čištění a propojování dat s dalšími zdroji. Vše je zabaleno v jednoduché rozhraní. Uživatelé si mohou také vybrat balíček LODRefine, což je balíček OpenRefine se všemi LOD rozšířeními. Jak vstupní formát si můžeme vybrat z mnoha možností a pro začátečníka se velmi hodí také podrobná dokumentace a video tutoriály dostupné na stránkách projektu, kde jsou demonstrovány všechny případy užití nástroje. LODRefine je také součástí LOD2 Stacku, což napovídá o jeho kvalitě. V kapitole 4 autor dále prakticky nastíní postup při konverzi vybrané datové sady do RDF pomocí OpenRefine. 3.3.2 Nástroje pro ukládání RDF Po vytvoření RDF souboru s daty nastává další fáze ukládání dat. Databáze pro RDF nebo-li triplestore jsou dostupné v mnoha řešeních se základními funkcemi, a to ukládání a dotazování nad uloženými daty. Tyto databáze lze zařadit širší kategorie NoSQL (Not only SQL) databází (Sequeda, 2013). Mezi ně také patří známé produkty jako MongoDB, CouchDB, Redis atd. Nastává avšak otázka, jak se triplestory odlišují od ostatních NoSQL řešení a v čem je jich výhoda. Níže jsou vyjmenované několik odpovědí na tuto otázku. 1. Triplestory se od NoSQL databázových systémů liší tím, že nabízí standardní a sjednocený datový model. Běžné NoSQL řešení nabízí obvykle ad-hoc datový model, který je speciálně navržený pro danou implementaci (Bendiken, 2010). 2. Na rozdíl od NoSQL databází triplestory také nabízí velmi propracovaný dotazovací jazyk SPARQL. Většina NoSQL databází nabízí jen základní způsoby dotazování nad daty a propojování různých datových zdrojů bývá obvykle problém (Bendiken, 2010). 3. RDF je standardním formátem pro výměnu dat. RDF databáze disponují funkcemi jako import/export dat, které operují s tímto standardním a sjednoceným formátem. NoSQL databáze naopak používají k výměně dat různé formáty jako XML nebo JSON, proto je nutné dodatečně tato data aplikačně upravovat (Bendiken, 2010). Ve srovnání s relačními databázemi RDF databáze mají také několik výhod, které je potřeba zmínit.
Formáty LOD a nástroje pro práci s Linked Open Data 54 1. Přenositelnost dat Data uložená v triplestorech nejsou závislá na konkrétní řešení, a proto je velmi dobrá přenositelnost dat. Při přechodu od jednoho řešení do druhé je poměrně snadnější než přechod od MySQL k PostgresSQL (Bendiken, 2010). 2. Nezávislost na konkrétní řešení (Bendiken, 2010) 3. Neměnnost v čase jelikož je nyní RDF standardem pro publikování propojitelných dat, je velká šance, že vaše RDF data budou použitelná i v daleké budoucnosti (Bendiken, 2010). K implementaci RDF databází se používají různé postupy a technologie. Díky tomu můžeme tyto databáze rozdělit do 3 skupin: 1. Triplestory, které jsou implementované nad nativním prostředím triplestorů jako 4Store, AllegroGraph, BigData, Jena TDB nebo Sesame jsou velmi populární díky rychlosti ukládání a dotazování dat (Sequeda, 2013). 2. Do kategorie databází, které využívají relační databáze k ukládání dat, patří JENA SDB, IBM DB2 nebo Virtuoso (Sequeda, 2013). 3. Do třetí kategorie řadíme všechna řešení, které využívají NoSQL databáze jako úložiště dat. Příkladem můžeme být CumulusRDF (Sequeda, 2013). V této situaci nastává otázka, jaké řešení si vybrat. Jako důležité kritérium se jeví výkonnost dané řešení. Řada organizací se věnuje testováním výkonností se snahou najít nejlepší řešení. Populární benchmarky jako Berlin SPARQL Benchmark (Bizer & Schultz, 2011), SP2Bench (Uni Freiburg, 2009) nebo DBpedia SPARQL Benchmark (ASKW, 2014) nabízejí různé výsledky, ze kterých ale nelze jednoznačně určit, které řešení je nejlepší. Autor v této části nebude porovnávat jednotlivé řešení z hlediska výkonu, ale podobně jako u převodníků se zaměří na vhodnost pro začátečníka. Podle toto záměru jsou také konstruovány hodnotící kritéria, která se zaměřují na důležité aspekty, které působí na začínajícího uživatele. Níže jsou autorem stanovené kritéria hodnocení. Stanovení kritérií Licenci jednotlivých řešení podobně jako u převodníků je velmi důležité při výběru licence. Pro začátečníka je lepší open-source nástroj, se kterým může uživatel vyzkoušet práci při ukládání a dotazování nad daty. Naopak komerční nástroje se budou hodit spíše v pozdější fázi, jelikož vedle základních funkcí nabízí i pokročilejší funkce. Instalace aplikace s instalačním souborem urychlí práci při instalaci, proto tyto nástroje budou hodnoceny kladněji než ostatní. Zákaznická podpora nástroje s kvalitní podporou budou lépe hodnocení při porovnání než ty bez zákaznické podpory.
Formáty LOD a nástroje pro práci s Linked Open Data 55 Maximální poc et trojic, které lze v triplestoru uchovávat často pracujeme s daty, které se mohou rozrůstat do obrovských rozměrů, a proto je potřeba na začátku vybrat vhodné řešení, které bude nás v budoucnu nebude limitovat. Podpora SPARQL a SPARQL endpointu možnost dotazování nad daty a vytvoření SPARQL endpointu patří mezi základní vlastnosti, které řešení musí mít. Funkce pro zálohování při práci s databázemi může nastat situace, kdy se nám omylem smaže nebo poškodí data, proto je funkce zálohování stěžejní při výběru databáze. Dále k porovnání RDF databáze autor vybral celkem 8 populárních řešení. U většiny z nich se podařilo zjistit požadované informace. Autor na základě zjištěných informací dále stanoví, jaké řešení je nejlepší a v rámci čtvrté kapitoly provede demonstraci použití tohoto nástroje v praxi.
Formáty LOD a nástroje pro práci s Linked Open Data 56 Porovnávání nástrojů podle zvolených kritérií Tabulka 10 - Srovnání RDF databází Nástroj Instalace Licence Podpora Max. počet trojic SPARQL / SPARQL endpoint Zálohování dat 4store Instalační balíček (Linux, Mac OS X) Open-source Ne 15 mld. Ano/Ano Ano OpenLink Virtuoso Komerční balíček instalační soubor, Open-source ruční instalace Open-source i komerční Ano 15,4 mld. Ano/Ano Ano BigData Ruční instalace Open-source Ano 12,7 mld. Ano/Ano - Sesame Ruční instalace Open-source Ano 70 mil. Ano/Ano - Mulgara Ruční instalace Open-source Ne 500 mil. Ano/Ne Ano Stardog Ruční instalace Zdarma, ne open-source Ano 50 mld. Ano/Ano - Fuseki Ruční instalace Open-source Ne - Ano/Ano Ano
Formáty LOD a nástroje pro práci s Linked Open Data 57 Z dostupných řešení porovnané v tabulce 10 se jeví jako nejlepší řešení Virtuoso. Vedle open-source řešení nabízí také komerční produkt, který nabízí další pokročilejší funkce. Komerční produkt lze na určitou dobu vyzkoušet zdarma. Dalším důvodem je, že Virtuoso je součástí LOD2 Stacku, proto uživatel může provést instalaci celého balíčku a bude mít vedle Virtuoso také LODRefine, nejlepší řešení z porovnání převodníků do RDF formátu v podkategorii 3.3.1 Nástroje pro převod do RDF formátu. Vzhledem k tomu si autor tento produkt vybral, jelikož umožní rychlou instalaci a vyzkoušet si jeho možnosti. Vedle toho slouží jako velmi kvalitní základ pro další rozvoj. V pokročilejší fázi nebude uživatel limitován základními funkcemi a může také přejít na komerční řešení Virtuosa. 3.4 Shrnutí V této kapitole autor nastínil rozšířenost jednotlivých formátů pro otevřená data a základní charakteristiku RDF formátu. Dále čtenáře seznámil s několika nástroji pro práci s propojitelnými a otevřenými daty. Zabýval se dvěma skupina nástrojů, a to konvertory a databázemi pro RDF. Hlavním cílem tohoto kroku bylo určit vhodnost nástroje pro začátečníka. Autorovi se u každé skupiny podařilo stanovit určité vlastnosti, které hodnotil u zvolených nástrojů. Z výsledků porovnání autor poté určil nejlepší řešení, které si také vybral jako ukázku práce v kapitole 4 Návrh a tvorba aplikace. Pro práci s LOD autor také dále doporučuje LOD2 Stack, což je produktem projektu LOD2, který byl detailně popisován v kapitole 2.3.2 Open Data v EU.
Návrh a tvorba aplikace 58 4 Návrh a tvorba aplikace Záměrem autora v této části je, jak už bylo řečeno, převést vybraná data do RDF formátu, uložit do databáze a umožnit k nimi přístup prostřednictvím dotazu pomocí SPARQL endpointu. Hlavním třetím cílem této diplomové práce je návrh a tvorba webové aplikace s využitím LOD, proto bude autor vytvářet pilotní aplikaci k vizualizaci dat konečnému uživateli. Jelikož se jedná o data jednotlivých krajů ČR, jako velmi vhodný nástroj k vizualizaci dat se nabízí mapa. Ta by měla jasně rozlišovat mzdové úrovně v jednotlivých krajích a jejich vliv na výši penzí. Celý tento proces mj. slouží také jako návod pro čtenáře, jak převést otevřená data do propojitelné podoby a využít těchto dat při tvorbě aplikace. 4.1 Analýza zdrojů dat Po konzultaci s vedoucím diplomové práce autor vybral ukazatel Porovnání průměrné mzdy a průměrného důchodu v krajích ČR za období 2010 až 2012. Účelem je znázornění mzdového rozdělení krajů a jeho vztah k výši penzí. Průměrné mzdy krajů jsou zveřejněné a také čerpané z veřejné databáze Českého statistického úřadu (Český statistický úřad, 2014). Období 2010 až 2012 bylo zvolené právě kvůli tomu, že je zveřejněno na stránkách ČSÚ. Průměrný důchod v jednotlivých krajích je čerpán z databáze České správy sociálního zabezpečení (ČSSZ) v sekci důchodové statistiky (Česká správa sociálního zabezpečení, 2014). Data za každý rok jsou volně dostupná ve formátu Excel. Autor pro účel dalšího zpracování potřebná data z těchto souborů vyextrahoval. Získaná data byla autorem uložena do souboru ve formátu Excel, který byl poté použit ke konverzi do RDF formátu. Byly vytvořeny následující sloupce: název kraje, kód kraje podle NUTS 2008, průměrná mzda, průměrný důchod, rok. Uvedený NUTS kód slouží dále k propojení s existující datovou sadou NUTS 2008 (Eurostat, 2008). Níže je uvedena ukázka navrženého Excel souboru. Tabulka 11 - Struktura Excel souboru Title Average_salary Avarage_pension Year NUTS Hlavní město Praha 34420 11318 2012 CZ010 Středočeský kraj Jihočeský kraj 26097 23722 10561 10357 2012 CZ02 2012 CZ031 Plzeňský kraj 24885 10475 2012 CZ032
Návrh a tvorba aplikace 59 Obrázek 12 - Graf RDF Na obrázku 12 je autorem navržena struktura vyjádřená grafem. 4.2 Převod do RDF formátu K převodu vybraného datasetu autor vybral nástroj OpenRefine (Google Refine, 2014) s rozšířením RDF Refine (RDF Refine, 2014), který v porovnání v podkapitole 3.3.1 Nástroje pro převod do RDF formátu dopadl nejlépe a byl autorem vybrán k demonstraci v praxi. OpenRefine je mocný nástroj k třídění, čištění a transformaci dat do zvolených formátů. Pro práci s RDF formátem autor doinstaloval rozšíření RDF Refine. Po instalaci OpenRefine a rozšíření RDF Refine můžeme spustit program, který spouští server na lokálu a uživatelské prostředí běží v internetovém prohlížeči. Na začátku můžeme vytvořit nový projekt nahráním vytvořeného Excel souboru. V základním nastavení vybereme řádky, které potřebujeme, a vytvoříme projekt.
Návrh a tvorba aplikace 60 Obrázek 13 OpenRefine import souboru Dále je potřeba přidat zdroj, se kterým chceme náš RDF soubor propojit. V tomto případě autor vložil URL na dataset NUTS 2008. OpenRefine nabízí také propojení se SPARQL endpointem, proto lze velmi snadno propojit naši datovou sadu se existujícími datovými sady (např. DBpedia nebo Europeana). Celý tento krok je znázorněn na obrázku 14.
Návrh a tvorba aplikace 61 Obrázek 14 Přidávání zdroje Při vybrání funkce Reconcile na sloupec NUTS OpenRefine automaticky vyhledal dataset NUTS 2008 a nabídl propojení s vlastností ec:nutsregion. Na obrázku 16 můžeme vidět, že po automatickém propojení můžeme zkontrolovat, zda je vše správně a nedošlo k žádné chybě. Na obrázku 17 je znázorněna jak možnost využití předdefinované ontologie, tak možnost vytvoření vlastních predikátů a tříd. Pro sloupec Title autor využil predikát z FOAF slovníku foaf:name, na sloupec nuts_code_uri využil predikát owl:sameas, což propojuje oba datasety. Dále vytvořil vlastní predikáty http://czech-salarypension.com/avg_salary, http://czech-salary-pension.com/avg_pension, http://czechsalary-pension.com/year a třídu http://czech-salary-pension.com/region.
Návrh a tvorba aplikace 62 Obrázek 15 Propojení s NUTS 2008 Obrázek 16 Kontrola mapování
Návrh a tvorba aplikace 63 Obrázek 17 Vytvoření predikátů a tříd Po vykonání všech těchto kroků můžeme celý projekt vyexportovat do RDF/XML nebo Turtle formátu. Níže je uvedena ukázka z vytvořeného RDF dokumentu ve formátu Turtle. @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>. @prefix foaf: <http://xmlns.com/foaf/0.1/>. @prefix owl: <http://www.w3.org/2002/07/owl#>. @prefix xsd: <http://www.w3.org/2001/xmlschema#>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. <http://czech-salary-pension.com/0> a <http://czech-salary-pension.com/region> ; foaf:name "Hlavní město Praha" ; <http://czech-salary-pension.com/avg_salary> "34420.0" ; <http://czech-salary-pension.com/avg_pension> "11318.0" ; <http://czech-salary-pension.com/year> "2012.0" ; owl:sameas "http://ec.europa.eu/eurostat/ramon/rdfdata/nuts2008/cz010".
Návrh a tvorba aplikace 64 4.3 Ukládání dat a vytvoření SPARQL endpointu Autor v podkapitole 3.3.2. Nástroje pro ukládání RDF hodnotil Virtuoso nejkladněji, proto v této části práce bude předvádět postup při ukládání RDF do databáze a vytvoření SPARQL endpointu prostřednictvím Virtuosa. Virtuoso je vyvíjen společností OpenLink Software a je dostupný jak pod open-source licencí, tak i jako komerční produkt, který má navíc několik funkcí jako například virtuální databáze. Jedná se objektově-relační SQL databázi, která podporuje ukládání a dotazování propojených dat ve formě trojic. Virtuoso nabízí jednoduché webové rozhraní Virtuoso Conductor, díky němuž můžeme přistupovat k jeho funkcím (OpenLink Software, 2014). Z našeho hlediska je nejdůležitější sekce Linked Data, kde můžeme snadno v podsekci Quad Store Upload nahrát RDF data a specifikovat URI datasetu. Celý tento postup je znázorněn na obrázku 18. Obrázek 18 Nahrání RDF souboru do databáze Jakmile je soubor úspěšně nahrán, můžeme přejít do SPARQL endpointu, který je defaultně přístupný na adrese http://localhost:8890/sparql. Ten je velmi uživatelsky přívětivý, můžeme specifikovat určitý dataset, nad kterým chceme dotazovat. Jako odpověď máme na výběr velké množství známých formátů (HTML, JSON, RDF/XML, XML, NTriples, atd.).
Návrh a tvorba aplikace 65 4.4 Tvorba SW pro vizualizaci dat Pro vizualizaci dat, podobně jako v předchozích krocích, existuje řada nástrojů, které nabízejí různé grafické komponenty pro zobrazení dat. V našem případě jde ale o specifický případ, kdy chceme zobrazit data na mapě a zviditelnit závislost mezi výší mzdy a důchodu. Autor se proto rozhodl vytvořit vlastní aplikaci, která by toto nabízela. 4.4.1 Požadavky Navržená aplikace by měla splňovat 2 základní požadavky, a to znázornit mzdové rozdělení krajů a jejich vztah k výši penzí. První požadavek bude autor řešit tím, že průměrnou výši mzdy rozdělí do několika skupin a následně každé skupině přidělí určitou barvu. V konečné fázi budou kraje zobrazené na mapě zabarveny podle předem stanovených barev. Díky tomu uživatel pouhým pohledem snadno zjistí, do které skupiny daný kraj patří. Druhý požadavek bude autor řešit regresní analýzou, což je statistická metoda, která určí, jak výše penzí závisí na mzdě. Díky analýze můžeme zjistit, zda jde o přímou, nebo nepřímou úměrnost a těsnou, nebo volnou vazbu. 4.4.2 Návrh Finální aplikace by tak měla obsahovat mapu s rozdělenými kraji podle výše mzdy a graf regresní analýzy se slovním popisem. Uživatel si bude moci vybrat, na jaký rok chce analýzu provádět. Na obrázku níže je hrubě navržen vzhled celé aplikace. K tvorbě wireframe (hrubý náčrt budoucí aplikace, slouží k analýze uživatelského rozhraní a je podkladem pro budoucí vývoj) autor použil online nástroj moqups (Moqups, 2014).
Návrh a tvorba aplikace 66 Obrázek 19 Wireframe aplikace K vývoji webové aplikace autor zvolil jazyk Javascript, jelikož s ním má mnoho zkušeností. Na serverovou část bude používat knihovnu Node.js (Node.js, 2014), která nabízí mnoho modulů, které jsou už implementované a jejichž instalace je velmi snadná pohodlná. K napojení na dříve vytvořený SPARQL endpoint poslouží modul sparql-client (Fritz, 2014). Server se díky tomuto modulu snadno napojí na SPARQL endpoint, provede námi zvolený dotaz a získá zpět data ve formátu JSON. Server dále tato data zpracuje a pošle je klientovi ve formátu pro zobrazení geografických dat. Nabízí se řada možností jako: WMS, WFS, KML, GeoRSS, GML nebo GeoJSON. Jelikož má autor velké zkušenosti s jazykem Javascript, formát GeoJSON byl logickou volbou. Jedná se o JSON (Javascript Object Notation), což je odlehčený formát pro výměnu dat. Jeho výhodou je dobrá čitelnost pro stroj i pro člověka. JSON je textový a nezávislý formát, proto je velmi hojně používán (json.org, 2014). JSON je založen na dvou strukturách: Kolekce párů název/hodnota. Hodnota může být v různých jazycích objekt, záznam, struktura, slovník, hash tabulka, klíčový seznam nebo asociativní pole;
Návrh a tvorba aplikace 67 Seřazený seznam hodnot v Javascriptu obvykle pole. Obrázek 20 Struktura JSON formátu (json.org, 2014) GeoJSON je JSON soubor, který slouží ke kódování různých geografických datových struktur. GeoJSON může reprezentovat určitý geometrický objekt, funkci nebo sbírku funkcí (Butler, a další, 2008). Dále je potřeba provést regresní analýzu. Pro tuto akci autor zvolil modul simple-statistics (MacWright, 2014), který z dat získaných ze SPARQL endpointu provede regresní analýzu a odhalí závislost mezi výší důchodu a mzdy v ČR. Data získaná z SPARQL endpointu a z regresní analýzy se dále pošlou na klienta, který bude postavený na HTML + CSS + Javascript. K navržení klientské aplikace autor zvolil javascriptovou MVC (Model-View- Controller) knihovnu Angular.js (AngularJS, 2014). K designu aplikace autor zvolil Framework Twitter Bootstrap (Twitter Bootstrap, 2014). Všechny tyto knihovny jsou dostupné pod otevřenou licencí a jejich použitím autor zrychlí celkovou implementaci. Pro zobrazení na mapě bude použita knihovna Leaflet.js (Agafonkin, 2014) a mapy Open- StreetMap (OpenStreetMap, 2014), pro zobrazení grafu poslouží Highcharts.js (Highsoft AS, 2014). Na obrázku 20 jsou graficky znázorněny všechny komponenty aplikace.