Metodika publikace otevřených a propojitelných dat

Podobné dokumenty
Otevřená data veřejné správy

Otevřená data veřejné správy

Standardy publikace a katalogizace otevřených dat

Informace o aktuálním dění v oblasti otevřených dat v České republice

S M Ě R N I C E č. 6/2014 ministra financí

MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne

Standardy publikace a katalogizace otevřených dat. Dušan Chlapek David Hemala

Otevřená data nejen ve vzdělávání

Informace o aktuálním dění v oblasti otevřených dat v ČR

Co jsou otevřená data?

Výzvy využívání otevřených dat v ČR

Seminář ČSSI: Otevřená a propojitelná data

Otevřená a propojitelná data ve veřejné správě Národní katalog otevřených dat

Publikace dat důchodové statistiky v podobě otevřených propojených dat

Principy a praktické využití otevřených dat

Obsah. 1. Co jsou otevřená data 2. Aktivity v oblasti otevřených dat v ČR 3. Přínosy a výzvy využívání otevřených dat v ČR

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Aktuální výzvy a novinky v oblasti otevřených dat v České republice

Otevřená data ve veřejné správě ČR Tomáš Kroupa, Ministerstvo vnitra - Odbor Hlavního architekta egovernmentu

Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení

Otevřená data. Shrnutí. Když stavím nový IS nebo upravuji existující, co musím udělat, abych byl Open Data Ready? Prosinec 2018

Otevřená data ve veřejné správě , Mikulov. Tomáš Kroupa, Ministerstvo vnitra - Odbor hlavního architekta egovernmentu

Setkání po roce aneb Kam jsme pokročili v otevřených datech

Správa VF XML DTM DMVS Datový model a ontologický popis

OpenData.cz. Jan Kučera. Otevřená data v České republice. Otevřené repositáře

Aktuální dění v oblasti otevřených dat v ČR

Otevřená data veřejné správy z pohledu České republiky

Praktické zkušenosti s řízením projektů otevřených dat Dobrá / špatná praxe

Specializovaná mapa s interpretací regionálních rozdílů v oblasti sociálního výzkumu

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

Metodika publikace otevřených dat veřejné správy ČR. verze 1.0

Open Data v ČR. Martin Nečaský 1, Dušan Chlapek 2, Jan Kučera 2. Business Intelligence Forum Praha,

Jak budeme řešit otevřená data ve veřejné správě? Michal Rada Ministerstvo vnitra ČR

OTEVŘENÁ DATA v České republice a v zahraničí Michal Kubáň Národní koordinátor otevřených dat Odbor hlavního architekta egovernmentu (MV ČR)

Školení otevřených dat VS ČR. Ministerstvo vnitra - Odbor hlavního architekta egovernmentu

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

Výměnný formát XML DTM DMVS PK

Koncepce katalogizace otevřených dat

Automatizovatelná aktualizace Wikidata z veřejných databází. Jakub Klímek

Jak na opendata ve veřejné správě. Michal Rada Ministerstvo vnitra

Jaká data veřejné správy ČR jsou otevřená?

1 Popis předmětu plnění projektu implementace MIS

D. Chlapek, J. Kučera, M. Nečaský: Principy a technologie otevřených dat a jejich využití v managementu

OTEVŘENÁ DATA V ČESKÉ REPUBLICE Aktuální stav, překážky a příležitosti

Konsolidace rezortních registrů. 4. dubna 2011

Otevřená data v ČR aktuální stav a výzvy

4 Poskytování informací. (1) Povinné subjekty poskytují informace žadateli na základě žádosti nebo zveřejněním.

Specifikace předmětu plnění Datová tržiště

Ontologie. Otakar Trunda

Národní technické specifikace. služeb nad prostorovými daty a metadaty

Školení otevřených dat VS ČR. Ministerstvo vnitra - Odbor hlavního architekta egovernmentu

EXTRAKT z mezinárodní normy

Rezortní registry. 8. dubna 2013

OTEVŘENÁ DATA ČSSZ INFORMAČNÍ TECHNOLOGIE HISTORIE OTEVŘENÝCH DAT CO JSOU OTEVŘENÁ DATA. Ing. JIŘÍ ŠUNKA

Linked Data a jazyk RDF

GIS Libereckého kraje

Standard výměnného formátu XML Digitální technické mapy

Otevřená a propojitelná data

Jak otevřené je Zastupitelstvo hlavního města Prahy?

1. Datová architektura a správa dat 2. Otevřená propojená data 3. Řízení kvality dat 4. Role ve správě dat

Jak otevřené je zastupitelstvo Středočeského kraje?

Co nového ve spisové službě? Národní standard pro elektronické systémy spisové služby a jeho optimalizace

Jak otevřené je zastupitelstvo Plzeňského kraje?

Sémantický web 10 let poté

Národní sada prostorových objektů z pohledu krajů. Mgr. Jiří Čtyroký IPR Praha

Co jsou otevřená propojená data?

Otev ená data Českého statistického ú adu

Publikační databáze. Září Vysoká škola ekonomická v Praze

Výčet strategií a cílů, na jejichž plnění se projektový okruh podílí: Strategický rámec rozvoje veřejné správy České republiky pro období

Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu

Průzkumník IS DP. Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o.

Příloha: Dodatečné informace, včetně přesného znění žádosti dodavatele o dodatečné informace

Jak otevřené je zastupitelstvo Jihočeského kraje?

Jak otevřené je zastupitelstvo Karlovarského kraje?

S t a n o vi s k o. odboru dozoru a kontroly veřejné správy Ministerstva vnitra č. 1/2012

Jak otevřené je zastupitelstvo Olomouckého kraje?

Technická dokumentace

Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu Doplněná verze vyznačeno červeně

Rozdílová tabulka návrhu právního předpisu České republiky s předpisy Evropské unie

MBI - technologická realizace modelu

PRŮZKUMNÍK ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP)

Jak otevřené je zastupitelstvo Ústeckého kraje?

SPECIFICKÁ PRAVIDLA PRO ŽADATELE A PŘÍJEMCE

Metodický pokyn k uvedení registru do produkčního provozu

Koncepce katalogizace otevřených dat VS ČR. (zkrácená verze)

Jak otevřené je zastupitelstvo Jihomoravského kraje?

Služby katastru nemovitostí. JiříPoláček

RDF serializace Turtle

Znalostní báze pro obor organizace informací a znalostí

Otevřená data: zdroj příležitostí, nápadů a inovací pro Českou republiku ve 21. století

Jak otevřené je zastupitelstvo Zlínského kraje?

GEOINFOSTRATEGIE AKTUÁLNÍ STAV

Garant karty projektového okruhu:

INFORMACE ČLENŮM VLÁDY

Informace o aktuálním dění v oblasti otevřených dat v ČR

Jak otevřené je zastupitelstvo Kraje Vysočina?

Provozní dokumentace. Seznam datových schránek. Datové soubory. Vytvořeno dne: Aktualizováno: Verze: 1.

Praha na cestě k Open datům. Jiří Čtyroký Institut plánování a rozvoje hl. m. Prahy

Transkript:

Metodika publikace otevřených a propojitelných dat Září 2015 Autoři Autor Organizace Dušan Chlapek Jakub Klímek Jan Kučera Martin Nečaský Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze Matematicko-fyzikální fakulta Univerzita Karlova v Praze Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze Matematicko-fyzikální fakulta Univerzita Karlova v Praze Popis výstupu Metodika publikace otevřených a propojitelných dat popisuje doporučení pro publikaci číselných ukazatelů v podobě otevřených propojitelných dat s využitím slovníku The RDF Data Cube Vocabulary. Metodika vznikla jako jeden z výstupů projektu Otevřená propojitelná data v oblasti veřejných rozpočtů (TD020277) realizovaného v rámci Programu na podporu aplikovaného společenskovědního výzkumu a experimentálního vývoje OMEGA vypisovaného Technologickou agenturou České republiky. Poděkování Projekt Otevřená propojitelná data v oblasti veřejných rozpočtů (TD020277) je spolufinancován Technologickou agenturou České republiky a Fondem Otakara Motejla.

Obsah MANAŽERSKÉ SHRNUTÍ... 5 1 ÚVOD... 6 1.1 STRUKTURA METODIKY... 6 1.2 KOMU JE METODIKA URČENA... 7 1.3 NOVOST POSTUPŮ... 8 2 OTEVŘENÁ A PROPOJENÁ DATA... 9 2.1 OTEVŘENÁ DATA... 9 2.2 STUPNĚ OTEVŘENOSTI DAT... 11 2.3 PROPOJENÁ DATA... 14 3 THE RDF DATA CUBE VOCABULARY... 16 4 DATOVÉ SADY A DATOVÉ KOSTKY... 17 5 ROLE PODÍLEJÍCÍ SE NA PUBLIKACI OTEVŘENÝCH DAT... 18 6 POSTUP PUBLIKACE DAT... 19 6.1 ANALÝZA ZDROJOVÝCH DAT A VYMEZENÍ DATOVÝCH SAD... 20 6.1.1 Cíl činnosti... 20 6.1.2 Obsah činnosti... 20 6.1.3 Související praktiky... 20 6.2 NÁVRH DATOVÝCH KOSTEK A TVORBA ONTOLOGIÍ/SLOVNÍKŮ... 21 6.2.1 Cíl činnosti... 21 6.2.2 Obsah činnosti... 21 6.2.3 Související praktiky... 21 6.3 VOLBA ZPŮSOBU PŘÍSTUPU K DATŮM... 21 6.3.1 Cíl činnosti... 21 6.3.2 Obsah činnosti... 21 6.3.3 Související praktiky... 22 6.4 TRANSFORMACE DAT... 22 6.4.1 Cíl činnosti... 22 6.4.2 Obsah činnosti... 22 6.4.3 Související praktiky... 22 6.5 PŘÍPRAVA METADAT A KATALOGIZAČNÍCH ZÁZNAMŮ... 22 6.5.1 Cíl činnosti... 22 6.5.2 Obsah činnosti... 22 6.5.3 Související praktiky... 22 6.6 VALIDACE DATOVÝCH KOSTEK... 23 6.6.1 Cíl činnosti... 23 6.6.2 Obsah činnosti... 23 6.6.3 Související praktiky... 23 6.7 KONTROLA PŘIPRAVENÝCH DATOVÝCH SAD... 23 6.7.1 Cíl činnosti... 23 6.7.2 Obsah činnosti... 23 Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 2 (z 84)

6.7.3 Související praktiky... 23 6.8 ZVEŘEJNĚNÍ DATOVÝCH SAD... 23 6.8.1 Cíl činnosti... 23 6.8.2 Obsah činnosti... 23 6.8.3 Související praktiky... 24 6.9 ZVEŘEJNĚNÍ KATALOGIZAČNÍCH ZÁZNAMŮ... 24 6.9.1 Cíl činnosti... 24 6.9.2 Obsah činnosti... 24 6.9.3 Související praktiky... 24 7 PRAKTIKY... 25 7.1 URČENÍ FAKTŮ A DIMENZÍ... 25 7.1.1 Problém... 25 7.1.2 Doporučené řešení... 26 7.2 VYMEZENÍ DATOVÝCH SAD A DATOVÝCH KOSTEK VE FORMÁTU RDF PŘI VYUŽITÍ SLOVNÍKU DATA CUBE... 26 7.2.1 Problém... 26 7.2.2 Doporučené řešení... 26 7.3 NÁVRH STRUKTURY DATOVÉ KOSTKY S VYUŽITÍM SLOVNÍKU DATA CUBE... 27 7.3.1 Problém... 27 7.3.2 Doporučené řešení... 27 7.4 TVORBA IDENTIFIKÁTORŮ (URI)... 30 7.4.1 Problém... 30 7.4.2 Doporučené řešení... 30 7.5 VOLBA ONTOLOGIÍ PRO REPREZENTACI FAKTŮ A DIMENZÍ... 32 7.5.1 Problém... 32 7.5.2 Doporučené řešení... 32 7.6 REPREZENTACE ČÍSELNÍKŮ POMOCÍ SKOS... 33 7.6.1 Problém... 33 7.6.2 Doporučené řešení... 33 7.7 REPREZENTACE DIMENZE ČASU... 34 7.7.1 Problém... 34 7.7.2 Doporučené řešení... 34 7.8 REPREZENTACE DIMENZE MÍSTA/ÚZEMÍ... 35 7.8.1 Problém... 35 7.8.2 Doporučené řešení... 35 7.9 REPREZENTACE DIMENZE POHLAVÍ... 36 7.9.1 Problém... 36 7.9.2 Doporučené řešení... 36 7.10 REPREZENTACE DIMENZE SUBJEKTU... 37 7.10.1 Problém... 37 7.10.2 Doporučené řešení... 37 7.11 PROPOJOVÁNÍ PRVKŮ POZOROVÁNÍ NA EXISTUJÍCÍ KONCEPTY... 38 7.11.1 Problém... 38 7.11.2 Doporučené řešení... 38 7.12 AUTOMATIZACE TRANSFORMACE DAT... 39 7.12.1 Problém... 39 Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 3 (z 84)

7.12.2 Doporučené řešení... 39 7.13 PŘÍPRAVA METADAT O DATOVÉ KOSTCE... 39 7.13.1 Problém... 39 7.13.2 Doporučené řešení... 39 7.14 VALIDACE DATOVÝCH KOSTEK V RDF... 41 7.14.1 Problém... 41 7.14.2 Doporučené řešení... 41 8 SOUVISEJÍCÍ PRÁCE... 44 8.1 METODIKA PUBLIKACE OTEVŘENÝCH DAT VEŘEJNÉ SPRÁVY ČR... 44 8.2 STANDARDY PUBLIKACE A KATALOGIZACE OTEVŘENÝCH DAT... 44 8.3 THE OPENCUBE LIFECYCLE... 45 9 ZDROJE... 46 10 ZKRATKY A POUŽITÁ TERMINOLOGIE... 50 10.1 ZKRATKY... 50 10.2 SLOVNÍK POJMŮ... 50 PŘÍLOHA A: PŘÍKLAD VYUŽITÍ METODIKY PUBLIKACE OTEVŘENÝCH A PROPOJITELNÝCH DAT... 53 ROZPOČTOVÁ A ÚČETNÍ DATA VYBRANÝCH ORGÁNŮ VEŘEJNÉ SPRÁVY... 53 STRUKTURA ROZPOČTOVÝCH A ÚČETNÍCH DAT VE FORMÁTU RDF... 54 PODMÍNKY UŽITÍ ROZPOČTOVÝCH A ÚČETNÍCH DAT VE FORMÁTU RDF... 56 POSTUP PUBLIKACE ROZPOČTOVÝCH A ÚČETNÍCH DAT VE FORMÁTU RDF... 56 Analýza zdrojových dat a vymezení datových sad... 57 Návrh datových kostek... 57 Volba způsobu přístupu k datům... 59 Transformace dat... 59 Příprava metadat a katalogizačních záznamů... 59 Validace datových kostek... 59 Kontrola připravených datových sad... 60 Zveřejnění datových sad... 60 Zveřejnění katalogizačních záznamů... 60 POPIS VSTUPNÍCH DATOVÝCH SAD, JEJICH SOUBORŮ A ATRIBUTŮ... 60 Kmenová data... 62 Atributy kmenových dat... 65 Soubory finančních a účetních výkazů... 69 Atributy rozpočtových a účetních dat... 70 Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 4 (z 84)

Manažerské shrnutí Otevřená data představují data publikovaná na internetu, která mohou jejich uživatelé volně využívat, upravovat a šířit, přičemž může být vyžadováno, aby při užití dat byl uveden jejich autor/původce a aby i ostatní uživatelé měli zajištěna stejná oprávnění s daty nakládat. Otevřená data lze publikovat v různých strojově čitelných formátech, nicméně v současné době je za nejpokročilejší formu publikace otevřených dat považována jejich publikace s využitím principů tzv. propojených dat (angl. Linked Data). Otevřená propojená data jsou nejen strojově čitelná, ale lze je snadno propojovat obdobně, jako jsou propojeny webové stránky. Propojování dat umožňuje data zasadit do kontextu a zároveň snižuje potřebu opakovat údaje, které jsou uvedeny v jiných datových zdrojích. To může být výhodné např. v případě referenčních údajů namísto opakování údajů z referenčního zdroje v určité datové sadě a s tím spojených rizik vzniku chyb při zpracování dat a zastarávání údajů v datové sadě oproti údajům v referenčním datovém zdroji, lze v datové sadě uvést pouze odkazy na objekty z referenčního datového zdroje. Při využití principů propojených dat pak lze zajistit, že při práci s datovou sadou budou díky uvedeným odkazům vždy získávána aktuální data z referenčního datového zdroje. Metodika popsaná v tomto dokumentu obsahuje doporučení pro publikaci číselných ukazatelů v podobě otevřených propojených dat s využitím slovníku The RDF Data Cube Vocabulary, který je standardem pro publikaci tohoto typu dat ve formátu RDF vydaným mezinárodní organizací The World Wide Web Consortium (W3C). Číselné ukazatele mohou představovat např. údaje o výši schváleného rozpočtu, o výši rozpočtu po změnách a o výsledku od počátku roku sledované v členění dle účetních jednotek, fiskálního období, tabulky výkazu, rozpočtového paragrafu odvětvového členění rozpočtu a rozpočtové položky. Pro zajištění publikace číselných ukazatelů v podobě otevřených propojených dat jsou v metodice vymezeny role a jejich odpovědnosti, postup publikace dat a praktiky zaměřené na zvládnutí často řešených problémů. Metodika je obecně určena orgánům veřejné správy, které se rozhodnou publikovat data představující číselné ukazatele v podobě otevřených propojených dat. Použití metodiky je pak ilustrováno na příkladu publikace rozpočtových a účetních dat zveřejněných na portálu Monitor Ministerstva financí České republiky, která byla do podoby otevřených propojených dat převedena v rámci projektu Technologické agentury České republiky Otevřená propojitelná data v oblasti veřejných rozpočtů (TD020277). Novost postupů uvedených v této metodice spočívá v popisu uceleného postupu publikace číselných ukazatelů v podobě otevřených propojených dat, který je doplněn praktikami, jež by měly uživatelům usnadnit aplikaci metodiky v praxi. Metodika aplikuje a odkazuje na relevantní osvědčené praktiky pro publikaci otevřených a propojených dat, ty jsou ale zasazeny do uceleného rámce a zároveň jsou doplněny o praktiky, které specificky zohledňují podmínky v České republice. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 5 (z 84)

1 Úvod Otevřená data představují data publikovaná na internetu, která mohou jejich uživatelé volně využívat, upravovat a šířit, přičemž může být vyžadováno, aby při užití dat byl uveden jejich autor/původce a aby i ostatní uživatelé měli zajištěna stejná oprávnění s daty nakládat (Open Knowledge, 2015b). Metodika popsaná v tomto dokumentu obsahuje doporučení pro publikaci číselných ukazatelů v podobě otevřených propojených dat (viz dále) s využitím slovníku The RDF Data Cube Vocabulary (Cyganiak a Reynolds, 2014), tj. na nejvyšším stupni otevřenosti dle tzv. pětihvězdičkového schématu, které navrhl Berners-Lee (2006). Metodika by tak měla orgánům veřejné správy v ČR pomoci publikovat data, která mají povahu číselných ukazatelů, tak, aby byla otevřená, a aby je bylo zároveň možné snadno propojovat na jiná související data, což otevírá cestu pro jejich inovativní využití. Dle Charty otevřených dat skupiny G8 podporuje publikace otevřených dat mimo jiné inovace, otevřené vládnutí a transparentnost veřejné správy a publikace dat o rozpočtech orgánů veřejné správy patří mezi data, která by měla být publikována v podobě otevřených dat (G8, 2013). Metodika popsaná v tomto dokumentu byla vytvořena v rámci projektu Otevřená propojitelná data v oblasti veřejných rozpočtů (TD020277), který se zaměřuje právě na publikaci rozpočtových a účetních dat zveřejněných na portálu Monitor 1 Ministerstva financí České republiky v podobě otevřených a propojených dat. Použití metodiky je tak ilustrováno na příkladu publikace rozpočtových a účetních dat, který metodiku doplňuje o popis způsobu, jakým byly jednotlivé kroky postupu publikace dat dle této metodiky uplatněny v praxi. Příklad je uveden v příloze metodiky, slouží pouze k jejímu lepšímu pochopení a má tak pouze informativní charakter. 1.1 Struktura metodiky Metodika je členěna následujícím způsobem. Za úvodem následuje vymezení otevřených dat a principů propojených dat (Linked Data). V navazující části je představen slovník The RDF Data Cube Vocabulary (Cyganiak a Reynolds, 2014), který je základním slovníkem používaným pro reprezentaci číselných ukazatelů v podobě otevřených a propojených dat dle této metodiky, a v návaznosti na to je diskutován vztah mezi pojmy datová sada a datová kostka. Následující kapitoly jsou věnovány vymezení toho, jak by měly být číselné ukazatele v podobě otevřených a propojených dat publikovány, a kdo by se na jejich publikaci měl podílet. Jsou tak vymezeny role zúčastněné na publikaci dat a v dalších částech je pak popsán postup publikace dat a praktiky pro realizaci navrženého postupu. V další části jsou ve stručnosti diskutovány související práce. Následující části obsahují seznam použitých zdrojů, seznam zkratek a terminologický slovník, za kterými je zařazen příklad využití metodiky. Struktura metodiky je znázorněna na obrázku 1. 1 http://monitor.statnipokladna.cz Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 6 (z 84)

Obrázek 1: Struktura metodiky publikace otevřených a propojitelných dat, zdroj: autoři Metodika popsaná v tomto dokumentu se zaměřuje pouze na publikaci otevřených propojených dat s využitím slovníku The RDF Data Cube Vocabulary. Formát RDF je zde stručně představen, nicméně obecná doporučení pro publikaci dat v tomto formátu nejsou součástí této metodiky. Je doporučeno seznámit se s některým ze zdrojů uvedených v kapitole 2.3, jelikož alespoň základní seznámení s formátem RDF a publikací propojených dat je předpokladem pro uplatnění této metodiky. Pro zápis dat v RDF je v rámci tohoto dokumentu použita notace Turtle. 2 1.2 Komu je metodika určena Metodika je obecně určena orgánům veřejné správy, které se rozhodnou publikovat data představující číselné ukazatele v podobě otevřených propojených dat. Pracovníkům poskytovatele dat, kteří nejsou obeznámeni s tím, co jsou otevřená data, a na jaký principech je založena publikace propojených dat, doporučujeme seznámit se s obsahem kapitoly 2, kde jsou základní pojmy vysvětleny a kde jsou také uvedeny odkazy na další zdroje, které se otevřeným a propojeným datům věnují. 2 http://www.w3.org/tr/turtle/ Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 7 (z 84)

V kapitole 6 jsou vymezeny odpovědnosti jednotlivých rolí ve vztahu k činnostem, prostřednictvím kterých je publikace číselných ukazatelů v podobě otevřených propojených dat zajišťována. Pracovníkům působícím v jednotlivých rolích doporučujeme seznámit se alespoň s obsahem činností, za které zodpovídají a se souvisejícími praktikami. Kromě tohoto obecného doporučení lze uvést, že pracovníkům pověřeným řízením a koordinací publikace otevřených dat jsou určeny zejména kapitoly 5 a 6, tj. s vymezením jednotlivých rolí a s navrženým postupem publikace číselných ukazatelů v podobě otevřených propojených dat. Navržený postup publikace dat číselných ukazatelů je rozdělen do jednotlivých kroků, jejichž popis se zaměřuje na vymezení toho, co by mělo být v rámci realizace daného kroku dosaženo. IT specialistům pak doporučujeme seznámit se s celou metodikou. Zejména těmto pracovníkům je určena kapitola 3, ve které je stručně představen slovník The RDF Data Cube Vocabulary a kapitola 7, která obsahuje popis praktik, které lze uplatnit při řešení častých problémů, na které lze při publikaci číselných ukazatelů v podobě otevřených propojených dat narazit. 1.3 Novost postupů Novost postupů uvedených v této metodice spočívá v popisu uceleného postupu publikace číselných ukazatelů v podobě otevřených propojených dat, který je doplněn praktikami, jež by měly uživatelům usnadnit aplikaci metodiky v praxi. Metodika aplikuje a odkazuje na relevantní osvědčené praktiky pro publikaci otevřených a propojených dat, ty jsou ale zasazeny do uceleného rámce a zároveň jsou doplněny o praktiky, které specificky zohledňují podmínky v České republice. Příkladem takovéto praktiky je praktika Reprezentace dimenze místa/území, která obsahuje doporučení, aby v případě, že entitami v dimenzi místa/území jsou územní celky v ČR, bylo využito propojení na reprezentaci dat z Registru územní identifikace, adres a nemovitostí (RÚIAN) 3 v podobě otevřených propojených dat. 4 3 http://www.cuzk.cz/ruian/ruian.aspx 4 http://linked.opendata.cz/dataset/cz-ruian Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 8 (z 84)

2 Otevřená a propojená data V této části jsou blíže charakterizována otevřená data a jejich vlastnosti a je zde vysvětlen koncept propojených dat. Dále je v rámci této části vysvětlen model stupňů otevřenosti navržený v (Berners-Lee, 2006). Pokud jste s principy otevřených a otevřených propojených dat obeznámeni, můžete kapitolu přeskočit. 2.1 Otevřená data Otevřená data byla již stručně charakterizována v úvodu, nicméně vlastnosti otevřených dat lze vymezit i podrobněji. Dle (Chlapek a kol., 2012a) jsou otevřená data veřejné správy data, která jsou: 1. úplná data jsou zveřejněna v maximálním možném rozsahu. Rozsah může být definován právním předpisem, usnesením vlády, příp. poskytovatelem dat. Například seznam všech nemovitostí s číslem popisným nebo evidenčním v obci XY, nebo seznam všech památkově chráněných objektů v obci XY. 2. primární (původní) data, která jsou zveřejněna původcem dat v podobě, v jaké byla původcem jako primární (původní) vytvořena. Za primární data se považují i a. referenční údaje ze základních registrů, b. data z registrů a rejstříků VS, c. agregovaná data (např. výsledky voleb) pokud není možné zveřejnit data, z nichž byla provedena agregace, d. agregovaná data (např. statistiky nad jinými otevřenými daty) pokud je uveden způsob agregace a odkaz na zveřejněná primární data, z nichž byla agregace provedena. 3. zveřejněná bez zbytečného odkladu zveřejnění dat není zdrženo činnostmi, které nesouvisí s jejich přípravou; činnosti nezbytné pro publikaci dat jsou provedeny v čase, který umožní jejich zveřejnění bez nepřiměřeně dlouhé prodlevy od okamžiku vzniku dat, 4. snadno dostupná data jsou dostupná a dohledatelná běžnými ICT nástroji a prostředky, 5. strojově čitelná data ve formátu, který je strukturovaný takovým způsobem, že pomocí programové aplikace lze z dat získat žádané (vybrané) údaje 6. neomezující přístup data dostupná způsobem, který nediskriminuje jednotlivce nebo skupinu osob, 7. používající standardy s volně dostupnou specifikací (otevřené standardy) data musí být ve formátu, který je volně (bezplatně) dostupný pro libovolné použití nebo do takovéhoto formátu převoditelný volně (bezplatně) dostupnou aplikací, 8. zpřístupněna za jasně definovaných podmínek užití dat (licence) s minimem omezení podmínky musí být jasně a zřetelně definovány a zveřejněny, 9. stále dostupná data jsou dostupná on-line po dobu uvedenou jejich poskytovatelem, 10. dostupná uživatelům při vynaložení minima možných nákladů na jejich získání poskytovatelé jsou v souvislosti s poskytováním dat oprávněni žádat úhradu maximálně ve výši, která nesmí přesáhnout náklady spojené s jejich zpřístupněním uživateli; poskytovatel dat může jednorázově vyžádat i úhradu za mimořádně náročné pořízení dat, pokud si uživatel zpřístupnění těchto dat vyžádá. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 9 (z 84)

Chlapek a kol. (2012a) rozdělují výše uvedené vlastnosti otevřených dat na povinné a nepovinné. Aby bylo možné data považovat za otevřená, musí data dle (Chlapek a kol., 2012a) splňovat alespoň podmínky č. 1, 4, 5, 7, 8 a 10. V souladu s (Chlapek a kol., 2012a) jsou tak v této metodice za otevřená data veřejné správy považována data, která jsou úplná, snadno dostupná, strojově čitelná, používající otevřené standardy, zpřístupněná za jasně definovaných podmínek užití s minimem omezení a dostupná uživatelům při vynaložení minima možných nákladů na jejich získání. Dle Open Knowledge (2015a) je třeba u otevřených dat zajistit jejich právní a technickou otevřenost. Právní otevřenost je zajištěna tak, že data jsou zpřístupněna k využití za podmínek či pod licencí umožňující jejich volné využití. Podmínky užití či licence by měly být v souladu s tzv. Definicí otevřenosti viz (Open Knowledge, 2014). Technická otevřenost je pak zajištěna publikací dat v otevřených a strojově čitelných formátech (Open Knowledge, 2015a). 5 K datovým formátům viz dále. Otevřená data by měla být úplná a primární, tj. měla by být publikována v maximálním možném rozsahu a v takové podrobnosti, v jaké jsou pořizována. Nicméně pokud není možné data publikovat v rozsahu a podrobnosti v jaké jsou pořizována zdrojová data, připouští výše uvedené vymezení otevřených dat, aby jako otevřená data byla publikována data, která jsou anonymizovaná nebo agregovaná. Důvodem může být např. potřeba zajistit ochranu osobních údajů, která jsou součástí zdrojových dat, nebo potřeba vyhovět požadavkům vyplývajícím ze zák. č. 89/1995 Sb., o státní statistické ( 16 až 18, ochrana důvěrných statistických údajů a poskytování statistických informací a anonymních údajů). Protože data mohou v průběhu času zastarávat, měla by být otevřená data pravidelně aktualizována a měla by být zveřejněna bez zbytečného odkladu. Organizace The Open Data Institute definovala tzv. certifikáty pro otevřená data (Open Data Certificate) viz (Open Data Institute, 201?a). Čím kratší je prodleva mezi aktualizací zdrojových dat a zveřejněním příslušné otevřené datové sady, resp. její aktualizace, tím vyšší úroveň certifikátu je možné získat (Open Data Institute, 201?b). Využívat otevřená data by mělo být umožněno každému a pro libovolné účely, tj. využití by např. nemělo být omezeno pouze na nekomerční způsoby využití (Open Knowledge, 2015b). Dle (Open Knowledge, 2015a) je doporučeno poskytovat otevřená data zdarma ke stažení prostřednictvím internetu. S ohledem na zák. č. 106/1999 Sb. nevylučuje vymezení otevřených dle (Chlapek a kol., 2012a) vybírání poplatků v omezené výši. Dle Evropské komise (2014) by orgány veřejné správy při poskytování dat v režimu směrnice 2013/37/EU měly pravidelně posuzovat potenciální náklady a přínosy politiky nulových poplatků a politiky mezních nákladů, přičemž je třeba mít na paměti, že i výběr poplatků něco stojí (fakturace, sledování a kontrola plateb atd.). Evropská komise (2014) doporučuje při poskytování dat v digitální podobě formou stažení z internetu volit metodu nulových poplatků. V souladu s výše uvedenými doporučeními lze doporučit, aby otevřená data byla poskytována zdarma ke stažení. 5 K problematice otevřených formátů viz např. (Free Software Foundation Europe, 2013). Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 10 (z 84)

2.2 Stupně otevřenosti dat Otevřená data musí být strojově čitelná (viz vlastnosti otevřených dat veřejné správy dle (Chlapek a kol., 2012)). Na základě toho, v jakém formátu jsou data poskytována, navrhl sir Tim Berners-Lee (2006) schéma pro klasifikaci otevřenosti dat. Toto schéma včetně příkladů formátů dat využívaných na jednotlivých stupních otevřenosti je dále rozpracováno v (Hausenblas, 2012). Graficky je toto schéma znázorněno na obrázku 2. Obrázek 2: Stupně otevřenosti dat, zdroj: (Hausenblas, 2012) Na všech stupních otevřenosti musí být zaručena právní otevřenost dat, tj. podmínky užití či příslušná licence musí umožnit, aby bylo možné data volně využívat (viz výše). Vlastnosti dat a příklady formátů na jednotlivých stupních otevřenosti uvádí tabulka 1. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 11 (z 84)

Tabulka 1: Vlastnosti dat dle stupňů otevřenosti, zdroj: zpracováno dle (Hausenblas, 2012) Stupeň otevřenosti Vlastnosti dat Možný formát * Data poskytována pod licencí či podmínkami užití, které zajišťují jejich právní otevřenost. Data poskytována v libovolném formátu. ** Data poskytována pod licencí či podmínkami užití, které zajišťují jejich právní otevřenost. Data poskytována ve strojově čitelném formátu, nemusí být otevřený. *** Data poskytována pod licencí či podmínkami užití, které zajišťují jejich právní otevřenost. Formát dat je otevřený Specifikace formátu je volně dostupná. Lze využívat zdarma, další využití formátu není omezeno. Formát nezávislý na platformě, resp. lze vytvořit nezávislé implementace pro různé platformy. **** Data poskytována pod licencí či podmínkami užití, které zajišťují jejich právní otevřenost. Data poskytována ve strojově čitelném formátu. Formát dat je otevřený. Jako identifikátory objektů jsou použity URI (viz dále). ***** Data poskytována pod licencí či podmínkami užití, které zajišťují jejich právní otevřenost. Data poskytována ve strojově čitelném formátu. Formát dat je otevřený. Jako identifikátory objektů jsou použity URI. Data jsou pomocí odkazů propojena na jiná související data. PDF XLS(X) CSV RDF (viz dále), Atom RDF Aby bylo možné publikovaná data považovat za otevřená dle definice v (Chlapek a kol., 2012a), měla by být publikována alespoň na stupni otevřenosti 3 hvězdičky. Data na stupni otevřenosti 5 hvězdiček jsou označována jako otevřená propojená data a pojednává o nich následující část. Výhody a nevýhody dat na jednotlivých stupních otevřenosti shrnuje tabulka 2. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 12 (z 84)

Tabulka 2:Hodnocení stupňů otevřenosti, zdroj: (Chlapek a kol., 2014 dle Hausenblas, 2012) Stupeň otevřenosti Výhody Nevýhody * Jednoduchost a relativně nízká pracnost Data není třeba transformovat na straně poskytovatele dat. Zaměření pouze na právní otevřenost. Uživatelé vědí, že mohou data dále zpracovávat. ** Relativně jednoduché, pokud jsou podkladová data již dostupná ve formátu typu MS Excel, nebo pokud je lze takovéhoto formátu jednoduše uložit. Data jsou ve formátu, který je snáze strojově zpracovatelný. *** Uživatelé nejsou nuceni používat aplikace určitého výrobce, aby s daty mohli pracovat. **** Objekty jsou jednoznačně identifikovány způsobem, který umožňuje se na ně odkazovat obdobně jako na HTML stránky. Lze kombinovat s jinými datovými sadami na stupních 4 a 5 hvězdiček. ***** Data jsou propojena na další související zdroje Datům lze přiřadit bohatý kontext Místo opisování referenčních údajů se lze přímo odkázat na referenční datové zdroje. Propojení umožňují uživateli získat další data, která by jinak poskytovatel musel zahrnout do datové sady. Jednotlivé orgány VS zodpovídají a udržují své datové sady, je možné se mezi nimi odkazovat, není nutné je duplicitně publikovat na více místech. Data může být obtížné využít např. potřeba vytěžování tabulkových dat z PDF dokumentů Příklad: tabulky s údaji v ročenkách a výročních zprávách. Pokud neexistují volně dostupné nástroje pro práci se zvolenými formáty, je uživatel nucen pořizovat odpovídající SW nástroje. Může být nutné data do otevřeného strojově čitelného formátu transformovat. Příprava dat vyžaduje více času a úsilí definice schémat pro tvorbu URI a přiřazení URI identifikátorů objektům. Ne všichni v současné době disponují znalostmi pro publikaci a zpracování dat v této podobě. Příprava dat vyžaduje více času a úsilí definice schémat pro tvorbu URI a přiřazení URI identifikátorů objektům. Ne všichni v současné době disponují znalostmi pro publikaci a zpracování dat v této podobě. Související datové zdroje musí být také k dispozici minimálně na stupni 4 hvězdičky. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 13 (z 84)

2.3 Propojená data Propojená data 6 je označení pro následující čtyři principy pro publikaci dat v prostředí webu (Berners- Lee, 2006): 1. pojmenování objektů na webu pomocí URI, 2. použití HTTP URI, které umožňují je vyhledat v prostředí dnešního webu, 3. při vyhledání URI jsou uživateli poskytnuta data o objektu, data jsou poskytnuta s využitím standardů RDF a SPARQL, 4. objekty jsou provázány odkazy mezi HTTP URI, což umožňuje objevovat související objekty. Dle (Bizer a kol., 2009) jsou propojená data strojově čitelná a jejich význam je explicitně definován. Hlavním cílem propojených dat je umožnit propojení různých datových zdrojů obdobným způsobem, jakým jsou v prostředí webu propojeny jednotlivé webové stránky (Bizer a kol., 2009). Na rozdíl od propojení webových stránek odkazy mezi jednotlivými datovými entitami vyjadřují jejich vzájemný vztah. Vzájemně propojené datové entity tak vytváření tzv. web dat. Propojená data využívají několika základních standardů protokol HTTP (Fielding a Reschke, 2014), identifikátory v podobě URI 7 (Berners-Lee a kol., 2005), datový model (formát) RDF 8 (Cyganiak a kol., 2014) a dotazovací jazyk SPARQL (W3C SPARQL Working Group, 2013). RDF představuje zcela obecný model pro reprezentaci dat na webu. Datová sada ve formátu RDF představuje sadu grafů reprezentovaných trojicemi subjekt-predikát-objekt. Subjekt, predikát a objekt pak mohou být reprezentovány pomocí URI, literálu nebo prázdného uzlu (blank node). Predikát RDF trojice určuje, v jakém vzájemném vztahu jsou subjekt a objekt a musí být vždy reprezentován jako URI. Literál je využit v případě, kdy objektem RDF trojice je hodnota, která nepředstavuje URI (prostá hodnota, ale i složená hodnota, jako např. množina bodů vymezujících určitý polygon představující území dle specifikace Open Geospatial Consortium, 2012). Objekt a subjekt mohou být reprezentovány prázdnými uzly, na které se ale lze odkazovat pouze v rámci jednoho RDF dokumentu. Díky tomuto omezení není možné odkazovat na prázdné uzly z jiných datových zdrojů a potenciál propojení datové sady (RDF dokumentu) s prázdnými uzly je tak nižší, než kdyby byly využity identifikátory v podobě URI (Heath a Bizer, 2011). Využívání prázdných uzlů tak není doporučováno. Protože RDF představuje zcela obecný datový model, neobsahuje definice žádných konceptů pro reprezentaci dat z určité domény. Pro reprezentaci objektů určité domény a vztahů mezi nimi jsou využívány ontologie nebo jednodušší slovníky (k ontologiím a slovníkům viz např. Heath a Bizer, 2011). Ontologie vznikají pro řadu oblastí. Doporučenou praktikou je využívání existujících ontologií (Hyland a kol., 2014). Tj. pokud pro reprezentaci určitého objektu existuje koncept v existující ontologii, měl by být využit. K tvorbě vlastních ontologií či k rozšiřování existujících ontologií je vhodné přistoupit až v okamžiku, kdy stávající ontologie neumožňují vhodným způsobem reprezentovat příslušné objekty a 6 Anglicky Linked Data, zkráceně LD. 7 Uniform Resource Identifier. 8 Resource Description Framework. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 14 (z 84)

vztahy mezi nimi. Existující ontologie lze vyhledávat např. v katalogu Linked Open Vocabularies, 9 doporučené ontologie uvádí také např. (Nečaský a kol., 2014). Pokud jsou data veřejné správy publikována nejen jako otevřená data, ale pokud využívají i principů propojených dat, jsou takováto data označovaná jako otevřená propojená data. Dle (Archer a kol., 2013) by publikace dat v podobě otevřených propojených dat mohla v oblasti veřejné správy přinést následující přínosy: Flexibilní datová integrace publikace dat ve formátu otevřených propojených dat umožňuje a podporuje propojování doposud nepropojených datových sad v držení orgánů veřejné správy. Zvýšení kvality dat vyšší intenzita využívání dat vede k potřebě zajistit jejich potřebnou kvalitu. Uživatelé mohou na existující nedostatky v datech upozorňovat. Zjištěné nedostatky mohou být průběžně odstraňovány. Vznik nových služeb publikovaná otevřená propojená data mohou jak soukromé, tak i veřejné subjekty využít pro vytváření nových služeb a produktů. Snížení nákladů využívání publikovaných otevřených propojených dat v rámci aplikací zajišťujících služby egovernmentu může vést ke snížení nákladů. Bizer (2009) pak upozorňuje na skutečnost, že využívání principů propojených dat v oblasti veřejné správy může umožnit, aby data v držení různých orgánů veřejné správy byla integrována bez nutnosti změny kompetencí jednotlivých orgánů veřejné správy. Tato metodika se zaměřuje konkrétně na publikaci dat s využitím slovníku The RDF Data Cube Vocabulary. Obecná doporučení pro publikaci dat ve formátu RDF nejsou tedy součástí této metodiky. Lze je ale nalézt v řadě existujících zdrojů, jako je např. (Heath a Bizer, 2011; Hyland a kol., 2014) nebo (Nečaský a kol., 2014). Doporučujeme tak seznámit se s některým z těchto zdrojů. 9 http://lov.okfn.org/dataset/lov/ Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 15 (z 84)

3 The RDF Data Cube Vocabulary The RDF Data Cube Vocabulary (dále jen Data Cube, prefix qb) je doporučení W3C, které vychází z mezinárodního standardu SDMX (Cyganiak & Reynolds, 2014). Data reprezentovaná pomocí Data Cube představují tzv. datové kostky (qb:dataset). Datové kostky jsou tvořeny pozorováními (qb:observation). Pozorování pak dále obsahují fakt, jemu přiřazené dimenze a mohou také obsahovat atribut faktu, např. jednotku, ve které je hodnota faktu vyjádřena. Schéma slovníku Data Cube je uvedeno na obrázku 3. Obrázek 3: Schéma slovníku Data Cube, zdroj: (Cyganiak a Reynolds, 2014) Slovník Data Cube nedefinuje strukturu datových kostek pro reprezentaci dat z určité domény, ale poskytuje koncepty, pomocí kterých lze strukturu konkrétních datových kostek definovat tak, aby odpovídala potřebám konkrétních dat. Pro každou datovou kostku tak existuje definice její struktury (qb:datastructuredefinition). V rámci definice této struktury je pak určeno, jakými fakty (qb:measureproperty), dimenzemi (qb:dimensionproperty) a příp. jejich atributy (qb:attributeproperty) je datová kostka tvořena. Data Cube umožňuje definovat i tzv. řezy (qb:slice). Řez představuje předdefinovaný pohled na data, který vznikne tak, že u jedné či více dimenzí je určena hodnota a součástí řezu jsou pak pouze ty fakty, u kterých hodnota příslušné dimenze odpovídá zvolené hodnotě. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 16 (z 84)

4 Datové sady a datové kostky Výše bylo uvedeno, že v případě reprezentace dat pomocí slovníku Data Cube jsou data organizována do podoby datových kostek. V oblasti otevřených dat se lze běžně setkat s pojmem datová sada (angl. dataset). Datová sada je dle (Maali a Erickson, 2014) definována jako kolekce dat publikovaná a spravovaná jedním subjektem zpřístupněná ke stažení či jiným způsobem v jednom či více formátech. Při reprezentaci dat ve formátu RDF jsou trojice subjekt-predikát-objekt organizovány do grafů (Cyganiak a kol., 2014). RDF graf je tak považován za datovou sadu ve smyslu výše uvedené definice. Protože by datová kostka měla obsahovat související naměřené či pozorované údaje organizované dle odpovídajících dimenzí, doporučujeme, aby jeden RDF graf obsahoval data jedné datové kostky. 10 Z hlediska toho, jaká data jsou součástí datové sady, resp. datové kostky, vymezení datové sady a datové kostky si odpovídají. Protože ale podle výše uvedené definice může datová sada obsahovat data v různých formátech, bylo by možné uvažovat např. situaci, kdy je jedna datová kostka vedle formátu RDF reprezentována např. ve formátu XML. 11 Nicméně v této metodice jsou uvažovány pouze datové kostky ve formátu RDF. Datovou kostku dle slovníku Data Cube tak nelze zcela ztotožnit s datovou sadou dle (Maali a Erickson, 2014). Datová kostka ve formátu RDF je tak v této metodice chápána jako jedna z reprezentací obsahově shodně vymezené datové sady. K výše uvedenému je třeba doplnit, že v rámci specifikace konceptů a syntaxe formátu RDF (Cyganiak, Wood a Lanthaler, 2014) je vymezen pojem datová sada v RDF. Tento pojem je širší, než pojem datová sada, tak jak je popsána v předcházejícím odstavci, protože datová sada v RDF představuje kolekci RDF grafů (výchozí graf, který může být prázdný a žádný nebo více pojmenovaných grafů). Pojem datová sada v této metodice tak je používán ve smyslu definice dle (Maali a Erickson, 2014) a nikoli ve smyslu definice pojmu datová sada v RDF dle (Cyganiak, Wood a Lanthaler, 2014). Výše je také doporučeno, aby RDF trojice byly organizovány do RDF grafů tak, aby RDF trojice reprezentující jednu datovou kostku byly součástí samostatného RDF grafu. Pro úplnost uveďme, že toto je jen jeden z možných způsobů, které lze obecně použít pro organizaci RDF trojic do RDF grafů. Další z možných přístupů jsou popsány např. v (Doods a Davis, 2012). 10 Blíže viz praktika Vymezení datových sad a datových kostek ve formátu RDF při využití slovníku Data Cube. 11 Prostředky pro reprezentaci datových kostek pomocí XML nabízí standard SDMX, viz (SDMX, 2011a). Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 17 (z 84)

5 Role podílející se na publikaci otevřených dat Na publikaci číselných ukazatelů v podobě otevřených propojených dat se může podílet řada osob v různých rolích. V této metodice jsou využity role zúčastněné na publikaci otevřených dat veřejné správy, které byly vymezeny v rámci přípravy Standardů publikace a katalogizace otevřených dat veřejné správy, jenž probíhá v rámci projektu Ministerstva vnitra České republiky (Ministerstvo vnitra ČR, 2015b). Těmito rolemi jsou: Vedení poskytovatele dat vedení subjektu, který publikuje určitá data v podobě otevřených dat. Publikace otevřených dat je zahájena z rozhodnutí vedení. Vedení dále obsazuje jednotlivé role určenými pracovníky a schvaluje publikační plán. 12 Koordinátor otevřených dat v rámci organizace je zodpovědný za proces otevírání dat a za jeho řízení. Kurátor dat v rámci organizace zodpovídá za jednu nebo více určených datových sad. Správce katalogu otevřených dat zodpovídá za přípravu katalogu otevřených dat organizace a za správu jednotlivých katalogizačních záznamů. IT specialista odborník se znalostmi v oblasti informačních technologií, který spolupracuje s kurátory dat a správcem katalogu otevřených dat při přípravě datových sad k publikaci a při provozu datového katalogu. Obecné odpovědnosti jednotlivých rolí vymezuje vzorová směrnice pro publikaci a katalogizaci otevřených dat dostupná webových stránek věnovaných Standardům publikace a katalogizace otevřených dat veřejné správy, viz (Ministerstvo vnitra ČR., 2015f). Specifické odpovědnosti těchto rolí při publikaci číselných údajů v podobě otevřených propojených dat dle této metodiky jsou vymezeny v kapitole 6. 12 Dle (Ministerstvo vnitra ČR, 2015f) publikační plán vymezuje datové sady plánované k publikaci v podobě otevřených dat. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 18 (z 84)

6 Postup publikace dat Postup publikace číselných údajů v podobě otevřených propojených dat s využitím slovníku Data Cube vychází z Metodiky publikace otevřených dat veřejné správy ČR (Chlapek a kol., 2012b) a z postupu publikace otevřených dat vymezeného ve standardech vytvářených Ministerstvem vnitra ČR (Ministerstvo vnitra ČR, 2015c). Tyto zdroje vymezují obecný postup publikace otevřených dat a nezaměřují se tak na specifika publikace otevřených propojených dat a využití slovníku Data Cube. Postup navržený v této metodice je tak oproti těmto obecným postupům rozšířen, aby bylo možné tato specifika zohlednit. Zvolený přístup tak zohledňuje jak specifika publikace otevřených propojených dat s využitím slovníku Data Cube, tak i vznikající standardy pro publikaci otevřených dat ČR a mezinárodní praxi. Doporučený postup publikace číselných údajů ve formátu RDF s využitím slovníku Data Cube se sestává z kroků uvedených v tabulce 3 společně s rolí, která za provádění kroku zodpovídá. Postup byl vymezen tak, aby pokryl životní cyklus datové sady od analýzy zdrojových dat, která budou následně transformována do podoby datové kostky či datových kostek, až po zpřístupnění datové sady k jejímu využití. Periodická publikace datové sady a její údržba není reprezentována samostatným krokem, ale předpokládá se opakování relevantních kroků navrženého postupu. Do postupu publikace nebyly zařazeny činnosti spojené s přípravou a přijetím interních předpisů upravujících publikaci otevřených dat, ani činnosti související s přípravou plánu publikace otevřených dat, které vymezují standardy publikace otevřených dat veřejné správy v ČR (Ministerstvo vnitra ČR, 2015b). Tyto činnosti v organizaci sice vytvářejí předpoklady, aby data v podobě otevřených dat s využitím slovníku Data Cube byla publikována, ale návrh, příprava a zveřejnění datových kostek v rámci nich přímo neprobíhá. Dále se předpokládá, že podmínky užití, resp. licence, zajišťující právní otevřenost dat byly zvoleny v rámci přípravy publikačního plánu. Podmínky užití je vhodné volit dle návodu popsaného v (Ministerstvo vnitra ČR, 2015a). Tabulka 3: Kroky postupu publikace číselných údajů ve formátu RDF s využitím slovníku Data Cube, zdroj: autoři Činnost Analýza zdrojových dat a vymezení datových sad Návrh datových kostek a tvorba ontologií/slovníků Volba způsobu přístupu k datům Transformace dat Příprava metadat a katalogizačních záznamů Validace datových kostek Kontrola připravených datových sad Zveřejnění datových sad Zveřejnění katalogizačních záznamů Zodpovídá Kurátor dat IT specialista Koordinátor otevírání dat IT specialista Kurátor dat Kurátor dat Koordinátor otevírání dat IT specialista Správce katalogu otevřených dat Postup publikace číselných údajů ve formátu RDF s využitím slovníku Data Cube je graficky znázorněn na obrázku 4. Kroky vyznačené na obrázku 4 přerušovanou čarou označují kroky obecného postupu publikace otevřených dat, které je třeba realizovat, aby i otevřená propojená data využívající slovník Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 19 (z 84)

Data Cube byla zpřístupněna k využití. Protože ale specifika zvoleného formátu dat neovlivňují jejich provádění, nejsou v této metodice pro tyto kroky vymezeny praktiky. Podrobnosti k provádění těchto kroků lze najít v (Chlapek a kol., 2012b; Ministerstvo vnitra ČR, 2015b). Obrázek 4: Schéma postupu publikace číselných údajů ve formátu RDF s využitím slovníku Data Cube, zdroj: autoři 6.1 Analýza zdrojových dat a vymezení datových sad 6.1.1 Cíl činnosti Cílem této činnosti je provést analýzu zdrojových dat, identifikovat fakty a dimenze, vyhodnotit, zda je nutné zdrojová dat před publikací anonymizovat či agregovat do podoby statistik a navrhnout způsob, jakým bude provedena validace vytvořených datových kostek vzhledem ke zdrojovým datům. 6.1.2 Obsah činnosti V rámci činnosti je třeba: identifikovat fakty a dimenze ve zdrojových datech; navrhnout způsob agregace či anonymizace zdrojových dat, je-li to třeba; navrhnout způsob validace datových kostek. 6.1.3 Související praktiky Určení faktů a dimenzí Vymezení datových sad a datových kostek ve formátu RDF při využití slovníku Data Cube Validace datových kostek v RDF Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 20 (z 84)

6.2 Návrh datových kostek a tvorba ontologií/slovníků 6.2.1 Cíl činnosti Cílem činnosti je na základě výsledků analýzy zdrojových dat, zejména na základě určení faktů a dimenzí, navrhnout strukturu příslušných datových kostek ve formátu RDF s využitím slovníku Data Cube a dalších relevantních ontologií. Pokud není možné reprezentovat fakty a dimenze pomocí existujících ontologií, je v rámci činnosti proveden návrh vlastních ontologií. 6.2.2 Obsah činnosti V rámci činnosti je třeba: identifikovat vhodné existující ontologie pro reprezentaci faktů a dimenzí; navrhnout vlastní ontologie pro reprezentaci faktů a dimenzí, pokud je není možné reprezentovat pomocí existujících ontologií; navrhnout vzory tvorby URI nebo využít vhodné existující vzory; navrhnout strukturu datových kostek ve formátu RDF; navrhnout propojení na jiné datové zdroje. 6.2.3 Související praktiky Návrh struktury datové kostky s využitím slovníku Data Cube Tvorba identifikátorů (URI) Volba ontologií pro reprezentaci faktů a dimenzí Reprezentace číselníků pomocí SKOS Reprezentace dimenze času Reprezentace dimenze místa/území Reprezentace dimenze pohlaví Reprezentace dimenze subjektu Propojování prvků pozorování na existující koncepty 6.3 Volba způsobu přístupu k datům 6.3.1 Cíl činnosti Cílem činnosti je zvolit způsob, jakým budou datové sady obsahující příslušné datové kostky zpřístupněny k využití. 6.3.2 Obsah činnosti V rámci činnosti je třeba: určit způsob, kterým budou data zveřejněna. Datové sady musí být zpřístupněny ve formě datových souborů ke stažení. Ke stažení musí být k dispozici úplná datová sada, tj. všechna data datové kostky. To usnadňuje využití dat těm, kdo potřebují pracovat Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 21 (z 84)

s úplnými daty. Obsah lze ale rozdělit do více souborů, např. tak, aby soubor obsahoval data za vymezené časové období, nebo podle povahy měření zaznamenaného v datech. Pokud je to možné, měly by být datové sady obsahující datové kostky ve formátu RDF zpřístupněny prostřednictvím SPARQL endpointu. Pokud je to možné, měla by být zajištěna dereferencovatelnost URI jednotlivých objektů, tj. mělo by být zajištěno, že po přistoupení na URI pomocí protokolu HTTP budou poskytnuta data o příslušném objektu v RDF. 6.3.3 Související praktiky Volba přístupu k datům (Chlapek a kol., 2012b) Tvorba URL (Archer a kol., 2012) 6.4 Transformace dat 6.4.1 Cíl činnosti Cílem činnosti je navrhnout způsob transformace datové sady z jejího stávajícího formátu do formátu RDF dle navržené struktury datových kostek a realizovat navrženou transformaci. 6.4.2 Obsah činnosti V rámci činnosti je třeba: navrhnout způsob transformace zdrojových dat do formátu RDF dle navržené struktury datových kostek; pokud navržený způsob zahrnuje automatizovanou transformaci pomocí ETL procedur, implementovat tyto ETL procedury; provést transformaci zdrojových dat dle navrženého způsobu. 6.4.3 Související praktiky Automatizace transformace dat 6.5 Příprava metadat a katalogizačních záznamů 6.5.1 Cíl činnosti Cílem činnosti je připravit katalogizační záznamy o datových sadách a metadata popisující datové kostky. 6.5.2 Obsah činnosti V rámci činnosti je třeba: vytvořit metadata o datové sadě a o jednotlivých datových kostkách dle navržené struktury. 6.5.3 Související praktiky Příprava metadat o datové sadě viz (Ministerstvo vnitra ČR, 2015e) Příprava metadat o datové kostce Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 22 (z 84)

6.6 Validace datových kostek 6.6.1 Cíl činnosti Cílem této činnosti je provést kontrolu, že vytvořené datové kostky ve formátu RDF a jejich metadata neobsahují chyby, že jsou dodrženy stanovené požadavky na kvalitu dat a metadat. 6.6.2 Obsah činnosti V rámci činnosti je třeba: validovat, že datové kostky odpovídají definicím jejich struktury; validovat, že data neobsahují chyby; validovat, že metadata neobsahují chyby a že věrně popisují datovou sadu a datové kostky. 6.6.3 Související praktiky Validace datových kostek v RDF 6.7 Kontrola připravených datových sad 6.7.1 Cíl činnosti Cílem činnosti je provést kontrolu, že datové sady a k nim příslušné katalogizační záznamy vyhovují požadavkům určeným poskytovatelem dat a že mohou být zveřejněny. 6.7.2 Obsah činnosti V rámci činnosti je třeba: provést finální kontrolu souladu datových sad s určenými podmínkami, které musí před zveřejněním splňovat; provést finální kontrolu souladu katalogizačních záznamů s určenými podmínkami, které musí před zveřejněním splňovat. 6.7.3 Související praktiky Viz (Ministerstvo vnitra, 2015b). 6.8 Zveřejnění datových sad 6.8.1 Cíl činnosti Cílem této činnosti je realizovat zveřejnění datových sad obsahujících datové kostky ve formátu RDF v souladu se způsobem určeným v rámci činnosti Volba způsobu přístupu k datům. 6.8.2 Obsah činnosti V rámci činnosti je třeba: zveřejnit datové sady v souladu se způsobem určeným v rámci činnosti Volba způsobu přístupu k datům. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 23 (z 84)

6.8.3 Související praktiky Viz (Ministerstvo vnitra, 2015b). 6.9 Zveřejnění katalogizačních záznamů 6.9.1 Cíl činnosti Cílem činnosti je zajistit, že metadata o datových sadách obsahujících datové kostky, jsou zpřístupněna v souladu se zvoleným způsobem katalogizace. Volba způsobu katalogizace je mimo rámec této metodiky, k této problematice viz (Ministerstvo vnitra ČR, 2015d). 6.9.2 Obsah činnosti V rámci činnosti je třeba: zpřístupnit metadata o datové sadě a o datových kostkách v souladu se zvoleným způsobem katalogizace. 6.9.3 Související praktiky Viz (Ministerstvo vnitra, 2015b). Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 24 (z 84)

7 Praktiky Tabulka 4 uvádí přehled praktik a problémů, na jejichž řešení se jednotlivé praktiky zaměřují. Tabulka 4: Praktiky a související problémy, zdroj: autoři Praktika Problém Určení faktů a dimenzí Vymezení datových sad a datových kostek ve formátu RDF při využití slovníku Data Cube Návrh struktury datové kostky s využitím slovníku Data Cube Tvorba identifikátorů (URI) Volba ontologií pro reprezentaci faktů a dimenzí Reprezentace číselníků pomocí SKOS Reprezentace dimenze času Reprezentace dimenze místa/území Reprezentace dimenze pohlaví Reprezentace dimenze subjektu Propojování prvků pozorování na existující koncepty Automatizace transformace dat Příprava metadat o datové kostce Validace datových kostek v RDF Jak určit, zda mají být existující data publikována jako jedna nebo více datových sad? Jak určit, zda mají být existující data publikována jako jedna nebo více datových sad? Jak navrhnout strukturu datové kostky s využitím slovníku Data Cube? Jaká je vhodná struktura URI, které budou sloužit jako identifikátory objektů ve formátu RDF? Kdy volit existující ontologie pro reprezentaci faktů a dimenzí a kdy vytvářet ontologie vlastní? Jak nalézt vhodné existující ontologie pro reprezentaci dat ve formátu RDF? Jak reprezentovat číselníky pomocí slovníku SKOS? Jakým způsobem by měla být v datové kostce reprezentována dimenze času? Jakým způsobem by měla být v datové kostce reprezentována dimenze místa/území? Jakým způsobem by měla být v datové kostce reprezentována dimenze pohlaví? Jakým způsobem by měly být v datové kostce reprezentovány subjekty, např. právnické osoby, jako dimenze? Jak propojit měření (fakty), dimenze a příp. atributy pozorování na existující koncepty? Jak snížit pracnost přípravy datových sad? Jaká metadata by měla popisovat datovou kostku a jak tato metadata reprezentovat? Jak ověřit, že datová kostka obsahuje správné a úplné údaje? 7.1 Určení faktů a dimenzí 7.1.1 Problém Co jsou fakty a dimenze a jak je rozpoznat v existujících datech? Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 25 (z 84)

7.1.2 Doporučené řešení Při určování faktů a dimenzí je vhodné se řídit následujícími doporučeními: Fakty představují sledované jevy, resp. naměřené hodnoty vypovídající o těchto jevech, např. celková výše příjmů, nebo výdajů. Dimenze představují hlediska, pomocí kterých jsou fakty klasifikovány, např. období, za které je výše příjmů/výdajů udávána, nebo typ výdaje/příjmu. Jak již bylo uvedeno výše, data reprezentovaná pomocí slovníku Data Cube jsou organizována do multidimenzionální datové struktury označované jako datová kostka. Datová kostka je tvořena pozorováními, která představují určité naměřené hodnoty či hodnoty o nějakém pozorovaném jevu, která jsou klasifikována na základě zvolených hledisek. V datové kostce je sledovaná hodnota (fakt) označována jako měření a klasifikační hlediska jsou pak označována jako dimenze (Cyganiak a Reynolds, 2014). Pozorování pak mohou mít přiřazeny další atributy, jako je např. jednotka měření či stav měření, např. odhadovaná hodnota (Cyganiak a Reynolds, 2014). Identifikaci měření, dimenzí a atributů lze ilustrovat na následujícím příkladu celkové výše výdajů hlavního města Prahy na služby pro obyvatelstvo, která v roce 2014 činila 26 727 048 tis. Kč. 13 Celková výše výdajů představuje pozorovaný jev měření. Hodnotou měření v tomto konkrétním pozorování je hodnota 26 727 048. Atributem pozorování je jednotka v tomto případě jsou výdaje udávány v tisících Kč (tis. Kč). Výše výdajů je pak klasifikována dle následujících hledisek, které představují dimenze: subjekt, který výdaje realizoval v uvedeném příkladu hl. m. Praha; druh výdaje v uvedeném příkladu služby pro obyvatelstvo; období, za které je výše výdajů udávána v uvedeném příkladu rok 2014. 7.2 Vymezení í datových sad a datových kostek ve formátu RDF při využití slovníku Data Cube 7.2.1 Problém Jak určit, zda mají být existující data publikována jako jedna nebo více datových sad? 7.2.2 Doporučené řešení Pro určení, zda určitá zdrojová kolekce dat 14 představuje jednu či více datových sad, je vhodné se řídit následujícími doporučeními: Určete fakty a dimenze ve zdrojových datech. Určete, které dimenze se vztahují k jakým faktům. 13 http://monitor.statnipokladna.cz/2014/obce/detail/00064581 14 Obecně data, která chceme transformovat do podoby datových kostek ve formátu RDF. Může se jednat o datový soubor, např. ve formátu CSV, ale i rozsáhlou databázi. Publikace číselných ukazatelů s využitím slovníku The RDF Data Cube Vocabulary 26 (z 84)