Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení Autoři Březen 2014 Autor Organizace Dušan Chlapek Tomáš Knap Jan Kučera Luboš Marek Petr Mazouch Martin časký Tomáš Vahalík Jan Vrána Jiří Makalouš Vysoká škola ekonomická v Praze Vysoká škola ekonomická v Praze Vysoká škola ekonomická v Praze Vysoká škola ekonomická v Praze Vysoká škola ekonomická v Praze KOMIX s.r.o. KOMIX s.r.o. KOMIX s.r.o. KOMIX s.r.o. Popis výstupu Tento dokument obsahuje návrh metodiky, která bude využita v průběhu řešení projektu TD020121 Publikace dat statistických ročenek ve standardu otevřených dat. Použitým postupem bude metodika současně verifikována. V závěru projektu bude metodika upravena a předána ČSSZ k užívání. Poděkování Projekt Publikace dat statistických ročenek ve standardu otevřených dat (TD020121) je spolufinancován Technologickou agenturou České republiky.
Obsah 1 Úvod... 5 2 Obsahové části metodiky... 5 3 Otevřená a propojitelná data... 6 3.1 Otevřená data... 6 3.2 Propojitelná data... 7 3.3 Stupně otevřenosti... 8 3.4 Datové formáty a vhodnost jejich použití... 9 4 Postup publikace a katalogizace dat...11 4.1 Metodická východiska...11 4.2 Navržený postup publikace a katalogizace otevřených dat ČSSZ...11 4.3 Role...12 4.3.1 Poskytovatel...12 4.3.2 Kurátor...13 4.3.3 Správce katalogu otevřených dat...13 4.3.4 Provozovatel katalogu otevřených dat...14 4.3.5 IT zástupce...14 4.3.6 Koncový uživatel...14 4.4 Struktura katalogizačního záznamu...15 5 Popis dat důchodové statistiky...16 5.1 Specifikace dat důchodové statistiky...16 5.2 Rozsah dat publikovaných v podobě otevřených propojitelných dat...19 5.3 Ontologie a jejich popis...20 5.3.1 Analýza dostupných ontologií...20 5.3.2 Ontologie, které bude třeba vytvořit...22 5.4 Specifikace formátů dat pro publikaci...22 5.4.1 Definice URL prefixů pro účely tohoto dokumentu...22 5.4.2 Existující ontologie pro publikaci datových kostek...23 5.4.3 Ontologie pro reprezentaci dimenzí datových kostek ČSSZ...24 5.4.4 Reprezentace dimenzí specifických pro datové kostky ČSSZ...27 5.4.5 Příklad využití ontologií...30 ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 2 (z 115)
5.5 Metadata...32 5.5.1 Metadata jako součást datových kostek...33 5.5.2 Metadata dle ontologie DCAT...33 5.6 Architektura řešení...34 5.6.1 Procesy...35 6 Postup a metody řešení transformace a publikace dat...36 6.1 Datová pumpa...36 6.2 Vzory URL...36 6.2.1 URL vzory ontologií použitelných i mimo důchodové statistiky...36 6.2.2 URL vzory pro specifické ontologie uplatněné v datech důchodové statistiky...37 7 Návrh licenčních podmínek pro použití prezentovaných dat...37 7.1 Obecné podmínky užití otevřených dat ČSSZ...37 7.2 Specifické podmínky užití pro podkladová data důchodových ročenek...38 8 Závěr...39 9 Zdroje...39 Příloha 1: Popis zdrojových datových souborů...41 T5.1 Počet obyvatel podle krajů...41 T5.2 Věkové složení obyvatel České republiky...42 T5.3 Relativní rozložení populace...42 T5.4 Srovnání věkového složení obyvatel v letech 2012 a 2030...44 T6.1 Přehled o počtu některých výkonů souvisejících s důchodovou agendou...45 T6.2 Došlé žádosti o důchod...47 T6.3 Zamítnuté žádosti o invalidní důchod...49 T7.1 Počet vyplácených důchodů...50 T7.2 Počet důchodců...52 T7.3 Počet nově přiznaných důchodů...54 T7.4 Vývoj výdajů na důchody od roku 1996...56 T7.5 Výdaje na dávky důchodového pojištění (v tis. Kč)...57 T7.6 Přehled o rozložení souboru důchodců podle výše důchodů v kvantilovém vyjádření od roku 2001...59 T7.7 Vývoj průměrné délky doby pobírání řádného starobního důchodu od roku 1970 (v letech)...60 T8.1 Přehled o počtu důchodců v členění podle krajů, podle pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu...61 ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 3 (z 115)
T8.2 Přehled o počtu vyplácených důchodů podle věku důchodce...67 T8.3 Přehled o počtu vyplácených důchodů podle měsíční výše důchodu...71 T9.1 Přehled o počtu nově přiznaných důchodů podle věku důchodce...79 T9.2 Přehled o počtu nově přiznaných důchodů podle výše důchodu...83 T9.3 Přehled o počtu nově přiznaných důchodů podle osobního vyměřovacího základu...91 T10.1 Přehled o počtu zaniklých důchodů podle druhu zániku...96 T11.1 Přehled o počtu nově přiznaných invalidních důchodů podle věku a skupin diagnóz WHO... 100 T12.1 Změny mezi stupni invalidního důchodu... 102 T13 Data pro grafy... 103 Popis souborů s daty v členění dle okresů... 111 Rok 2009... 112 Rok 2010... 112 Rok 2011... 113 Rok 2012... 113 Použité číselníky... 114 ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 4 (z 115)
1 Úvod V tomto dokumentu je popsán návrh metodiky popisu a prezentace dat důchodové statistiky České správy sociálního zabezpečení (ČSSZ) ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení, které budou použity v rámci projektu TD020121 Publikace dat statistických ročenek ve standardu otevřených dat. Metodika popisuje, jak publikovat data důchodové statistiky ve formátu otevřených propojitelných dat s využitím navržené architektury IT řešení. 2 Obsahové části metodiky V následující tabulce 1 jsou uvedeny obsahové části Metodiky popsané v tomto dokumentu. U každé obsahové části je uvedeno, jakými kapitolami dokumentu je naplněna. Tabulka 1: Struktura Metodiky Obsahová část Postup a metody řešení transformace a publikace dat Specifikace formátů dat pro publikaci Celková architektura řešení zahrnující transformaci dat, jejich publikaci a prezentaci na internetu Návrh licenčních podmínek pro použití prezentovaných dat Kapitoly Metodiky Otevřená a propojitelná data Postup publikace a katalogizace dat Postup a metody řešení transformace a publikace dat Specifikace dat důchodové statistiky Ontologie a jejich popis Specifikace formátů dat pro publikaci Příloha 1: Popis zdrojových datových souborů Architektura řešení Návrh licenčních podmínek pro použití prezentovaných dat Hlavní části metodiky jsou graficky znázorněny na obrázku 1. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 5 (z 115)
3 Otevřená a propojitelná data Obrázek 1: Hlavní části metodiky V této kapitole jsou vymezeny pojmy otevřená data a propojitelná data. Otevřenými propojitelnými daty se pak dále rozumí taková data, která jsou otevřenými daty a zároveň propojitelnými daty. 3.1 Otevřená data Koncepce katalogizace otevřených dat VS ČR (dále jen Koncepce) [7] definuje povinné a nepovinné vlastnosti, která by měla otevřená data veřejné správy splňovat. Otevřená data veřejné správy jsou data, která jsou [7] (povinné podmínky): 1. úplná - data jsou zveřejněna v maximálním možném rozsahu. Rozsah může být definován právním předpisem, usnesením vlády, příp. poskytovatelem dat. Například seznam všech nemovitostí s číslem popisným nebo evidenčním v obci XY, nebo seznam všech památkově chráněných objektů v obci XY. 2. snadno dostupná - data jsou dostupná a dohledatelná běžnými ICT nástroji a prostředky, ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 6 (z 115)
3. strojově čitelná - data ve formátu, který je strukturovaný takovým způsobem, že pomocí programové aplikace lze z dat získat žádané (vybrané) údaje 4. používající standardy s volně dostupnou specifikací (otevřené standardy) - data musí být ve formátu, který je volně (bezplatně) dostupný pro libovolné použití nebo do takovéhoto formátu převoditelný volně (bezplatně) dostupnou aplikací, 5. zpřístupněna za jasně definovaných podmínek užití dat (licence) s minimem omezení - podmínky musí být jasně a zřetelně definovány a zveřejněny, 6. dostupná uživatelům při vynaložení minima možných nákladů na jejich získání - poskytovatelé jsou v souvislosti s poskytováním dat oprávněni žádat úhradu maximálně ve výši, která nesmí přesáhnout náklady spojené s jejich zpřístupněním uživateli; poskytovatel dat může jednorázově vyžádat i úhradu za mimořádně náročné pořízení dat, pokud si uživatel zpřístupnění těchto dat vyžádá. Dle Koncepce [7] by otevřená data měla dále být (nepovinné podmínky): 7. primární (původní) - data, která jsou zveřejněna původcem dat v podobě, v jaké byla původcem jako primární (původní) vytvořena. Za primární data se považují i a. referenční údaje ze základních registrů, b. data z registrů a rejstříků VS, c. agregovaná data (např. výsledky voleb), pokud není možné zveřejnit data, z nichž byla provedena agregace, d. agregovaná data - (např. statistiky nad jinými otevřenými daty), pokud je uveden způsob agregace a odkaz na zveřejněná primární data, z nichž byla agregace provedena. 8. zveřejněná bez zbytečného odkladu - zveřejnění dat není zdrženo činnostmi, které nesouvisí s jejich přípravou; činnosti nezbytné pro publikaci dat jsou provedeny v čase, který umožní jejich zveřejnění bez nepřiměřeně dlouhé prodlevy od okamžiku vzniku dat, 9. neomezující přístup - data dostupná způsobem, který nediskriminuje jednotlivce nebo skupinu osob a 10. stále dostupná - data jsou dostupná on-line po dobu uvedenou jejich poskytovatelem. 3.2 Propojitelná data Propojitelná data (angl. Linked Data) jsou data, u kterých jsou aplikovány následující principy [2]: 1. pojmenování objektů na webu pomocí URI, 2. použití HTTP URI, které umožňují je vyhledat v prostředí dnešního webu, 3. při vyhledání URI jsou uživateli poskytnuta data o objektu, data jsou poskytnuta s využitím standardů RDF a SPARQL, 4. objekty jsou provázány pomocí odkazů mezi HTTP URI, takže je možné objevovat související objekty. Hlavní myšlenkou propojených dat je propojit související data na webu pomocí odkazů obdobně, jako je tomu v případě webových stránek [3]. Na rozdíl od odkazů mezi webovými ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 7 (z 115)
stránkami představují ale odkazy mezi propojenými daty tvrzení o vzájemném vztahu těchto dat, resp. objektů, které data popisují [3]. Díky tomu jsou tak data zasazena do kontextu. Propojitelná data využívají dvou základních standardů. Prvním z nich je obecný formát RDF (Resource Description Framework) [8]. Druhým z nich je dotazovací jazyk a protokol SPARQL [4], [12]. 3.3 Stupně otevřenosti Z hlediska toho, jaké formáty jsou pro otevřená data používána, je rozlišováno 5 stupňů otevřenosti, které jsou znázorněny na obrázku 2 (tzv. pěti hvězdičkové schéma) [5]. Obrázek 2: Stupně otevřenosti, zdroj: [5] S rostoucím počtem hvězdiček klesá náročnost dalšího využití dat díky lepší strojové zpracovatelnosti použitého formátu a možnosti propojovat data se souvisejícími daty. Na úrovni jedné hvězdičky jsou sice data opatřena otevřenou licencí nebo podmínkami užití, které umožňují jejich další využití, ale nevyužívají strojově čitelné formáty. Na úrovni pěti hvězdiček jsou publikována otevřená propojitelná data. Bližší informace k jednotlivým stupňům otevřenosti poskytuje tabulka 2. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 8 (z 115)
Tabulka 2: Vlastnosti otevřených dle jednotlivých stupňů otevřenosti, upraveno dle [5] Počet hvězdiček 1 hvězdička 2 hvězdičky 3 hvězdičky 4 hvězdičky 5 hvězdiček Popis Data jsou zpřístupněna pod licencí či podmínkami užití, které umožňují jejich další zpracování a šíření a to jak v původní podobě, tak i ve zpracované podobě (dále jen otevřená licence). Pro data je použit libovolný formát. Data jsou zpřístupněna pod otevřenou licencí ve formátu, který umožňuje data strukturovat, např. formát MS Excel. Data jsou zpřístupněna pod otevřenou licencí ve formátu, který umožňuje data strukturovat a tento formát je navíc otevřený, tj. jeho specifikace je volně dostupná. Příkladem jsou formáty CSV nebo XML. Na této úrovni ale datové položky ještě nemají jednoznačné identifikátory. I data spravovaná v XLS lze připravit tak, aby je bylo možné exportovat do formátů CSV/XML. Jedná se o jednoduché XLS dokumenty (sloupce s hodnotami v buňkách, bez maker). Data jsou zpřístupněna pod otevřenou licencí. Pro identifikaci datových entit jsou použity URI 1, které umožňují odkazovat na jednotlivé datové entity. To jsou data, která jsou uložena v databázi s jasně popsanou strukturou, kde jednotlivé datové záznamy mají jednoznačně určené identifikátory. V těchto případech lze definovat URI schéma pro identifikátory a ty použít v XML exportu. Data jsou zpřístupněna pod otevřenou licencí a jsou propojena na další související data. Jedná se o data, která souvisí s jinými daty a jsou identifikovatelná přes klíče anebo data, která mohou obdobně publikovat i jiné úřady. V rámci této metodiky jsou uvedeny postupy a návody, jak data důchodové statistiky ČSSZ v současné době obsažená v ročenkách z oblasti důchodového pojištění České republiky a v samostatných přehledech o počtech důchodců dle okresů, druhu důchodů a pohlaví publikovat v podobě otevřených propojitelných dat, tj. otevřených dat na úrovni pěti hvězdiček. 3.4 Datové formáty a vhodnost jejich použití Pro otevřená propojitelná data je využíván obecný formát RDF. Následující tabulka 3 uvádí srovnání formátu RDF s některými dalšími formáty dat. 1 URI - Uniform Resource Identifier, viz RFC 3986 [1] ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 9 (z 115)
Tabulka 3: Srovnání formátů dat, zdroj: [6] Formát závislost na aplikaci Zápis ve strukturované podobě Popis struktury dat Popis sémantiky dat Vytváření propojení Vhodno st použití 1(nejlepší) - 5 (nejhorší) PDF 5 DOC(X), RTF 5 TXT 5 HTML Částečně 4 XLS(X) Částečně 4 CSV Částečně 3 JSON Částečně 3 XML 2 OData Částečně Částečně 2 RDF 1 Ve výše uvedené tabulce jsou u jednotlivých formátů rozlišovány následující vlastnosti: nezávislost na aplikaci - rozlišuje, zda je pro zpracování dat v daném formátu třeba specifické aplikace nebo typu aplikace, např. tabulkový procesor, zápis ve strukturované podobě - rozlišuje, zda data v daném formátu jsou strukturovaná natolik, aby bylo možné pomocí softwarové aplikace z dat získat vybrané údaje, popis struktury dat - rozlišuje, zda je v případě daného formátu možné pomocí standardizovaného prostředku možné popsat strukturu dat ve strojově čitelné podobě, popis sémantiky dat - rozlišuje, zda je v případě daného formátu možné pomocí standardizovaného prostředku možné popsat význam (sémantiku) dat ve strojově čitelné podobě vytváření propojení - rozlišuje, zda je v případě daného formátu možné vytvářet strojově čitelná propojené mezi souvisejícími daty, vhodnost použití - celková vhodnost využití hodnoceného datového formátu pro otevřená data, resp. otevřená propojitelná data. jvhodnější formáty jsou ohodnoceny 1, nejméně vhodné formáty jsou hodnoceny 5. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 10 (z 115)
4 Postup publikace a katalogizace dat 4.1 Metodická východiska Při návrhu metodiky popsané v tomto dokumentu vycházíme z Metodiky publikace otevřených dat veřejné správy ČR [6]. Tato metodika obsahuje návod na publikaci otevřených dat v těchto šesti krocích: 1. Analýza a výběr dat k uveřejnění cílem tohoto kroku je analyzovat dostupná data, popsat jejich strukturu a zvolit data, která je možné a vhodné zveřejnit jako otevřená data. 2. Výběr vhodného formátu dat krok je věnován výběru vhodného formátu dat. Preferovány jsou otevřené standardizované (nebo alespoň široce využívané) formáty. 3. Návrh způsobu přístupu k datům rozhodnutí, zda mají být data zpřístupněna v podobě stažitelných souborů nebo pomocí webových služeb. 4. Export dat do navrženého formátu technické zajištěním převodu dat do zvoleného formátu. 5. Publikace dat určení vhodné webové prezentace dat a volba URL, na které budou data dostupná uživatelům. 6. Katalogizace dat tvorba záznamu o zveřejněných otevřených datech v datovém katalogu. Vzhledem k přípravě a zadání tohoto projektu TAČR byly již některé kroky uvedené výše vyřešeny před podáním přihlášky do soutěže TAČR, tj.: ad krok 1) Data určená k uveřejnění byla vybrána na základě analýzy dat ČSSZ. Zvolena byla data důchodových statistik uveřejňovaných ve statistických ročenkách z oblasti důchodového pojištění 2. V rámci této metodiky jsou řešeny pouze dílčí činnosti tohoto kroku, tj. určení kurátora dat a návrh licence ke zveřejnění dat. ad krok 2) Jako vhodný formát byl vybrán formát RDF (viz dále), který umožní publikovat v předchozím kroku vybraná data v otevřeném a propojitelném formátu. ad krok 3) Data budou transformovaná do cílového formátu RDF a v něm budou zpřístupněna vývojářům webových aplikací formou úplného exportu obsahu vytvořené databáze ke stažení a současně budou zpřístupněna prostřednictvím rozhraní pro dotazování nad daty v RDF (SPARQL endpoint). Současně bude nad těmito daty vytvořena aplikace, která bude transformovaná data zobrazovat na odborné mapě a současně i umožní zobrazení dalších souvisejících dat a ukazatelů. Kroky 4), 5) a 6) jsou řešeny detailně v této metodice. 4.2 Navržený postup publikace a katalogizace otevřených dat ČSSZ 1. Publikace otevřených dat v sobě zahrnuje přípravu datové sady pro zveřejnění v podobě 2 http://www.cssz.cz/cz/o-cssz/informace/informacni-materialy/statisticke-rocenky.htm ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 11 (z 115)
otevřených dat (tj. zejména analýzu datové množiny), katalogizaci a následné zveřejnění datové sady prostřednictvím webových stránek ČSSZ. 2. Příprava datových množin pro zveřejnění ve formě otevřených dat zahrnuje: a. analýzu datové množiny s cílem: i. zajistit, že publikace datové množiny bude v souladu s platnou legislativou ČR; ii. připravit požadavky na kvalitu dat a zajistit kvalitu datových sad; iii. minimalizovat či vyloučit překryv datových množin; iv. určit případnou nutnost transformace datových množin; v. určit cílový formát datové množiny; vi. určit cílovou periodicitu publikace otevřených datových množin na webových stránkách ČSSZ; vii. určit optimální technické zajištění publikace datové množiny; viii. určit pracnost a přínosy plynoucí z publikace datové množiny; b. návrh změn ve struktuře datové množiny tak, aby data byla vhodně strukturovaná pro publikaci v cílovém formátu; c. návrh, implementaci a testování skriptů pro převod dat do cílového formátu; d. přípravu prostoru pro publikaci na webových stránkách ČSSZ. 3. Zveřejnění a katalogizace datové množiny zahrnuje zejména: a. transformaci datové sady (pokud je nutno ji provádět) a převod datové sady (v rozsahu její stávající velikosti) do cílového formátu; b. kontrolu transformace a převodu datové množiny; c. předání datového souboru s datovými množinami Správci katalogu otevřených dat; d. vytvoření či aktualizaci katalogizačního záznamu vč. zařazení katalogizačního záznamu do příslušných klasifikačních struktur; e. předání datového souboru s otevřenými datovými množinami k publikaci na webu ČSSZ; f. publikaci souboru datové množiny; g. ověření správnosti a klasifikace katalogizačního záznamu, případné opravy katalogizačního záznamu; h. publikaci katalogizačního záznamu. 4.3 Role Popisy jednotlivých rolí jsou uvedeny níže. 4.3.1 Poskytovatel Poskytovatelem datových sad je ČSSZ, která zodpovídá za: identifikaci datových sad k publikaci a jejich publikaci ve formě otevřených datových sad; identifikaci potenciálních přínosů a rizik plynoucích z publikace otevřených datových sad; kontrolu souladu publikace otevřených datových dat s platnou legislativou ČR; určování podmínek, za jakých jsou otevřené datové sady publikovány, a to zejména právních (licence), ekonomických, časových a technických; správu otevřených datových sad; ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 12 (z 115)
zajištění přesného určení oblastí publikovaných otevřených datových sad tak, aby nedocházelo k překrývání publikovaných otevřených datových sad napříč jednotlivými útvary ČSSZ. 4.3.2 Kurátor Kurátor datových sad zodpovídá za: správu příslušných datových sad určených k publikaci jako otevřené datové sady; zajištění, že otevřené datové sady budou publikovány v souladu s platnou legislativou ČR; určení případné nutnosti transformace datových sad, tj. určení případné nutnosti anonymizace, agregace nebo jiné změny struktury datových sad; určení cílové periodicity publikace otevřených datových sad; minimalizaci či vyloučení překryvu jím spravovaných datových sad; kontrolu kvality datových sad (tj. mj. kontrola správnosti, úplnosti, konzistentnosti) před jejich publikací a katalogizací; předání datových souborů s datovými sadami Správci katalogu otevřených dat. Kurátor je povinen poskytnout Správci katalogu otevřených dat potřebnou součinnost při transformaci datové sady a její kontrole; určení pracnosti a přínosů plynoucích z publikace otevřených datových sad; vytváření a aktualizaci katalogizačních záznamů. Kurátor je povinen poskytnout IT zástupci potřebnou součinnost při převodu datové sady do cílového formátu. 4.3.3 Správce katalogu otevřených dat Správce katalogu otevřených dat zodpovídá za: zajištění výběru katalogizačního nástroje; zajištění implementace vybraného katalogizačního nástroje; definici parametrů pro provoz katalogu otevřených dat; organizaci práce s katalogem otevřených dat; sběr podnětů na zlepšení katalogu otevřených dat a zadávání a zajištění realizace změnových požadavků; návrh změn ve struktuře datové sady tak, aby data byla vhodně strukturovaná pro publikaci v cílovém formátu; určení cílových formátů datových sad; určení pracnosti a přínosů plynoucích z publikace otevřených datových sad; kontrolu transformace datových sad před předáním IT zástupci ke zveřejnění; předání datových souborů s otevřenými datovými sadami a katalogizačních záznamů IT zástupci ke zveřejnění prostřednictvím webových stránek ČSSZ; vytvoření a aktualizaci katalogizačních záznamů, včetně zařazení katalogizačních záznamů do příslušných klasifikačních struktur; ověření správnosti a klasifikace katalogizačního záznamu, tj.: vyplnění povinných atributů katalogizačního záznamu; ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 13 (z 115)
existence odkazů na umístění datových souborů s otevřenými datovými sadami (URL); shody popisu a obsahu otevřených datových sad; zařazení otevřené datové sady do klasifikačních struktur; komunikaci s kurátory ohledně kvality katalogizačních záznamů; kontrolu existence katalogizačního záznamu pro všechny otevřené datové sady ČSSZ. 4.3.4 Provozovatel katalogu otevřených dat Provozovatel katalogu otevřených dat zodpovídá za: zajištění běžného chodu a údržby katalogu otevřených dat a potřebného softwarového a hardwarového vybavení; zajištění bezpečnosti katalogu otevřených dat; zajištění realizace a testování úprav parametrů a konfigurace prostředí pro provoz katalogu otevřených dat podle pokynů správce katalogu otevřených dat; provoz katalogu otevřených dat v rámci dohodnuté úrovně poskytovaných služeb (dostupnost, doba odezvy apod.); zálohování a archivaci katalogu otevřených dat. 4.3.5 IT zástupce IT zástupce zodpovídá za: zajištění provozu katalogu otevřených dat (vlastními silami nebo prostřednictvím provozovatele katalogu otevřených dat); určení optimálního technického zajištění publikace otevřených datových množin; návrh a tvorbu skriptů pro export dat ze zdrojových systémů, pro převod dat do cílového formátu, pro automatickou aktualizaci vybraných atributů katalogizačních záznamů apod. a následné testování skriptů; přípravu prostoru pro publikaci datových množin na webových stránkách ČSSZ; převod datové množiny do cílového formátu vč. kontroly provedení převodu; publikaci datových souborů s otevřenými datovými množinami a katalogizačních záznamů na webových stránkách ČSSZ. IT zástupce je povinen zajistit přístupová práva do katalogu otevřených dat Správci katalogu otevřených dat. 4.3.6 Koncový uživatel Koncový uživatel je osoba, která: vyhledává katalogizační záznamy v katalogu otevřených dat ČSSZ; zasílá Správci katalogu otevřených dat podněty na vytvoření nových katalogizačních záznamů, resp. úpravu stávajících katalogizačních záznamů; využívá otevřená data ČSSZ v souladu s podmínkami užití otevřených dat ČSSZ. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 14 (z 115)
4.4 Struktura katalogizačního záznamu Pro zajištění snadného přístupu k otevřeným datům ČSSZ je na jeho webových stránkách zpřístupněn katalog otevřených dat. Katalog otevřených dat umožňuje uživatelům vyhledávat otevřená data ČSSZ pomocí klíčových slov nebo pomocí procházení jednotlivých kategorií datových sad. Obsah katalogu otevřených dat ČSSZ, tj. katalogizační záznamy, je publikován též jako otevřená data. Obsah katalogu otevřených dat ČSSZ je vedle formátu HTML dostupný také ve strojově čitelném formátu založeném na formátu DCAT [9]. Katalogizační záznam obsahuje společná metadata datové sady (tabulka 4) a metadata pro každý soubor ke stažení dané datové sady (tabulka 5). Tabulka 4: Společná metadata datové sady Atribut Název datové sady Popis Periodicita publikace datové sady Aktualizace datové sady Poskytovatel dat Kurátor Související geografické území Klasifikace Podmínky užití Schéma popisující strukturu datového souboru Popis Název datové sady Text, který jasně uvádí, o jaká data se jedná a co popisují. Pokud je to pro správné pochopení nutné, je třeba uvést i o čem data nevypovídají. Denně/Týdně/Měsíčně/Čtvrtletně/Pololetně/Ročně/Opakovan ě s lhůtou delší než jeden rok/jednorázově Datum, kdy naposledy došlo ke změně vlastních dat datové sady (např. k přidání datového souboru). Ve formátu: dd.mm.rrrr ČSSZ Doplnit osobu, která zodpovídá za správu a aktualizaci datového setu popsaného daným katalogizačním záznamem. Kódy NUTS. Pokud se data vztahují např. k celé České republice, použije se NUTS pro ČR. Pokud se data vztahují k pouze k určitému kraji, použije se kód daného kraje. Ke každé datové sadě je přiřazen 1-N konceptů klasifikace EUROVOC (http://eurovoc.europa.eu). Měly by být zvoleny takové koncepty, které nejlépe vystihují, o čem datová sada vypovídá. Pro každý přiřazený koncept se uvádí (ke každé datové sadě bude přiřazeno 1- N dvojic): Název konceptu, Odkaz na koncept (URL konceptu). Odkaz na Podmínky užití otevřených dat ČSSZ. Odkaz na schéma tam, kde to bude míst smysl, tj. zejména u dat, které budou v XML; pokud není schéma, bude kolonka prázdná. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 15 (z 115)
Tabulka 5: Metadata o souboru ke stažení Soubory ke stažení Název souboru dat Formát Velikost Datum publikace Výstižný název souboru dat, který bude současně sloužit jako odkaz ke stažení datového souboru Formát souboru. Je doporučeno používat MIME Type 3 Velikost souboru Datum, kdy byl soubor publikován jako otevřená data na webových stránkách ČSSZ 5 Popis dat důchodové statistiky 5.1 Specifikace dat důchodové statistiky Data důchodové statistiky předaná ČSSZ k publikaci v podobě otevřených propojitelných dat v rámci projektu zahrnují data za roky 2008-2012. Předaná data mají podobu sady souborů MS Excel, které obsahují podkladová data, která byla použita pro vytvoření statistických ročenek z oblasti důchodového pojištění za roky 2008-2012. Kromě dat použitých ve statistických ročenkách jsou v rámci projektu zpracovávána i data o počtu důchodců dle pohlaví, druhu důchodu a okresů, která jsou zveřejňována na webu ČSSZ - opět v podobě souboru MS Excel. Data z oblasti důchodového pojištění ČSSZ jsou tvořena následujícími tabulkami údajů, které jsou souhrnně popsány v tabulce 6. Pro tabulky obsažené v ročenkách je vytvořen identifikátor, který má tvar TčísloKapitoly. Např. tabulka Zamítnuté žádosti o invalidní důchod, která je v ročenkách obsažena v kapitole 6.3, má přidělen identifikátor T6.3. Tabulka 6: Přehled tabulek údajů dat důchodové statistiky ID Název Skupina Poznámky T5.1 Počet obyvatel podle krajů Demografie Zdroj: ČSÚ T5.2 Věkové složení obyvatel České republiky Demografie Zdroj: ČSÚ T5.3 Relativní rozložení populace Demografie Prezentováno v ročence jako graf T5.4 Srovnání věkového složení obyvatel v letech 2012 a 2030 T6.1 Přehled o počtu některých výkonů souvisejících s důchodovou agendou v roce 2012 Demografie Agenda pro ročenku Zdroj: ČSÚ, prezentováno také jako graf T6.2 Došlé žádosti o důchod Agenda pro ročenku T6.3 Zamítnuté žádosti o invalidní důchod Agenda pro ročenku T7.1 Počet vyplácených důchodů Agenda pro ročenku T7.2 Počet důchodců Agenda pro ročenku 3 http://www.iana.org/assignments/media-types ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 16 (z 115)
ID Název Skupina Poznámky T7.3 Počet nově přiznaných důchodů Agenda pro ročenku T7.4 Vývoj výdajů na důchody od roku 1996 Agenda pro ročenku T7.5 Výdaje na dávky důchodového pojištění (v tis. Kč) T7.6 Přehled o rozložení souboru důchodců podle výše důchodů v kvantilovém vyjádření od roku 2001 T7.7 Vývoj průměrné délky doby pobírání řádného starobního důchodu od roku 1970 (v letech) T8.1 Přehled o počtu důchodců v členění podle krajů, podle pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu T8.2 Přehled o počtu vyplácených důchodů podle věku důchodce T8.3 Přehled o počtu vyplácených důchodů podle měsíční výše důchodu T9.1 Přehled o počtu nově přiznaných důchodů podle věku důchodce T9.2 Přehled o počtu nově přiznaných důchodů podle výše důchodu Agenda pro ročenku Agenda pro ročenku Agenda pro ročenku Vyplácené důchody Vyplácené důchody Vyplácené důchody Přiznané důchody Přiznané důchody V ročence také pod názvem Výdaje na důchody T9.3 Přehled o počtu nově přiznaných důchodů podle osobního vyměřovacího základu T10.1 Přehled o počtu zaniklých důchodů podle druhu zániku T11.1 Přehled o počtu nově přiznaných invalidních důchodů podle věku a skupin diagnóz WHO Přiznané důchody Zaniklé důchody Invalidita T12.1 Změny mezi stupni invalidního důchodu Změny mezi stupni invalidního důchodu T13 Data pro grafy Přílohy Data v členění po okresech Vyplácené důchody Zdrojová data, která budou v rámci projektu publikována jako otevřená propojitelná data, zahrnují data za období 2008-2012. V následující tabulce 7 je provedeno mapování, jaká data jsou dostupná pro jednotlivé roky. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 17 (z 115)
Tabulka 7: Dostupnost dat pro jednotlivé roky ID Název 2008 2009 2010 2011 2012 T5.1 Počet obyvatel podle krajů T5.2 T5.3 T5.4 T6.1 Věkové složení obyvatel České republiky Relativní rozložení populace Srovnání věkového složení obyvatel v letech 2012 a 2030 Přehled o počtu některých výkonů souvisejících s důchodovou agendou v roce 2012 T6.2 Došlé žádosti o důchod T6.3 T7.1 Zamítnuté žádosti o invalidní důchod Počet vyplácených důchodů T7.2 Počet důchodců T7.3 T7.4 T7.5 T7.6 T7.7 T8.1 Počet nově přiznaných důchodů Vývoj výdajů na důchody od roku 1996 Výdaje na dávky důchodového pojištění (v tis. Kč) Přehled o rozložení souboru důchodců podle výše důchodů v kvantilovém vyjádření od roku 2001 Vývoj průměrné délky doby pobírání řádného starobního důchodu od roku 1970 (v letech) Přehled o počtu důchodců v členění podle krajů, podle pohlaví, průměrné výše důchodu, průměrného věku a podle druhu důchodu ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 18 (z 115)
ID Název 2008 2009 2010 2011 2012 T8.2 T8.3 T9.1 T9.2 T9.3 T10.1 T11.1 T12.1 Přehled o počtu vyplácených důchodů podle věku důchodce Přehled o počtu vyplácených důchodů podle měsíční výše důchodu Přehled o počtu nově přiznaných důchodů podle věku důchodce Přehled o počtu nově přiznaných důchodů podle výše důchodu Přehled o počtu nově přiznaných důchodů podle osobního vyměřovacího základu Přehled o počtu zaniklých důchodů podle druhu zániku Přehled o počtu nově přiznaných invalidních důchodů podle věku a skupin diagnóz WHO Změny mezi stupni invalidního důchodu T13 Data pro grafy Data v členění po okresech Podrobný popis jednotlivých zdrojových souboru s daty důchodové statistiky je vzhledem k rozsahu uveden v samostatné příloze 1. 5.2 Rozsah dat publikovaných v podobě otevřených propojitelných dat Na základě dohody s představiteli ČSSZ budou jako otevřená data publikována data o výkonech agendy důchodového pojištění uvedená v tabulkách T6.1, T6.2 a T6.3. Důvodem je plánovaná změna způsobu pořizování a prezentace těchto dat ze strany ČSSZ. Data z období 2008-2012 tak nebudou zcela srovnatelná s daty za období 2013 a následující. Dále tak nejsou uvažovány fakty a dimenze specifické pro data z tabulek důchodové ročenky T6.1, T6.2 a T6.3. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 19 (z 115)
Do podoby otevřených dat jsou tak převedena data z tabulek T5.1, T5.2, T5.3, T5.4, T7.1, T7.2, T7.3, T7.4, T7.5, T7.6, T7.7, T8.1, T8.2, T8.3, T9.1, T9.2, T9.3, T10.1, T11.1, T12.1, T13 a data v členění po okresech. 5.3 Ontologie a jejich popis V této části jsou popsány otologie a slovníky vybrané pro využití v rámci otevřených propojitelných dat důchodové statistiky. 5.3.1 Analýza dostupných ontologií Statistická data důchodové statistiky mají podobu multidimenzionálních dat, kde k jednotlivým faktům (pozorováním), jako např. počet důchodů, nebo průměrná výše důchodu v Kč, jsou přiřazeny dimenze, např. druh důchodu (viz tabulka 8 níže). V této části je provedeno zhodnocení dostupnosti existujících ontologií, které by bylo možno použít pro reprezentaci dat důchodové statistiky včetně reprezentace jednotlivých dimenzí a faktů použitých v datech. Dostupnost ontologií pro jednotlivé dimenze V následující tabulce 8 jsou uvedeny jednotlivé dimenze, které jsou aplikovány ve statistických ročenkách z oblasti důchodové statistiky. K těmto dimenzím jsou pak uvedeny ontologie, které by bylo možno využít pro reprezentaci dané dimenze. Pokud pro některou z dimenzí není k dispozici vhodná existující ontologie, je v příslušné buňce uvedeno dostupná. Tabulka 8: Ontologie pro reprezentaci jednotlivých dimenzí Dimenze Ontologie Odkaz Pohlaví Měsíční výše důchodu v Kč Výše osobního vyměřovacího základu v Kč Druh důchodu Statistický důvod zániku důchodu Skupiny diagnóz dle WHO Data Cube Vocabulary (smdx-dimension:sex) dostupná dostupná dostupná, resp. vychází z příslušné právní úpravy dostupná, resp. vychází z příslušné právní úpravy MKN 10 - International Statistical Classification of Diseases and Related Health Problems (ICD - 10) http://www.w3.org/tr/20 14/REC-vocab-datacube-20140116/ http://www.who.int/classi fications/icd/en/ ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 20 (z 115)
Dimenze Ontologie Odkaz Statistický důvod změny inval. důchodu dostupná, resp. vychází z příslušné právní úpravy Stát NUTS http://www.czso.cz/csu/klas ifik.nsf/i/i_zakladni_uzemni _ciselniky_na_uzemi_cr_a _klasifikace_cz_nuts Kraj NUTS http://www.czso.cz/csu/klas ifik.nsf/i/i_zakladni_uzemni _ciselniky_na_uzemi_cr_a _klasifikace_cz_nuts Okres LAU http://www.czso.cz/csu/klas ifik.nsf/i/ciselnik_okresu_la u1_nuts_2008 Věková kategorie dostupná Rok zániku důchodu Interval Ontology http://reference.data.gov. uk/def/intervals/ Doba pobírání důchodu Interval Ontology http://reference.data.gov. uk/def/intervals/ Rok Interval Ontology http://reference.data.gov. uk/def/intervals/ Stav k Interval Ontology http://reference.data.gov. uk/def/intervals/ Kvantil Skupina osob dostupná dostupná Ontologie pro reprezentaci faktů Statistická data důchodové statistiky mají podobu multidimenzionálních dat, proto budou reprezentována s využitím Data Cube Vocabulary (http://www.w3.org/tr/vocab-data-cube/). Ontologie The RDF Data Cube Vocabulary se zaměřuje na publikaci multi-dimenzionálních dat na webu v otevřené podobě. Umožňuje reprezentovat sadu dimenzí a jejich hodnot popisujících multi-dimenzionální prostor a množinu faktů (angl. observed values) umístěných do tohoto multi-dimenzionálního prostoru. Fakty a jim příslušné dimenze jsou pak organizovány do tzv. datových kostek. Ontologie staví na mezinárodním ISO standardu SDMX, který je určen pro ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 21 (z 115)
výměnu statistických dat. ní však určena pouze pro reprezentaci statistických dat. Vzhledem ke své obecnosti umožňuje reprezentovat jakákoliv multi-dimenzionální data. 5.3.2 Ontologie, které bude třeba vytvořit Data důchodové statistiky obsahují některé dimenze, které jsou typické pro tuto oblast, a některé z nich vycházejí z české legislativy. Pro tyto dimenze nejsou dostupné existující ontologie, které by byly všeobecně využívány. Proto bude v rámci projektu třeba navrhnout ontologie pro následující dimenze: Měsíční výše důchodu v Kč Výše osobního vyměřovacího základu v Kč Druh důchodu Statistický důvod zániku důchodu Statistický důvod změny inval. důchodu Věková kategorie Kvantil Skupina osob Ontologie The RDF Data Cube Vocabulary definuje obecný model datové kostky, ale již nedefinuje konkrétní dimenze a fakty, které mají být v datových kostkách reprezentovány. Proto bude třeba kromě ontologií pro reprezentaci jednotlivých výše uvedených dimenzí navrhnout také konkrétní struktury datových kostek pro prezentaci dat důchodové statistiky ČSSZ. 5.4 Specifikace formátů dat pro publikaci Tato část obsahuje dokumentaci ontologií použitých pro publikaci dat důchodové statistiky v podobě otevřených a propojitelných dat a způsob jejich použití. jprve je shrnuto, jak budou využity pro potřeby dat důchodové statistiky existující ontologie. V následující části jsou pak popsány vlastní ontologie navržené pro potřeby publikace dat důchodové statistiky. Dále jsou představeny jednotlivé datové kostky využité pro reprezentaci dat důchodové statistiky v podobě propojitelných dat a s využitím uvedených ontologií. 5.4.1 Definice URL prefixů pro účely tohoto dokumentu Prefixy pro URL převzatých ontologií Ontologie určené pro reprezentaci obecných metadat: rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. rdfs: <http://www.w3.org/2000/01/rdf-schema#>. owl: <http://www.w3.org/2002/07/owl#>. skos: <http://www.w3.org/2004/02/skos/core#>. foaf: <http://xmlns.com/foaf/0.1/>. scovo: <http://purl.org/net/scovo#>. void: <http://rdfs.org/ns/void#>. vcard: <http://www.w3.org/2006/vcard/ns#>. xsd: <http://www.w3.org/2001/xmlschema#>. dcterms: <http://purl.org/dc/terms/>. Ontologie určené pro reprezentaci datových kostek: ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 22 (z 115)
qb: <http://purl.org/linked-data/cube#>. sdmx: <http://purl.org/linked-data/sdmx#>. sdmx-concept: <http://purl.org/linked-data/sdmx/2009/concept#>. sdmx-dimension: <http://purl.org/linked-data/sdmx/2009/dimension#>. sdmx-attribute: <http://purl.org/linked-data/sdmx/2009/attribute#>. sdmx-measure: <http://purl.org/linked-data/sdmx/2009/measure#>. sdmx-metadata: <http://purl.org/linked-data/sdmx/2009/metadata#>. sdmx-code: <http://purl.org/linked-data/sdmx/2009/code#>. sdmx-subject: <http://purl.org/linked-data/sdmx/2009/subject#>. interval: <http://reference.data.gov.uk/def/intervals/>. dbpedia: <http://dbpedia.org/resource/>. time: <http://www.w3.org/2006/time#>. lex: <http://purl.org/lex#>. Prefixy pro URL vlastních ontologií Ontologie zavedené iniciativou OpenData.cz v rámci jiných projektů, které jsou použity i pro účely tohoto projektu: ruian: <http://ruian.linked.opendata.cz/ontology/>. age: <http://linked.opendata.cz/generated/resource/age/>. age-onto: <http://linked.opendata.cz/ontology/age/>. qua: <http://linked.opendata.cz/generated/resource/quantile/>. qua-onto: <http://linked.opendata.cz/ontology/quantiles/>. ran: <http://linked.opendata.cz/generated/resource/range/>. ran-onto: <http://linked.opendata.cz/ontology/ranges/>. Ontologie definované v rámci tohoto projektu pro potřeby ČSSZ def-dc-penze: <http://linked.cssz.cz/ontology/dataset-definitions/penze#>. dc-penze: <http://linked.cssz.cz/dataset/penze/>. pen: <http://linked.cssz.cz/resource/pension-kind/>. pen-onto: <http://linked.cssz.cz/ontology/pension-kinds/>. pencan: <http://linked.cssz.cz/resource/pension-cancellation-reason/>. pencan-onto: <http://linked.cssz.cz/ontology/pension-cancellation-reasons/>. dis: <http://linked.cssz.cz/resource/disability-level/>. dis-onto: <http://linked.cssz.cz/ontology/disability-levels/>. dischange: <http://linked.cssz.cz/resource/disability-change-reason/>. dischange-onto: <http://linked.cssz.cz/ontology/disability-change-reasons/>. czgop: <http://linked.cssz.cz/resource/group/>. czgop-onto: <http://linked.cssz.cz/ontology/groups-of-persons/>. icd10: <http://linked.cssz.cz/resource/icd-10/chapter>. icd10-onto: <http://linked.cssz.cz/ontology/icd-10/>. ybs: <http://linked.cssz.cz/resource/yearbook-section/>. ybs-onto: <http://linked.cssz.cz/ontology/yearbook-sections/>. 5.4.2 Existující ontologie pro publikaci datových kostek Běžnou praxí je publikovat statistická data ve formě datových kostek. Pro publikaci datových kostek v podobě otevřených a propojitelných dat připadají v úvahu dva standardy. Prvním standardem je formát pro výměnu statistických dat a metadat navržený iniciativou Statistical Data and Metadata exchange (SDMX) [13]. Jedním z cílů iniciativy je harmonizovat koncepty a terminologii, které jsou společné v širokém spektru statistických domén. Taková harmonizace je důležitá pro schopnost výměny porovnatelných statistických dat a metadat. Dalším cílem je ujednotit způsob definice struktury vyměňovaných statistických dat a metadat v podobě datových kostek. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 23 (z 115)
Druhým standardem je ontologie The RDF Data Cube Vocabulary (DCV) spravovaná konsorciem W3C. Ta byla vytvořena z důvodu, že formát SDMX neuvažuje reprezentaci dat ve formátu RDF, který je stěžejním formátem pro principy propojitelných dat. DCV byla vytvořena právě pro účely reprezentace statistických datových kostek v podobě propojitelných dat, tj. ve formátu RDF. Ontologii DCV tedy přebíráme pro použití v projektu. Ontologie nám dává prostředky pro popis datových kostek, které budou vytvořeny z dodaných dat důchodové statistiky. V tomto projektu tedy využijeme obě ontologie. Ontologie Data Cube Vocabulary nám určuje, jak strukturovat datové kostky ČSSZ. Ontologie navržená dle standardu SDMX nám dává některé základní koncepty pro definici sémantiky dimenzí a dalších prvků datových kostek ČSSZ. Ve skutečnosti se jedná o neoddělitelné standardy, neboť ontologie Data Cube Vocabulary je na standardu SDMX přímo a neoddělitelně založena. 5.4.3 Ontologie pro reprezentaci dimenzí datových kostek ČSSZ Reprezentace časové dimenze (Rok, Stav k) Časová dimenze udává časový interval, pro který platí daná hodnota v datové kostce. Jako časový interval je ve statistických datových kostkách udáván nejčastěji rok. Často je však měření prováděno např. k 31. 12. daného roku, v tom případě je jako časový interval uváděn tento jeden den 4. V některých případech se také jako intervaly používají půlroční období (resp. dny 30. 6. a 31. 12. daného roku) či měsíční intervaly (resp. poslední či první den daného měsíce) 5. Číselník všech možných časových intervalů je tedy velmi rozsáhlý a je téměř nemožné deklarovat úplný číselník se všemi možnými časovými intervaly. V oblasti Linked Data je však možné místo explicitního vyjmenování všech možných položek číselníku definovat vzor URL, které identifikuje časové intervaly. Podle tohoto vzoru lze vytvořit URL pro každý myslitelný časový interval a webová služba může k intervalu automaticky generovat metadata (např. datum a čas platnosti od, datum a čas platnosti do, lidsky čitelný titulek časového intervalu a vazby na další časové intervaly - předcházející/následující/nadřazený časový interval a podřazené časové intervaly). Tento přístup zvolili i autoři serveru http://data.gov.uk, na kterém britská vláda publikuje otevřená propojitelná data. Řada dat na tomto serveru obsahuje časové intervaly. Byl proto vytvořen referenční slovník časových intervalů a definován v podobě ontologie. Ontologie zavádí třídu interval:interval, jejíž instance reprezentují různé časové intervaly v délce trvání jednoho roku, měsíce, dne či dalších potřebných trvání (kratších i delších než jeden den). Každá instance má URL dle následujícího vzoru: Kde http://reference.data.gov.uk/id/gregorian-[type]/[interval] 4 V datech statistické ročenky představují dny, ke kterým jsou platná uvedená data/měření, hodnoty dimenze Stav k. 5 V datech statistické ročenky jsou některá data udávána za určitý rok, příslušná dimenze pak nese označení Rok. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 24 (z 115)
[TYPE] značí typ časového intervalu (např. year pro rok, month pro měsíc či day pro den). [INTERVAL] značí samotný časový interval, jehož tvar se liší podle typu (např. 2008 pro označení roku 2008, 2008-04 pro označení dubna 2008 či 2008-04-01 pro označení 1. dubna 2008). Plné URL 1. dubna 2008 je potom následující: http://reference.data.gov.uk/id/gregorian-day/2008-04-01 Služba http://reference.data.gov.uk zajistí (na základě principů propojitelných dat), že při přístupu na toto URL je klientovi odeslána plná reprezentace 1. dubna 2008 v podobě RDF propojená na související časové intervaly. Referenční časové intervaly služby http://reference.data.gov.uk plně postačují potřebám našeho projektu a proto je využijeme pro reprezentaci hodnot na dimenzích, jejichž hodnoty odpovídají časovým intervalům. Pro účely projektu jsme definovali časovou dimenzi, jejíž URL jsou v prostoru domény České správy sociálního zabezpečení (def-dc-penze:refperiod). Dimenze je odvozena z obecné časové dimenze definované ontologií Data Cube Vocabulary (sdmx-dimension:refperiod). Možné hodnoty na této dimenzi jsou definovány právě jako instance třídy interval:interval. Ontologická definice dimenze v notaci TTL je následující: def-dc-penze:refperiod a rdf:property, qb:dimensionproperty ; rdfs:label "reference period"@en, "referenční období"@cs ; rdfs:comment "The period of time or point in time to which the measured observation is intended to refer."@en, "Časové období nebo místo v čase, pro které platí měřená hodnota."@cs ; rdfs:subpropertyof sdmx-dimension:refperiod ; rdfs:range interval:interval ; qb:concept sdmx-concept:refperiod. Reprezentace prostorových dimenzí (Stát, Kraj, Okres) Prostorová dimenze udává geografickou nebo správní oblast, pro kterou platí daná hodnota v datové kostce. Statistické datové kostky České správy sociálního zabezpečení uvažují správní oblasti v podobě krajů a okresů České republiky. Číselník všech krajů a okresů je možné deklarovat. Protože však v tomto projektu důsledně aplikujeme principy propojitelných dat, nedefinujeme ontologii, která by popisovala vlastní číselník specifický pro ČSSZ. Místo toho využíváme již stávající číselník krajů a okresů udržovaný v Registru územní identifikace, adres a nemovitostí (RÚIAN), který jsme převedli do podoby propojitelných dat v rámci jiného projektu iniciativy OpenData.cz. Pro reprezentaci krajů využíváme tzv. území vyšších územně samosprávných celků RÚIAN, které odpovídají krajům České republiky. V naší reprezentaci v podobě propojitelných dat jsou reprezentovány jako instance třídy ruian:vusc. Pro reprezentaci okresů využíváme tzv. území okresů, které odpovídají okresům České republiky. Jsou reprezentovány jako instance třídy ruian:okres. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 25 (z 115)
Seznam všech instancí těchto tříd lze získat přímým přístupem na jejich URL, tj. pro seznam krajů: http://ruian.linked.opendata.cz/ontology/vusc pro seznam okresů: http://ruian.linked.opendata.cz/ontology/okres Pro účely projektu jsme definovali obecnou prostorovou dimenzi, jejíž URL je v prostoru domény ČSSZ (def-dc-penze:refarea). Dimenze je odvozena z obecné prostorové dimenze definované ontologií Data Cube Vocabulary (sdmx-dimension:refarea). Možné hodnoty na této dimenzi neomezujeme - jako hodnota může být jakákoliv entita reprezentující geografickou nebo správní oblast. Ontologická definice dimenze v notaci TTL je následující: def-dc-penze:refarea a rdf:property, qb:dimensionproperty ; rdfs:label "reference area"@en, "referenční oblast"@cs ; rdfs:comment "The country or geographic area to which the measured statistical phenomenon relates."@en, "Geografická oblast, pro kterou je hodnota měřena."@cs ; rdfs:subpropertyof sdmx-dimension:refarea ; qb:concept sdmx-concept:refarea. Reprezentace dimenze věku (Věková kategorie) Dimenze věku udává věkovou kategorii, pro kterou platí daná hodnota. Datové kostky ČSSZ používají různé členění do věkových kategorií. V některých případech se jedná o pětiletá věková období začínající ve věku 0 let, jindy o pětiletá období začínající ve věku 20 let a končící ve věku 49 let následované obdobími odpovídající jednotlivým letům. Variabilita věkových kategorií neumožňuje efektivně vyjmenovat explicitně všechny možné věkové kategorie. Výhodnější je postupovat podobně, jako jsme postupovali v případě časové dimenze. Pro takovou reprezentaci věkových kategorií využíváme ontologickou reprezentaci věkových kategorií definovaných iniciativou OpenData.cz. Zavádí třídu age-onto:age, jejíž instance reprezentují různé věkové kategorie. Každá její instance má URL ve tvaru: nebo nebo http://linked.opendata.cz/generated/resource/age/y[min]t[max] http://linked.opendata.cz/generated/resource/age/y_ge[min] http://linked.opendata.cz/generated/resource/age/y[min] kde [MIN], [MAX] jsou celá kladná čísla, první tvar značí věkovou kategorii danou intervalem <[MIN],[MAX]>, druhý tvar značí věkovou kategorii danou intervalem <[MIN], > a třetí tvar kategorii danou intervalem <[MIN],[MIN]>. Např. plné URL věkové kategorie 6-10 let je následující: http://linked.opendata.cz/generated/resource/age/y6t10 URL věkové kategorie 95+ je následující: ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 26 (z 115)
http://linked.opendata.cz/generated/resource/age/y_ge95 A URL věkové kategorie odpovídající věku 12 let je následující: http://linked.opendata.cz/generated/resource/age/y12 Poznamenejme, že vzor URL pro věkové kategorie je definován dle pravidel mezinárodního statistického standardu SDMX, na kterém je založena ontologie Data Cube Vocabulary. Pro účely projektu jsme definovali dimenzi věku, jejíž URL jsou v prostoru domény České správy sociálního zabezpečení (def-dc-penze:vekova-kategorie). Dimenze je odvozena z obecné dimenze věku definované ontologií Data Cube Vocabulary (sdmx-dimension:age). Možné hodnoty na této dimenzi jsou definovány právě jako instance třídy age-onto:age. Ontologická definice dimenze v notaci TTL je následující: def-dc-penze:vekova-kategorie a rdf:property, qb:dimensionproperty ; rdfs:label "age"@en, "věk"@cs ; rdfs:comment "Distribution of people according to their age."@en, "Rozdělení osob podle jejich věku."@cs ; rdfs:subpropertyof sdmx-dimension:age ; rdfs:range age-onto:age ; qb:concept sdmx-concept:age. Reprezentace dimenze pohlaví (Pohlaví) Dimenze pohlaví obsahuje z pohledu ČSSZ tři hodnoty: muž, žena a muži a ženy dohromady (celkem, total). Pro její reprezentaci lze využít dimenzi pohlaví definovanou ontologií Data Cube Vocabulary (smdx-dimension:sex). Pro účely našeho projektu ji nepoužíváme přímo, ale odvozujeme vlastní (def-dc-penze:pohlavi). Má totožnou sémantiku jako původní dimenze. Umožňuje nám však pro dimenzi pohlaví vlastní metadatový popis (např. vlastní název dimenze pro pohlaví). Její ontologická definice v notaci TTL je následující: def-dc-penze:pohlavi a rdf:property, qb:dimensionproperty ; rdfs:label "sex"@en, "pohlaví"@cs ; rdfs:comment "The state of being male or female."@en, "Hodnota, která udává, zda je osoba mužem či ženou."@cs ; rdfs:subpropertyof sdmx-dimension:sex ; qb:concept sdmx-concept:sex. 5.4.4 Reprezentace dimenzí specifických pro datové kostky ČSSZ Zatímco výše popsané dimenze jsou obecnější, neboť by nalezly uplatnění i ve statistických datových kostkách publikovaných mimo ČSSZ (např. ČSÚ), je potřeba definovat i dimenze specifické čistě pro datové kostky ČSSZ. Kvantily relativní výše důchodu (Kvantil) Dimenze udává statistický kvantil, pro který daná hodnota platí. Pro reprezentaci kvantilů využíváme instance třídy qua-onto:quantile definované iniciativou OpenData.cz. Instance této třídy mají URL ve tvaru http://linked.opendata.cz/generated/resource/quantile/q[dec] ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 27 (z 115)
kde [DEC] je statistický kvantil (10, 20,, 50,, 90). Např. následující URL tak značí medián: http://linked.opendata.cz/generated/resource/quantile/q50 Dimenze pro kvantily je definována v rámci domény ČSSZ následujícím způsobem: def-dc-penze:kvantily-relativni-vyse-duchodu a rdf:property, qb:dimensionproperty ; rdfs:label "quantile of the relative amount of pension"@en, "kvantil relativní výše důchodu"@cs ; rdfs:comment "Distribution of pensions according to their quantile of their relative amount."@en, "Rozdělení důchodů podle kvantilu jejich relativní výše."@cs ; rdfs:range qua-onto:quantile ; qb:concept dbpedia:quantile. Poznamenejme, že standard SDMX nezavádí pro kvantily speciální koncept a není tedy možné sémantiku dimenze popsat pomocí prostředků SDMX standardu. Pro definici sémantiky jsme si tedy vypůjčili koncept z projektu DBPedia (Wikipedia konvertovaná do reprezentace propojitelných dat). To je běžný způsob popisu sémantiky pojmů ve světě propojitelných dat. Výše osobního vyměřovacího základu (Výše osobního vyměřovacího základu v Kč) Dimenze udává kategorii osobních vyměřovacích základů (dle jejich výše), pro kterou daná hodnota platí. Pro reprezentaci kategorií využíváme instance třídy ran-onto:range definované iniciativou OpenData.cz. Instance této třídy reprezentují kladné celočíselné rozsahy (intervaly) a mají URL ve tvaru nebo http://linked.opendata.cz/generated/resource/range/i[min]t[max] http://linked.opendata.cz/generated/resource/range/i_ge[min] kde [MIN], [MAX] jsou celá kladná čísla, první tvar značí interval <[MIN],[MAX]> a druhý tvar značí interval <[MIN], >. Např. následující URL tak značí interval <34000,34999>: http://linked.opendata.cz/generated/resource/range/i34000t34999 Taková reprezentace intervalů se hodí i pro intervaly reprezentující kategorie osobních vyměřovacích základů. Dimenze pro kategorie osobních vyměřovacích základů (v podobě intervalů jako instancí třídy ran-onto:range) je definována v rámci domény ČSSZ následujícím způsobem: def-dc-penze:vyse-osobniho-vymerovaciho-zakladu a rdf:property, qb:dimensionproperty ; rdfs:label "amount of the personal assessment base"@en, "výše osobního vyměřovacího základu"@cs ; rdfs:comment "Distribution of persons according to the amount of their personal assessment base."@en, "Rozdělení osob podle výše jejich osobního vyměřovacího základu."@cs ; rdfs:range ran-onto:range ; qb:concept dbpedia:income, dbpedia:salary, dbpedia:social_support. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 28 (z 115)
Povšimněme si popisu sémantiky dimenze (pomocí vlastnosti qb:concept). Je popsána trojicí konceptů s projektu DBPedia. Značí, že sémantika dimenze odpovídá těmto konceptům, tj. finanční příjmům, platům či sociální pomoci. To odpovídá tomu, jak je chápán osobní vyměřovací základ: jako finanční příjmy, kterými mohou být plat nebo sociální pomoc. Měsíční výše důchodu (Měsíční výše důchodu v Kč) Dimenze udává kategorii výše důchodů, pro kterou je daná hodnota platná. Pro reprezentaci kategorií opět využíváme instancí třídy ran-onto:range jako v případě předchozí dimenze. Dimenze pro kategorie výše důchodů je definována v rámci domény ČSSZ následujícím způsobem: def-dc-penze:mesicni-vyse-duchodu a rdf:property, qb:dimensionproperty ; rdfs:label "amount of the pension"@en, "výše důchodu"@cs ; rdfs:comment "Distribution of entities according to the amount of their monthly pension."@en, "Rozdělení entit podle výše jejich měsíčního důchodu."@cs ; rdfs:range ran-onto:range ; qb:concept dbpedia:pension. Druh důchodu (Druh důchodu) Dimenze udává druh důchodu, pro kterou daná hodnota platí. Druhy důchodů jsou definovány legislativou a popsány ve statistických ročenkách ČSSZ. Pro druhy důchodů jsme zavedli třídu v doméně ČSSZ, jejíž instance reprezentují jednotlivé druhy (pen-onto:pensionkind). Instance mají URL v následujícím tvaru: http://linked.cssz.cz/resource/pension-kind/pk_[kind] kde [KIND] je zkratka druhu důchodu, kterou používá ČSSZ ve svých tabulkách. Např. následující URL značí druh důchodu se zkratkou V, tj. vdovský důchod: http://linked.cssz.cz/resource/pension-kind/pk_v Dimenze je definována v doméně ČSSZ následujícím způsobem: def-dc-penze:druh-duchodu a rdf:property, qb:dimensionproperty ; rdfs:label "kind of pension"@en, "druh důchodu"@cs ; rdfs:comment "Distribution of entities according to the kind of pension."@en, "Rozdělení entit podle druhu důchodu."@cs ; rdfs:range pen-onto:pensionkind ; qb:concept dbpedia:pension. Důvod zániku důchodu (Statistický důvod zániku důchodu) Dimenze udává důvod zániku důchodu, pro který daná hodnota platí. Důvody jsou definovány legislativou a popsány ve statistických ročenkách ČSSZ. Pro důvody jsme zavedli třídu v doméně ČSSZ, jejíž instance reprezentují jednotlivé důvody (pencanonto:pensioncancellationreason). Instance mají URL v následujícím tvaru: http://linked.cssz.cz/resource/pension-kind/pcr_[n] kde [N] je číslo dle číselníku důvodů ČSSZ. Dimenze je definována v doméně ČSSZ následujícím způsobem: ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 29 (z 115)
def-dc-penze:duvod-zaniku-duchodu a rdf:property, qb:dimensionproperty ; rdfs:label "pension cancellation reason"@en, "důvod zániku důchodu"@cs ; rdfs:comment "Distribution of entities according to the reason of pension cancellation."@en, "Rozdělení entit podle důvodu zániku důchodu."@cs ; rdfs:range pencan-onto:pensioncancellationreason ; qb:concept dbpedia:pension, dbpedia:natural_kind. Důvod změny invalidního důchodu (Statistický důvod změny inval. důchodu) Dimenze udává důvod změny invalidního důchodu, pro který daná hodnota platí. Důvody jsou definovány legislativou a popsány ve statistických ročenkách ČSSZ. Pro důvody jsme zavedli třídu v doméně ČSSZ, jejíž instance reprezentují jednotlivé důvody (dischangeonto:disabilitychangereason). Instance mají URL v následujícím tvaru: http://linked.cssz.cz/resource/pension-kind/dcr_[n] kde [N] je číslo dle číselníku důvodů ČSSZ. Dimenze je definována v doméně ČSSZ následujícím způsobem: def-dc-penze:duvod-zmeny-invalidniho-duchodu a rdf:property, qb:dimensionproperty ; rdfs:label "disability change reason"@en, "důvod změny invalidního důchodu"@cs ; rdfs:comment "Distribution of entities according to the disability change reason."@en, "Rozdělení entit podle důvodu změny invalidního důchodu."@cs ; rdfs:range dischange-onto:disabilitychangereason ; qb:concept dbpedia:disability, dbpedia:natural_kind. Skupina osob (Skupina osob) Pro potřeby reprezentace dat o rozložení populace na skupiny pojištěnci, počet důchodců bez sirotků, počet obyvatel mladších 19 let a ostatní je definována ontologie pro reprezentaci těchto skupin a v rámci datových kostek také odpovídající dimenze. V doméně ČSSZ je tak zavedena třída czgop-onto:group. Instance této třídy mají URl v následujícím tvaru http://linked.cssz.cz/resource/group/g_[skupina] kde [Skupina] je označení příslušné skupiny. Dimenze je definována v doméně ČSSZ následujícím způsobem: def-dc-penze:skupina-osob a rdf:property, qb:dimensionproperty ; rdfs:label "group of persons"@en, "skupina osob"@cs ; rdfs:comment "Defined group of persons."@en, "Vymezená skupina osob."@cs ; rdfs:subpropertyof sdmx-measure:obsvalue ; rdfs:range czgop-onto:group ; qb:concept dbpedia:natural_kind. 5.4.5 Příklad využití ontologií Následující příklad ukazuje, jak budou ontologie využity. V rámci příkladu je uvedena reprezentace celkového počtu důchodců, průměrné výše důchodu a průměrného věku důchodců podle roku, druhu penze, kraje České republiky a pohlaví. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 30 (z 115)
@prefix dc-penze: <http://linked.cssz.cz/dataset/penze/>. @prefix def-dc-penze: <http://linked.cssz.cz/ontology/dataset-definitions/penze#>. @prefix metadata-dc-penze: <http://linked.cssz.cz/ontology/metadata/penze#>. @prefix qb: <http://purl.org/linked-data/cube#>. @prefix ybs: <http://linked.cssz.cz/resource/yearbook-section/>. @prefix ybs-onto: <http://linked.cssz.cz/ontology/yearbook-sections/>. @prefix age: <http://linked.opendata.cz/generated/resource/age/>. @prefix qua: <http://linked.opendata.cz/generated/resource/quantile/>. @prefix ran: <http://linked.opendata.cz/generated/resource/range/>. @prefix pen: <http://linked.cssz.cz/resource/pension-kind/>. @prefix pencan: <http://linked.cssz.cz/resource/pension-cancellation-reason/>. @prefix dis: <http://linked.cssz.cz/resource/disability-level/>. @prefix dischange: <http://linked.cssz.cz/resource/disability-change-reason/>. @prefix sdmx-code: <http://purl.org/linked-data/sdmx/2009/code#>. @prefix sdmx-subject: <http://purl.org/linked-data/sdmx/2009/subject#>. @prefix sdmx-attribute: <http://purl.org/linked-data/sdmx/2009/attribute#>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>. @prefix owl: <http://www.w3.org/2002/07/owl#>. @prefix skos: <http://www.w3.org/2004/02/skos/core#>. @prefix foaf: <http://xmlns.com/foaf/0.1/>. @prefix scovo: <http://purl.org/net/scovo#>. @prefix void: <http://rdfs.org/ns/void#>. @prefix vcard: <http://www.w3.org/2006/vcard/ns#>. @prefix xsd: <http://www.w3.org/2001/xmlschema#>. @prefix dcterms: <http://purl.org/dc/terms/>. dc-penze:duchodci-v-krajich a qb:dataset ; dcterms:title "Total numbers of pensioners in regions of Czech Republic"@en, "Celkový počet důchodců v krajích České republiky"@cs ; rdfs:label "Total numbers of pensioners in regions of Czech Republic"@en, "Celkový počet důchodců v krajích České republiky"@cs ; dcterms:description "Total numbers of pensioners, average amount of pensions and average age of pensioners by year, kind of pension, region of Czech Republic and sex"@en, "Celkový počet důchodců, průměrná výše důchodu a průměrný věk důchodců podle roku, druhu penze, kraje České republiky a pohlaví"@cs ; rdfs:comment "Total numbers of pensioners, average amount of pensions and average age of pensioners by year, kind of pension, region of Czech Republic and sex"@en, "Celkový počet důchodců, průměrná výše důchodu a průměrný věk důchodců podle roku, druhu penze, kraje České republiky a pohlaví"@cs ; dcterms:publisher <http://www.cssz.cz> ; dcterms:issued "2014-09-15"^^xsd:date ; dcterms:subject sdmx-subject:1.6, <http://dbpedia.org/resource/czech_republic> ; qb:structure def-dc-penze:duchodci-v-krajich ; metadata-dc-penze:yearbooksection ybs:s_number_of_pensioners_according_to_regions_2008, ybs:s_number_of_pensioners_according_to_regions_2010. <http://linked.cssz.cz/dataset/penze/duchodci-v-krajich/observation/2012-12-31/s/cz020/m> a qb:observation ; qb:dataset dc-penze:duchodci-v-krajich ; def-dc-penze:refperiod <http://reference.data.gov.uk/id/gregorian-day/2012-12-31> ; def-dc-penze:druh-duchodu pen:pk_s ; def-dc-penze:kraj <http://ruian.linked.opendata.cz/resource/vusc/27> ; def-dc-penze:pohlavi sdmx-code:sex-m ; def-dc-penze:pocet-duchodcu "66500"^^xsd:nongativeInteger ; def-dc-penze:prumerna-vyse-duchodu-v-kc "12511"^^xsd:nongativeInteger ; def-dc-penze:prumerny-vek "71"^^xsd:nongativeInteger. V příkladu jsou nejprve zavedeny používané prefixy. Dále jsou uvedena metadata o datové sadě, jako je např. popis. Pro metadata jsou využity koncepty ontologie Dublin Core (dcterms). Samotná data v podobě propojitelných dat jsou uvedena až na závěr. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 31 (z 115)
Datová sada je identifikována svým URI, které v tomto případě je http://linked.cssz.cz/dataset/penze/duchodci-v-krajich/observation/2012-12- 31/S/CZ020/M. Atribut def-dc-penze:refperiod udává, za jaké období jsou data vykazována. Z hodnoty je patrné, že data jsou platná k 31. 12. 2012. Atribut def-dc-penze:druh-duchodu udává, o jaký druh důchodu se jedná. V tomto případě se jedná o starobní důchod S (starobní důchod - dle 29 odst. 1 a 3, 74, 76 a 94 z. č. 155/1995 Sb. nebo příslušných ustanovení předcházejících předpisů (zahrnut i důchod SIN dle 29 odst. 4 téhož zákona)). Atribut "def-dc-penze:kraj udává, za jaký kraj jsou data vykazována. Hodnotou je URI příslušného kraje v podobě propojitelných dat. Konkrétně se v tomto případě jedná o Středočeský kraj. Atribut def-dc-penze:pohlavi udává, za jaké pohlaví jsou data udávána. V tomto případě se jedná o muže. Atribut def-dc-penze:pocet-duchodcu udává počet důchodců. Dle výše uvedených údajů se zde jedná o počet mužů ve Středočeském kraji pobírajících starobní důchod S. Jejich počet pak k 31. 12. 2014 činil 66 500. Atribut def-dc-penze:prumerna-vyse-duchodu-v-kc udává průměrnou výši důchodu v Kč. Na základě výše uvedených údajů činila průměrná výše starobního důchodu S u mužů ve Středočeském kraji k 31. 12. 2012 12 511 Kč. Atribut def-dc-penze:prumerny-vek udává průměrný věk. Na základě výše uvedených údajů činil průměrný věk u mužů ve Středočeském kraji, kteří k 31. 12. 2012 pobírali starobní důchod S, 71 let. 5.5 Metadata O vytvořených datových kostkách, resp. datových sadách, jsou poskytována metadata následujícími způsoby: 1. Data Cube Vocabulary umožňuje, aby součástí datové sady byla i základní metadata jako je název datové sady, původce datové sady či datum vytvoření či modifikace datové sady. V souladu s tímto způsobem reprezentace metadat v Data Cube Vocabulary jsou tato základní metadata poskytována v rámci datové kostky. 2. Výše v kapitole Struktura katalogizačního záznamu je uvedena doporučená struktura katalogizačního záznamu při publikaci otevřených dat. Kromě metadat obsažených v rámci datových kostek jsou tak poskytována metadata v této doporučené struktuře s využitím ontologie DCAT 6. 6 http://www.w3.org/tr/vocab-dcat/ ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 32 (z 115)
5.5.1 Metadata jako součást datových kostek Pro publikaci metadat jako součást datových kostek jsou použity následující ontologie: @prefix qb: <http://purl.org/linked-data/cube#>. @prefix sdmx-code: <http://purl.org/linked-data/sdmx/2009/code#>. @prefix sdmx-subject: <http://purl.org/linked-data/sdmx/2009/subject#>. @prefix sdmx-attribute: <http://purl.org/linked-data/sdmx/2009/attribute#>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>. @prefix xsd: <http://www.w3.org/2001/xmlschema#>. @prefix dcterms: <http://purl.org/dc/terms/>. Dále jsou pak využity ontologie definované pro potřeby ČSSZ: @prefix def-dc-penze: <http://linked.cssz.cz/ontology/dataset-definitions/penze#>. @prefix metadata-dc-penze: <http://linked.cssz.cz/ontology/metadata/penze#>. @prefix ybs: <http://linked.cssz.cz/resource/yearbook-section/>. @prefix ybs-onto: <http://linked.cssz.cz/ontology/yearbook-sections/>. Samotné datové kostky pak mají URL identifikátory, kde základ tohoto URL je dán následujícím prefixem: @prefix dc-penze: <http://linked.cssz.cz/dataset/penze/>. Jako součást datové kostky jsou publikována následující metadata Název datové kostky - reprezentován s využitím predikátů dcterms:title a rdfs:label Popis datové kostky - reprezentován s využitím predikátů dcterms:description a rdfs:comment Poskytovatel dat - reprezentován s využitím predikátu dcterms:publisher; poskytovatelem je ČSSZ Datum publikace dat - reprezentováno s využitím predikátu dcterms:issued Klasifikace - reprezentováno s využitím predikátů dcterms:subject a sdmxsubject:1.1 Definice datové kostky - reprezentováno s využitím predikátu qb:structure Související kapitoly ročenky - reprezentováno s využitím predikátu metadata-dcpenze:yearbooksection, který byl za tímto účelem specificky definován 5.5.2 Metadata dle ontologie DCAT Data Catalog Vocabulary (DCAT) je ontologie pro reprezentaci metadat o datových sadách a datových katalozích [9]. Tato ontologie nicméně nevymezuje datovou sadu jinak, než kolekce dat publikovaná a spravovaná jedním subjektem, která je dostupná ke stažení v jednom či víc formátech [9]. Datovou sadu vymezujeme tedy jako množinu všech datových kostek, jejichž obsahem jsou data důchodové statistik ve formátu v RDF. Datová sada má URL <http://linked.cssz.cz/resource/dataset/cssz/penze>. ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 33 (z 115)
5.6 Architektura řešení V této části je popsána architektura řešení pro publikaci dat důchodové statistiky ve formátu otevřených a propojitelných dat. Architektura je navržena tak, aby umožnila transformaci dat ze zdrojového formátu souborů MS Excel a následnou transformaci do podoby otevřených propojitelných dat s využitím formátu RDF a množiny zvolených a navržených ontologií. Architektura dále umožňuje samotnou publikaci dat důchodové statistiky v podobě otevřených a propojitelných dat. Základní architektura řešení je tvořena Procesy 1, 2, 2a a 3, které sdílí společné úložiště ( Repository pattern ) dle následujícího schématu (obrázek 3): Obrázek 3: Aplikace vzoru Repository Pattern Obrázek 4: Procesy transformace a jejich vstupy Obrázek 4 zachycuje jednotlivé procesy transformace a jejich vstupy. Ze schématu je také patrné, jak bude v rámci projektu rozdělena realizace jednotlivých procesů mezi řešitele projektu. Proces 2 pracuje s výstupy Procesu 1. Výstupy Procesu 1 se předávají Procesu 2 přes souborový systém. Proces 3 pracuje s výstupy Procesu 2 a 2a. Výstupy Procesů 2 a 2a se předávají Procesu 3 přes sdílené datové úložiště (přímo RDF databáze nebo RDF dumps). ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení 34 (z 115)