Publikace dat důchodové statistiky v podobě otevřených propojených dat Jan Kučera Katedra informačních technologií Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze
Obsah přednášky Aktivity FIS VŠE v oblasti otevřených dat Publikace dat důchodové statistiky v průběhu času Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat Otevřená data ČSSZ Reprezentace dat důchodové statistiky v RDF Postup publikace a použité technologie 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 2
Otevřená data Otevřená data jsou data, která mohou být svobodně využívána, zpracovávána, upravována a šířena, přičemž může být vyžadováno, aby byl uveden původce dat nebo aby byla dále šířena za stejných podmínek (volně přeloženo dle Open Knowledge, n.d.) Klíčové vlastnosti otevřených dat úplnost snadná dostupnost strojová čitelnost použití standardů s volně dostupnou specifikací (tzv. otevřených standardů) zpřístupnění za jasně definovaných podmínek užití dat (licence) s minimem omezení dostupnost uživatelům při vynaložení minima možných nákladů na jejich získání 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 3
Stupně otevřenosti dat Zdroj: Hausenblas a Kim, 2015 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 4
Nejvýznamnější aktivity FIS VŠE v oblasti otevřených dat Dlouhodobá spolupráce Iniciativa OpenData.cz (spolupráce zejména s MFF UK) Fórum pro otevřená data (MFF UK, Fond Otakara Motejla, od roku 2013) Spolupráce s Ministerstvem vnitra ČR na propagaci, katalogizaci a legislativních úpravách a přípravě standardů otevřených dat veřejné správy v ČR (opendata.gov.cz) Projekty spolufinancované Evropskou komisí Creating Knowledge out of Interlinked Data (LOD2, 09/2010 08/2014) Shared Standards for Open Data and Public Sector Information (SharePSI 2.0, 02/2014 07/2015) Financial Transparency Platform for the Public Sector (OpenBudgets.eu, 05/2015 10/2017) Projekty spolufinancované Technologickou agenturou České republiky Otevřená propojitelná data v oblasti veřejných rozpočtů (TAČR, MFF UK, Fond Otakara Motejla, MF ČR, 01/2014-09/2015) Publikace dat statistických ročenek ve standardu otevřených dat (TAČR, KOMIX s.r.o., ČSSZ 01/2014 06/2015) Další projekty Koncepce katalogizace otevřených dat (zpracováno pro Úřad vlády ČR, MMR, MV ČR, rok 2012) Analýza otevřenosti ČTÚ (2013), publikace otevřených dat ČTÚ (2014) Spolupráce na otevírání dat ČOI, ČSÚ, ČSSZ, NKÚ 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 5
Obsah přednášky Aktivity FIS VŠE v oblasti otevřených dat Publikace dat důchodové statistiky v průběhu času Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat Otevřená data ČSSZ Reprezentace dat důchodové statistiky v RDF Postup publikace a použité technologie 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 6
Publikace dat důchodové statistiky ČSSZ v průběhu času 2013 2014 2015 2016 Příprava výzkumného projektu Publikace dat statistických ročenek ve standardu otevřených dat (TD020121) Řešení výzkumného projektu TD020121 Ukončení výzkumného projektu TD020121 Publikace otevřených dat ČSSZ Spolupráce ČSSZ a VŠE na publikaci dalších datasetů ČSSZ 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 7
Obsah přednášky Aktivity FIS VŠE v oblasti otevřených dat Publikace dat důchodové statistiky v průběhu času Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat Otevřená data ČSSZ Reprezentace dat důchodové statistiky v RDF Postup publikace a použité technologie 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 8
Motivace k řešení výzkumného projektu TD020121 Orgány veřejné správy v ČR poskytují řadu statistických dat, ale v různých formátech (PDF, XLS, CSV, XML) Struktura dat a jejich význam nejsou vždy popsány Existují ale i výjimky, např. data ve Veřejné databázi ČSÚ jsou bohatě popsána metadaty Heterogenita formátů a chybějící popis struktury a významu dat komplikují jejich zpracování 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 9
Ukázka: Statistická ročenka z oblasti důchodového pojištění 2012 Zdroj: Česká správa sociálního zabezpečení, 2013 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 10
Hlavní cíle projektu TD020121 1. Vytvořit metodiku a typovou architekturu pro publikaci statistických dat v podobě otevřených propojených dat 2. Ověřit navrženou metodiku a typovou architekturu na publikaci dat důchodové statistiky ČSSZ 3. Vybudovat nad těmito daty pilotní aplikaci pro zpřístupnění a prezentaci těchto dat 4. Využít tato data pro v rámci specializované mapy s interpretací regionálních rozdílů 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 11
Výstupy projektu TD020121 Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení Datová pumpa pro převod zdrojových dat do publikační databáze Publikační databáze SPARQL endpoint: http://opendata.vse.cz:8890/sparql Data zpřístupněna pod licencí Creative Commons Attribution 4.0 International Public License (CC BY 4.0) Webová prezentační aplikace Specializovaná mapa s interpretací regionálních rozdílů v oblasti sociálního výzkumu Všechny výstupy jsou dostupné ze stránky projektu 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 12
Příklad: Poměr počtu starobních důchodců (ČSSZ) a míst v domovech pro seniory (ČSÚ) dle okresů Zdroj: https://opendata.vse.cz/duchodova-statistika/vizualizace.jsp?config=ukazatel_u02.xml, 20.10.2017 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 13
Příklad: Průměrná výše sólo starobních důchodů S-Celkem (ČSSZ) Zdroj: https://opendata.vse.cz/duchodova-statistika-mapy/mapa.jsp?config=ukazatelmapa_prumernyduchod.xml, 20.10.2017 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 14
Obsah přednášky Aktivity FIS VŠE v oblasti otevřených dat Publikace dat důchodové statistiky v průběhu času Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat Otevřená data ČSSZ Reprezentace dat důchodové statistiky v RDF Postup publikace a použité technologie 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 15
Česká správa sociálního zabezpečení Česká správa sociálního zabezpečení (ČSSZ) Organizační složka státu spadající do rezortu Ministerstva práce a sociálních věcí ČR Celkový objem příjmů a výdajů za rok 2015 činil 804 miliard Kč 8,6 milionu klientů (počet obyvatel ČR činí cca 10,5 milionu) 2,9 milionu důchodců 8 690 zaměstnanců Hlavní oblasti působnosti ČSSZ Důchodové pojištění Řízení ve věcech osob zdravotně znevýhodněných Nemocenské pojištění Pojistné Exekuce Lékařská posudková služba Kontrolní činnosti Zdroj: Šunka a kol., 2016 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 16
Průběh publikace otevřených dat ČSSZ 01/2014 06/2015 Spolupráce ČSSZ na projektu TD020121 04/2015 Smluvní zajištění spolupráce ČSSZ a VŠE 05/2015 10/2015 Příprava publikace otevřených dat ČSSZ 11/2015 Publikace datasetů s nejvyšší prioritou 12/2015 Zpřístupnění interaktivních vizualizací Od 2016 Aktualizace a rozšiřování dostupných datasetů 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 17
Příprava publikace otevřených dat ČSSZ Hlavní kroky přípravy publikace dat Návrh technologického prostředí pro přípravu a publikaci dat Včetně zajištění, že publikovaná metadata bude moci zpracovat Národní katalog otevřených dat Implementace navrženého technologického prostředí Výběr datasetů k publikaci Posouzení bezpečnostních hledisek publikace otevřených dat Příprava datasetů k publikaci Návrh struktury datasetů a strojově čitelného schématu Příprava a verifikace popisných metadat Transformace zdrojových dat do navržené struktury datasetů Verifikace transformovaných dat 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 18
Publikace otevřených dat ČSSZ Otevřená data ČSSZ dostupná data na portálu https://data.cssz.cz Data jsou poskytována ve formátu CSV a v RDF Data jsou poskytována ke stažení i prostřednictvím SPARQL endpointu Všechna data jsou opatřena metadaty a jsou registrována v Národním katalogu otevřených dat 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 19
Ukázka datové sady ČSSZ v RDF Zdroj: https://data.cssz.cz/web/otevrena-data/-/prehled-o-celkovem-poctu-osvc-podle-okresu, 20.10.2017 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 20
Ukázka vizualizace datové sady ČSSZ Zdroj: https://data.cssz.cz/web/otevrena-data/graf-pocet-osvc-v-okresech, 20.10.2017 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 21
Obsah přednášky Aktivity FIS VŠE v oblasti otevřených dat Publikace dat důchodové statistiky v průběhu času Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat Otevřená data ČSSZ Reprezentace dat důchodové statistiky v RDF Postup publikace a použité technologie 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 22
Data důchodové statistiky jsou vícerozměrná Dimenze: Platnost k Hodnota: 31. 12. 2013 Dimenze: Druh důchodu Hodnota: Starobní důchod S Měřená veličina: Počet důchodců Hodnota: 3 889 Dimenze: Území Hodnota: Praha 3 Dimenze: Pohlaví Hodnota: muži 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 23
The RDF Data Cube Vocabulary Zdroj: Cyganiak a Reynolds, 2014 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 24
Data důchodové statistiky v RDF Data reprezentována jako datové kostky pomocí slovníku The RDF Data Cube Vocabulary Číselníky reprezentovány pomocí SKOS Metadata reprezentována pomocí DCAT a VoID 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 25
Druhy důchodů v ČR Poživatelé důchodů v ČR mohou pobírat Důchody vyplácené samostatně Přímé důchody existuje několik druhů starobního důchodu, resp. invalidního důchodu Odvozené, pozůstalostní důchody vdovský či vdovecký důchod, sirotčí důchod Přímý důchod v kombinaci s vdovským nebo vdoveckým důchodem Druhy důchodů se v průběhu času mění v návaznosti na změny legislativní úpravy 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 26
Číselník druhů důchodů Reprezentován pomocí slovníku SKOS Tvořen instancemi třídy skos:conceptscheme cssz-pension-kinds:pensionkindscheme Koncepty pro reprezentaci druhů důchodů bez ohledu na období cssz-pension-kinds:pensionkindscheme_2008 Koncepty pro reprezentaci druhů v období let 2008 až 2009 cssz-pension-kinds:pensionkindscheme_2010 Koncepty pro reprezentaci druhů v období od roku 2010 Hierarchie v číselnících vyjádřena pomocí skos:narrower Vazba konceptu představujícího druh důchodu v určitém období na koncept reprezentující ekvivalentní důchod nezávisle na období vyjádřena pomocí skos:exactmatch Umožňuje vytvářet časové řady 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 27
Vazby mezi koncepty pro starobní důchod S pen-onto:pk_s skos:exactmatch skos:exactmatch pen-onto:pk_s_2008 pen-onto:pk_s_2010 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 28
Obsah přednášky Aktivity FIS VŠE v oblasti otevřených dat Publikace dat důchodové statistiky v průběhu času Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat Otevřená data ČSSZ Reprezentace dat důchodové statistiky v RDF Postup publikace a použité technologie 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 29
Proces přípravy a publikace datasetů Kroky procesu přípravy a publikace datasetů používaného ČSSZ Pohovor s vlastníkem dat Analýza zdrojových dat Analýza a návrh cílových datasetů Příprava zdrojových dat pro transformaci Příprava dokumentace datasetů, která je součástí metadat Tvorba transformačního procesu v nástroji UnifiedViews Vytvoření datasetů a jejich strojově čitelných metadat pomocí připraveného transformačního procesu Verifikace datasetů a jejich metadat před zveřejněním Zveřejnění datasetů a jejich metadat Podrobněji je celý proces popsán zde 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 30
Technologie použité ČSSZ Prostředí pro přípravu dat UnifiedViews CKAN Virtuoso Kancelářský software a textový editor Pro publikaci dat a jejich vizualizaci vytvořeno řešení na míru 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 31
Zdrojová data důchodové statistiky Zdrojová data statistických ročenek z oblasti důchodového pojištění připravována přímo k tisku Zdrojová data ve formátu MS Excel Význam hodnot je dán nejen záhlavím sloupce, ale první sloupec zpravidla obsahuje i další popisné údaje, jako je např. druh důchodu Data rozdělena na různých listech Díky měnícím se číselníkům (druhy důchodů, pásma výše důchodu, pásma vyměřovacího základu) se mění i rozsahy buněk obsahujících data 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 32
Šablony pro export zdrojových dat důchodové statistiky Postup pro zpracování zdrojových dat důchodové statistiky navržen a ověřen v rámci projektu TD020121 Pro každý zdrojový soubor je vytvořena šablona, která popisuje rozdělení dat ve zdrojovém soubor a jejich význam Pro tvorbu šablon navržen systém meta-značek viz dokumentace Pro nástroj UnifiedViews vyvinuto DPU pro zpracování zdrojových dat s využitím šablon Osvědčilo se udržovat slovník dimenzí a typů faktů (měřených veličin) Zajišťuje, že dimenze a fakty jsou značeny konzistentně ve všech šablonách Dimenze a typy faktů lze mapovat na odpovídající koncepty tvořící strukturu datových kostek v Data Cube Vocabulary Usnadňuje tvorbu transformačních procesů v UnifiedViews 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 33
Ukázka zdrojových dat důchodové statistiky 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 34
Ukázka šablony pro export zdrojových dat 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 35
Postup transformace dat důchodové statistiky (ročenky) do RDF Analýza zdrojových dat (XLS) Tvorba šablon Návrh datových kostek, metadat, dokumentace Tvorba ELT procesu v UnifiedViews Transformace dat Verifikace datasetů a metadat 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 36
Děkuji za pozornost Jan Kučera jan.kucera [at] vse.cz
Zdroje CYGANIAK, Richard a REYNOLDS, Dave, 2014. The RDF Data Cube Vocabulary. In: W3C [online]. 16 January 2014 [cit. 2016-11-11]. Dostupné z: http://www.w3.org/tr/2014/rec-vocab-data-cube-20140116/. Česká správa sociálního zabezpečení, 2013. Statistická ročenka z oblasti důchodového pojištění 2012. In: Česká správa sociálního zabezpečení [online]. [cit. 2016-11-11]. Dostupné z: http://www.cssz.cz/nr/rdonlyres/14f33e39-b858-4c93- BC13-3153EBB7099E/0/SR2012_WEB.pdf. HAUSENBLAS, Michael, KIM, James G., 2015. 5 star Open Data. In: 5 star Open Data [online]. Last updated: 2015-08-31 [cit. 2015-12-05]. Dostupné z: http://5stardata.info/. Open Knowledge, n.d. What is Open Data? In: Open Data Handbook [online]. [cit. 2016-11-03]. Dostupné z: http://opendatahandbook.org/guide/en/what-is-opendata/. ŠUNKA, Jiří, JANDOVÁ, Martina, NOVÁK, Marek, 2016. Publikace otevřených propojených dat v prostředí ČSSZ. In: NKÚ [online]. 19. 2. 2016 [cit. 2016-11-16]. Dostupné z: http://www.nku.cz/assets/konference-seminare/seminar-opendata- 2016/4-sunka-novak-jandova-cssz.pdf. 23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 38