Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu

Podobné dokumenty
Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu Doplněná verze vyznačeno červeně

Publikace otevřených propojených dat v prostředí ČSSZ

RDF serializace Turtle

Publikace dat důchodové statistiky v podobě otevřených propojených dat

Metodika publikace otevřených a propojitelných dat

4IZ440 Propojená data na webu Organizační úvod

Přepoužívání ontologických modelů na sémantickém webu

4IZ440 Propojená data na webu Organizační a kontextový úvod

DUM 07 téma: Proměnné, konstanty a pohyb po buňkách ve VBA

Výměnný formát XML DTM DMVS PK

Střední škola pedagogická, hotelnictví a služeb, Litoměříce, příspěvková organizace

Linked Data a jazyk RDF

S M Ě R N I C E č. 6/2014 ministra financí

Datové modelování II

Význam měřm. Mgr. Anna Borovcová doc. Ing. Alena Buchalcevová, Ph.D. VŠE Praha

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

QAD Business Intelligence

Integrovaná střední škola, Sokolnice 496

MODELOVÁNÍ DAT V INFORMAČNÍCH SYSTÉMECH. Jindřich Kaluža Ludmila Kalužová

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

Softwarová podpora v procesním řízení

EXTRAKT z mezinárodní normy

Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení

l Kontakt s klientem SSP Popis automatizované komunikace s ÚP ČR v součinnosti a exekuci

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Modelování a odvozování v RDFS

9. Rozšiřující desky Evb_Display a Evb_keyboard

Tvorba nových dat. Vektor. Geodatabáze. Prezentace prostorových dat. Základní geometrické objekty Bod Linie Polygon. Vektorová

Linked Data a jazyk RDF

e k o n o m i c k é s y s t é m y p r o ř í z e n í R A C I O N A L I Z O V A N Ý I N F O R M A Č N Í S Y S T É M RIS

Praktické aspekty ABC

Bakalářský studijní obor hospodářská informatika

MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne

Výroková a predikátová logika - V

2. přednáška z předmětu GIS1 Data a datové modely

Výměnný formát XML DTM DMVS PK

Zásoby_Přenesená daňová povinnost Obilniny a technické plodiny (12)

U Úvod do modelování a simulace systémů

7 Formátovaný výstup, třídy, objekty, pole, chyby v programech

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Třídy - založení tříd, zápisy do tříd

DBS Konceptuální modelování

Hotelová škola, Obchodní akademie a Střední průmyslová škola Teplice, Benešovo náměstí 1, p.o. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Výčtový typ strana 67

Vysoká škola ekonomická

Datový slovník. Datum vyhlášení :00:00. Platnost od data. Platnost do data. Název oblasti datových prvků. Verze 102

VYHLÁŠKA. ze dne 20. prosince 2013

Rámcový návod pro školitele. doktorských studijních programů

Logický rámec projektu (Logical Framework Matrix LFM)

Vývoj informačních systémů. Přehled témat a úkolů

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

Propojená data na webu (motivační úvod)

4IZ440 Propojená data na webu Organizační a kontextový úvod

Obsah. Úvod 11 Základy programování 11 Objektový přístup 11 Procvičování 11 Zvláštní odstavce 12 Zpětná vazba od čtenářů 12 Errata 13

GIS Geografické informační systémy

45 Plánovací kalendář

Výroková a predikátová logika - II

Skonta E S O 9 i n t e r n a t i o n a l a. s.

TÉMATICKÝ OKRUH Softwarové inženýrství

Matice přechodu. Pozorování 2. Základní úkol: Určete matici přechodu od báze M k bázi N. Každou bázi napíšeme do sloupců matice, např.

Střední průmyslová škola Zlín

0.1 Úvod do lineární algebry


Tabulkový procesor. Základní rysy

Výroková a predikátová logika - II

PROMĚNNÉ, KONSTANTY A DATOVÉ TYPY TEORIE DATUM VYTVOŘENÍ: KLÍČOVÁ AKTIVITA: 02 PROGRAMOVÁNÍ 2. ROČNÍK (PRG2) HODINOVÁ DOTACE: 1

Teoretické minimum z PJV

Návody na řešení životních situací na novém webu


Programování v jazyku C# II. 5.kapitola

GIS Geografické informační systémy

IMPORT DAT DO DATABÁZE

Projekt Využití ICT ve výuce na gymnáziích, registrační číslo projektu CZ.1.07/1.1.07/ MS Excel

Automatizovatelná aktualizace Wikidata z veřejných databází. Jakub Klímek

Funkční specifikace ABOKWS. Aplikační rozhraní elektronického bankovnictví ABO-K. Verze 0.5

F A,B = Vektory baze vyjádřete jako aritmetické vektory souřadnic vzhledem

Požadavky pro výběrová řízení TerraBus ESB/G2x

UŽIVATELSKÁ PŘÍRUČKA ČSOB BUSINESSBANKING 24 POPIS FORMÁTU TXT

Základy matematiky pro FEK

Kartografické modelování. II Mapová algebra obecné základy a lokální funkce

Operační výzkum. Síťová analýza. Metoda CPM.

Pravidla pro hodnocení vzdělávací činnosti studenty a absolventy Filozofické fakulty Univerzity Karlovy. ze dne

ANALYSIS SERVICES PROJEKT VYTVOŘENÍ PROJEKTU A DATOVÉ KOSTKY

IB112 Základy matematiky

Přihlášení k maturitním zkouškám

Analýza dat na PC I.

Testování a spolehlivost. 1. Laboratoř Poruchy v číslicových obvodech

Metodický list k didaktickému materiálu

Implementace LL(1) překladů

Část dle zadávací dokumentace veřejné zakázky RAILHUC přestupní terminály a páteřní síť veřejné dopravy Kraje Vysočina

Dědění, polymorfismus

1 Popis předmětu plnění projektu implementace MIS

Paměť počítače. alg2 1

Synchronizace číselníků

Standardy publikace a katalogizace otevřených dat. Dušan Chlapek David Hemala

STUDENTSKÉ HODNOCENÍ VÝUKY ZA LS 2015/2016 NA PEDF UK

10. Datové sklady (Data Warehouses) Datový sklad

Ing. Roman Danel, Ph.D. 2010

Transkript:

Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu Doc. Ing. Vojtěch Svátek, Dr. Zimní semestr 2017 http://nb.vse.cz/~svatek/rzzw.html

Základní info Předpoklad: vstupní data jsou v CSV npod., a existuje k nim aspoň minimální textová dokumentace Postup je popsán v projektovém dokumentu D1.5 - Final release of data definitions for public finance data Komponenty, kódovníky, příklady použití, včetně návodu a širšího úvodu (i k DCV) http://openbudgets.eu/assets/deliverables/d1.5.pdf Zbývající části prezentace shrnuje možné vzory pro vytváření dat v RDF časté chyby, mj. podle zpětné vazby z výuky 4IZ440 v ZS 16

Kuchařka modelování kódovníků Obecné principy (platné pro SKOS) Každý kód dimenze/atributu v datech by měl být explicitně identifikovaný jako instance skos:concept, a měl by mít textovou reprezentaci, nejlépe jako skos:preflabel Vhodné je převzít/zavést explicitní kódovník, ke kterému je kód přiřazen pomocí skos:inscheme, a k IRI kódu doplnit jeho zápis v podobě literálu, jako hodnotu skos:notation Z ne-rdf číselníků přebíráme kódy, z nichž vyrobíme IRI slepením se jmenným prostorem vzniklého RDF kódovníku

Kuchařka modelování kódovníků Varianta 1: kódovník neexistuje v žádné podobě Vyjdeme jen z textové hodnoty, která je ve vstupních datech, a pro každé pozorování přiřadíme hodnotu komponenty (dimenze resp. atributu) jako: <pozorování> <komponenta> [ a skos:concept ; skos:preflabel <textová hodnota> ]. Tj. zapíšeme kód buď jako bnode, nebo např. jako nečitelné IRI vytvořené pomocí SHA1 transformace z hodnoty preflabel

Kuchařka modelování kódovníků Varianta 1 - příklad V datech je sloupec Účel dotace, který je při převodu do RDF interpretován jako obeu-dimension:programmeclassification (existující dimenze z OBEU modelu) Hodnota sloupce pro daný řádek je 1 Část popisu pozorování v RDF pak může pro tento řádek vypadat takto: <obs1234> obeu-dimension:programmeclassification [ a skos:concept ; skos:notation 1" ].

Kuchařka modelování kódovníků Varianta 2: kódovník existuje, ale není v RDF Přepoužijeme známý zápis kódu v pozorování, zpravidla ve struktuře: <pozorování> <komponenta> <IRI kódovníku>/<zápis kódu>. IRI kódovníku zpravidla navrhneme podle jeho názvu v původním zdroji Ke každému IRI kódu (složenému z IRI kódovníku a ze zápisu kódu) explicitně přiřadíme jeho zápis

Kuchařka modelování kódovníků Varianta 2 - příklad Sloupec Účel dotace má přiřazený tabulkový kódovník označený Programová priorita, zahrnující i kód 1 s textovým popisem Stavební práce Kódovníku navrhneme IRI z vhodného jmenného prostoru; pro data projektu OBEU (ovšem ne studentskou práci) např. <http://data.openbudgets.eu/resource/codelist/program-priority> Jednotlivý kód bude definován jako <http://data.openbudgets.eu/resource/codelist/program-priority/1> a skos:concept ; skos:preflabel Stavební práce"@cs ; skos:notation "1" ; skos:inscheme <http://data.openbudgets.eu/resource/codelist/program-priority> Část popisu pozorování v RDF pak zapíšeme jako <obs1234> obeu-dimension:programclassification <http://data.openbudgets.eu/resource/codelist/program-priority/1>

Kuchařka modelování kódovníků Varianta 3: kódovník již existuje v RDF IRI kódovníku i zápis kódu (dohromady tvořící IRI kódu) převezmeme z původního zdroje Pokud nemůžeme spoléhat na to, že si aplikace budou (moci) číselník vždy dereferencovat, doplníme do dat vlastnosti kódů jako ve Variantě 2

Schéma DCV (pro osvěžení)

Možné schéma využití DCV+SKOS notace kódu (string) skos:notation popis kódu (string) skos:preflabel qb:observation qb:dataset qb:dataset qb:structure qb:datastructuredefinition qb:component dimenze / atribut skos:concept skos:inscheme skos:conceptscheme další vlastnost popisující hodnotu dimenze / atributu qb:componentspecification qb:codelist qb:componentproperty qb:codedproperty

Kontrolní seznam pro DSD, komponenty a dataset (1) Není možné přepoužít existující komponenty (obvykle SDMX nebo OBEU) spíš než navrhovat nové? Případně, není možné nové komponenty podřadit existujícím jako speciální případy? Jsou nové komponenty navrženy ve vhodném jmenném prostoru? Nejde o namespace hijacking?

Kontrolní seznam pro DSD, komponenty a dataset (2) Nepředstavují některé navrhované dimenze jen různé charakteristiky stejného objektu (např. organizace, tematické oblasti apod.), o kterém vypovídá pozorování? Pokud ano, spíše připojit další vlastnosti objektům hodnotám dimenzí mimo dimenzionální schéma (tj. vytvořit model sněhové vločky spíše než hvězdy ) Jsou dimenze navrženy jako objektové vlastnosti, z hlediska range? Jaký má každá vlastnost kódovník? A jsou odpovídajícím způsobem zapsána i data v datasetu? Pozor na nutnost transformace řetězců na IRI v rámci ETL

Kontrolní seznam pro DSD, komponenty a dataset (3) Nabývají míry kvantitativních hodnot? Kvalitativní hodnoty jsou spíš kandidáty na modelování pomocí dimenze (i když existují výjimky) Jsou všechny části DSD a dat korektně propojeny? Pozorování s datasetem Dataset s DSD DSD s komponentami Komponenty s kódovníky Jsou všechny dimenze a míry přítomny u všech pozorování? Má každé pozorování unikátní IRI, a jen jednu hodnotu pro každou komponentní vlastnost?