Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu Doplněná verze vyznačeno červeně

Podobné dokumenty
Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu

Publikace otevřených propojených dat v prostředí ČSSZ

RDF serializace Turtle

Výměnný formát XML DTM DMVS PK

Publikace dat důchodové statistiky v podobě otevřených propojených dat

Metodika publikace otevřených a propojitelných dat

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Přepoužívání ontologických modelů na sémantickém webu

Modelování a odvozování v RDFS

4IZ440 Propojená data na webu Organizační a kontextový úvod

Linked Data a jazyk RDF

4IZ440 Propojená data na webu Organizační úvod

Střední škola pedagogická, hotelnictví a služeb, Litoměříce, příspěvková organizace

QAD Business Intelligence

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení

DUM 07 téma: Proměnné, konstanty a pohyb po buňkách ve VBA

S M Ě R N I C E č. 6/2014 ministra financí

Datové modelování II

Softwarová podpora v procesním řízení

Operační výzkum. Síťová analýza. Metoda CPM.

Rozsáhlé pole s volným, strukturovateln ým textem. Popis Text - možnost formátování Odd. 724 Ručně

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

EXTRAKT z mezinárodní normy

GIS Geografické informační systémy

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Obsah přednášky 7. Základy programování (IZAPR) Přednáška 7. Parametry metod. Parametry, argumenty. Parametry metod.

MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne

Propojená data na webu (motivační úvod)

Linked Data a jazyk RDF

DBS Konceptuální modelování

Mezinárodní kreditová mobilita ERASMUS+

U Úvod do modelování a simulace systémů

l Kontakt s klientem SSP Popis automatizované komunikace s ÚP ČR v součinnosti a exekuci

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Analýza dat na PC I.

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

45 Plánovací kalendář

Rámcový návod pro školitele. doktorských studijních programů

Výměnný formát XML DTM DMVS PK

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

9. Rozšiřující desky Evb_Display a Evb_keyboard

Hotelová škola, Obchodní akademie a Střední průmyslová škola Teplice, Benešovo náměstí 1, p.o. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Databáze. Logický model DB. David Hoksza

Integrovaná střední škola, Sokolnice 496

Tvorba nových dat. Vektor. Geodatabáze. Prezentace prostorových dat. Základní geometrické objekty Bod Linie Polygon. Vektorová

e k o n o m i c k é s y s t é m y p r o ř í z e n í R A C I O N A L I Z O V A N Ý I N F O R M A Č N Í S Y S T É M RIS

Zásoby_Přenesená daňová povinnost Obilniny a technické plodiny (12)

MBI - technologická realizace modelu

SPECIFICKÁ PRAVIDLA PRO ŽADATELE A PŘÍJEMCE

4IZ440 Propojená data na webu Organizační a kontextový úvod

2. přednáška z předmětu GIS1 Data a datové modely

Národní technické specifikace. služeb nad prostorovými daty a metadaty

Praktické aspekty ABC

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Bakalářský studijní obor hospodářská informatika

STUDENTSKÉ HODNOCENÍ VÝUKY ZA LS 2015/2016 NA PEDF UK

Kód VM: 42_ INOVACE_1SMO45 Projekt: Zlepšení výuky na ZŠ Schulzovy sady registrační číslo: CZ.1.07./1.4.00/

Uživatelská příručka SBOX

MODELOVÁNÍ DAT V INFORMAČNÍCH SYSTÉMECH. Jindřich Kaluža Ludmila Kalužová

Aplikace s odvozováním nad ontologiemi

Ontologie. Otakar Trunda

VYHLÁŠKA. ze dne 20. prosince 2013

MO-ME-N-T MOderní MEtody s Novými Technologiemi

Vysoká škola ekonomická

GIS Geografické informační systémy

Význam měřm. Mgr. Anna Borovcová doc. Ing. Alena Buchalcevová, Ph.D. VŠE Praha

IE1 jazyk HTML a kaskádové styly

Dokumentace k nevizuálnímu rozhraní aplikace DopisOnline

Střední průmyslová škola Zlín

CZ.1.07/1.5.00/

Přístupy k efektivnímu využití modelu MBI

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access propojení relací s formuláři a sestavami Ing.

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

kupní cena: ,- Kč Splatnost jednorázově, do 30 dnů ode dne podpisu kupní smlouvy na účet prodávajícího. Návrh č. 2.

TÉMATICKÝ OKRUH Softwarové inženýrství

regalsistem.cz Analýza z hlediska SEO offpage webové prezentace

VÍTKOVA HORA, KARLOVY VARY

Výroková a predikátová logika - II

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.


Střední odborná škola stavební Karlovy Vary Sabinovo náměstí 16, Karlovy Vary Autor: Ing. Hana Šmídová Název materiálu:

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Obsah přednášky. Databázové systémy RDBMS. Fáze návrhu RDBMS. Coddových 12 pravidel. Coddových 12 pravidel

Vývoj informačních systémů. Obecně o IS

Velmi stručný návod jak dostat data z Terminálu Bloomberg do R

Katalog egon služeb verze: 0.01

Tabulkový procesor. Základní rysy

RDF a RDF Query. Jakub Nerad 1. prosince Nerad () RDF a RDF Query 1. prosince / 16

Výroková a predikátová logika - V

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Projekt Využití ICT ve výuce na gymnáziích, registrační číslo projektu CZ.1.07/1.1.07/ MS Excel

Výroková a predikátová logika - II

Přihlášení k maturitním zkouškám

Automatizovatelná aktualizace Wikidata z veřejných databází. Jakub Klímek

Informační systémy 2008/2009. Radim Farana. Obsah. Nástroje business modelování. Business modelling, základní nástroje a metody business modelování.

Obsah přednášky. Databázové systémy. Normalizace relací. Normalizace relací. Normalizace relací. Normalizace relací

Transkript:

Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu Doplněná verze vyznačeno červeně Prof. Ing. Vojtěch Svátek, Dr. Zimní semestr 2018 http://nb.vse.cz/~svatek/rzzw.html

Základní info Předpoklad: vstupní data jsou v CSV npod., a existuje k nim aspoň minimální textová dokumentace Postup je popsán v projektovém dokumentu D1.5 - Final release of data definitions for public finance data Komponenty, kódovníky, příklady použití, včetně návodu a širšího úvodu (i k DCV) http://openbudgets.eu/assets/deliverables/d1.5.pdf Řada doporučení je uvedena v pracovním materiálu MV ČR https://data.gov.cz/otevřené-formální-normy/propojená-data/draft/ Zbývající část prezentace shrnuje ukázkový příklad a možné vzory pro vytváření dat v RDF časté chyby, mj. podle zpětné vazby z výuky 4IZ440 v ZS 2016-17

Ukázkový příklad vstupní CSV ID Název projektu IČO Příjemce Název příjemce 1 Nákup kapesníků 12121212 Obec Rýmařov Tematická oblast Úhrn dotace (tis. Kč) Veřejné zdraví 52 2 Nákup kapesníků 13131313 Obec Kašlany Veřejné zdraví 1021 3 Nákup kapesního robota na skládání kapesníků 4 Solární stanice pro robota 45454545 KapTex, s.r.o. Rozvoj konkurenceschopnosti 45454545 KapTex, s.r.o. Udržitelné zdroje energie 65 120

Ukázkový příklad grafová struktura pozorování "Obec Rýmařov"@cs rdfs:label org:organization qb:structure Přepoužitý kód, viz Var. 2 dále skos:notation a qb:dataset "12121212" obeu-dimension:partner Nově vytvořený kód, viz Var. 1 dále "1" skos:notation my-dimension:theme obeu-attribute:currency obeu-currency:czk obeu-measure:amount 52 skos:preflabel "Veřejné zdraví"@cs

Kuchařka modelování kódovníků Obecné principy (platné pro SKOS) Každý kód dimenze/atributu v datech by měl být explicitně identifikovaný jako instance skos:concept, a měl by mít textovou reprezentaci, nejlépe jako skos:preflabel Vhodné je převzít/zavést explicitní kódovník, ke kterému je kód přiřazen pomocí skos:inscheme, a k IRI kódu doplnit jeho zápis v podobě literálu, jako hodnotu skos:notation Z ne-rdf číselníků přebíráme kódy, z nichž vyrobíme IRI slepením se jmenným prostorem vzniklého RDF kódovníku

Kuchařka modelování kódovníků Varianta 1: kódovník neexistuje v žádné podobě Vyjdeme jen z textové hodnoty, která je ve vstupních datech, a pro každé pozorování přiřadíme hodnotu komponenty (dimenze resp. atributu) jako: <pozorování> <komponenta> [ a skos:concept ; skos:preflabel <textová hodnota> ]. Tj. zapíšeme kód buď jako bnode, nebo např. jako nečitelné IRI vytvořené pomocí SHA1 transformace z hodnoty preflabel

Kuchařka modelování kódovníků Varianta 1 - příklad V datech je sloupec Účel dotace, který je při převodu do RDF interpretován jako obeu-dimension:programmeclassification (existující dimenze z OBEU modelu ještě lepší by bylo vytvořit její podvlastnost s vlastním kódovníkem, tak i dále Hodnota sloupce pro daný řádek je 1 Část popisu pozorování v RDF pak může pro tento řádek vypadat takto: <obs1234> obeu-dimension:programmeclassification [ a skos:concept ; skos:notation "1" ].

Kuchařka modelování kódovníků Varianta 2: kódovník existuje, ale není v RDF Přepoužijeme známý zápis kódu v pozorování, zpravidla ve struktuře: <pozorování> <komponenta> <IRI kódovníku>/<zápis kódu>. IRI kódovníku zpravidla navrhneme podle jeho názvu v původním zdroji Ke každému IRI kódu (složenému z IRI kódovníku a ze zápisu kódu) explicitně přiřadíme jeho zápis

Kuchařka modelování kódovníků Varianta 2 - příklad Sloupec Účel dotace má přiřazený tabulkový kódovník označený Programová priorita, zahrnující i kód 1 s textovým popisem Stavební práce Kódovníku navrhneme IRI z vhodného jmenného prostoru; pro data projektu OBEU (ovšem ne studentskou práci) např. <http://data.openbudgets.eu/resource/codelist/program-priority> Jednotlivý kód bude definován jako <http://data.openbudgets.eu/resource/codelist/program-priority/1> a skos:concept ; skos:preflabel Stavební práce"@cs ; skos:notation "1" ; skos:inscheme <http://data.openbudgets.eu/resource/codelist/program-priority> Část popisu pozorování v RDF pak zapíšeme jako <obs1234> obeu-dimension:programclassification <http://data.openbudgets.eu/resource/codelist/program-priority/1>

Kuchařka modelování kódovníků Varianta 3: kódovník již existuje v RDF IRI kódovníku i zápis kódu (dohromady tvořící IRI kódu) převezmeme z původního zdroje Pokud nemůžeme spoléhat na to, že si aplikace budou (moci) číselník vždy dereferencovat, doplníme do dat vlastnosti kódů jako ve Variantě 2

Schéma DCV (pro osvěžení)

Možné schéma využití DCV+SKOS notace kódu (string) skos:notation popis kódu (string) skos:preflabel qb:observation qb:dataset qb:dataset qb:structure qb:datastructuredefinition qb:component dimenze / atribut skos:concept skos:inscheme skos:conceptscheme další vlastnost popisující hodnotu dimenze / atributu qb:componentspecification qb:codelist qb:componentproperty qb:codedproperty

Kontrolní seznam pro DSD, komponenty a dataset (1) Není možné přepoužít existující komponenty (obvykle SDMX nebo OBEU) spíš než navrhovat nové? Případně, není možné nové komponenty podřadit existujícím jako speciální případy? Jsou nové komponenty navrženy ve vhodném jmenném prostoru? Nejde o namespace hijacking? Nejvhodnější využít pro data i DSD a kódovníky jmenné prostory v rámci domény vyčleněné katedrou http://lod.kizi.vse.cz/4iz440/zs2018/tym<číslo_týmu>/něco

Kontrolní seznam pro DSD, komponenty a dataset (2) Nepředstavují některé navrhované dimenze jen různé charakteristiky stejného objektu (např. organizace, tematické oblasti apod.), o kterém vypovídá pozorování? Pokud ano, spíše připojit další vlastnosti objektům hodnotám dimenzí mimo dimenzionální schéma (tj. vytvořit model sněhové vločky spíše než hvězdy ) Jsou dimenze navrženy jako objektové vlastnosti, z hlediska range? Jaký má každá vlastnost kódovník? A jsou odpovídajícím způsobem zapsána i data v datasetu? Pozor na nutnost transformace řetězců na IRI v rámci ETL

Kontrolní seznam pro DSD, komponenty a dataset (3) Nabývají míry kvantitativních hodnot? Kvalitativní hodnoty jsou spíš kandidáty na modelování pomocí dimenze (i když existují výjimky) Jsou všechny části DSD a dat korektně propojeny? Pozorování s datasetem Dataset s DSD DSD s komponentami Komponenty s kódovníky Jsou všechny dimenze a míry přítomny u všech pozorování? Má každé pozorování unikátní IRI, a jen jednu hodnotu pro každou komponentní vlastnost?