Automatizovatelná aktualizace Wikidata z veřejných databází. Jakub Klímek

Podobné dokumenty
dbpedia Václav Zeman December 2015 KIZI - VŠE

Veřejný dálkový přístup (VDP) k datům základního registru RÚIAN/ISÚI

Co jsou otevřená propojená data?

Seminář ČSSI: Otevřená a propojitelná data

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

Linked Data a jazyk RDF

QAD Business Intelligence

Principy a praktické využití otevřených dat

Sémantický web 10 let poté

Otevřená data veřejné správy

NÁVOD NA PRÁCI S KATALOGEM CKAN. Vzniklo v rámci výzkumného grantu Sémantické propojování dat ve veřejné správě IG407011

Přehled poskytovaných dat a služeb ČÚZK. Jiří Poláček Český úřad zeměměřický a katastrální

Registr územní identifikace, adres a nemovitostí RÚIAN. Jiří Formánek. Český úřad zeměměřický a katastrální (ČÚZK)

RDF a RDF Query. Jakub Nerad 1. prosince Nerad () RDF a RDF Query 1. prosince / 16

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

VDP Veřejný dálkový přístup kdatům RÚIAN

PROSTOROVÁ DATA Z GEOPORTÁLU ČÚZK A INSPIRE

WWW jako dynamická knihovna

Ohlédnutí do minulosti Jak to funguje Právní předpisy Výstupy z ISKN Výstupy z RÚIAN. Český úřad zeměměřický a katastrální

Otevřená a propojitelná data

SA Služby IS DMVS LK

Linked Data v oblasti geoinformačních technologií

ISÚI. územní identifikace. Jiří Formánek ISSS 2011,

Otevřená data veřejné správy

RÚIAN a ISÚI. Jiří Formánek

Základní registry celková koncepce

Služby informačního systému katastru nemovitostí ČR. Jiří Poláček

Výměnný formát XML DTM DMVS PK

RDF serializace Turtle

Nové služby nad údaji KN. JiříPoláček

Služby katastru nemovitostí. JiříPoláček

Identifikátor materiálu: ICT-3-10

Specializovaná mapa s interpretací regionálních rozdílů v oblasti sociálního výzkumu

OpenData.cz. Jan Kučera. Otevřená data v České republice. Otevřené repositáře

Poskytování údajů ČÚZK. Jiří Poláček

ISÚI Informační systém územní identifikace

Webová prezentační aplikace

Oracle XML DB. Tomáš Nykodým

CZ.1.07/1.5.00/

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Techniky a nástroje pro optimalizaci webových stránek

Kontrola nenavázaných adresních míst na stavební objekty s vchody

Napojení soustavy statistických registrů na ZR-RÚIAN a první zkušenosti

PHP framework Nette. Kapitola Úvod. 1.2 Architektura Nette

ČÚZK a INSPIRE. Ing. E. Pauknerová, CSc., Ing.I. Svatá a Ing.T. Cajthaml. Konference ISSS 2010, Hradec Králové ISSS 2010 ČÚZK a INSPIRE

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

MBI - technologická realizace modelu

Otevřená data v ČR aktuální stav a výzvy

Po ukončení tohoto kurzu budete schopni:

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Modul Kontakt s klientem SSP. OKcentrum. Uživatelská příručka. Poskytování součinnosti ÚP ČR

Základní registry veřejné správy RÚIAN a ISÚI

Úvod do informatiky 5)

Petr Souček Český úřad zeměměřický a katastrální

Linked Data a jazyk RDF

spolufinancován z prostředků Evropské unie, Evropského fondu pro regionální rozvoj. Registrační číslo projektu: CZ.1.06/1.1.00/03.

INSPIRE a katastr nemovitostí ČR. Jiří Poláček

FOTOARCHIV ČGS. Pavel Bokr Tamara Sidorinová.

Nový databázový modul Evidence škol a školských zařízení

SPARQL.

Registr územní identifikace, adres a nemovitostí

Úvod do informačních služeb Internetu

Celosvětová síť Internet. IKT pro PD1

Stávající a připravované služby ČÚZK veřejnosti. Jiří Poláček Jiří Formánek

SPARQL teorie, endpointy, pojmenované grafy, web API. 4IZ440 Reprezentace a zpracování znalostí na WWW Josef Petrák

DUM 4 téma: Základní registry

Výstupy z ISKN Aplikace Dálkový přístup Nahlížení do KN Webové služby Výstupy dle INSPIRE Výměnný formát. Petr Souček, Martin Šmejkal

Principy fungování WWW serverů a browserů. Internetové publikování

Otevřená data. Shrnutí. Když stavím nový IS nebo upravuji existující, co musím udělat, abych byl Open Data Ready? Prosinec 2018

3.4 Základní služby Internetu

VDP Veřejný dálkový přístup k datům RÚIAN

RÚIAN základní registr veřejné správy ČR

Výzvy využívání otevřených dat v ČR

Služby ČÚZK určené (nejen) pro správce inženýrských sítí. Jiří Poláček Český úřad zeměměřický a katastrální

OZW772 V3 Odečet údajů o spotřebě energií. Building Technologies

Petr Souček Český úřad zeměměřický a katastrální

Petr Souček Odbor správy dat Český úřad zeměměřický a katastrální

Inovace výuky prostřednictvím šablon pro SŠ

ČÚZK CESTA K OTEVŘENOSTI. Jiří Poláček

1 Webový server, instalace PHP a MySQL 13

KAPITOLA 2 - ZÁKLADNÍ POJMY INFORMAČNÍCH A KOMUNIKAČNÍCH TECHNOLOGIÍ

Uživatelská příručka

OKadresy (nejen) od UIR-ADR k RUIAN

Formy komunikace s knihovnami

Novinky v grafickém prostředí Marushka v ISÚI (leden 2019)

Rok a půl otevřených dat ČSSZ

Úpravy agendového informačního systému v návaznosti na základní registry

Internet 1. ÚVOD. Příklad stránky WWW v prostředí Internet Exploreru vidíte na obr.:

Registr územní identifikace, adres a nemovitostí (RÚIAN)

Sdílení a poskytování dat KN. Jiří Poláček

Základní změny v architektuře e-governmentu ČR. Ondřej Felix hlavní architekt e-governmentu MV ČR ISSS, duben 2009

Učební osnovy pracovní

Použití databází na Webu

4IZ440 Propojená data na webu Organizační úvod

Celoměstská geografická data a mapové služby

Služby Internetu. Ing. Luděk Richter

Mgr. Jaroslav Šilberský

DATAMINING SEWEBAR CMS

Nové služby geoportálu

STATISTIKY ČSÚ

Transkript:

Automatizovatelná aktualizace Wikidata z veřejných databází Jakub Klímek

Veřejné databáze, Otevřená data https://data.gov.cz 2

Veřejné databáze, Otevřená data - zajímavé zdroje Český úřad zeměměřický a katastrální Český statistický úřad Registr územní identifikace, adres a nemovitostí (RÚIAN) Kraje, obce, okresy, budovy, adresní místa Počty obyvatelstva Výsledky voleb Česká správa sociálního zabezpečení Statistiky o důchodech a důchodcích 3

Veřejné databáze, Otevřená data - různá kvalita https://5stardata.info 4

Odbočka: WWW ~ Web dokumentů - všichni známe Sdílený globální prostor dokumentů Webový prohlížeč Vybudován na pár jednoduchých principech: HTTP 1. 2. 3. HTML HTML 4. HTML jako jazyk pro dokumenty URL jako unikátní globální identifikátory HTTP pro lokalizaci a přístup k dokumentům na základě jejich URL odkazy mezi dokumenty HTML HTML HTTP Vyhledávač Existují dva druhy aplikací pracujících v tomto prostoru dokumentů: webové prohlížeče (lokalizace a prohlížení stránek) vyhledávače (indexace a vyhledávání stránek) 5

Principy propojených dat 1. 2. 3. 4. Pro pojmenování věcí používejte IRI Používejte HTTP IRI, aby se o věcech dala dohledat data. Když někdo vyhledá IRI, poskytněte užitečné informace, a to pomocí standardů (RDF, SPARQL) V datech poskytněte odkazy na jiná IRI, aby uživatelé mohli objevovat další věci. https://5stardata.info/ 6

RDF - Resource Description Framework RDF Jakub Klímek studoval na grafový datový model množina trojic subjekt predikát MFF UK. objekt Trojice popisuje vztahy jako: subjekt predikát objekt 2004 & 2014 W3C Recommendations https://jakub.klímek.com/#me https://schema.org/alumniof https://www.mff.cuni.cz 7

Cloud propojených dat - 2007-12 datových sad 8

Cloud propojených dat - 2008-32 datových sad 9

Cloud propojených dat - 2009-89 datových sad 10

Cloud propojených dat - 2010-203 datových sad 11

Cloud propojených dat - 2011-295 datových sad 12

Cloud propojených dat - 2014-570 datových sad 13

Cloud propojených dat - 2018-1229 datových sad 14

LinkedPipes ETL - Extract Transform Load pro LOD komponenty v pipeline EXTRACT TRANSFORM LOAD 15

LinkedPipes ETL - Extract Transform Load pro LOD komponenty v pipeline 16

17

LP-ETL - přes 60 znovupoužitelných komponent - Extraktory - - Transformery - - HTTP GET, SPARQL endpoint (and variants), Text holder, Extract from FTP, Files from local SPARQL Construct, SPARQL Update Files to RDF, RDF to file XSLT, JSON to JSON-LD, Tabular, Excel to CSV Bing translator, Decode base64, File hasher, Compress, Decompress, Mustache Loadery - Files to SCP SPARQL Update, SPARQL Graph Store Protocol Files to local https://etl.linkedpipes.com/components/ 18

LP-ETL - Pipeliny (někde též datovody ) 19

LP-ETL Tutoriály a návody 20

Wikidata Databáze Volně dostupná Kolaborativní Vícejazyčná Obsahuje Položky Tvrzení Vlastnosti Hodnoty Kvalifikátory 21

RDF vs. (zjednodušený) datový model Wikidata Jakub Klímek studoval na subjekt predikát https://jakub.klímek.com/#me https://schema.org/alumniof https://www.mff.cuni.cz MFF UK. objekt Q57585169 P69 Q31519 22

RDF a (zjednodušený) datový model Wikidata Jakub Klímek studoval na subjekt predikát https://jakub.klímek.com/#me https://schema.org/alumniof https://www.mff.cuni.cz MFF UK. objekt https://www.wikidata.org/wiki/q57585169 https://www.wikidata.org/wiki/property:p69 https://www.wikidata.org/wiki/q12036042 23

Stávající problémy Wikidata s nahráváním dat v dávkách Převážně jednorázové skripty Jen někdy používají již existující knihovny Není počítáno s jejich pravidelným spouštěním Nejednotný přístup napříč autory Autoři si pak těžko mohou navzájem skripty udržovat Skripty se funkčně překrývají 24

Wikidata & ETL Projektový návrh k financování Wikimedia Foundation Úprava a aplikace LinkedPipes ETL pro práci s datovým modelem Wikidata Tvorba tutoriálu, jak na tvorbu pipeline pro Wikidata Úspěch záleží zejména na zájmu komunity Prosíme o podporu formou endorsementu Účet na Wikipedii Jít na https://meta.wikimedia.org/wiki/grants:project/mffuk/wikidata_%26_etl Přidat endorsement uživatelské jméno důvod, proč si myslíte že to má smysl řešit