Linked Data a jazyk RDF

Podobné dokumenty
Linked Data a jazyk RDF

RDF serializace Turtle

Jak číst a psát RDF. Reprezentace a zpracování znalostí na WWW, Jindřich Mynarz

RDF a RDF Query. Jakub Nerad 1. prosince Nerad () RDF a RDF Query 1. prosince / 16

bibliografických dat - Má MARC

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Automatizovatelná aktualizace Wikidata z veřejných databází. Jakub Klímek

Sémantický web 10 let poté

4IZ440 Propojená data na webu Organizační úvod

4IZ440 Propojená data na webu Organizační a kontextový úvod

RDF API a SPARQL syntaxe, API, příklady. 4IZ440 Reprezentace a zpracování znalostí na WWW Josef Petrák me@jspetrak.name

Propojená data na webu (motivační úvod)

SPARQL.

Výměnný formát XML DTM DMVS PK

SPARQL teorie, endpointy, pojmenované grafy, web API. 4IZ440 Reprezentace a zpracování znalostí na WWW Josef Petrák

Ontologie. Otakar Trunda

Principy a praktické využití otevřených dat

MBI - technologická realizace modelu

Aplikace s odvozováním nad ontologiemi

Sémantický web principy, prostředky, aplikace. Ondřej Černoš UISK

Linked Data v oblasti geoinformačních technologií

Otevřená data veřejné správy

Otevřená data. Shrnutí. Když stavím nový IS nebo upravuji existující, co musím udělat, abych byl Open Data Ready? Prosinec 2018

4IZ440 Reprezentace a zpracování znalostí na WWW

InternetovéTechnologie

Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu

Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu Doplněná verze vyznačeno červeně

Metodika publikace otevřených a propojitelných dat

Scraping script version 2 (CS)

4IZ440 Propojená data na webu Organizační a kontextový úvod

4IZ440 Propojená data na webu Organizační a kontextový úvod

Logika pro sémantický web

NÁSTROJE SÉMANTICKÉHO WEBU A VĚCNÉ AUTORITY APLIKACE V PROJEKTU INTERPI

1. Úvod Vztah k OAI-PMH Terminologie

dbpedia Václav Zeman December 2015 KIZI - VŠE

Modelování a odvozování v RDFS

Syntaxe XML XML teorie a praxe značkovacích jazyků (4IZ238)

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Sémantika ve webových stránkách

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Analýza podkladů pro návrh datového VF XML DTM DMVS

Úvod do aplikací internetu a přehled možností při tvorbě webu

LINKED DATA, OPEN DATA a BIG DATA

PRODUKTY. Tovek Tools

24. XML. Aby se dokument XML vůbec zobrazil musí být well-formed (správně strukturovaný). To znamená, že splňuje formální požadavky specifikace XML.

Otevřená data veřejné správy

Co jsou otevřená propojená data?

Seminář ČSSI: Otevřená a propojitelná data

Úvod do tvorby internetových aplikací

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Standardy publikace a katalogizace otevřených dat. Dušan Chlapek David Hemala

Metodika publikace otevřených dat veřejné správy ČR. verze 1.0

Maturitní témata Školní rok: 2015/2016

Publikování map na webu - WMS

Ukládání a vyhledávání XML dat

Použití databází na Webu

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

PRG036 Technologie XML

Počítačová Podpora Studia. Přednáška 5 Úvod do html a některých souvisejících IT. Web jako platforma pro vývoj aplikací.

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320 M A T U R I T N Í T É M A T A P Ř E D M Ě T U

Správa VF XML DTM DMVS Datový model a ontologický popis

Značkovací jazyky a spol. HTML/XHTML XML JSON YAML Markdown, Texy!

Vývoj Internetových Aplikací

Jazyk XSL XPath XPath XML. Jazyk XSL - rychlá transformace dokumentů. PhDr. Milan Novák, Ph.D. KIN PF JU České Budějovice. 9.

Logický datový model VF XML DTM DMVS

Národní technické specifikace. služeb nad prostorovými daty a metadaty

Architektury Informačních systémů. Jaroslav Žáček

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Od relačních databází k technologiím sémantickému webu

Jaká data veřejné správy ČR jsou otevřená?

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Úvod do informatiky 5)

XML terminologie a charakteristiky. Roman Malo

POSTUP PRO VYTVOŘENÍ STRUKTUR PRO UKLÁDÁNÍ RDF DAT V ORACLE

RESTful API TAMZ 1. Cvičení 11

Architektury Informačních systémů. Jaroslav Žáček

Standardy publikace a katalogizace otevřených dat

Jak budeme řešit otevřená data ve veřejné správě? Michal Rada Ministerstvo vnitra ČR

Co jsou otevřená data?

API AIS ČR Technická specifikace

Profilová část maturitní zkoušky 2013/2014

Kartografická webová aplikace. Přednáška z předmětu Počítačová kartografie (KMA/POK) Otakar Čerba Západočeská univerzita

================================================================================ =====

Výměnný formát XML DTM DMVS PK

Profilová část maturitní zkoušky 2017/2018

Testová ní ná stroje Top Bráid Composer. Seminární práce do předmětu 4IZ440 Reprezentace a zpracování znalostí na WWW

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Oracle XML DB. Tomáš Nykodým

XML A XWEB JAKO NÁSTROJE PRO TVORBU WEBOVÉHO SÍDLA S VELKÝM MNOŽSTVÍM KŘÍŽOVÝCH ODKAZŮ

POLOPROVOZ ZNALOSTNÍ DATABÁZE INTERPI DOKUMENTACE

NÁVOD NA PRÁCI S KATALOGEM CKAN. Vzniklo v rámci výzkumného grantu Sémantické propojování dat ve veřejné správě IG407011

Znalostní báze pro obor organizace informací a znalostí

ČESKÁ TECHNICKÁ NORMA

2. přednáška z předmětu GIS1 Data a datové modely

Analýza a návrh webových aplikací I N G. M A R T I N M O L H A N E C, C S C. Y 1 3 A N W

PRODUKTY. Tovek Tools

Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení

Referenční rozhraní. Jiří Kosek. Ministerstvo informatiky ČR. ISSS 25. března 2003

Transkript:

Linked Data a jazyk RDF prof. Ing. Vojtěch Svátek, Dr. Zimní semestr 2018 http://nb.vse.cz/~svatek/rzzw.html

Osnova přednášky Strukturovaná data na webu - přehled Principy Linked Data Jazyk RDF Hlavní syntaxe Slovníkový jazyk RDFS, nejpoužívanější slovníky Dotazovací jazyk SPARQL Podrobněji http://linkeddatabook.com kap. 1 a 2

Jak využít potenciál webu? Vystavit otevřená, strukturovaná, propojená data! Současnost: Běžné dokumenty (zvl. psané volným textem) jsou otevřené a propojené, ale nestrukturované HTML sice může dodat určitou strukturu, ale prezentační aspekt se v ní mísí se sémantickým (trochu se to zlepší využitím mikroformátů a zejména mikrodat ) Některá data (zvl. veřejné správy) mohou být na webu otevřená, ale jsou nepropojená, a jejich struktura dokonce často není rozumně strojově zpracovatelná (např. v PDF) Webová API poskytují data strukturovaná, ale nepropojená, a otevřená jen v míře, jakou dovoluje omezené rozhraní nově jsou populární i grafové jazyky

Jak strukturovaně reprezentovat data? Tabulková reprezentace RDB, XLS, tabulky v HTML apod. Stromová reprezentace Hierarchické DB (historicky), XML, OODB? Síťová reprezentace Síťové DB (historicky), cizí klíče v RDB, konceptuální grafy (aj. umělá inteligence), RDF Jsou na sebe (částečně) převoditelné Nelze paušálně preferovat jednu z nich!

Tabulky + Efektivně indexovatelné + Přehledné - Rigidní - Neúsporné Objekty popsané pevnou, vnitřně nečleněnou množinou vlastností

Stromy Stále ještě přehledné + Flexibilnější - Hůře indexovatelné Objekty popsané vnitřně členěnou množinou vlastností, některé mohou být nepovinné Objekty složené z jiných objektů

Sítě (orientované grafy) + Nejflexibilnější, nejbližší reálnému světu + Lze snadno slučovat - Nepřehledné (obtížná vizualizace) - Nejednoznačně zapisovatelné (odkud začít?) - Špatně indexovatelné horší škálovatelnost Vztahy mezi reálnými objekty a vlastnosti těchto objektů (pokud možno vnitřně nečleněné )

Které požadavky jsou na webu nejdůležitější? Flexibilita a možnost data slučovat web se dynamicky mění! Odrážet realitu různé subjekty a skupiny mohou mít různé konvence, jak zapisovat data, ale realita za tím je (často) stejná Škálovatelnost web je obrovský Ale lze ho rozložit na menší subdomény Srozumitelnost, přehlednost web určen pro lidi (?) Ale k datovému webu budou primárně přistupovat především aplikace, které uživatele od reprezentace odstíní

RDF jako datový model Nastudovat z knihy, Kap. 2.4 Vhodné projít i http://www.w3.org/tr/rdf-primer/ V předmětu se soustředíme na zápis ve formátu (serializaci) Turtle, ev. grafický zápis Česká terminologie: Trojice (triplet): subjekt, predikát, objekt Zdroje s identifikátorem vs. literály; anonymní zdroje (s lokálním identifikátorem, prázdné uzly blank nodes)

Grafická notace RDF Existují variace, v rámci předmětu budeme používat tuto: zdroj s identifikátorem IRI literál predikát zdroj s lokálním identifikátorem (blank node) IRI zdroje hodnota literálu IRI predikátu

Původ blank nodes (informativně) Objekt, který nemá ustálený identifikátor Existenčně kvantifikovaná proměnná, např. něco, co má hodnotu vlastnosti foaf:name rovnu literálu Ora Lassila Z hlediska publikování dat (ať už veřejně, nebo dlouhodobě v rámci interního repozitáře) je takový pohled překonaný: je lepší zavést nový globální identifikátor než nemít žádný (resp. jen lokální v dokumentu) Smysl mají interní, dočasné anonymní zdroje v rámci dotazu SPARQL, nebo v průběhu procesu přípravy dat (ETL) před publikováním Shluk hodnot určité vlastnosti objektu Např. cena výrobku (zahrnující hodnotu, měnu, časovou platnost) nebo adresa (zahrnující město, ulici, ) Anonymní zdroj zde zastupuje vnitřní uzel stromu hodnot V tomto případě lze použití anonymního zdroje akceptovat indikuje, že shluk je určen na jedno použití a vydavatel dat nepředpokládá jeho odkazování zvenku (otázka ovšem je, nakolik toto lze předjímat)

Principy Linked Data Používat IRI jako globální identifikátory objektů Používat IRI dohledatelná (dereferencovatelná) pomocí HTTP Na dané adrese poskytnout užitečné informace o objektu ( resource descriptions ) Zejména okolí objektu z hlediska grafu RDF hodnoty datových vlastností a (typované) vztahy k jiným objektům Informace o objektu budou zahrnovat i jeho vztahy k jiným objektům Tj. i možnost navigace dál, včetně jiných datasetů

Další technologické postupy Negociace obsahu HTML vs. RDF Pro lidi vs. aplikace, pomocí hlavičky v HTTP Odlišení neinformačních zdrojů (reálných, nebo i abstraktních objektů nevisících na webu) a (webových) informačních zdrojů při dohledávání Návratový kód 303 See Other, nutnost druhého požadavku Identifikátor fragmentu v rámci dokumentu (tzv. # IRI ) Pro kompaktní zdroje, např. slovníky RDFS/OWL Cool IRIs vše je poznat na první pohled Osoba: http://www.example.com/id/alice Homepage: http://www.example.com/people/alice Data v RDF: http://www.example.com/data/alice

Serializace RDF Turtle RDF/XML RDFa N-Triples JSON-LD Notation3 (N3) velká vyjadřovací síla, spíš znalostní než datový jazyk

Serializace RDF Turtle lidsky čitelné, SPARQL ruční tvorba dat (zvl. slovníků) RDF/XML RDFa první standardizovaná serializace, vhodná jen pro strojové zpracování (zvl. pokud se používají XML nástroje) možnost zanořování RDF do atributů HTML/XML populární popis (vč. základů RDF, FOAF, atd., s drobnými neaktuálnostmi) viz https://www.youtube.com/watch?v=ldl0m-5zlz4 N-Triples nejjednodušší syntaxe ( parsing), neúsporné, ale pro přenos lze zkomprimovat JSON-LD na vzestupu, oblíbený u programátorů, populární úvod viz https://www.youtube.com/watch?v=viocbto3c-4

Příklad v Turtle (veřejná zakázka) @prefix dc: <http://purl.org/dc/terms/>. @prefix pc: <http://purl.org/procurement/public-contracts#>. <http://www.city.com/pc/12345678> a pc:contract; dc:title "Whips for police"@en; deklarace použitých slovníků dc:description "Detailed description of a public contract for police supplies."@en; pc:proceduretype pc:open; pc:kind pc:supplies; pc:referencenumber "1234567890"; pccz:limit pccz:underlimit; pc:lot <http://www.city.com/pc/12345678-1>; pc:attachment <http://www.city.com/pc/12345678.pdf>; pc:publicationdate "2012-01-01"^^xsd:date; pc:tenderdeadline "2012-01-10"^^xsd:date; pc:startdate "2012-03-01"^^xsd:date; pc:durationdays "31"^^xsd:positiveInteger; pc:estimatedenddate "2010-03-31"^^xsd:date; pc:numberoftenders "2"^^xsd:nonNegativeInteger; pc:awarddate "2012-02-01"^^xsd:date; pc:actualenddate "2012-05-31"^^xsd:date; pc:cancellationdate "2012-04-30"^^xsd:date.

Příklad v Turtle (veřejná zakázka) Slovníková @prefix dc: <http://purl.org/dc/terms/>. třída @prefix pc: <http://purl.org/procurement/public-contracts#>. Literály s jazykovým <http://www.city.com/pc/12345678> a pc:contract; tagem dc:title "Whips for police"@en; dc:description "Detailed description of a public contract for police supplies."@en; pc:proceduretype pc:open; pc:kind pc:supplies; pc:referencenumber "1234567890"; pccz:limit pccz:underlimit; Literál interpretovaný defaultně jako xsd:string pc:lot <http://www.city.com/pc/12345678-1>; pc:attachment <http://www.city.com/pc/12345678.pdf>; pc:publicationdate "2012-01-01"^^xsd:date; pc:tenderdeadline "2012-01-10"^^xsd:date; Vztah pc:startdate mezi objekty "2012-03-01"^^xsd:date; (zakázka pc:durationdays k podzakázce) "31"^^xsd:positiveInteger; pc:estimatedenddate "2010-03-31"^^xsd:date; pc:numberoftenders "2"^^xsd:nonNegativeInteger; pc:awarddate "2012-02-01"^^xsd:date; pc:actualenddate "2012-05-31"^^xsd:date; pc:cancellationdate "2012-04-30"^^xsd:date. Slovníkové instance nepřímo vyjadřující typ Slovníková vlastnost + instance z jiného jmenného prostoru (deklarace prefixu zde vynechána) přídatný modul slovníku pro české prostředí IRI (tj. URL) informačního zdroje vystaveného na webu, dereferencuje se přímo

Slovníky (schémata, ontologie) RDF Definují vlastnosti (predikáty), třídy zdrojů a vyčleněná individua pro určitou tématickou oblast Příklady populárních slovníků používaných napříč datasety Dublin Core vlastnosti dokumentů FOAF vlastnosti osob a jejich vzájemné vztahy SIOC zapojení lidí do online komunit DOAP softwarové projekty GoodRelations e-commerce SKOS terminologické stromy schema.org všezahrnující slovník původně vyvinutý pro značkování webových stránek s ohledem na vyhledávače Zdroj se přiřadí ke třídě pomocí predikátu rdf:type (v Turtle a )

Dotazování do RDF Jazyk SPARQL Sada standardů W3C přístupných z https://www.w3.org/tr/sparql11-overview/ Dotazovací jazyk Manipulační jazyk (SPARQL UPDATE) Sada výstupních formátů (XML, JSON, CSV, TSV) a další zdroje Ve své grafové části využívá Turtle

Různé služby Validace Turtle (a SPARQL): http://sparql.org/ Dohledání URL pro obvyklé prefixy: http://prefix.cc

JSON-LD Lze vytvářet mj. pomocí editoru https://editorsnotes.github.io/edit-with-lov/