Linked Data a jazyk RDF

Podobné dokumenty
Linked Data a jazyk RDF

RDF serializace Turtle

Jak číst a psát RDF. Reprezentace a zpracování znalostí na WWW, Jindřich Mynarz

RDF a RDF Query. Jakub Nerad 1. prosince Nerad () RDF a RDF Query 1. prosince / 16

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

bibliografických dat - Má MARC

RDF API a SPARQL syntaxe, API, příklady. 4IZ440 Reprezentace a zpracování znalostí na WWW Josef Petrák me@jspetrak.name

SPARQL.

Sémantický web 10 let poté

4IZ440 Propojená data na webu Organizační úvod

SPARQL teorie, endpointy, pojmenované grafy, web API. 4IZ440 Reprezentace a zpracování znalostí na WWW Josef Petrák

4IZ440 Propojená data na webu Organizační a kontextový úvod

Automatizovatelná aktualizace Wikidata z veřejných databází. Jakub Klímek

Výměnný formát XML DTM DMVS PK

Propojená data na webu (motivační úvod)

Principy a praktické využití otevřených dat

Linked Data v oblasti geoinformačních technologií

Sémantický web principy, prostředky, aplikace. Ondřej Černoš UISK

InternetovéTechnologie

4IZ440 Reprezentace a zpracování znalostí na WWW

Aplikace s odvozováním nad ontologiemi

Logika pro sémantický web

Metodika publikace otevřených a propojitelných dat

MBI - technologická realizace modelu

Scraping script version 2 (CS)

Otevřená data veřejné správy

4IZ440 Propojená data na webu Organizační a kontextový úvod

Ontologie. Otakar Trunda

4IZ440 Propojená data na webu Organizační a kontextový úvod

Co jsou otevřená propojená data?

Sémantika ve webových stránkách

LINKED DATA, OPEN DATA a BIG DATA

NÁSTROJE SÉMANTICKÉHO WEBU A VĚCNÉ AUTORITY APLIKACE V PROJEKTU INTERPI

Otevřená data. Shrnutí. Když stavím nový IS nebo upravuji existující, co musím udělat, abych byl Open Data Ready? Prosinec 2018

Modelování a odvozování v RDFS

1. Úvod Vztah k OAI-PMH Terminologie

dbpedia Václav Zeman December 2015 KIZI - VŠE

Ukládání a vyhledávání XML dat

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

RESTful API TAMZ 1. Cvičení 11

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Seminář ČSSI: Otevřená a propojitelná data

Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu

Národní technické specifikace. služeb nad prostorovými daty a metadaty

Logický datový model VF XML DTM DMVS

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Metodika publikace otevřených dat veřejné správy ČR. verze 1.0

Webová prezentační aplikace

Analýza podkladů pro návrh datového VF XML DTM DMVS

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320 M A T U R I T N Í T É M A T A P Ř E D M Ě T U

Tvorba DSD a kódovníků pro fiskální data z projektu OpenBudgets.eu Doplněná verze vyznačeno červeně

Projekt JetConf REST API pro vzdálenou správu

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320

Maturitní témata Školní rok: 2015/2016

PRODUKTY. Tovek Tools

================================================================================ =====

Od relačních databází k technologiím sémantickému webu

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

ROZDÍLY MEZI RDF MODELEM A TOPIC MAPS DIFFERENCES BETWEEN RDF MODEL AND TOPIC MAPS. Martin Žáček

PRG036 Technologie XML

POSTUP PRO VYTVOŘENÍ STRUKTUR PRO UKLÁDÁNÍ RDF DAT V ORACLE

Oracle XML DB. Tomáš Nykodým

Architektury Informačních systémů. Jaroslav Žáček

Analýza a návrh webových aplikací I N G. M A R T I N M O L H A N E C, C S C. Y 1 3 A N W

ZADÁNÍ DIPLOMOVÉ PRÁCE

Jaká data veřejné správy ČR jsou otevřená?

Úvod do tvorby internetových aplikací

API AIS ČR Technická specifikace

Syntaxe XML XML teorie a praxe značkovacích jazyků (4IZ238)

Správa VF XML DTM DMVS Datový model a ontologický popis

POLOPROVOZ ZNALOSTNÍ DATABÁZE INTERPI DOKUMENTACE

Reaktivní ontologické inženýrství (na sémantickém webu)

Přehled znalostních systémů

Otevřená data veřejné správy

Testová ní ná stroje Top Bráid Composer. Seminární práce do předmětu 4IZ440 Reprezentace a zpracování znalostí na WWW

Úvod do aplikací internetu a přehled možností při tvorbě webu

Architektury Informačních systémů. Jaroslav Žáček

NSWI108 Sémantizace Webu

Značkovací jazyky a spol. HTML/XHTML XML JSON YAML Markdown, Texy!

Projekt do předmětu VPD

XML terminologie a charakteristiky. Roman Malo

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

VÝVOJ INTERNETOVÝCH APLIKACÍ - VIA

Bakalářská práce Převodník Excel - OWL

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Výměnný formát XML DTM DMVS PK

Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Podpora XML v.net. Podpora XML v.net. nezávislý publicista. Jirka Kosek.

Dotazování nad stromem abstraktní syntaxe

Otevřená a propojitelná data

Ekonomické aspekty propojitelných dat. Jan Kučera Katedra informačních technologií

PUBLIC CENSUS (SLDB) 2012 PREZENTACE VÝSLEDKŮ

Profilová část maturitní zkoušky 2017/2018

Integrace dat a sémantický web

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Linked data (nejen) v knihovnách

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

Znalostní báze pro obor organizace informací a znalostí

Transkript:

Linked Data a jazyk RDF Doc. Ing. Vojtěch Svátek, Dr. Zimní semestr 2016 http://nb.vse.cz/~svatek/rzzw.html

Osnova přednášky Strukturovaná data na webu - přehled Principy Linked Data Jazyk RDF Hlavní syntaxe Slovníkový jazyk RDFS, nejpoužívanější slovníky Dotazovací jazyk SPARQL Podrobněji http://linkeddatabook.com kap. 1 a 2

Jak využít potenciál webu? Vystavit otevřená, strukturovaná, propojená data! Současnost: Běžné dokumenty (zvl. psané volným textem) jsou otevřené a propojené, ale nestrukturované HTML sice může dodat určitou strukturu, ale prezentační aspekt se v ní mísí se sémantickým (trochu se to zlepší využitím mikroformátů a zejména mikrodat ) Některá data (zvl. veřejné správy) mohou být na webu otevřená, ale jsou nepropojená, a jejich struktura často není strojově zpracovatelná (např. v PDF) Webová API poskytují data strukturovaná, ale nepropojená, a otevřená jen v míře, jakou dovoluje omezené rozhraní

Jak strukturovaně reprezentovat data? Tabulková reprezentace RDB, XLS, tabulky v HTML apod. Stromová reprezentace Hierarchické DB (historicky), XML, OODB? Síťová reprezentace Síťové DB (historicky), cizí klíče v RDB, konceptuální grafy (aj. umělá inteligence), RDF Jsou na sebe (částečně) převoditelné Nelze paušálně preferovat jednu z nich!

Tabulky + Efektivně indexovatelné + Přehledné - Rigidní - Neúsporné Objekty popsané pevnou, vnitřně nečleněnou množinou vlastností

Stromy Stále ještě přehledné + Flexibilnější - Hůře indexovatelné Objekty popsané vnitřně členěnou množinou vlastností, některé mohou být nepovinné Objekty složené z jiných objektů

Sítě (orientované grafy) + Nejflexibilnější, nejbližší reálnému světu + Lze snadno slučovat - Nepřehledné (obtížná vizualizace) - Nejednoznačně zapisovatelné (odkud začít?) - Špatně indexovatelné horší škálovatelnost Vztahy mezi reálnými objekty a vlastnosti těchto objektů (pokud možno vnitřně nečleněné )

Které požadavky jsou na webu nejdůležitější? Flexibilita a možnost data slučovat web se dynamicky mění! Odrážet realitu různé subjekty a skupiny mohou mít různé konvence, jak zapisovat data, ale realita za tím je (často) stejná Škálovatelnost web je obrovský Ale lze ho rozložit na menší subdomény Srozumitelnost web je určen pro lidi (?) Ale k datovém webu budou primárně přistupovat především aplikace, které uživatele od reprezentace odstíní

RDF jako datový model Nastudovat z knihy, Kap. 2.4 Vhodné projít i http://www.w3.org/tr/rdf-primer/ Česká terminologie: Trojice: subjekt, predikát, objekt Zdroje s identifikátorem vs. literály; anonymní zdroje (s lokálním identifikátorem, prázdné uzly blank nodes)

Grafická notace RDF Existují variace, v rámci předmětu budeme používat tuto: zdroj s identifikátorem IRI literál predikát zdroj s lokálním identifikátorem (blank node) IRI zdroje hodnota literálu IRI predikátu

Původ anonymních zdrojů Objekt, který nemá ustálený identifikátor Existenčně kvantifikovaná proměnná, např. něco, co má hodnotu vlastnosti foaf:name rovnu literálu Ora Lassila překonané pojetí lepší zavést nový globální identifikátor než nemít žádný (resp. jen lokální v dokumentu) Shluk hodnot určité vlastnosti objektu Např. cena výrobku (zahrnující hodnotu, měnu, časovou platnost) nebo adresa (zahrnující město, ulici, ) Anonymní zdroj zde zastupuje vnitřní uzel stromu hodnot V tomto případě použití anonymního zdroje nemá zásadní nevýhody (indikuje, že shluk je určen na jedno použití )

Principy Linked Data Používat URI jako globální identifikátory objektů Používat URI dohledatelná (dereferencovatelná) pomocí HTTP Na dané adrese poskytnout užitečné informace o objektu ( resource descriptions ) Zejména okolí objektu z hlediska grafu RDF hodnoty datových vlastností a (typované) vztahy k jiným objektům Informace o objektu budou zahrnovat i jeho vztahy k jiným objektům Tj. i možnost navigace dál, včetně jiných datasetů

Další technologické postupy Negociace obsahu HTML vs. RDF Pro lidi vs. aplikace, pomocí hlavičky v HTTP Odlišení neinformačních zdrojů (reálných, nebo i abstraktních objektů nevisících na webu) a (webových) informačních zdrojů při dohledávání Návratový kód 303 See Other, nutnost druhého požadavku Identifikátor fragmentu v rámci souhrnného dokumentu Pro kompaktní zdroje, např. slovníky RDFS/OWL Cool URIs vše je poznat na první pohled Osoba: http://www.example.com/id/alice Homepage: http://www.example.com/people/alice Data v RDF: http://www.example.com/data/alice

Serializace Turtle RDF/XML RDFa N-Triples JSON-LD Notation3 (N3) velká vyjadřovací síla, spíš znalostní než datový jazyk

Příklad v Turtle (veřejná zakázka) @prefix dc: <http://purl.org/dc/terms/>. @prefix pc: <http://purl.org/procurement/public-contracts#>. <http://www.city.com/pc/12345678> a pc:contract; dc:title "Whips for police"@en; deklarace použitých slovníků dc:description "Detailed description of a public contract for police supplies."@en; pc:proceduretype pc:open; pc:kind pc:supplies; pc:referencenumber "1234567890"; pccz:limit pccz:underlimit; pc:lot <http://www.city.com/pc/12345678-1>; pc:attachment <http://www.city.com/pc/12345678.pdf>; pc:publicationdate "2012-01-01"^^xsd:date; pc:tenderdeadline "2012-01-10"^^xsd:date; pc:startdate "2012-03-01"^^xsd:date; pc:durationdays "31"^^xsd:positiveInteger; pc:estimatedenddate "2010-03-31"^^xsd:date; pc:numberoftenders "2"^^xsd:nonNegativeInteger; pc:awarddate "2012-02-01"^^xsd:date; pc:actualenddate "2012-05-31"^^xsd:date; pc:cancellationdate "2012-04-30"^^xsd:date.

Slovníky (schémata, ontologie) RDF Definují vlastnosti (predikáty), třídy zdrojů a vyčleněná individua pro určitou tématickou oblast Příklady populárních slovníků Dublin Core vlastnosti dokumentů FOAF vlastnosti osob a jejich vzájemné vztahy SIOC zapojení lidí do online komunit DOAP softwarové projekty GoodRelations e-commerce SKOS terminologické stromy schema.org všezahrnující slovník pro značkování webových stránek, s ohledem na vyhledávače Zdroj se přiřadí ke třídě pomocí predikátu rdf:type (v Turtle a )

Dotazování do RDF Jazyk SPARQL Sada standardů W3C přístupných z https://www.w3.org/tr/sparql11-overview/ Dotazovací jazyk Manipulační jazyk (SPARQL UPDATE) Sada výstupních formátů (XML, JSON, CSV, TSV) a další zdroje Ve své grafové části využívá Turtle

Různé služby Validace Turtle (a SPARQL): http://sparql.org/ Dohledání URL pro obvyklé prefixy: http://prefix.cc