dbpedia Václav Zeman December 2015 KIZI - VŠE



Podobné dokumenty
Extrakce z nestrukturovaných dat

Automatizovatelná aktualizace Wikidata z veřejných databází. Jakub Klímek

Linked Data v oblasti geoinformačních technologií

Ekonomické aspekty propojitelných dat. Jan Kučera Katedra informačních technologií

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka


4IZ440 Propojená data na webu Organizační úvod

Co jsou otevřená propojená data?

SPARQL.

Linked Data a jazyk RDF

Porovnání projektů Wikidata a DBpedia jako zdrojů prostorových dat

Od relačních databází k technologiím sémantickému webu

Sémantický web 10 let poté

RDF a RDF Query. Jakub Nerad 1. prosince Nerad () RDF a RDF Query 1. prosince / 16

4IZ440 Propojená data na webu Organizační a kontextový úvod

Otevřená data veřejné správy

RDF API a SPARQL syntaxe, API, příklady. 4IZ440 Reprezentace a zpracování znalostí na WWW Josef Petrák me@jspetrak.name

MONDIS představení projektu

Seminář ČSSI: Otevřená a propojitelná data

Otevřená data veřejné správy

Jak číst a psát RDF. Reprezentace a zpracování znalostí na WWW, Jindřich Mynarz

VY_32_INOVACE_11_KŘEMEN_27

Wikipedie jako rozprava

Alkany a cykloalkany

Digitální učební materiály Australská města, pracovní list

Krásy naší země VY_32_INOVACE_OBV_441. Autor: Dana Šrailová. Použití: 7. ročník. Datum vypracování: Datum pilotáže: 9. 1.

LINKED DATA, OPEN DATA a BIG DATA

NÁSTROJE SÉMANTICKÉHO WEBU A VĚCNÉ AUTORITY APLIKACE V PROJEKTU INTERPI

Webová prezentační aplikace

STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

INSPIRE Open Data a Open Services. Ing. Michal Med

Ontologie Příklady. Přednáška z předmětu Socioekonomická geografie pro geomatiku (KMA/SGG) Otakar Čerba Západočeská univerzita

Databázové systémy. Dáta v grafe dáta na webe

Oddělení projektů egovernmentu PMA 3 Reg. č. projektu CZ /0.0/0.0/15_019/ Novinky v RPP. Šimon Trusina

4IZ440 Propojená data na webu Organizační a kontextový úvod

GISON: ontologická integrace urbanistických datových sad IPR

Principy a praktické využití otevřených dat

RDF serializace Turtle

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Vilém Sklenák Inforum2009,

VY_32_INOVACE_16_OLIVÍN_27

Výměnný formát XML DTM DMVS PK

INTLIB. Osnova. Projekt (TA /Inteligentní knihovna) je řešen s finanční podporou TA ČR. ! Legislativní doména

materiál č. šablony/č. sady/č. materiálu: Autor:

VY_32_INOVACE_20_JANTAR_27

Česká a světová komunita Wikipedie Rozdíly a shody ve výsledcích Wikimedia Global User Survey

ResourceSync: synchronizace zdrojů na internetu

4IZ440 Propojená data na webu Organizační a kontextový úvod

IEEE802.3 Ethernet. Ethernet

Rok a půl otevřených dat ČSSZ

V reálném čase. neditsonedaywp.html

Identifikátor materiálu: VY_32_INOVACE_350

Archivace relačních databází

SPARQL teorie, endpointy, pojmenované grafy, web API. 4IZ440 Reprezentace a zpracování znalostí na WWW Josef Petrák

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

VY_32_INOVACE_08_NÁRODNÍ DIVADLO_34 Autor: Mgr. Světlana Dlabajová Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace Název

Linked Data a jazyk RDF

Propojená data na webu (motivační úvod)

Specializovaná mapa s interpretací regionálních rozdílů v oblasti sociálního výzkumu

Sémantický web a extrakce

Atmosféra Země. VY_32_INOVACE_20_Atmosféra_43. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Manažerské shrnutí závěrečné zprávy

Anglický jazyk Ročník: 5. Téma učivo: Countries, flags, languages, nationalities Výukový cíl: Předmět:

VY_32_INOVACE_19_ORTOKLAS_27

Web 2.0, Search 2.0 jak se to rýmuje?

Národní technické specifikace. služeb nad prostorovými daty a metadaty

Otevřená a propojitelná data

VY_32_INOVACE_12_FILMOVÝ FESTIVAL ZLÍN_34

4IZ440 Reprezentace a zpracování znalostí na WWW

Otevřená data. Shrnutí. Když stavím nový IS nebo upravuji existující, co musím udělat, abych byl Open Data Ready? Prosinec 2018

KONTROLA KONZISTENCE INFORMACÍ EXTRAHO- VANÝCH Z TEXTU CONSISTENCY CHECKING OF RELATIONS EXTRACTED FROM TEXT

SMART POINTS OF INTEREST

ZADÁNÍ DIPLOMOVÉ PRÁCE

ARTROSKOPICKÉ KLEŠTĚ AKČNÍ NABÍDKA PLATNOST OMEZENA SKLADOVÝMI ZÁSOBAMI

VY_32_INOVACE_07_KOBYLKA ZELENÁ_25

Komunikace se Základními registry v prostředí MČ Praha 7

Porovnání projektů Wikidata a DBpedia jako zdrojů prostorových dat

VY_32_INOVACE_09_České stavovské povstání_09

Jan Váša TGB Sales Representative, Oracle Czech 10. června 2011 MRI Kladno

STŘEDNÍ ODBORNÁ ŠKOLA A STŘEDNÍ ODBORNÉ UČILIŠTĚ MĚSTEC KRÁLOVÉ

Metodika publikace otevřených a propojitelných dat

TÉMA: VŠI, PLOŠTICE VYTVOŘILA: Mgr. Zdenka Wienerová VYTVOŘILA DNE: VY_32_Inovace/3_150

Webová aplikace s využitím Linked Open Data

Repositář audiovizuálních dokumentů Akademie múzických umění v Praze..

VIRTUALIZACE PODOBNÉ PŘÍSTUPY

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky

local content in a Europeana cloud

Integrace datových služeb vědecko-výukové skupiny

Web 2.0 vs. sémantický web

LINKOVACÍ SYSTÉMY, JEJICH VYUŽITÍ V PRAXI A PROPOJENÍ S GOOGLE SCHOLAR

Identifikátor materiálu: VY_32_INOVACE_347

Otevřená data: zdroj příležitostí, nápadů a inovací pro Českou republiku ve 21. století

Název školy: Základní škola a Mateřská škola Kladno, Norská Autor: Mgr. Hana Kotíková

PSYCHICKÉ VLASTNOSTI OSOBNOSTI

VY_32_INOVACE_14_ČEŠTÍ REŽISÉŘI I._34 Autor: Mgr. Světlana Dlabajová Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace Název

Gymnázium Vincence Makovského se sportovními třídami Nové Město na Moravě

Publikace dat důchodové statistiky v podobě otevřených propojených dat

Výzvy využívání otevřených dat v ČR

ČÚZK CESTA K OTEVŘENOSTI. Jiří Poláček

Transkript:

dbpedia Václav Zeman December 2015 KIZI - VŠE

co je dbpedia? 2

co je dbpedia? DBpedia je komunita lidí zaměřující se na získávání informací a znalostí z Wikipedie. DBpedia je sada nástrojů, které extrahují informace z Wikipedie. DBpedia je báze propojených a strojově čitelných dat získaných z Wikipedie. 3

co je dbpedia? DBpedia je služba, která dovoluje uživateli vyhledávat informace z Wikipedie sofistikovanějším způsobem. DBpedia je Wikipedie přizpůsobena ke strojovému zpracování informací. 4

co je dbpedia? Wikipedia Sdílená tvorba obsahu, Web 2.0 DBpedia Sémantický web, propojená data, Web 3.0 5

k čemu je dbpedia? 6

k čemu je dbpedia? Strojové čtení a zpracování informací obsažených na Wikipedii. Sofistikované vyhledávání informací. Využití pro objevování nových znalostí. Jednoduché a přímé odpovídání na otázky, které uživatele zajímají: Otázka Nejvyšší hora v Česku? Odpověď Sněžka 7

k čemu je dbpedia? Technicky, DBpedia nabízí: Vyextrahované informace z Wikipedie v podobě RDF datasetů. SPARQL endpoint pro sémantické dotazování. Vlastní rozsáhlou ontologii pro zajištění konzistence vyextrahovaných dat. Možnost propojení s jinými informačními bázemi. 8

k čemu je dbpedia? Nejvyšší hora v Česku? Otázka v podobě sémantického dotazu (SPARQL) SELECT?hora { <http://cs.dbpedia.org/resource/česko> <http://dbpedia.org/ontology/highestmountain>?hora } Odpověď http://cs.dbpedia.org/resource/sněžka 9

k čemu je dbpedia? Všechny filmy, které režíroval Jan Svěrák? Otázka v podobě sémantického dotazu (SPARQL) SELECT?film {?film <http://dbpedia.org/ontology/director> <http://cs.dbpedia.org/resource/jan_svěrák> } Odpověď http://cs.dbpedia.org/resource/jízda_(film) http://cs.dbpedia.org/resource/akumulátor_1 http://cs.dbpedia.org/resource/kolja http://cs.dbpedia.org/resource/kuky_se_vrací http://cs.dbpedia.org/resource/obecná_škola_(film) http://cs.dbpedia.org/resource/tmavomodrý_svět_(film) http://cs.dbpedia.org/resource/tři_bratři_(film) http://cs.dbpedia.org/resource/vratné_lahve 10

jak vzniká dbpedia? 11

jak vzniká dbpedia? 12

zdroj dat Pro extrakci informací z Wikipedie je nejprve nutné stáhnout všechny Wikipedia stránky. Jak toho docílit? Wikipedia dump = Jeden soubor obsahující všechny wiki stránky Dump je veřejně dostupný na adrese dumps.wikimedia.org Aktualizace dumpu probíhá jednou za měsíc. Velikost dumpu obsahující všechny stránky české Wikipedie je po rozbalení cca 2.15 GB 13

extrakční framework Jednotlivé informace z Wikipedia stránek jsou získávány pomocí tzv. extraktorů. Primární extrakční framework: je open source, veřejně dostupný na githubu obsahuje sadu extraktorů implementovaných v jazyce Scala/Java Každý extraktor extrahuje právě jeden typ informací z Wikipedie. Informace se extrahují hlavně pomocí regulárních výrazů, ale také s použitím metod strojového učení (pokročilejší extraktory). Možnost zapojení vlastních extraktorů do DBpedie. Linked Hypernym Dataset 1 = extraktor vyvinutý na VŠE, součástí DBpedie od roku 2015. 1 http://ner.vse.cz/datasets/linkedhypernyms/ 14

extrakční workflow Source: Zdrojem je Wikipedia stránka ve wiki formátu. Prague ({{IPAc-en p r a: g}}; {{lang-cs Praha}}, {{IPA-cs praha Cs-Praha.ogg}}) is the capital and [[List of cities in the Czech Republic largest city]] of the [[Czech Republic]] WikiParser: Převádí obsah stránky v podobě prostého textu na vlastní datovou strukturu. Extractor: Z načtené Wikipedia stránky extrahuje informace v podobě trojic. Destination: Finální uložení trojic do RDF datasetů. 15

klíčové dbpedia extraktory LabelExtractor Extrahuje názvy Wikipedia stránek. PageLinksExtractor Extrahuje interní linky mezi Wikipedia stránkami. CategoryLabelExtractor Extrahuje kategorie Wikipedia stránek. DisambiguationExtractor Extrahuje rozcestníky. RedirectExtractor Extrahuje synonyma názvů Wikipedia stránek. 16

klíčové dbpedia extraktory InfoboxExtractor Extrahuje informace z takzvaných infoboxů (tabulky v pravé části článků na Wikipedii). Problém: Názvy jednotlivých vlastností uvnitř infoboxů nejsou konzistentní. Různé názvy pro různé jazykové verze a typy infoboxů. Řešení: Mapování vlastností z infoboxů na DBpedia vlastnosti definované v rámci jedné konzistentní ontologie. <http://cs.dbpedia.org/resource/česko> <http://cs.dbpedia.org/property/nejvyššíhora> <http://cs.dbpedia.org/resource/sněžka>. 17

klíčové dbpedia extraktory MappingExtractor Mapuje vlastnosti z infoboxů na vlastnosti z DBpedia ontologie. Extraktor využívá tzv. mapovací pravidla. Mapovací pravidla se vytvářejí ručně na stránce mappings.dbpedia.org Namapované vlastnosti jsou konzistentní v rámci všech jazykových verzí DBpedie. <http://cs.dbpedia.org/resource/česko> <http://dbpedia.org/ontology/highestmountain> <http://cs.dbpedia.org/resource/sněžka>. 18

kompletní workflow 19

publikování vyextrahovaných informací Jako množina souborů obsahující strojově čitelná a propojená data dle specifikace RDF (N-Triples, RDF/XML, JSON-LD, CSV aj.). Jako služba, ve které je možné vyhledávat informace dle sémantických dotazů (SPARQL endpoint). Jako webové stránky, které vizualizují veškeré vyextrahované informace. 20

dbpedia vs wikidata Akademický decentralizovaný projekt Pouze extrahuje informace z Wikipedia stránek Důraz je kladen na kvantitu informací Aktualizováno 2x za rok Spravuje přímo Wikimedia Foundation Informace jsou ručně vytvářeny komunitou, stejně jako Wikipedia Důraz je kladen na kvalitu informací Aktualizováno v reálném čase 21

česká dbpedia

česká dbpedia Obsahuje více než 29,5 miliónů výroků (trojic). K dispozici je: Kompletní množina vyextrahovaných dat (volně ke stažení 6GB) Služba pro sémantické dotazování (SPARQL endpoint) Náhledy na vyextrahované informace pro jednotlivé Wikipedia stránky http://cs.dbpedia.org 23

využití dbpedie Česká DBpedie je momentálně spravována katedrou informačního a znalostního inženýrství na VŠE. Školní projekty postavené na DBpedii: Targeted Hypernym Discovery: 2 Automatická sémantická anotace textu. Linked Hypernym Dataset: 3 Nástroj využívající metod strojového učení pro odvození typu Wikipedie stránky dle první věty abstraktu. DB-quiz: 4 Vědomostní hra odvozená od populární televizní soutěže AZ-kvíz. Otázky jsou automaticky generovány z české a anglické DBpedie. 2 http://ner.vse.cz/thd/ 3 http://ner.vse.cz/datasets/linkedhypernyms/ 4 http://mynarz.net/db-quiz/ 24

děkuji za pozornost