Sémantický web a extrakce

Podobné dokumenty

Sémantický web 10 let poté

Ontologie. Otakar Trunda

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Logika pro sémantický web

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

RDF a RDF Query. Jakub Nerad 1. prosince Nerad () RDF a RDF Query 1. prosince / 16

INTLIB. Osnova. Projekt (TA /Inteligentní knihovna) je řešen s finanční podporou TA ČR. ! Legislativní doména

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

Deskripční logika. Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Deskripční logika 37 / 157

PRODUKTY. Tovek Tools

Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu

DBS Konceptuální modelování

Ontologie jako součást sémantického webu

Extrakce z nestrukturovaných dat

Propojená data na webu (motivační úvod)

Dolování z textu. Martin Vítek

Výroková a predikátová logika - VIII

Dolování asociačních pravidel

Web 2.0 vs. sémantický web

Výroková a predikátová logika - IV

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Výroková a predikátová logika - VIII

Publikování map na webu - WMS

4IZ440 Propojená data na webu Organizační a kontextový úvod

Modelování a odvozování v RDFS

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

KAPITOLA 3. Architektura aplikací na frameworku Rails. V této kapitole: modely, pohledy, řadiče.

PRODUKTY. Tovek Tools

Výroková logika syntaxe a sémantika

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky

Digitální konkordance a Registr digitalizace v Manuscriptoriu,

NSWI108 Sémantizace Webu

Výměnný formát XML DTM DMVS PK

Přehled znalostních systémů

(#%ist #%LargeCorpInternalsMt #%ForAll x (#%HumanResourcesDepartment #%allinstances (#%actsincapacity x #%mediatorinprocesses #%EmployeeHiring

Základy vytěžování dat

Vilém Sklenák Inforum2009,

Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. PORTÁL KUDY KAM. Manuál pro administrátory. Verze 1.

Uživatelská podpora v prostředí WWW

Informace o aktuálním dění v oblasti otevřených dat v České republice

Úvod do predikátové logiky. (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/ / 1

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Národní technické specifikace. služeb nad prostorovými daty a metadaty

Výroková a predikátová logika - III

Systém pro optimalizaci a řízení lidských zdrojů

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Open Bibliography Data. ( Matouš Jobánek

dbpedia Václav Zeman December 2015 KIZI - VŠE

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

4IZ440 Propojená data na webu Organizační úvod

Správa VF XML DTM DMVS Datový model a ontologický popis

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

Programovací jazyk Pascal

Zralostní modely pro nasazení sémantických technologií ve firemním prostředí

Matematická logika. Rostislav Horčík. horcik

Sémantická interpretace

Web a očekávání budoucího

Logický datový model VF XML DTM DMVS

Využití metod strojového učení v bioinformatice David Hoksza

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

10. Techniky formální verifikace a validace

Linked Data v oblasti geoinformačních technologií

Predikátová logika. Teoretická informatika Tomáš Foltýnek

Teorie systémů TES 5. Znalostní systémy KMS

Analytické procedury v systému LISp-Miner

Znalostní modelování

Ekonomické aspekty propojitelných dat. Jan Kučera Katedra informačních technologií

Měření efektivity informačního vzdělávání. Mgr. Gabriela Šimková KISK, Filozofická fakulta MU

Vyhledávání informací na Internetu

Klauzulární logika. Znalostní báze. Šárka Vavrečková

4IZ440 Propojená data na webu Organizační a kontextový úvod

Teoreticko-metodologický seminář. Zdeňka Jastrzembská

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Výroková a predikátová logika - III

A2M31RAT- Řečové aplikace v telekomunikacích

Výroková a predikátová logika - IX

Linked Data a jazyk RDF

Slučování tabulek. Sloučení dvou tabulek

Formalizované klinické doporučené postupy s datovou a procesní složkou

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Analýza podkladů a návrh DM

Doktorandské dny 07. Ústav informatiky. v.v.i. vydavatelství Matematicko-fyzikální fakulty University Karlovy v Praze

Obsah přednášky. Databázové systémy RDBMS. Fáze návrhu RDBMS. Coddových 12 pravidel. Coddových 12 pravidel

Učící se klasifikátory obrazu v průmyslu

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Informační a znalostní systémy jako podpora rozhodování

NOVINKY V ELEKTRONICKÉM NÁSTROJI TENDER ARENA

Národní geoportál INSPIRE

Web Information Extraction - extrakce informací z webu

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

Linked Data a jazyk RDF

ANOTACE K VÝUKOVÉ SADĚ

Sémantická interoperabilita v rámci iniciativ EU

Transkript:

Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1

Přehled témat Vize sémantického webu Extrakce informací pro sémantický web Ontologie jako spojovací článek Seminář KEG, 11. 11. 2004 p.2

Motivace pro sémantický web Stávající web je určen pouze pro vnímání lidmi, strojové zpracování je možné jen ve velmi omezené míře Úkoly, které vyžadují integraci informací z různých zdrojů je nutné provádět ručně: Př.: Které obchody v Praze prodávají kolo Apache Tomahawk, za kolik, jaký je jejich telefon a adresa? Seminář KEG, 11. 11. 2004 p.3

Co je sémantický web Sémantický web je rozšíření stávajícího webu, ve kterém každá informace má dobře definovaný význam a tím umožňuje lepší spolupráci lidí a počítačů při jejich zpracování. Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001 Seminář KEG, 11. 11. 2004 p.4

Vrstvy sémantického webu Seminář KEG, 11. 11. 2004 p.5

RDF: datový model sémantického web Fakta ve tvaru [subjekt predikát objekt] [Rembrandt namaloval Aristoteles-s-bystou- Homérovou] subjekt a predikát jsou URI, objekt může být URI nebo literál URI jako nositel významu díky tomu, že autor programu, uživatel programu i autoři publikovaných tvrzení chápou identifikiátory subjektů, predikátů i objektů stejně, může daný program pro uživatele udělat něco užitečného Seminář KEG, 11. 11. 2004 p.6

Extrakce informací Extrakcí informací se snažíme z volného nebo semi-strukturovaného textu automaticky identifikovat informace s určitým významem Př. v souboru oznámení o pořádaných seminářích chceme identifikovat název vystoupení, jméno přednášejícího, místo, datum a čas konání. 2 podúlohy: Rozpoznání entit, extrakce relací mezi nimi Několik málo tříd entit (okolo 5) Seminář KEG, 11. 11. 2004 p.7

Metody extrakce informací Wrappery Statistické modely (HMM) Extrakce pomocí pravidel Hybridní LP 2 Seminář KEG, 11. 11. 2004 p.8

Extrakce informací z webu Kromě textu jsou k dispozici další informace: struktura stránky a její formátování (vyznačení nadpisů, zvýraznění textu, uspořádání informací v seznamech a tabulkách) topologie webu, tj. která stránka se na kterou odkazuje a jaká slova k tomu používá metadata explicitně uvedená ve www stránce informace z analýzy struktury URL informace o obrázcích, jejich rozměrech a vlastnostech Seminář KEG, 11. 11. 2004 p.9

Extrakce informací pro sémantický we IE pro sémantický web se liší od situací, ve kterých bývá typicky využita: velký počet menších ontologií, které se průběžně vyvíjejí nutnost snadné adaptability metod na aplikační oblasti a na změny v ontologiích potřeba rozpoznávat větší počet tříd (řádově desítky) Seminář KEG, 11. 11. 2004 p.10

Požadavky na metody extrakce možnost adaptace na omezeném vzorku trénovacích dat schopnost identifikace relací bez nutnosti hluboké syntaktické analýzy; systém by měl mít možnost využít lingvistické informace, pokud jsou k dispozici a jsou spolehlivé, v ostatních případech by měl využívat jednodušších metod možnost využít ontologické zdroje, pokud jsou k dispozici Seminář KEG, 11. 11. 2004 p.11

Ontologie: zdroj i cíl extrakce Ontologie: říká, co chceme extrahovat významná součást ontologií: lexikální položky lexikon může posloužit jako zdroj pro automatické značkování trénovacích dat z takto značkovaných dat je možné získat extrakční vzory pro koncepty nebo relace tyto extrakční vzory mohou nacházet nové instance a lexikální položky pro ontologii možnost bootstrappingu snažší adaptace na aplikační oblast Seminář KEG, 11. 11. 2004 p.12

Učení ontologií učení konceptů učení taxonomických relací učení netaxonomických relací Seminář KEG, 11. 11. 2004 p.13

Využití asociačních pravidel Jak nalézt ze sady textů relace mezi koncepty: 1. Vyhledáme výskyty konceptů v textu (lexikální položky konceptů + jejich instancí) 2. Pokud se dva koncepty vyskytují blízko sebe, započteme je jako transakci 3. Na tyto transakce aplikujeme dolování asociačních pravidel 4. Získaná asociační pravidla představují dvojice konceptů, mezi nimiž lze hledat nějakou relaci Implemetováno v modulu Text-To-Onto v KAONu Seminář KEG, 11. 11. 2004 p.14

Jak spolu koncepty souvisí? Problém: nemáme žádné vysvětlení, jak tyto koncepty spolu souvisí Tato informace je v textech obsažena, avšak metoda zpracování ji nevyužívá Cíl: Identifikovat tuto informaci v textu a přiřadit ji k získaným asociačním pravidlům Relace mezi koncepty jsou často vyjádřeny slovesy, navíc tedy ke konceptům vyhledáváme slovesné fráze Seminář KEG, 11. 11. 2004 p.15

Slovesné fráze identifikovány na základě POS-tagů POS-tagging je (ve srovnání s parsingem) relativně rychlý a robustní Vyhledáváme fráze V (C 1, C 2 ): vyskytující se podle vzoru C 1 near verb near C 2 V (C): vyskytující se blízko konceptu C K asociačnímu pravidlu s koncepty (C 1, C 2 ) zobrazíme V (C 1, C 2 ) a V (C 1 ) V (C 2 ) Seminář KEG, 11. 11. 2004 p.16

Zajímavé slovesné fráze Kvantifikátor pro ohodnocení VCC transakcí: AE(c 1 c 2 /v) = P (c 1 c 2 /v) P (c 1 /v).p (c 2 /v) kde pravděpodobnosti jsou spočteny takto: P (c 1 c 2 /v) = {t i v, c 1, c 2 t i } {t i v t i } (ostatní pravděpodobnosti analogicky, t i označuje jednotlivé VCC transakce) Seminář KEG, 11. 11. 2004 p.17

Relation Explorer Seminář KEG, 11. 11. 2004 p.18

Pracovní data texty: popisy zemí z www.lonelyplanet.com ontologie: část TAPu + rozšíření o termíny pro oblast turismu Problémy působí bohatost a obraznost jazyka v použitých textech tatáž informace je vyjádřena co nejvíce různými způsoby Seminář KEG, 11. 11. 2004 p.19

Experiment s korpusem SemCor část korpusu z Brownovy univerzity koncepty i slovesa mapována na jejich synsety ve WordNetu použili jsme jen část SemCoru: novinové a odborné texty zvolili jsme synsety Person, Organization, Location (+jejich synsety, které na ně bylo možné zobecnit) subjektivně čistější výsledky, zjevné rozdíly mezi novinovými a odbornými texty Seminář KEG, 11. 11. 2004 p.20

Experiment s OpenDirectory 1. v sadě stránek odkazovaných z Business sekce Open Directory jsme našli výskyty termínů, pod nimiž byly stránky v katalogu zařazeny 2. nalezli jsme slovesa, která se k těmto termínům syntakticky váží častěji, než k jiným termínům indikátory důležité informace, tj. informací o nabízených produktech Seminář KEG, 11. 11. 2004 p.21

Extrakce informací pomocí indikátorů 3. pomocí několika nejlepších indikátorů jsme pak v testovací sadě stránek vyhledali věty, které by měly obsahovat informaci o produktech 4. v průměru 80 % vět tuto informaci opravdu obsahovalo Podobným způsobem by bylo možné využít pro extrakci informací i lexikální položky relací v ontologii. Seminář KEG, 11. 11. 2004 p.22

THE END Děkuji za pozornost Seminář KEG, 11. 11. 2004 p.23