Předzpracovnání dokumentů a tvorba doménového modelu z nich. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Podobné dokumenty
Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Tvorba informačních systémů

Michal Krátký, Miroslav Beneš

Elektronické publikování. doc. RNDr. Petr Šaloun, Ph.D. katedra informatiky FEI VŠB TU Ostrava

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

Android 100% Java telefon. Petr Musil

NetBeans platforma. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Google Web Toolkit. Martin Šurkovský, SUR března Katedra informatiky

Michal Krátký. Úvod do programovacích jazyků (Java), 2006/2007

Databázové a informační systémy

MBI - technologická realizace modelu

Semestrální úloha 1 z předmětu Programovací jazyk C. Textový merge. Student:

Michal Krátký, Miroslav Beneš

Znalostní systém nad ontologií ve formátu Topic Maps

Vývoj Internetových Aplikací

Michal Krátký. Úvod do programovacích jazyků (Java), 2006/2007

Rozhraní pro práci s XML dokumenty. Roman Malo

Vytváření a použití knihoven tříd

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Tvorba informačních systémů

Espacenet

Přizpůsobení JSTL pro Google App Engine Datastore

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Michal Krátký. Úvod do programovacích jazyků (Java), 2006/2007

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

Tvorba informačních systémů

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky. Dokumentace k programu MMDoc

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Softwarové komponenty a Internet

Komprese a dotazování nad XML dokumenty

Obsah prezentace. Co je to XML? Vlastnosti. Validita

1 Webový server, instalace PHP a MySQL 13

Michal Krátký. Úvod do programování. Cíl kurzu. Podmínky získání zápočtu III/III

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Jak psát bakalářskou práci v DocBooku

Technologie Java. Jaroslav Žáček

Základy objektové orientace I. Únor 2010

Škola: Gymnázium, Brno, Slovanské náměstí 7 III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN

Michal Krátký. Úvod do programovacích jazyků (Java), 2006/2007

Programovací jazyk Haskell

VÝVOJ INTERNETOVÝCH APLIKACÍ - VIA

Oracle XML DB. Tomáš Nykodým

Novinky v projektech Knot DNS a Knot Resolver. Daniel Salzman

PRINCIPY VÁLEÈNÉ CHIRURGIE

PRINCIPY VÁLEÈNÉ CHIRURGIE


Programovací í jazyk Haskell

Získávání dat z bibliografických databází

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Semináˇr Java X J2EE Semináˇr Java X p.1/23

Architektury informačních systémů

Dobývání znalostí z webu web mining

Elektronické publikování. Základní pojmy. B žné systémy. Publika ní nástroje. doc. RNDr. Petr Šaloun, Ph.D. FEI VŠB TU Ostrava

Rozsáhlé programy = projekty

Architektury informačních systémů

Platforma Java. Petr Krajča. Katedra informatiky Univerzita Palackého v Olomouci. Petr Krajča (UP) KMI/PJA: Seminář V. 27. říjen, / 15

PRODUKTY. Tovek Tools

INTLIB. Osnova. Projekt (TA /Inteligentní knihovna) je řešen s finanční podporou TA ČR. ! Legislativní doména

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

Úvod do programovacích jazyků (Java)

24. XML. Aby se dokument XML vůbec zobrazil musí být well-formed (správně strukturovaný). To znamená, že splňuje formální požadavky specifikace XML.

Klinický informační systém Porodní kniha - případová studie -

Bottle -- příklad. Databáze. Testovací data. id Jedinečný identifikátor řádku: Bude typu INT s AUTO_INCREMENT a nastavíme ho jako primární klíč

Reranking založený na metadatech

Program a životní cyklus programu

Instalace a konfigurace web serveru. WA1 Martin Klíma

Ontologie. Otakar Trunda

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Web 2.0 vs. sémantický web

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Projekt. Jan Outrata. listopad Jan Outrata (KI UP) Projekt - analýza a návrh listopad / 13

Aplikace s grafickým uživatelským rozhraním

Městská knihovna v Praze

HTML - Úvod. Zpracoval: Petr Lasák

14,819 (5.84 Stránky/Návštěva) Čvn Kvě Čvc Srp 2014

Předmluva k druhému vydání 13. Úvod 17. ČÁST 2 Vytváření dokumentů XML 65

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

Úvod do programovacích jazyků (Java)

Inovace výuky prostřednictvím šablon pro SŠ

SCHÉMOVÉ JAZYKY. Přednáška z předmětu KMA/POK. Otakar ČERBA Západočeská univerzita v Plzni

DESET LET S THESES.CZ Ing. Jitka Brandejsová

Logický datový model VF XML DTM DMVS

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Procesní dokumentace Process Management. Pavel Čejka

PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ

Uspořádání klient-server. Standardy pro Web

Standard výměnného formátu XML Digitální technické mapy

PŘIJÍMACÍ TEST z informatiky a matematiky pro navazující magisterské studium Fakulta informatiky a managementu Univerzity Hradec Králové

Ontologie Příklady. Přednáška z předmětu Socioekonomická geografie pro geomatiku (KMA/SGG) Otakar Čerba Západočeská univerzita

Systém elektronického rádce v životních situacích portálu

Inthouse Systems s.r.o. Specifikace. Inthouse App a Inthouse Studio pro Siemens Climatix 6XX. Verze software 1.X. Revize dokumentu 6

Domino 10 nové komponenty a související témata (node.js, ES )

Aplikace obrazové fúze pro hledání vad

Otevřená data veřejné správy

Zpráva o zhotoveném plnění

APLIKACE XML PRO INTERNET

Jak lze zefektivnit monitoring médií

Transkript:

Předzpracovnání dokumentů a tvorba doménového modelu z nich Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Textové dokumenty Obsah, struktura, forma Značkovací jazyky XML DOM SAX Ontologie

Nástroje pro analýzu textu SimMetrics Vzdálenost Matching coefficient Podobnost Dice s coefficient

Nástroje pro analýzu textu WordNet Anglický WordNet Volně ke stažení Český WordNet Pouze vzdálený přístup EuroWordNet Placený

Princip ILI

Prostředí - data Zaměření na programovací jazyk C++ Kniha Thinking in C++, Bruce Eckel Ontologie C++, Zdeněk Velart

Prostředí - knihovny Implementační jazyk C++ WordNet API TinyXML Zkompilovány do statických.lib

Předzpracování dokumentů Zjednodušení Převod HTML do XHTML Sjednocení znakových entit Odstranění nadbytečných informací <FONT FACE = "Verdana"><H1 ALIGN="LEFT"> 6: Initialization & Cleanup</H1></FONT> <DIV ALIGN="LEFT"><P><FONT FACE="Verdana" SIZE=4>Chapter 4 made a significant improvement in library </FONT><BR><FONT FACE="Verdana" SIZE=4>use by taking all the scattered components of a typical </FONT><BR><FONT FACE="Verdana" SIZE=4>C library and encapsulating them into a structure (an abstract data type, called a <I>class</I> from now on). </FONT><BR></P></DIV>

Předzpracování dokumentů Zjednodušení Převod HTML do XHTML Sjednocení znakových entit Odstranění nadbytečných informací <FONT FACE = "Verdana"><H1 ALIGN="LEFT"> 6: Initialization & Cleanup</H1></FONT> <DIV ALIGN="LEFT"><P><FONT FACE="Verdana" SIZE=4>Chapter 4 made a significant improvement in library </FONT><BR><FONT FACE="Verdana" SIZE=4>use by taking all the scattered components of a typical </FONT><BR><FONT FACE="Verdana" SIZE=4>C library and encapsulating them into a structure (an abstract data type, called a <I>class</I> from now on). </FONT><BR></P></DIV>

Předzpracování dokumentů Lemmatizace textu Označení pojmů WordNetu Zachování původního obsahu Hledání klíčových slov ontologie

Výsledky Zjednodušené a normalizované dokumenty <?xml version="1.0" encoding="utf-8"?> <root> <head> <title> <content type="original">6: Initialization <content type="wordnet">(6) (initialization) </title> </head> <body> <content type="original">[ Viewing Hints ] <content type="wordnet">(viewing) (hint) (exercise) <h2> <content type="original">thinking in C++, 2nd ed. Volume <content type="wordnet">(thinking) (in) (c) (2nd) (ed) (volume) </h2>

Výsledky Předzpracované vyhledávání klíčových slov <found where="orig" num="607"> <keyword num="3">&</keyword> <keyword num="1">access control</keyword>... <keyword num="3">try</keyword> <keyword num="10">using</keyword> </found> <found where="wn" num="709"> <keyword num="2">access control</keyword> <keyword num="2">addition</keyword>... <keyword num="3">try</keyword> <keyword num="11">using</keyword> </found>

Problémy > metody pro poloautomatickou tvorbu doménového modelu > různé formáty dokumentů > různé světové jazyky > implementace nástroje > ověření funkcionality > interpretace výsledků, návrhy vylepšení

Doménový model > doménová ontologie > koncepty, vazby, hierarchie > tvorba > manuálně > automaticky > poloautomaticky

Potřeba, současný stav > XAPOS > algoritmy nad doménovou ontologií > tvorba doménové ontologie je časově náročná > různé formáty dokumentů > různé světové jazyky

Nástroje, metody > zpracování přirozeného jazyka - NLP > vícejazyčné prostředí Google Translate > WordNet (synsety) > Stanford NLP > Java, SWING, XML, jtidy, JAWS, SNLP, JUNG

Příprava dat > načtení textu, TXT, (X)HTML, PDF > odstranění nežádoucích prvků > překlad > anotace replaceall(); <html><body><p>an integer character constant has type int.</p></body></html> An/DT integer/nn character/nn constant/nn has/vbz type/nn int/nn./.

Vytěžování konceptů > souvislé úseky podstatných jmen > seřazení podle četností > asistovaný výběr uživatelem > desambiguace > definice doménových termů > instance konceptů - NER

Vytěžování vazeb > neorientované / orientované > nepojmenované / pojmenované > z WordNetu > IsA, Has part, Part of > z textu > lexico-syntactic patterns > IsA z textu (JJ NN IsA NN) > nepojmenované (co-occurrence)

Aplikace

Data, experiment > text návrhu ANSI/ISO normy jazyka C > porovnání s existující ontologií

Výsledky > IsA návrhy nepřijímat bezhlavě > velký význam NER