Fuzzy ILP and Semantic Information Extraction from Texts

Podobné dokumenty
Task: Information Extraction for the Semantic Web Solution: Integration of PDT Tools with GATE and Inductive Logic Programming

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Compression of a Dictionary

Klepnutím lze upravit styl předlohy. Klepnutím lze upravit styl předlohy. nadpisů. nadpisů. Aleš Křupka.

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

Ontologie Příklady. Přednáška z předmětu Socioekonomická geografie pro geomatiku (KMA/SGG) Otakar Čerba Západočeská univerzita

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Introduction to MS Dynamics NAV

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Translation Model Interpolation for Domain Adaptation in TectoMT

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Počet obytných místností Number of rooms

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Web Information Extraction - extrakce informací z webu

WORKSHEET 1: LINEAR EQUATION 1

Fytomineral. Inovace Innovations. Energy News 04/2008

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

místo, kde se rodí nápady

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Database systems. Normal forms

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

Syntactic annotation of a second-language learner corpus

Energy vstupuje na trh veterinárních produktů Energy enters the market of veterinary products

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Vánoční sety Christmas sets

Zklidnění dopravy v Chlumci nad Cidlinou

How to get to Hotel Step (venue of WWP AW 2018)

Transportation Problem

RELATIONAL DATA ANALYSIS

Research infrastructure in the rhythm of BLUES. More time and money for entrepreneurs

User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 VÍTKOVICE STEEL, a.s. vitkovicesteel.com

PITSTOP VY_22_INOVACE_26

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Project Life-Cycle Data Management

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Převod prostorových dat katastru nemovitostí do formátu shapefile

Social Media a firemní komunikace

CASTING HAND PRODUCTION USING MOULDS

Lukáš Brodský Praha Osnova. Objektový přístup Verze 4, 5, 6 / 7 Developer7 -funkčnost, nové vlastnosti HW

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

FIRE INVESTIGATION. Střední průmyslová škola Hranice. Mgr. Radka Vorlová. 19_Fire investigation CZ.1.07/1.5.00/

Přehled průběhu pozemních komunikací v jednotlivých krajích ČR

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

CODE BOOK NEISS 8. A code book is an identification tool that allows the customer to perform a test result evaluation using a numeric code.

Sémantický web 10 let poté

Postup objednávky Microsoft Action Pack Subscription

INFLUENCE OF CONSTRUCTION OF TRANSMISSION ON ECONOMIC PARAMETERS OF TRACTOR SET TRANSPORT

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

TEMATICKÝ PLÁN. Literatura: Project 2 - T. Hutchinson, OXFORD

TechoLED H A N D B O O K

Digital Electronics. Jaroslav Bernkopf. 17 October 2008

Dynamic programming. Optimal binary search tree

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden - červenec 2018

EFFECT OF MALTING BARLEY STEEPING TECHNOLOGY ON WATER CONTENT

CZ.1.07/1.5.00/

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden - srpen 2018

READERS OF MAGAZINE DOMA DNES

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden - květen 2018

TELEGYNEKOLOGIE TELEGYNECOLOGY

The form of the verb in past simple is the same for all persons. In questions and negatives we use did/didn t auxiliary verb and the base form.

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

The Over-Head Cam (OHC) Valve Train Computer Model

Biosensors and Medical Devices Development at VSB Technical University of Ostrava

INFORMACE o nehodovosti na pozemních komunikacích v České republice v lednu 2018

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden listopad 2017

2 Axiomatic Definition of Object 2. 3 UML Unified Modelling Language Classes in UML Tools for System Design in UML 5

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden - březen 2018

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden - únor 2018

PŘÍRUČKA PRO ŽADATELE GRANTU- FOND PRO NESTÁTNÍ NEZISKOVÉ ORGANIZACE Příloha č. 11 Tabulka obvyklé mzdy

PŘÍRUČKA PRO ŽADATELE GRANTU- FOND PRO NESTÁTNÍ NEZISKOVÉ ORGANIZACE Příloha č. 11 Tabulka obvyklé mzdy

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden - duben 2018

Vincent Kríž, Barbora Hladká. RExtractor. Entity Relation Extraction from Unstructured Texts. Intelligent library (INTLIB, TA )

Digitální učební materiál

KIV/PIA 2013 Jan Tichava

Výnosy z kmenových včelstev v kg Sektor Počet Počet včelstev. k 1.5. k a ,68 0, ,0 6,00 Ostatní 0,00

S T A T I S T I K A. nehodovosti na pozemních komunikacích v ČR. v roce 2016

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden - říjen 2018

STATISTICKÉ INFORMACE O ZÁSAZÍCH JEDNOTEK POŽÁRNÍ OCHRANY A POŽÁRECH ZA 1. ČTVRTLETÍ 2018

Radiova meteoricka detekc nı stanice RMDS01A

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden - květen 2017

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

Risk management in the rhythm of BLUES. Více času a peněz pro podnikatele

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden srpen 2017

Digitální učební materiály

EU peníze středním školám digitální učební materiál

Czech Technical University in Prague DOCTORAL THESIS

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

READERS OF MAGAZINE DOMA DNES

READERS OF MAGAZINE DOMA DNES

INFORMACE o nehodovosti na pozemních komunikacích v České republice za období leden - březen 2017

READERS OF MAGAZINE DOMA DNES

READERS OF MAGAZINE DOMA DNES

Uni- and multi-dimensional parametric tests for comparison of sample results

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

Transkript:

Fuzzy ILP and Semantic Information Extraction from Texts Jan Dědek Department of Software Engineering, Faculty of Mathematics and Physics, Charles University in Prague, Czech Republic KEG, 15 October 2009, VŠE, Praha

Outline 1 Introduction Our Information Extraction System Linguistics we have used. Domain of fire-department articles 2 Our Information Extraction Method Manually created rules Learning of rules 3 Fuzzy ILP Introd. example, theory, architecture and an experiment Fuzzy ILP Implementation Evaluation and Conclusion 4 Conclusion

Our Information Extraction System Introduction to Presented Work Extraction of semantic information from texts. In Czech language. Coming from web pages. Using of Semantic Web ontologies. RDF, OWL Exploiting of linguistic tools. Mainly from the Prague Dependency Treebank project. Experiments with the Czech WordNet. Rule based extraction method. Extraction rules tree queries ILP learning of extraction rules

Our Information Extraction System Schema of the extraction process 1 Extraction of text Using RSS feed to download pages. Regular expression to extract text. 2 Linguistic annotation Using chain of 6 linguistic tools (see on next slides). 3 Data extraction Exploitation of linguistic trees. Using extraction rules. 4 Semantic representation of data Ontology needed. Semantic interpretation of rules. Far from finished in current state.

Linguistics we have used. Layers of linguistic annotation in PDT Tectogrammatical layer Analytical layer Morphological layer Sentence: Byl by šel dolesa. He-was would went toforest.

Linguistics we have used. Tools for machine linguistic annotation Available on the PDT 2.0 CD-ROM 1 Segmentation and tokenization 2 Morphological analysis 3 Morphological tagging 4 Collins parser Czech adaptation 5 Analytical function assignment 6 Tectogrammatical analysis Developed by Václav Klimeš

Linguistics we have used. Example of tectogrammatical tree T-jihomoravsky49640.txt-001-p1s4 root zemřít PRED v #PersPron Trabant ACT LOC. basic n.pron.def.persn.denot #Dash APPS coap Lemmas Functors Semantic parts of speech zdemolovaný RSTR adj.denot místo LOC. basic n.denot muž ACT n.denot dva RSTR adj.quant.def a CONJ coap senior DENOM n.denot 82letý RSTR adj.denot muž DENOM n.denot další RSTR adj.denot zjišťovat RSTR v totožnost policista ACT ACT n.denot.negn.denot který APP n.pron.indef Sentence: Ve zdemolovaném trabantu na místě zemřeli dva muži 82letý senior a další muž, jehož totožnost zjišt ují policisté. Two men died on the spot in demolished trabant...

Domain of fire-department articles Example of the web-page with a report of a fire department > home > navigace > vyhledávání > změna vzhledu Informace z resortu o tom, co se stalo, co se děje i co se připravuje Zubatého 1, 614 00 Brno, telefon 950 630 111, http://www.firebrno.cz Zpravodajství v roce 2006 15.05.2007 V trabantu zemřeli dva lidé K tragické nehodě dnes odpoledne hasiči vyjížděli na silnici z obce Česká do Kuřimi na Brněnsku. Nehoda byla operačnímu středisku HZS ohlášena ve 13.13 hodin a na místě zasahovala jednotka profesionálních hasičů ze stanice v Tišnově. Jednalo se o čelní srážku autobusu Karosa s vozidlem Trabant 601. Podle dostupných informací trabant jedoucí ve z Brna do Kuřimi zřejmě vyjel do protisměru, kde narazil do linkového autobusu dopravní společnosti ze Žďáru nad Sázavou. Ve zdemolovaném trabantu na místě zemřeli dva muži 82letý senior a další muž, jehož totožnost zjišťují policisté. Hasiči udělali na vozidle protipožární opatření a po vyšetření a zadokumentování nehody dopravní policií vrak trabantu zaklesnutý pod autobusem pomocí lana odtrhli. Po odstranění střechy trabantu pak z kabiny vyprostili těla obou mužů. Obě vozidla trabant i autobus, pak postupně odstranili na kraj vozovky a uvolnili tak jeden jízdní pruh. Únik provozních kapalin nebyl zjištěn. Po 16. hodině pomohli vrak trabantu naložit k odtahu a asistovali při odtažení autobusu. Po úklidu vozovky krátce před 16.30 hod. místo nehody předali policistům a ukončili zásah. Hasiči Generální ředitelství hl. m. Praha Jihočeský kraj Jihomoravský kraj Karlovarský kraj Královéhradecký kraj Liberecký kraj Moravskoslezský kraj Olomoucký kraj Pardubický kraj Plzeňský kraj Středočeský kraj Ústecký kraj kraj Vysočina Zlínský kraj V této rubrice Zpravodajství Aktualizace stránek Archiv zpravodajství Bleskové zpravodajství RSS Boj proti korupci Digitální televize Hasiči Hlavní zprávy Ministerstvo Od dopisovatelů (neoficiální) Policie Regiony Servis nejen pro novináře Schengenská spolupráce WebEditorial Na našem serveru v jiných rubrikách Aktuality Národního archivu

Domain of fire-department articles Domain of our experiments Fire-department articles Published by The Ministry of Interior of the Czech Republic 1 Processed more than 800 articles from different regions of Czech Republic 1.2 MB of textual data Linguistic tools produced 10 MB of annotations, run time 3.5 hours Extracting information about injured and killed people 470 matches of the extraction rule, 200 numeric values of quantity (described later) 1 http://www.mvcr.cz/rss/regionhzs.html

Domain of fire-department articles Example of processed text fire started at 3 amateurx units Požár byl operačnímu středisku HZS ohlášen dnes ve 2.13 hodin, na místo vyjeli profesionální hasiči ze stanice v Židlochovicích a dobrovolní hasiči z Židlochovic, Žabčic a Přísnotic, Oheň, který finished zasáhl at 4:03 elektroinstalaci u chladícího boxu, hasiči dostali pod kontrolu ve 2.32 hodin a uhasili tři minuty po třetí hodině. Příčinou vzniku požáru byla technická závada, škodu vyšetřovatel předběžně vyčíslil na osm tisíc korun. damage 8 000 CZK id_47443 Information to be extracted is decorated. See the last sentence on the next slide.

Domain of fire-department articles Example of a linguistic tree reckon id_47443_p1s2 thousand CZK damage investigating officer eight, škodu vyšetřovatel předběžně vyčíslil na osm tisíc korun., investigating officer preliminarily reckoned the damage to be 8 000 CZK. Our IE method uses tree queries (tree patterns)

1 Introduction Our Information Extraction System Linguistics we have used. Domain of fire-department articles 2 Our Information Extraction Method Manually created rules Learning of rules 3 Fuzzy ILP Introd. example, theory, architecture and an experiment Fuzzy ILP Implementation Evaluation and Conclusion 4 Conclusion

T-jihomoravsky49640.txt-001-p1s4 root zemřít PRED v #PersPron ACT n.pron.def.pers zdemolovaný RSTR adj.denot Trabant LOC. basic n.denot místo LOC. basic n.denot #Dash APPS coap muž ACT n.denot a CONJ coap How to extract the information about two dead people? dva RSTR adj.quant.def senior DENOM n.denot muž DENOM n.denot 82letý RSTR adj.denot další RSTR adj.denot zjišťovat RSTR v... two... totožnost ACT n.denot.neg který APP n.pron.indef policista ACT n.denot

Manually created rules Extraction rules Netgraph queries Tree patterns on shape and nodes (on node attributes). Evaluation gives actual matches of particular nodes. Names of nodes allow use of references.

Manually created rules Raw data extraction output <QueryMatches> <Match root_id="t-vysocina63466.txt-001-p1s4" match_string="2:0,7:3,8:4,11:2"> <Sentence> Při požáru byla jedna osoba lehce zraněna - jednalo se o majitele domu, který si vykloubil rameno. </Sentence> <Data> <Value variable_name="action_type" attribute_name="t_lemma">zranit</value> <Value variable_name="injury_manner" attribute_name="t_lemma">lehký</value> <Value variable_name="participant" attribute_name="t_lemma">osoba</value> <Value variable_name="quantity" attribute_name="t_lemma">jeden</value> </Data> </Match> <Match root_id="t-jihomoravsky49640.txt-001-p1s4" match_string="1:0,13:3,14:4"> <Sentence> Ve zdemolovaném trabantu na místě zemřeli dva muži - 82letý senior a další muž, jehož totožnost zjišťují policisté. </Sentence> <Data> <Value variable_name="action_type" attribute_name="t_lemma">zemřít</value> <Value variable_name="participant" attribute_name="t_lemma">muž</value> <Value variable_name="quantity" attribute_name="t_lemma">dva</value> </Data> </Match> <Match root_id="t-jihomoravsky49736.txt-001-p4s3" match_string="1:0,3:3,7:1"> <Sentence>Čtyřiatřicetiletý řidič nebyl zraněn.</sentence> <Data> <Value variable_name="action_type" attribute_name="t_lemma">zranit</ Value> <Value variable_name="a-negation" attribute_name="m/tag">vpys---xr- N A--- </Value> <Value variable_name="participant" attribute_name="t_lemma">řidič</value> </Data> </Match> </QueryMatches> SELECT action_type.t_lemma, a-negation.mtag, injury_manner.t_lemma, participant.t_lemma, quantity.t_lemma FROM ***extraction rule***

Manually created rules Semantic interpretation of extraction rules m/tag t_lemma Incident actionmanner String* negation Boolean actiontype String hasparticipant Instance* Participant t_lemma t_lemma + numeral translation hasparticipant* Participant participanttype String participantquantity Integer t_lemma Determines how particular values of attributes are used. Gives semantics to extraction rule. Gives semantics to extracted data.

Manually created rules Semantic data output incident_49640 negation = false actiontype = death hasparticipant = participant_49640_1 incident_49736 negation = true actiontype = injury hasparticipant = participant_49736_1 hasparticipant hasparticipant er 1 participant_49640_1 participanttype = man participantquantity = ~@nonnegativeinteger 2 participant_49736_1 participanttype = driver Two instances of two ontology classes.

Manually created rules The experimental ontology Incident actionmanner String* negation Boolean actiontype String hasparticipant Instance* Participant hasparticipant* Participant participanttype String participantquantity Integer Two classes Incident and Participant One object property relation hasparticipant Five datatype property relations actionmanner (light or heavy injury) negation actiontype (injury or death) participanttype (man, woman, driver, etc.) participantquantity

Manually created rules Design of extraction rules iterative process Frequency Analysis Key-words Query Coverage tuning More accurate matches Tree Query Matching trees Investigation of neighbors More complex queries 1 Frequency analysis representative key-words. 2 Investigating of matching trees tuning of tree query. 3 Complexity of the query = complexity of extracted data.

Learning of rules 1 Introduction Our Information Extraction System Linguistics we have used. Domain of fire-department articles 2 Our Information Extraction Method Manually created rules Learning of rules 3 Fuzzy ILP Introd. example, theory, architecture and an experiment Fuzzy ILP Implementation Evaluation and Conclusion 4 Conclusion

Learning of rules Context of Our Experiments Semantic Web & Semantic Data Extraction Integration of ILP in our extraction process Web Texts Linguistic trees ILP background knowledge Extraction process Extraction rules Human annotator Learning examples + Semantics ILP learning Extracted Semantic data Get semantics form Web of today Czech pages, Czech texts Czech linguistic tools Domain of traffic accidents Semantics given by human Generalized & extracted by ILP Transformation of trees to logic representation. Today: just first promising experiments.

Learning of rules Logic representation of linguistic trees tree_root(node0_0). node(node0_0). id(node0_0, t_jihomoravsky49640_txt_001_p1s4). %%%%%%%% node0_1 %%%%%%%%%%%%%%%%%% node(node0_1). functor(node0_1, pred). gram_sempos(node0_1, v). t_lemma(node0_1, zemrit). %%%%%%%% node0_2 %%%%%%%%%%%%%%%%%% node(node0_2). functor(node0_2, act). gram_sempos(node0_2, n_pron_def_pers). t_lemma(node0_2, x_perspron). %%%%%%%% node0_3 %%%%%%%%%%%%%%%%%%% node(node0_3). id(node0_3, functor(node0_3, loc). gram_sempos(node0_3, n_denot). t_lemma(node0_3, trabant).... edge(node0_0, node0_1). edge(node0_1, node0_2). edge(node0_1, node0_3). edge(node0_3, node0_4). edge(node0_4, node0_5). edge(node0_3, node0_6). edge(node0_3, node0_7). edge(node0_3, node0_8).... Logic representation Source web page Linguistic trees

Learning of rules First promising results :-) Example contains_num_injured(a) :- t_lemma(a,1). contains_num_injured(a) :- t_lemma(a,2). contains_num_injured(a) :- t_lemma(a,23). contains_num_injured(a) :- edge(a,b), m_form(b,jeden). contains_num_injured(a) :- edge(a,b), m_tag(b,cn_s1 ). contains_num_injured(a) :- edge(b,a), functor(b,conj). contains_num_injured(a) :- edge(b,a), t_lemma(b,dite). contains_num_injured(a) :- edge(b,a), t_lemma(b,muz). contains_num_injured(a) :- edge(b,a), edge(b,c), m_tag14(c,1). contains_num_injured(a) :- edge(b,a), edge(b,c), t_lemma(c,tezky). contains_num_injured(a) :- edge(b,a), edge(b,c), t_lemma(c,nasledek). contains_num_injured(a) :- edge(a,b), edge(c,a), m_tag4(b,1), functor(c,pat). contains_num_injured(a) :- edge(a,b), edge(c,a), functor(c,act), a_afun(b,sb). contains_num_injured(a) :- edge(b,a), edge(c,b), edge(c,d), t_lemma(d,vloni). contains_num_injured(a) :- edge(b,a), edge(c,b), t_lemma(b,osoba), t_lemma(c,zranit). contains_num_injured(a) :- edge(b,a), edge(c,b), t_lemma(b,osoba), t_lemma(c,zemrit). contains_num_injured(a) :- edge(b,a), edge(c,b), functor(b,act), edge(c,d), a_afun(d,obj). contains_num_injured(a) :- edge(b,a), edge(c,b), t_lemma(b,osoba), edge(c,d), edge(d,e), functor(d,twhen). contains_num_injured(a) :- edge(b,a), t_lemma(a,tri), edge(b,c), edge(d,b), edge(e,d), m_tag2(c,m).

1 Introduction Our Information Extraction System Linguistics we have used. Domain of fire-department articles 2 Our Information Extraction Method Manually created rules Learning of rules 3 Fuzzy ILP Introd. example, theory, architecture and an experiment Fuzzy ILP Implementation Evaluation and Conclusion 4 Conclusion

Introd. example, theory, architecture and an experiment ILP Example Types of ground variables animal(dog). animal(dolphin)... animal(penguin). class(mammal). class(fish). class(reptile). class(bird). covering(hair). covering(none). covering(scales). habitat(land). habitat(water). habitat(air). Background knowledge has_covering(dog, hair). has_covering(crocodile, scales). has_legs(dog,4).... has_legs(penguin, 2). etc. has_milk(dog).... has_milk(platypus). etc. homeothermic(dog).... homeothermic(penguin). etc. habitat(dog, land).... habitat(penguin, water). etc. has_eggs(platypus).... has_eggs(eagle). etc. has_gills(trout).... has_gills(eel). etc.

Introd. example, theory, architecture and an experiment ILP Example Positive examples class(lizard, reptile). class(trout, fish). class(bat, mammal). Negative examples class(trout, mammal). class(herring, mammal). class(platypus, reptile). Induced rules class(a,reptile) :- has_covering(a,scales), has_legs(a,4). class(a,mammal) :- homeothermic(a), has_milk(a). class(a,fish) :- has_legs(a,0), has_eggs(a). class(a,reptile) :- has_covering(a,scales), habitat(a,land). class(a,bird) :- has_covering(a,feathers).

Introd. example, theory, architecture and an experiment Classical ILP and Fuzzy ILP principles Learning examples E = P N (Positive and Negative) Background knowledge B ILP task to find hypothesis H such that: ( e P)(B H = e) & ( n N)(B H = n). Fuzzy learning examples E : E [0, 1] Fuzzy background knowledge B : B [0, 1] Fuzzy ILP task to find hyp. H : H [0, 1] such that: ( e 1, e 2 E)( M)(M = f B H) : E(e 1 ) > E(e 2 ) e 1 M e 2 M

Introd. example, theory, architecture and an experiment Generalized Annotated Programs Fuzzy ILP is equivalent to Induction of Generalized Annotated Programs 2 For implementation we use GAP or strictly speaking: Definite Logic Programs with monotonicity axioms (also equivalent) Basic paradigm: deal with values as with degrees. We don t have to normalize values, they order is enough. For example with monotonicity axioms we can use rule: serious(a, 4) fatalities(a, 10). and from the fact fatalities(id_123, 1000) deduce serious_alt(id_123, 4). 2 See in S. Krajci, R. Lencses and P. Vojtas: A comparison of fuzzy and annotated logic programming, Fuzzy Sets and Systems, vol.144, pp.173 192, 2004.

Introd. example, theory, architecture and an experiment Schema of the whole system Web Structured Data Background Knowledge Classical ILP Web Crawling Information Extraction Web Reports Evaluation User Ranking (Learning Examples) Fuzzy ILP 1 Web Crawling 2 Information Extraction and User Evaluation 3 Logic representation Construction of background knowledge Construction of learning examples 4 ILP Learning Crisp Fuzzy Crisp Hyphotesis Fuzzy Hyphotesis 5 Comparison of results

Introd. example, theory, architecture and an experiment Accident attributes distinct values missing values attribute name size (of file) 49 0 yes type (of accident) 3 0 no damage 18 30 yes dur_minutes 30 17 yes fatalities 4 0 yes injuries 5 0 yes cars 5 0 yes amateur_units 7 1 yes profesional_units 6 1 yes pipes 7 8 yes lather 3 2 yes aqualung 3 3 yes fan 3 2 yes ranking 14 0 yes monotonic Information that could be extracted. Missing values. Almost all attributes are numeric. So monotonic This will be used for fuzzyfication Artificial target attribute seriousness ranking.

Introd. example, theory, architecture and an experiment Histogram of the seriousness ranking attribute 9 8 7 6 5 4 3 2 1 0 0,5 1 1,5 2 2,5 3 4 4,5 5 6 6,5 7 7,5 8 0 1 2 3 14 different values, range 0.5 8 Divided into four approximately equipotent groups.

Fuzzy ILP Implementation 1 Introduction Our Information Extraction System Linguistics we have used. Domain of fire-department articles 2 Our Information Extraction Method Manually created rules Learning of rules 3 Fuzzy ILP Introd. example, theory, architecture and an experiment Fuzzy ILP Implementation Evaluation and Conclusion 4 Conclusion

serious_atl_0(id_47443). %positive serious_atl_1(id_47443). %positive serious_atl_2(id_47443). %positive Fuzzy ILP Implementation Essential difference between learning examples serious_atl_3(id_47443). %negative serious_atl_0(id) :- serious_2(id). serious_atl_1(id) :- serious_2(id). serious_atl_2(id) :- serious_2(id). Crisp learning examples serious_2(id) :- serious_atl_2(id), serious_2(id_47443). not(serious_atl_3(id)). %positive serious_0(id_47443). damage_atl(id,n) :- %unknown %negative values serious_1(id_47443). damage(id,n), %negative not(integer(n)). serious_3(id_47443). damage_atl(id,n) :- %numeric %negative values damage(id,n2), integer(n2), damage(n), integer(n), N2>=N. Monotonized learning examples serious_atl_0(id_47443). %positive serious_atl_1(id_47443). %positive serious_atl_2(id_47443). %positive serious_atl_3(id_47443). %negative For one evidence (occurrence): Crisp: Always one positive and three negative learning examples Monotonized: Up to the observed degree positive, the rest negative.

Fuzzy ILP Implementation serious_atl_0(id) :- serious_2(id). Monotonization serious_atl_1(id) of attributes :- serious_2(id). serious_atl_2(id) :- serious_2(id). serious_2(id) :- serious_atl_2(id), damage damage_atl not(serious_atl_3(id)). damage_atl(id,n) :- %unknown values damage(id,n), not(integer(n)). damage_atl(id,n) :- %numeric values damage(id,n2), integer(n2), damage(n), integer(n), N2>=N. We infer serious_atl_0(id_47443). all lower values as sufficient. %positive Treatment serious_atl_1(id_47443). of unknown values. %positive serious_atl_2(id_47443). %positive Negation as failure. serious_atl_3(id_47443). %negative

serious_0(a):-dur_minutes(a,8). serious_0(a):-type(a,fire),pipes(a,0). serious_0(a):-fatalities(a,0),pipes(a,1),lather(a,0). serious_1(a):-amateur_units(a,1). serious_1(a):-amateur_units(a,0),pipes(a,2),aqualung(a,1). serious_1(a):-damage(a,300000). serious_1(a):-damage(a,unknown),type(a,fire),prof_units(a,1). serious_1(a):-dur_minutes(a,unknown), fatalities(a,0), cars(a,1). serious_2(a):-lather(a,unknown). serious_2(a):-lather(a,0), aqualung(a,1), fan(a,0). serious_2(a):-amateur_units(a,2),prof_units(a,2). serious_2(a):-dur_minutes(a,unknown),injuries(a,2). serious_3(a):-fatalities(a,1). serious_3(a):-fatalities(a,2). serious_3(a):-injuries(a,2), cars(a,2). serious_3(a):-pipes(a,4). serious_atl_0(a). serious_atl_1(a):-injuries_atl(a,1). serious_atl_1(a):-lather_atl(a,1). serious_atl_1(a):-pipes_atl(a,3). serious_atl_1(a):-dur_minutes_atl(a,unknown). serious_atl_1(a):-size_atl(a,764),pipes_atl(a,1). serious_atl_1(a):-damage_atl(a,8000),amateur_units_atl(a,3). serious_atl_1(a):-type(a,car_accident). serious_atl_1(a):-pipes_atl(a,unknown), randomized_order_atl(a,35). serious_atl_2(a):-pipes_atl(a,3), aqualung_atl(a,1). serious_atl_2(a):-type(a,car_accident), cars_atl(a,2),prof_units_atl(a,2). serious_atl_2(a):-injuries_atl(a,1),prof_units_atl(a,3),fan_atl(a,0). serious_atl_2(a):-type(a,other), aqualung_atl(a,1). serious_atl_2(a):-dur_minutes_atl(a,59), pipes_atl(a,3). serious_atl_2(a):-injuries_atl(a,2),cars_atl(a,2). serious_atl_2(a):-fatalities_atl(a,1). serious_atl_3(a):-fatalities_atl(a,1). serious_atl_3(a):-dur_minutes_atl(a,unknown),pipes_atl(a,3). Crisp hypothesis Monotonized hypothesis Monotonicity axioms Monotonized learning examples

Evaluation and Conclusion Evaluation and Comparison of Results Raw ILP Monot. ILP Monot. test set TP: 42 57 positive: 64 FP: 7 6 negative: 36 Precision: 0,857 0,905 sum: 100 Recall: 0,656 0,891 F-measure: 0,743 0,898 Crisp test set TP: 12 15 positive: 25 FP: 13 10 negative: 75 Precision: 0,480 0,600 sum: 100 Recall: 0,480 0,600 F-measure: 0,480 0,600 Rules evaluated on both testing sets. By use of conversion predicates (next slide) Monotonized rules better in both cases. Even better than other classifiers (Znalosti 2010).

Evaluation and Conclusion Conversion of Results serious_atl_0(id) :- serious_2(id). serious_atl_1(id) :- serious_2(id). crisp serious_atl_2(id) monotone :- serious_2(id). serious_2(id) :- serious_atl_2(id), not(serious_atl_3(id)). damage_atl(id,n) :- %unknown values damage(id,n), not(integer(n)). monotone damage_atl(id,n) crisp :- %numeric values serious_atl_0(id) damage(id,n2), :- integer(n2), serious_2(id). serious_atl_1(id) damage(n), integer(n), :- serious_2(id). N2>=N. serious_atl_2(id) :- serious_2(id). serious_2(id) serious_atl_0(id_47443). :- serious_atl_2(id), %positive serious_atl_1(id_47443). not(serious_atl_3(id)). %positive serious_atl_2(id_47443). %positive

Summary Proposed a system for extraction of semantic information Based on linguistic tools for automatic text annotation Extraction rules adopted from Netgraph application. ILP used for learning rules. Our future research will concentrate on: Learning of extraction rules. Extension of the method with WordNet technology. Adaptation of this method on other languages. Evaluation of the method.