Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015
Pozvánka Jako výzkumníci jsme přistoupili k vývoji systémů extrakce informací z textů legislativní a environmentální domény. V prezentaci systémy představíme a podělíme se o zkušenosti z jejich vývoje. Zaměříme se na alternativy strojové učení vs. pravidla a surové texty vs. texty obohacené o informace. Aspekty správy systémů a způsobu hodnocení jejich kvality budou rovněž diskutovány. 2
Děkuji Vincentu Krížovi, Ivaně Lukšové, Bohdanu Maslowskému a Sysnet, s.r.o. Sysnet, s.r.o. byl průmyslovým partnerem v projektu INTLIB 3
Ústav formální a aplikované lingvistiky učí počítače nejen česky. Zdroj: http://hobby.idnes.cz/ 4
ÚFAL Lingvistika na matfyzu 5
ÚFAL formální lingvistika aplikovaná lingvistika* propozice sémantém věta větný člen formém séma morfém morf morfoném (Sgall, 1967) foném dist. rys TR VČR MR MFR FR data text a řeč nástroje *Počítačová lingvistika nebo komputační lingvistika nebo počítačové zpracování přirozeného jazyka nebo jazykové technologie. 6
Schéma extrakční úlohy Extrakce informací z textů myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace 7
Schéma extrakční úlohy Formulace zadání extrakční úlohy Extrakce čeho z čeho Rešerše existujících řešení Data kde a jak získat myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace 8
Schéma extrakční úlohy Data z technického pohledu Více zdrojů, více formátů Volba interní datové reprezentace myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace 9
Schéma extrakční úlohy Jazyk ~ počítačové zpracování přirozeného jazyka (dále NLP) obohacení surového textu o jazykovědné informace Více dat ~ datové zdroje Slovníky, číselníky, myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace 10
NLP jazyk obohacení více dat Platforma Treex MorphoDita Morfologie (tvarosloví) Trénováno na PZK MST parser Syntax (větný rozbor) Trénováno na PZK NameTag Pojmenované entity Trénováno na CNEC věta větný člen formém séma morfém morf morfoném 11 TR VČR MR foném dist. rys http://ufal.mff.cuni.cz/treex, Pražský závislostní korpus (PZK), Czech Named Entity Corpus (CNEC) MFR
NLP MorphoDiTa & MST parser jazyk obohacení více dat http://ufal.mff.cuni.cz/tools/treex-web, MorphoDiTa 12
NLP NameTag jazyk obohacení více dat http://ufal.mff.cuni.cz/nametag 13
Schéma extrakční úlohy Specifikace entit Specifikace vztahů (relací) mezi entitami myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace 14
Schéma extrakční úlohy Akademická evaluace Uživatelská evaluace myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace 15
Extrakční systém myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace 16
Extrakce informací z textů Domény Legislativní Zákony, vyhlášky (dále zákony) Soudní rozhodnutí (dále judikáty) Environmentální Záměry EIA (dále záměry) 17
Zákony 3 (2) Účetním obdobím je nepřetržitě po sobě jdoucích dvanáct měsíců, není-li dále stanoveno jinak. Účetní období se buď shoduje s kalendářním rokem nebo je hospodářským rokem. 12 (2) Účetní jednotky jsou povinny provádět účetní zápisy průběžně v účetním období po vyhotovení účetního dokladu takovým způsobem, který neohrozí splnění požadavků rovněž jiných právních předpisů. myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace Zdroj: Předpis č. 563/1991 Sb. (Zákon o účetnictví) 18
Zákony myšlenka Práva a povinnosti (2) Účetní jednotky jsou povinny provádět účetní zápisy průběžně Definice pojmů (2) Účetním obdobím je nepřetržitě po sobě jdoucích dvanáct měsíců, 19
Zákony data Sbírka zákonů ČR zakonyprolidi.cz Konverze do interního XML 20
Zákony jazyk obohacení více dat Morfologie Syntax 21
Zákony jazyk obohacení více dat Slovník entit Entity z Vyhlášky o účetnictví ručně v editoru brat Předpis č. 500/2002 Sb. http://brat.nlplab.org/ 22
Zákony entity extrakce vztahy Entity dle slovníku Vztahy Subjekt, predikát, objekt Entita má právo Entita má povinnost Entita je 23
Zákony extrakční systém myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace Demo: http://quest.ms.mff.cuni.cz:14280/ 24
Zákony jazyk obohacení více dat MorphoDiTa a MST Parser jsou natrénované na publicistických textech Rozdíly v doménách Úspěšnost MST Parseru na zákonech měřená na Czech Legal Text Treebank 80% 85% na PZK https://ufal.mff.cuni.cz/czech-legal-text-treebank 25
Zákony Pravidlová segmentace 26
Zákony Pravidlová re-tokenizace 27
Zákony entity extrakce vztahy Extrakční pravidla Grafický editor PML-TQ http://ufal.mff.cuni.cz/pmltq/ 28
Zákony evaluace Akademická ručně identifikované entity a vztahy mezi nimi ve Vyhlášce o účetnictví Extrakce entit recall 91%, precision 57% Extrakce vztahů recall 63%, precision 80% Uživatelská Dosud neproběhla 29
datum poučení odůvodnění výrok úvod Judikáty ČESKÁ REPUBLIKA ROZSUDEK JMÉNEM REPUBLIKY Nejvyšší správní soud rozhodl v senátu složeném z předsedy JUDr. Jana Passera se zrušuje a věc se vrací tomuto soudu k dalšímu řízení. Odůvodnění : I. Rozhodnutím ze dne 30. 11. 2005, čj. 16/94068/2005/1327, žalovaný zamítl odvolání žalobce a potvrdil Poučení: Proti tomuto rozsudku nejsou opravné prostředky přípustné. V Brně 22. září 2010 myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace Zdroj: url 30
Judikáty myšlenka Dostupnost judikátů zveřejňování 31
Judikáty myšlenka Informace o účastnících Nejvyšší správní soud rozhodl v senátě složeném z předsedy JUDr. Radana Malíka a soudkyň Mgr. Daniely Zemanové a JUDr. Barbary Pořízkové v právní věci stěžovatele Ing. V. K., role-soudce role-soudce role-soudce JUDr. Radan Malík Mgr. Daniela Zemanová JUDr. Barbara Pořízková role-žalobce Ing. V. K. 32
Judikáty Judikáty ze dvou advokátních kanceláří 191 + 191 pdf txt Anotace entit v editoru brat 1/3 ručně 2/3 ruční kontrola automatické procedury Role data Soudce Žalobce Žalovaný Právní zástupce Rozhodující orgán 33
Judikáty data Proložená slova Pravidlová detekce proloženého textu Pravidlová segmentace textu Externí slovník ve formátu Hunspell Slovník příjmení Českého statistického úřadu Pravidlové generování možných tvarů příjmení Evaluace na testovacím vzorku I. Kasační stížnost s e z a m í t á. II. Žalobci s e n e p ř i z n á v á právo na náhradu nákladů řízení o kasační stížnosti. 34
Judikáty jazyk obohacení více dat NameTag 35
Judikáty jazyk obohacení více dat Seznam příjmení Českého statistického úřadu* Adresy firem ze seznamu RÚIAN** Databáze IČO*** *url, ** Registr územní identifikace, adres a nemovitostí url, ***url 36
Judikáty entity extrakce vztahy Entity Typy entit účastníci řízení (osoba, firma, ) Vztahy Role entit (žalobce, odpůrce, ) 37
Judikáty extrakční systém myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace Demo: http://courtdoc.praetoris.cz/ 38
extrakce entity Judikáty extrakční systém vztahy Pravidla Extrakce typů entit a rolí Strojové učení NameTag+SVM NameTag extrahuje typy entit SVM detekuje jejich role Hybridní Pravidla extrahují typy entit a role NameTag je používá jako příznaky 39
Judikáty evaluace Pravidla 40 Zdroj výsledků: (Maslowski, 2015)
Judikáty evaluace Strojové učení Zdroj výsledků: (Maslowski, 2015) 41
Judikáty evaluace Strojové učení Zdroj výsledků: (Maslowski, 2015) 42
Judikáty evaluace Hybridní Zdroj výsledků: (Maslowski, 2015) 43
extrakce entity vztahy Judikáty extrakční systém Normalizace Jména osob MorphoDiTa Extrahovat lemmata Jména soudů pravidla Adresy pravidla 44
Záměry Golfové hřiště ZÁMECKÝ GOLF PRAHA v Praze 9-Vinoři Oznámení záměru podle přílohy 3. zákona č. 100/2001 Sb., o posuzování vlivů na životní prostředí a o změně některých souvisejících zákonů, ve znění zákona č. 93/2004 Sb. a zákona č. 163/2006 Sb. Areál golfového hřiště ZÁMECKÝ GOLF PRAHA bude realizován na celkové ploše cca 60,5 ha. Bude zde vybudováno 18jamkové golfové hřiště. Provoz 18jamkového hřiště bude zajišťovat 5 stálých a 9 sezónních zaměstnanců. myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace Zdroj: http://portal.cenia.cz/eiasea/detail/eia_pha486 45
Záměry myšlenka Oznámení záměru, Stanovisko, Stanovisko Natura Základní údaje o záměru Údaje o vlivech a výstupech Závěrečné stanovisko Struktura dána zákonem, nedodržuje se 46
Záměry myšlenka Kvantifikované údaje Provoz 18jamkového hřiště bude zajišťovat 5 stálých a 9 sezónních zaměstnanců. pracovní pozice hřiště 5 stálých zaměstnanců 9 stálých zaměstnanců 47
data Záměry Záměry ze systému EIA* doc, pdf Sekce B.I.2 Konverze do interního XML *url 48
Záměry jazyk obohacení více dat MorphoDita 49
Záměry jazyk obohacení více dat 50
Záměry entity extrakce vztahy Entity dle slovníku Vztahy kvantifikace Kapacita mlékárenské části bude 370.000 l zpracovaného mléka. 51
Záměry extrakční systém myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace Demo: http://intlib.sysnet.cz:8080/1 52
Záměry extrakční systém Platforma Gate Vzdálené volání Treex https://gate.ac.uk/ 53
Záměry extrakční systém Pravidla regulární výrazy extrakce entity vztahy Kapacita mlékárenské části bude 370.000 l zpracovaného mléka. (Veličina) (Entita) (Číslo) (Jednotka) (Adj.2. pád)? (Entita) 54
Záměry evaluace Akademická evaluace neproběhla Vývojářská evaluace Autoři slovníků na vybrané množině záměrů ručně kontrolovali výstup extraktoru Uživatelská evaluace neproběhla 55
Závěrečný povzdech Rule-based Information Extraction is Dead! (Chiticariu, 2013) 56
Závěrečný povzdech Slovníky entit Slovníky vazeb extrakce NLP SU? Pravidla? uplatnění Zákony -- PML-TQ dotazy?? Judikáty -- -- SU, RV 50:50? Záměry RV? 57
Reference Chiticariu Laura, Li Yunyao, Reiss Frederick R. Rulebased Information Extraction is Dead! 2013. (url) Jägerová Tereza a kol. Metodika pro automatizované inteligentní vytěžování nestrukturovaných dat v environmentální doméně. 2014. (url) Kríž Vincent, Hladká Barbora. RExtractor: a Robust Information Extractor. 2015. (url) Maslowski Bohdan. Automatické zpracování českých soudních rozhodnutí. Diplomová práce, MFF UK, 2015. 58