Strojové učení a pravidla pro extrakci informací z textů

Podobné dokumenty
INTLIB. Osnova. Projekt (TA /Inteligentní knihovna) je řešen s finanční podporou TA ČR. ! Legislativní doména

Chytal tlouště na višni

Učíme počítače (nejen) česky: ÚFAL

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

ve strojovém překladu

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

U s n e s e n í. t a k t o :

R O Z S U D E K J M É N E M R E P U B L I K Y

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

ČESKÁ REPUBLIKA ROZSUDEK JMÉNEM REPUBLIKY

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

ROZSUDEK JMÉNEM REPUBLIKY

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

U S N E S E N Í. t a k t o :

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

USNESENÍ. t a k t o :

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K JMÉNEM REPUBLIKY

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

USNESENÍ. takto: Odůvodnění:

R O Z S U D E K J M É N E M R E P U B L I K Y

ČESKÁ REPUBLIKA ROZSUDEK JMÉNEM REPUBLIKY

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

3 Ads 102/ Důchodové pojištění: žádost o přiznání invalidního důchodu; rozlišování mezi plným a částečným invalidním důchodem

R O Z S U D E K J M É N E M R E P U B L I K Y

Automatická post-editace výstupů frázového strojového překladu (Depfix)

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

R O Z S U D E K J M É N E M R E P U B L I K Y

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

ČESKÁ REPUBLIKA ROZSUDEK JMÉNEM REPUBLIKY

PRODUKTY. Tovek Tools

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

U S N E S E N Í. t a k t o : O d ů v o d n ě n í :

ČESKÁ REPUBLIKA ROZSUDEK JMÉNEM REPUBLIKY

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

ROZSUDEK JMÉNEM REPUBLIKY

R O Z S U D E K J M É N E M R E P U B L I K Y

ČESKÁ REPUBLIKA ROZSUDEK JMÉNEM REPUBLIKY

U S N E S E N Í. t a k t o :

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

Rozsudek Krajského soudu v Ostravě ze dne 25. října 2001, čj. 15 Co 15/ se zrušuje a věc se vrací tomuto soudu k dalšímu řízení.

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

U S N E S E N Í. takto :

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

R O Z S U D E K J M É N E M R E P U B L I K Y

Automatická post-editace výstupů frázového strojového překladu (Depfix)

U S N E S E N Í. t a k t o : O d ů v o d n ě n í :

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

R O Z S U D E K J M É N E M R E P U B L I K Y

Transkript:

Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015

Pozvánka Jako výzkumníci jsme přistoupili k vývoji systémů extrakce informací z textů legislativní a environmentální domény. V prezentaci systémy představíme a podělíme se o zkušenosti z jejich vývoje. Zaměříme se na alternativy strojové učení vs. pravidla a surové texty vs. texty obohacené o informace. Aspekty správy systémů a způsobu hodnocení jejich kvality budou rovněž diskutovány. 2

Děkuji Vincentu Krížovi, Ivaně Lukšové, Bohdanu Maslowskému a Sysnet, s.r.o. Sysnet, s.r.o. byl průmyslovým partnerem v projektu INTLIB 3

Ústav formální a aplikované lingvistiky učí počítače nejen česky. Zdroj: http://hobby.idnes.cz/ 4

ÚFAL Lingvistika na matfyzu 5

ÚFAL formální lingvistika aplikovaná lingvistika* propozice sémantém věta větný člen formém séma morfém morf morfoném (Sgall, 1967) foném dist. rys TR VČR MR MFR FR data text a řeč nástroje *Počítačová lingvistika nebo komputační lingvistika nebo počítačové zpracování přirozeného jazyka nebo jazykové technologie. 6

Schéma extrakční úlohy Extrakce informací z textů myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace 7

Schéma extrakční úlohy Formulace zadání extrakční úlohy Extrakce čeho z čeho Rešerše existujících řešení Data kde a jak získat myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace 8

Schéma extrakční úlohy Data z technického pohledu Více zdrojů, více formátů Volba interní datové reprezentace myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace 9

Schéma extrakční úlohy Jazyk ~ počítačové zpracování přirozeného jazyka (dále NLP) obohacení surového textu o jazykovědné informace Více dat ~ datové zdroje Slovníky, číselníky, myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace 10

NLP jazyk obohacení více dat Platforma Treex MorphoDita Morfologie (tvarosloví) Trénováno na PZK MST parser Syntax (větný rozbor) Trénováno na PZK NameTag Pojmenované entity Trénováno na CNEC věta větný člen formém séma morfém morf morfoném 11 TR VČR MR foném dist. rys http://ufal.mff.cuni.cz/treex, Pražský závislostní korpus (PZK), Czech Named Entity Corpus (CNEC) MFR

NLP MorphoDiTa & MST parser jazyk obohacení více dat http://ufal.mff.cuni.cz/tools/treex-web, MorphoDiTa 12

NLP NameTag jazyk obohacení více dat http://ufal.mff.cuni.cz/nametag 13

Schéma extrakční úlohy Specifikace entit Specifikace vztahů (relací) mezi entitami myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace 14

Schéma extrakční úlohy Akademická evaluace Uživatelská evaluace myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace 15

Extrakční systém myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace 16

Extrakce informací z textů Domény Legislativní Zákony, vyhlášky (dále zákony) Soudní rozhodnutí (dále judikáty) Environmentální Záměry EIA (dále záměry) 17

Zákony 3 (2) Účetním obdobím je nepřetržitě po sobě jdoucích dvanáct měsíců, není-li dále stanoveno jinak. Účetní období se buď shoduje s kalendářním rokem nebo je hospodářským rokem. 12 (2) Účetní jednotky jsou povinny provádět účetní zápisy průběžně v účetním období po vyhotovení účetního dokladu takovým způsobem, který neohrozí splnění požadavků rovněž jiných právních předpisů. myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace Zdroj: Předpis č. 563/1991 Sb. (Zákon o účetnictví) 18

Zákony myšlenka Práva a povinnosti (2) Účetní jednotky jsou povinny provádět účetní zápisy průběžně Definice pojmů (2) Účetním obdobím je nepřetržitě po sobě jdoucích dvanáct měsíců, 19

Zákony data Sbírka zákonů ČR zakonyprolidi.cz Konverze do interního XML 20

Zákony jazyk obohacení více dat Morfologie Syntax 21

Zákony jazyk obohacení více dat Slovník entit Entity z Vyhlášky o účetnictví ručně v editoru brat Předpis č. 500/2002 Sb. http://brat.nlplab.org/ 22

Zákony entity extrakce vztahy Entity dle slovníku Vztahy Subjekt, predikát, objekt Entita má právo Entita má povinnost Entita je 23

Zákony extrakční systém myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace Demo: http://quest.ms.mff.cuni.cz:14280/ 24

Zákony jazyk obohacení více dat MorphoDiTa a MST Parser jsou natrénované na publicistických textech Rozdíly v doménách Úspěšnost MST Parseru na zákonech měřená na Czech Legal Text Treebank 80% 85% na PZK https://ufal.mff.cuni.cz/czech-legal-text-treebank 25

Zákony Pravidlová segmentace 26

Zákony Pravidlová re-tokenizace 27

Zákony entity extrakce vztahy Extrakční pravidla Grafický editor PML-TQ http://ufal.mff.cuni.cz/pmltq/ 28

Zákony evaluace Akademická ručně identifikované entity a vztahy mezi nimi ve Vyhlášce o účetnictví Extrakce entit recall 91%, precision 57% Extrakce vztahů recall 63%, precision 80% Uživatelská Dosud neproběhla 29

datum poučení odůvodnění výrok úvod Judikáty ČESKÁ REPUBLIKA ROZSUDEK JMÉNEM REPUBLIKY Nejvyšší správní soud rozhodl v senátu složeném z předsedy JUDr. Jana Passera se zrušuje a věc se vrací tomuto soudu k dalšímu řízení. Odůvodnění : I. Rozhodnutím ze dne 30. 11. 2005, čj. 16/94068/2005/1327, žalovaný zamítl odvolání žalobce a potvrdil Poučení: Proti tomuto rozsudku nejsou opravné prostředky přípustné. V Brně 22. září 2010 myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace Zdroj: url 30

Judikáty myšlenka Dostupnost judikátů zveřejňování 31

Judikáty myšlenka Informace o účastnících Nejvyšší správní soud rozhodl v senátě složeném z předsedy JUDr. Radana Malíka a soudkyň Mgr. Daniely Zemanové a JUDr. Barbary Pořízkové v právní věci stěžovatele Ing. V. K., role-soudce role-soudce role-soudce JUDr. Radan Malík Mgr. Daniela Zemanová JUDr. Barbara Pořízková role-žalobce Ing. V. K. 32

Judikáty Judikáty ze dvou advokátních kanceláří 191 + 191 pdf txt Anotace entit v editoru brat 1/3 ručně 2/3 ruční kontrola automatické procedury Role data Soudce Žalobce Žalovaný Právní zástupce Rozhodující orgán 33

Judikáty data Proložená slova Pravidlová detekce proloženého textu Pravidlová segmentace textu Externí slovník ve formátu Hunspell Slovník příjmení Českého statistického úřadu Pravidlové generování možných tvarů příjmení Evaluace na testovacím vzorku I. Kasační stížnost s e z a m í t á. II. Žalobci s e n e p ř i z n á v á právo na náhradu nákladů řízení o kasační stížnosti. 34

Judikáty jazyk obohacení více dat NameTag 35

Judikáty jazyk obohacení více dat Seznam příjmení Českého statistického úřadu* Adresy firem ze seznamu RÚIAN** Databáze IČO*** *url, ** Registr územní identifikace, adres a nemovitostí url, ***url 36

Judikáty entity extrakce vztahy Entity Typy entit účastníci řízení (osoba, firma, ) Vztahy Role entit (žalobce, odpůrce, ) 37

Judikáty extrakční systém myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace Demo: http://courtdoc.praetoris.cz/ 38

extrakce entity Judikáty extrakční systém vztahy Pravidla Extrakce typů entit a rolí Strojové učení NameTag+SVM NameTag extrahuje typy entit SVM detekuje jejich role Hybridní Pravidla extrahují typy entit a role NameTag je používá jako příznaky 39

Judikáty evaluace Pravidla 40 Zdroj výsledků: (Maslowski, 2015)

Judikáty evaluace Strojové učení Zdroj výsledků: (Maslowski, 2015) 41

Judikáty evaluace Strojové učení Zdroj výsledků: (Maslowski, 2015) 42

Judikáty evaluace Hybridní Zdroj výsledků: (Maslowski, 2015) 43

extrakce entity vztahy Judikáty extrakční systém Normalizace Jména osob MorphoDiTa Extrahovat lemmata Jména soudů pravidla Adresy pravidla 44

Záměry Golfové hřiště ZÁMECKÝ GOLF PRAHA v Praze 9-Vinoři Oznámení záměru podle přílohy 3. zákona č. 100/2001 Sb., o posuzování vlivů na životní prostředí a o změně některých souvisejících zákonů, ve znění zákona č. 93/2004 Sb. a zákona č. 163/2006 Sb. Areál golfového hřiště ZÁMECKÝ GOLF PRAHA bude realizován na celkové ploše cca 60,5 ha. Bude zde vybudováno 18jamkové golfové hřiště. Provoz 18jamkového hřiště bude zajišťovat 5 stálých a 9 sezónních zaměstnanců. myšlenka data obohacení jazyk více dat extrakce entity vztahy evaluace Zdroj: http://portal.cenia.cz/eiasea/detail/eia_pha486 45

Záměry myšlenka Oznámení záměru, Stanovisko, Stanovisko Natura Základní údaje o záměru Údaje o vlivech a výstupech Závěrečné stanovisko Struktura dána zákonem, nedodržuje se 46

Záměry myšlenka Kvantifikované údaje Provoz 18jamkového hřiště bude zajišťovat 5 stálých a 9 sezónních zaměstnanců. pracovní pozice hřiště 5 stálých zaměstnanců 9 stálých zaměstnanců 47

data Záměry Záměry ze systému EIA* doc, pdf Sekce B.I.2 Konverze do interního XML *url 48

Záměry jazyk obohacení více dat MorphoDita 49

Záměry jazyk obohacení více dat 50

Záměry entity extrakce vztahy Entity dle slovníku Vztahy kvantifikace Kapacita mlékárenské části bude 370.000 l zpracovaného mléka. 51

Záměry extrakční systém myšlenka data obohacení jazyk více dat entity extrakce vztahy evaluace Demo: http://intlib.sysnet.cz:8080/1 52

Záměry extrakční systém Platforma Gate Vzdálené volání Treex https://gate.ac.uk/ 53

Záměry extrakční systém Pravidla regulární výrazy extrakce entity vztahy Kapacita mlékárenské části bude 370.000 l zpracovaného mléka. (Veličina) (Entita) (Číslo) (Jednotka) (Adj.2. pád)? (Entita) 54

Záměry evaluace Akademická evaluace neproběhla Vývojářská evaluace Autoři slovníků na vybrané množině záměrů ručně kontrolovali výstup extraktoru Uživatelská evaluace neproběhla 55

Závěrečný povzdech Rule-based Information Extraction is Dead! (Chiticariu, 2013) 56

Závěrečný povzdech Slovníky entit Slovníky vazeb extrakce NLP SU? Pravidla? uplatnění Zákony -- PML-TQ dotazy?? Judikáty -- -- SU, RV 50:50? Záměry RV? 57

Reference Chiticariu Laura, Li Yunyao, Reiss Frederick R. Rulebased Information Extraction is Dead! 2013. (url) Jägerová Tereza a kol. Metodika pro automatizované inteligentní vytěžování nestrukturovaných dat v environmentální doméně. 2014. (url) Kríž Vincent, Hladká Barbora. RExtractor: a Robust Information Extractor. 2015. (url) Maslowski Bohdan. Automatické zpracování českých soudních rozhodnutí. Diplomová práce, MFF UK, 2015. 58