Statistical Recognition of References in Court Decisions

Podobné dokumenty
Syntactic annotation of a second-language learner corpus

Compression of a Dictionary

Klepnutím lze upravit styl předlohy. Klepnutím lze upravit styl předlohy. nadpisů. nadpisů. Aleš Křupka.

Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU

Vincent Kríž, Barbora Hladká. RExtractor. Entity Relation Extraction from Unstructured Texts. Intelligent library (INTLIB, TA )

Universal Dependencies and non-native Czech

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Vybrané aktuální projekty Centra ZPJ. Kolokace a dokumenty. Metody. Kontext:,,One-click dictionary post-editing lexicography

Contact person: Stanislav Bujnovský,

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Name: Class: Date: RELATIONSHIPS and FAMILY PART A

Jakub Zavodny (University of Oxford, UK)

Translation Model Interpolation for Domain Adaptation in TectoMT

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

Co vím o Ázerbájdžánu?

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Mut goes shopping VY_22_INOVACE_27. Vzdělávací oblast: Jazyk a jazyková komunikace. Vzdělávací obor: Anglický jazyk. Ročník: 6

CZ.1.07/1.5.00/

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

WORKSHEET 1: LINEAR EQUATION 1

Katalogy gramofonových firem ze začátku 20. století Catalogues of record companies from the early 20th century

Faktorované překladové modely. Základní informace

CZ.1.07/1.5.00/

CZ.1.07/1.5.00/

Bibliometric probes into the world of scientific publishing: Economics first

COMPETENT AUTHORITY responsible for ensuring compliance with Regulation (EC) No 21/2004:

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

ŽÁDOST O UZNÁNÍ ZAHRANIČNÍHO VYSOKOŠKOLSKÉHO VZDĚLÁNÍ A KVALIFIKACE APPLICATION FOR THE RECOGNITION OF FOREIGN EDUCATION IN THE CZECH REPUBLIC

Katalogy gramofonových firem ze začátku 20. století Dostupný z

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Industry Robert BOSCH

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Identifikace poruchy osobnosti z psaného textu

2. Entity, Architecture, Process

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

GENERAL INFORMATION RUČNÍ POHON MANUAL DRIVE MECHANISM

Třída: VI. A6 Mgr. Pavla Hamříková VI. B6 RNDr. Karel Pohaněl Schváleno předmětovou komisí dne: Podpis: Šárka Richterková v. r.

COUNCIL OF THE EUROPEAN UNION. Brussels, 17 January /05 COPEN 9 EJN 1 EUROJUST 1

Transportation Problem

Czech Technical University in Prague DOCTORAL THESIS

INSTITUT KLINICKÉ A EXPERIMENTÁLNÍ MEDICÍNY

Introduction to MS Dynamics NAV

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

Czech Crystal in Chengdu 2016 捷克水晶闪亮成都

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

Database systems. Normal forms

Petr Plecháč Robert Ibrahim (Institute of Czech Literature AS CR) DATABASE OF CZECH VERSE

CZ.1.07/1.5.00/

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Recognized Cambridge English Certificates by universities in the Czech republic

On the Structure of Constituent Negation in Czech

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Student: Draw: Convex angle Non-convex angle

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

2 Axiomatic Definition of Object 2. 3 UML Unified Modelling Language Classes in UML Tools for System Design in UML 5

BOOK LEATHER COLLECTION 2015

SEZNAM PŘÍLOH. Příloha 1 Dotazník Tartu, Estonsko (anglická verze) Příloha 2 Dotazník Praha, ČR (česká verze)... 91

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

MO-ME-N-T MOderní MEtody s Novými Technologiemi CZ.1.07/1.5.00/

Distribution of Sorbus thayensis in the Czech Republic

Aktuální trendy ve výuce a testování cizích jazyků v akademickém prostředí

DATA SHEET. BC516 PNP Darlington transistor. technický list DISCRETE SEMICONDUCTORS Apr 23. Product specification Supersedes data of 1997 Apr 16

Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám

kupi.cz Michal Mikuš

The Military Technical Institute

Vytěžování znalostí z dat

ROZHODNUTÍ O PŘEDBĚŽNÉM OPATŘENÍ PODLE 76B O.S.Ř., PROBLÉMY, SE KTERÝMI SE POTÝKÁ SOUD

Dynamic programming. Optimal binary search tree

Hledání nápadů v textových zdrojích

Strojové učení a pravidla pro extrakci informací z textů

POPIS TUN TAP. Vysvetlivky: Modre - překlad Cervene - nejasnosti Zelene -poznamky. (Chci si ujasnit o kterem bloku z toho schematu se mluvi.

TESSIN OLZA CUP ČESKÝ TĚŠÍN 2011

GREAT BRITAIN. III/2 Inovace a zkvalitnění výuky prostřednictvím ICT. Anglický jazyk Třída 3.A Téma hodiny Druh materiálu

Aplikace matematiky. Dana Lauerová A note to the theory of periodic solutions of a parabolic equation

Karta předmětu prezenční studium

Perception Motivated Hybrid Approach to Tone Mapping

Karta předmětu prezenční studium

Výuka odborného předmětu z elektrotechniky na SPŠ Strojní a Elektrotechnické

kterou se provádí zákon č. 122/2000 Sb., o ochraně sbírek muzejní povahy a o změně některých dalších zákonů

ITICA. SAP Školení přehled Seznam kurzů

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová

14,35 - Standardizace portálové platformy MEFANET: den zúčtování s projektem OP VK

Vapnik-Chervonenkis learning theory

Výkon závislé práce mimo pracovněprávní vztah Červen 2012

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Základní škola Marjánka

ehealth a bezpečnost dat

Building an Error-tagged Learner Corpus of Czech

I. ÚS 230/08. Text judikátu. Exportováno: , 00: , Ústavní soud

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

Dobývání znalostí z databází

TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH

CZ.1.07/1.5.00/

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

7.VY_32_INOVACE_AJ_UMB7, Tázací dovětky.notebook. September 08, 2013

KULOVÝ STEREOTEPLOMĚR NOVÝ přístroj pro měření a hodnocení NEROVNOMĚRNÉ TEPELNÉ ZÁTĚŽE

Transkript:

Vincent Kríž Statistical Recognition of References in Court Decisions Intelligent library (INTLIB, TA02010182) Seminář strojového učení a modelování, 2014-02-27 Institute of Formal and Applied Linguistics Faculty of Mathematics and Physics Charles University in Prague Czech Republic kriz@ufal.mff.cuni.cz http://ufal.mff.cuni.cz/~kriz

Outline INTLIB ÚFAL NLP World Legislation domain JTagger Motivation Court decisions Manual annotation Experiments Evaluation & Error analysis

Outline INTLIB ÚFAL NLP World Legislation domain JTagger Motivation Court decisions Manual annotation Experiments Evaluation & Error analysis

Motivation large collections of documents efficient browsing & querying typical approaches full-text search metadata search no semantics semantics interpretation of documents suitable DB & query language user-friendly browsing & querying

Strategy Documents semi-structured documents from some domain legislative documents, project/medical documentation Extractor NLP techniques Data Linked data automatically interconnected with other related data and with the original documents

Legislation domain - semantics Extracting concepts and relationships between them from documents court decisions Entities: references, institutions, acts, dates Relations: whole story of a case acts, regulations,... Entities: subjects, things, locations,... Relations: rights, obligations,...

Outline INTLIB ÚFAL NLP World Legislation domain JTagger Motivation Court decisions Manual annotation Experiments Evaluation & Error analysis

NLP Group Tools segmentation & tokenization lemmatization & morphology syntactic parsing deep syntactic parsing

Outline INTLIB ÚFAL NLP World Legislation domain JTagger Motivation Court decisions Manual annotation Experiments Evaluation & Error analysis

Czech court decisions Unified style of court decisions No rules what to cite Other court decisions only Literature Everything Blogs, Web sites, Bible,

Existing systems ASPI No hyperlinks in texts

Outline INTLIB ÚFAL NLP World Legislation domain JTagger Motivation Court decisions Manual annotation Experiments Evaluation & Error analysis

Motivation Ústavní soud rozhodl v senátu složeném z předsedy senátu Vojena Güttlera a soudců Ivany Janů a Františka Duchoně o ústavní stížnosti stěžovatele Ing. M. B., zastoupeného Mgr. Jaromírem Hladíkem, advokátem advokátní kanceláře Hladík, Hladíková & Partneři se sídlem 17. listopadu 623, Pardubice, proti výroku I. rozsudku Okresního soudu ve Svitavách ze dne 21. 02. 2006, č. j. 0 Nc 426/2004-210, proti výroku I. rozsudku Okresního soudu ve Svitavách ze dne 05. 12. 2007, č. j. 0 P 348/2006-297, proti výroku I. rozsudku Krajského soudu v Hradci Králové - pobočka v Pardubicích ze dne 05. 08. 2008, č. j. 22 Co 116/2008-516, proti usnesení Okresního soudu ve Svitavách ze dne 13. 07. 2011, č. j. 0 P 348/2006-897, ve spojení s opravným usnesením Okresního soudu ve Svitavách ze dne 20. 07. 2011, č. j. 0 P 348/2006-911, a proti usnesení Krajského soudu v Hradci Králové - pobočka v Pardubicích ze dne 17. 10. 2011, č. j. 22 Co 440/2011-953, a proti průtahům v řízení vedeném u Okresního soudu ve Svitavách pod sp. zn. 0 P 348/2006, za účasti Krajského soudu v Hradci Králové - pobočka Pardubice a Okresního soudu ve Svitavách jako účastníka řízení a nezl. S. B. a M. B., jako vedlejších účastníků řízení, zastoupených Městským úřadem v Moravské Třebové, nám. T. G. Masaryka 29, Moravská Třebová ( dále jen "opatrovník" ), takto :

Motivation Ústavní soud rozhodl v senátu složeném z předsedy senátu Vojena Güttlera a soudců Ivany Janů a Františka Duchoně o ústavní stížnosti stěžovatele Ing. M. B., zastoupeného Mgr. Jaromírem Hladíkem, advokátem advokátní kanceláře Hladík, Hladíková & Partneři se sídlem 17. listopadu 623, Pardubice, proti výroku I. rozsudku Okresního soudu ve Svitavách ze dne 21. 02. 2006, č. j. 0 Nc 426/2004-210, proti výroku I. rozsudku Okresního soudu ve Svitavách ze dne 05. 12. 2007, č. j. 0 P 348/2006-297, proti výroku I. rozsudku Krajského soudu v Hradci Králové - pobočka v Pardubicích ze dne 05. 08. 2008, č. j. 22 Co 116/2008-516, proti usnesení Okresního soudu ve Svitavách ze dne 13. 07. 2011, č. j. 0 P 348/2006-897, ve spojení s opravným usnesením Okresního soudu ve Svitavách ze dne 20. 07. 2011, č. j. 0 P 348/2006-911, a proti usnesení Krajského soudu v Hradci Králové - pobočka v Pardubicích ze dne 17. 10. 2011, č. j. 22 Co 440/2011-953, a proti průtahům v řízení vedeném u Okresního soudu ve Svitavách pod sp. zn. 0 P 348/2006, za účasti Krajského soudu v Hradci Králové - pobočka Pardubice a Okresního soudu ve Svitavách jako účastníka řízení a nezl. S. B. a M. B., jako vedlejších účastníků řízení, zastoupených Městským úřadem v Moravské Třebové, nám. T. G. Masaryka 29, Moravská Třebová ( dále jen "opatrovník" ), takto : Ústavní soud rozhodl v senátu složeném z předsedy senátu Vojena Güttlera a soudců Ivany Janů a Františka Duchoně o ústavní stížnosti stěžovatele Ing. M. B., zastoupeného Mgr. Jaromírem Hladíkem, advokátem advokátní kanceláře Hladík, Hladíková & Partneři se sídlem 17. listopadu 623, Pardubice, proti výroku I. rozsudku Okresního soudu ve Svitavách ze dne 21. 02. 2006, č. j. 0 Nc 426/2004-210, proti výroku I. rozsudku Okresního soudu ve Svitavách ze dne 05. 12. 2007, č. j. 0 P 348/2006-297, proti výroku I. rozsudku Krajského soudu v Hradci Králové - pobočka v Pardubicích ze dne 05. 08. 2008, č. j. 22 Co 116/2008-516,

Motivation Včas podanou ústavní stížností, splňující i další formální náležitosti podání dle zákona č. 182/1993 Sb., o Ústavním soudu, ve znění pozdějších předpisů ( dále jen "zákon o Ústavním soudu" ), brojí stěžovatelka proti výše citovaným rozhodnutím, neboť má za to, že jimi bylo porušeno její ústavně zaručené právo na spravedlivý proces garantované čl. 36 Listiny základních práv a svobod (dále jen "Listina") a čl. 90 Ústavy ČR (dále jen "Ústava").

Motivation Včas podanou ústavní stížností, splňující i další formální náležitosti podání dle zákona č. 182/1993 Sb., o Včas Ústavním podanou soudu, ústavní ve znění stížností, pozdějších splňující předpisů i další formální ( náležitosti dále jen "zákon podání o Ústavním dle zákona soudu" č. 182/1993 ), Sb., brojí o Ústavním stěžovatelka soudu, proti ve znění výše pozdějších citovaným předpisů rozhodnutím, neboť ( dále má jen za to, "zákon že jimi o Ústavním bylo porušeno soudu" ), její ústavně zaručené právo brojí na stěžovatelka spravedlivý proti proces výše garantované citovaným rozhodnutím, čl. neboť 36 Listiny má za to, základních že jimi bylo práv porušeno a svobod její ústavně zaručené (dále právo jen na "Listina") spravedlivý a proces čl. 90 garantované Ústavy ČR (dále jen "Ústava"). čl. 36 Listiny základních práv a svobod (dále jen "Listina") a čl. 90 Ústavy ČR (dále jen "Ústava").

Outline INTLIB ÚFAL NLP World Legislation domain JTagger Motivation Court decisions Manual annotation Experiments Evaluation & Error analysis

Court decisions References to whole documents Document names Ústava ČR Listina základních práv a slobod Document numbers zákon č. 128/2008 Sb. Both the name & the number zákon č. 128/2008 Sb., o Ústavním soudu References to specific parts in a document 128 čl. 3 odst 1

Court decisions Abbreviations Acronyms Občanský soudní řád OSŘ General words from the official institution's name Krajský soud v Pardubicích krajský soud One word from the official act's name Listina základních práv a svobod Listina

Tagset Entities References on court decisions acts Effectiveness of Act Relations Publisher Institution Decision Abbreviation Institutions

Experiment pipeline

Outline INTLIB ÚFAL NLP World Legislation domain JTagger Motivation Court decisions Manual annotation Experiments Evaluation & Error analysis

Manual annotation Annotation in Brat (http://brat.nlplab.org)

Manual annotation Annotate each occurrence of the entity One token can be annotated with more labels zákon o Ústatním soudu Each document was annotated by one annotator

Manual annotation Minutes spend on the annotation (first 102 documents)

Manual annotation Data sets Corpus of manually annotated court decisions The Supreme Court (150) The Constitutional Court (150) SC CC # of docs # of tokens # of entities # of docs # of tokens # of entities Training set 135 332,535 8,487 135 312,191 7,910 Test set 15 36,999 943 15 34,701 879 Total 150 369,534 9,430 150 346,892 8,789

Manual annotation Data sets Corpus of manually corrected court decisions The Supreme Court (93) The Constitutional Court (91) SC CC # of docs # of tokens # of entities # of docs # of tokens # of entities Total 93 120,856 6,047 91 100,464 4,945

Manual annotation Data sets Entity and token distribution in the training and test data averaged over 10 cross-validation folds Act Decision Effectiveness Institution SC CC # of Tokens # of Entities # of Tokens # of Entities Training 43117 (89%) 11074 (86%) 1262 (83%) 12425 (90%) Test 5348 (11%) 1855 (14%) 265 (17%) 1450 (10%) Training 3949 (90%) 1304 (90%) 222 (90%) 2485 (90%) Test 439 (10%) 145 (10%) 25 (10%) 276 (10%) Training 19675 (88%) 12780 (86%) 843 (89%) 14767 (89%) Test 2707 (12%) 2127 (14%) 102 (11%) 1743 (11%) Training 2338 (90%) 1481 (90%) 210 (90%) 3206 (90%) Test 260 (10%) 165 (10%) 23 (10%) 356 (10%)

Manual annotation Data sets Average entity lengths in tokens averaged over 10 cross-validation folds SC CC Training set Test set Traininig set Test set Act 10.9 12.2 8.4 10.4 Decision 8.5 12.8 8.6 12.9 Effectiveness 5.7 10.7 4 4.4 Institution 5 5.3 4.6 4.9

Outline INTLIB ÚFAL NLP World Legislation domain JTagger Motivation Court decisions Manual annotation Experiments Evaluation & Error analysis

Experiments Machine Learning experiments Hidden Markov models (HMM) Perceptron Algorithm with Uneven Margins (PAUM)

Methods Hidden Markov models (HMM) pattern recognition - speech, handwriting, gesture recognition, part-of-speech tagging,... the Plenum of the Constitutional Court on 28th April DT NNP IN DT NNP NNP IN JJ NNP NONE NONE NONE INTS INST INST NONE NONE NONE noisy chanel the:none Plenum:NONE of:none the:inst Constitutional:INST Court:INST on:none 28th:NONE April:NONE noisy channel the Plenum of the Constitutional Court on 28th April

Methods Support Vector Machines (SVM) attempt to find a hyperplane that separates data goal: maximize margin separating two classes wider margin = greater generalisation kernel functions simple extension for multiclass classifiers Credit: GATE, The University of Sheffield

Methods Perceptron oldest ML method some similarities to SVM checks the training examples one by one by predicting their labels prediction is correct» the example is passed otherwise» correct the model stop when the model classifies all training examples correctly no-margin constraint x1 x1 x2 x2 x3 x3 w1 w1 w2 w3 w3 ff f(x) = wx + b Credit: GATE, The University of Sheffield

Methods Perceptron Algorithm with Uneven Margins (PAUM) PAUM doesn't position the separator right between the points, but over one side In NLP the datasets are often very imbalanced instances of Person Credit: GATE, The University of Sheffield

Models Models HMM PM Small PM trigrams of word forms 5-grams of word forms PM POS 5-grams of lemmas and POS-tags PM POS EXT PM POS + orthography features

Models Models HMM PM Small PM trigrams of word forms 5-grams of word forms PM POS 5-grams of lemmas and POStags PM POS EXT PM POS + orthography features HMM the:none Sequence of token + label Plenum:NONE of:none the:inst Constitutional:INST Court:INST on:none 28th:NONE April:NONE

Models Models HMM PM Small PM trigrams of word forms 5-grams of word forms PM POS 5-grams of lemmas and POStags PM POS EXT PM POS + orthography features PM Small trigrams of word forms [the, Plenum, of]:none [Plenum, of, the]:none [of, the, Constitutional]:NONE [the, Constitutional, Court]:INST_S [Constitutional, Court, on]:none [Court, on, 28th]:INST_E [on, 28th, April]:NONE

Models Models HMM PM Small PM trigrams of word forms 5-grams of word forms PM POS 5-grams of lemmas and POStags PM POS EXT PM 5-grams of word forms [the, Plenum, of, the, Constitutional]:NONE [Plenum, of, the, Constitutional, Court]:NONE [of, the, Constitutional, Court, on]:none [the, Constitutional, Court, on, 28th]:INST_S [Constitutional, Court, on, 28th, April]:NONE PM POS + orthography features

Models Models HMM PM Small PM trigrams of word forms 5-grams of word forms PM POS 5-grams of lemmas and POStags PM POS EXT PM POS + orthography features PM POS 5-grams of lemmas and POS-tags [the, Plenum, of, the, Constitutional]:NONE [DT, NN, RR, DT, AD]:NONE [Plenum, of, the, Constitutional, Court]:NONE [NN, RR, DT, AD, NN]:NONE [of, the, Constitutional, Court, on]:none [RR, DT, AD, NN, RR]:NONE [the, Constitutional, Court, on, 28th]:INST_S [DT, AD, NN, RR, CR]:INST_S

Models Models HMM PM Small PM trigrams of word forms 5-grams of word forms PM POS 5-grams of lemmas and POStags PM POS EXT PM POS + orthography features PM POS EXT PM POS + orthography features [FIRST, the, Plenum, of, the]:none [XX, DT, NN, RR, DT]:NONE [XX, LC, UI, LC, LC]:NONE [the, Plenum, of, the, Constitutional]:NONE [DT, NN, RR, DT, AD]:NONE [LC, UI, LC, LC, UI]:NONE

Outline INTLIB ÚFAL NLP World Legislation domain JTagger Motivation Court decisions Manual annotation Experiments Evaluation & Error analysis

Evaluation Standart evaluation measures Accuracy = tp + tn / tp + fp + fn + tn Precision = tp / tp + fp Recall = tp / tp + fn F-measure = 1 / (α/p + 1-α/R) Confusion matrix Goldstandard Recognizer True False Positive tp fp Negative fn tn

Evaluation Multi-token entities» overlapping matches Evaluation on tokens on entities strict lenient Statistical significance 10-fold cross-validation Confidence intervals (t-test)

Evaluation Strict F1 on entities Entity HMM PM pos ext PM pos PM PM small SC A 0,75±0.02 0,91±0,02 0,91±0,03 0,89±0,03 0,88±0,03 D 0,82±0,08 0,97±0,02 0,96±0,02 0,95±0,03 0,94±0,02 E 0,89±0,04 0,90±0,05 0,89±0,05 0,88±0,08 0,82±0,1 I 0,92±0,03 0,96±0,02 0,96±0,02 0,95±0,02 0,96±0,02 CC A 0,63±0,05 0,87±0,02 0,86±0,02 0,84±0,03 0,78±0,03 D 0,83±0,05 0,95±0,03 0,95±0,03 0,93±0,03 0,92±0,03 E 0,96±0,03 0,96±0,03 0,96±0,03 0,96±0,03 0,96±0,03 I 0,91±0,02 0,93±0,02 0,93±0,02 0,92±0,01 0,92±0,01

Evaluation Lenient F1 on entities Entity HMM PM pos ext PM pos PM PM small SC A 0,93±0,02 0,96±0,01 0,96±0,01 0,95±0,01 0,95±0,02 D 0,91±0,03 0,98±0,01 0,97±0,02 0,96±0,02 0,95±0,02 E 0,94±0,04 0,91±0,05 0,90±0,05 0,90±0,06 0,83±0,1 I 0,97±0,01 0,98±0,00 0,98±0,01 0,97±0,01 0,97±0,01 CC A 0,89±0,02 0,94±0,01 0,94±0,01 0,94±0,01 0,93±0,02 D 0,93±0,03 0,97±0,02 0,97±0,02 0,96±0,02 0,95±0,03 E 0,96±0,03 0,96±0,03 0,96±0,03 0,96±0,03 0,96±0,03 I 0,97±0,01 0,98±0,01 0,98±0,01 0,97±0,01 0,97±0,01

Evaluation F1 on tokens Entity HMM PM pos ext PM pos PM PM small SC A 0,96±0,01 0,96±0,01 0,96±0,01 0,96±0,02 0,95±0,02 D 0,95±0,02 0,98±0,01 0,98±0,02 0,97±0,02 0,96±0,02 E 0,94±0,03 0,89±0,06 0,88±0,06 0,88±0,06 0,79±0,12 I 0,96±0,01 0,97±0,01 0,97±0,01 0,97±0,01 0,96±0,02 CC A 0,94±0,01 0,94±0,01 0,93±0,01 0,93±0,02 0,89±0,02 D 0,95±0,02 0,96±0,02 0,96±0,01 0,96±0,02 0,94±0,02 E 0,96±0,03 0,96±0,04 0,96±0,04 0,96±0,04 0,96±0,04 I 0,95±0,01 0,95±0,01 0,95±0,02 0,95±0,01 0,94±0,01

Error analysis References labeled with two separate tags instead of one tag file no. 7 To 346/2011 Numbers in the ends of court names District Court for Prague 4 Names of foreign courts Land Court in Norimberg, Germany

JTagger On-line DEMO http://ufal.mff.cuni.cz/jtagger Open data JTagger as a component of ODCleanStore http://sourceforge.net/projects/odcleanstore/ daily, fully automatic processing and publication of the new decisions