Právní datasety co, proč, kdo a komu Jakub HARAŠTA Ústav práva a technologií, Právnická fakulta MU Podpořeno Grantovou agenturou České republiky projekt GA17-20645S
Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr
Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr
Úvod information retrieval Datové a metadatové vyhledávání Datové vyhledávání (fulltext) Musím mít představu o tom, co v dokumentu je, abych ho mohl najít Metadatové vyhledávání Objektivní metadata (sp.zn., datum, soud) Subjektivní metadata (relevantní ustanovení)
Úvod subjektivní metadata 2 AutZ + publikováno v zelené sbírce 30 Cdo 2864/2015 // ASPI BECK CODEXIS 30 Cdo 5008/2014 // ASPI BECK CODEXIS 5 Tdo 966/2012 // ASPI BECK CODEXIS Co je to správné řešení?
Úvod výzkum Kvantitativní/kvalitativní výzkum závisí na identifikaci relevantní populace a její reprezentativnosti Rozhodnutí Předpisy Knihy / komentáře Potřebujeme prosté datasety kolekce dokumentů nad kterými bude možné provádět analytické úkony směřující k identifikaci populace Kompletnost / dostupnost
Úvod automatizace Automatické rozpoznávání a extrakce Agentů Referencí Argumentů Segmentů Využíváme jako předpoklad o tom, kdo je původcem reference v dané části Potřebujeme obohacené datasety Odbornost / dostupnost
Úvod využití Užitečné pro: Sémantika a právní interpertace (korpusová analýza) Vzdělávání (odůvodňování / argumentace, metodologie) Citační analýza (relevance, IR) Legislativní činnost (tvorba norem) Software: Počítačový program (AutZ), program počítačů (PatZ)
Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr
Právní datasety právní informační systémy Právní informační systémy Výzkumné korpusy/datasety poskytují větší flexibilitu, protože neomezují uživatele předdefinovaným GUI Výzkumné korpusy/datasety Ne vždy jsou zveřejňovány
Dostupné datasety Odlišný účel, velikost, použitý jazyk
Dostupné datasety - příklady American Law Corpus (ALC) Časopisy, kontrakty, legislativa 5,5 milionu slov; angličtina British Law Reports Corpus (BLaRC) Law reports z UK od 2008 do 2010 1228 textů; angličtina Corpus of European Law (CAL 2 ) Zákony, akademické teyty, rozhodnutí od ca 1980 do dneška 1 miliarda slov; nemčina/angličtina Corpus of Historical English Law Reports (CHELAR) Anglické law reports od roku 1535 do roku 1999 Půl milionu slov JRC-Acquis Legislativa EU Téměř 500 000 textů; 22 jazyků Credit Card Agreement Database Podmínky poskytovatelů kreditních karet v USA Každý rok všechny (archivace 4x ročně); angličtina MODERN Database / LEGACY Database Rozhodnutí SCotUS (Codebook má 128 stran) 1946 2017 / 1791 1945; angličtina CAIL2018 Rozhodnutí Nejvyššího soudu ČLR 2,6 milionů trestních rozhodnutí; čínština
Dostupné datasety - ČR Nástroje: INTLIB: Komponenty pro zpracování legislativních dokumentů (http://www.ksi.mff.cuni.cz/~knap/odcs/) Anotovaný korpus 300 rozhodnutí (NS, ÚS) pro detekci referencí/pojmenovaných entit Kríž, Vincent and Hladká, Barbora, 2014, Czech Court Decisions Dataset, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11234/1-2853. Demo JTagger na https://quest.ms.mff.cuni.cz/jtagger/ Anotovaný korpus 350 rozhodnutí (NS, NSS, ÚS) pro extrakci referencí Harašta, Jakub; Šavelka, Jaromír; Kasl, František; et al., 2018, Annotated Corpus of Czech Case Law for Reference Recognition Tasks, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University,http://hdl.handle.net/11234/1-2647. Judikatura NS, NSS, ÚS?
Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr
Rozhodovací praxe korpusová lingvistika Interpretace: Textualismus Živoucí Ústava Originalismus State v. Rasabout Trestný čin to discharge weapon Je discharge spíše to shoot nebo to unload? COCA (Corpus of Contemporary American English) v disentu soudce Lee Inference významu z frekvence výskytu významu v datasetu v porovnání s alternativním významem Přisouzení širšího či užšího významu má významné následky pro výklad pojmu do budoucna (může mít i v ČR)
Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr
Možnosti Vývoj nástrojů a aplikací pro analýzu právních dat i mimo rámec právních informačních systémů Např. v USA/UK se objevuje u velkých advokátních kanceláří pro práci s důkazy (discovery v rámci velkých dat, red flagging podezřelé komunikace) Objektivnější přístup v případě výběru populace pro kvalitativní/kvantitativní analýzu USA: Vědecký originalismus Snaha určit objektivní metodou originální význam, který termínu zákonodárce přisoudil
Kritika Více dat nemusí znamenat lepší výsledky U tvorby je nutné přemýšlet Výsledný efekt není o existenci korpusu/datasetu, ale o motivaci / schopnostech Právníci vs. schopnost s korpusem pracovat a pochopit jeho význam
Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr
Problémy s tvorbou Právník Tohle všechno je hrozně zajímavý, pojďme to anotovat, třeba to pak půjde automatizovat. ( The Annotation scheme was not create with full automation in mind. ) např. obsah reference (sémantickou informaci) máme v datasetu anotovanou s IAA.26 (strict) /.54 (overlap) Chybí znalosti jak to dělat Neprávník Nepochopení významu judikatury, soustavy soudů, struktury soudního rozhodnutí atd. Chybí znalosti co dělat Spolupráce Toto se nicméně netýká prostých datasetů, což je spíše technická/ideologická otázka např. zveřejňování rozhodnutí NS po letech otevřená data?
Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr
Závěr Dostupnost datasetů snižuje režijní náklady na výzkum Prosté datasety zvyšují dostupnost dat (aneb řekněte na NS/NSS/ÚS, že chcete jejich databázi na USB) složitější analýza, ale výsledky bez zkreslení Prosté datasety umožňují vylepšovat aplikace/nástroje na stejných datech (např. part-of-speech tagging, word segmentation) Obohacené datasety zvyšují replikovatelnost (AI&law) Obohacené datasety mohou sloužit jako zlatý standard v případě správnosti Netriviální náklady na vytvoření datasetu
Závěr II Nutná spolupráce ( obohacené datasety) a nutná jistá míra aktivismu ( prosté datasety)
Děkuji Vám za pozornost! jakub.harasta@law.muni.cz Podpořeno Grantovou agenturou České republiky projekt GA17-20645S