Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU

Podobné dokumenty
Manuální anotace a sběr dat pro automatickou extrakci referencí ze soudních rozhodnutí Jakub Harašta Jaromír Šavelka

Výjimky a omezení autorského práva v českém právním řádu a jejich interpretace Matěj

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Identifikátor evropské judikatury ECLI Nejvyšší soud Úsek místopředsedy Nejvyššího soudu Oddělení dokumentace a analytiky judikatury ČR (ODAJ)

Autor: JUDr. Lukáš Bohuslav Redakce: JUDr. Petr Flášar

SíťIT: Portál na podporu sociální sítě informatiků v ČR

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Conference Economy and Law. Karlovy Vary, Czech Republic, 18th March, 2011

VIII. ÚPLNÉ ZNĚNÍ Přílohy č. 2 STATUTU UNIVERZITY KARLOVY V PRAZE ORGANIZAČNÍ ŘÁD ZE DNE 20. ČERVNA 2014

Web of Science. Přednáška kurzu informační a databázové systémy v rostlinolékařství

Kontraktační proces, informační povinnost, zjišťování bonity klientů. Milan Hulmák, Bratislava 7.

Finanční právo v soudní praxi. Úvodní seminář

Strojové učení a pravidla pro extrakci informací z textů

Opatření děkana LF MU č. 5/2013 k zajištění ověřitelnosti výzkumných dat. Část I. Základní ustanovení

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Právnická fakulta Univerzity Palackého v Olomouci. Výzkumné a vzdělávací projekty řešené. na katedře občanského práva a pracovního práva

Portál IT komunity v ČR Kamil Matoušek, Jiří Kubalík ČVUT Praha

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105


Hodnota zákazníka v podnikatelských subjektech cestovního ruchu

Autor: JUDr. Lukáš Bohuslav Redakce: JUDr. Petr Flášar

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o


Online informační zdroje na FHS UTB ve Zlíně

Opatření děkana č. 2/

Economists Online: nový portál pro ekonomické vědy

Informační zdroje na Univerzitě Palackého. Seminář Knihovny UP Podzim 2010

Úvod do studia a života na vysoké škole - vysoká škola, věda, hodnocení a financování. Informace pro nové studenty Přírodovědecké fakulty JU

PROGRAM PŘEDNÁŠEK TRESTNÍ PRÁVO (hmotné a procesní) V EVROPSKÉM PROSTŘEDÍ

Přístup k datům za účelem vědeckého výzkumu

Témata k závěrečným bakalářským zkouškám 2019

Jak vypadá opravdová discovery služba

Bibliometrie v Národní technické knihovně ~ metody, zkušenosti, mise a vize. Mgr. Jakub Szarzec Národní technická knihovna

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

Statistické metody v medicíně II. - p-hodnota

EU projekt: Identifikace potřeb poskytovatelů první lékařské pomoci při katastrofách

Zásady řízení dokumentů

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Internet zdroj informací

EBSCO Discovery Service Jan Luprich / EBSCO Information Services

Test poměrnosti cíle a prostředku

Problematické momenty z aplikace NOZ dopady NOZ na zakázkové vztahy

obecná lingvistika LING Ústav obecné lingvistiky Filozofická fakulta Univerzity Karlovy

Grantová agentura České republiky

ZVEŘEJŇOVÁNÍ ZÁVĚREČNÝCH PRACÍ A AUTORSKÉ PRÁVO. Matěj

Zdroje dat o kvalitě ovzduší a možnosti práce s nimi imise RNDr. Leona Matoušková, Ph.D.

Šedá literatura v STK: nové aktivity, nové obzory

- otevřený přístup k výsledkům vědy. Mgr. Zdeňka Firstová a Mgr. Anna Vyčítalová Univerzitní knihovna ZČU v Plzni

On the Structure of Constituent Negation in Czech

NEJVYŠŠÍ SPRÁVNÍ SOUD

Národní úložiště šedé literatury. Česká zemědělská univerzita, Hana Vyčítalová

Otevřený přístup (Open Access) v Akademii věd ČR

Referenční služby NTK

Web 2.0 vs. sémantický web

VYBRANÉ PRÁVNÍ ASPEKTY E-BUSINESSU. JUDr. Mgr. Barbora Vlachová, Ph.D.

Sémantický web 10 let poté

Nové funkce a technologie v současných a budoucích verzích Invenia. Jiří Kunčar

Osobní archivy publikovaných odborných prací v medicíně jako součást Digitální knihovny NLK

UKLÁDÁNÍ DATASETŮ DO REPOZITÁŘE ASEP. Zdeňka Chmelařová

Mission of NTK s Bibliometrics Support and Services

K otázce pokrytí publikační aktivity českých vysokých škol v bibliografických bázích dat

Vyhledávání a orientace ve vědeckých informacích z pohledu citační analýzy

Elektronické informační zdroje v AV ČR

Katalog kurzů ICT vzdělávání

Nástroje pro správu bibliografických citací

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2016

Má elektronický podpis identifikovat podepsanou osobu?

OBSAH 1 Předmluva 2 Úvod 3 Teoretická koncepce ochrany osobnosti v common law 4 Ochrana důstojnosti 5 Ochrana soukromí

Developeři. Mgr. Tomáš Běhounek bnt attorneys-at-law s.r.o

Univerzita Karlova v Praze

Zajišťování majetku v trestním řízení v roce 2015

Statistiky využití článků v online repozitářích

Competitive Intelligence v medicínském a farmaceutickém prostředí

GDPR a Pověřenec pro ochranu osobních údajů. JUDr. Jakub Morávek, Ph.D.

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Stimulancia a opioidy z pohledu médií

Evropská právní informatika modul. č. 2. Pravidla správné citace EUR-Lex

EBSCO. EBSCOhost Web. Databáze je přístupná na adrese Poté se můžete buď přihlásit, nebo vstoupit jako host.

Evropská digitální knihovna. < Prezentace k eseji pro předmět PV070 Digitální knihovny. Tomáš Drusa

2012 STÁTNÍ ÚSTAV PRO KONTROLU LÉČIV

Vyberte takový SIEM, který Vám skutečně pomůže. Robert Šefr

Portál sociální sítě informatiků a jeho strukturované profily znalostí

Aplikační problémy zákona o svobodném přístupu k informacím z pohledu Veřejného ochránce práv

REFORMA VÝZKUMU (VÝVOJE A INOVACÍ): hledání správných motivací. Daniel Münich

Jakub Klímek Zlín

The Australian Research Repositories Online to the World

Nové dimenze vyhledávání

Zdravotnická informatika z pohledu technických norem ISO a EN. RNDr. Vratislav Datel, CSc. Praha 26. dubna 2011

Vážení klienti, tým advokátní kanceláře HAVLÍČEK & JANEBA

ISVS - VODA v kontextu směrnice INSPIRE. Zdeněk Hošek Sekce vodního hospodářství Sekce pro ekonomiku a informační technologie

Linked Heritage. Koordinace standardů a technologií za účelem obohacení Europeany. Alena Součková

Jak vytvářet poznatkovou bázi pro konkurenční zpravodajství. ing. Tomáš Vejlupek

Sociální síť informatiků v regionech České republiky

EBSCO Information Services a více než 60ti letá tradice. Ostrava, Vysoká škola báňská, TU

Soudcovská tvorba práva I. + II.

Nový obchodní rejstřík. Tisková konference

Projekt zaměřený na vybudování sociální sítě informatiků (ve smyslu sociálního webu) ve všech regionech ČR jako základny pro partnerství a spolupráci.

odboru dozoru a kontroly veřejné správy Ministerstva vnitra č. 2/2008

K problematice daňových důsledků emise a držby korunových dluhopisů

Informace pro vědu a výzkum zkušenosti z kurzu ÚK ČVUT pro doktorandy. Věra Pilecká, Ústřední knihovna ČVUT Seminář IVIG,

Transkript:

Právní datasety co, proč, kdo a komu Jakub HARAŠTA Ústav práva a technologií, Právnická fakulta MU Podpořeno Grantovou agenturou České republiky projekt GA17-20645S

Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr

Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr

Úvod information retrieval Datové a metadatové vyhledávání Datové vyhledávání (fulltext) Musím mít představu o tom, co v dokumentu je, abych ho mohl najít Metadatové vyhledávání Objektivní metadata (sp.zn., datum, soud) Subjektivní metadata (relevantní ustanovení)

Úvod subjektivní metadata 2 AutZ + publikováno v zelené sbírce 30 Cdo 2864/2015 // ASPI BECK CODEXIS 30 Cdo 5008/2014 // ASPI BECK CODEXIS 5 Tdo 966/2012 // ASPI BECK CODEXIS Co je to správné řešení?

Úvod výzkum Kvantitativní/kvalitativní výzkum závisí na identifikaci relevantní populace a její reprezentativnosti Rozhodnutí Předpisy Knihy / komentáře Potřebujeme prosté datasety kolekce dokumentů nad kterými bude možné provádět analytické úkony směřující k identifikaci populace Kompletnost / dostupnost

Úvod automatizace Automatické rozpoznávání a extrakce Agentů Referencí Argumentů Segmentů Využíváme jako předpoklad o tom, kdo je původcem reference v dané části Potřebujeme obohacené datasety Odbornost / dostupnost

Úvod využití Užitečné pro: Sémantika a právní interpertace (korpusová analýza) Vzdělávání (odůvodňování / argumentace, metodologie) Citační analýza (relevance, IR) Legislativní činnost (tvorba norem) Software: Počítačový program (AutZ), program počítačů (PatZ)

Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr

Právní datasety právní informační systémy Právní informační systémy Výzkumné korpusy/datasety poskytují větší flexibilitu, protože neomezují uživatele předdefinovaným GUI Výzkumné korpusy/datasety Ne vždy jsou zveřejňovány

Dostupné datasety Odlišný účel, velikost, použitý jazyk

Dostupné datasety - příklady American Law Corpus (ALC) Časopisy, kontrakty, legislativa 5,5 milionu slov; angličtina British Law Reports Corpus (BLaRC) Law reports z UK od 2008 do 2010 1228 textů; angličtina Corpus of European Law (CAL 2 ) Zákony, akademické teyty, rozhodnutí od ca 1980 do dneška 1 miliarda slov; nemčina/angličtina Corpus of Historical English Law Reports (CHELAR) Anglické law reports od roku 1535 do roku 1999 Půl milionu slov JRC-Acquis Legislativa EU Téměř 500 000 textů; 22 jazyků Credit Card Agreement Database Podmínky poskytovatelů kreditních karet v USA Každý rok všechny (archivace 4x ročně); angličtina MODERN Database / LEGACY Database Rozhodnutí SCotUS (Codebook má 128 stran) 1946 2017 / 1791 1945; angličtina CAIL2018 Rozhodnutí Nejvyššího soudu ČLR 2,6 milionů trestních rozhodnutí; čínština

Dostupné datasety - ČR Nástroje: INTLIB: Komponenty pro zpracování legislativních dokumentů (http://www.ksi.mff.cuni.cz/~knap/odcs/) Anotovaný korpus 300 rozhodnutí (NS, ÚS) pro detekci referencí/pojmenovaných entit Kríž, Vincent and Hladká, Barbora, 2014, Czech Court Decisions Dataset, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11234/1-2853. Demo JTagger na https://quest.ms.mff.cuni.cz/jtagger/ Anotovaný korpus 350 rozhodnutí (NS, NSS, ÚS) pro extrakci referencí Harašta, Jakub; Šavelka, Jaromír; Kasl, František; et al., 2018, Annotated Corpus of Czech Case Law for Reference Recognition Tasks, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University,http://hdl.handle.net/11234/1-2647. Judikatura NS, NSS, ÚS?

Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr

Rozhodovací praxe korpusová lingvistika Interpretace: Textualismus Živoucí Ústava Originalismus State v. Rasabout Trestný čin to discharge weapon Je discharge spíše to shoot nebo to unload? COCA (Corpus of Contemporary American English) v disentu soudce Lee Inference významu z frekvence výskytu významu v datasetu v porovnání s alternativním významem Přisouzení širšího či užšího významu má významné následky pro výklad pojmu do budoucna (může mít i v ČR)

Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr

Možnosti Vývoj nástrojů a aplikací pro analýzu právních dat i mimo rámec právních informačních systémů Např. v USA/UK se objevuje u velkých advokátních kanceláří pro práci s důkazy (discovery v rámci velkých dat, red flagging podezřelé komunikace) Objektivnější přístup v případě výběru populace pro kvalitativní/kvantitativní analýzu USA: Vědecký originalismus Snaha určit objektivní metodou originální význam, který termínu zákonodárce přisoudil

Kritika Více dat nemusí znamenat lepší výsledky U tvorby je nutné přemýšlet Výsledný efekt není o existenci korpusu/datasetu, ale o motivaci / schopnostech Právníci vs. schopnost s korpusem pracovat a pochopit jeho význam

Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr

Problémy s tvorbou Právník Tohle všechno je hrozně zajímavý, pojďme to anotovat, třeba to pak půjde automatizovat. ( The Annotation scheme was not create with full automation in mind. ) např. obsah reference (sémantickou informaci) máme v datasetu anotovanou s IAA.26 (strict) /.54 (overlap) Chybí znalosti jak to dělat Neprávník Nepochopení významu judikatury, soustavy soudů, struktury soudního rozhodnutí atd. Chybí znalosti co dělat Spolupráce Toto se nicméně netýká prostých datasetů, což je spíše technická/ideologická otázka např. zveřejňování rozhodnutí NS po letech otevřená data?

Obsah Úvod Právní datasety Rozhodovací praxe Možnosti / kritika Problémy s tvorbou Závěr

Závěr Dostupnost datasetů snižuje režijní náklady na výzkum Prosté datasety zvyšují dostupnost dat (aneb řekněte na NS/NSS/ÚS, že chcete jejich databázi na USB) složitější analýza, ale výsledky bez zkreslení Prosté datasety umožňují vylepšovat aplikace/nástroje na stejných datech (např. part-of-speech tagging, word segmentation) Obohacené datasety zvyšují replikovatelnost (AI&law) Obohacené datasety mohou sloužit jako zlatý standard v případě správnosti Netriviální náklady na vytvoření datasetu

Závěr II Nutná spolupráce ( obohacené datasety) a nutná jistá míra aktivismu ( prosté datasety)

Děkuji Vám za pozornost! jakub.harasta@law.muni.cz Podpořeno Grantovou agenturou České republiky projekt GA17-20645S