New error annotation of Czech learner corpora. Tomáš Jelínek, Faculty of Arts, Charles University, Prague

Podobné dokumenty
Syntactic annotation of a second-language learner corpus

Universal Dependencies and non-native Czech

Building an Error-tagged Learner Corpus of Czech

CzeSL-SGT korpus češtiny nerodilých mluvčích s automaticky provedenou anotací

Akviziční korpusy. Alexandr Rosen. Korpusový seminář. Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Compression of a Dictionary

obj obl obl:arg nmod advmod

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Strukturovaný životopis

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Příručka k morfologické anotaci textů nerodilých mluvčích češtiny

Bibliometric probes into the world of scientific publishing: Economics first

Faktorované překladové modely. Základní informace

CZ.1.07/1.5.00/

Theme 6. Money Grammar: word order; questions

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

On the Structure of Constituent Negation in Czech

Introduction to MS Dynamics NAV

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

Digitální učební materiál

18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013

1 People. 2 Machines. 3 Women. 4 School children. 5 Cars. 6 Food. 7 Farm animals. 8 Planes

Název projektu: Multimédia na Ukrajinské

model arabské morfologie Otakar Smrž

7.VY_32_INOVACE_AJ_UMB7, Tázací dovětky.notebook. September 08, 2013

. 1 st International School of Ostrava - mezinárodní gymnázium, s. r. o., Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

CZ.1.07/1.5.00/

Automatika na dávkování chemie automatic dosing

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Java Cvičení 05. CHARLES UNIVERSITY IN PRAGUE faculty of mathematics and physics

1 st International School Ostrava-mezinárodní gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

Název projektu: Multimédia na Ukrajinské

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Jakub Zavodny (University of Oxford, UK)

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

JOBS FOR TRANSITIONS BETWEEN SLIDES, USE

Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

Palmovka Business center Kancelářské prostory k pronájmu / Offices for lease. Na Žertvách 2247/29, Prague 8

Website review vaznikystrechy.eu

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Recognized Cambridge English Certificates by universities in the Czech republic

PHONEXIA CAN I HAVE IT IN WRITING? MATERIÁLY PRO UČITELE

CZ.1.07/1.5.00/

ŽÁDOST O UZNÁNÍ ZAHRANIČNÍHO VYSOKOŠKOLSKÉHO VZDĚLÁNÍ A KVALIFIKACE APPLICATION FOR THE RECOGNITION OF FOREIGN EDUCATION IN THE CZECH REPUBLIC

Kód: Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Present simple "to have, to be"

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Content Language level Page. Mind map Education All levels 2. Go for it. We use this expression to encourage someone to do something they want.

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

SEZNAM PŘÍLOH. Příloha 1 Dotazník Tartu, Estonsko (anglická verze) Příloha 2 Dotazník Praha, ČR (česká verze)... 91

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Social Media a firemní komunikace

UNIVERSITY OF MUMBAI RESULT OF THE REVALUATION CASES FOR EXAMINATION OF FACULTY OF ENGINEERING 1ST HALF' 2015

PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT

Ověřený materiál - název A letter to Maria

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Litosil - application

MySQL sežere vaše data

ERRATA for NEW LAKOTA DICTIONARY. Cover, introduction, grammar

Číslo Označení materiálu hodiny

1 st International School Ostrava-základní škola a gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

Střední škola obchodní, České Budějovice, Husova 9, VY_INOVACE_ANJ_741. Škola: Střední škola obchodní, České Budějovice, Husova 9

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Cambridge International Examinations Cambridge International General Certifi cate of Secondary Education

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

1 st International School Ostrava-základní škola a gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

CITI-SENSE. Výzkumný projekt veřejného monitorování kvality ovzduší a životního prostředí pomocí senzorových technologií

Mechanika Teplice, výrobní družstvo, závod Děčín TACHOGRAFY. Číslo Servisní Informace Mechanika:

My Year Manager is Vedoucí našeho ročníku je. P.E. is on Tělocvik mám v

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Životopis Duben 2008

Billy Elliot 1 Pre-watching activities A2/B1

Přítomný čas prostý/ průběhový. Present simple/ present continuous. Výhradní výukový materiál portálu onlinejazyky.cz

CZ.1.07/1.5.00/

Czech Technical University in Prague DOCTORAL THESIS

UPM3 Hybrid Návod na ovládání Čerpadlo UPM3 Hybrid 2-5 Instruction Manual UPM3 Hybrid Circulation Pump 6-9

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

Čeština: 2. lekce Czech language: 2 nd lesson

Prague Dependency Treebank (vs. Functional Generative Description) and HamleDT Family

Database systems. Normal forms

Topic 2. Building Materials and Their Properties Grammar: Passive voice

Co vím o Ázerbájdžánu?

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Microsoft Lync WEB meeting

A take zpráva o jednom vítězství. Pavel Pecina

Transkript:

New error annotation of Czech learner corpora Tomáš Jelínek, Faculty of Arts, Charles University, Prague

Outline Motivation CzeSL corpus Annotating errors by levels of language description Brat annotation tool Automatic text preprocessing Jelínek: New error annotation of Czech learner corpora 2

Motivation Hodně lidi si myslí, že literatura je nudná. Hodně lidí si myslí, že literatura je nudná. Many peoplenom.pl. think that literature is boring. Missing diacritic? Wrong vowel length? Wrong form for gen.pl.? Nom.pl. instead of gen.pl. (subject / quantified noun)? Jelínek: New error annotation of Czech learner corpora 3

Motivation Mám štěstí, že mám dobrékamarádi, Mám štěstí, že mám dobrékamarády, I m lucky that I have good friendsnom.pl. Wrong orthography i/y? Wrong consonant (d/ď)? Wrong form for accusative pl.? Nom.pl. instead of accusative pl.? Jelínek: New error annotation of Czech learner corpora 4

Motivation napsat magisterskou prace napsat magisterskou práci to write master s thesis Čína je jedna z největších států Čína je jeden z největších států NOT jed_na NOT jeden China is one of the biggest states Jelínek: New error annotation of Czech learner corpora 5

Motivation magisterskou magisterskou master s prac e práci thesis Jelínek: New error annotation of Czech learner corpora 6

CzeSL corpus Jelínek: New error annotation of Czech learner corpora 7

CzeSL corpus Jelínek: New error annotation of Czech learner corpora 8

Error annotation by levels of linguistic description Domains Orthography ORT Morphonology and phonology MPHON Morphology MORPH Syntax SYNT Lexicon and use LEX SEC, PROBL Jelínek: New error annotation of Czech learner corpora 9

Orthography CAP capitalization praha / Praha SEG segmentation ne bral / nebral PUN punctuation - /, GEM gemination nejednodušší / nejjednodušší SUBST char. subst. without pron. change yako/jako IY i/y visoká / vysoká MNE mě/mně mněsto / město U ú/ů múže / může Jelínek: New error annotation of Czech learner corpora 10

Morphonology and Phonology MET metathesis jesm / jsem VOC vocalisation s / se svojí rodinou EP epenthesis odbereme / odebereme SOFT soft cons. šťesti / štěstí PAL palatalisation Prahě / Praze PROT protetic v- vobčas / občas DIA diacritics dárovat / darovat ASIM cons. assimilation vspomínat / vzpomínat NASIM voiced/voiceless cons. ze / se známým filozofem ALT vowel alternations slačina / slečna CNTR digraphs v Paržiži / Paříži SIB sibilants specifiské / specifické CHAR other (1 char) z kuchyni / kuchyně Jelínek: New error annotation of Czech learner corpora 11

Morphology NAFF incompatible morph. suffix VBX incorr. compound verb forms RFL incorr. use of reflexive pronouns do nemocnicy/nemocnice bude líbí/líbit moje/svoje Jelínek: New error annotation of Czech learner corpora 12

Syntax DEP valency / dependency z kuchyni/kuchyně AGR agreement českého / české vlády COP copula Ale -/je třeba, abychom poznavali mnoho nových slov. COMPL object (form) tomu/toho si hodně vážím SUBJ subject za poslední rok já/- jsem se seznámil s hodně lidmi WO word order aby někdo nás / nás někdo čekal doma Jelínek: New error annotation of Czech learner corpora 13

Lexicon/Use ASP aspect pomohla/pomáhala MOD modal verbs musí/mohou NEG negation Nemůžu si vůbec nestěžovat / stěžovat COIN new (coined) word do pivarny/pivnice FGN foreign word baboška/babička USE incorr. gender etc. tramvajem/tramvají POS incorr. POS Ona je výborně / výborná žena PHR incorr. use longer expressions neměly rády vstávat / nerady vstávaly CHOICE incorr. choice of words ví / zná Jelínek: New error annotation of Czech learner corpora 14

Brat annotation tool Jelínek: New error annotation of Czech learner corpora 15

Brat annotation tool Jelínek: New error annotation of Czech learner corpora 16

Brat annotation tool Jelínek: New error annotation of Czech learner corpora 17

Brat: data (file.txt) Nebo ne*v*ím nějak*é specifisk*é bělorusk*é národn*í tradic*e, protože vyrost*l js*em ve měst*ě, kde osláv*á Vánoc ne*n*i tak rozšiře*n*a Nebo neznám žádné specifické běloruské národní tradice, protože vyrostl jsem ve městě, kde oslava Vánoc není tak rozšířena Ale, možná j*e t*o také odpověd Ale možná je to také odpověď Jelínek: New error annotation of Czech learner corpora 18

Brat: data (file.ann) T1 axxx 163 166 v*í T2 achoice 168 175 nějak*é T3 asib 183 184 s T4 adia 261 262 á T5 adia 264 265 á T6 adia 277 278 i T7 adia 287 288 i T8 apun 428 429, T9 adia 455 456 d Jelínek: New error annotation of Czech learner corpora 19

Text pre-processing A simple morphematic analysis into prefix root suffix All differences between linked erroneous forms and emendations If possible, marked by one of 25 error tags (out of ORT, MPHON, SYN, LEX; to be checked by the annotator) Jelínek: New error annotation of Czech learner corpora 20

Morphematic analysis prefix root suffix prefix and suffix: only those forming a new form inside the flex. paradigm e.g. po*jed*e but přejed*e - existing words: match possible suffixes for a given morph. tag with a list e.g. kamarádovi: NNMS3 > -i and -ovi are matching, choose -ovi - non-words: based on the corrected form (if similar enough) e.g. kamaratovy/kamarádovi, suffix of kamarádovi is -ovi, similar to -ovy, choose -ovy Jelínek: New error annotation of Czech learner corpora 21

Automatic error annotation Find and mark differences between linked erroneous forms and emendations, assign error tags. Create brat text and annotation file. 25 automatically assigned error tags (adia x DIA): to be checked by the annotators. Jelínek: New error annotation of Czech learner corpora 22

To do... Manual annotation. Extend and refine automatic annotation based on the results of manual annotation. Experiment with using automatic text correction instead of manual annotation. Perhaps one day, a fully automatic (simple) tool for CzSL text correction and error tagging. Jelínek: New error annotation of Czech learner corpora 23

References Eckart de Castilho, R., Biemann, C., Gurevych, I. and Yimam, S.M. (2014): WebAnno: a flexible, web-based annotation tool for CLARIN. In Proceedings of the CLARIN Annual Conference (CAC) 2014, Soesterberg, Netherlands. Jelínek, T., Štindlová, B., Rosen, A. and Hana, J. (2012). Combining manual and automatic annotation of a learner corpus. In P. Sojka et al. (eds), Text, Speech and Dialogue Proceedings of TSD 2012, no. 7499 in LNCS, p. 127 134. Richter M., Straňák P., Rosen A. (2012). Korektor A System for Contextual Spell-checking and Diacritics Completion. In Kay M., Boitet C.: Proceedings of the 24th International Conference on Computational Linguistics (Coling 2012). Mumbai, India, p. 1-12. Rosen, A. (2016). Building and using corpora of non-native Czech. In B. Brejová (ed), Proceedings of the 16th ITAT: Slovenskočeský NLP workshop (SloNLP 2016), vol. 1649 of CEUR Workshop Proceedings, Bratislava, Slovakia, p. 80 87. Stenetorp, P., Pyysalo, S., Topić, G., Ohta, T., Ananiadou S. and Tsujii, J. (2012). Brat: a Web-based Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL 2012, 102 107. Štindlová, B., Škodová, S., Hana, J., & Rosen, A. (2013). A learner corpus of Czech: current state and future directions. In S. Granger et al. (eds), Twenty Years of Learner Corpus Research: Looking back, Moving ahead, Corpora and Language in Use Proceedings 1, Louvain-la-Neuve. Presses Universitaires de Louvain. Jelínek: New error annotation of Czech learner corpora 24