Building an Error-tagged Learner Corpus of Czech

Podobné dokumenty
Akviziční korpusy. Alexandr Rosen. Korpusový seminář. Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze

Syntactic annotation of a second-language learner corpus

Universal Dependencies and non-native Czech

Anotace žákovského korpusu. Alena Poncarová Žďárek, Listopad 2011

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Compression of a Dictionary

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová

New error annotation of Czech learner corpora. Tomáš Jelínek, Faculty of Arts, Charles University, Prague

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

1 st International School Ostrava-mezinárodní gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

SSOS_AJ_3.18 British education

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

II_ _Listening Pracovní list č. 2.doc II_ _Listening Pracovní list č. 3.doc II_ _Listening Řešení 1,2.doc

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

The Over-Head Cam (OHC) Valve Train Computer Model

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

Základní škola Marjánka

Bibliometric probes into the world of scientific publishing: Economics first

Litosil - application

WORKSHEET 1: LINEAR EQUATION 1

Právní formy podnikání v ČR

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Co vím o Ázerbájdžánu?

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

1. Zadavatel: Lepíky s.r.o., Podnikatelská 539, Praha 9 Ič: Dič: CZ

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT

SEZNAM PŘÍLOH. Příloha 1 Dotazník Tartu, Estonsko (anglická verze) Příloha 2 Dotazník Praha, ČR (česká verze)... 91

Zachycení (nejen) koordinací v závislostních stromech

místo, kde se rodí nápady

Introduction to MS Dynamics NAV

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_15_AJ_CON_1

Invitation to ON-ARRIVAL TRAINING COURSE for EVS volunteers

Verb + -ing or infinitive

Katalogy gramofonových firem ze začátku 20. století Catalogues of record companies from the early 20th century

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Content Language level Page. Mind map Education All levels 2. Go for it. We use this expression to encourage someone to do something they want.

CZ.1.07/1.5.00/

Střední odborná škola stavební a Střední odborné učiliště stavební Rybitví

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Production: The Case of One Producer

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Střední průmyslová škola stavební Pardubice

Database systems. Normal forms

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

ANGLICKÁ KONVERZACE PRO STŘEDNĚ POKROČILÉ

SSOS_AJ_3.17 Czech education

On the Structure of Constituent Negation in Czech

SHOPPING. 1. Match the description to a particular type of shops. 2. Where would you buy following products? Choose from the shops bellow.

Transportation Problem

Elektroinstalační lišty a tvarovky. Elektroinstalační lišty / Cable trunkings

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Základy teorie front III

CZ.1.07/1.5.00/

Digitální učební materiál

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Katalogy gramofonových firem ze začátku 20. století Dostupný z

Národní informační den společných technologických iniciativ ARTEMIS a ENIAC

Research infrastructure in the rhythm of BLUES. More time and money for entrepreneurs

MIKROPROCESORY PRO VÝKONOVÉ SYSTÉMY. Stručný úvod do programování v jazyce C 2.díl. České vysoké učení technické Fakulta elektrotechnická

TEMATICKÝ PLÁN. Literatura: Project 2 - T. Hutchinson, OXFORD

ARTEMIS & ENIAC výzvy kadlec@utia.cas.cz Tel

11/ Podmínkové věty. ( 1st Conditional) VY_32_INOVACE_AJ_UMA11,Podmínkové věty (1st Conditional).notebook. January 28, 2014

Digitální učební materiál

Život v zahraničí Studium

Aktuální trendy ve výuce a testování cizích jazyků v akademickém prostředí

7.VY_32_INOVACE_AJ_UMB7, Tázací dovětky.notebook. September 08, 2013

MEDIA RESEARCH RATINGS

The state of literature courses in undergraduate and graduate English language teacher training programmes across Slovakia

obj obl obl:arg nmod advmod

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

MEDIA RESEARCH RATINGS

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám

CZ.1.07/1.5.00/

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Translation Model Interpolation for Domain Adaptation in TectoMT

Název projektu: Multimédia na Ukrajinské

The Czech education system, school

VY_22_INOVACE_84. P3 U3 Revision

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

HODNOCENÍ INOVAČNÍCH VÝSTUPŮ NA REGIONÁLNÍ ÚROVNI

TEMATICKÝ PLÁN. Literatura: Project 2 - T. Hutchinson, OXFORD

Course description. Course name: English for pre-intermediate students 2 Printed: :15. Academic Year 2015/2016

Social Media a firemní komunikace

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

DATA SHEET. BC516 PNP Darlington transistor. technický list DISCRETE SEMICONDUCTORS Apr 23. Product specification Supersedes data of 1997 Apr 16

Course description. Course credit prior to NO Counted into average NO Winter semester 0 / - 0 / - 0 / - Timetable Language of instruction

Transkript:

Building an Error-tagged Learner Corpus of Czech Jirka Hana, Alexandr Rosen & Barbora Štindlová Charles University, Prague & Technical University, Liberec Institute of Formal and Applied Linguistics Seminar of Formal Linguistics April 22, 2013 J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 1 / 42

Outline of the talk 1 Learner Corpora 2 CzeSL 3 Error Annotation of CzeSL 4 Evaluation 5 Postprocessing 6 Thanks J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 2 / 42

Outline of the talk Learner Corpora 1 Learner Corpora 2 CzeSL 3 Error Annotation of CzeSL 4 Evaluation 5 Postprocessing 6 Thanks J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 3 / 42

Learner Corpora Learner Corpora Include texts produced by learners of a foreign language Early 1990s: as a source of data for learners dictionaries (e.g., Longman Learner Corpus) Used by authors of textbooks, methodologists and researchers in Teaching X as a Foreign Language Second Language Acquisition Deviant forms can be corrected and their error type identified There can be simultaneous deviations on multiple levels J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 4 / 42

Learner Corpora Annotation of Learner Corpora Learner corpora can be annotated in two independent ways: Linguistic annotation Lemmatization, morphological tagging, syntactic structure, etc. On the original text or on the corrected text Usually automatic or semiautomatic Error annotation Correcting and/or categorizing errors Diverse annotation systems Usually manual J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 5 / 42

Capturing errors Learner Corpora 1. Implicit errors are identified and corrected Pros: faster training of annotators faster process of annotation Cons: results hard to search and analyze 2. Explicit errors are identified and categorized Error categories (tags) reflect a specific theory J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 6 / 42

Outline of the talk CzeSL 1 Learner Corpora 2 CzeSL 3 Error Annotation of CzeSL 4 Evaluation 5 Postprocessing 6 Thanks J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 7 / 42

CzeSL CzeSL A learner corpus of Czech The first large learner corpus of a Slavic language (PiKUST for Slovenian includes only 35KW) The first large learner corpus of Czech Part of the AKCES project acquisition corpora of Czech (includes native speakers spoken and written classroom language) J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 8 / 42

CzeSL The parameters 2 MW (only a part annotated) 3 subcorpora by L1 Slavic language: Russian, Ukrainian, Polish Other Indo-European language: German, English, French Other language: Vietnamese, Arabic Written and spoken part All levels of proficiency according to CEFR Original documents are electronic and hand-written texts Elicited on various occasions in the class Metadata on learner and task (19 items) J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 9 / 42

Size CzeSL Size of various subcorpora (in thousand words, approximate) transcribed annotated doubly annotated CzeSL Foreigners spoken 11 0 written 1,315 200 75 university 732 0 ROMi Czech Roma spoken 540 (270) 0 written 450 170 110 native Czech spoken 1,046? written 150? J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 10 / 42

Outline of the talk Error Annotation of CzeSL 1 Learner Corpora 2 CzeSL 3 Error Annotation of CzeSL 4 Evaluation 5 Postprocessing 6 Thanks J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 11 / 42

Error Annotation of CzeSL Workflow Acquisition Transcription Proofreading Conversion to PML Error annotation Revision Adjudication Postprocessing J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 12 / 42

Strategy Error Annotation of CzeSL Minimal correction Capture only grammatical and lexical characteristics of non-native language Relative to Literary Czech J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 13 / 42

Error Annotation of CzeSL Error Annotation of a Flective Language Problems Inflection (nouns: 15 basic paradigms, subparadigms, subsub...) Derivation, agreement, word-order reflecting information structure, etc. Solution Multilevel annotation scheme Combining manual and automatic annotation J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 14 / 42

Error Annotation of CzeSL Error Annotation of a Flective Language Problems Inflection (nouns: 15 basic paradigms, subparadigms, subsub...) Derivation, agreement, word-order reflecting information structure, etc. Solution Multilevel annotation scheme Combining manual and automatic annotation J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 14 / 42

<li>viktor je mladý pan z Polska Ruska. Studuje {češtinu}<in> ve škole, protože ne umí psat a čist spravně. Bydlí na koleje vedle školy, má jednu sestru Irenu, která se učí na univerzite u profesora Smutneveselého. Bohužel, Viktor není dobrym student, protože spí na lekci, ale jeho sestra {piše všechno -> všechno piše} a vyborně rozumí českeho profesora Smutneveselého {a brzo delá domací ukol}<in>. Večeře Irena jde na prohaska spolu z kamaradem, ale její bratr dělá nic. Jeho čeština je špatná, vím, že se vratit ve Polsko Ruskou a tam budí studovat u pomalu myt podlahy. <li>kamarad Ireny je {A a}meričan a chytry můž. On miluje Irenu a chce se vzít na ní. protože ona je hezká, taky chytra, rozumí ho a umí vyborný vařit.

<li>viktor je mladý pan z Polska Ruska. Studuje {češtinu}<in> ve škole, protože ne umí psat a čist spravně. Bydlí na koleje vedle školy, má jednu sestru Irenu, která se učí na univerzite u profesora Smutneveselého. Bohužel, Viktor není dobrym student, protože spí na lekci, ale jeho sestra {piše všechno -> všechno piše} a vyborně rozumí českeho profesora Smutneveselého {a brzo delá domací ukol}<in>. Večeře Irena jde na prohaska spolu z kamaradem, ale její bratr dělá nic. Jeho čeština je špatná, vím, že se vratit ve Polsko Ruskou a tam budí studovat u pomalu myt podlahy. <li>kamarad Ireny je {A a}meričan a chytry můž. On miluje Irenu a chce se vzít na ní. protože ona je hezká, taky chytra, rozumí ho a umí vyborný vařit.

<li>viktor je mladý pan z Polska Ruska. Studuje {češtinu}<in> ve škole, protože ne umí psat a čist spravně. Bydlí na koleje vedle školy, má jednu sestru Irenu, která se učí na univerzite u profesora Smutneveselého. Bohužel, Viktor není dobrym student, protože spí na lekci, ale jeho sestra {piše všechno -> všechno piše} a vyborně rozumí českeho profesora Smutneveselého {a brzo delá domací ukol}<in>. Večeře Irena jde na prohaska spolu z kamaradem, ale její bratr dělá nic. Jeho čeština je špatná, vím, že se vratit ve Polsko Ruskou a tam budí studovat u pomalu myt podlahy. <li>kamarad Ireny je {A a}meričan a chytry můž. On miluje Irenu a chce se vzít na ní. protože ona je hezká, taky chytra, rozumí ho a umí vyborný vařit.

Error Annotation of CzeSL Multilevel Annotation Scheme Level 0 Original text (transcribed, self-corrections inlined) Level 1 Corrections disregarding word context Spelling, form of stems and endings Result: sequence of existing Czech forms Level 2 Remaining errors: syntactic, lexical, word-order, style, referential, negation,... Result: grammatically correct sentence J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 19 / 42

Error Annotation of CzeSL Bojal jsme se že ona se ne bude libila slavnou prahu, proto to bylo velmí vadí pro mně. Bál jsem se, že se jí nebude líbit slavná Praha, protože to by mi velmi vadilo. I was affraid that she would not like the famous city of Prague, because I would be very unhappy about it. J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 20 / 42

Error Annotation of CzeSL Bojal jsme se že ona se ne bude libila slavnou prahu, proto to bylo velmí vadí pro mně. Bál jsem se, že se jí nebude líbit slavná Praha, protože to by mi velmi vadilo. I was affraid that she would not like the famous city of Prague, because I would be very unhappy about it. J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 20 / 42

Bojal *feared jsme aux incorinfl Bál jsme agr rflx Bál jsem se, I was afraid že ona se ne bude libila slavnou prahu,

proto to bylo velmí vadí pro mně. že ona se ne bude libila slavnou prahu, that she rflx not will *like famous Prague, wbdpre incorbase že ona se nebude líbila slavnou Prahu, dep vbx agr,sec dep že se jí nebude líbit slavná Praha, that she would not like the famous city of Prague,

proto to bylo velmí vadí pro mně. therefore it was *very resent for me. incorbase proto to bylo velmi vadí pro mně. lex vbx dep protože to by mi velmi vadilo. because I would be very unhappy about it.

Error Annotation of CzeSL Error tags 22 error tags added manually 7 error tags added automatically manual automatic total level 1 8 1 9 level 2 11 6 17 level 1 & 2 3 0 3 total 22 7 29 Additional formal tags are added automatically by comparing original and corrected forms J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 25 / 42

Error Annotation of CzeSL incor incorrect form incorinfl M inflection error L1 incorbase M stem error L1 incorother A other L1 fw foreign word, neologism, unidentifiable fwfab M newly created Czech word L1 fwnc M foreign word L1 flex M inflection of fw L1 wbd word-boundary error wbdpre M separate prefix, attached preposition L1 wbdcomp M incorrectly separated/joined composites L1 wbdother M other word-boundary errors L1 styl colloquial, bookish, regional expression stylcoll M colloquial expression L1,L2 stylother M bookish, regional, slang expression L1,L2 stylmark M filler L2 problem M problem L1,L2 J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 26 / 42

Error Annotation of CzeSL agr M agreement error L2 dep M structural error L2 ref M pronominal reference error L2 vbx M complex verb error L2 cvf A analytical verb form error L2 mod A modal verb error L2 vnp A copula L2 rflx M reflexive form error L2 neg M negation error L2 odd A extra word L2 miss A missing word L2 wo A word-order errror L2 lex M lexical and idiomatic error L2 use M incorrect use of a category L2 sec M secondary error L2 disr M word salad L2 J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 27 / 42

Outline of the talk Evaluation 1 Learner Corpora 2 CzeSL 3 Error Annotation of CzeSL 4 Evaluation 5 Postprocessing 6 Thanks J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 28 / 42

Evaluation Evaluation Sample 67 texts, about 150 words each 9373 tokens CEFRL level A2 B1 Various L1s 14 annotators, each text by two J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 29 / 42

Evaluation A measure of IAA: Kappa κ = Pr(a) Pr(e) 1 Pr(e) Pr(a) observed agreement Pr(e) chance agreement κ = 1 perfect agreement κ = 0 random agreement κ > 0.4 reasonable J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 30 / 42

Evaluation Evaluation Higher IAA on formally well defined tags error tag κ incorbase 0.75 agr 0.54 styl 0.38 J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 31 / 42

Evaluation Inter-annotator agreement 9848 words tag only A1 only A2 A1 & A2 κ incor 168 130 894 0.84 incorbase 167 165 559 0.75 incorinfl 173 130 250 0.61 wbd 14 21 45 0.72 fw 25 17 18 0.46 agr 82 99 110 0,54 dep 99 118 87 0,43 neg 11 9 9 0,47 styl 19 14 10 0,38 lex 107 131 74 0,37 use 60 74 19 0,21 sec 45 18 4 0,11 J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 32 / 42

Evaluation Examples of high IAA Agreement error κ = 0.54 (1) Viděl malého Petra (2) Viděl *malou Petra Why not higher? Different corrections L0: Věci budou *težki A1 L1: těžký, L2: těžké + AGR A2 L1: těžké, L2: těžké J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 33 / 42

Evaluation Examples of high IAA Agreement error κ = 0.54 (1) Viděl malého Petra (2) Viděl *malou Petra Why not higher? Different corrections L0: Věci budou *težki A1 L1: těžký, L2: těžké + AGR A2 L1: těžké, L2: těžké J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 33 / 42

Examples of low IAA Evaluation Lexical error κ = 0.37 Due to semantic proximity of lexemes annotators disagree about the need for correction: (3) když se dívám na *?druhý/jiný kultury when I look at other cultures On the other hand, some lexemes are distant enough and annotators agree about the need for for correction: (4) *housenky/housky kupuju v pekařství I buy caterpillars in the baker s shop J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 34 / 42

Evaluation Some reasons for low IAA Errors of type lex involve a high degree of subjective judgement, thus cannot aim at high IAA. Errors of type sec highly formal specific, due to primary errors. J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 35 / 42

Evaluation Evaluation Conclusion Morphosyntactic errors are easy to formalize and lead to a high κ incor, agr, dep Semantic errors depend on subjective judgement, should standard measures be applied? J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 36 / 42

Outline of the talk Postprocessing 1 Learner Corpora 2 CzeSL 3 Error Annotation of CzeSL 4 Evaluation 5 Postprocessing 6 Thanks J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 37 / 42

Postprocessing Postprocessing Formal error tags Morphology J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 38 / 42

Formal error tags Postprocessing Error type Error description Example Cap0 capitalization: incor. lower case evropě/evropě; štědrý/štědrý Cap1 capitalization: incor. upper case Staré/staré; Rodině/rodině Vcd0 voicing assimilation: incor. voiced stratíme/ztratíme; nabítku/nabídku Vcd1 voicing assimilation: incor. vcless zbalit/sbalit; nigdo/nikdo VcdFin0 word-final voicing: incor. voiceless kdyš/když; vztach/vztah VcdFin1 word-final voicing: incor. voiced přez/přes; pag/pak Vcd voicing: other errors protoše/protože; hodili/chodili Palat0 missing palatalization (k,g,h,ch) amerikě/americe; matkě/matce Je0 je/ě: incorrect ě ubjehlo/uběhlo; Nejvjetší /Největší Je1 je/ě: incorrect je vjeděl/věděl; vjeci/věci Mne0 mě/mně: incorrect mě zapoměla/zapomněla Mne1 mě/mně: incor. mně, mňe, mňě mněla/měla; rozumněli/rozuměli ProtJ0 protethic j: missing j sem/jsem; menoval/jmenoval ProtJ1 protethic j: extra j jse/se; jmé/mé ProtV1 protethic v: extra v vosm/osm; vopravdu/opravdu EpentE0 e epenthesis: missing e domček/domeček EpentE1 e epenthesis: extra e rozeběhl/rozběhl; účety/účty J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 39 / 42

Postprocessing Morphology L2 (correct Czech): disambiguated lemma + tag L1: morphological analysis If possible, disambiguated lemma+tag is transfered from L2 to L1 If forms are different, but L2 lemma is among L1 lemmas: use L2 lemma for L1 L1=má has or my L2=mou my : use the lemma můj my on L1 J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 40 / 42

Outline of the talk Thanks 1 Learner Corpora 2 CzeSL 3 Error Annotation of CzeSL 4 Evaluation 5 Postprocessing 6 Thanks J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 41 / 42

Thanks Thanks to...... other members of the team, esp.: Barbora Štindlová, Tomáš Jelínek, Svatava Škodová, Karel Šebesta, Vladimír Petkevič, Hana Skoumalová, Milena Hnátková, Jan Štěpánek, Zuzanna Bedřichová, Kateřina Šormová... the sponsors: The European Social Fund and the Czech government: Education for Competitiveness Innovation in Education in the Field of Czech as a Second Language (CZ.1.07/2.2.00/07.0259) Large Research, Development and Innovation Infrastructures: The Czech National Corpus (LM2011023)... and you! J. Hana & A. Rosen (CU & TUL) Error-tagged Learner Corpus of Czech ÚFAL Seminar, 22 April 2013 42 / 42