Universal Dependencies and non-native Czech

Podobné dokumenty
Syntactic annotation of a second-language learner corpus

obj obl obl:arg nmod advmod

WORKSHEET 1: LINEAR EQUATION 1

19/ Přítomný podmiňovací způsob

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Project 2. My projects

CZ.1.07/1.5.00/

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

On the Structure of Constituent Negation in Czech

11/ Podmínkové věty. ( 1st Conditional) VY_32_INOVACE_AJ_UMA11,Podmínkové věty (1st Conditional).notebook. January 28, 2014

Byznys a obchodní záležitosti

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013

20/ Řeč přímá a nepřímá

Theme 6. Money Grammar: word order; questions

Compression of a Dictionary

Materiál slouží k procvičení znalosti přítomného času prostého, tvorbě vět a otázek.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Kód: Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Present simple "to have, to be"

Content Language level Page. Mind map Education All levels 2. Go for it. We use this expression to encourage someone to do something they want.

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

CSCI 599 MACHINE TRANSLATION

Projekt MŠMT ČR: EU peníze školám

Název projektu: Multimédia na Ukrajinské

VY_22_INOVACE_číslo přílohy 1_AJ_6A_29. Úvodní část seznámení s cílem hodiny pohádka The Ugly Ducklings

7.VY_32_INOVACE_AJ_UMB7, Tázací dovětky.notebook. September 08, 2013

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

CZ.1.07/1.5.00/

Příjemce: Základní škola, Základní umělecká škola a Mateřská škola Lipnice nad Sázavou č. 213, Lipnice nad Sázavou

The form of the verb in past simple is the same for all persons. In questions and negatives we use did/didn t auxiliary verb and the base form.

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Střední odborná škola stavební a Střední odborné učiliště stavební Rybitví

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

Litosil - application

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

ČTENÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Digitální učební materiál

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

Billy Elliot 1 Pre-watching activities A2/B1

Výukový materiál zpracován v rámci projektu EU peníze školám

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_14_AJ_G

PSANÍ. Anglický jazyk 5. třída Hana Stryalová

Digitální učební materiál

Primární modální slovesa CAN COULD (modál) I could play the piano. You could play the piano. He/She could play the piano. We could play the piano.

Comparatives and superlatives


CZ.1.07/1.5.00/

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Aktuální trendy ve výuce a testování cizích jazyků v akademickém prostředí

VY_22_INOVACE_84. P3 U3 Revision

ZÁKLADY ANGLICKÉ GRAMATIKY PRO SOU MGR. DITA HEJLOVÁ

Database systems. Normal forms

1 st International School Ostrava-mezinárodní gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Present Simple and Continuous Přítomný čas prostý a průběhový Pracovní list

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:


Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

The tension belt serves as a tension unit. After emptying the belt is cleaned with a scraper.

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

VY_22_INOVACE_CJ_III/2.21

Cambridge International Examinations Cambridge International General Certifi cate of Secondary Education

Název projektu: Multimédia na Ukrajinské

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Content Language level Page. Mind map Bedroom All levels 2. Test Past simple, continuous and perfect Pre-intermediate (B1-) Advanced (C1) 6

SSOS_AJ_3.17 Czech education

CZ.1.07/1.5.00/

Čtvrtý Pentagram The fourth Pentagram

GREAT BRITAIN. III/2 Inovace a zkvalitnění výuky prostřednictvím ICT. Anglický jazyk Třída 3.A Téma hodiny Druh materiálu

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Topic 2. Building Materials and Their Properties Grammar: Passive voice

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

DUM je součástí uceleného logického celku Rozvíjení, procvičování, upevňování gramatiky a slovní zásoby v 8. ročníku.

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

Czenglish 1 ( )

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Transportation Problem

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

MONTHLY PROGRAM DECEMBER 2016 PRAGUE

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Transkript:

Universal Dependencies and non-native Czech Jirka Hana & Barbora Hladká Charles University Prague TLT 2018

CzeSL Czech as a Second Language Texts written by non-native speakers of Czech CzeSL-man subcorpus < we work with this here 645 essays, 120K tokens, 11K sentences A1-C1 CEFR proficiency levels Manually corrected and annotated for errors https://bitbucket.org/czesl, CC BY-SA-3.0 2

CzeSL: Error Annotation Scheme Tier 0 original text: Myslim že kdy by byl se svim ditem... Tier 1 words correct: Myslím že kdyby byl se svým dítětem... Tier 2 contextually correct: Myslím, že kdybych byl se svým dítětem... think SG1 that if SG1 was MASC with my child... `I think that if I were with my child. corrections 3

Sample non-native text: My Family Jmenujese [Name]. Ja jsem Mongolska. Mongolska ma 21 kraji. Moje rodina je hezka jeste velka. Mongolska je 3000 million lidi. Ma tradični píseňka, taneční. Mongolska tradicni píseňka je hezka. Ješte ma Morin khuur. Morin Khuur to je muzika. Ten hezka tradični pohádka, píseň. Mongolska má mnoho tradiční svátík. Třiba Naadam, Tsagaarsur. Ješte mnoho Velbloud, Kůn, Kravá, Koza, Ovce. Mongolsky lidi dobrý. Mongolsko ma mnoho hory a nemam ocean. Mongolska hlavní naměsto. Ulaanbaatar. [NAME], 18 Let Bydlim v Cechagh už 6 měsíc. 4

Task: Annotate some structure of L2 Czech Motivation: - better understanding of L2 Czech (including its grammar) - better computational processing of L2 Czech Some structure? - the deeper, the better, ideally semantics - dependency syntax for practical purposes 5

Universal Dependencies (UD) dependency-based syntactic annotation language agnostic (mostly) v. 2.3 (Nov 2018) 129 treebanks 76 languages Yesterday, John invited Mary to his birthday party. TLT 2018 Hana & Hladká: Universal Dependencies and non-native Czech 6

Approach Annotate the original text, not corrections Ideal case: use grammar of author s interlanguage Reality: often, not enough data 7

Trees Example 1: oblique vs direct object Standard obl Vstoupit do místnosti. enter into room. `Enter a room. Non-native obj Vstoupit místnost. enter room. Intended: `Enter a room. 8

Trees Example 2: superlative Standard nej `most is a prefix největší město v Kolumbii biggest city in Columbia `the biggest city in Columbia Non-native nej is a word nej větší město v Kolumbii most bigger city in Columbia `the biggest city in Columbia 9

Trees Example 3: quantifiers Standard DET quantifier + genitive pl det:numgov mnoho tygrů many tigers agree in case det:nummod s mnoha tygry with many tigers non-native quantifier + nominative: Mongolska má mnoho tradiční svátík. `Mongolia has many traditional holiday Ješte mnoho Velbloud, Kůn, `Also many Camel, Horse,... Simpler situation: det:nummod / nummod (similar to English) 10

Sometimes UD helps Jsem Mongolska. `I am Mongolian / a Mongolian / from Mongolia Jsem mongolský. adjective, not in std language Jsem Mongol. inhabitant, noun Jsem z Mongolska. country, preposition + noun The same structure in UD 11

Sometimes not: ADJ/ADV neutralization ADJ ADV amod standard UD? advmod? standard UD Oba jsou stejné důležité. both are equal important? `Both are equally important stejné = equal (adjective) stejně = equally (adverb) Ideally: - POS = ADJ/ADV - dependency = *MOD But need sufficient evidence, can be: - spelling error - morphology 12

Sample non-native text: My Family Jmenujese [Name]. Ja jsem Mongolska. Mongolska ma 21 kraji. Moje rodina je hezka jeste velka. Mongolska je 3000 million lidi. Ma tradični píseňka, taneční. Mongolska tradicni píseňka je hezka. Ješte ma Morin khuur. Morin Khuur to je muzika. Ten hezka tradični pohádka, píseň. Mongolska má mnoho tradiční svátík. Třiba Naadam, Tsagaarsur. Ješte mnoho Velbloud, Kůn, Kravá, Koza, Ovce. Mongolsky lidi dobrý. Mongolsko ma mnoho hory a nemam ocean. Mongolska hlavní naměsto. Ulaanbaatar. [NAME], 18 Let Bydlim v Cechagh už 6 měsíc. 13

Non-native sentences grammatically correct grammatically incorrect easy to understand A B hard to understand C D 14

Conclusion Be conservative, assume as little as possible UD sometimes forces us to make unwarranted decisions Semantic annotation might be the right thing 16

Current status 2,200 sentences out of 11,000 annotated so far 100 sentences double annotated with Cohen s kappa: Universal POS: 0.93 Dependency Label: 0.89 Relation: 0.93 17

Future work More double annotated data More annotated data annotate the whole CzeSL Test standard and custom trained parsers 18