Daniel Zeman Charles University in Prague

Podobné dokumenty
Zachycení (nejen) koordinací v závislostních stromech

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Slovníky a morfologická analýza

Syntactic annotation of a second-language learner corpus

obj obl obl:arg nmod advmod

Universal Dependencies and non-native Czech

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

TEMATICKÝ PLÁN. Literatura: Project 2 - T. Hutchinson, OXFORD

TEMATICKÝ PLÁN. Literatura: Project 2 - T. Hutchinson, OXFORD

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013

Gramatické formalismy pro ZPJ

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

VY_22_INOVACE_číslo přílohy 1_AJ_6A_29. Úvodní část seznámení s cílem hodiny pohádka The Ugly Ducklings

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

WORKSHEET 1: LINEAR EQUATION 1

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

Compression of a Dictionary

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Theme 6. Money Grammar: word order; questions

The form of the verb in past simple is the same for all persons. In questions and negatives we use did/didn t auxiliary verb and the base form.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Čeština: 2. lekce Czech language: 2 nd lesson

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

VY_22_INOVACE_84. P3 U3 Revision

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Vánoční sety Christmas sets

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce pro 5. ročník z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A19 Pořadové číslo: 19.

Hello. Hello. y words. My Picture Dictionary Objects. 1 Přečtěte si v učebnici znovu stranu 4. Co jsou oblíbené věci těch osob?

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

Zjistit, jak žáci zvládli učivo prvního pololetí. Pomůcky: Psací potřeby Zdroje: vlastní. III_2-05_54 Half term test, 6yr - řešení

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

TEMATICKÝ PLÁN. Literatura: Happy House 1 autoři Maidment S., Roberts L., nakl. Oxford

Číslo Označení materiálu hodiny

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

CZ.1.07/1.5.00/

CZ.1.07/1.5.00/

Přítomný čas prostý/ průběhový. Present simple/ present continuous. Výhradní výukový materiál portálu onlinejazyky.cz

Present Simple and Continuous Přítomný čas prostý a průběhový Pracovní list

1 st International School Ostrava-mezinárodní gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

VY_32_INOVACE_5 Anglický jazyk Vypracovala: Mgr. Marcela Minaříková Test 5-3 Opakování Theme 2 Birthday Vznik: listopad 2013 Číslo projektu:

Content Language level Page. Mind map Education All levels 2. Go for it. We use this expression to encourage someone to do something they want.

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Energy vstupuje na trh veterinárních produktů Energy enters the market of veterinary products

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Digitální učební materiál

112: Komise žádá na lince jednotného čísla tísňového volání v EU více jazyků

Social Media a firemní komunikace

Project 2. My projects

Ověřený materiál - název A letter to Maria

PITSTOP VY_22_INOVACE_26

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Database systems. Normal forms

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Litosil - application

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A20 Pořadové číslo: 20.

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

CZ.1.07/1.5.00/

Aktuální trendy ve výuce a testování cizích jazyků v akademickém prostředí

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

Národní informační den společných technologických iniciativ ARTEMIS a ENIAC

Střední škola obchodní, České Budějovice, Husova 9, VY_INOVACE_ANJ_741. Škola: Střední škola obchodní, České Budějovice, Husova 9

Vstup České republiky do EU podpořily téměř tři čtvrtiny studentů a tento údaj odpovídá i výsledkům roku minulého.

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

U DOKTORA. U DOKTORKY

Střední odborná škola stavební a Střední odborné učiliště stavební Rybitví

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

TEMATICKÝ PLÁN 1. ročník

ANGLIČTINA jedna pět (1. díl) - začátečníci. Richard Ludvík

Název projektu: Multimédia na Ukrajinské

POSLECH. Mona has got her eleventh birthady on Sathurday, she she is planning a big party for her friends. She met her friend John.

Digitální učební materiál

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

VY_12_INOVACE_ / Vyprávíme a překládáme příběh

Projekt MŠMT ČR: EU peníze školám

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_14_AJ_G

Projekt MŠMT ČR: EU peníze školám

CZ.1.07/1.5.00/

Aktivita CLIL Chemie III.

Psaná podoba jazyka, slovní zásoba

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

EU peníze středním školám digitální učební materiál

VOŠ, SPŠ automobilní a technická. Mgr. Marie Šíchová. At the railway station

Transkript:

Daniel Zeman Charles University in Prague based on joint work with 50+ people 1

Dependency Treebanks 2

Dependency Treebanks 3

5

6

7

8

9

Universal Dependencies http://universaldependencies.github.io/docs/ 10

Universal Dependencies http://universaldependencies.github.io/docs/ Stanford Dependencies 11

Universal Dependencies http://universaldependencies.github.io/docs/ Stanford Dependencies CLEAR 12

Universal Dependencies http://universaldependencies.github.io/docs/ Stanford Google UD Dependencies CLEAR 13

Universal Dependencies http://universaldependencies.github.io/docs/ Stanford Google UD Dependencies CLEAR Stanford UD 14

Universal Dependencies http://universaldependencies.github.io/docs/ Stanford Google UD HamleDT Dependencies CLEAR Stanford UD 15

Universal Dependencies http://universaldependencies.github.io/docs/ Stanford Google UD HamleDT Dependencies Interset CLEAR Stanford UD 16

Universal Dependencies http://universaldependencies.github.io/docs/ Stanford Google Google UD HamleDT Dependencies universal tags Interset CLEAR Stanford UD 17

Universal Dependencies http://universaldependencies.github.io/docs/ Universal Dependencies 18

Universal Dependencies http://universaldependencies.github.io/docs/ Universal Dependencies Milestones: 2014-04: EACL Göteborg, kick-off meeting 2014-10: UD guidelines version 1 2015-01: released treebanks of 10 languages (UD 1.0) 2015-05: released treebanks of 18 languages (UD 1.1) 2015-11: next release 19

Goals and Requirements Cross-linguistically consistent grammatical annotation 20

Goals and Requirements Cross-linguistically consistent grammatical annotation Support multilingual research and development in NLP 21

Goals and Requirements Cross-linguistically consistent grammatical annotation Support multilingual research and development in NLP Based on common usage and existing de facto standards 22

Goals and Requirements Cross-linguistically consistent grammatical annotation Support multilingual research and development in NLP Based on common usage and existing de facto standards Caveats: Not a new linguistic theory but linguistically informed and relevant Not an ideal parsing representation but useful for comparative evaluation Not the ultimate annotation scheme but a lightweight lingua franca 23

Golden Rules Maximize parallelism Don t annotate the same thing in different ways Don t make different things look the same 27

Golden Rules Maximize parallelism Don t annotate the same thing in different ways Don t make different things look the same But don t overdo it Don t annotate things that are not there Balance: is it still the same thing? Allow language-specific extensions 28

Morphology Některé dívky si nicméně pochvalovaly zmrzlinu. některý dívka se nicméně pochvalovat zmrzlina. DET NOUN PRON CONJ VERB NOUN PUNCT PronType=Ind Gender=Fem Number=Plur Case=Nom Gender=Fem Number=Plur Case=Nom PronType=Prs Reflex=Yes Case=Dat VerbForm=Part Tense=Past Voice=Act Aspect=Imp Gender=Fem Number=Plur Gender=Fem Number=Sing Case=Acc 29

Morphology Některé dívky si nicméně pochvalovaly zmrzlinu. některý dívka se nicméně pochvalovat zmrzlina. DET NOUN PRON CONJ VERB NOUN PUNCT PronType=Ind Gender=Fem Number=Plur Case=Nom Gender=Fem Number=Plur Case=Nom PronType=Prs Reflex=Yes Case=Dat VerbForm=Part Tense=Past Voice=Act Aspect=Imp Gender=Fem Number=Plur Gender=Fem Number=Sing Case=Acc Lemma representing the semantic content of the word 30

Morphology Některé dívky si nicméně pochvalovaly zmrzlinu. některý dívka se nicméně pochvalovat zmrzlina. DET NOUN PRON CONJ VERB NOUN PUNCT PronType=Ind Gender=Fem Number=Plur Case=Nom Gender=Fem Number=Plur Case=Nom PronType=Prs Reflex=Yes Case=Dat VerbForm=Part Tense=Past Voice=Act Aspect=Imp Gender=Fem Number=Plur Gender=Fem Number=Sing Case=Acc Lemma representing the semantic content of the word Part-of-speech tag representing the abstract lexical category associated with the word 31

Morphology Některé dívky si nicméně pochvalovaly zmrzlinu. některý dívka se nicméně pochvalovat zmrzlina. DET NOUN PRON CONJ VERB NOUN PUNCT PronType=Ind Gender=Fem Number=Plur Case=Nom Gender=Fem Number=Plur Case=Nom PronType=Prs Reflex=Yes Case=Dat VerbForm=Part Tense=Past Voice=Act Aspect=Imp Gender=Fem Number=Plur Gender=Fem Number=Sing Case=Acc Lemma representing the semantic content of the word Part-of-speech tag representing the abstract lexical category associated with the word Features representing lexical and grammatical properties associated with the lemma or the particular word form 32

Part-of-Speech Tags Open Closed Other ADJ ADP PUNCT ADV AUX SYM INTJ CONJ X NOUN DET PROPN NUM VERB PART PRON SCONJ Taxonomy of 17 universal part-of-speech tags, based on the Google Universal Tagset (Petrov et al., 2012) All languages use the same inventory, but not all tags have to be used by all languages 33

Features Lexical Inflectional / Nominal Inflectional / Verbal PronType Gender VerbForm NumType Animacy Mood Poss Number Tense Reflex Case Aspect Definite Voice Degree Person Negative Standardized inventory of morphological features, based on Interset (Zeman, 2008) Languages select relevant features and can add languagespecific features or values with documentation 34

35

36

37

38

39

40

41

42

Dependency Relations Taxonomy of 40 universal grammatical relations, broadly attested in language typology (de Marneffe et al., 2014) Language-specific subtypes may be added 43

Word Segmentation Fusions Clitics al = a + el vámonos = vamos + nos naň = na + něj изменяться = изменять + ся 53

Where are we now? Universal Dependencies, Version 1 Guidelines released October 2014 Treebank release May 2014 (v. 1.1): Basque, Bulgarian, Croatian, Czech, Danish, English, Finnish, French, German, Greek, Hebrew, Hungarian, Indonesian, Irish, Italian, Persian, Spanish, Swedish Future plans New releases every six months (May, November) Revision of guidelines as needed November 2015 Improve consistency of existing data New languages Ancient Greek, Arabic, Dutch, Estonian, Latin, Polish, Portuguese, Slovenian, Tamil; Gothic? Hindi? Kazakh? Norwegian? Old Church Slavonic? Romanian? Urdu? 54

55

Existing Slavic Treebanks?? 56

Issues of Slavic Languages in UD Pronouns vs. determiners, numerals and quantifiers Attachment of cardinal numbers Verbs, participles, adjectives Auxiliary verbs and modal verbs Direct object, indirect object and nmod Reflexive pronouns, reflexive passive Comparative constructions 57

Pronouns and Determiners English + Romance languages: DET = article or pronominal adjective (this, which, every) 58

Pronouns and Determiners English + Romance languages: DET = article or pronominal adjective (this, which, every) We don t have this category! (Traditionally PRON.) 59

Pronouns and Determiners English + Romance languages: DET = article or pronominal adjective (this, which, every) We don t have this category! (Traditionally PRON.) But we have the words (except for articles). 60

Pronouns and Determiners English + Romance languages: DET = article or pronominal adjective (this, which, every) We don t have this category! (Traditionally PRON.) But we have the words (except for articles). Currently functional borderline (but ellipsis?) This.DET car is expensive. This.PRON is expensive. 61

Pronouns Only Personal pronouns (including reflexives, but not possessives) Interrogative who, what Indefinite and negative derivatives Relative [cs] jenž cs: já, ty, on, my, vy, oni, se, kdo, co, někdo, něco, nikdo, nic sk: já, ty, on, my, vy, oni, sa, kto, čo, niekto, niečo, nikto, nič pl: ja, ty, on, my, wy, oni, się, kto, co, ktoś, coś, nikt, nic ru: я, ты, он, мы, вы, они, ся, кто, что, кто-нибудь, что-нибудь, никто, ничто sl: jaz, ti, on, mi, vi, oni, se, kdo, kaj, nekdo, nekaj, nihče, nič hr: ja, ti, on, mi, vi, oni, se, tko, što, neki, nešto, nitko, ništa bg: аз, ти, ние, вие, се, кой, кое, някой, нещо, никой, нищо cu: азъ, тꙑ, мꙑ, вꙑ, и, сѧ, къто, чьто 62

Possessives: Determiners If they occur without a noun ellipsis Můj otec je starší. Tvůj má ale více zkušeností. cs: můj, tvůj, jeho, její, náš, váš, jejich, svůj sk: môj, tvoj, jeho, jej, náš, váš, ich, svoj 63

Both Possible Demonstratives ten, to, tento, tamten, jaký, který, čí, nějaký, některý, něčí, každý, všechen, žádný, Adjectival interrogatives/relatives, indefinites, negatives jaký, který, čí, nějaký, některý, něčí, každý, žádný všechen, všichni, všechno Relative pronouns cannot be explained by ellipsis! Muž, kterého *muže jsem vám představil. The man, which *man I introduced to you. 64

Numerals and Quantifiers NUM: jeden, dva, tři, čtyři, pět, šest,, sto (one, two, three, four, five, six,, hundred) 65

Numerals and Quantifiers NUM: jeden, dva, tři, čtyři, pět, šest,, sto NUM/NOUN: tisíc, milión, miliarda NOUN: polovina, třetina, čtvrtina, setina (thousand, million, billion) (half, one-third, one-fourth, one-hundredth) 66

Numerals and Quantifiers NUM: jeden, dva, tři, čtyři, pět, šest,, sto NUM/NOUN: tisíc, milión, miliarda NOUN: polovina, třetina, čtvrtina, setina NUM: dvé, tré, čtvero, patero, šestero; jedny, dvoje, troje, čtvery, patery (one set of, two sets of, ) 67

Numerals and Quantifiers ADJ: první, druhý, třetí, čtvrtý,, stý, tisící; dvojí, trojí, čtverý, paterý (first, second, third, fourth,, hundredth ) 68

Numerals and Quantifiers ADJ: první, druhý, třetí, čtvrtý,, stý, tisící; dvojí, trojí, čtverý, paterý ADV: jedenkrát, dvakrát, třikrát, čtyřikrát; poprvé, podruhé, potřetí, posté; kolikrát, pokolikáté (once, twice, three times, four times) (for the first time, for the second time ) (how many times) 69

Numerals and Quantifiers ADJ: první, druhý, třetí, čtvrtý,, stý, tisící; dvojí, trojí, čtverý, paterý ADV: jedenkrát, dvakrát, třikrát, čtyřikrát; but: více, méně, poprvé, podruhé, potřetí, posté; kolikrát, pokolikáté DET: kolik, tolik, několik, mnoho, málo, kolikátý, kolikerý (how many, so many, some, few, ) 70

Quantified Noun Phrases 71

Five in PDT 72

Cases: Numeral and Noun 73

Five in Instrumental in PDT 74

Pronominal Quantifiers in PDT 75

Pronominal Quantifiers in UD 76

Language-Specific Labels 78

dobj / iobj Not as easy as accusative vs. dative. Default: dobj Heuristics for iobj Cením si vaší pomoci. (Gen) Čelíme velkým problémům. (Dat) Nedisponuje takovým rozpočtem. (Ins) Učí mou dceru fyziku. (2 Acc) 79

dobj / iobj / nmod Core arguments: what exactly is it? English: He gave John the book. (iobj) He gave the book to John. (nmod) Spanish: Dio el libro a John. (iobj) Czech: Every Obj is translated to dobj, regardless the case and the presence of preposition 80

Reflexive Pronouns Direct or indirect object (dobj, iobj): Řízl se do prstu / Řízl ho do prstu. Inherently reflexive verbs: smát se, bát se Including reciprocal usage: Políbili se. / They kissed each other. compound:reflex (analogy to English compound:prt in give up, come on, ) NOW CHANGED: expl Reflexive passive: To se snadněji řekne než udělá. auxpass:reflex 81

Modal Auxiliary in English 82

Modal Verb in Czech 83

Modal Adverb in Russian 84

Modal / Control Verb in English 85

Comparative Constructions 86

Comparative Constructions 87

Summary Universal Dependencies = cross-linguistically applicable annotation of POS + morpho features + dependency relations Parallelism among Slavic languages Determiners, Quantifiers, d/i Objects, Reflexives, Modal verbs/auxiliaries, Comparatives 88

Děkuji! Otázky? Благодарѭ! Въпроси? Ďakujem! Otázky? Благодаря! Въпроси? Thank you! Questions? Спасибо! Вопросы? Dziękuję! Pytania? Hvala! Vprašanja? Hvala! Pitanja? 89