Prague Dependency Treebank (vs. Functional Generative Description) and HamleDT Family

Podobné dokumenty
Zachycení (nejen) koordinací v závislostních stromech

Syntactic annotation of a second-language learner corpus

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Universal Dependencies and non-native Czech

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

Právní formy podnikání v ČR

místo, kde se rodí nápady

Theme 6. Money Grammar: word order; questions

Compression of a Dictionary

Contact person: Stanislav Bujnovský,

Digitální učební materiál

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

WORKSHEET 1: LINEAR EQUATION 1

1 st International School Ostrava-mezinárodní gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 VÍTKOVICE STEEL, a.s. vitkovicesteel.com

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Co vím o Ázerbájdžánu?

Karta předmětu prezenční studium

CZ.1.07/1.5.00/

Course description. Course credit prior to NO Counted into average NO Winter semester 0 / - 0 / - 0 / - Timetable Language of instruction

Energy vstupuje na trh veterinárních produktů Energy enters the market of veterinary products

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Digitální učební materiál

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Strukturovaný životopis

The Czech education system, school

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

Litosil - application

Digitální učební materiál

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

CZ.1.07/1.5.00/

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Aktivita CLIL Chemie I.

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Mechanika Teplice, výrobní družstvo, závod Děčín TACHOGRAFY. Číslo Servisní Informace Mechanika:

Národní informační den společných technologických iniciativ ARTEMIS a ENIAC

MEDIA RESEARCH RATINGS

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

READERS OF MAGAZÍN DNES + TV

Introduction to Navision 4.00 Jaromír Skorkovský, MS., PhD.

ŽÁDOST O UZNÁNÍ ZAHRANIČNÍHO VYSOKOŠKOLSKÉHO VZDĚLÁNÍ A KVALIFIKACE APPLICATION FOR THE RECOGNITION OF FOREIGN EDUCATION IN THE CZECH REPUBLIC

Univerzita Pardubice Fakulta filozofická. Franz Kafka: Pojetí systému v Proměně. Lukáš Vavrečka

USER'S MANUAL FAN MOTOR DRIVER FMD-02

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

1) Personal data / Osobní údaje

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

MEDIA RESEARCH RATINGS

Vincent Kríž, Barbora Hladká. RExtractor. Entity Relation Extraction from Unstructured Texts. Intelligent library (INTLIB, TA )

MEDIA RESEARCH RATINGS

MEDIA RESEARCH RATINGS

2 Axiomatic Definition of Object 2. 3 UML Unified Modelling Language Classes in UML Tools for System Design in UML 5

Database systems. Normal forms

The Over-Head Cam (OHC) Valve Train Computer Model

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

SUBCATEGORIZATION OF ADVERBIAL MEANINGS BASED ON CORPUS DATa

Czech Crystal in Chengdu 2016 捷克水晶闪亮成都

Postup objednávky Microsoft Action Pack Subscription

Maturitní zkouška státní z anglického jazyka

READERS OF MAGAZÍN DNES + TV

TEMATICKÝ PLÁN. Literatura: Project 2 - T. Hutchinson, OXFORD

SEZNAM PŘÍLOH. Příloha 1 Dotazník Tartu, Estonsko (anglická verze) Příloha 2 Dotazník Praha, ČR (česká verze)... 91

MEDIA RESEARCH RATINGS

Agile leadership in Czech Rep. Agilia Conference 2011 Brno

dat 2017 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

ActiPack rozšířil výrobu i své prostory EMBAX Od ledna 2015 jsme vyrobili přes lahviček či kelímků. Děkujeme za Vaši důvěru!

History. Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín. Datum vytvoření Ročník Stručný obsah Způsob využití

Drags imun. Innovations

TELEGYNEKOLOGIE TELEGYNECOLOGY

Fytomineral. Inovace Innovations. Energy News 04/2008

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Translation Model Interpolation for Domain Adaptation in TectoMT

AJ 3_16_Prague.notebook. December 20, úvodní strana

Invitation to ON-ARRIVAL TRAINING COURSE for EVS volunteers

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

MAGAZINE ABOUT WOMEN THE WAY THEY REALLY ARE

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

ČTENÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

READERS OF MAGAZINE DOMA DNES

ANGLICKÁ KONVERZACE PRO STŘEDNĚ POKROČILÉ

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

Introduction to MS Dynamics NAV

VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová

ENVIRONMENTAL EDUCATION IN.

AJ 3_10_Travelling.notebook. December 16, úvodní strana

Social Media a firemní komunikace

READERS OF MAGAZÍN DNES + TV

/ 1. I nadále budeme vyhledávat možnosti uplatnění na zahraničních aktivitách, kde jsme v předešlých letech načerpali dostatek zkušeností

PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT

MEDIA RESEARCH RATINGS

Faktorované překladové modely. Základní informace

Transkript:

Prague Dependency Treebank (vs. Functional Generative Description) and HamleDT Family Markéta Institute of Formal and Applied Linguistics, MFF UK lopatkova@ufal.mff.cuni.cz

Prague Dependency Treebank ~ application of the FGD theory on the large set of Czech data http://ufal.mff.cuni.cz/pdt2.0/ https://ufal.mff.cuni.cz/pdt3.0/ 1. data 2. tools 3. documentation: Guide, http://ufal.mff.cuni.cz/pdt2.0/ manuals for individual layers https://ufal.mff.cuni.cz/pdt3.0/documentation survey of data formats and tools releases: 2.0 (2006), 2.5 (2011), 3.0 (2013)

Prague Dependency Treebank (cont.) 4 layers: word layer (w-layer) morphological layer (m-layer) analytical layer (a-layer) tectogrammatical layer (t-layer) layers of annotation layers of description t,a,m-layer a,m-layer train dtest etest total total # documents 2 536 316 316 3 168 2 170 # sentences 38 737 5 228 5 477 49 442 38 538 # tokens 652 700 87 988 92 669 833 357 671 490

Prague Dependency Treebank (cont.) stand-off annotation manual annotation with a massive post-annotation consistency checking formats and tools: TrEd tree editor and viewer (Pajas, xxxx) http://ufal.mff.cuni.cz/~pajas/tred/index.html PML data format (XML-based format ) http://ufal.mff.cuni.cz/pdt2.0/doc/data-formats/pml/index.html PML-TQ search tool http://ufal.mff.cuni.cz/~pajas/pmltq/ more during the practical sessions

PDT: w-layer layer of source texts (1991-1995) Lidové noviny (daily newspapers) Mladá fronta Dnes (daily newspapers) Českomoravský Profit (business weekly) Vesmír (scientific journal) part of the Czech National Corpus a sequence of tokens (word forms and punctuation marks) including errors, typing errors, bad segmentation,

PDT: m-layer the sequence of tokens divided into sentences errors are corrected annotation: morphological lemma morphological tag id reference to w-layer form (corrections: spelling errors, incorrectly split or joined words, ) manually annotated (parallel annotation)

PDT: m-layer Některé kontury problému se však po oživením Havlovým projevem zdají být jasnější. [Some contours of the problem seem to be clearer after the resurgence by Havel's speech.] Form Lemma Morphological tag Některé některý PZFP1---------- kontury kontura NNFP1-----A---- problému problém NNIS2-----A---- se se_^(zvr._zájmeno/částice) P7-X4---------- však však J^------------- po po-1 RR--6---------- oživení oživení_^(*3it) NNNS6-----A---- Havlovým Havlův_;S_^(*3el) AUIS7M--------- projevem projev NNIS7-----A---- zdají zdát VB-P---3P-AA--- být být Vf--------A---- jasnější jasný AAFP1----2A----.. Z:-------------

PDT: a-layer dependency tree one token from m-layer ~ one node incl. prepositions, punctuation plus technical root relations ~ edges dependency, coordination, punctuation, linear ordering ~ surface word order annotation: analytical function (afun) linear order is_member is_parenthesis_root id reference to m-layer coordination, apposition, parenthesis

PDT: a-layer Některé kontury problému se však po oživením Havlovým projevem zdají být jasnější. [Some contours of the problem seem to be clearer after the resurgence by Havel's speech.]

PDT: t-layer tectogrammatical tree structure ~ dependency tree nodes for auto-semantic/lexical words only syn-semantic/functional words as attributes of lexical words (plus technical root) ellipses as nodes edges ~ relations (dependency, coordination, others) link to a valency lexicon for verbs and (certain types of) nouns topic-focus articulation (TFA) linear ordering ~ deep word order contextually bounded and unbounded nodes coreference

PDT: t-layer (basic attributes) tectogrammatical tree structure t-lemma functor grammatemes (16 attributes starting with the prefix gram ) is_member is_parenthesis_root id reference to a-layer topic-focus articulation (TFA) deepord tfa coreference coref_text.rf coref_gram.rf

PDT: t-layer Některé kontury problému se však po oživením Havlovým projevem zdají být jasnější. [Some contours of the problem seem to be clearer after the resurgence by Havel's speech.]

Linking the layers references from a higher layer to a lower layer : t-layer a-layer a-layer m-layer m-layer w-layer 1:1 correspondence between nodes of the m- and a-layers

PDT: Division of the data to layers xxxx t-layer a-layer m-layer

PDT: Division of the data into training and test sets

PDT: Number of tokens from the particular sources PDT FGD

Návštěvy kin a divadel patří mezi méně časté aktivity mladých lidí v České republice. [Attending cinemas and theaters belongs to less frequent activities of young people in the Czech republic.]

Podle slov pražského primátora Jana Koukala by tato čtvrť měla vzniknout během roku a půl. [In the words of the city's mayor Jan Koukal, this quarter should arise in a year and a half.]

Společnost vyrábí model Charade japonské automobilky Daihatsu, který je v Číně používán mimo jiné jako taxi. [The company produces the Charade model of the Japanese car factory Daihatsu, which is used in China also as a taxi.]

Differences between FGD and PDT

Differences between FGD and PDT FGD tectogrammar/deep syntax surface syntax morphematics morphonology phonology PDT t-layer (tectogrammatical l.) a-layer (analytical l.) m-layer (morphological l.) structural layers w-layer (word layer) reasons analysis vs. synthesis/generation richer information technical reasons (financial, temporal restrictions, implementation)

Differences between FGD and PDT (cont.) morphematics (FGD) vs. m-layer (PDT) morphemes for individual words are grouped grammatical categories ~ morphological tags annotated text is divided into sentences

Differences between FGD and PDT (cont.) structural layers technical root connecting constructions for coordination and apposition in PDT

Differences between FGD and PDT (cont.) 1. surface syntax (FGD) vs. a-layer (PDT) each token of m-layer is represented by a node (incl. prepositions, auxiliary verbs, punctuation, ) (vs. units corresponding to formemes) edges for non-dependency relations (other than coordination/apposition) function words (e.g., auxiliary verbs) usually below respective lexical words exception: prepositions, subordinating conjunctions as parents of lexical words

Differences between FGD and PDT (cont.) 1. surface syntax (FGD) vs. a-layer (PDT) each token of m-layer is represented by a node (incl. prepositions, auxiliary verbs, punctuation, ) (vs. units corresponding to formemes) edges for non-dependency relations (other than coordination/apposition) function words (e.g., auxiliary verbs) usually below respective lexical words exception: prepositions, subordinating conjunctions as parents of lexical words ellipses: elided words are not restored at a-layer a word modifying an elided word as a child of the 'lowest' ancestor

Differences between FGD and PDT (cont.) 2. deep/tectogram. syntax (FGD) vs. t-layer (PDT) core vs. periphery specific constructions (direct speech, comparison) edges for non-dependency relations syntactically unclear expressions list structures phrasemes info on the (non)realization in the surface sentence (is_generated)

Differences between FGD and PDT (cont.) 2. deep/tectogram. syntax (FGD) vs. t-layer (PDT) core vs. periphery specific constructions (direct speech, comparison) edges for non-dependency relations syntactically unclear expressions list structures phrasemes info on the (non)realization in the surface sentence (is_generated) topic-focus articulation coreference relative/ interrogative pronouns, personal pronouns (3 rd person) grammatical control, complement

Other treebanks: Prague dependency family Prague Dependency Treebank

Other treebanks: Prague dependency family Czech: Prague Dependency Treebank and Discourse Treebank 1.0 (2001); 2.0 (2006); 2.5 (2011); 3.1 (2013) http://ufal.mff.cuni.cz/pdt2.5/ Czech Academic Corpus 1.0 (2006), 2.0 (2008) http://ufal.mff.cuni.cz/rest/cac/doc-cac20/cac-guide/eng/html/index.html morphological annotation (652 000 tokens, 32 000 sentences) analytical annotation (493 000 tokens, 25 000 sentences) both written and spoken language manually annotated Czech Legal Text Prague Dependency Treebank of Spoken Czech (morphological) http://ufal.mff.cuni.cz/pdtsc1.0/en/index.html

Other treebanks: Prague dependency family Prague English Dependency Treebank 1.0 (2009) texts from the Wall Street Journal (Penn Treebank III) adaptation of the PDT-like annotation scheme to English tectogrammatical annotation 12 440 annotated and checked trees Whether desirable or not, this is a child-care program, not an educational program. (Wall Street Journal 1286/49)

Other treebanks: Prague dependency family Prague Czech-English Dependency Treebank 1.0 (2004) Penn Treebank data (Wall Street Journal, 21 600 English sentences) human translators automatic conversions of Penn Treebank annotation into PDT-like annotation scheme (m-, a- and t-layers) plain text from Reader's Digest 1993-1996 (50 000 sentences) test data: 515 sentence pairs manually annotated on tectogrammatical level, Czech and English retranslated from Czech to English by 4 different translation companies

Other treebanks: Prague dependency family Prague Czech-English Dependency Treebank 2.0 Penn Treebank data manually annotated data (49 000 sentences) http://ufal.mff.cuni.cz/pcedt2.0/ But the strategy isn t helping much this time. Tato strategie však tentokrát příliš nepomáhá.

Prague Czech-English Dependency Treebank EnglishT-wsj_0009-s2 Ale musíte uznat, že se tyto události odehrály před 35 lety. But you have *-1 to recognize that these events took place 35 years ago.

EnglishT-wsj_0009-s2 In the new position he will oversee Mazda 's U.S. sales, service, parts and marketing operations. Vitulli bude ve své nové funkci dohlížet na americký prodej, služby, součásti a marketing společnosti Mazda.

Pětapadesátiletý Rudolf Agnew, bývalý předseda společnosti Consolidated Gold Fields PLC, byl jmenován nevýkonným ředitelem tohoto britského průmyslového konglomerátu. Rudolph Agnew, 55 years old and former chairman of Consolidated Gold Fields PLC, was named *-1 a nonexecutive director of this British industrial conglomerate.

Other treebanks: Prague dependency family Czech-English Parallel Corpus 1.0 (~15.0 M parallel sentences ) http://ufal.mff.cuni.cz/czeng/ collected automatically annotated automatically European laws, subtitles, technical documentation, electronic books, newspapers, It is extremely important that Iraq held elections to a constitutional assembly.

Other treebanks: Prague dependency family Prague Arabic Dependency Treebank 1.0 (2004) http://ufal.mff.cuni.cz/padt/padt_1.0/docs/index.html Functional Arabic Morphology analytical layer (about 130 000 tokens) tectogrammatical layer

Other treebanks: Prague dependency family HamleDT ~ a compilation of existing dependency treebanks (or dependency conversions of other treebanks), transformed so that they all conform to the same annotation style 36 languages, 42 treebanks in HamleDT 3.0 (2015) http://ufal.mff.cuni.cz/hamledt/

Other treebanks: Prague dependency family HamleDT ~ a compilation of existing dependency treebanks (or dependency conversions of other treebanks), transformed so that they all conform to the same annotation style PDT-like tree Universal Dependencies

How to access / obtain dependency treebanks as a web service https://lindat.mff.cuni.cz/services/pmltq/#!/home LINDAT/Clarin Repository PML-TQ search tool

How to access / obtain dependency treebanks as a web service https://lindat.mff.cuni.cz/services/pmltq/#!/home LINDAT/Clarin Repository PML-TQ search tool more stable, quick via Tred instalation PML-TQ search tool graphical interface for creating queries (practical lectures)

References Sgall, P., Hajičová, E., Panevová, J. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Reidel, Dordrecht. Hajičová, E., Panevová, J., Sgall, P. (2002) Úvod do teoretické a počítačové lingvistiky, sv. I. Karolinum, Praha. PDT guide http://ufal.mff.cuni.cz/pdt2.0/ Štěpánek, J. (2006) Závislostní zachycení větné struktury v anotovaném syntaktickém korpusu (nástroje pro zajištění konzistence dat). PhD thesis, MFF UK. Zeman, D. et al. (2014) HamleDT: Harmonized Multi-Language Dependency Treebank. Language Resources and Evaluation, vol. 48, no. 4, p. 601-637. http://ufal.mff.cuni.cz/hamledt