TectoMT: Machine Translation System

Podobné dokumenty
Strojový překlad přes tektogramatickou rovinu v systému TectoMT. Martin Popel ÚFAL, MFF UK

Translation Model Interpolation for Domain Adaptation in TectoMT

Možnosti zlepšení strojového překladu z angličtiny do češtiny

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Compression of a Dictionary

Faktorované překladové modely. Základní informace

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Syntactic annotation of a second-language learner corpus

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Universal Dependencies and non-native Czech

WORKSHEET 1: LINEAR EQUATION 1

Zachycení (nejen) koordinací v závislostních stromech

Vincent Kríž, Barbora Hladká. RExtractor. Entity Relation Extraction from Unstructured Texts. Intelligent library (INTLIB, TA )

Constituent Parsing. Daniel Zeman

Litosil - application

MIKROPROCESORY PRO VÝKONOVÉ SYSTÉMY. Stručný úvod do programování v jazyce C 2.díl. České vysoké učení technické Fakulta elektrotechnická

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Transportation Problem

Statistical Recognition of References in Court Decisions

Jakub Zavodny (University of Oxford, UK)

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Maven. Aplikační programování v Javě (BI-APJ) - 2 Ing. Jiří Daněček Katedra softwarového inženýrství Fakulta informačních technologií ČVUT Praha

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

WYSIWYG EDITOR PRO XML FORM

Digitální učební materiál

User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 VÍTKOVICE STEEL, a.s. vitkovicesteel.com

1. Maple - verze. 2. Maple - prostredi. Document Mode vs. Worksheet Mode

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

CZ.1.07/2.3.00/

SPOLUPRÁCE - KOORDINÁTOR/KA ZAHRANIČNÍCH KURZŮ

Postup objednávky Microsoft Action Pack Subscription

Prague Dependency Treebank (vs. Functional Generative Description) and HamleDT Family

Eurogranites 2015 Variscan Plutons of the Bohemian Massif

VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

1. Zadavatel: Lepíky s.r.o., Podnikatelská 539, Praha 9 Ič: Dič: CZ

CASTING HAND PRODUCTION USING MOULDS

Cambridge International Examinations Cambridge International General Certifi cate of Secondary Education

Dynamic programming. Optimal binary search tree

Lukáš Brodský Praha Osnova. Objektový přístup Verze 4, 5, 6 / 7 Developer7 -funkčnost, nové vlastnosti HW

Wikipedie ve strojovém překladu. Využití Wikipedie pro strojový překlad pojmenovaných entit

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

World cup #9 and #10 Czech republic

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

POWERSHELL. Desired State Configuration (DSC) Lukáš Brázda MCT, MCSA, MCSE

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Ontologie Příklady. Přednáška z předmětu Socioekonomická geografie pro geomatiku (KMA/SGG) Otakar Čerba Západočeská univerzita

PROSPERITY Programme. OP Enterprise and Innovation. Klára Hanušová

Image Analysis and MATLAB. Jiří Militky

TechoLED H A N D B O O K

Číslo materiálu: VY 32 INOVACE 25/12. Název materiálu: Anatomy 2 - Senses Číslo projektu: CZ.1.07/1.4.00/

SPECIFICATION FOR ALDER LED

IT4Innovations Centre of Excellence

CZ.1.07/1.5.00/

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT

MIKROPROCESORY PRO VÝKONOVÉ SYSTÉMY. Stručný úvod do programování v jazyce C 1.díl. České vysoké učení technické Fakulta elektrotechnická

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

PITSTOP VY_22_INOVACE_26

Část 2 POROVNÁNÍ VÝKONNOSTI A POUŽITELNOSTI ARCHITEKTUR V TYPICKÝCH APLIKACÍCH

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Introduction to MS Dynamics NAV

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

Vánoční sety Christmas sets

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

CHAIN TRANSMISSIONS AND WHEELS

Martin Vrbka 0/14. Institute of Machine and Industrial Design Faculty of Mechanical Engineering Brno University of Technology

Zdeňka Lipovská. This project is implemented through the CENTRAL EUROPE Programme co-financed by the ERDF.

Energy vstupuje na trh veterinárních produktů Energy enters the market of veterinary products

FUNKČNÍ VZOREK FUNKČNÍ VZOREK ZAŘÍZENÍ HTPL-A PRO MĚŘENÍ RELATIVNÍ TOTÁLNÍ EMISIVITY POVLAKŮ

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

připravili Filip Trojan, Pavel Macek,

Aktuální situace mezi novináři v České Republice Present situation of journalism in the Czech Republic

IPR v H2020. Matěj Myška myska@ctt.muni.cz

PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL

Aktivita CLIL Chemie I.

Digitální učební materiál

Case Study Czech Republic Use of context data for different evaluation activities

Theme 6. Money Grammar: word order; questions

Olympus High Res Shot Raw File Photoshop Plug-in. Uživatelská příručka

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Karta předmětu prezenční studium

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Název projektu: Multimédia na Ukrajinské

SoSIReČR Sociální síť informatiků v regionech České republiky, Peter Vojtáš, MFFUK

Biotechnology in the Czech Republic where we are?

REFERENČNÍ MANUÁL. Konfigurační menu. Text input. Text substitutions. Dictionaries. Swype. Translation. Layout. Miscellanous

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Jak importovat profily do Cura (Windows a

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Transkript:

: Machine Translation System Martin Popel ÚFAL (Institute of Formal and Applied Linguistics) Charles University in Prague FEAST (Forum Entwicklung und Anwendung von Sprach-Technologien) November 16, 2010, Saarbrücken, Germany

Outline Treex (framework) vs. (MT system) Demo translation step by step Annotation of translation errors Improvements Hidden Markov Tree Models (HMTM) Combining dictionaries Maximum Entropy dictionary Results Examples of translation

Treex vs. 2005 2011 NLP framework MT system Main author: Zdeněk Žabokrtský lemmatization tagging parsing multi-purpose NLP framework Treex MT system coreference CzEng analysis lemmatization tagging parsing PEDT preprocessing treebank conversions named entity r. SMT preproc. alignment (word,tree) etc.

Treex architecture input files document reader In-memory document representation (OOP API) block 1... block n document writer scenario output files

Translation scheme transfer over the tectogrammatical layer ANALYSIS TRANSFER SYNTHESIS deep syntax: tectogramatical layer t-layer shallow syntax: analytical layer a-layer morphological layer m-layer source language (English) target language (Czech) w-layer

Translation scheme rule based & statistical blocks ANALYSIS TRANSFER SYNTHESIS tectogramatical layer t-layer fill formems grammatemes use fill morphological categories query build t-tree dictionary HMTM impose agreement mark edges to contract add functional words analytical layer a-layer analytical functions generate parser (McDonald's MST) wordforms morphological layer m-layer tagger (Morce) concatenate lemmatization tokenization source language (English) target language (Czech) w-layer segmentation

Demo Translation Analysis raw text Machine translation should be easy. m-layer machine translation should be easy. NN NN MD VB JJ. a-layer Atr machine Sb translation Pred should Obj be AuxK. Pnom easy

Demo Translation Analysis raw text Machine translation should be easy. m-layer machine translation should be easy. NN NN MD VB JJ. a-layer Atr machine Mark functional words Sb translation Pred should Obj be AuxK. Pnom easy

Demo Translation Analysis raw text Machine translation should be easy. m-layer machine translation should be easy. NN NN MD VB JJ. a-layer Mark edges to be contracted Atr machine Sb translation Pred should Obj be AuxK. Pnom easy

Demo Translation Analysis raw text Machine translation should be easy. m-layer machine translation should be easy. NN NN MD VB JJ. Build t-tree (backbone) t-layer be translation easy machine

Demo Translation Analysis raw text Machine translation should be easy. m-layer machine translation should be easy. NN NN MD VB JJ. Fill formems t-layer be v:fin n:attr machine translation n:subj easy adj:compl

Demo Translation Analysis raw text Machine translation should be easy. m-layer machine translation should be easy. NN NN MD VB JJ. t-layer n:attr machine Fill grammatemes translation n:subj number = singular be v:fin tense = simple, modality, conditional easy adj:compl degree of comparison = positive

Demo Translation Transfer Build target t-tree by cloning source t-layer machine translation n:attr be n:subj v:fin easy adj:compl target t-layer be v:fin translation n:subj easy adj:compl machine n:attr

Demo Translation Transfer Get translation variants for lemmas and formems source t-layer be v:fin translation n:subj easy adj:compl machine n:attr target t-layer počítač stroj strojový n:2 n:attr adj:attr překlad převod n:1 být mít v:fin v:inf snadný jednoduchý adj:compl n:1 adv:

Demo Translation Transfer source t-layer machine Select the best combination of lemmas and formems translation n:attr be n:subj v:fin easy adj:compl target t-layer počítač stroj strojový n:2 n:attr adj:attr překlad převod n:1 být mít v:fin v:inf snadný jednoduchý adj:compl n:1 adv:

Demo Translation Synthesis Build target a-layer by cloning target t-layer být v:fin překlad n:1 snadný adj:compl strojový adj:attr target a-layer být překlad snadný strojový

Demo Translation Synthesis Fill morphological categories target t-layer být v:fin překlad n:1 snadný adj:compl strojový adj:attr target a-layer strojový degree = positive být překlad snadný number = singular degree = positive gender = masc. inanim. case = nominative

Demo Translation Synthesis Impose agreement target t-layer být v:fin překlad n:1 snadný adj:compl strojový adj:attr target a-layer být number = singular gender = masc. Inanim. number = singular case = nominative gender = masc. inanim. strojový degree = positive překlad number = singular gender = masc. inanim. case = nominative snadný degree = positive number = singular case = nominative gender = masc. inanim.

Demo Translation Synthesis Add functional words target t-layer být v:fin překlad n:1 snadný adj:compl strojový adj:attr target a-layer překlad mít. strojový by být snadný

Demo Translation Synthesis target t-layer Reorder clitics být v:fin překlad n:1 snadný adj:compl strojový adj:attr target a-layer překlad mít. strojový by být snadný

Demo Translation Synthesis Generate wordforms target t-layer být v:fin překlad n:1 snadný adj:compl strojový adj:attr target a-layer překlad měl. strojový by být snadný

Demo Translation Synthesis Concatenate tokens for output target t-layer být v:fin překlad n:1 snadný adj:compl strojový adj:attr target a-layer strojový měl. překlad by být snadný Strojový překlad by měl být snadný.

Demo Translation Real Scenario MORPHOLOGY: ResegmentSentences Tokenize NormalizeForms FixTokenization TagMorce FixTags Lemmatize NAMED ENTITIES: StanfordNamedEntities DistinguishPersonalNames A-LAYER: MarkChunks ParseMST SetIsMemberFromDeprel RehangConllToPdtStyle FixNominalGroups FixIsMember FixAtree FixMultiwordPrepAndConj FixDicendiVerbs SetAfunAuxCPCoord SetAfun T-LAYER: MarkEdgesToCollapse MarkEdgesToCollapseNeg BuildTtree SetIsMember MoveAuxFromCoordToMembers FixTlemmas SetCoapFunctors FixEitherOr FixIsMember MarkClauseHeads MarkPassives SetFunctors MarkInfin MarkRelClauseHeads MarkRelClauseCoref MarkDspRoot MarkParentheses SetNodetype SetGrammatemes SetFormeme RehangSharedAttr SetVoice FixImperatives SetIsNameOfPerson SetGenderOfPerson AddCorAct FindTextCoref TRANSFER: CopyTtree TrLFPhrases TrLFJointStatic DeleteSuperfluousTnodes TrFTryRules TrFAddVariants TrFRerank TrLTryRules TrLAddVariants TrLFNumeralsByRules TrLFilterAspect TransformPassiveConstructions PrunePersonalNameVariants RemoveUnpassivizableVariants TrLFCompounds CutVariants RehangToEffParents TrLFTreeViterbi RehangToOrigParents CutVariants FixTransferChoices ReplaceVerbWithAdj DeletePossPronBeforeVlastni TrLFemaleSurnames AddNounGender MarkNewRelClauses AddRelpronBelowRc ChangeCorToPersPron AddPersPronBelowVfin AddVerbAspect FixDateTime FixGrammatemesAfterTransfer FixNegation MoveAdjsBeforeNouns MoveGenitivesRight MoveRelClauseRight MoveDicendiCloserToDsp MovePersPronNextToVerb MoveEnoughBeforeAdj MoveJesteBeforeVerb FixMoney OverridePpWithPhraseTr FindGramCorefForReflPron NeutPersPronGenderFromAntec ValencyRelatedRules SetClauseNumber TurnTextCorefToGramCoref SYNTHESIS TO A-LAYER: CopyTtree DistinguishHomonymous. ReverseNumberNounDep. InitMorphcat FixPossessiveAdjs MarkSubject ImposePronZAgr ImposeRelPronAgr ImposeSubjpredAgr ImposeAttrAgr ImposeComplAgr DropSubjPersProns AddPrepos AddSubconjs AddReflexParticles AddAuxVerbCompoundPassive AddAuxVerbModal AddAuxVerbCompoundFuture AddAuxVerbConditional AddAuxVerbCompoundPast AddClausalExpletivePronouns ResolveVerbs ProjectClauseNumber AddParentheses AddSentFinalPunct AddSubordClausePunct AddCoordPunct AddAppositionPunct ChooseMlemmaForPersPron GenerateWordforms MoveCliticsToWackernagel DeleteSuperfluousPrepos DeleteEmptyNouns VocalizePrepos CapitalizeSentStart CapitalizeNamedEntities. FillTagFromMorphcat SYNTHESIS TO TEXT: ConcatenateTokens ApplySubstitutions DetokenizeUsingRules RemoveRepeatedTokens NormalizePunctuationForWMT

Annotation of Translation Errors sample of 250 sentences, 1463 errors in total Type Subtype Seriousness Circumstances Source lemma, formeme, gram., w. order,... gram: gender, person, tense,... serious, minor coordination, named entity, numbers tok, lem, tagger, parser, tecto, trans, x, syn,? ANALYSIS 30% SYNTHESIS 3% TRANSFER 67% errors caused by the assumption of t-tree isomorphism 8% other transfer errors 59%

HMTM Motivation source t-layer machine Select the best combination of lemmas and formems translation n:attr be n:subj v:fin easy adj:compl target t-layer počítač stroj strojový n:2 n:attr adj:attr překlad převod n:1 být mít v:fin v:inf snadný jednoduchý adj:compl n:1 adv:

HMTM Motivation source t-layer machine target t-layer translation n:attr počítač n:2, počítač n:attr, strojový adj:attr,... Select the best label for each node n:subj překlad n:1, převod n:1 be v:fin easy adj:compl být v:fin, být v:inf, mít v:fin, mít v:inf snadný adj:compl, jednoduchý adj:compl,...

HMTM in MT Source tree (Czech) ROOT TRANSFER P(optimal_tree) = P E (strojový machine) P T (machine translation) P E (překlad translation) P T (translation be) P E (snadný easy) P T (easy be) P E (být be) P T (be ROOT) Target tree (English) ROOT P E (být have) = 0.01 0.01 SYNTHESIS být P E (být be) = 0.8 be have ANALYSIS překlad snadný P E (překlad arcade) = 0.7 P E (překlad translation) = 0.6 translation 0.0001 arcade 1 10-8 0.002 0.001 easy simple P T (machine translation) = 0.02 1 10-10 1 10-8 1 10-8 strojový Source sentence: Strojový překlad by měl být snadný. P E (strojový machine) = 0.4 machine P E (strojový engine) = 0.5 engine Target sentence: Machine translation should be easy. P E (source target) emission probabilities translation model P T (dependent governing) transition probabilities target-language tree model

Combining Dictionaries new general interface (for lemmas and formems) $dict->get_translations($input_label, $features) returns a list of translation variants including probabilities OOP style, dictionary constructor can take another dictionary (or more) as a parameter hierachy Four basic types of dictionaries: Static plain Context Derivational Combinaional loaded from a file lemma lemma loaded from a file lemma,features lemma translations derived dynamicaly, input dictionary combination of more input dictionaries

Hierarchy of lemma dictionaries Backoff 1. MaxEnt (CzEng) 3. 2. Baseline (CzEng) Human

Hierarchy of lemma dictionaries Interpolated 0,8 0,1 MaxEnt (CzEng) Human 0,1 Baseline (CzEng)

Hierarchy of lemma dictionaries Interpolated MaxEnt (CzEng) Human Prefixes multi-core více-jádrový více-jádro multi-jádrový multi-jádro Baseline (CzEng)

Hierarchy of lemma dictionaries Interpolated MaxEnt (CzEng) Human Prefixes Deadjectival_adverbs deaf hluchý hluše necitlivý necitlivě Baseline (CzEng) water voda vodový vodní Nouns_to_adjectives

Hierarchy of lemma dictionaries Interpolated MaxEnt (CzEng) Human Prefixes Deadjectival_adverbs Baseline (CzEng) high-water vodový vysoko-vodový vodní vysoko-vodní Hyphen_compounds Nouns_to_adjectives

Hierarchy of lemma dictionaries Numbers Suffixes Interpolated MaxEnt (CzEng) Human Backoff Transliterate Verbs_to_nouns Prefixes Deadjectival_adverbs Baseline (CzEng) Hyphen_compounds Deverbal_adjectives Nouns_to_adjectives

Maximum Entropy Dictionary Baseline Dictionary p y x = count x, y count x Maximum likelihood estimates (from the training sections of CzEng 0.9) Pruned by thresholds on p(x y) and p(y x) No context used x = source lemma y = target lemma MaxEnt Dictionary p y x = 1 Z x exp i i f i x, y One MaxEnt model for each source lemma (same training data as for the Baseline Dict.) Interpolated with Baseline Dict. (due to pruning) Context features used (x = source context) - local tree context - local linear context - morphological & syntactic categories -...

Maximum Entropy Dictionary agree / v:fin tense=past, voice=active negation=0, sempos=v chop, saw, trim, shorten, lumber, hew, lower, delete, crop abolish, cancel,... he / n:subj union / n:with+x cut / v:inf, has_left_child=0, sempos=v, has_right_child=1, tag=vb, position=right, named_entity=0 overtime / n:obj all / adj:attr TRANSFER ANALYSIS SYNTHESIS He agreed with the unions to cut all overtime. Dohodl se s odbory na zrušení všech přesčasů.

WMT results: http://matrix.statmt.org Results BLEU

Results BLEU vs. Ranks (WMT 2010) 75 1: Google 70 2: Bojar Rank (human judgement) 65 60 55 3-4: PC Translator 6: Eurotran 5: 3-4: Moses (uedin) 50 45 R² = 0,27 40 35 30 9 10 11 12 13 14 15 16 17 18 BLEU (automatic)

Results manual ranking ( others)

Results manual ranking (> others)

Examples of Translation (2009) A miss by an inch is a miss by a mile. Slečna palec je slečna miliónu. I d rather be a hammer than a nail. Spíše bych byl kladivo než nehet. A bird in the hand is worth two in the bush. Pták v ruce je cenný dvakrát v Bushovi.

Example of Translation (2011)

Sample of MaxEnt Features input_label=nail output_label=hřebík#n (metal nail) child_formeme_n:in+x=1 1.64483855116042 is_member=1 1.30042900630692 child_formeme_v:fin=1 1.04422203176176 next_node_tlemma=down 0.838961007712912 is_capitalized=1 0.792130821958927 position=right 0.747785245407306 tense_g=post 0.744919903760696 voice_g=active 0.659489975893991 prev_node_tlemma=drive 0.655357850937254 parent_capitalized=1 0.622953832124697 formeme=n:from+x 0.599348506643414 prev_node_tlemma=hammer 0.592276691427986 child_tlemma_few=1 0.553464629114697 child_tlemma_remove=1 0.546698831608057 sempos=n.denot 0.504719359514573 next_node_tlemma=and 0.502529618088752 formeme_g=v:until+fin 0.491064112122981 child_tlemma_rusty=1 0.428884558837039 tag_g=vbp 0.422967377093101 next_node_tlemma=screw 0.344701934524519... output_label=nehet#n (fingernail or toenail) child_formeme_n:poss=1 1.32717038827268 child_tlemma_finger=1 1.07509772743853 child_formeme_n:of+x=1 0.982021327950337 position=left 0.886912864256063 prev_node_tlemma=black 0.770671304450658 child_tlemma_broken=1 0.761077744287099 child_formeme_v:attr=1 0.700099311992958 formeme=n:at+x 0.674547829214778 formeme_g=n:attr 0.673367412957367 child_tlemma_long=1 0.673158400394094 next_node_tlemma=file 0.600496248030202 child_tlemma_false=1 0.584236638145312 prev_node_tlemma=false 0.584236638145312 number=sg 0.563056142428995 formeme=n:obj 0.533943098032196 formeme=n:by+x 0.528852315800188...

Cooperation is welcome Exploit English a-layer or t-layer for your project Try your dependency parser instead of MST (extrinsic evaluation) Try your machine learning (CRF, SVM, NN,...) instead of our MaxEnt dictionary

Thank you