Translation Model Interpolation for Domain Adaptation in TectoMT

Podobné dokumenty
On the Structure of Constituent Negation in Czech

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

The advisory system in The Czech Republic

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Postup objednávky Microsoft Action Pack Subscription

CZ.1.07/1.5.00/

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Perception Motivated Hybrid Approach to Tone Mapping

Research infrastructure in the rhythm of BLUES. More time and money for entrepreneurs

Risk management in the rhythm of BLUES. Více času a peněz pro podnikatele

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Náhradník Náhradník 5.A

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Compression of a Dictionary

CZ.1.07/2.3.00/

RELATIONAL DATA ANALYSIS

Social Media a firemní komunikace

IBM Connections pro firmy s Lotus Notes/Domino. Petr Kunc

Experiences from using Czech Information System of Real Estate as a primary source of geodata for various purposes and scales

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 VÍTKOVICE STEEL, a.s. vitkovicesteel.com

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

Anglický jazyk 5. ročník

Příjemce: Základní škola, Základní umělecká škola a Mateřská škola Lipnice nad Sázavou č. 213, Lipnice nad Sázavou

PROSPERITY Programme. OP Enterprise and Innovation. Klára Hanušová

VY_22_INOVACE_24_AJ_4_6_DOPIS. Střední odborná škola a Střední odborné učiliště, Hustopeče, Masarykovo nám. 1 Bc. Martin Valný.

Aktuální situace mezi novináři v České Republice Present situation of journalism in the Czech Republic

Klepnutím lze upravit styl Click to edit Master title style předlohy nadpisů.

Hodnocení ochrany klimatu v projektech ZRS: přehled prvního čtvrtstoletí a výzva do budoucnosti. Susan Legro Konference ČES 12.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Kód: Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Present simple "to have, to be"

Psaná podoba jazyka, slovní zásoba

CZ.1.07/1.5.00/

Java Cvičení 05. CHARLES UNIVERSITY IN PRAGUE faculty of mathematics and physics

Co vím o Ázerbájdžánu?




Kids Fun Day Summer on the farm

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

II_ _Listening Pracovní list č. 2.doc II_ _Listening Pracovní list č. 3.doc II_ _Listening Řešení 1,2.doc

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

EXACT DS OFFICE. The best lens for office work

Náhradník Náhradník 9.A

DC circuits with a single source

Male infertility in long-term survivors after solid tumours treatment. in childhood - single institution experience.

Svět kolem nás Understanding the Context

Náhradník Náhradník 5.A

Zdeňka Lipovská. This project is implemented through the CENTRAL EUROPE Programme co-financed by the ERDF.

Souhrnný monitoring médií CFA Society Forecasting Dinner. Sledované období: Zpracováno dne:

POSLECH. Mona has got her eleventh birthady on Sathurday, she she is planning a big party for her friends. She met her friend John.

Život v zahraničí Studium

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

EU peníze středním školám digitální učební materiál

Klepnutím lze upravit styl předlohy. Klepnutím lze upravit styl předlohy. nadpisů. nadpisů. Aleš Křupka.

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

OA časopisy pro technické obory

Digitální učební materiál

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Olympus High Res Shot Raw File Photoshop Plug-in. Uživatelská příručka

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

SPOLUPRÁCE - KOORDINÁTOR/KA ZAHRANIČNÍCH KURZŮ

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Budějovice Název materiálu: Passive voice. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Biotechnology in the Czech Republic where we are?

Modelování ve vodním hospodářství II. Modeling in Water Management

Jak importovat profily do Cura (Windows a

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

S t u d y P l a n W M TS

Výukový materiál zpracován v rámci projektu EU peníze školám

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

VY_22_INOVACE_17_AJ_3.02_Jazykový test. V hodině žáci vypracují test, naleznou správná řešení a doporučení.

VIII. ÚPLNÉ ZNĚNÍ Přílohy č. 2 STATUTU UNIVERZITY KARLOVY V PRAZE ORGANIZAČNÍ ŘÁD ZE DNE 20. ČERVNA 2014

Kód DUM : VY_22_INOVACE_CJ_III/2. 19 Základní škola a Mateřská škola Dobronín, příspěvková organizace, Polenská 162 / 4, Dobronín

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Obsah. 2 Obsah. Úvod... strana 3. Gingerbread Boy... strana 4. Sleeping Beauty... strana 11. The Old Grey Cat Is Sleeping...

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce pro 5. ročník z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A19 Pořadové číslo: 19.

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

STUDY EDITS FOR BETTER TRANSPORT IN THE CENTRE OF NÁCHOD

Socrates / Comenius Czech rep. 2006/2007

CSCI 599 MACHINE TRANSLATION

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Digitální učební materiál

ARTEMIS & ENIAC výzvy kadlec@utia.cas.cz Tel

7.VY_32_INOVACE_AJ_UMB7, Tázací dovětky.notebook. September 08, 2013

Faktorované překladové modely. Základní informace

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Student: Draw: Convex angle Non-convex angle

KRISHNAGITI. Manaveda

Microsoft Lync WEB meeting

SEZNAM PŘÍLOH. Příloha 1 Dotazník Tartu, Estonsko (anglická verze) Příloha 2 Dotazník Praha, ČR (česká verze)... 91

Present Simple and Continuous Přítomný čas prostý a průběhový Pracovní list

Invitation to ON-ARRIVAL TRAINING COURSE for EVS volunteers

Transkript:

Rudolf Rosa, Ondřej Dušek, Michal Novák, Martin Popel {rosa,odusek,mnovak,popel}@ufal.mff.cuni.cz Translation Model Interpolation for Domain Adaptation in TectoMT Charles University in Prague Faculty of Mathematics and Physics Institute of Formal and Applied Linguistics DMTW, Praha, 3 September 2015

Why domain adaptation? not to do MT as Europarl science reasonably good for e.g. economic news not particularly good for IT helpdesk Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 2/29

Why domain adaptation? not to do MT as Europarl science reasonably good for e.g. economic news not particularly good for IT helpdesk Jak pošlu přílohu mailem? How do I send an attachment by e-mail? Click on the paperclip icon and select the file. Klikněte na ikonu sponky a vyberte soubor. Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 3/29

Why model interpolation? available parallel data out-of-domain (Europarl): 2 000 000 sentences in-domain (IT helpdesk): 1 000 sentences Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 4/29

Why model interpolation? available parallel data out-of-domain (Europarl): 2 000 000 sentences in-domain (IT helpdesk): 1 000 sentences train on out+in concatenation effect of in negligible (overpowered by out) Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 5/29

Why model interpolation? available parallel data out-of-domain (Europarl): 2 000 000 sentences in-domain (IT helpdesk): 1 000 sentences train on out+in concatenation effect of in negligible (overpowered by out) train on in only too weak, low coverage, worse than out alone Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 6/29

Why model interpolation? available parallel data out-of-domain (Europarl): 2 000 000 sentences in-domain (IT helpdesk): 1 000 sentences train on out+in concatenation effect of in negligible (overpowered by out) train on in only too weak, low coverage, worse than out alone train 2 translation models, one on in, one on out final TM = (weighted) interpolation of intm and outtm Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 7/29

Why TectoMT (deep transfer MT)? better meaning preservation better generalization from small data limited support for TM interpolation no support for tuning of TM weights Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 8/29

Why TectoMT (deep transfer MT)? better meaning preservation better generalization from small data limited support for TM interpolation solved no support for tuning of TM weights TODO Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 9/29

Outline Motivation TectoMT (deep transfer) Translation model interpolation in TectoMT Evaluation Conclusion Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 10/29

TectoMT deep transfer Jak pošlu přílohu mailem? Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 11/29

TectoMT deep transfer Jak pošlu přílohu mailem? poslat Jak adv #PersPron drop příloha n:4 mail n:7 Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 12/29

TectoMT deep transfer Jak pošlu přílohu mailem? poslat Jak adv #PersPron drop příloha n:4 mail n:7 Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 13/29

TectoMT deep transfer Jak pošlu přílohu mailem? poslat Jak adv #PersPron drop příloha n:4 mail n:7 send Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 14/29

TectoMT deep transfer Jak pošlu přílohu mailem? poslat Jak adv #PersPron drop příloha n:4 mail n:7 send How adv Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 15/29

TectoMT deep transfer Jak pošlu přílohu mailem? poslat Jak adv #PersPron drop příloha n:4 mail n:7 send How adv #PersPron n:subj Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 16/29

TectoMT deep transfer Jak pošlu přílohu mailem? poslat Jak adv #PersPron drop příloha n:4 mail n:7 send How adv #PersPron n:subj attachment n:obj Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 17/29

TectoMT deep transfer Jak pošlu přílohu mailem? poslat Jak adv #PersPron drop příloha n:4 mail n:7 send How adv #PersPron n:subj attachment n:obj e-mail n:by+x Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 18/29

TectoMT deep transfer Jak pošlu přílohu mailem? poslat Jak adv #PersPron drop příloha n:4 mail n:7 send How adv #PersPron n:subj attachment n:obj e-mail n:by+x How do I send an attachment by e-mail? Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 19/29

T-lemma and formeme transfer poslat mail n:7? Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 20/29

T-lemma and formeme transfer poslat e-mail (n) 0.32 online (adv) 0.25 address (n) 0.11 online (adj) 0.05... mail n:7 n:by+x 0.23 n:with+x 0.22 adv 0.13 n:via+x 0.04... Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 21/29

T-lemma and formeme transfer poslat e-mail (n) 0.32 online (adv) 0.25 address (n) 0.11 online (adj) 0.05... mail n:7 e-mail n:by+x n:by+x 0.23 n:with+x 0.22 adv 0.13 n:via+x 0.04... Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 22/29

Translation model interpolation P(e-mail mail)= 2 3 MaxEnt mail (e-mail,context )+ 1 3 Static(e-mail,mail) Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 23/29

Translation model interpolation past: P(e-mail mail)= 2 3 MaxEnt mail (e-mail,context )+ 1 3 Static(e-mail,mail) present: P(e-mail mail)= 2 6 OutMaxEnt mail (e-mail, context)+ 1 6 + 2 6 InMaxEnt mail (e-mail, context) + 1 6 OutStatic(e-mail, mail) InStatic (e-mail, mail) Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 24/29

Translation model interpolation future: P(e-mail mail)=w 1 OutMaxEnt mail (e-mail,context )+w 2 OutStatic(e-mail, mail) +w 3 InMaxEnt mail (e-mail,context ) +w 4 InStatic(e-mail, mail) interpolation weights tuned on development set Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 25/29

Translation model interpolation future: P(e-mail mail)=w 1 OutMaxEnt mail (e-mail,context )+w 2 OutStatic(e-mail, mail) +w 3 InMaxEnt mail (e-mail,context ) +w 4 InStatic(e-mail, mail) interpolation weights tuned on development set not available at the moment: tuning in TectoMT development set Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 26/29

Evaluation 40 38 36 34 out in interpol 37.0 33.7 38.9 32 30.6 31.3 30 28 26 24 28.4 27.1 28.3 23.3 26.5 23.0 24.3 22 20 18 21.5 20.4 18.5 18.5 20.4 21.4 16 EN CS CS EN EN ES ES EN EN NL NL EN Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 27/29

Conclusion TectoMT deep transfer system IT helpdesk domain (1000 parallel sentences) domain adaptation by TM interpolation no tuning of interpolation weights consistently positive results, up to +3 BLEU future work tuning of interpolation weights other domain adaptation methods Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 28/29

Thank you for your attention Rudolf Rosa, Ondřej Dušek, Michal Novák, Martin Popel {rosa,odusek,mnovak,popel}@ufal.mff.cuni.cz Translation Model Interpolation for Domain Adaptation in TectoMT Charles University in Prague Faculty of Mathematics and Physics Institute of Formal and Applied Linguistics http://ufal.mff.cuni.cz/rudolf-rosa/ Rosa, Dušek, Novák, Popel: Translation Model Interpolation for Domain Adaptation in TectoMT 29/29