Možnosti zlepšení strojového překladu z angličtiny do češtiny

Podobné dokumenty

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Faktorované překladové modely. Základní informace

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

IA161 Pokročilé techniky zpracování přirozeného jazyka

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Translation Model Interpolation for Domain Adaptation in TectoMT

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

ve strojovém překladu

POSLECH. Anglický jazyk 9. třída Mgr. Martin Zicháček. Jazyk Úroveň Autor Kód materiálu. Z á k l a d o v ý t e x t :

WORKSHEET 1: LINEAR EQUATION 1

Japonsko-český strojový překlad

Digitální učební materiál

Dobrovolná bezdětnost v evropských zemích Estonsku, Polsku a ČR

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Markovovy modely v Bioinformatice

Kód: Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Present simple "to have, to be"

Větné členy a jejich pozice. Význam anglického slovosledu

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Litosil - application

PSANÍ. I am looking 4 to seeing you and please let me know if you are going to come.

Základní škola Nový Bor,

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

VOŠ, SPŠ automobilní a technická. Mgr. Marie Šíchová. At the railway station

Digitální učební materiál

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Anglický jazyk 5. ročník

Vánoční sety Christmas sets

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_6_AJ_G

ActiPack rozšířil výrobu i své prostory EMBAX Od ledna 2015 jsme vyrobili přes lahviček či kelímků. Děkujeme za Vaši důvěru!

Výukový materiál zpracován v rámci projektu EU peníze školám

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Compression of a Dictionary

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

AJ 3_20_American_holidays.notebook. April 14, Úvodní strana

SoSIReČR Sociální síť informatiků v regionech České republiky, Peter Vojtáš, MFFUK

Aktivita CLIL Chemie I.

Project 2. My projects

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

2AA TIME TO TALK (začátek od Unit 4) prof. Volfová Po 17:30 uč. 27

PITSTOP VY_22_INOVACE_26

Automatické párování uzlů českých a anglických tektogramatických stromů

Postup objednávky Microsoft Action Pack Subscription

PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Socrates / Comenius Czech rep. 2006/2007

PRAVIDLA ZPRACOVÁNÍ STANDARDNÍCH ELEKTRONICKÝCH ZAHRANIČNÍCH PLATEBNÍCH PŘÍKAZŮ STANDARD ELECTRONIC FOREIGN PAYMENT ORDERS PROCESSING RULES

Invitation to ON-ARRIVAL TRAINING COURSE for EVS volunteers

Název projektu: Multimédia na Ukrajinské

Transportation Problem

1. Přehled cizojazyčných a vícejazyčných korpusů

CODE BOOK NEISS 8. A code book is an identification tool that allows the customer to perform a test result evaluation using a numeric code.

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

CZ.1.07/1.5.00/

ADVERBS M/01 Informační technologie Vzdělávací oblast (RVP) Jazykové vzdělávání Vzdělávací obor (název ŠVP)

Denisa Prošková, ilustroval Drahomír Trsťan KDOPAK BY SE ŠKOLY BÁL WHO WOULD BE AFRAID OF SCHOOL

2D A 3D SNÍMACÍ SYSTÉMY PRŮMĚRU A DÉLKY KULATINY ROZDÍLY VE VLASTNOSTECH A VÝSLEDCÍCH MĚŘENÍ

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Výukový materiál zpracován v rámci projektu EU peníze školám

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

Digitální učební materiál

HODNOCENÍ KVALITY A EFEKTIVITY E-LEARNINGOVÉHO VZDĚLÁVÁNÍ THE QUALITY AND EFFICIENCY EVALUATION OF E-LEARNING EDUCATION. Tomáš Maier, Ludmila Gallová

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

7.VY_32_INOVACE_AJ_UMB7, Tázací dovětky.notebook. September 08, 2013

Materiál slouží k procvičení znalosti přítomného času prostého, tvorbě vět a otázek.

Future. V angličtině máme 3 způsoby, jak popsat budoucnost: 1. will future 2. be going to 3. present continuous

Introduction to MS Dynamics NAV

Website review vaznikystrechy.eu

Inovace: Posílení mezipředmětových vztahů, využití multimediální techniky, využití ICT.

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu

Číslo materiálu: VY 32 INOVACE 25/12. Název materiálu: Anatomy 2 - Senses Číslo projektu: CZ.1.07/1.4.00/

Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)

like a different person 2 I met a girl in a club last Saturday. The next morning she looked other.

AJ 3_08_Shopping.notebook. November 08, úvodní strana

Gymnázium, Brno, Elgartova 3

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

EU peníze středním školám digitální učební materiál

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce pro 5. ročník z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A19 Pořadové číslo: 19.

SPOLUPRÁCE - KOORDINÁTOR/KA ZAHRANIČNÍCH KURZŮ

STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

Theme 6. Money Grammar: word order; questions

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u : My family, my hobbies Present simple and continuous, Wh- questions

Transkript:

Prezentace k obhajobě diplomové práce Možnosti zlepšení strojového překladu z angličtiny do češtiny Martin Popel 14. září 2009

TectoMT Anotace překladových chyb Jednotlivá vylepšení Analýza Transfer Syntéza Vyhodnocení

TectoMT Modulární framework pro úlohy zpracování přirozeného jazyka základní jednotka = blok Překladový systém s transferem přes tektogramatickou rovinu ANALÝZA TRANSFER SYNTÉZA tektogramatická rovina t-layer analytická rovina a-layer morfologická rovina m-layer zdrojový jazyk (angličtina) cílový jazyk (čeština) w-layer

TectoMT Modulární framework pro úlohy zpracování přirozeného jazyka základní jednotka = blok Překladový systém s transferem přes tektogramatickou rovinu ANALÝZA TRANSFER SYNTÉZA tektogramatická rovina formémy gramatémy... HMTM... t-layer stavba t-stromu označení hran ke kontrakci analytická rovina a-layer analytické funkce parser (McDonald MST) morfologická rovina m-layer tagger (Morče) lemmatizace tokenizace zdrojový jazyk (angličtina) cílový jazyk (čeština) w-layer

Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude počátkem příštího týdne. TST: Hlas o tom vezme místo na začátku dalšího týdne.

Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude počátkem příštího týdne. AIM: Hlasování o tom se bude konat na začátku dalšího týdne. TST: Hlas o tom vezme místo na začátku dalšího týdne.

Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude počátkem příštího týdne. AIM: Hlasování o tom se bude konat na začátku dalšího týdne. TST: lex-trans::hlas o tom phrase-x::vezme místo na začátku dalšího týdne.

Type lex, form, gram, phrase, order,... Subtype gram: gender, person, tense,... Seriousness serious, minor Source tok, lem, tagger, parser, tecto, trans, x, syn,? Anotace překladových chyb vyhodnocení Circumstances coord, ne (named entity), number Anotováno 250 vět, celkem 1463 chyb ANALÝZA 30% SYNTÉZA 3% TRANSFER 67% chyby způsobené neizomorfismem 8% ostatní chyby v transferu 59%

Vylepšení 1. analýza Drobné úpravy tokenizace a tagování Nová (rychlejší) lemmatizace Parsing parenthese se parsuje odděleně od zbytku věty pravidlové bloky pro opravu chyb Přidán blok vyplňující analytické funkce Nová implementace budování t-roviny

Vylepšení 2. transfer Modulární strategie transferu (10 nových bloků) Pravidla pro slovesný vid, číslovky,... Hidden Markov Tree Model (HMTM) překlad lemmat a formémů současně zapojen target-language tree model funkce obdobná jazykovému modelu Tree-modified Viterbi algorithm najde překlad (kombinaci lemmat a formémů), který má nejvyšší pravděpodobnost celého stromu

Vylepšení 2. transfer ilustrace HMTM Source tree (Czech) ROOT TRANSFER P(optimal_tree) = P E (strojový machine) P T (machine translation) P E (překlad translation) P T (translation be) P E (snadný easy) P T (easy be) P E (být be) P T (be ROOT) Target tree (English) ROOT P E (být have) = 0.01 0.01 SYNTHESIS být P E (být be) = 0.8 be have ANALYSIS překlad snadný P E (překlad arcade) = 0.7 P E (překlad translation) = 0.6 translation 0.0001 arcade 1 10-8 0.002 0.001 easy simple P T (machine translation) = 0.02 1 10-10 1 10-8 1 10-8 strojový Source sentence: Strojový překlad by měl být snadný. P E (strojový machine) = 0.4 machine P E (strojový engine) = 0.5 engine Target sentence: Machine translation should be easy. P E (source target) emission probabilities translation model P T (dependent governing) transition probabilities target-language tree model

Vylepšení 3. syntéza Upraveno dělení věty na klauze, vkládání interpunkce Přidán morfologický model nalezení slovního tvaru pro dané lemma s daným omezením na tag některé pozice tagu po překladu neznáme, netřeba je specifikovat, vybere se nejčastější tvar trénováno na korpusu SYN (500 milionů slov)

Vyhodnocení NIST BLEU baseline (WMT09) 3,974 0,066 po úpravách 4,716 0,098 2777 vět z WMT2009 (news-test2009) 1 referenční překlad Hlavní podíl na zlepšení mají 1. HMTM (a související úpravy transferu) 2. úpravy parsing

Ukázka překladu SRC: TectoMT is currently an experimental system, which is outperformed by state-of-the-art MT systems such as open source Moses. TST: TectoMT je nyní experimentální systém, který je překonán state-of-the-art MT systémy otevřených zdrojových Mojžíšů.

Připomínky oponenta Intervaly spolehlivosti BLEU Lemmatizace víceznačnost vstupu vyhodnocení HMTM převěšování na efektivní rodiče EM algoritmus

Připomínky oponenta intervaly spolehlivosti BLEU Paired Bootstrap Resampling Koehn, 2004: If, say, one system outperforms the other system 95% of the time, we draw the conclusion that it is better with 95% statistical significance. Zhang et al, 2004: From these discrepancy scores, find the middle 95% of the scores (i.e. the 2.5th percentile and the 97.5th percentile). That is the 95% confidence interval for the discrepancy between MT system A and B. If the confidence interval does not overlap with zero, we can claim that the difference between system A and B are statistically significant. Zhang 95% ~ Koehn 97,5%

Připomínky oponenta intervaly spolehlivosti BLEU 2777 vět, resampling na 1000 vzorků, α = 0.05 52 variant systému, z toho jen 6 nesignifikantních zlepšení: Fix_tags_after_parse 0.0000 (-0.0000... 0.0003) Fix_tags_after_parse + mtags 0.0000 (-0.0000... 0.0003) Fix_is_member 0.0001 (-0.0001... 0.0005) Impose_subjpred 0.0002 (-0.0001... 0.0005) Vocalize_prepositions 0.0001 (-0.0002... 0.0004) Concatenate_tokens 0.0001 (-0.0003... 0.0006) Ostatní zlepšení signifikantní, např.: Translate_LF_tree_Viterbi 0.0130 (0.0107... 0.0156) Fix_tokenization 0.0008 (0.0005... 0.0013) Ascii_quotes 0.0085 (0.0072... 0.0098)

Připomínky oponenta lemmatizace víceznačnost vstupu Většinu víceznačností rozhodne tag... striking {JJ=striking, VBG=strike} Bill {NN=bill, NNP=Bill} 'd {MD=would, VBD=have} found {VB=found, VBD=find}... některé ale ne (alespoň ne PennTB) 's {VBZ=be, VBZ=have} links {NNS=link, NNS=links} (spojení, golfová hřiště) Rozhraní pro Lemmatizer je (form, tag) (lemma, neg)

Připomínky oponenta lemmatizace vyhodnocení type accuracy 98.9%, token accuracy 99,8% část BNC (87 milionů tokenů, 700 000 typů), ale lemmatizace v BNC není zcela manuální, obsahuje chyby odlišná metodika lemmatizace (negace, příslovce, přídavná jména, zájmena, velká písmena, víceslovné tokeny,...) jiný tagset (CLAWS vs. PennTB) Při této úspěšnosti by požadovaný korpus musel mít alespoň desítky miliónů tokenů.

Připomínky oponenta HMTM Jaký je efekt převěšování členů koordinace na efektivní rodiče? Někdy pomůže, někdy uškodí. BLEU téměř stejné. Proč? Právě v parsingu koordinací bývá dost chyb. Šlo by HMTM trénovat pomocí EM algoritmu? Ano: Upward-downward algoritmus (Durand et al,2004) je obdobou forward-backward algoritmu. ale s komplikacemi: Emission a transition pravděpodobnosti se počítají z jiných dat (paralelní korpus + slovníky, jednojazyčný ČNK). Implementace používá backward i forward model. Trénovacích dat se skrytými stavy máme dostatek.

Ukázka překladu Birds of a feather flock together. Great talkers are little doers. As good be an addled egg as an idle bird. A miss by an inch is a miss by a mile. I d rather be a hammer than a nail. A bird in the hand is worth two in the bush. Bread is the staff of life. I ll come a bit later on my own. Ptáci v bederním hejnu spolu. Velcí řečníci jsou malí vrazi. Dobré je feťácké vejce jako činný pták. Slečna palec je slečna miliónu. Spíše bych byl kladivo než nehet. Pták v ruce je cenný dvakrát v Bushovi. Chléb je zaměstnanec života. Sem čelist ještě na své milé.

Zdroje Philipp Koehn: Statistical Significance Tests for Machine Translation Evaluation, Proceedings of EMNLP, 2004 Ying Zhang, Stephan Vogel, Alex Waibel: Interpreting BLEU/NIST Scores: How Much Improvement Do We Need to Have a Better System? Proceedings of LREC, 2004 Jean-Baptiste Durand, Paulo Gonçalvès,Yann Guédon: Computational Methods for Hidden Markov Tree Models An Application to Wavelet Trees IEEE Transactions on Signal Processing, 2004