Prezentace k obhajobě diplomové práce Možnosti zlepšení strojového překladu z angličtiny do češtiny Martin Popel 14. září 2009
TectoMT Anotace překladových chyb Jednotlivá vylepšení Analýza Transfer Syntéza Vyhodnocení
TectoMT Modulární framework pro úlohy zpracování přirozeného jazyka základní jednotka = blok Překladový systém s transferem přes tektogramatickou rovinu ANALÝZA TRANSFER SYNTÉZA tektogramatická rovina t-layer analytická rovina a-layer morfologická rovina m-layer zdrojový jazyk (angličtina) cílový jazyk (čeština) w-layer
TectoMT Modulární framework pro úlohy zpracování přirozeného jazyka základní jednotka = blok Překladový systém s transferem přes tektogramatickou rovinu ANALÝZA TRANSFER SYNTÉZA tektogramatická rovina formémy gramatémy... HMTM... t-layer stavba t-stromu označení hran ke kontrakci analytická rovina a-layer analytické funkce parser (McDonald MST) morfologická rovina m-layer tagger (Morče) lemmatizace tokenizace zdrojový jazyk (angličtina) cílový jazyk (čeština) w-layer
Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude počátkem příštího týdne. TST: Hlas o tom vezme místo na začátku dalšího týdne.
Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude počátkem příštího týdne. AIM: Hlasování o tom se bude konat na začátku dalšího týdne. TST: Hlas o tom vezme místo na začátku dalšího týdne.
Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude počátkem příštího týdne. AIM: Hlasování o tom se bude konat na začátku dalšího týdne. TST: lex-trans::hlas o tom phrase-x::vezme místo na začátku dalšího týdne.
Type lex, form, gram, phrase, order,... Subtype gram: gender, person, tense,... Seriousness serious, minor Source tok, lem, tagger, parser, tecto, trans, x, syn,? Anotace překladových chyb vyhodnocení Circumstances coord, ne (named entity), number Anotováno 250 vět, celkem 1463 chyb ANALÝZA 30% SYNTÉZA 3% TRANSFER 67% chyby způsobené neizomorfismem 8% ostatní chyby v transferu 59%
Vylepšení 1. analýza Drobné úpravy tokenizace a tagování Nová (rychlejší) lemmatizace Parsing parenthese se parsuje odděleně od zbytku věty pravidlové bloky pro opravu chyb Přidán blok vyplňující analytické funkce Nová implementace budování t-roviny
Vylepšení 2. transfer Modulární strategie transferu (10 nových bloků) Pravidla pro slovesný vid, číslovky,... Hidden Markov Tree Model (HMTM) překlad lemmat a formémů současně zapojen target-language tree model funkce obdobná jazykovému modelu Tree-modified Viterbi algorithm najde překlad (kombinaci lemmat a formémů), který má nejvyšší pravděpodobnost celého stromu
Vylepšení 2. transfer ilustrace HMTM Source tree (Czech) ROOT TRANSFER P(optimal_tree) = P E (strojový machine) P T (machine translation) P E (překlad translation) P T (translation be) P E (snadný easy) P T (easy be) P E (být be) P T (be ROOT) Target tree (English) ROOT P E (být have) = 0.01 0.01 SYNTHESIS být P E (být be) = 0.8 be have ANALYSIS překlad snadný P E (překlad arcade) = 0.7 P E (překlad translation) = 0.6 translation 0.0001 arcade 1 10-8 0.002 0.001 easy simple P T (machine translation) = 0.02 1 10-10 1 10-8 1 10-8 strojový Source sentence: Strojový překlad by měl být snadný. P E (strojový machine) = 0.4 machine P E (strojový engine) = 0.5 engine Target sentence: Machine translation should be easy. P E (source target) emission probabilities translation model P T (dependent governing) transition probabilities target-language tree model
Vylepšení 3. syntéza Upraveno dělení věty na klauze, vkládání interpunkce Přidán morfologický model nalezení slovního tvaru pro dané lemma s daným omezením na tag některé pozice tagu po překladu neznáme, netřeba je specifikovat, vybere se nejčastější tvar trénováno na korpusu SYN (500 milionů slov)
Vyhodnocení NIST BLEU baseline (WMT09) 3,974 0,066 po úpravách 4,716 0,098 2777 vět z WMT2009 (news-test2009) 1 referenční překlad Hlavní podíl na zlepšení mají 1. HMTM (a související úpravy transferu) 2. úpravy parsing
Ukázka překladu SRC: TectoMT is currently an experimental system, which is outperformed by state-of-the-art MT systems such as open source Moses. TST: TectoMT je nyní experimentální systém, který je překonán state-of-the-art MT systémy otevřených zdrojových Mojžíšů.
Připomínky oponenta Intervaly spolehlivosti BLEU Lemmatizace víceznačnost vstupu vyhodnocení HMTM převěšování na efektivní rodiče EM algoritmus
Připomínky oponenta intervaly spolehlivosti BLEU Paired Bootstrap Resampling Koehn, 2004: If, say, one system outperforms the other system 95% of the time, we draw the conclusion that it is better with 95% statistical significance. Zhang et al, 2004: From these discrepancy scores, find the middle 95% of the scores (i.e. the 2.5th percentile and the 97.5th percentile). That is the 95% confidence interval for the discrepancy between MT system A and B. If the confidence interval does not overlap with zero, we can claim that the difference between system A and B are statistically significant. Zhang 95% ~ Koehn 97,5%
Připomínky oponenta intervaly spolehlivosti BLEU 2777 vět, resampling na 1000 vzorků, α = 0.05 52 variant systému, z toho jen 6 nesignifikantních zlepšení: Fix_tags_after_parse 0.0000 (-0.0000... 0.0003) Fix_tags_after_parse + mtags 0.0000 (-0.0000... 0.0003) Fix_is_member 0.0001 (-0.0001... 0.0005) Impose_subjpred 0.0002 (-0.0001... 0.0005) Vocalize_prepositions 0.0001 (-0.0002... 0.0004) Concatenate_tokens 0.0001 (-0.0003... 0.0006) Ostatní zlepšení signifikantní, např.: Translate_LF_tree_Viterbi 0.0130 (0.0107... 0.0156) Fix_tokenization 0.0008 (0.0005... 0.0013) Ascii_quotes 0.0085 (0.0072... 0.0098)
Připomínky oponenta lemmatizace víceznačnost vstupu Většinu víceznačností rozhodne tag... striking {JJ=striking, VBG=strike} Bill {NN=bill, NNP=Bill} 'd {MD=would, VBD=have} found {VB=found, VBD=find}... některé ale ne (alespoň ne PennTB) 's {VBZ=be, VBZ=have} links {NNS=link, NNS=links} (spojení, golfová hřiště) Rozhraní pro Lemmatizer je (form, tag) (lemma, neg)
Připomínky oponenta lemmatizace vyhodnocení type accuracy 98.9%, token accuracy 99,8% část BNC (87 milionů tokenů, 700 000 typů), ale lemmatizace v BNC není zcela manuální, obsahuje chyby odlišná metodika lemmatizace (negace, příslovce, přídavná jména, zájmena, velká písmena, víceslovné tokeny,...) jiný tagset (CLAWS vs. PennTB) Při této úspěšnosti by požadovaný korpus musel mít alespoň desítky miliónů tokenů.
Připomínky oponenta HMTM Jaký je efekt převěšování členů koordinace na efektivní rodiče? Někdy pomůže, někdy uškodí. BLEU téměř stejné. Proč? Právě v parsingu koordinací bývá dost chyb. Šlo by HMTM trénovat pomocí EM algoritmu? Ano: Upward-downward algoritmus (Durand et al,2004) je obdobou forward-backward algoritmu. ale s komplikacemi: Emission a transition pravděpodobnosti se počítají z jiných dat (paralelní korpus + slovníky, jednojazyčný ČNK). Implementace používá backward i forward model. Trénovacích dat se skrytými stavy máme dostatek.
Ukázka překladu Birds of a feather flock together. Great talkers are little doers. As good be an addled egg as an idle bird. A miss by an inch is a miss by a mile. I d rather be a hammer than a nail. A bird in the hand is worth two in the bush. Bread is the staff of life. I ll come a bit later on my own. Ptáci v bederním hejnu spolu. Velcí řečníci jsou malí vrazi. Dobré je feťácké vejce jako činný pták. Slečna palec je slečna miliónu. Spíše bych byl kladivo než nehet. Pták v ruce je cenný dvakrát v Bushovi. Chléb je zaměstnanec života. Sem čelist ještě na své milé.
Zdroje Philipp Koehn: Statistical Significance Tests for Machine Translation Evaluation, Proceedings of EMNLP, 2004 Ying Zhang, Stephan Vogel, Alex Waibel: Interpreting BLEU/NIST Scores: How Much Improvement Do We Need to Have a Better System? Proceedings of LREC, 2004 Jean-Baptiste Durand, Paulo Gonçalvès,Yann Guédon: Computational Methods for Hidden Markov Tree Models An Application to Wavelet Trees IEEE Transactions on Signal Processing, 2004