Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs
Motivační příklad Zdroj: All the winners received a diploma Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 2/42
Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 3/42
Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 4/42
Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 5/42
Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 6/42
Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 7/42
Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 8/42
Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 9/42
Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby, opraví je, a vydá správný překlad Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 10/42
Obsah Motivační příklad Depfix krok za krokem Úpravy použitých nástrojů Vyhodnocení Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 11/42
Depfix krok za krokem Lingvistická analýza vstupu Roviny dle Pražského závislostního korpusu M-rovina A-rovina T-rovina Pravidlové a statistické opravy chyb Implementováno ve frameworku Treex Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 12/42
M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek kapitalizace Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 13/42
A-rovina Analýza: závislostní stromy, analytické funkce Opravy: morfologické shody: předložka se substantivem, podmět s přísudkem, substantivum s adjektivem transfer významu do morfologie: podmět, přivlastňování, pasivum Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 14/42
Všem výhercům obdržel diplom zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All P the a Všem PLXP3
Transfer významu: podmět zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All P the a Všem PLXP3
Transfer významu: podmět zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All P the a Všem PLXP3
Podmět nominativ zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všem PLXP3
Všem výherci obdržel diplom zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všem PLXP3
Shoda adjektiva se substantivem zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všem PLXP3
Shoda: rod, pád (číslo) zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1
Všichni výherci obdržel diplom zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1
Shoda podmětu s přísudkem zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1
Shoda: rod, číslo (osoba) zone=en zone=cs received VBD obdrželi VpMPXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1
Všichni výherci obdrželi diplom zone=en zone=cs received VBD obdrželi VpMPXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1
A-rovina Analýza: závislostní stromy, analytické funkce Opravy: morfologické shody: předložka se substantivem, podmět s přísudkem, substantivum s adjektivem transfer významu do morfologie: podmět, přivlastňování, pasivum Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 26/42
T-rovina Analýza: t-stromy, formémy, gramatémy Opravy: pravidlové: negace, překlad slovesných časů, vypouštění pronominálního podmětu statistické: substantivní a verbální valence Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 27/42
Valenční model natrénováno na CzEngu pravděpodobnost formému argumentu podmíněná lemmatem rodiče (sloveso/substantivum) formémem anglického argumentu ± lemmatem argumentu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 28/42
Úpravy použitých nástrojů nástroje pro automatickou analýzu jazyka tagger, word-aligner, parser určené pro analýzu bezchybných vět výstupy strojového překladu obsahují chyby nátroje mají při jejich analýze nižší úspěšnost zvýšení robustnosti nástrojů pravidlové opravy výstupů (tagger, aligner, parser) reimplementace a modifikace parseru (pro češtinu) Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 29/42
Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 30/42
Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 31/42
Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers McDonald, Pereira, Rybarov, Hajič (2006) Non-projective dependency parsing using spanning tree algorithms Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 32/42
Maximum Spanning Tree parser reimplementace, vyladění pro češtinu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 33/42
Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 34/42
Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 35/42
Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany přidání informací z velkého korpusu (CzEng) PMI rodič, potomek =log p[ rodič, potomek ] p[rodič,*] p[*, potomek] Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 36/42
Manuální vyhodnocení Depfixu Vyhodnoceno Změněno 1350 vět 739 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 37/42
Manuální vyhodnocení Depfixu Vyhodnoceno Změněno Zlepšeno Zhoršeno Neurčeno 1350 vět 739 vět 430 vět 152 vět 157 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 38/42
Manuální vyhodnocení Depfixu Vyhodnoceno 1350 vět Změněno 739 vět Zlepšeno 430 vět Zhoršeno 152 vět Neurčeno 157 vět Úspěšnost 58,2% Přesnost 73,9% Úplnost 31,9% úspěšnost = zlepšeno změněno přesnost = úplnost = zlepšeno zlepšeno zhoršeno zlepšeno vyhodnoceno Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 39/42
Automatické vyhodnocení (BLEU) Systém WMT 2011 WMT 2012 před po před po Joshua (Zeman) 14,08 14,81 12,10 12,44 Moses (Bojar) 16,35 16,83 14,19 14,26 Moses (Koehn) 17,30 17,94 15,54 15,78 Google Translate 19,73 19,97 16,22 16,22 a dalších 9 systémů průměrné zlepšení +0,38 +0,19 Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 40/42
Shrnutí Depfix = automatická post-editace výstupů frázového strojového překladu (AJ ČJ) Lingvistická analýza v Treexu (M-, A-, T-rovina) zvýšena robustnost nástrojů (data obsahují chyby) Pravidlové i statistické opravy shody, negace, podměty, časy, valence Zvýšení kvality strojového překladu do značné míry nezávislé na překladovém systému Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 41/42
Děkuji za pozornost Rudolf Rosa, ÚFAL MFF UK rosa@ufalmffcunicz http://ufalmffcunicz/~rosa/ tato prezentace i samotná diplomová práce budou k dipozici na webu Depfix je součástí Treexu trunk/treex/devel/depfix/ free software; můžete jej redistribuovat a/nebo modifikovat za stejných podmínek jako Perl Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 42/42