Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs
Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 2/45
Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 3/45
Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 4/45
Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 5/45
Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 6/45
Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 7/45
Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 8/45
Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 9/45
Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby, opraví je, a vydá správný překlad Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 10/45
Obsah Motivační příklad Depfix krok za krokem Úpravy použitých nástrojů, zejména parseru Vyhodnocení Shrnutí Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 11/45
Depfix krok za krokem Lingvistická analýza vstupu Pravidlové a statistické opravy chyb Roviny dle Pražského závislostního korpusu M-rovina A-rovina T-rovina Implementováno ve frameworku Treex přijata Treexová implementace rovin Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 12/45
M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek, kapitalizace Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 13/45
M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek, kapitalizace Zdroj: director of the best hotel in Pec, Karel Rada Moses: ředitel nejlepší hotel v peci, Karel rada Depfix: ředitel nejlepší hotel v Peci, Karel Rada Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 14/45
M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek, kapitalizace Zdroj: director of the best hotel in Pec, Karel Rada Moses: ředitel nejlepší hotel v peci, Karel rada Depfix (M): ředitel nejlepší hotel v Peci, Karel Rada Depfix: ředitel nejlepšího hotelu v Peci, Karel Rada Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 15/45
A-rovina Analýza: závislostní stromy, analytické funkce Opravy: morfologické shody: předložka se substantivem, podmět s přísudkem, substantivum s adjektivem transfer významu do morfologie: podmět, nevyjádřený podmět, přivlastňování, pasivum Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 16/45
Všem výhercům obdržel diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
Transfer významu: podmět a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
Transfer významu: podmět a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
Podmět nominativ a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
Všem výherci obdržel diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
Shoda adjektiva se substantivem a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
Shoda: rod, pád (číslo) a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
Všichni výherci obdržel diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
Shoda podmětu s přísudkem a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
Shoda: rod, číslo (osoba) a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdrželi Pred VpMPXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
Všichni výherci obdrželi diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdrželi Pred VpMPXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
T-rovina Analýza: t-stromy, formémy Opravy: pravidlové: negace, překlad slovesných časů, vypouštění pronominálního podmětu statistické: substantivní a verbální valence Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 28/45
Valenční model pravděpodobnost formému argumentu podmíněná lematem rodiče (sloveso/substantivum) formémem anglického argumentu ± lematem argumentu trénováno na CzEngu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 29/45
Úpravy použitých nástrojů nástroje pro automatickou analýzu jazyka tagger, word-aligner, parser určené pro analýzu bezchybných vět výstupy strojového překladu obsahují chyby nátroje mají při jejich analýze nižší úspěšnost zvýšení robustnosti nástrojů pravidlové opravy výstupů (tagger, aligner, parser) reimplementace a modifikace parseru (pro češtinu) Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 30/45
Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 31/45
Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 32/45
Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers McDonald, Pereira, Rybarov, Hajič (2006) Non-projective dependency parsing using spanning tree algorithms Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 33/45
Maximum Spanning Tree parser reimplementace, vyladění pro češtinu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 34/45
Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 35/45
Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 36/45
Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany přidání informací z velkého korpusu (CzEng) PMI parent, child =log p [ parent, child ] p[ parent, *] p[*, child ] Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 37/45
Manuální vyhodnocení Depfixu Vyhodnoceno Změněno 1350 vět 739 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 38/45
Manuální vyhodnocení Depfixu Vyhodnoceno Změněno Zlepšeno Zhoršeno Neurčeno 1350 vět 739 vět 430 vět 152 vět 157 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 39/45
Manuální vyhodnocení Depfixu Vyhodnoceno 1350 vět Změněno 739 vět Zlepšeno 430 vět Zhoršeno 152 vět Neurčeno 157 vět správně správně špatně špatně věta zcela špatně, nelze určit Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 40/45
Manuální vyhodnocení Depfixu Vyhodnoceno 1350 vět Změněno 739 vět Zlepšeno 430 vět Zhoršeno 152 vět Neurčeno 157 vět Úspěšnost 58,2% Přesnost 73,9% Úplnost 31,9% úspěšnost = zlepšeno změněno přesnost = úplnost = zlepšeno zlepšeno zhoršeno zlepšeno vyhodnoceno Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 41/45
Automatické vyhodnocení (BLEU) Systém WMT 2011 WMT 2012 před po před po Joshua (Zeman) 14,08 14,81 12,10 12,44 Moses (Bojar) 16,35 16,83 14,19 14,26 Moses (Koehn) 17,30 17,94 15,54 15,78 Google Translate 19,73 19,97 16,22 16,22 a dalších 9 systémů průměrné zlepšení +0,38 +0,19 Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 42/45
Shrnutí Depfix = automatická post-editace výstupů frázového strojového překladu (AJ ČJ) Lingvistická analýza v Treexu (M-, A-, T-rovina) zvýšena robustnost nástrojů (data obsahují chyby) Pravidlové i statistické opravy shody, negace, podměty, časy, valence Zvýšení kvality strojového překladu do značné míry nezávislé na překladovém systému Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 43/45
Děkuji za pozornost Rudolf Rosa, ÚFAL MFF UK rosa@ufalmffcunicz http://ufalmffcunicz/~rosa/ tato prezentace i samotná diplomová práce budou k dipozici na webu Depfix je součástí Treexu trunk/treex/devel/depfix/ free software; můžete jej redistribuovat a/nebo modifikovat za stejných podmínek jako Perl Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 44/45
Generování většina oprav vede ke změně tagu jednoho nebo více slov pro nalezení správné slovní formy používáme Hajičův morfologický generátor forma = generátor(lemma, tag) Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 45/45