Automatická post-editace výstupů frázového strojového překladu (Depfix)

Podobné dokumenty
Automatická post-editace výstupů frázového strojového překladu (Depfix)

Depfix: Jak dělat strojový překlad lépe než Google Translate

Jak dělat strojový překlad lépe než Google Translate

ve strojovém překladu

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Faktorované překladové modely. Základní informace

0. Úvod. 1. Syntaktické značkování textu

Možnosti zlepšení strojového překladu z angličtiny do češtiny

Popis morfologických značek poziční systém

Automatické párování uzlů českých a anglických tektogramatických stromů

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Program pro automatickou opravu stochastické syntaktické anotace (analytická rovina PDT)

Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny

Japonsko-český strojový překlad

IA161 Pokročilé techniky zpracování přirozeného jazyka

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Pražský závislostní korpus jako elektronická cvičebnice češtiny

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze

Slovníky a morfologická analýza

Nainstalovat Tred!

johanka April 16, 2008

Moses. M. Fabianová, A. Štromajerová, M. Vaněk

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

Morfologie odborných textů

Jak lze v korpusech hledat doklady pro výzkum morfologie?

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE




FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Anotace na analytické rovině

qwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjkl zxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiop asdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqw

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.

Aktivní detekce chyb

Zachycení (nejen) koordinací v závislostních stromech

pokroky ve johanka Obsah telenovely Bez ladu a skladu Unsupervised johanka 21. dubna 2008

Strojové učení a pravidla pro extrakci informací z textů

KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY. Drahomíra johanka Spoustová

AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

L A TEX Korektura textu

Učíme počítače (nejen) česky: ÚFAL

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost ET

Rekonstrukce standardizovaného textu z mluvené řeči

NLP & strojové učení

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

1 Úvod Co je PDT Historické pozadí projektu Vývoj projektu Roviny anotace Morfologická rovina...

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

LATINA. V rámci gymnaziálního vzdělání přispívá předmět Latina k utváření a rozvíjení klíčových kompetencí t těmito metodami:

Počítačové zpracování přirozeného jazyka. Daniel Zeman

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Čím může bohemistice přispět současná počítačová lingvistika?

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255

Chytal tlouště na višni

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince




OJ305 TYPOLOGIE JAZYKŮ z pohledu syntaxe

Oddíl E učební osnovy VI.1.B LATINA

Automatická anotace angličtiny na tektogramatické

Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Japonsko-český strojový překlad

15. Věta jednoduchá Vypracovala: Martina Miškeříková, červenec 2013

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

VY_12_INOVACE_32_ZAKLAD_VETY. Časová dotace: 45 min Datum ověření:

Sémantická interpretace

SADA VY_32_INOVACE_CJ1

PDT-Vallex: trochu jiný valenční slovník

Syntaktická rovina a syntaktické funkce

VĚTNÉ ČLENY. Mgr. Jiří Ondra Procvičení základních pojmů a kategorií z oblasti české skladby. Zdokonalování jazykových vědomostí a dovedností

Předmět: Český jazyk a literatura

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

TectoMT: Machine Translation System

Toolboxy analýzy a modelování stochastických systémů

SLOVNÍ DRUHY Platón Aristoteles Dionysios Thrácký Priscianus

Jazyk a jazyková komunikace 2. ročník a sexta

Metriky pro optimalizaci modelů strojového překladu

Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?

na postupech, které se souhrnně nazývají závislostními. Oba principy lze vykládat

Základy latiny II

Veřejné zakázky 2018 Jste připraveni na povinnou elektronickou komunikaci? Příprava na povinnou elektronizaci veřejných zakázek a NEN

Všestranný jazykový rozbor (VJR)

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Číslo projektu: CZ.1.07/1.4.00/

Transkript:

Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs

Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 2/45

Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 3/45

Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 4/45

Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 5/45

Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 6/45

Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 7/45

Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 8/45

Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 9/45

Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby, opraví je, a vydá správný překlad Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 10/45

Obsah Motivační příklad Depfix krok za krokem Úpravy použitých nástrojů, zejména parseru Vyhodnocení Shrnutí Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 11/45

Depfix krok za krokem Lingvistická analýza vstupu Pravidlové a statistické opravy chyb Roviny dle Pražského závislostního korpusu M-rovina A-rovina T-rovina Implementováno ve frameworku Treex přijata Treexová implementace rovin Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 12/45

M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek, kapitalizace Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 13/45

M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek, kapitalizace Zdroj: director of the best hotel in Pec, Karel Rada Moses: ředitel nejlepší hotel v peci, Karel rada Depfix: ředitel nejlepší hotel v Peci, Karel Rada Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 14/45

M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek, kapitalizace Zdroj: director of the best hotel in Pec, Karel Rada Moses: ředitel nejlepší hotel v peci, Karel rada Depfix (M): ředitel nejlepší hotel v Peci, Karel Rada Depfix: ředitel nejlepšího hotelu v Peci, Karel Rada Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 15/45

A-rovina Analýza: závislostní stromy, analytické funkce Opravy: morfologické shody: předložka se substantivem, podmět s přísudkem, substantivum s adjektivem transfer významu do morfologie: podmět, nevyjádřený podmět, přivlastňování, pasivum Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 16/45

Všem výhercům obdržel diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3

Transfer významu: podmět a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3

Transfer významu: podmět a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3

Podmět nominativ a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3

Všem výherci obdržel diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3

Shoda adjektiva se substantivem a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3

Shoda: rod, pád (číslo) a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1

Všichni výherci obdržel diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1

Shoda podmětu s přísudkem a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1

Shoda: rod, číslo (osoba) a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdrželi Pred VpMPXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1

Všichni výherci obdrželi diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdrželi Pred VpMPXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1

T-rovina Analýza: t-stromy, formémy Opravy: pravidlové: negace, překlad slovesných časů, vypouštění pronominálního podmětu statistické: substantivní a verbální valence Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 28/45

Valenční model pravděpodobnost formému argumentu podmíněná lematem rodiče (sloveso/substantivum) formémem anglického argumentu ± lematem argumentu trénováno na CzEngu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 29/45

Úpravy použitých nástrojů nástroje pro automatickou analýzu jazyka tagger, word-aligner, parser určené pro analýzu bezchybných vět výstupy strojového překladu obsahují chyby nátroje mají při jejich analýze nižší úspěšnost zvýšení robustnosti nástrojů pravidlové opravy výstupů (tagger, aligner, parser) reimplementace a modifikace parseru (pro češtinu) Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 30/45

Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 31/45

Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 32/45

Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers McDonald, Pereira, Rybarov, Hajič (2006) Non-projective dependency parsing using spanning tree algorithms Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 33/45

Maximum Spanning Tree parser reimplementace, vyladění pro češtinu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 34/45

Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 35/45

Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 36/45

Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany přidání informací z velkého korpusu (CzEng) PMI parent, child =log p [ parent, child ] p[ parent, *] p[*, child ] Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 37/45

Manuální vyhodnocení Depfixu Vyhodnoceno Změněno 1350 vět 739 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 38/45

Manuální vyhodnocení Depfixu Vyhodnoceno Změněno Zlepšeno Zhoršeno Neurčeno 1350 vět 739 vět 430 vět 152 vět 157 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 39/45

Manuální vyhodnocení Depfixu Vyhodnoceno 1350 vět Změněno 739 vět Zlepšeno 430 vět Zhoršeno 152 vět Neurčeno 157 vět správně správně špatně špatně věta zcela špatně, nelze určit Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 40/45

Manuální vyhodnocení Depfixu Vyhodnoceno 1350 vět Změněno 739 vět Zlepšeno 430 vět Zhoršeno 152 vět Neurčeno 157 vět Úspěšnost 58,2% Přesnost 73,9% Úplnost 31,9% úspěšnost = zlepšeno změněno přesnost = úplnost = zlepšeno zlepšeno zhoršeno zlepšeno vyhodnoceno Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 41/45

Automatické vyhodnocení (BLEU) Systém WMT 2011 WMT 2012 před po před po Joshua (Zeman) 14,08 14,81 12,10 12,44 Moses (Bojar) 16,35 16,83 14,19 14,26 Moses (Koehn) 17,30 17,94 15,54 15,78 Google Translate 19,73 19,97 16,22 16,22 a dalších 9 systémů průměrné zlepšení +0,38 +0,19 Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 42/45

Shrnutí Depfix = automatická post-editace výstupů frázového strojového překladu (AJ ČJ) Lingvistická analýza v Treexu (M-, A-, T-rovina) zvýšena robustnost nástrojů (data obsahují chyby) Pravidlové i statistické opravy shody, negace, podměty, časy, valence Zvýšení kvality strojového překladu do značné míry nezávislé na překladovém systému Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 43/45

Děkuji za pozornost Rudolf Rosa, ÚFAL MFF UK rosa@ufalmffcunicz http://ufalmffcunicz/~rosa/ tato prezentace i samotná diplomová práce budou k dipozici na webu Depfix je součástí Treexu trunk/treex/devel/depfix/ free software; můžete jej redistribuovat a/nebo modifikovat za stejných podmínek jako Perl Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 44/45

Generování většina oprav vede ke změně tagu jednoho nebo více slov pro nalezení správné slovní formy používáme Hajičův morfologický generátor forma = generátor(lemma, tag) Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 45/45