Automatická post-editace výstupů frázového strojového překladu (Depfix)



Podobné dokumenty
Automatická post-editace výstupů frázového strojového překladu (Depfix)

Depfix: Jak dělat strojový překlad lépe než Google Translate

Jak dělat strojový překlad lépe než Google Translate

ve strojovém překladu

Faktorované překladové modely. Základní informace

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Popis morfologických značek poziční systém

Možnosti zlepšení strojového překladu z angličtiny do češtiny

Japonsko-český strojový překlad

0. Úvod. 1. Syntaktické značkování textu

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Automatické párování uzlů českých a anglických tektogramatických stromů

Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze

Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny

Program pro automatickou opravu stochastické syntaktické anotace (analytická rovina PDT)

IA161 Pokročilé techniky zpracování přirozeného jazyka

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

johanka April 16, 2008

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Moses. M. Fabianová, A. Štromajerová, M. Vaněk

1 Úvod Co je PDT Historické pozadí projektu Vývoj projektu Roviny anotace Morfologická rovina...

Morfologie odborných textů

Slovníky a morfologická analýza

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002

Nainstalovat Tred!

Co nového ve zpracování MWE Automatická identifikace

Japonsko-český strojový překlad

Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?

V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

Oddíl E učební osnovy VI.1.B LATINA

LATINA. V rámci gymnaziálního vzdělání přispívá předmět Latina k utváření a rozvíjení klíčových kompetencí t těmito metodami:

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

Jak lze v korpusech hledat doklady pro výzkum morfologie?

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY. Drahomíra johanka Spoustová

Korpusová lingvistika a počítačové zpracování přirozeného jazyka




Nové EU projekty (od 2010)

Rekonstrukce standardizovaného textu z mluvené řeči

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Pražský závislostní korpus jako elektronická cvičebnice češtiny

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost ET

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

OJ305 TYPOLOGIE JAZYKŮ z pohledu syntaxe

Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman

AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Anotace na analytické rovině

Chytal tlouště na višni

Učíme počítače (nejen) česky: ÚFAL

15. Věta jednoduchá Vypracovala: Martina Miškeříková, červenec 2013

na postupech, které se souhrnně nazývají závislostními. Oba principy lze vykládat

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

Automatická detekce emocí v textu

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Cl. Práce publikované v odborných Časopisech vydávaných v zahraničí

Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy

PDT-Vallex: trochu jiný valenční slovník

Aktivní detekce chyb

Strojové učení a pravidla pro extrakci informací z textů

Automatická detekce emocí v textu

SLOVNÍ DRUHY Platón Aristoteles Dionysios Thrácký Priscianus

Čím může bohemistice přispět současná počítačová lingvistika?

ČASOPIS PRO MODERNÍ FILOLOGII 99, 2017, Č. 1, S

Základy latiny II

pokroky ve johanka Obsah telenovely Bez ladu a skladu Unsupervised johanka 21. dubna 2008

L A TEX Korektura textu

Antiplagiátorské nástroje pro naše repozitáře

Počítač, dataprojektor, interaktivní tabule, smartphone, plány měst, mapy, slovníky

OBSAH SEZNAM TERMÍNŮ, ZKRTATEK A ZNAČEK POUŽÍVANÝCH V UČEBNICI POSTAVY PŘÍBĚHU 3 LEKCE 1 STUDIUM JAZYKŮ 8 LEKCE 2 LIDSKÁ KOMUNIKACE 42.

Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255

LATINA. Oddíl E učební osnovy VI.1.B

ANALÝZA A KLASIFIKACE DAT

Automatická anotace angličtiny na tektogramatické

Příruční mluvnice češtiny. 2. vyd., Praha: Lidové noviny, s. ISBN

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

VY_12_INOVACE_32_ZAKLAD_VETY. Časová dotace: 45 min Datum ověření:

Tematický plán Český jazyk pro 4. ročník

Morfologie, morfologická analýza

qwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjkl zxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiop asdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqw

Zpracovala: Mgr.Anna Šrubařová, katedra čes. jazyka a literatury s did. PdF OU

Sémantický web a extrakce

Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu

Univerzita Karlova v Praze. Filozofická fakulta. Diplomová práce. The Constituent Negation and Ways to Express it. in Contemporary Czech

Počítačové zpracování přirozeného jazyka. Daniel Zeman

MASARYKOVA UNIVERZITA Ekonomicko-správní fakulta

Jazyk a jazyková komunikace 2. ročník a sexta

ŠVP Gymnázium Ostrava-Zábřeh Latina

K některým otázkám závislostní gramatiky *

Transkript:

Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs

Motivační příklad Zdroj: All the winners received a diploma Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 2/42

Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 3/42

Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 4/42

Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 5/42

Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 6/42

Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 7/42

Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 8/42

Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 9/42

Motivační příklad Zdroj: All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby, opraví je, a vydá správný překlad Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 10/42

Obsah Motivační příklad Depfix krok za krokem Úpravy použitých nástrojů Vyhodnocení Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 11/42

Depfix krok za krokem Lingvistická analýza vstupu Roviny dle Pražského závislostního korpusu M-rovina A-rovina T-rovina Pravidlové a statistické opravy chyb Implementováno ve frameworku Treex Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 12/42

M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek kapitalizace Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 13/42

A-rovina Analýza: závislostní stromy, analytické funkce Opravy: morfologické shody: předložka se substantivem, podmět s přísudkem, substantivum s adjektivem transfer významu do morfologie: podmět, přivlastňování, pasivum Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 14/42

Všem výhercům obdržel diplom zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All P the a Všem PLXP3

Transfer významu: podmět zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All P the a Všem PLXP3

Transfer významu: podmět zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All P the a Všem PLXP3

Podmět nominativ zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všem PLXP3

Všem výherci obdržel diplom zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všem PLXP3

Shoda adjektiva se substantivem zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všem PLXP3

Shoda: rod, pád (číslo) zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1

Všichni výherci obdržel diplom zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1

Shoda podmětu s přísudkem zone=en zone=cs received VBD obdržel VpYSXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1

Shoda: rod, číslo (osoba) zone=en zone=cs received VBD obdrželi VpMPXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1

Všichni výherci obdrželi diplom zone=en zone=cs received VBD obdrželi VpMPXRA Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All P the a Všichni PLMP1

A-rovina Analýza: závislostní stromy, analytické funkce Opravy: morfologické shody: předložka se substantivem, podmět s přísudkem, substantivum s adjektivem transfer významu do morfologie: podmět, přivlastňování, pasivum Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 26/42

T-rovina Analýza: t-stromy, formémy, gramatémy Opravy: pravidlové: negace, překlad slovesných časů, vypouštění pronominálního podmětu statistické: substantivní a verbální valence Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 27/42

Valenční model natrénováno na CzEngu pravděpodobnost formému argumentu podmíněná lemmatem rodiče (sloveso/substantivum) formémem anglického argumentu ± lemmatem argumentu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 28/42

Úpravy použitých nástrojů nástroje pro automatickou analýzu jazyka tagger, word-aligner, parser určené pro analýzu bezchybných vět výstupy strojového překladu obsahují chyby nátroje mají při jejich analýze nižší úspěšnost zvýšení robustnosti nástrojů pravidlové opravy výstupů (tagger, aligner, parser) reimplementace a modifikace parseru (pro češtinu) Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 29/42

Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 30/42

Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 31/42

Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers McDonald, Pereira, Rybarov, Hajič (2006) Non-projective dependency parsing using spanning tree algorithms Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 32/42

Maximum Spanning Tree parser reimplementace, vyladění pro češtinu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 33/42

Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 34/42

Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 35/42

Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany přidání informací z velkého korpusu (CzEng) PMI rodič, potomek =log p[ rodič, potomek ] p[rodič,*] p[*, potomek] Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 36/42

Manuální vyhodnocení Depfixu Vyhodnoceno Změněno 1350 vět 739 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 37/42

Manuální vyhodnocení Depfixu Vyhodnoceno Změněno Zlepšeno Zhoršeno Neurčeno 1350 vět 739 vět 430 vět 152 vět 157 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 38/42

Manuální vyhodnocení Depfixu Vyhodnoceno 1350 vět Změněno 739 vět Zlepšeno 430 vět Zhoršeno 152 vět Neurčeno 157 vět Úspěšnost 58,2% Přesnost 73,9% Úplnost 31,9% úspěšnost = zlepšeno změněno přesnost = úplnost = zlepšeno zlepšeno zhoršeno zlepšeno vyhodnoceno Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 39/42

Automatické vyhodnocení (BLEU) Systém WMT 2011 WMT 2012 před po před po Joshua (Zeman) 14,08 14,81 12,10 12,44 Moses (Bojar) 16,35 16,83 14,19 14,26 Moses (Koehn) 17,30 17,94 15,54 15,78 Google Translate 19,73 19,97 16,22 16,22 a dalších 9 systémů průměrné zlepšení +0,38 +0,19 Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 40/42

Shrnutí Depfix = automatická post-editace výstupů frázového strojového překladu (AJ ČJ) Lingvistická analýza v Treexu (M-, A-, T-rovina) zvýšena robustnost nástrojů (data obsahují chyby) Pravidlové i statistické opravy shody, negace, podměty, časy, valence Zvýšení kvality strojového překladu do značné míry nezávislé na překladovém systému Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 41/42

Děkuji za pozornost Rudolf Rosa, ÚFAL MFF UK rosa@ufalmffcunicz http://ufalmffcunicz/~rosa/ tato prezentace i samotná diplomová práce budou k dipozici na webu Depfix je součástí Treexu trunk/treex/devel/depfix/ free software; můžete jej redistribuovat a/nebo modifikovat za stejných podmínek jako Perl Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 42/42