Faktorované překladové modely. Základní informace

Podobné dokumenty
Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

IA161 Pokročilé techniky zpracování přirozeného jazyka

Možnosti zlepšení strojového překladu z angličtiny do češtiny

ve strojovém překladu

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

NLP & strojové učení

Moses. M. Fabianová, A. Štromajerová, M. Vaněk

Automatické párování uzlů českých a anglických tektogramatických stromů

Slovníky a morfologická analýza

Petr Plecháč Robert Ibrahim (Institute of Czech Literature AS CR) DATABASE OF CZECH VERSE

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Depfix: Jak dělat strojový překlad lépe než Google Translate

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Workshop o paralelním korpusu InterCorp

Translation Model Interpolation for Domain Adaptation in TectoMT

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

Jak dělat strojový překlad lépe než Google Translate

Affisix. Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Česká Republika,

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

0. Úvod. 1. Syntaktické značkování textu

Čeština: 2. lekce Czech language: 2 nd lesson

Jak lze v korpusech hledat doklady pro výzkum morfologie?

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH

1. Přehled cizojazyčných a vícejazyčných korpusů

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Juxtapozice z do v Arabštině

AUTOMATICKÁ TVORBA SLOVNÍKŮ

Moderní systémy pro získávání znalostí z informací a dat

model arabské morfologie Otakar Smrž

Úvod do kvantitativní lingvistiky. Radek Čech

Popis morfologických značek poziční systém

V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.

Word Sense Disambiguation (1)

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová

AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY. Drahomíra johanka Spoustová

Karel Pala, Vít Suchomel

Present simple (přítomný čas prostý)

SLOVNÍ DRUHY Platón Aristoteles Dionysios Thrácký Priscianus

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Rozšíření ksh vůči sh při práci s proměnnými

Sémantický web a extrakce

Japonsko-český strojový překlad

Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1

hloubkových jazykových analýz

Úvod z historie. Kompilátory. Kompilace / Kompilátor Compile / Compiler. Pojem kompilátoru. Úvod z historie

Analýza staročeské morfologie v Excelu

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Soukromá střední odborná škola Frýdek-Místek, s.r.o.

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

RNDr. Ondřej Bojar, Ph.D.

Fuzzy regulátory Mamdaniho a Takagi-Sugenova typu. Návrh fuzzy regulátorů: F-I-A-D v regulátorech Mamdaniho typu. Fuzzifikace. Inference. Viz. obr.

Dolování z textu. Martin Vítek

2 Lexikální jednotka. 2.1 Obecné kategorie

Popis plnění balíčku WP08: Snižování mechanických ztrát pohonných jednotek

ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost ET

POKYNY PRO AUTORY. Kvasný průmysl publikuje výsledky základního a aplikovaného výzkumu (recenzované

Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze

SHLUKOVÁNÍ SLOV PODLE VÝZNAMU

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Výsledky dosažené v roce 2007

Syntactic annotation of a second-language learner corpus

pokroky ve johanka Obsah telenovely Bez ladu a skladu Unsupervised johanka 21. dubna 2008

Životopis Duben 2008

PSANÍ. I am interested in applying for the post of full-time secretary in TUMI Enterprises.

Dolování dat z dotazníků. Ondřej Takács

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Jazyk a jazyková komunikace 2. ročník a sexta

Mzdy na ÚFALu

Data Science projekty v telekomunikační společnosti

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

CzeSL-SGT korpus češtiny nerodilých mluvčích s automaticky provedenou anotací

Morfologie, morfologická analýza

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

Nedostatky bezkontextové gramatiky

Masarykovo gymnázium,

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Úvod do programovacích jazyků (Java)

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Automatizace ST optimalizace. Lukas Vozda Analytics & Automation

Strojové učení a pravidla pro extrakci informací z textů

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

UČEBNICE ČEŠTINY JAKO CIZÍHO JAZYKA

ALGORITMIZACE A PROGRAMOVÁNÍ

Testování strojového překladu

Algoritmizace. Obrázek 1: Přeložení programu překladačem

Multidimenzionální analýza češtiny. Pilotní studie

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

Transkript:

Základní informace

statistická metoda překladu

statistická metoda překladu založena na frázích (nikoliv slovo slovo)

statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace k tokenům (cílový i výchozí jazyk; o tom později)

statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace k tokenům (cílový i výchozí jazyk; o tom později) odtud faktorovaný SMT (multiple factors)

statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace k tokenům (cílový i výchozí jazyk; o tom později) odtud faktorovaný SMT (multiple factors) experimenty ukazují na podstatné zlepšení kvality překladu (podle BLEU)

statistické frázové překlady zatím nejlepší výsledky

statistické frázové překlady zatím nejlepší výsledky problémy při překladu do morf. bohatých jazyků

statistické frázové překlady zatím nejlepší výsledky problémy při překladu do morf. bohatých jazyků čeština morf. velmi bohatý jazyk: podle Hajiče teoreticky 4000 tagů, reálně se užívá 2000; angličtina běžně používá 50

statistické frázové překlady zatím nejlepší výsledky problémy při překladu do morf. bohatých jazyků čeština morf. velmi bohatý jazyk: podle Hajiče teoreticky 4000 tagů, reálně se užívá 2000; angličtina běžně používá 50 problémy se řeší přidáním dodatečných informací (o tom později)

statistické frázové překlady zatím nejlepší výsledky problémy při překladu do morf. bohatých jazyků čeština morf. velmi bohatý jazyk: podle Hajiče teoreticky 4000 tagů, reálně se užívá 2000; angličtina běžně používá 50 problémy se řeší přidáním dodatečných informací (o tom později) zavedeno do Moses

klasické frázové překlady: překlad slovo za slovo (house je jiné než houses)

klasické frázové překlady: překlad slovo za slovo (house je jiné než houses) faktorované frázové překlady: přidávají dodatečnou informaci: morfologickou, syntaktickou nebo sémantickou

klasické frázové překlady: překlad slovo za slovo (house je jiné než houses) faktorované frázové překlady: přidávají dodatečnou informaci: morfologickou, syntaktickou nebo sémantickou

principy:

principy: lepší využití trénovacích dat (při použití lemmatu místo word )

principy: lepší využití trénovacích dat (při použití lemmatu místo word ) správný překlad většinou závisí právě na dodatečné informaci

principy: lepší využití trénovacích dat (při použití lemmatu místo word ) správný překlad většinou závisí právě na dodatečné informaci v tomto pojetí tak word není jen token, ale jakýsi vektor faktorů, kt. reprezentují různé úrovně anotace (viz násl. slajdy)

překlad tak sestává ze tří částí:

překlad tak sestává ze tří částí:. překlad výchozích lemmat

překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS

překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2

překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2 новые дома строятся new houses are built

překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2 новые дома строятся new houses are built. překlad: mapování lemmat дом house, home, building, shell

překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2 новые дома строятся new houses are built. překlad: mapování lemmat дом house, home, building, shell. překlad: mapování morfologie NN plural-nominative-masculine NN plural, NN singular

překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2 новые дома строятся new houses are built. překlad: mapování lemmat дом house, home, building, shell. překlad: mapování morfologie NN plural-nominative-masculine NN plural, NN singular. generování vnějších forem house NN plural houses house NN singular house

každá fráze je tak expandována na seznam (množinu) možných překladů: { houses house NN plural, homes home NN plural, buildings building NN plural, shells shell NN plural, house house NN singular, }

Implementace pro anglicko-český překlad Realizoval RNDr. Ondřej Bojar, Ph.D. v rámci workshopu SMT

Data Využití systému Moses Trénování konfigurováno volbami [3] Zdrojem dat je News Commentary corpus (NC) Cca 55 tis. párů vět [1] Sekce pro ladění a vyhodnocení (cca po 1000) Zarovnání na slova pomocí nástroje GIZA++ [2] Anglický text byl převeden na lowercase a český lemmatizován

Scénáře faktorového překladu Frázový překlad Dekompozice a rozšíření 3-gramový jazykový model přes tvary slov a lemmata 7-gramový jazykový model přes morfologické značky Východisko - T scénář Single factored (faktor: slovní tvar) Úspěšnost multifaktorových scénářů Obrázek: T+T+G scénář: tři jazykové modely

Strojové učení Jak zvolit rysy? Úplné tagy Sloveso vykonat, tvar vykoná, značka: VB-S 3P-AA [1] Pouze POS CNG03: optimalizovaný tagset V případě větší trénovací množiny jsou úplné tagy úspěšnější

Problémové jevy Příslovečná určení rozvíjející slovesa Lokální shoda versus chybný pád u jmenného doplnění Obrázek: Analýza příslovečných určení rozvíjejících slovesa v větách Výsledky parsování závislostní syntaxe Valence?

Zdroje BOJAR, O.: English-to-Czech Factored Machine Translation. In: Proceedings of the Second Workshop on Statistical Machine Translation. 2007, p. 232 239. KOEHN, P. HOANG, H.: Factored Translation Models. In: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2007, p. 868 V876.

Zdroje Morphological Analysis of Czech Word Forms. LINDAT/CLARIN [online]. Praha: Institute of Formal and Applied Linguistics, 2015, 2012 [cit. 2015-11-09]. Dostupné z: http://quest.ms.mff.cuni.cz/morph/index.html GIZA++. Statistical Machine Translation [online]. Baltimore: Johns Hopkins University, 2001, leden 2001 [cit. 2015-11-09]. Dostupné z: http://www.statmt.org/moses/giza/giza++.html Factored Training. Moses [online]. Edinburgh: University of Edinburgh, 2015, červenec 2013 [cit. 2015-11-09]. Dostupné z: http://www.statmt.org/moses/?n=factoredtraining.factoredtraining

Experiment a jeho výsledná evaluace Moses se základním nastavením využ ití evaluač ního algoritmu BLEU

1) Syntakticky obohacený výstup Přelož ení "surface forms of words", přidání lexikálních faktorů Implementování morfologické a mě lké syntaktické analýzy Získáme sekvenč ní model podobný n- gramům Podpora syntaktické koherence na výstupu Použ ité modely: Eng-Ger, Eng-Sp, Eng- Cz, Eng-Chin

English-German Europarl korpus, 750 tis. vě t Přidání sl. druhu a morf. analýzy na výstupu a využ ití 7-gramů přineslo zlepšení (0,18%) "Baseline systém" se neumě l vypořádat s urč itými i neurč itými č leny ve vě tě

English-German Model Best published result Baseline (surface) Surface+ POS Surface+ POS+ Morph BLEU 18,15% 18,04% 18,15% 18,22%

English-Spanish Europarl korpus, 40 tis. vě t Použ ití sl. druhu a morfologické analýzy na výstupu a 7-gramového sekvenč ního modelu přineslo zlepšení o 1,25% (morph) a 0,84% (morph+ kat)

English-Spanish Model BLEU Baseline (surface) 23,41% Surface+ morph 24,66% Surface+ morph+ kat 24,25English-Spanish%

English-Czech Wall Street journal, 20 tis. vě t Využ ití morfologické analýzy a 7-gramového jazykového modelu Potřeba zváž it, které morfologické rysy využ ít Všechny modely předč ily základní variantu

English-Czech Model Baseline (surface) Surface+ all morph Surface+ case/ number/ gender Surface+ CNG/ verb/ preposition BLEU 25,82% 27,04% 27,45% 27,62%

2) Morfologická analýza a generování Místo surface přelož íme lemma a morfologii a vytvoříme surface na výstupu Experiment proveden na English-German News commentary korpus, 52 tis. vě t Ně mecká morfologická a slovně druhová analýza: LoPar Schmitd and Schulte im Walde (2000) Anglická slovně druhová analýza: Brill's tagger (Brill, 1995)

2) Morfologická analýza a generování II Při použ ití slovně druhové analýzyzlepšení o 0,86% Lemma+ morfologická analýza- propad Vytvoření vybíracího modelu Pokud není v trénovacich datech výskyt surface, pak už ijeme generování

German-English Model Baseline (surface) Surface+ POS Lemma/ morph Vybírací model BLEU 18,19% 19,05% 14,46% 19,47%

3) Použ ití automatických slovních druhů Automaticky trénované rozdě lení do sl. druhů shlukováním kontextové podobnosti Zlepšení o 1,25%

English-Chinese Baseline (surface) 19,54% Surface+ word class 21,10%

4) Integrovaný recasing Recasing= různá podoba zápisu: the, The, THE V SMT- minuskulní písmo, potřeba přidat krok k navrácení původní podoby Lze integrovat do modelu

Chinese-English Standart two-pass SMT+ recase 20,65% Integrated factored model (optimized) 21,08%