Strojový překlad přes tektogramatickou rovinu v systému TectoMT. Martin Popel ÚFAL, MFF UK

Podobné dokumenty
TectoMT: Machine Translation System

Možnosti zlepšení strojového překladu z angličtiny do češtiny

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Faktorované překladové modely. Základní informace

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Depfix: Jak dělat strojový překlad lépe než Google Translate

Translation Model Interpolation for Domain Adaptation in TectoMT

Jak dělat strojový překlad lépe než Google Translate

ve strojovém překladu

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Automatické párování uzlů českých a anglických tektogramatických stromů

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Japonsko-český strojový překlad

Markovovy modely v Bioinformatice

NLP & strojové učení

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Questions

Větné členy a jejich pozice. Význam anglického slovosledu

Kód: Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Present simple "to have, to be"

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Zachycení (nejen) koordinací v závislostních stromech

Compression of a Dictionary

PSANÍ. Anglický jazyk 5. třída Hana Stryalová

Popis morfologických značek poziční systém

WWW. Petr Jarolímek, DiS. Školní rok:

Anglický jazyk 5. ročník

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

EURO přeshraniční platba

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Název projektu: Multimédia na Ukrajinské

ČTENÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

IA161 Pokročilé techniky zpracování přirozeného jazyka

Natural Language Toolkit

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Litosil - application

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

CZ.1.07/1.5.00/

Angličtina pro radost I. Začátečníci

I N F O R M A T I O N about T H E P E O P L E

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Izolační manipulační tyče typ IMT IMT Type Insulated Handling Rod

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Název školy: Základní škola Bavorov, okres Strakonice. Název: VY_32_INOVACE_09_16_Prověrka 1.pololetí

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u : My family, my hobbies Present simple and continuous, Wh- questions

Angličtina hravě - první stupeň

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Moses. M. Fabianová, A. Štromajerová, M. Vaněk

Budějovice Název materiálu: Passive voice. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Transportation Problem

Minulý čas prostý. Past simple. Výhradní výukový materiál portálu onlinejazyky.cz

Materiál slouží k procvičení znalosti přítomného času prostého, tvorbě vět a otázek.

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

SoSIReČR Sociální síť informatiků v regionech České republiky, Peter Vojtáš, MFFUK

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Japonsko-český strojový překlad

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

1 Úvod Charakteristika programu Vstupní podmínky Rozhraní Uživatelské rozhraní... 3

CASTING HAND PRODUCTION USING MOULDS

Slovníky a morfologická analýza

TANEČNÍ SDRUŽENÍ ČESKÉ REPUBLIKY

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Mobilní malware na platformě Android Přednáška 2. Ing. Milan Oulehla

Co nového ve zpracování MWE Automatická identifikace

VY_22_INOVACE_číslo přílohy 1_AJ_6A_29. Úvodní část seznámení s cílem hodiny pohádka The Ugly Ducklings

Vánoční sety Christmas sets

Project 2. My projects

Dobrovolná bezdětnost v evropských zemích Estonsku, Polsku a ČR

Syntactic annotation of a second-language learner corpus

Cambridge International Examinations Cambridge International General Certifi cate of Secondary Education

Anglický jazyk 1. lekce Jméno. 2. ročník. Správně spoj. Použij k tomu různé pastelky. Dobré odpoledne

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Jak lze v korpusech hledat doklady pro výzkum morfologie?

vyprávění, popis přítomný čas, minulý čas, předložky, členy, stupňování

The Over-Head Cam (OHC) Valve Train Computer Model

PŘEDPŘÍTOMNÝ průběhový ČAS (PRESENT PERFECT continuous TENSE) - cvičení

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

CZ.1.07/1.5.00/

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Present simple (přítomný čas prostý)

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

R E A C H R E G I S T R A C E S T Ř E D A

Výukový materiál zpracovaný v rámci projektu

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Digitální učební materiál

Strojové učení a pravidla pro extrakci informací z textů

Náhradník Náhradník 5.A

Transkript:

Strojový překlad přes tektogramatickou rovinu v systému TectoMT Martin Popel ÚFAL, MFF UK Pondělní seminář, 22. března 2010

Osnova TectoMT Ukázka překladu krok za krokem Anotace překladových chyb Novinky v TectoMT - Hidden Markov Tree Models (HMTM) - nové slovníky (Maximum Entropy) Výsledky a zhodnocení

TectoMT jako framework modulární, open source, objektový, Perl, Linux Data models for stochastic tools translation dictionaries special-purpose lexical databases Third-party Tools Malt parser TreeTagger fntbl, CRF++ Visualization TrEd (Tree Editor with SVG and PDF export options) shared part In-house Tools taggers, parsers NE recognizers language models API machine learning tools TectoMT Core Classes TectoMT::Document TectoMT::Bundle TectoMT::Node TectoMT::Scenario TectoMT::Block TectoMT Blocks Tree_tagger McD_parser Mark_passives Applications scenarios + format conversions Format Convertors (to & from tmt) plain text HTML & various XML corpora PDT, PennTB, EMILLE, PADT, CoNLL, vertical versioned part

Ukázka překladu - Schéma transfer přes tektogramatickou rovinu ANALÝZA TRANSFER SYNTÉZA tectogramatická rovina t-rovina analytická rovina a-rovina morfologická rovina m-rovina zdrojový jazyk (angličtina) cílový jazyk (čeština) w-rovina

Schéma překladu v TectoMT pravidlové a statistické bloky ANALÝZA TRANSFER SYNTÉZA tectogramatická rovina t-rovina formémy gramatémy morfologické kategorie varianty HMTM stavba t-stromu (kontrakce hran) ze slovníků gramatická shoda označení funkčních slov přidání funkčních slov analytická rovina a-rovina analytické funkce vygenerování parser (McDonald's MST) slovních tvarů morfologická rovina m-rovina lemmatizace linearizace tagger (Morče) tokenizace zdrojový jazyk (angličtina) cílový jazyk (čeština) w-rovina segmentace

Ukázka překladu Analýza vstupní text Machine translation should be easy. m-rovina machine translation should be easy. NN NN MD VB JJ. a-rovina Atr machine Pred should Sb translation Obj be AuxK. Pnom easy

Ukázka překladu Analýza vstupní text Machine translation should be easy. m-rovina machine translation should be easy. NN NN MD VB JJ. a-rovina Označení funkčních slov (a interpunkce) Atr machine Pred should Sb translation Obj be AuxK. Pnom easy

Ukázka překladu Analýza vstupní text Machine translation should be easy. m-rovina machine translation should be easy. NN NN MD VB JJ. a-rovina Označení hran ke kontrakci Atr machine Pred should Sb translation Obj be AuxK. Pnom easy

Ukázka překladu Analýza vstupní text Machine translation should be easy. m-rovina machine translation should be easy. NN NN MD VB JJ. Stavba t-stromu (jen základ) a-rovina be translation easy machine

Ukázka překladu Analýza vstupní text Machine translation should be easy. m-rovina machine translation should be easy. NN NN MD VB JJ. Vyplnění formémů a-rovina be v:fin n:attr machine translation n:subj easy adj:compl

Ukázka překladu Analýza vstupní text Machine translation should be easy. m-rovina machine translation should be easy. NN NN MD VB JJ. a-rovina Vyplnění gramatémů be v:fin tense = simultaneous, modalita,... n:attr machine translation n:subj number = singular easy adj:compl degcmp = positive

Ukázka překladu Transfer Stavba cílového t-stromu (klonováním) zdrojová t-rovina translation be n:subj v:fin easy adj:compl machine n:attr cílová t-rovina be v:fin translation n:subj easy adj:compl machine n:attr

Ukázka překladu Transfer Vyplnění překladových variant lemmat a formémů zdrojová t-rovina machine translation n:attr be n:subj v:fin easy adj:compl cílová t-rovina počítač stroj strojový n:2 n:attr adj:attr překlad převod n:1 být mít v:fin v:inf snadný jednoduchý adj:compl n:1 adv:

Ukázka překladu Transfer machine Výběr optimální kombinace lemmat a formémů zdrojová t-rovina translation n:attr be n:subj v:fin easy adj:compl cílová t-rovina počítač stroj strojový n:2 n:attr adj:attr překlad převod n:1 být mít v:fin v:inf snadný jednoduchý adj:compl n:1 adv:

Ukázka překladu Syntéza Stavba cílové a-roviny (klonováním) cílová t-rovina překlad n:1 být v:fin snadný adj:compl strojový adj:attr cílová a-rovina být překlad snadný strojový

Ukázka překladu Syntéza Některé morfologické kategorie podle gramatémů a formémů cílová t-rovina překlad n:1 být v:fin snadný adj:compl strojový adj:attr cílová a-rovina strojový degcmp = positive být překlad snadný number = singular degcmp = positive gender = masc. inanim. case = nominative

Ukázka překladu Syntéza Shoda (vztažná a přivlast. zájemena, podmět-přísudek, přívlastek, doplněk) cílová t-rovina překlad n:1 být v:fin snadný adj:compl strojový adj:attr cílová target a-rovina být number = singular gender = masc. inanim. number = singular case = nominative gender = masc. inanim. strojový degcmp = positive překlad number = singular gender = masc. inanim. case = nominative snadný degcmp = positive number = singular case = nominative gender = masc. inanim.

Ukázka překladu Syntéza Přidání funkčních slov (a interpunkce) cílová t-rovina překlad n:1 být v:fin snadný adj:compl strojový adj:attr cílová a-rovina překlad mít. strojový by být snadný

Ukázka překladu Syntéza Přerovnání klitik (Wackernagel) cílová t-rovina překlad n:1 být v:fin snadný adj:compl strojový adj:attr cílová a-rovina překlad mít. strojový by být snadný

Ukázka překladu Syntéza Vygenerování slovních tvarů cílová t-rovina překlad n:1 být v:fin snadný adj:compl strojový adj:attr cílová a-rovina překlad měl. strojový by být snadný

Ukázka překladu Syntéza Linearizace (zřetězení slov) cílová t-rovina překlad n:1 být v:fin snadný adj:compl strojový adj:attr cílová a-rovina strojový měl. překlad by být snadný Strojový překlad by měl být snadný.

Ukázka překladu Skutečný scénář SEnglishW_to_SEnglishM:: Tokenization Normalize_forms Fix_tokenization TagMorce Fix_mtags Lemmatize_mtree SEnglishM_to_SEnglishN:: Stanford_named_entities Distinguish_personal_names SEnglishM_to_SEnglishA:: McD_parser Fill_is_member_from_deprel Fix_tags_after_parse McD_parser REPARSE=1 Fill_is_member_from_deprel Fix_McD_topology Fix_nominal_groups Fix_is_member Fix_atree Fix_multiword_prep_and_conj Fix_dicendi_verbs Fill_afun_AuxCP_Coord Fill_afun SEnglishA_to_SEnglishT:: Mark_edges_to_collapse Mark_edges_to_collapse_neg Build_ttree Fill_is_member Move_aux_from_coord- _to_members Fix_tlemmas Assign_coap_functors Fix_either_or Fix_is_member Mark_clause_heads Mark_passives Assign_functors Mark_infin Mark_relclause_heads Mark_relclause_coref Mark_dsp_root Mark_parentheses Recompute_deepord Assign_nodetype Assign_grammatemes Detect_formeme Rehang_shared_attr Detect_voice Fix_imperatives Fill_is_name_of_person Fill_gender_of_person Add_cor_act Find_text_coref SEnglishT_to_TCzechT:: Clone_ttree Translate_LF_phrases Translate_LF_joint_static Delete_superfluous_tnodes Translate_F_try_rules Translate_F_add_variants Translate_F_rerank Translate_L_try_rules Translate_L_add_variants Translate_LF_numerals_by_rules Translate_L_filter_aspect Transform_passive_constructions Prune_personal_name_variants Remove_unpassivizable_variants Translate_LF_compounds Cut_variants Rehang_to_eff_parents Translate_LF_tree_Viterbi Rehang_to_orig_parents Fix_transfer_choices Translate_L_female_surnames Add_noun_gender Add_relpron_below_rc Change_Cor_to_PersPron Add_PersPron_below_vfin Add_verb_aspect Fix_date_time Fix_grammatemes_after_transfer Fix_negation Move_adjectives_before_nouns Move_genitives_to_postposit Move_relclause_to_postposit Move_dicendi_closer_to_dsp Move_PersPron_next_to_verb Move_enough_before_adj Fix_money Recompute_deepord Find_gram_coref_for_refl_pron Neut_PersPron_gender_from_antec Override_pp_with_phrase_translation Valency_related_rules Fill_clause_number Turn_text_coref_to_gram_coref TCzechT_to_TCzechA:: Clone_atree Distinguish_homonymous_mlemmas Reverse_number_noun_dependency Init_morphcat Fix_possessive_adjectives Mark_subject Impose_pron_z_agr Impose_rel_pron_agr Impose_subjpred_agr Impose_attr_agr Impose_compl_agr Drop_subj_pers_prons Add_prepositions Add_subconjs Add_reflex_particles Add_auxverb_compound_passive Add_auxverb_modal Add_auxverb_compound_future Add_auxverb_conditional Add_auxverb_compound_past Add_clausal_expletive_pronouns Resolve_verbs Project_clause_number Add_parentheses Add_sent_final_punct Add_subord_clause_punct Add_coord_punct Add_apposition_punct Choose_mlemma_for_PersPron Generate_wordforms Move_clitics_to_wackernagel Recompute_ordering Delete_superfluous_prepos Delete_empty_nouns Vocalize_prepositions Capitalize_sent_start Capitalize_named_entities TCzechA_to_TCzechW:: Concatenate_tokens Ascii_quotes Remove_repeated_tokens

Anotace překladových chyb vzorek 250 vět, celkem 1463 označených chyb Type Subtype Seriousness Circumstances Source lemma, formeme, gram., w. order,... gram: gender, person, tense,... serious, minor coordination, named entity, numbers tok, lem, tagger, parser, tecto, trans, non-iso, syn,? ANALYSIS 30% SYNTHESIS 3% TRANSFER 67% chyby způsobené předpokladem Izomorfismu t-stromů 8% ostatní chyby v transferu 59% Detaily viz [Popel,2009].

Novinky v TectoMT Analýza Analýza angličtiny Lemmatizace (70krát zrychlena) Parsing pravidlové opravy oddělený parsing parentezí v závorkách

Parsing parentezí This sentence (excluding the long parenthesis, which was added as an example) is short. Rozdíl: 0,3 bodu BLEU

Novinky v TectoMT Analýza Analýza angličtiny Lemmatizace (70krát zrychlena) Parsing pravidlové opravy oddělený parsing parentezí v závorkách Analytické funkce (pravidlový blok, chybí manuál) I do AuxV not Neg want to AuxV make up AuxV an AuxA example. want to? want make make to

Novinky v TectoMT Analýza Analýza angličtiny Lemmatizace (70krát zrychlena) Parsing pravidlové opravy oddělený parsing parentezí v závorkách Analytické funkce (pravidlový blok, chybí manuál) Budování t-roviny vydělena jazykově nezávislá část Pojmenované entity ve zvláštním stromě Rozpoznávání ženských a mužských jmen Koreference

Novinky v TectoMT - Transfer nové slovníky (Maximum Entropy) Hidden Markov Tree Models (HMTM) časté fráze (neizomorfní t-stromy), např. take place konat_se, proběhnout prime minister premiér přechylování ženských příjmení pravidla pro slovesný vid, číslovky,...

Novinky v TectoMT - Syntéza Upraveno dělení věty na klauze, vkládání interpunkce, přesun klitik Přidán morfologický model (trénován na SYNu) nalezení slovního tvaru pro dané lemma s daným omezením na tag některé pozice tagu po překladu neznáme, netřeba je specifikovat, vybere se nejčastější tvar Potíže s morfologií omezeny, byť ne zcela

Slovníky - MaxEnt Slovník natrénován na paralelním korpusu CzEng pomocí metody Maximum Entropy Pro slovník lemmat použit kontext (features): pro daný uzel a jeho rodiče: tlemma, formeme, voice, negation, tense, number, degcmp, sempos, short_sempos, person, is_capitalized pro daný uzel: position (před/za rodičem), is_member, tag, has_left_child, has_right_child, prev_node_tlemma, next_node_tlemma, child_formem_*, child_tlemma_*, determiner (a/the)

Slovníky Nové rozhraní obecné totéž rozhraní pro lemmata i formémy $dict->get_translations($input_label, $features) vrátí seznam překladových variant včetně pravděpodobnosti Slovníky jsou objekty, v konstruktoru lze zadat jeden či více jiných slovníků hierachie Základní typy slovníků: Statický Kontextový Derivační Kombinační data ze souboru, lemma lemma data ze souboru, lemma,features lemma překlady odvozeny dynamicky, vstupní slovník kombinace více vstupních slovníků

Slovníky Hierarchie (lemmata) Backoff 1. MaxEnt (CzEng) 3. 2. Static (CzEng) Human

Slovníky Hierarchie (lemmata) Interpolated 0,8 0,1 MaxEnt (CzEng) Human 0,1 Static (CzEng)

Slovníky Hierarchie (lemmata) Interpolated MaxEnt (CzEng) Human Prefixes multi-core více-jádrový více-jádro multi-jádrový multi-jádro Static (CzEng)

Slovníky Hierarchie (lemmata) Interpolated MaxEnt (CzEng) Human Prefixes Deadjectival_adverbs Static (CzEng) water voda vodový vodní deaf hluchý hluše necitlivý necitlivě Nouns_to_adjectives

Slovníky Hierarchie (lemmata) Interpolated MaxEnt (CzEng) Human Prefixes Deadjectival_adverbs Static (CzEng) high-water vodový vysoko-vodový vodní vysoko-vodní Hyphen_compounds Nouns_to_adjectives

Slovníky Hierarchie (lemmata) Numbers Suffixes Interpolated MaxEnt (CzEng) Human Backoff Transliterate Verbs_to_nouns Prefixes Deadjectival_adverbs Static (CzEng) Hyphen_compounds Deverbal_adjectives Nouns_to_adjectives

HMTM Motivace machine Výběr optimální kombinace lemmat a formémů zdrojová t-rovina translation n:attr be n:subj v:fin easy adj:compl cílová t-rovina počítač stroj strojový n:2 n:attr adj:attr překlad převod n:1 být mít v:fin v:inf snadný jednoduchý adj:compl n:1 adv:

machine Výběr optimální kombinace lemmat a formémů zdrojová t-rovina cílová t-rovina n:attr počítač n:2, počítač n:attr, strojový adj:attr,... HMTM Motivace translation překlad n:1, převod n:1 be n:subj v:fin easy adj:compl být v:fin, být v:inf, mít v:fin, mít v:inf snadný adj:compl, jednoduchý adj:compl,...

HMTM - Teorie HMTM zavedl [Crouse,1998], používáno pro signal processing segmentaci obrazu apod., viz [Durand,2004]. (V,E) zakořeněný strom X sekvence náhodných proměnných (skryté stavy vrcholů V) Y sekvence náhodných proměnných (viditelné symboly) P(X v X rodič(v) ) přechodová pravděpodobnost (transition prob.) P(Y v X v ) emisní pravděpodobnost (emission prob.) Stromová Markovova vlastnost (podmínka nezávislosti): v V \ {kořen}, w V \ podstrom(v) : P(X podstrom(v) X rodič(v), X w ) = P(X podstrom(v) X rodič(v) ) Známe-li Y, můžeme najít nejpravděpodobnější sekvenci skrytých stavů pomocí stromového Viterbiho algoritmu.

HMTM v překladu Source tree (Czech) ROOT TRANSFER P(optimal_tree) = P E (strojový machine) P T (machine translation) P E (překlad translation) P T (translation be) P E (snadný easy) P T (easy be) P E (být be) P T (be ROOT) Target tree (English) ROOT P E (být have) = 0.01 0.01 SYNTHESIS být P E (být be) = 0.8 be have ANALYSIS překlad snadný P E (překlad arcade) = 0.7 P E (překlad translation) = 0.6 P T (machine translation) = 0.02 translatio n 1 10-10 1 10-8 0.0001 1 10-8 arcade 1 10-8 0.002 0.001 easy simple strojový Source sentence: Strojový překlad by měl být snadný. P E (strojový machine) = 0.4 machine P E (strojový engine) = 0.5 engine Target sentence: Machine translation should be easy. P E (source target) emission probabilities translation model P T (dependent governing) transition probabilities target-language tree model

Výsledky WMT (BLEU) 17 16 15 14 13 12 11 10 9 8 7 6 2008 2009 2010 bojar tectomt pctrans uedin google eurotran TectoMT: Rok BLEU 2008 WMT 6,9 2009 WMT 7,3 2009 zaří 10,2 2010 leden 10,4 2010 únor 11,3 2010 WMT 12,6

TectoMT před 3 lety

TectoMT před 3 lety a dnes SRC: A Turkish girl has died from bird flu, days after her brother and sister died from the disease. 2007: Turecká dívka zemřela z ptačí chřipky dny after, že její bratr a sestra zemřeli z nemoci. 2010: Turecká dívka zemřela ptačí chřipkou, dny, ona, bratr a sestra zemřela nemocí. SRC: The latest victim, Hulya Kocyigit, died early on Friday at the hospital. 2007: Nejpozdnější oběť Kocyigit Hulya zemřela brzy v pátku v nemocnici. 2010: Poslední oběť Hulya Kocyigit zemřela brzy v pátek v nemocnici.

Ukázky překladu Birds of a feather flock together. Great talkers are little doers. As good be an addled egg as an idle bird. A miss by an inch is a miss by a mile. I d rather be a hammer than a nail. A bird in the hand is worth two in the bush. Bread is the staff of life. I ll come a bit later on my own. Ptáci v bederním hejnu spolu. Velcí řečníci jsou malí vrazi. Dobré je feťácké vejce jako činný pták. Slečna palec je slečna miliónu. Spíše bych byl kladivo než nehet. Pták v ruce je cenný dvakrát v Bushovi. Chléb je zaměstnanec života. Sem čelist ještě na své milé.

Literatura TectoMT: http://ufal.mff.cuni.cz/tectomt [Popel,2009] Martin Popel: Ways to Improve the Quality of English-Czech Machine Translation. Master s thesis, ÚFAL, MFF UK, Prague, 2009. [Crouse,1998] Matthew Crouse, Robert Nowak, and Richard Baraniuk: Wavelet-Based Statistical Signal Processing Using Hidden Markov Models. IEEE Transactions on Signal Processing, 46(4):886 902.1998. [Durand,2004] Jean-Baptiste Durand, Paulo Gonçalvès, Yann Guédon: Computational Methods for Hidden Markov Tree Models An Application to Wavelet Trees IEEE Transactions on Signal Processing, 2004.