CSCI 599 MACHINE TRANSLATION



Podobné dokumenty
Centauri/Arcturan [Knight, 1997]

Machine Translation at

budete s řešením hotovi nebo až vyprší limit, všechny papíry prosím odevzdejte.

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Psaná podoba jazyka, slovní zásoba

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

CZ.1.07/1.5.00/

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Instrukce: Cvičný test má celkem 3 části, čas určený pro tyto části je 20 minut. 1. Reading = 6 bodů 2. Use of English = 14 bodů 3.

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

Postup objednávky Microsoft Action Pack Subscription

GREAT BRITAIN. III/2 Inovace a zkvalitnění výuky prostřednictvím ICT. Anglický jazyk Třída 3.A Téma hodiny Druh materiálu

Comparation of mobile

AJ 3_20_American_holidays.notebook. April 14, Úvodní strana

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Passive Trpný rod Pracovní list

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

ActiPack rozšířil výrobu i své prostory EMBAX Od ledna 2015 jsme vyrobili přes lahviček či kelímků. Děkujeme za Vaši důvěru!

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: 2O Číslo DUMu: VY_32_INOVACE_O9_AJ

PITSTOP VY_22_INOVACE_26

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Theme 6. Money Grammar: word order; questions

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

Future. V angličtině máme 3 způsoby, jak popsat budoucnost: 1. will future 2. be going to 3. present continuous

Introduction to MS Dynamics NAV

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Past simple. = minulý prostý čas Použití: mluvíme o činnostech a aktivitách v. Časové výrazy: last week, yesterday, last year, on Monday

Základní škola Nový Bor,

WORKSHEET 1: LINEAR EQUATION 1

POSLECH. Cinema or TV tonight (a dialogue between Susan and David about their plans for tonight)

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Compression of a Dictionary

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

The Czech education system, school

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

VY_22_INOVACE_číslo přílohy 1_AJ_6A_29. Úvodní část seznámení s cílem hodiny pohádka The Ugly Ducklings

Syntactic annotation of a second-language learner corpus

VY_32_INOVACE_AJ_UMA14,Trpný rod sloves.notebook

Název sady: Anglický jazyk pro 2. ročník čtyřletých maturitních uměleckořemeslných oborů

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Verb + -ing or infinitive

Výukový materiál zpracován v rámci projektu EU peníze školám

Projekty ve výuce cizího jazyka

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Byznys a obchodní záležitosti

Věty k překladu From part C Unit 6, Project 2

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

Primární modální slovesa CAN COULD (modál) I could play the piano. You could play the piano. He/She could play the piano. We could play the piano.

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

Database systems. Normal forms

Universal Dependencies and non-native Czech

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

IF Clauses Podmínkové věty Pracovní list

Content Language level Page. Mind map E-commerce All levels 2. Which is why... We use this expression to give a reason for something.

7.VY_32_INOVACE_AJ_UMB7, Tázací dovětky.notebook. September 08, 2013

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Kód: Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Present simple "to have, to be"

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová

VY_12_INOVACE_ / Vyprávíme a překládáme příběh

Název projektu: Multimédia na Ukrajinské

Translation Model Interpolation for Domain Adaptation in TectoMT

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

FILM REVIEW. Vytvořeno v rámci projektu Gymnázium Sušice Brána vzdělávání II

11/ Podmínkové věty. ( 1st Conditional) VY_32_INOVACE_AJ_UMA11,Podmínkové věty (1st Conditional).notebook. January 28, 2014

Budějovice Název materiálu: Passive voice. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Czenglish 1 ( )

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

1 st International School Ostrava-mezinárodní gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Hello. Hello. y words. My Picture Dictionary Objects. 1 Přečtěte si v učebnici znovu stranu 4. Co jsou oblíbené věci těch osob?

PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

My Year Manager is Vedoucí našeho ročníku je. P.E. is on Tělocvik mám v

PRÁCE S UKÁZKAMI ODPOVĚDÍ MATURANTŮ NA DVD

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Materiál slouží k procvičení znalosti přítomného času prostého, tvorbě vět a otázek.

Transportation Problem

III_ _The Verb to Be sloveso Být pracovní list.doc III_ _The Verb to Be sloveso Být pracovní list - řešení.doc

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_6_AJ_G

Název sady: Anglický jazyk pro 2. ročník čtyřletých maturitních uměleckořemeslných oborů

The Over-Head Cam (OHC) Valve Train Computer Model

PRIMÁRNÍ MODÁLNÍ SLOVESA CAN

Transkript:

CSCI 599 MACHINE TRANSLATION 11-1-11 11:00 1

INSTRUCTORS David Chiang Liang Huang Kevin Knight 2

LANGUAGES ON THE WEB 3

LANGUAGES ON TWITTER 4

LANGUAGES IN LA 5

WHY DO WE NEED MT? 6

WHY DO WE NEED MT? 7

WHY DO WE NEED MT? 8

9

10

11

WHY IS MT HARD? Coverage chiliagon? 12

WHY IS MT HARD? Ambiguity La caja está en la pluma The box is in the pen La caja está en el corral 13

WHY IS MT HARD? Divergence Juan nadó tras el lago John swam across the lake Juan cruzó a nado el lago 14

IN THE BEGINNING One naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography. When I look at an article in Russian, I say: This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode. Warren Weaver, 1947 15

IBM-GEORGETOWN 16

BAR-HILLEL Syntactic transfer Semantic barrier : The box was in the pen 17

ALPAC REPORT 18

RULE-BASED MT Interlingua urce language Semantics Transfer Semantics Target languag Syntax Transfer Syntax String Direct String 19

STATISTICAL MT 20

A SCI-FI EXAMPLE (KNIGHT, 1997) Your assignment: translate this Centauri sentence into Arcturan farok crrrok hihok yorok clok kantok ok-yurp 21

farok crrrok hihok yorok clok kantok ok-yurp 1c. ok-voon ororok sprok. 1a. at-voon bichat dat. 2c. ok-drubel ok-voon anok plok sprok. 2a. at-drubel at-voon pippat rrat dat. 3c. erok sprok izok hihok ghirok. 3a. totat dat arrat vat hilat. 4c. ok-voon anok drok brok jok. 4a. at-voon krat pippat sat lat. 5c. wiwok farok izok stok. 5a. totat jjat quat cat. 6c. lalok sprok izok jok stok. 6a. wat dat krat quat cat. 7c. lalok farok ororok lalok sprok izok enemok. 7a. wat jjat bichat wat dat vat eneat. 8c. lalok brok anok plok nok. 8a. iat lat pippat rrat nnat. 9c. wiwok nok izok kantok ok-yurp. 9a. totat nnat quat oloat at-yurp. 10c. lalok mok nok yorok ghirok clok. 10a. wat nnat gat mat bat hilat. 11c. lalok nok crrrok hihok yorok zanzanok. 11a. wat nnat arrat mat zanzanat. 12c. lalok rarok nok izok hihok mok. 12a. wat nnat forat arrat vat gat. (Knight,1997) 22

farok crrrok hihok yorok clok kantok ok-yurp 1c. ok-voon ororok sprok. 1a. at-voon bichat dat. 2c. ok-drubel ok-voon anok plok sprok. 2a. at-drubel at-voon pippat rrat dat. 3c. erok sprok izok hihok ghirok. 3a. totat dat arrat vat hilat. 4c. ok-voon anok drok brok jok. 4a. at-voon krat pippat sat lat. 5c. wiwok farok izok stok. 5a. totat jjat quat cat. 6c. lalok sprok izok jok stok. 6a. wat dat krat quat cat. 7c. lalok farok ororok lalok sprok izok enemok. 7a. wat jjat bichat wat dat vat eneat. 8c. lalok brok anok plok nok. 8a. iat lat pippat rrat nnat. 9c. wiwok nok izok kantok ok-yurp. 9a. totat nnat quat oloat at-yurp. 10c. lalok mok nok yorok ghirok clok. 10a. wat nnat gat mat bat hilat. 11c. lalok nok crrrok hihok yorok zanzanok. 11a. wat nnat arrat mat zanzanat. 12c. lalok rarok nok izok hihok mok. 12a. wat nnat forat arrat vat gat. (Knight,1997) 23

farok crrrok hihok yorok clok kantok ok-yurp 1c. ok-voon ororok sprok. 1a. at-voon bichat dat. 2c. ok-drubel ok-voon anok plok sprok. 2a. at-drubel at-voon pippat rrat dat. 3c. erok sprok izok hihok ghirok. 3a. totat dat arrat vat hilat. 4c. ok-voon anok drok brok jok. 4a. at-voon krat pippat sat lat. 5c. wiwok farok izok stok. 5a. totat jjat quat cat. 6c. lalok sprok izok jok stok. 6a. wat dat krat quat cat. 7c. lalok farok ororok lalok sprok izok enemok. 7a. wat jjat bichat wat dat vat eneat. 8c. lalok brok anok plok nok. 8a. iat lat pippat rrat nnat. 9c. wiwok nok izok kantok ok-yurp. 9a. totat nnat quat oloat at-yurp. 10c. lalok mok nok yorok ghirok clok. 10a. wat nnat gat mat bat hilat. 11c. lalok nok crrrok hihok yorok zanzanok. 11a. wat nnat arrat mat zanzanat. 12c. lalok rarok nok izok hihok mok. 12a. wat nnat forat arrat vat gat. (Knight,1997) 24

farok crrrok hihok yorok clok kantok ok-yurp 1c. ok-voon ororok sprok. 1a. at-voon bichat dat. 2c. ok-drubel ok-voon anok plok sprok. 2a. at-drubel at-voon pippat rrat dat. 3c. erok sprok izok hihok ghirok. 3a. totat dat arrat vat hilat. 4c. ok-voon anok drok brok jok. 4a. at-voon krat pippat sat lat. 5c. wiwok farok izok stok. 5a. totat jjat quat cat. 6c. lalok sprok izok jok stok. 6a. wat dat krat quat cat. 7c. lalok farok ororok lalok sprok izok enemok. 7a. wat jjat bichat wat dat vat eneat. 8c. lalok brok anok plok nok. 8a. iat lat pippat rrat nnat. 9c. wiwok nok izok kantok ok-yurp. 9a. totat nnat quat oloat at-yurp. 10c. lalok mok nok yorok ghirok clok. 10a. wat nnat gat mat bat hilat. 11c. lalok nok crrrok hihok yorok zanzanok. 11a. wat nnat arrat mat zanzanat. 12c. lalok rarok nok izok hihok mok. 12a. wat nnat forat arrat vat gat. (Knight,1997) 25

farok crrrok hihok yorok clok kantok ok-yurp 1c. ok-voon ororok sprok. 1a. at-voon bichat dat. 2c. ok-drubel ok-voon anok plok sprok. 2a. at-drubel at-voon pippat rrat dat. 3c. erok sprok izok hihok ghirok. 3a. totat dat arrat vat hilat. 4c. ok-voon anok drok brok jok. 4a. at-voon krat pippat sat lat. 5c. wiwok farok izok stok. 5a. totat jjat quat cat. 6c. lalok sprok izok jok stok. 6a. wat dat krat quat cat. 7c. lalok farok ororok lalok sprok izok enemok. 7a. wat jjat bichat wat dat vat eneat. 8c. lalok brok anok plok nok. 8a. iat lat pippat rrat nnat. 9c. wiwok nok izok kantok ok-yurp. 9a. totat nnat quat oloat at-yurp. 10c. lalok mok nok yorok ghirok clok. 10a. wat nnat gat mat bat hilat. 11c. lalok nok crrrok hihok yorok zanzanok. 11a. wat nnat arrat mat zanzanat. 12c. lalok rarok nok izok hihok mok. 12a. wat nnat forat arrat vat gat. (Knight,1997) 26

farok crrrok hihok yorok clok kantok ok-yurp 1c. ok-voon ororok sprok. 1a. at-voon bichat dat. 2c. ok-drubel ok-voon anok plok sprok. 2a. at-drubel at-voon pippat rrat dat. 3c. erok sprok izok hihok ghirok. 3a. totat dat arrat vat hilat. 4c. ok-voon anok drok brok jok. 4a. at-voon krat pippat sat lat. 5c. wiwok farok izok stok. 5a. totat jjat quat cat. 6c. lalok sprok izok jok stok. 6a. wat dat krat quat cat. 7c. lalok farok ororok lalok sprok izok enemok. 7a. wat jjat bichat wat dat vat eneat. 8c. lalok brok anok plok nok. 8a. iat lat pippat rrat nnat. 9c. wiwok nok izok kantok ok-yurp. 9a. totat nnat quat oloat at-yurp. 10c. lalok mok nok yorok ghirok clok. 10a. wat nnat gat mat bat hilat. 11c. lalok nok crrrok hihok yorok zanzanok. 11a. wat nnat arrat mat zanzanat. 12c. lalok rarok nok izok hihok mok. 12a. wat nnat forat arrat vat gat. (Knight,1997) 27

farok crrrok hihok yorok clok kantok ok-yurp 1c. ok-voon ororok sprok. 1a. at-voon bichat dat. 2c. ok-drubel ok-voon anok plok sprok. 2a. at-drubel at-voon pippat rrat dat. 3c. erok sprok izok hihok ghirok. 3a. totat dat arrat vat hilat. 4c. ok-voon anok drok brok jok. 4a. at-voon krat pippat sat lat. 5c. wiwok farok izok stok. 5a. totat jjat quat cat. 6c. lalok sprok izok jok stok. 6a. wat dat krat quat cat. 7c. lalok farok ororok lalok sprok izok enemok. 7a. wat jjat bichat wat dat vat eneat. 8c. lalok brok anok plok nok. 8a. iat lat pippat rrat nnat. 9c. wiwok nok izok kantok ok-yurp. 9a. totat nnat quat oloat at-yurp. 10c. lalok mok nok yorok ghirok clok. 10a. wat nnat gat mat bat hilat. 11c. lalok nok crrrok hihok yorok zanzanok. 11a. wat nnat arrat mat zanzanat. 12c. lalok rarok nok izok hihok mok. 12a. wat nnat forat arrat vat gat. (Knight,1997) 28

A SCI-FI EXAMPLE (KNIGHT, 1997) Your assignment: translate this Centauri sentence into Arcturan farok crrrok hihok yorok clok kantok ok-yurp jjat arrat mat bat oloat at-yurp Next: put the Arcturan words in Arcturan order 29

Clients do not sell pharmaceuticals in Europe. 1e. Garcia and associates. 1s. Garcia y asociados. 7e. the clients and the associates are enemies. 7s. los clients y los asociados son enemigos. 2e. Carlos Garcia has three associates. 2s. Carlos Garcia tiene tres asociados. 8e. the company has three groups. 8s. la empresa tiene tres grupos. 3e. his associates are not strong. 3s. sus asociados no son fuertes. 9e. its groups are in Europe. 9s. sus grupos estan en Europa. 4e. Garcia has a company also. 4s. Garcia tambien tiene una empresa. 10e. the modern groups sell strong pharmaceuticals. 10s. los grupos modernos venden medicinas fuertes. 5e. its clients are angry. 5s. sus clientes estan enfadados. 6e. the associates are also angry. 6s. los asociados tambien estan enfadados. 11e. the groups do not sell zenzanine. 11s. los grupos no venden zanzanina. 12e. the small groups are not modern. 12s. los grupos pequenos no son modernos. (Knight,1997) 30

TRANSLATION AS DECODING e f arg max e p(e f ) = arg max e = arg max e p(e, f ) p(e)p( f e) 31

OVERVIEW Word-based alignment and translation Language models Evaluation Phrase-based translation Discriminative training Interlude: Subword translation Syntax-based translation 32