Jak se Mojžíš s Jozuem učili hindsky

Podobné dokumenty
Akademický Začátek. Začátek - Úvod

Byznys a obchodní záležitosti

Byznys a obchodní záležitosti

vlk/kj.k izkf/dkj ls izdkf'kr

vlk/kj.k Hkkx II [k.m 3 mi&[k.m (i) izkf/dkj ls izdkf'kr

Přihláška Motivační dopis

भ रत गणर ज य एव च क गणर ज य क मध य स म ज क स रक ष कर रन म

vlk/kj.k izkf/dkj ls izdkf'kr

bab.la व क य श क श: व यक त गत श भक मन ए च क-ह न द

Byznys a obchodní záležitosti Dopis

vlk/kj.k izkf/dkj ls izdkf'kr अ धस चन प अ धस चन

Faktorované překladové modely. Základní informace

vlk/kj.k izkf/dkj ls izdkf'kr अ धस चन स. 13/2017-स व कर

vlk/kj.k izkf/dkj ls izdkf'kr

Geschäftskorrespondenz

vlk/kj.k izkf/dkj ls izdkf'kr

Bardzo formalny, odbiorca posiada specjalny tytuł, który jest używany zamiast nazwiska

Osobní Všechno nejlepší

vlk/kj.k EXTRAORDINARY Hkkx II [k.m 3 mi&[k.m (i) PART II Section 3 Sub-section (i) izkf/dkj ls izdkf'kr

lef"v vfkz'kkl= (Macro Economics)

vlk/kj.k izkf/dkj ls izdkf'kr

Automatická post-editace výstupů frázového strojového překladu (Depfix)

vlk/kj.k izkf/dkj ls izdkf'kr अ धस चन

Osobní Dopis. Dopis - Adresa एन. सरब, ट यर स ऑफ म नह टन, ३३५ म न स ट र ट, न य य र क एन.य. ९२९२६. Mr. N. Summerbee 335 Main Street New York NY 92926

Byznys a obchodní záležitosti Dopis

Byznys a obchodní záležitosti Dopis

vlk/kj.k izkf/dkj ls izdkf'kr

Automatická post-editace výstupů frázového strojového překladu (Depfix)

vlk/kj.k izkf/dkj ls izdkf'kr

vlk/kj.k izkf/dkj ls izdkf'kr

Byznys a obchodní záležitosti Dopis

ve strojovém překladu

Osobní Dopis. Dopis - Adresa

Osobní Všechno nejlepší

Přihláška Motivační dopis

vlk/kj.k EXTRAORDINARY Hkkx II [k.m 3 mi&[k.m (i) PART II Section 3 Sub-section (i) izkf/dkj ls izdkf'kr ग ह म लय (म हल स र भ ग) अ धस चन

vlk/kj.k izkf/dkj ls izdkf'kr

vlk/kj.k izkf/dkj ls izdkf'kr

vlk/kj.k izkf/dkj ls izdkf'kr

vlk/kj.k izkf/dkj ls izdkf'kr

SMLOUVA O SOCIÁLNÍM ZABEZPEČENÍ MEZI ČESKOU REPUBLIKOU A INDICKOU REPUBLIKOU च क गणर ज य व र गणर ज य क चच कक रर रर क र रन

vlk/kj.k izkf/dkj ls izdkf'kr

vlk/kj.k izkf/dkj ls izdkf'kr अ धस चन

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

vlk/kj.k izkf/dkj ls izdkf'kr

Osobní Všechno nejlepší

Affisix. Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Česká Republika,

Dasbodh 6/9 HLEDÁNÍ PODSTATY र म. śrīrāma ग पत आह उद ड धन क य ज णत स वकजन. gupta āhe udaṁḍa dhana kāya jāṇatī sevakajana तय स आह त ज ञ न ब क र च

IA161 Pokročilé techniky zpracování přirozeného jazyka

Osobní Všechno nejlepší

भगव न ब'( आ ण,य.च ध1म

Osobní Všechno nejlepší

Moses. M. Fabianová, A. Štromajerová, M. Vaněk

CASE No. 27 of In the matter of. Coram. Shri. Azeez M. Khan, Member Shri. Deepak Lad, Member. Maharashtra State Electricity Distribution Co.

Depfix: Jak dělat strojový překlad lépe než Google Translate

TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Jak dělat strojový překlad lépe než Google Translate

Doplňovačka-časy, slovní zásoba

Možnosti zlepšení strojového překladu z angličtiny do češtiny

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

PSANÍ. My room is a mess. Anglický jazyk. Hana Vavřenová

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u : My family, my hobbies Present simple and continuous, Wh- questions

NLP & strojové učení

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Jak na paralelní texty s programem ParaConc

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Unstructured data pre-processing using Snowball language

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Antiplagiátorské nástroje pro naše repozitáře

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Strojové učení a pravidla pro extrakci informací z textů

Strukturovaný životopis

Juxtapozice z do v Arabštině

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Mantra párájana Recitace manter

Popis morfologických značek poziční systém

Registrační číslo projektu: Škola adresa:

RNDr. Ondřej Bojar, Ph.D.

vzdělávací oblast vyučovací předmět ročník zodpovídá JAZYK A JAZYKOVÁ KOMUNIKACE ANGLICKÝ JAZYK 4. G. GREGOVSKA

Full-textové vyhledávání. Július Štroffek Revenue Product Engineer Sun Microsystems

Sémantická interpretace

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Kybernetika a umělá inteligence, cvičení 10/11

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

Šrí Adi Šankaračárja. Bhadža Góvindam भजग व भजग व ग व भजम ढमत स स हत क ल न ह न ह रक ष त ड क ञ करण १ म ढ जह ह धन गमत क स मन स वत म

Translation Model Interpolation for Domain Adaptation in TectoMT

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Dásbódh. Samartha Rámdás. Dašaka II Pozornost hlupáka. John Norwell (2015) Gábina, Aleš, Martin. anglický překlad. český překlad

Mzdy na ÚFALu

Present simple (přítomný čas prostý)

Dásbódh. Samartha Rámdás. Dašaka II Pozornost hlupáka. John Norwell (2015) Gábina, Aleš, Martin. anglický překlad. český překlad

Transkript:

Jak se Mojžíš s Jozuem učili hindsky Ondřej Bojar, Pavel Straňák a Dan Zeman ve spolupráci s Gauravem Jainem, Michalem Hrušeckým a Michalem Richterem ÚFAL 23 listopadu 2009 O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 1 / 45

Osnova Úvod 1 Úvod 2 Data Přehled Hindština a dévanágarí Příprava dat 3 Hindské MT Mojžíšovy pokusy Jozuovy pokusy Mojžíš vs Jozue 4 Ruční hodnocení 5 Shrnutí Zahraniční studenti O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 2 / 45

Úvod Proč právě Hindi? Žádný zvláštní důvod jsme neměli Na IJCNLP 2008 v Hyderabadu jsme zjistili, že je v Indii zájem o překlad, ale zároveň jej stále dělají pravidlově Pokus, jestli opravdu dokážeme díky statistickým metodám překládat do jazyka, o kterém nevíme prakticky nic Prakticky jsme se rozhodli, když vyhlásili soutěž v překladu v rámci pravidelného NLP Tools Contest na konferenci ICON (International (really Indian ) Conference on NLP) čekali jsme, že budeme nejhorší byli jsme spíše mezi lepšími, tak jsme se rozhodli pokračovat O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 3 / 45

Osnova Data 1 Úvod 2 Data Přehled Hindština a dévanágarí Příprava dat 3 Hindské MT Mojžíšovy pokusy Jozuovy pokusy Mojžíš vs Jozue 4 Ruční hodnocení 5 Shrnutí Zahraniční studenti O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 4 / 45

Hindská data Data Přehled paralelní data paralelní korpusy EILMT (oficiální test data pro ICON 2008 NLP Tools Contest) TIDES (taky z ICONu 2008, ale možno používat i dále) Emille (ELDA) Daniel Pipes (web site) Agro corpus (Mumbai) slovníky polmenované entity z anglické Wikipedie Shabdanjali hindská data news korpus z několika hlavních hindských deníků (> 300M slov) O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 5 / 45

Paralelní korpusy Data Přehled EILMT 7k vět, turistika, licence jen na ICON 2008 v r 2008 ofic testovací data Nejlepší výsledky byly z trénování jen na EILMT (TIDES škodil) TIDES 50k+1k+1k vět, DARPA-TIDES, IIIT Hyderabad cca 1,2M tokenů (anglických trénovacích) automatický převod do dévanágarí, místy neúspěšný Emille paralelní část obsahuje 200k anglických slov a překlady do několika indických jazyků data i překlady jsou problematické, nejdou zarovnat 2 pokusy o ruční opravu: Gaurav a Om Omille: Omem vyčištěný Emille, který by již měl být paralelní, ale je taky o dost menší (< 50 %) Daniel Pipes novinářův web, který obsahuje překlady autorových článků v 25 jazycích 322 článků v hindí, 6761 párů vět en-hi O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 6 / 45

Data Přehled Slovníky a (jen) hindská data entity z anglické wikipedie Ladakh (Tibetan script: ལ ད གས ; Wylie: la-dwags, Ladakhi: [lad ɑks]; Hindi: लद ख़, Urdu:,لد اخ Hindustani pronunciation: [ləˈdaːx]; land of high passes ) is a region situated in the disputed state of Jammu and Kashmir which ukládáme dvojice: 1 slovo text za (Hindi Devanagari Marathi Sanskrit), který je v devanagari Shabdanjali anglicko-hindský slovník (licence GPL) také automaticky převedený do dévanágarí cca 26 000 hesel hindské deníky ne nezbytně indické: mj CNN, Deutsche Welle, Dainik Jagran (Yahoo) LM z těchto dat v r 2008 nepomohl, letos jsme jej nepoužili O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 7 / 45

Out of Vocabulary Data Přehled Tokens Types Tides Tides+DP all Tides Tides-test-en 369 348 2429 (8940%) Tides-test-hi 839 830 3310 (11584%) Tides-dev-en 464 421 1873 (8330%) Tides-dev-hi 619 607 2661 (10922%) Tides Tides+DP all Tides Tides-test-en 363 343 1901 (32009%) Tides-test-hi 642 633 2465 (41979%) Tides-dev-en 459 418 1608 (28735%) Tides-dev-hi 580 568 2129 (37735%) Ostatní data (bez Tides) pokryjí cca 90%/60% Tides (tokens/types) Tides types a tokens skoro stejné slova s jedním výskytem Hindi horší tvarosloví, transkripce, homonyma O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 8 / 45

Data Hindština a dévanágarí Něco o hindštině Indoevropský jazyk Tj vzdáleně příbuzný češtině (v některých slovech víc než třeba angličtina) Ale spousta slov i z perštiny a arabštiny Prý volný slovosled, ale míň než v češtině SOV jazyk: Ráma Móhana vidí Na konci často spona / pomocné sloveso být: ह (hai) = je hodně častý konec věty Postpozice (záložky) místo předložek O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 9 / 45

Data Hindština a dévanágarí Písmo dévanágarí (Polo)slabičné písmo क क क क क क क क क क क क ka ká ki kí ku kú kr ké kæ kó kau k दस दन क च य पय दरव ज़ क प स अलम र ह सर, र लव स ट शन स स इ कल क ल न O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 10 / 45

Data Hindština a dévanágarí Písmo dévanágarí Po transliteraci दस दन क च य पय das din kó čáj pijó दरव ज़ क प स अलम र ह darvázé ké pás almárí hæ सर, र लव स ट शन स स इ कल क ल न sar, rélvé stéšan sé sáikil kó léná O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 11 / 45

Data Hindština a dévanágarí Písmo dévanágarí Po transliteraci někdy příjemné překvapení das din kó čáj pijó = deset dní pijte čaj darvázé ké pás almárí hæ = u dveří je skříň sar, rélvé stéšan sé sáikil kó léná = sir, take the bicycle from the railway station O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 12 / 45

Data Hindština a dévanágarí Hindské pády Tradiční systém pádů vibhakti Skutečné pády jsou 2 (direct a oblique) Zbytek tvořen záložkami Záložky dříve přilepené ke slovu, tj pádové koncovky Příklad: genitiv Delhi is the capital of India दल भ रत क र जध न ह dillí bhárat ká rádžadhání hæ Dillí Indie genitiv hlavní-město je O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 13 / 45

Data Příprava dat Normalizace dat Různé korpusy prošly různým zpracováním Tides: Větu ukončuje tečka () Číslice jsou euro-arabské (0123456789) Emille: Větu ukončuje danda ( ) Číslice jsou z dévanágarí (०१२३४५६७८९) Co ještě lze napsat více způsoby: Znaky s nuktou (क़ख़ग़ज़ड़ढ़फ़): फ़ vs फ+ vs फ Pořadí kombinované diakritiky: प+ + vs प+ + Nahrazení čandrabindu anusvárem: प च vs प च Řídící znaky, zero-width joiners apod Ne-ASCII interpunkce, např vs - My se to snažíme v datech sjednotit Navíc re-tokenizujeme (Anglo-American) O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 14 / 45

Data Příprava dat Další hrůzy v datech Vsuvka v latince se během konverzí mylně považuje za romanizovaný zápis hindštiny: Information Commis(s)ioner => ईन ङ मर टओन छ म म सओन र (īnnȯrmatịon chommisioner), skutečná transkripce by byla spíš इन फ़ म र शन क मशन र (informeśana komiśanera) Více než 200 hindských vět v Tides začíná v dévanágarí, pak ale náhle přejdou do nečitelné latinky: पर द शक - जनस ख य ब ग ल ब ग ल द श ह प व र ब ग लह स आए अ धक श वस थ पत द क षण अ डम न, न ल, ह वल क, मध य अ डम न, उ<arI AMDmaana tqaa ilaitla AMDmaana maom basaae gae Znak danda (konec věty) zaměněn za svislítko, to zakódováno jako BAR;, a to nakonec považováno za romanizovanou hindštinu: भ ष ; Opakující se záhadná sekvence ऋ-ऊण श छ ष - (Q-UNSCR-; klidně uprostřed hindského slova) O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 15 / 45

Data Co už se normalizovat nedá Příprava dat Nejednotná transkripce anglických slov do dévanágarí स ट डडर ज (stạimḋạrdạja) स ट डडर स (stạimḋạrdạsa) स ट डड सर (stạimḋạrdṣa) O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 16 / 45

Data Příprava dat Co už se vůbec normalizovat nedá Synonyma podle původu slov English Hindi/Persian Hindi/Sanskrit language ज़ब न (zabāna) भ ष (bhās ā) book कत ब (kitāba) प स तक (pustaka) newspaper अख़ ब र (axbāra) सम च र-पतर (samācāra-patra) beautiful ख़ ब स रत (xūbsūrata) स न दर (sundara) meat ग श त (gośta) म स (mām sa) thank you श कर य (śukriyā) धन यव द (dhanyavāda) O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 17 / 45

Osnova Hindské MT 1 Úvod 2 Data Přehled Hindština a dévanágarí Příprava dat 3 Hindské MT Mojžíšovy pokusy Jozuovy pokusy Mojžíš vs Jozue 4 Ruční hodnocení 5 Shrnutí Zahraniční studenti O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 18 / 45

Přehled pokusů Hindské MT Systém Moses (Mojžíš) Faktorizovaný překlad Různé modely morfologie Vícefaktorový jazykový model Různé kombinace dat Systém Joshua (Jozue) Hierarchický frázový model Různé kombinace dat O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 19 / 45

Hindské MT Připomenutí Mojžíšovy roury Mojžíšovy pokusy 1 Paralelní korpus zarovnej po slovech 2 Extrahuj fráze konzistentní se zarovnáním po slovech 3 Natrénuj hindský jazykový model (LM) 4 Natrénuj hindský reorderovací model 5 Na vývojových datech vylaď váhy modelů (MERT) 1 Vstupní větu rozděl na fráze 2 Fráze přelož nezávisle 3 Urči výsledné pořadí frází a spoj je O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 20 / 45

Hindské MT Mojžíšovy pokusy Nevýhoda Mojžíše: Slabý frázový model Potřebujeme, aby nejpravděpodobnější bylo toto: the cupboard is almari darvaze next ke to pas the hai door Mojžíš takto rozvíjí hypotézy: ------- +almari **----- +darvaze -----** +ke pas **-**-- +darvaze **---** +hai ***---- +ke pas **-**** +hai ***--** +ke pas *****-- +hai ******* +darvaze ******* Základní model: čím větší délka přesunu, tím dražší ( monotonie) Částečně lze kompenzovat lexikalizovaným reorderingem: P(monotone/swap/discontinuous next to, ke pas) Pokusy z Bojar et al (2008) EILMT TIDES Baseline Moses, Distance Reordering 1888±205 1006±076 Baseline Moses, Reordering Using en+hi Forms 1977±203 1095±075 O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 21 / 45

Hindské MT Mojžíšovy pokusy Výhoda Mojžíše: Zachycení morfologie Slova jsou vektory faktorů Vybrané modely je tak možno založit na jemnější či hrubší reprezentaci slova Hrubší reprezentace na cílové straně: Umožňuje zapojit spolehlivější jazykový model (hustší data) Angl form Hind form tag O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 22 / 45

Zachycení tvarosloví Hindské MT Mojžíšovy pokusy Morfologie s učitelem (supervised) Hindi POS Tagger (Gupta et al, 2006) Koncovky z učebnice (Snell and Weightman, 2003) Morfologie bez učitele (unsupervised) Posledních n písmenek slova Automatické (bigramové) slovní třídy (Brown et al, 1992; Och, 1995) Hindomor (Zeman, 2008) Affisix (Hlaváčová and Hrušecký, 2008) O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 23 / 45

Hindské MT Mojžíšovy pokusy Učebnicové koncovky Primitivní řízený stemming Během 2 hodin jsme proběhli učebnici hindštiny pro samouky a ze všech gramatických tabulek vypsali koncovky skloňování a časování Výsledkem je seznam asi 30 koncovek, včetně duplikátů Pokud byla u slova nalezena známá koncovka, je to jeho značka Velmi častá slova ponechána vcelku, jsou sama sobě značkou O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 24 / 45

Hindské MT Mojžíšovy pokusy Příklady různých morfologií Ukázková věta: unhem vahām kalakattā śahara dikhāyā gayā Doslova: jim tam Kalkata město ukázáno bylo Vstup: They were shown Calcutta City Forma Tag Učeb 2 písm WC10 hindomor bbf bdf ddf उन ह PRP उन ह 2 वह PRP वह 2 कलकत NNP आ त 3 त त शहर NN शहर हर 3 र र दख य VM आ य 7 गय VAUX गय य 11 SYM 6 Tagy velmi chudé pro hidské tvarosloví Automatické třídy v souladu s tagem Různé konfigurace Affisixu (bbf, bdf, ddf) různě jemné O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 25 / 45

Hindské MT Mojžíšovy pokusy Výsledky pokusů Morfologie BLEU Morfologie BLEU tag 1203±075 hitbsuf 1158±074 wc50 1197±073 hindomor2 1155±074 wc10 1176±074 hindomor1 1154±071 lcsuf3 1166±075 affddf 1150±07 lcsuf1 1163±072 affbdf 1133±072 hindomor3 1160±073 lcsuf2 1114±074 Baseline bez morfologie: 1146±072 Rozdíly mezi všemi konfiguracemi zanedbatelné O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 26 / 45

Hindské MT Mojžíšovy pokusy Vícefaktorové jazykové modely (Michal Richter) Factored LMs (Bilmes and Kirchhoff, 2003) zobecňují vyhlazování: n-gramové LM neviděné n-gramy skórují pomocí (n 1)-gramů Faktorové LM pracují s faktorovými slovy kontext lze omezovat kratší historií i hrubší reprezentací slova (lemma, slovní druh) Uživatel definuje graf zapomínání, za běhu je pak pravděpodobnost dána nejpravděpodobnější cestou v grafu form0 form1, form2, tag1, tag2 form0 form1, form2, tag1, tag2 form0 form1, form2, tag1, tag2 form0 form1, tag1, tag2 form0 form1, tag1, tag2 form0 form1, tag1, tag2 form0 form1, tag1 form0 tag1, tag2 form0 tag1, tag2 form0 form1, tag1 form0 form1 tag0 tag1 form0 tag1 form0 tag1 form0 tag1 form0 tag0 form0 form0 form0 2 bigramový LM linf lint fftt O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 27 / 45

Výsledky faktorových LM Hindské MT Mojžíšovy pokusy Tvar + Morfologie BLEU fftt + lcsuf3 12,05±0,76 linf + wc10 12,03±0,73 fftt3 + wc50 11,87±0,77 fftt + wc10 11,83±0,73 fftt + hitbsuf 11,80±0,75 fftt3 + lcsuf1 11,67±0,75 2 3gr LM (forma, tag) 12,03±0,73 Žádná korelace mezi perplexitou FLM a BLEU FLM většinou ublížily BLEU Ani výrazné zlepšení perplexity (1970 vs 2126 baseline) O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 28 / 45

Hindské MT Jozuovy pokusy Hierarchické frázové modely Hiero (David Chiang, 2005) Joshua (open-source reimplementace z JHU) Fráze mohou obsahovat neterminály => synchronní bezkontextové gramatiky Pravidlo má levou stranu a dvě pravé strany, anglickou a hindskou Umožňuje zobecnit nesouvislé fráze, změny slovosledu nebo dokonce rekurzi Typický neterminál: X i (není to lingvistická gramatika) Příklad: X X 1 of X 2, X 2 क X 1 O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 29 / 45

Mojžíšova roura Hindské MT Jozuovy pokusy 1 Paralelní korpus zarovnej po slovech 2 Extrahuj fráze konzistentní se zarovnáním po slovech Ke každé dvojici frází známe tři veličiny: Pravděpodobnost překladu zdrojové pravé strany na cílovou Lexikální pravděpodobnost překladu zdroje cílem po jednotlivých slovech Lexikální pravděpodobnost překladu cíle zdrojem po jednotlivých slovech 3 Natrénuj hindský jazykový model (LM) Ke každé hindské větě známe její pravděpodobnost podle LM 4 Natrénuj hindský reorderovací model 5 Na vývojových datech vylaď váhy uvedených veličin (MERT) 1 Vstupní větu rozděl na fráze 2 Fráze přelož nezávisle 3 Urči výsledné pořadí frází a spoj je O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 30 / 45

Jozuova roura Hindské MT Jozuovy pokusy 1 Paralelní korpus zarovnej po slovech 2 Extrahuj pravidla gramatiky konzistentní se zarovnáním po slovech Ke každému pravidlu známe tři veličiny: Pravděpodobnost překladu zdrojové pravé strany na cílovou Lexikální pravděpodobnost překladu zdroje cílem po jednotlivých slovech Lexikální pravděpodobnost překladu cíle zdrojem po jednotlivých slovech 3 Natrénuj hindský jazykový model (LM) Ke každé hindské větě známe její pravděpodobnost podle LM 4 Na vývojových datech vylaď váhy uvedených veličin (MERT) 1 Vstupní větu rozeber synchronním chart parserem 2 Fráze přelož nezávisle 3 Propoj je podle derivačního stromu O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 31 / 45

Mojžíš vs Jozue Hindské MT Mojžíš vs Jozue Trénovací data Joshua Moses Tides 1227±083 1146±072 Tides+DP 1258±077 1193±075 Tides+DP+Emille 1132±074 1006±072 Tides+DP+Dict 1243±079 1190±078 System BLEU Mumbai (Damani et al, 2008) 853 Kharagpur (Goswami et al, 2008) 976 Prague (Bojar et al, 2008) 1017 Dublin (Srivastava et al, 2008) 1049 present Joshua 1110 O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 32 / 45

Hindské MT Mojžíš vs Jozue Záhadný Emille Navzdory faktorům a modelům reorderingu v Mosesovi, Joshua zatím má náskok Jak u Joshuy, tak u Mosese se však projevil těžko vysvětlitelný negativní vliv přídavných dat, zejména Emilla Rozšíření Tides (50000 vět) o Daniela Pipese (7000 vět) pomohlo Naproti tomu přidání vyčištěného Emilla (3500 vět) zřetelně uškodilo Na datech žádný viditelný problém (méně šumu než Tides) Frázové tabulky vypadají OK Ale: jasné přetrénování na vývojových datech (po prohození vývojových a testovacích dat problém zmizel) Ukázalo se, že Emille je obsažen v trénovací (2000 vět) a vývojové části (100 vět z 1000) Tidesu!!! O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 33 / 45

Osnova Ruční hodnocení 1 Úvod 2 Data Přehled Hindština a dévanágarí Příprava dat 3 Hindské MT Mojžíšovy pokusy Jozuovy pokusy Mojžíš vs Jozue 4 Ruční hodnocení 5 Shrnutí Zahraniční studenti O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 34 / 45

Způsob anotace Ruční hodnocení Tři nezávislé sondy (100 vět, 100 vět, 43 vět, vždy jiné) Zobrazena zdrojová věta a hypotézy Referenční překlad zamíchán mezi hypotézy SRC the private sector units are thirty to forty years old त स ह नज आध र पर क ष तर य नट स क क 40 वषर क आय स ऊपर ह * नज क ष तर क स थ न पर ह, 30 स 40 वषर स अ धक आय क थ ** नज क ष तर क इक इय 30 स 40 वषर तक प र न ह ** नज क ष तर क इक इय म 30 स 40 स ल प र न ह Značky: nic pro nesrozumitelné, * pro náznaky překladu, ** pro akceptovatelné a zachovávající většinu významu, byť s chybami Kontrast s Ramanathan et al (2009), kde zlepšili v průměru z little meaning conveyed, disfluent Hindi, most phrases correct, ungrammatical overall na much of meaning conveyed, non-native Hindi, few minor grammatical errors O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 35 / 45

Ruční hodnocení Sonda 1: Mojžíš mimo doménu, s morfologií či více daty? OOD mimo doménu: trénováno na všem mimo Tides TIDP Tides + Daniel Pipes, bez morfologie WC10 Tides + trigramový LM na automatických slovních třídách (10 tříd) Systém 0 * ** BLEU REF 6 11 83 OOD 80 17 3 185±024 TIDP 26 44 30 1193±075 WC10 38 46 16 1176±074 Šest (procent) referenčních překladů nepřijatelných! Doména velmi podstatná, OOD propadlo nejen v BLEU, ale i ručně Lepší data navíc než automatická morfologie (TIDP>WC10) BLEU ovšem TIDP vs WC10 neodliší O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 36 / 45

Ruční hodnocení Sonda 2: Mojžíš vs Jozue Systém 0 * ** BLEU REF 6 10 84 Joshua 32 37 31 1258±077 Moses 35 35 30 1193±075 Moses-DPipes+POStags 32 42 26 1203±075 Identická trénovací data (Tides + Daniel Pipes, bez morfologie) Jozue (nesignif) lepší podle BLEU i lidského hodnocení I druhý test Mosese ukazuje, že víc dat spíše lepší než morfologie Tentokrát užit POS tagger, nikoli automatické slovní třídy Ne zcela jednoznačný výsledek: klesne počet **, ale i 0 Záleží na cílové aplikaci: přesnost vs pokrytí O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 37 / 45

Ruční hodnocení Sonda 3: Jak je to s Emillem a Mojžíšem? Systém 0 * ** BLEU REF 0 8 45 TI DP 20 14 19 1189±076 TI DP EM 22 19 12 961±075 TI DP EM oth 17 25 11 1097±079 TI DP EM oth DICTFilt 23 17 13 1096±075 TI DP EM oth DICTFull 22 16 15 1089±069 BLEU tentokrát téměř souhlasí s lidmi Přidání Emilla citelně sníží kvalitu Další data tu ztrátu postupně kompenzují O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 38 / 45

Osnova Shrnutí 1 Úvod 2 Data Přehled Hindština a dévanágarí Příprava dat 3 Hindské MT Mojžíšovy pokusy Jozuovy pokusy Mojžíš vs Jozue 4 Ruční hodnocení 5 Shrnutí Zahraniční studenti O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 39 / 45

Shrnutí Shrnutí Dosáhli jsme nejlepšího publikovaného BLEU skóre na testovacích datech TIDES Srovnej ICON 2008 NLP Tools Contest Obecně je srovnání en-hi překladu problematické, každý testuje na jiných datech Hierarchické modely dávají lepší BLEU než Mojžíšovy faktory a reordering Při ručním vyhodnocení je ale jejich náskok méně přesvědčivý Poučení o datech Získat data může být snadnější než je vyčistit Dva různé korpusy z různých zdrojů nemusí být nutně různé! Co dál? Opravdu nemůže morfologie pomoct víc? Přeskládání slovosledu angličtiny Z vybraných značek (např subject) udělat tokeny O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 40 / 45

Shrnutí Zahraniční studenti Zkušenosti se zahraničním studentem student magisterského studia na IIT v Bombaji pilný, poslušný neiniciativní, nevzal (žádný) úkol za svůj naše chyba: nečekali jsme to a příliš dlouho dávali komplexní (ne nutně těžké) úkoly nedokončil ruční hodnocení ani dodatečně naše chyba: data dostal krátce před odjezdem, stihl jen část ovšem ani doma v klidu dlouho po návratu hodnocení nedokončil skrývání problémů nebo spíše nečekaně jiná rozlišovací úroveň např jsme se ptali na konkrétní větu, je-li přeložena dobře Napřed byla, ale když jsme pojali podezření a zeptali se na konkrétní jevy (koncovka, slovosled), přiznal chyby O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 41 / 45

Shrnutí Zahraniční studenti Pro příště mít připravený seznam přesných malých úkolů laťku pro samostatnost v práci postupně zvyšovat, volné řízení se neosvědčilo O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 42 / 45

Dodatky Děkujeme za podporu z těchto grantů: MSM0021620838 (Výzkumný záměr informační sekce MFF UK 2005 2010), FP7-ICT-2007-3-231720 (EuroMatrix Plus) O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 43 / 45

Literatura I Dodatky Jeff A Bilmes and Katrin Kirchhoff 2003 Factored language models and generalized parallel backoff In NAACL 03: Proc of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, pages 4 6, Morristown, NJ, USA Association for Computational Linguistics Ondřej Bojar, Pavel Straňák, and Daniel Zeman 2008 English-Hindi Translation in 21 Days In Proc of ICON-2008 NLP Tools Contest Ondřej Bojar, Pavel Straňák, Daniel Zeman, Gaurav Jain, Michal Hrušecký, Michal Richter, and Jan Hajič 2009 English-Hindi Translation Obtaining Mediocre Results with Bad Data and Fancy Models In Proceedings of the 7th International Conference On Natural Language Processing (ICON-2009), Hyderabad, India, December NLP Association of India Peter F Brown, Vincent J Della Pietra, Peter V desouza, Jennifer C Lai, and Robert L Mercer 1992 Class-based n-gram models of natural language Computational Linguistics, 18(4):467 479 Om P Damani, Vasudevan N, and Amit Sangodkar 2008 Statistical machine translation with rule based re-ordering of source sentences In Proc of ICON-2008 NLP Tools Contest Sumit Goswami, Nirav Shah, Devshri Roy, and Sudeshna Sarkar 2008 NLP Tools Contest: Statistical Machine Translation (English to Hindi) In Proc of ICON-2008 NLP Tools Contest Kuhoo Gupta, Manish Shrivastava, Smriti Singh, and Pushpak Bhattacharyya 2006 Morphological richness offsets resource poverty- an experience in building a pos tagger for hindi In Proc of COLING/ACL-2006 O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 44 / 45

Literatura II Dodatky Jaroslava Hlaváčová and Michal Hrušecký 2008 Affisix: Tool for Prefix Recognition In Proc of Text, Speech and Dialogue, LNAI 5246, pages 85 92 Springer Franz Josef Och 1995 Maximum-Likelihood-Schiätzung von Wortkategorien mit Verfahren der kombinatorischen Optimierung Studienarbeit, Universität Erlangen-Nürnberg, Germany Ananthakrishnan Ramanathan, Hansraj Choudhary, Avishek Ghosh, and Pushpak Bhattacharyya 2009 Case markers and morphology: Addressing the crux of the fluency problem in english-hindi smt In Proc of ACL/IJCNLP Rupert Snell and Simon Weightman 2003 Teach Yourself Hindi Hodder Education, London, UK Ankit Kumar Srivastava, Rejwanul Haque, Sudip Kumar Naskar, and Andy Way 2008 MaTrEx: The DCU Machine Translation System for ICON 2008 In Proc of ICON-2008 NLP Tools Contest Daniel Zeman 2008 Unsupervised acquiring of morphological paradigms from tokenized text In Advances in Multilingual and Multimodal Information Retrieval, 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007 LNCS 5152, pages 892 899 Springer O Bojar, P Straňák, D Zeman (ÚFAL) Jak se Mojžíš s Jozuem učili hindsky 23 listopadu 2009 45 / 45