Wikipedie ve strojovém překladu Využití Wikipedie pro strojový překlad pojmenovaných entit Ondřej Hálek, Rudolf Rosa, Aleš Tamchyna, Ondřej Bojar Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Ústav formální a aplikované lingvistiky
Obsah Frázový statistický strojový překlad Překlad pojmenovaných entit s využitím Wikipedie Rozpoznání pojmenovaných entit Překlad pojmenovaných entit Zapojení pojmenovaných entit do kontextu věty Výsledky Možná rozšíření 2/23
Strojový překlad Anglický text Český text Překladač 3/23
Statistický strojový překlad Anglický text Český text Překladač Paralelní AJ ČJ korpus 4/23
Paralelní AJ ČJ korpus (CzEng) <s id='en-p29s2'> <w id='en-p29s2w1'> Everything</w> <w id='en-p29s2w2'> was</w> <w id='en-p29s2w3'> so</w> <w id='en-p29s2w4'> beautiful</w> <w id='en-p29s2w5'>!</w> </s> <s id='cs-p29s2'> <w id='cs-p29s2w1'> Všechno</w> <w id='cs-p29s2w2'> bylo</w> <w id='cs-p29s2w3'> tak</w> <w id='cs-p29s2w4'> krásné</w> <w id='cs-p29s2w5'>!</w> </s> 5/23
Zarovnání (alignment) slov 1:[0,N] Korpus (AJ) Korpus (ČJ) Yesterday I was in the cinema. Včera jsem byl v kině. He is going to sleep. On bude spát. Vstup (AJ) Výstup (ČJ???) He was going to the cinema. On jsem byl bude kině. 6/23
Frázový statistický strojový překlad Vstup (AJ) Výstup (ČJ) Yesterday Včera I was jsem byl in the cinema v kině.. 7/23
Problém zapojení do kontextu AJ fráze ČJ fráze The dog Ten pes Pes... is old je starý je stará je staré..... Paralelní data řídká fráze krátké Problém na hranici frází (napojení frází) 8/23
Jazykový model Paralelní data řídká Řádově větší množství jednojazyčných dat N-gramový jazykový model na českých slovech Např. pro N=3 (trigramy): Ten pes je starý. [Ten pes je], [pes je starý], [je starý.] Ten pes je stará. [Ten pes je], [pes je stará], [je stará.] v praxi lineární kombinace, např. λ 3 w 3 + λ 2 w 2 + λ 1 w 1 + λ 0 9/23
Překlad pojmenovaných entit Rice University is at 6100 Main Street. Univerzita rýže je v 6100 hlavní ulici. Steven Bird passed on the editorship... Steven pták přenesl na editorship... Exit at Government Plaza Station on 5th Street. Konec vlády plaza na nádraží v páté třídě. fork() creates a new process. vidlička() vytváří nový proces. 10/23
Google překladač 11/23
Překlad pojmenovaných entit Rozpoznání pojmenovaných entit Překlad pojmenovaných entit Zapojení pojmenovaných entit do kontextu věty 12/23
Využití Wikipedie Rozpoznání pojmenovaných entit podle kategorií anglického článku na Wikipedii Překlad pojmenovaných entit podle názvu odpovídajícího českého článku Zapojení pojmenovaných entit do kontextu věty vyhledání vyskloňovaných tvarů pojmenované entity v textu českého článku + jazykový model (obohacený o české články?) 13/23
Rozpoznání pojmenovaných entit Vybrat fráze, které mohou být pojmenovanou entitou Rice University is at 6100 Main Street. Zjistit kategorie článku na Wikipedii Prohledat (do šířky) nadřazené kategorie Ručně vytvořený seznam kategorií obsahujících pojmenované entity Alternativa: Stanford Named Entity Recognizer 14/23
Zjištění (všech) kategorií 15/23
Zjištění kategorií WikiMedia API http://en.wikipedia.org/w/api.php?action=query &prop=categories&redirects&clshow=!hidden &format=xml&titles=rice_university <?xml version="1.0"?> <api><query><pages> <page pageid="25813" ns="0" title="rice University"> <categories> <cl ns="14" title="category:association of American Universities" /> <cl ns="14" title="category:educational institutions established in 1891" /> 16/23
Prohledání nadřazených kategorií Educational institutions established in 1891 Educational institutions established in the 1890s Educational institutions established in the 19th century Educational institutions by year of establishment Organizations by year of establishment Organizations 17/23
Kategorie pojmenovaných entit Places ( Místa není na české Wikipedii) People (Lidé) Organizations (Organizace) Companies (Firmy) Software (Software) Transport infrastructure (Dopravní stavby) 18/23
Překlad pojmenovaných entit Existuje k článku na anglické Wikipedii odpovídající článek na české Wikipedii? Ano: Ne: Použít název českého článku jako překlad anglické pojmenované entity buď ponechat nepřeložené nebo nechat standardně přeložit překladačem 19/23
Překlad entity Spain 1 2 3 20/23
Zapojení do kontextu Vyhledání dalších tvarů názvu článku odříznutí posledních tří písmen každého slova Španělsko Španěl* vyhledání slov se shodným prefixem v textu článku Španělska, Španělsku, Španělského... Všechny nalezené tvary označeny jako možné překlady (název má vyšší skóre ) Jazykový model vybere nejlepší tvar 21/23
Příklad They moved to London last year. Kategorie: Capital Cities Places Český název: London Londýn (Lond*) Text českého článku: Londýn, Londýna They moved to <name translation="londýn Londýna" probs="0.6 0.4">London</name> last year. 22/23
Výsledky BLEU: automatická evaluace, 1000 vět lidé: 78 vět, 4 anotátoři Experiment BLEU lidé překlad bez využití Wikipedie 26,62 160 není český článek 25,91 183 nechat přeložit standardně není český článek ponechat nepřeložené 25,13 201 23/23