Wikipedie ve strojovém překladu. Využití Wikipedie pro strojový překlad pojmenovaných entit



Podobné dokumenty
Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

Tvorba webových stránek

Na následující stránce je poskytnuta informace o tom, komu je tento produkt určen. Pro vyplnění nového hlášení se klikněte na tlačítko Zadat nové

Hotelová škola, Obchodní akademie a Střední průmyslová škola Teplice,Benešovo náměstí 1, příspěvková organizace

téma: Formuláře v MS Access

Vyplňte API klíč, který si vygenerujete v Nastavení obchodu v profilu Uloženky v části Nastavit klíč pro API.

Metodické pokyny k pracovnímu listu č Minulý a předpřítomný čas

Převodník tlaku P 40 Návod k použití

Magnetic Levitation Control

Software IS Řízení stavebních zakázek

ČESKÁ TECHNICKÁ NORMA

POSTUP VALIDACE DAT V ZÁKLADNÍCH REGISTRECH

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT. Cyklus while, do-while, dělitelnost, Euklidův algoritmus

Dodatečné informace č. 2

KLIKNUTÍM NA JEDNOTLIVÉ POJMY PŘEJDETE K JEJICH ODKAZU

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Mgr. Pavel Starý

HODNOCENÍ OPOTŘEBENÍ SYSTÉMŮ S TENKÝMI VRSTVAMI POMOCÍ VRYPOVÉ ZKOUŠKY S OCELOVOU KULIČKOU.

Digitální učební materiály Australská města, pracovní list

Využití ICT techniky především v uměleckém vzdělávání. Akademie - VOŠ, Gymn. a SOŠUP Světlá nad Sázavou


Specialista pro vytvá řenívztahů Specialist for Creating Relations

Úprava fotografií hledání detailu, zvětšování (pracovní list)

Výsledky přijímacích zkoušek

ČESKÁ TECHNICKÁ NORMA

Adresa příslušného úřadu

Dynamický model predikovaného vývoje krajiny. Vilém Pechanec

Gymnázium, Praha 6, Arabská 14. předmět: Programování. vyučující: Tomáš Obdržálek. Piškvorky. ročníkový projekt. Le Hoang Nguyen, 1.E.

Seznámení žáků s pojmem makra, možnosti využití, praktické vytvoření makra.

Pokladní systém pro Tablety a zařízení s OS Android. Analytická dokumentace

DOTWALKER NAVIGACE PRO NEVIDOMÉ A SLABOZRAKÉ

OBEC HORNÍ BOJANOVICE obecně závazná vyhláška č. 05/2005

TIP: Pro vložení konce stránky můžete použít klávesovou zkratku CTRL + Enter.

ŽÁDOST O DODATEČNÉ POVOLENÍ STAVBY

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Reálná čísla

Integrovaný Ekonomický Systém Zakázkový list - IES WIN 2006

Materiál tvoří pracovní list, pomocí něhož si žák opakuje slovní zásobu a rozvíjí. Klíčová slova: job, occupation, work

Příloha č. 54. Specifikace hromadné aktualizace SMS-KLAS

Zákon o elektronickém podpisu

1 ŘÍZENÍ S POSILOVAČEM

V této části manuálu bude popsán postup jak vytvářet a modifikovat stránky v publikačním systému Moris a jak plně využít všech možností systému.

Řešení: 20. ročník, 2. série

Střední škola pedagogická, hotelnictví a služeb, Litoměříce, příspěvková organizace

Návod k obsluze Sušák na ruce

CZ.1.07/1.5.00/ Digitální učební materiály Monitorování životního prostředí

ČESKÁ TECHNICKÁ NORMA

MONTÁŽNÍ NÁVOD LIC VÍKO ŠACHTY SE ZAJIŠTĚNÍM

Těhotenský test pro zrakově postižené Tereza Hyková

ČESKÁ TECHNICKÁ NORMA

Algoritmizace a programování

Sestavení mechanické části pohonu točny

Zadávací dokumentace k veřejné zakázce

Databázové a informační systémy

Výukový materiál zpracován v rámci projektu EU peníze školám

STATICKÁ ÚNOSNOST 3D MODELU SVĚRNÉHO SPOJE

Sada 1 Geodezie I. 06. Přímé měření délek pásmem

Algoritmizace a programování

DOCEAR: POPIS A POROVNÁNÍ SE SYSTÉMY ZOTERO A MENDELEY Jan Hendl

ZADÁVÁNÍ BAKALÁŘSKÝCH A DIPLOMOVÝCH PRACÍ DO IS/STAG.

Server. Software serveru. Služby serveru

Legislativa ČR v oblasti nakládání s bioodpady. Ráztoka

Žáci mají k dispozici pracovní list. Formou kolektivní diskuze a výkladu si osvojí grafickou minimalizaci zápisu logické funkce

Zvyšování kvality výuky technických oborů

Studentská tvůrčí a odborná činnost STOČ 2015

M. Balíková, R. Záhořík, NK ČR 1

4.5.1 Magnety, magnetické pole

SEZNAM DOKUMENTACE K ZADÁVACÍMU ŘÍZENÍ PRV,

Modul Řízení objednávek.

METODICKÉ LISTY. výstup projektu Vzdělávací středisko pro další vzdělávání pedagogických pracovníků v Sokolově

Vlastimil ŠEVČÍK 1 NAVRHOVÁNÍ KLAPKOVÝCH UZÁVĚRŮ

Témata pro doktorandské studium

Prověření layoutu za pomoci dynamické simulace Siemens Elektromotory s.r.o.

Příloha: Dodatečné informace, včetně přesného znění žádosti dodavatele o dodatečné informace

ČESKÁ TECHNICKÁ NORMA

DUM 16 téma: Kreslení šroubu se 6HR hlavou

Pokyny České pošty pro označování Doporučených zásilek čárovými kódy

Návod k obsluze. Zubová čerpadla řady T3S

Rukojeti kleští Zebra se vyznačují: K H M Na čelisti kleští je použita speciální nástrojová ocel.

Přílohy: Dotazník ředitele školy Grafické zpracování výsledků dotazníku ředitele školy

1 Seznámení s Word 2010, karty, nejčastější činnosti. 2 Tvorba dokumentu

Grafický manuál jednotného vizuálního stylu

Obsah 1. Grafický manuál firmy 2. Podklady grafického manuálu 3. Varianty loga 4. Logo a logotyp

Poukázky v obálkách. MOJESODEXO.CZ - Poukázky v obálkách Uživatelská příručka MOJESODEXO.CZ. Uživatelská příručka. Strana 1 / 1. Verze aplikace: 1.4.

MOBILNÍ KOMUNIKACE STRUKTURA GSM SÍTĚ

Zvyšování kvality výuky technických oborů

INTERNETOVÝ TRH S POHLEDÁVKAMI. Uživatelská příručka

Identifikace práce. POZOR, nutné vyplnit čitelně! Žák jméno příjmení věk. Bydliště ulice, č.p. město PSČ. C II: (25 b)

Prostory jmen. #include<iostream.h> namespace RadimuvProstor { int secti(int a, int b); class Trida { private: int Atribut; public: void metoda();

ČESKÁ TECHNICKÁ NORMA

DODATEČNÉ INFORMACE XXIII.

Stručný návod na práci v modulu podatelna a výpravna

STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

Zálohování a obnova Uživatelská příručka

OBEC MIKULČICE. O Z N Á M E N Í o vydání opatření obecné povahy č. 2/2008 V E Ř E J N O U V Y H L Á Š K O U. svým usnesením č. 5 ze dne 6.5.

Obsah ÚVOD. Participanti. Nastavení testu. - úvod - participanti - nastavení testu - přehled úkolů testu - soupis problémů a návrh řešení - závěr

PODLE STEJNOJMENNÉHO ROMÁNU FRANZE KAFKY ADAPTOVAL DAVID ZANE MAIROWITZ NAKRESLIL JAROMÍR 99 ČESKY VYDAL LABYRINT

% STĚNY OKNA INFILTRA STŘECHA PODLAHA 35 CE % 20 25% 15 20% 10 10% 10% 5

ČESKÁ TECHNICKÁ NORMA

Informace. Veškeré informace o probíhající výzvě (včetně materiálů ke stažení) jsou dostupné na webové stránce:

Podrobný postup pro doplnění Žádosti o dotaci prostřednictvím Portálu Farmáře. 1. kolo příjmu žádostí Programu rozvoje venkova ( )

ČESKÁ TECHNICKÁ NORMA

Transkript:

Wikipedie ve strojovém překladu Využití Wikipedie pro strojový překlad pojmenovaných entit Ondřej Hálek, Rudolf Rosa, Aleš Tamchyna, Ondřej Bojar Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Ústav formální a aplikované lingvistiky

Obsah Frázový statistický strojový překlad Překlad pojmenovaných entit s využitím Wikipedie Rozpoznání pojmenovaných entit Překlad pojmenovaných entit Zapojení pojmenovaných entit do kontextu věty Výsledky Možná rozšíření 2/23

Strojový překlad Anglický text Český text Překladač 3/23

Statistický strojový překlad Anglický text Český text Překladač Paralelní AJ ČJ korpus 4/23

Paralelní AJ ČJ korpus (CzEng) <s id='en-p29s2'> <w id='en-p29s2w1'> Everything</w> <w id='en-p29s2w2'> was</w> <w id='en-p29s2w3'> so</w> <w id='en-p29s2w4'> beautiful</w> <w id='en-p29s2w5'>!</w> </s> <s id='cs-p29s2'> <w id='cs-p29s2w1'> Všechno</w> <w id='cs-p29s2w2'> bylo</w> <w id='cs-p29s2w3'> tak</w> <w id='cs-p29s2w4'> krásné</w> <w id='cs-p29s2w5'>!</w> </s> 5/23

Zarovnání (alignment) slov 1:[0,N] Korpus (AJ) Korpus (ČJ) Yesterday I was in the cinema. Včera jsem byl v kině. He is going to sleep. On bude spát. Vstup (AJ) Výstup (ČJ???) He was going to the cinema. On jsem byl bude kině. 6/23

Frázový statistický strojový překlad Vstup (AJ) Výstup (ČJ) Yesterday Včera I was jsem byl in the cinema v kině.. 7/23

Problém zapojení do kontextu AJ fráze ČJ fráze The dog Ten pes Pes... is old je starý je stará je staré..... Paralelní data řídká fráze krátké Problém na hranici frází (napojení frází) 8/23

Jazykový model Paralelní data řídká Řádově větší množství jednojazyčných dat N-gramový jazykový model na českých slovech Např. pro N=3 (trigramy): Ten pes je starý. [Ten pes je], [pes je starý], [je starý.] Ten pes je stará. [Ten pes je], [pes je stará], [je stará.] v praxi lineární kombinace, např. λ 3 w 3 + λ 2 w 2 + λ 1 w 1 + λ 0 9/23

Překlad pojmenovaných entit Rice University is at 6100 Main Street. Univerzita rýže je v 6100 hlavní ulici. Steven Bird passed on the editorship... Steven pták přenesl na editorship... Exit at Government Plaza Station on 5th Street. Konec vlády plaza na nádraží v páté třídě. fork() creates a new process. vidlička() vytváří nový proces. 10/23

Google překladač 11/23

Překlad pojmenovaných entit Rozpoznání pojmenovaných entit Překlad pojmenovaných entit Zapojení pojmenovaných entit do kontextu věty 12/23

Využití Wikipedie Rozpoznání pojmenovaných entit podle kategorií anglického článku na Wikipedii Překlad pojmenovaných entit podle názvu odpovídajícího českého článku Zapojení pojmenovaných entit do kontextu věty vyhledání vyskloňovaných tvarů pojmenované entity v textu českého článku + jazykový model (obohacený o české články?) 13/23

Rozpoznání pojmenovaných entit Vybrat fráze, které mohou být pojmenovanou entitou Rice University is at 6100 Main Street. Zjistit kategorie článku na Wikipedii Prohledat (do šířky) nadřazené kategorie Ručně vytvořený seznam kategorií obsahujících pojmenované entity Alternativa: Stanford Named Entity Recognizer 14/23

Zjištění (všech) kategorií 15/23

Zjištění kategorií WikiMedia API http://en.wikipedia.org/w/api.php?action=query &prop=categories&redirects&clshow=!hidden &format=xml&titles=rice_university <?xml version="1.0"?> <api><query><pages> <page pageid="25813" ns="0" title="rice University"> <categories> <cl ns="14" title="category:association of American Universities" /> <cl ns="14" title="category:educational institutions established in 1891" /> 16/23

Prohledání nadřazených kategorií Educational institutions established in 1891 Educational institutions established in the 1890s Educational institutions established in the 19th century Educational institutions by year of establishment Organizations by year of establishment Organizations 17/23

Kategorie pojmenovaných entit Places ( Místa není na české Wikipedii) People (Lidé) Organizations (Organizace) Companies (Firmy) Software (Software) Transport infrastructure (Dopravní stavby) 18/23

Překlad pojmenovaných entit Existuje k článku na anglické Wikipedii odpovídající článek na české Wikipedii? Ano: Ne: Použít název českého článku jako překlad anglické pojmenované entity buď ponechat nepřeložené nebo nechat standardně přeložit překladačem 19/23

Překlad entity Spain 1 2 3 20/23

Zapojení do kontextu Vyhledání dalších tvarů názvu článku odříznutí posledních tří písmen každého slova Španělsko Španěl* vyhledání slov se shodným prefixem v textu článku Španělska, Španělsku, Španělského... Všechny nalezené tvary označeny jako možné překlady (název má vyšší skóre ) Jazykový model vybere nejlepší tvar 21/23

Příklad They moved to London last year. Kategorie: Capital Cities Places Český název: London Londýn (Lond*) Text českého článku: Londýn, Londýna They moved to <name translation="londýn Londýna" probs="0.6 0.4">London</name> last year. 22/23

Výsledky BLEU: automatická evaluace, 1000 vět lidé: 78 vět, 4 anotátoři Experiment BLEU lidé překlad bez využití Wikipedie 26,62 160 není český článek 25,91 183 nechat přeložit standardně není český článek ponechat nepřeložené 25,13 201 23/23