Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie



Podobné dokumenty
Wikipedie ve strojovém překladu. Využití Wikipedie pro strojový překlad pojmenovaných entit

Digitální učební materiály Australská města, pracovní list

Depfix: Jak dělat strojový překlad lépe než Google Translate

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)


Lokalizace QGIS, GRASS


Digitální učební materiály Česká republika základní informace

Luk aˇ s R uˇ ziˇ cka Podm ınkov e vˇ ety

Tento pracovní list slouží k opakování znalostí o USA, Velké Británii a dalších státech, dále pak k opakování probrané slovní zásoby.

VY_32_INOVACE_08_NÁRODNÍ DIVADLO_34 Autor: Mgr. Světlana Dlabajová Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace Název

Systém celoživotního vzdělávání v rezortu Vězeňské služby České republiky

Biotechnology in the Czech Republic where we are?

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Jméno autora: Mgr. Zdeněk Chalupský Datum vytvoření: Číslo DUM: VY_32_INOVACE_18_ZT_TK_2

Digitální učební materiál

ve strojovém překladu

Digitální učební materiály

PRIMÁRNÍ MODÁLNÍ SLOVESA CAN

Maturitní otázka webové stránky (technologie tvorby webu) Co znamená pojem Web? Web, www stránky, celým názvem World Wide Web,

Digitální učební materiály

Atmosféra Země. VY_32_INOVACE_20_Atmosféra_43. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Kontakt: SVV ČR, P.O.Box 64, Praha 2; mob.: ; ; fax: ;

Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

Private VLANs - podpora u různých výrobců

Jak na paralelní texty s programem ParaConc

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

VY_32_INOVACE_5 Anglický jazyk Vypracovala: Mgr. Marcela Minaříková Test 5-3 Opakování Theme 2 Birthday Vznik: listopad 2013 Číslo projektu:

pt;font-style:normal;color:grey;font-family:verdana,geneva,kalimati,sans-serif;text-decoration:none;text-align:center;font-variant

U DOKTORA. U DOKTORKY

STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Obyvatelstvo. Struktura obyvatelstva. Struktura obyvatelstva podle biologických a ekonomických znaků

Výukový materiál zpracovaný v rámci projektu

Dobývání znalostí z databází

Minulý čas prostý. Past simple. Výhradní výukový materiál portálu onlinejazyky.cz

Past simple. = minulý prostý čas Použití: mluvíme o činnostech a aktivitách v. Časové výrazy: last week, yesterday, last year, on Monday

Alkany a cykloalkany

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace

Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu

Integrovaná střední škola, Sokolnice 496

Digitální učební materiály

Šablona: III/2 Sada: VY_22_INOVACE_57

Poznejte všechny důležité nástroje a možnosti, které Google nabízí

HODNOCENÍ OPOTŘEBENÍ SYSTÉMŮ S TENKÝMI VRSTVAMI POMOCÍ VRYPOVÉ ZKOUŠKY S OCELOVOU KULIČKOU.

VIKBA32 Informační vzdělávání. Nástroje ve službách informačního vzdělávání

Základní škola Marjánka

Anglický jazyk Ročník: 5. Téma učivo: Countries, flags, languages, nationalities Výukový cíl: Předmět:

Prázdniny-významné dny pro většinu dětí

VY_32_INOVACE_19_ORTOKLAS_27

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Projekt MŠMT ČR: EU peníze školám

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

Informační Systém Cestovního Ruchu Jihočeského kraje

VY_32_INOVACE_12_FILMOVÝ FESTIVAL ZLÍN_34

IA161 Pokročilé techniky zpracování přirozeného jazyka

CZECH BUSINESS CLUB IN THE UAE 18 TH AUGUST 2014, PRAGUE

Minitab vznik a historie

VY_32_INOVACE_19_České země za Marie Terezie_09

ŽIVOTNÍ ETAPY ČLOVĚKA vývoj jedince

VY_12_INOVACE_ / Vyprávíme a překládáme příběh

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Digitální učební materiály VY_32_INOVACE_524_ Scotland_pracovní_list

VY_32_INOVACE_09_České stavovské povstání_09

ANALÝZA HISTORICKÉHO VÝVOJE TERČINA ÚDOLÍ

EKONOMICKÉ DŮSLEDKY SJEDNOCENÍ NĚMECKA

DALŠÍ IDEOLOGICKÉ SMĚRY

Pří _213_PTÁCI.notebook. November 07, 2014

POSLECH. Kate and Jim are friends. It's Thursday afternoon and they are talking about their free time activities.


Leitfaden für das Audit von Qualitätssicherungssystemen - Teil 1: Auditdurchführung

Krásy naší země VY_32_INOVACE_OBV_441. Autor: Dana Šrailová. Použití: 7. ročník. Datum vypracování: Datum pilotáže: 9. 1.

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

TÉMA: BROUCI škůdci VYTVOŘILA: Mgr. Zdenka Wienerová VYTVOŘILA DNE: VY_32_Inovace/3_156


CZ.1.07/1.5.00/

Gymnázium Vincence Makovského se sportovními třídami Nové Město na Moravě

Jméno autora: Mgr. Ladislav Kažimír Datum vytvoření: Číslo DUMu: VY_32_INOVACE_06_Ch_OB Ročník: I. Vzdělávací oblast: Přírodovědné

OPERAČNÍ SYSTÉM ZLÍNSKÝ KRAJ. Obchodní akademie, Vyšší odborná škola a Jazyková škola s právem státní jazykové zkoušky Uherské Hradiště

VY_32_INOVACE_10_KORUND_27

RETAIL PROCESS TRACKER VIZUALIZACE OBCHODNÍCH PROCESŮ VAŠEHO INFORMAČNÍHO SYSTÉMU

Going to aneb Pl anuji, ˇ ze seknu s pl anov an ım. Luk aˇs R uˇ ziˇ cka 2013 Luk aˇ s R uˇ ziˇ cka Going to

VY_32_INOVACE_16_OLIVÍN_27

Název materiálu: Hydrostatická tlaková síla a hydrostatický tlak

PSYCHICKÉ VLASTNOSTI OSOBNOSTI

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

SADA VY_32_INOVACE_AJ3

Identifikátor materiálu: VY_32_INOVACE_347

VY_32_INOVACE_11_KŘEMEN_27

Dobývání znalostí z webu web mining

Eurogranites 2015 Variscan Plutons of the Bohemian Massif

1. Přehled cizojazyčných a vícejazyčných korpusů

IT4Innovations Centre of Excellence

VY_32_INOVACE_20_JANTAR_27

IEEE802.3 Ethernet. Ethernet

Infogram: Nová platforma pro podporu informačního vzdělávání

Digitální učební materiály III/ 2- Inovace a zkvalitnění výuky prostřednictvím ICT

ANGLICKÝ JAZYK základní úroveň obtížnosti

Transkript:

Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie

Obsah Strojový překlad Statistický strojový překlad Frázový statistický strojový překlad Překlad pojmenovaných entit O. Hálek, R. Rosa, A. Tamchyna Rozpoznání pojmenovaných entit Překlad pojmenovaných entit Průběžné výsledky 2011 Rudolf Rosa, rur@seznam.cz 2/21

Strojový překlad Anglický text Český text Překladač 2011 Rudolf Rosa, rur@seznam.cz 3/21

Statistický strojový překlad Anglický text Český text Překladač Paralelní AJ ČJ korpus 2011 Rudolf Rosa, rur@seznam.cz 4/21

Paralelní AJ ČJ korpus (CzEng) <s id='en-p29s2'> <w id='en-p29s2w1'> Everything</w> <w id='en-p29s2w2'> was</w> <w id='en-p29s2w3'> so</w> <w id='en-p29s2w4'> beautiful</w> <w id='en-p29s2w5'>!</w> </s> <s id='cs-p29s2'> <w id='cs-p29s2w1'> Všechno</w> <w id='cs-p29s2w2'> bylo</w> <w id='cs-p29s2w3'> tak</w> <w id='cs-p29s2w4'> krásné</w> <w id='cs-p29s2w5'>!</w> </s> 2011 Rudolf Rosa, rur@seznam.cz 5/21

Segmentace jednotlivá slova Korpus (AJ) Korpus (ČJ) Yesterday I was in the cinema. Včera jsem byl v kině. He is going to sleep. On bude spát. Vstup (AJ) Výstup (ČJ???) He was going to the cinema. On jsem byl bude kině. 2011 Rudolf Rosa, rur@seznam.cz 6/21

Frázový statistický strojový překlad Vstup (AJ) Výstup (ČJ) Yesterday Včera I was jsem byl in the cinema v kině.. 2011 Rudolf Rosa, rur@seznam.cz 7/21

Překlad pojmenovaných entit Rice University is at 6100 Main Street. Steven Bird passed on the editorship... Exit at Government Plaza Station on 5th Street. fork() creates a new process. Univerzita rýže je v 6100 hlavní ulici. Steven pták přenesl na editorship... Konec vlády plaza na nádraží v páté třídě. vidlička() vytváří nový proces. 2011 Rudolf Rosa, rur@seznam.cz 8/21

Google překladač 2011 Rudolf Rosa, rur@seznam.cz 9/21

O. Hálek, R. Rosa, A. Tamchyna Strojový překlad pojmenovaných entit za pomoci Wikipedie překlad z angličtiny do češtiny Rozpoznání pojmenovaných entit podle kategorií anglického článku na Wikipedii Překlad pojmenovaných entit podle titulku odpovídajícího českého článku 2011 Rudolf Rosa, rur@seznam.cz 10/21

Rozpoznání pojmenovaných entit Vybrat fráze, které mohou být pojmenovanou entitou Rice University is at 6100 Main Street. Zjistit kategorie článku na Wikipedii Prohledat (do šířky) nadřazené kategorie Ručně vytvořený seznam kategorií obsahujících pojmenované entity 2011 Rudolf Rosa, rur@seznam.cz 11/21

Zjištění (všech) kategorií 2011 Rudolf Rosa, rur@seznam.cz 12/21

Zjištění kategorií WikiMedia API http://en.wikipedia.org/w/api.php?action=query &prop=categories&redirects&clshow=!hidden &format=xml&titles=rice_university <?xml version="1.0"?> <api><query><pages> <page pageid="25813" ns="0" title="rice University"> <categories> <cl ns="14" title="category:association of American Universities" /> <cl ns="14" title="category:educational institutions established in 1891" /> 2011 Rudolf Rosa, rur@seznam.cz 13/21

Prohledání nadřazených kategorií Educational institutions established in 1891 Educational institutions established in the 1890s Educational institutions established in the 19th century Educational institutions by year of establishment Organizations by year of establishment Organizations 2011 Rudolf Rosa, rur@seznam.cz 14/21

Kategorie pojmenovaných entit Places ( Místa není na české Wikipedii) People (Lidé) Organizations (Organizace) Companies (Firmy) Software (Software) Transport infrastructure (Dopravní stavby) 2011 Rudolf Rosa, rur@seznam.cz 15/21

Překlad pojmenovaných entit Předpokládáme, že jde o pojmenovanou entitu Zjistit, zda existuje článek na anglické Wikipedii Podívat se, zda existuje jeho český ekvivalent Použít název českého článku jako překlad anglické pojmenované entity 2011 Rudolf Rosa, rur@seznam.cz 16/21

Překlad entity Spain 1 2 3 2011 Rudolf Rosa, rur@seznam.cz 17/21

Hálek-Rosa-Tamchyna shrnutí AJ text Výběr potenciálních pojmenovaných entit Rozpoznání pojmenovaných entit Pojmenované entity Paralelní korpus Text bez pojmenovaných entit Wikipedie Překlad pojmenovaných entit ČJ text Překlad bez využití Wikipedie Text s přeloženými pojmenovanými entitami Přeložené pojmenované entity 2011 Rudolf Rosa, rur@seznam.cz 18/21

Průběžné výsledky Pojmenované entity bez českého článku Ponechat anglicky Pokusit se přeložit v paralelním korpusu Překlad entit s českým článkem BLEU skóre Vždy dle Wikipedie 20,95 Wikipedie/korpus 21,46 Vždy dle Wikipedie 21,49 Wikipedie/korpus 21,82 Původní překlad (bez použití Wikipedie) 22,55 2011 Rudolf Rosa, rur@seznam.cz 19/21

Reference Ondřej Bojar: NPFL087 Statistický strojový překlad http://www1.cuni.cz/~obo/vyuka/ Wikipedia, The Free Encyclopedia: Named entity recognition http://en.wikipedia.org/wiki/named_entity_recognition MediaWiki: MediaWiki API documentation http://www.mediawiki.org/wiki/api:main_page Ondřej Bojar, Zdeněk Žabokrtský: CzEng, Large Parallel Treebank with Rich Annotation http://ufal.mff.cuni.cz/czeng/ 2011 Rudolf Rosa, rur@seznam.cz 20/21

Děkuji za pozornost Tato prezentace je dostupná na adrese http://mff.nikde.eu/ 2011 Rudolf Rosa, rur@seznam.cz 21/21