Úvod do strojového překladu PV061. Vít Baisa, Karel Pala Centrum ZPJ FI MU

Podobné dokumenty
Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Komunikace a jazyková správnost (pravopis)? Předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2015

Motivace pro jazykovou správnost. Prezentace pro předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2014

IA161 Pokročilé techniky zpracování přirozeného jazyka

ve strojovém překladu

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Virtuální počítač. Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor. PGS K.

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Itálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů

Faktorované překladové modely. Základní informace

ČJL KRITÉRIA HODNOCENÍ PÍSEMNÝCH PRACÍ

NĚMECKÝ JAZYK A LITERATURA (jednooborové navazující magisterské studium) N 7310 Filologie

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE PŘEKLADY TYPICKÝCH JAZYKOVÝCH KONSTRUKCÍ PROGRAMOVACÍCH JAZYKŮ.

Ročníková práce. Metodika tvorby. Jan Divišek Alena Beňadiková

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

NĚMECKÝ JAZYK A LITERATURA (jednooborové bakalářské studium) B 7310 Filologie

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

ČJL KRITÉRIA HODNOCENÍ PÍSEMNÝCH PRACÍ

2. Korpusový portál a volně dostupné nástroje

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Návrh stránek 4IZ228 tvorba webových stránek a aplikací

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

ČESKÁ TECHNICKÁ NORMA

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Dne vydal Soudní dvůr rozsudek ve věci C-307/10 IP Translator, v němž poskytl níže uvedené odpovědi na předběžné otázky:

PŘÍLOHA C Požadavky na Dokumentaci

ČJL KRITÉRIA HODNOCENÍ PÍSEMNÝCH PRACÍ

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Design systému. Komponentová versus procesní architektura

1. Přehled cizojazyčných a vícejazyčných korpusů

pomocí SDL Trados Jak mi Translation Memory, Terminologie a Workflow pomohou při každodenní práci? Kdo jsme? Kdo je SDL? Translation Memory

Obsah. Úvod 9 Poděkování 10 Co je obsahem této knihy 10 Pro koho je tato kniha určena 11 Zpětná vazba od čtenářů 11 Errata 11

ČJL KRITÉRIA HODNOCENÍ PÍSEMNÝCH PRACÍ

Slohové útvary se zřetelem ke komunikační situaci

Překladač a jeho struktura

ČJL KRITÉRIA HODNOCENÍ PÍSEMNÝCH PRACÍ

Depfix: Jak dělat strojový překlad lépe než Google Translate


Biskupské gymnázium Žďár nad Sázavou vyšší stupeň osmiletého gymnázia, čtyřleté gymnázium. Receptivní řečové dovednosti

Výměnný formát XML DTM DMVS PK

Úvod z historie. Kompilátory. Kompilace / Kompilátor Compile / Compiler. Pojem kompilátoru. Úvod z historie

Tam, kde anglické příklady neodpovídají českému jazykovému systému, se český překlad neuvádí.

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

SYNTAX LS Úvod

Písemná komunikace. PhDr. Libuše Machačová Vědecká knihovna v Olomouci

Dolování z textu. Martin Vítek

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Deskripční logika. Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Deskripční logika 37 / 157

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

10. Techniky formální verifikace a validace

ČEŠTINA PRO CIZINCE ČC / JEDNOOBOROVÉ MAGISTERSKÉ STUDIUM PREZENČNÍ

Sémantický web a extrakce

Obsah: Organizace předmětu IB030. Situace na FI MU A B C D E F 0 49 K Z

K Z A B C D E F Obsah: Organizace předmětu IB030. Situace na FI MU

Inovace výuky prostřednictvím šablon pro SŠ

OZNÁMENÍ O OTEVŘENÝCH VÝBĚROVÝCH ŘÍZENÍCH (2011/C 198 A/02)

NLP & strojové učení

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Comenius Praha Martina Fantová

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

EVALUACE OP V LETECH VÝSLEDKY META-EVALUAČNÍHO ŠETŘENÍ Mgr. Jiří Remr, Ph.D., MBA

Chytal tlouště na višni

Informační a znalostní systémy jako podpora rozhodování

Lenka Maixnerová, Alena Šímová, Helena Bouzková, Filip Kříž, Ondřej Horsák, Marie Votípková. Národní lékařská knihovna, Praha, Česká republika

Regresní a korelační analýza

Čeština doma & ve světě. [nová]

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

Vzdělávací oblast: Jazyk a jazyková komunikace Anglický jazyk (časová dotace 3 hodiny týdně)

Výroková a predikátová logika - III

Angličtina a němčina pod rozhraním Lingea EasyLex2 Ing. Miroslav HEROLD, CSc.

Předmět: Konverzace v ruském jazyce

Ontologie. Otakar Trunda

Komunitní lokalizace svobodného a otevřeného softwaru. Petr Kovář LinuxAlt 2010, 6. listopadu 2010

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.

PROPOJENÍ VĚDY, VÝZKUMU, VZDĚLÁVÁNÍ A PODNIKOVÉ PRAXE. PhDr. Dana Pokorná, Ph.D. Mgr. Jiřina Sojková, Státní zámek Sychrov,

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

INFORMACE K ÚPRAVÁM METODIKY HODNOCENÍ PÍSEMNÝCH PRACÍ Z ČESKÉHO JAZYKA A LITERATURY A Z CIZÍCH JAZYKŮ (informace je určena učitelům těchto předmětů)

Katalog egon služeb verze: 0.01

Standardy ČJ - 2.stupeň - přehled

Úvod do zpracování signálů

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Význam měřm. Mgr. Anna Borovcová doc. Ing. Alena Buchalcevová, Ph.D. VŠE Praha

KRITÉRIA A POSTUP HODNOCENÍ ŽÁDOSTÍ O FINANČNÍ PROSTŘEDKY Z FONDU ZÁBRANY ŠKOD

Výroková a predikátová logika - II

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Stonožka jak se z výsledků dozvědět co nejvíce

Transkript:

Úvod do strojového překladu PV061 Vít Baisa, Karel Pala vit.baisa@gmail.com pala@fi.muni.cz Centrum ZPJ FI MU

Historie strojového překladu C. Shannon, W. Weaver (1948-49): text v čínštině je stejný jako v angličtině, je jen v jiném kódu Georgetownský experiment 1956, R-A, P. Toma Rusové O. Kulagina, I. Mel'čuk, 1958, Fr Ruš. Systran P. Tomy oficiální SP systém EU Verbmobil v letech 1993-2001, hlasový překlad angličtina-japonština-němčina (Tuebingen, 100 mil.) v posl. době: pravidlový vs. statistický přístup, RBMT v kombinaci se SMT + hybridní řešení Google Translator využití paralelních korpusů Pokrok, rozdíly u jazykových dvojic, kvalita?

SP v českém prostředí Seminář SP na FF UK, B. Palek, P. Sgall, Novák, Konečná, 1958-60 a dále Pokusy s českým SP z angličtiny P. Sgall, E. Hajičová, počítače SAPO, LGP, EPOS Po r. 1968 rozštěpení skupiny na dvě, FF UK (Novák, Palek), MFF UK (Sgall, Hajičová) Experimenty se systémem Ruslan, K. Oliva, J. Hajič (VÚMS, Svoboda, sálové počítače) V současnosti ÚFAL, J. Hajič, EuroMatrix, EUM+ Zčásti se SP věnuje pozornost i v CZPJ (V. Baisa)

SP pokračování historie Zpráva ALPAC, J. R. Pierce,1964(6), vláda USA (Automatic Language Processing Advisory Committee, 7 odborníků) Skepticky hodnotila výzkum v oblasti PL (CL) a SP Potřeba posílit základní výzkum v oblasti PL a SP Zpráva vedla v USA ke snížení finanční podpory v oblasti SP, negativní efekt https://en.wikipedia.org/wiki/alpac UK, Francie, později zpráva JTEC 1992 (J.Tech.C.), Velký projekt Eurotra financován EK 1978-1992 proj. EuroMatrix a EuroMatrix-plus 2006-09-12)

Příklad Viz G. Translator Shrinkage Úbytek, ztráta, snížení, redukce woman drive drunk

Systémy strojového překladu RBMT- pravidlové a) Přímé systémy 1. generace, doslovný překlad zdroj.text -> MFA -> slovník -> přeuspoř. -> cílový text, např.: ruská věta My trebuem mira. se přeloží do ang. jako We want world. nebo We want peace. Nepřímé systémy 2. generace b) transferové - zdroj.text -> analýza: lex.,mf.,synt. (R i ) -> transfer (R i -> R j ) -> syntéza: synt., mf. -> cílový text (postred.), novým prvkem je syntaktická (příp. i sém.) reprezentace, mezireprezentace, transferová (převodní) pravidla, jazyková závislost R i i R j

Systémy SP c) s převodním jazykem - univerzální, multilinguální. Zdr.text -> nezávislá analýza -> reprez. v PJ -> nezávislá syntéza -> cílový text, - poskytuje možnost zpětného překladu a testování - PJ? - vhodný symbolický systém, logický kalkul, PK1 nebo formule v systému TIL, je jazykově nezávislý, přidání nového jazyka vyžaduje přidat jen 2 moduly, u transferových systémů 4, u PJ jsou komplikace s jazykově nezávislými reprezentacemi. Systém Rosetta 1986 http://mt-archive.info/iai-1986- Appelo.pdf

Systémy SP Statistický SP (SMT) Využití velkých dat, paralelních korpusů Jazykové modely Představitel Google Translator a další Hybridní EuroMatrix S překladovou pamětí Trados Využití databází již přeložených textů

Vybrané příklady systémů SP TAUM Meteo 1981, ang.-franc. Univ. of Montreal práce s podjazykem TAUM Aviation 1985, ang.-franc., oba RBMT Pravidlový Systran (Apollo, US AF, EU) Statistický Google, Moses, v současnosti Hybridní faktorovaný EuroMatrix PRESEMT EU projekt 2011-2014 Hlasový SP, Verbmobil, 1993-2001

Statistický SP (evaluace) Automatické metriky Bleu kandidátský překlad proti vícenásobným referenčním překladům (viz později) NIST modifikace Bleu, n-gramy METEOR vážený harmonický průměr přesnosti a pokrytí unigramu Levenshteinova vzdálenost mezi dvěma slovy je minimální počet editačních kroků (vložení,přesunutí) Manuální evaluace, viz dále

Kritéria kvality překladu I Věrnost překlad musí přenášet tutéž informaci jako originál, např. Srozumitelnost míra jasnosti a srozumitelnosti každé přeložené věty, Stylistická vhodnost nakolik je cílový text vhodný pro cílového uživatele vzhledem k danému komunikačnímu záměru, japonština To jsou základní a zcela obecná kritéria. Další parametry pro hodnocení kvality překladu a) jazyková obecnost kolik vstupních a výstupních jazyků systém zahrnuje

Kritéria kvality překladu II b) rozsah pokrytí ve slovníku počet slovních druhů (otevřených, uzavřených) ve slovníku, c) gramatické pokrytí procento kompletních vět, jež systém beze zbytku analyzuje nebo generuje, d) procento negramatických vstupů, které je systém schopen zpracovat (podle testovacího seznamu), e) hodnocení kvality přiřazení mezi lexikálními jednotkami v obecném slovníku systému, f) aplikační a tematická obecnost počet věcných oblastí (domén), jež systém pokrývá, a rozsah pokrytí jednotlivých oblastí,

Kritéria kvality překladu III Stupeň automatizace - míra, v níž musí člověk intervenovat v překladovém cyklu - čím méně, tím lépe - pre- a posteditace, interaktivní desamb. Množství času potřebného pro lidský zásah/celkový čas potřebný pro úplný překlad - to je míra automatizace charakteristická pro MT systém, lze přihlédnout ke kvalifikaci - posteditor je obvykle zkušený překladatel, preeditor (desamb.) nemusí znát cílový jazyk, nižší kvalifikace - nižší náklady,

Kritéria kvality překladu IV Sémantická přesnost - míra, v níž přeložený text vyjadřuje stejný význam jako vstupní text - centrální kritérium pro posouzení kvality překladu, je to důležité u manuálů, předpovědí počasí, zákonů a předpisů - výrazy jako - rozdělovač, hlava motoru, státní podpora, daňový poplatník musí být přeloženy přesně, Srozumitelnost - míra srozumitelnosti, v níž je přeložený text srozumitelný pro čtenáře cílového jazyka, aniž se musí dívat do zdrojového textu. Těsně souvisí s sémantickou přesností, počítá s ní.

Kritéria kvality překladu V Stylistická adekvátnost (vhodnost) míra, v níž je cílový text vhodný pro zamýšlené adresáty, např. angl. - japonština překlad může být srozumitelný i významově přesný, ale nevhodný sociálně kvůli honorifikaci použití zdvořilostní frazeologie, obratů, bez nich by text nebyl použit Pak je nutná posteditace podobně v češtině: tykání a vykání Podobně text s výrazy předpokládajícími vyšší vzdělání (pro odborníka) je nevhodný pro člověka z ulice, implicitní presupozice nevyslovený předpoklad, kvantifikace číselné vyjádření aj.

Kritéria kvality překladu VI Tyto rozdíly je nesnadné kvantifikovat. Tematická a jazyková portabilita míra, s níž lze přidat k systému další věcné oblasti a jazyky, dá se měřit množstvím času potřebného pro přidání souboru gram. pravidel dalšího jazyka a slovníku termínů pro novou oblast včetně přiřazení ekviv. cílového jazyka. Rozdíly: u bin. systémů se závislou analýzou a syntézou mezi dvěma jazyky a u systémů s PJ, kde se přidává jazykově nezávislá reprezentace dané tematické oblasti.

Kritéria kvality systémů Rozšiřitelnost míra, v níž MT systém dovoluje hladkou a inkrementální extenzi gramatických pravidel a slovníku a věcné oblasti pro jazyk, s nímž se už v systému pracuje. Závisí to na míře deklarativnosti a transparence použité reprezentace gramatických pravidel a slovníkových hesel a na nástrojích používaných pro údržbu systému. Lze ji měřit množstvím času potřebným pro: - kódování pravidel a hesel - jejich testování - verifikaci a kontrolu, že přidání nezpůsobí

Kritéria kvality překladu VII Zlepšitelnost míra, v níž systém umožňuje zlepšit úroveň automatizace bez kompromisů v kvalitě překladu, fakticky jde o míru otevřenosti systému: zlepšení bez přebudování designu. Ergonomičnost míra, v níž systém poskytuje minimum příležitostí pro vznik chyb, pomůcky pro uživatele, kvalita rozhraní (pokročilost), snadnost napojení na strojově čitelné slovníky, hypertextové odkazy do textu překladu, vazby na archiv překladů (viz též systémy jako TRADOS). Integrovatelnost možnost začlenění do jin.syst.

Lexikální data I Data pro SP (MT) gramatická pravidla, popisují stavbu věty, tj. formální gramatika potřebná pro analýzu a syntézu (generování), - lexikální: informace o každé lexikální jednotce (slovníkovém heslu) - slova, kolokace, např. škola, vysoká škola, mateřská škola, Jde o vztah slovníku a gramatiky obvykle se tato data v SP systémech drží odděleně problém: co kam dát? Lze pro SP použít normální elektronické slovníky Leda, Lingea, PC Translator?

Lexikální data II Informace ve slovníku: morfologická, subkategorizace, valence, výběrová omezení, SR Organizace lex. dat je dána typem SP systému - a) systémy s přímým překladem - typicky jeden dvojjazyčný sl. - na jedné straně údaje o LJ vstupního jazyka, na druhé straně přiřazení ekvivalentů cílového jazyka, b) mívá podobu seznamu všech tvarů (ang.) nebo kmenů (češ.) + mf.inf., synt. inf., SR, inf. potřebná pro výběr alternativ, infce pro syntakt. změny v syntéze výsl. značně složitý slovník.

Lexikální data III Nepřímé systémy moduly analýzy a syntézy jsou od sebe odděleny, oddělené jednojaz. slovníky pro vst. a cílový jazyk, dále dvojjazyčný/é transf.sl., bývají jednodušší než u přímých syst. U každé LJ - mf.inf., POS, SR, výb.omezení, valence Časté jsou samost.sl. homografů bank (fin.inst., břeh), stát (země, zaujímat polohu, mít cenu). Informace pro výběr cílových ekv. (jeho formy) se často umisťuje do transf.dvojj.slovníku, v praxi: slovník velmi četných výrazů, sl.idiomů, sl.nepravid.tv., sl.homografů, mikrosl.- výměnné - zeměd., fyzika, žurnal., IT, terminologické

Vstupy výstupy Obecné sl., interaktivní syst., řeší to víceznačnost. Psaný vstup ošetření pravopisu, korigování, interp., oddělovače, převod do výstupního jazyka (This year, the man, however, and his wife, too, will go on holiday. Letos ale ten člověk a taky jeho žena pojedou na dovolenou.), Fonty - rozlišný úzus, pomlčky, uvozovky, užití kurzívy, prostrkaného písma, polotučného apod.

Morfologie při SP Typy jazyků - analytické: angličtina, franc., němč., - syntetické, flektivní: slov.jazyky ruš., češ., polš. - aglutinační: ugrofinské, maď., finština, turečtina, Pro každý typ jazyka morfologická analýza, tj. pro vstupní větu předzpracování, slova, kolokace, pak vlastní analýza segmentace slovních tvarů, získání kmenů a gramatické informace (koncovky, alternace), Morfologické analyzátory, viz např. AJKA, Struktura morf. analyzátorů, slovník kmenů, koncovkové množiny

Syntaktická analýza při SP Při analýze zjistit prvky věty a vztahy mezi nimi, vstupní text - řetězy znaků, identifikace slov - mfa a slovník = přiřadí slovům nějaké atributy, např. kopu - k1gmnsc2 (Nedvěd dal branku z rohového kopu) - k1gfnsc4 (nedávej to na jednu kopu) - k5eap1nstpmiai (kopu si hrob) to nestačí, kromě informace o významu, kterou se budu zabývat až při transferu, je potřeba provést desambiguaci: 3 významy, zkusíme provést synt. anal. a nějak reprezentovat vztahy mezi prvky ve větě jak? Syntaktický strom vstupní věty - jak jej lze získat? - vhodný typ formální gramatiky a analyzátor

Synt.analýza při SP II Jak poznat, že kopu je v daném řetězu k1 (jméno)? Příklad deriv.stromu (s použitím CFG)

Reprezentace znalostí Znalosti o světě jejich zdroje Ontologie, sémantické sítě, WordNet a EWN Encyklopedie, terminologie Znalosti o jazyce, lex.databáze Common sense KBMT

Sémantická analýza Rozpadá se do dvou částí: lexikální a logické Lexikální analýza zahrnuje významy slov a kolokací problém slovníků pro SP, otázka kvality a zachycení kontextových vztahů Logická analýza se týká významu celých vět a jejich reprezentace, též ve vztahu k reprezentaci znalostí Analýza souvislého textu vztahy odkazování (koreference, anafora)