IA161 Pokročilé techniky zpracování přirozeného jazyka

Podobné dokumenty
1. Přehled cizojazyčných a vícejazyčných korpusů

ve strojovém překladu

Moses. M. Fabianová, A. Štromajerová, M. Vaněk

Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman

Faktorované překladové modely. Základní informace

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Jak dělat strojový překlad lépe než Google Translate

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

2. Korpusový portál a volně dostupné nástroje

Depfix: Jak dělat strojový překlad lépe než Google Translate

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Testování strojového překladu

OCR systémy. Semestrální práce z předmětu Kartografická polygrafie a reprografie. Jakub Žlábek, Zdeněk Švec. Editor: Věra Peterová. Praha, květen 2010

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

PSANÍ. I am looking 4 to seeing you and please let me know if you are going to come.

VZDĚLÁVACÍ MATERIÁL. Pololetní písemná práce pro 5. ročník Mgr. Iveta Milostná VY_32_INOVACE_A11 Pořadové číslo: 11.

Lokalizace QGIS, GRASS

Vzdálenost jednoznačnosti a absolutně

Biostatistika a e-learning na Lékařské fakultě UK v Hradci Králové

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

III_ _The Verb to Be sloveso Být pracovní list.doc III_ _The Verb to Be sloveso Být pracovní list - řešení.doc

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Průzkum paralelních dvojjazyčných textů v otázce určení autorství staročeského překladu

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

VY_22_INOVACE_84. P3 U3 Revision

Absolventská práce. žáka 9. ročníku

Vzdělávací oblast: Inovace a zkvalitnění Vzdělávací obor: žáci SOU všechny obory výuky cizích jazyků na středních školách

ABBYY Automatizované zpracování dokumentů

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u : My family, my hobbies Present simple and continuous, Wh- questions

PSANÍ. Anglický jazyk 5. třída Hana Stryalová

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

7 Další. úlohy analýzy řeči i a metody

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Téma 4: Stratifikované a pokročilé simulační metody

MST - sběr dat pomocí mobilních terminálů on-line/off-line

PŘÍRUČKA pro uplatňování směrnic 73/23/EHS nízké napětí a 89/336/EHS elektromagnetická kompatibilita

NLP & strojové učení

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Ekonomické srovnání dodavatelů dřevodomků pro stanovený etalon rodinného domu

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce pro 5. ročník z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A19 Pořadové číslo: 19.

local content in a Europeana cloud

Komprese DNA pomocí víceproudé komprese a predikce báz. Jan Jelínek, Radek Miček

HEDO Praha s.r.o. Profesionální služby v oblasti technických překladů

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Automatické párování uzlů českých a anglických tektogramatických stromů

Úvod do strojového překladu PV061. Vít Baisa, Karel Pala Centrum ZPJ FI MU

Going to aneb Pl anuji, ˇ ze seknu s pl anov an ım. Luk aˇs R uˇ ziˇ cka 2013 Luk aˇ s R uˇ ziˇ cka Going to

Střední průmyslová škola stavební Pardubice

Přítomný čas prostý/ průběhový. Present simple/ present continuous. Výhradní výukový materiál portálu onlinejazyky.cz

X36SIN: Softwarové inženýrství. Životní cyklus a plánování

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ

IMPLEMENTACE SYSTÉMU GROUPWISE NA PEF ČZU V PRAZE IMPLEMENTATION OF THE SYSTEM GROUPWISE ON THE PEF ČZU PRAGUE. Jiří Vaněk, Jan Jarolímek

pomocí SDL Trados Jak mi Translation Memory, Terminologie a Workflow pomohou při každodenní práci? Kdo jsme? Kdo je SDL? Translation Memory

Pravidelné vzdělávání seniorů v Knihovně města Ostravy. Filip Hrazdil

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Národní informační středisko pro podporu jakosti

POSLECH. Mona has got her eleventh birthady on Sathurday, she she is planning a big party for her friends. She met her friend John.

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A20 Pořadové číslo: 20.

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

P L U R A L N O U N S

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

NLP zpracování přirozeného jazyka

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Adresní mody procesoru

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

PREDIKCE DÉLKY KOLONY V KŘIŽOVATCE PREDICTION OF THE LENGTH OF THE COLUMN IN THE INTERSECTION

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Souprava aktualizace softwaru Integrity R1.2 pro systém Integrity R1.1. Produkt: Integrity R1.1. Datum: 21. listopadu 2013 FCO:

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Wikipedie ve strojovém překladu. Využití Wikipedie pro strojový překlad pojmenovaných entit

Dobývání znalostí z textů text mining

Čipové karty Lekařská informatika

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Natural Language Toolkit

Manažerský GIS. Martina Dohnalova 1. Smilkov 46, 2789, Heřmaničky, ČR

Testování vyhledávačů Google a Seznam.cz

Digitální učební materiál

Anglický jazyk. Souslednost časů. Anglický jazyk. Vytvořil: Eva Burianová. Souslednost. DUM číslo: 9. Souslednost časů.

Automatické vytváření slovníků z paralelních korpusů

Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_15_AJ_CON_1

Aktivita FCE V. Stručný popis aktivity: žáci si prohloubí slovní zásobu, práci s textem

SPOLUPRÁCE - KOORDINÁTOR/KA ZAHRANIČNÍCH KURZŮ


POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Universální CNC stolní vrtačka

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Možnosti zlepšení strojového překladu z angličtiny do češtiny

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Transkript:

IA161 Pokročilé techniky zpracování přirozeného jazyka Strojový překlad Vít Baisa

Překlad angličtina čeština Moses is an implementation of the statistical (or data-driven) approach to machine translation (MT). This is the dominant approach in the field at the moment, and is employed by the online translation systems deployed by the likes of Google and Microsoft. Mojžíš je implementace statistické (nebo řízené daty) přístupu k strojového překladu (MT). To je převládajícím přístupem v oblasti v současné době, a je zaměstnán pro on-line překladatelských systémů nasazených likes Google a Microsoft. Moses je implementace statistického (nebo daty řízeného) přístupu k strojovému překladu (MT). V současné době jde o převažující přístup v rámci strojového překladu, který je použit online překladovými systémy nasazenými Googlem a Microsoftem. Mojžíš je provádění statistické (nebo aktivovaný) přístup na strojový překlad (mt). To je dominantní přístup v oblasti v tuto chvíli, a zaměstnává on - line překlad systémů uskutečněné takové, Google a Microsoft.

Statistický strojový překlad pravidlové systémy motivovány lingvistikou SMT inspirován teorií informace a statistikou 50 miliónů stránek denně přeložených pomocí SMT Google Translate, Bing Translator, Moses gisting: nejčastější užití MT na internetu ve skutečnosti je výstup z MT vždy revidován

Strojový překlad: co se překládá webové stránky technické manuály, návody vědecké dokumenty prospekty, katalogy obecně texty z omezených domén stránky na Wikipedii (mezi jaz. mutacemi)

Strojový překlad v současnosti intenzivní sběr paralelních dat vývoj systémů vzhledem k hodnoticím metrikám západ: zájem o angličtinu jako cílový jazyk EU: překlad mezi 24 úředními jazyky EU (EuroMatrix) softwarové firmy zaměřeny na En jako zdrojový jazyk velké páry (En Sp, En Fr): velmi dobrý překlad Google Translate jako gold standard morfologicky bohaté jazyky: horší výsledky En-* a *-En páry převažují Moses: volně dostupný statistický strojový překlad

Data: paralelní korpusy Europarl: kolekce textů Evropského parlamentu OPUS: paralelní texty různého původu, největší Acquis Communautaire: zákony EU (demo: EUR-Lex) DGT překladová paměť, MyMemory InterCorp ručně zarovnané beletr. texty (ČNK, FFUK) volně dostupné jsou řádově 10 až 100 miliónů slov veliké vícejazyčné stránky (Wikipedie) srovnatelné korpusy (comparable corpora): texty ze stejné domény

Schéma SMT

SMT princip noisy channel Vyvinut Shannonem (1948) pro potřeby samoopravujících se kódů, pro korekce kódovaných signálů přenášených po zašuměných linkách na základě informace o původní zprávě a typu chyb vznikajících na linkách. OCR. Rozpoznávání textu z obrázků je chybové, ale dokážeme odhadnout, co by mohlo být v textu (jazykový model) a jaké chyby často vznikají: záměna l-1-i, rn-m apod. e = arg max p(e f ) e = arg max e p(e)p(f e) p(f ) = arg max p(e)p(f e). e Jazykovým modelům se budeme věnovat na pozdější přednášce.

Lexikální překlad Standardní slovník neobsahuje překladové pravděpodobnosti jednotlivých významů slov. key klíč, tónina, klávesa Jak často jsou jednotlivé překladové ekvivalenty (významy) v překladech používány? key klíč (0.7), tónina (0.18), klávesa (0.08),... Potřebujeme lexikální pravděpodobnostní rozložení p f s vlastností: p f (e) = 1 e e : 0 p f (e) 1 p klíč (key)? p mrkev (carrot)

Výpočet překladové pravděpodobnosti Potřebujeme znát hodnotu funkce t pro všechna slova (věty). K tomu se využívá paralelní korpus se zarovnanými větami. Ty většinou nejsou k dispozici. To je úkol tzv. sentence-alignment. Většinou se využívá: srovnání délky vět, překladový slovník či spoluvýskyt jmen, čísel, znaků, málo častých slov.

Word alignment

Matice zarovnání slov michael geht davon aus, dass er im haus bleibt michael assumes that he will stay in the house

Problémy s lexikálním překladem john biss ins grass john wohnt hier nicht john kicked the bucket john does not live here??

Frázový překladový model State-of-the-art statistického strojového překladu. Nepřekládají se pouze samostatná slova. Když to jde, tak i celé sekvence slov. Fráze nejsou lingvisticky motivované, pouze statisticky. Německé am se zřídka překládá jedním slovem with. Statisticky významný kontext spass am pomáhá správnému překladu. Klasické fráze by se dělily jinak: (fun (with (the game))).

Výhody frázového překladu často překládáme n : m slov, slovo je tedy nevhodný atomický prvek překlad skupin slov pomáhá řešit překladové víceznačnosti a také plynulost můžeme se učit překládat delší a delší fráze jednodušší model: neuvažujeme fertilitu, NULL token atd.

Extrahování frází michael geht davon aus, dass er im haus bleibt michael assumes that he will stay in the house

Automatické hodnocení překladu výhody: rychlost, cena; nevýhody: měříme opravdu kvalitu? gold standard: ručně připravené referenční překlady kandidát c se srovnává s n referenčními překlady r i různé přístupy: n-gramová shoda mezi c a r i, editační vzdálenost,... BLEU: nejpoužívanější METEOR: nejlépe koreluje s lidským hodnocením

BLEU nejznámější (standard), nejpoužívanější, nejstarší (2001) IBM, Papineni n-gramová shoda mezi referencí a kandidáty počítá se přesnost pro 1 až 4-gramy extra postih za krátkost (brevity penalty) ( ) output-length ( 4 ) 1 4 BLEU = min 1, precision reference-length i i=1

BLEU příklad SYSTEM A: REFERENCE: SYSTEM B: Israeli officials responsibility of airport safety 2-GRAM MATCH Israeli officials are responsible for airport security airport security Israeli officials are responsible 2-GRAM MATCH 1-GRAM MATCH 4-GRAM MATCH metrika systém A systém B přesnost (1gram) 3/6 6/6 přesnost (2gram) 1/5 4/5 přesnost (3gram) 0/4 2/4 přesnost (4gram) 0/3 1/3 brevity penalty 6/7 6/7 BLEU 0 % 52 %

Hodnocení překladu podle jazykových párů http://matrix.statmt.org/