ve strojovém překladu

Podobné dokumenty
Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze

Depfix: Jak dělat strojový překlad lépe než Google Translate

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Jak dělat strojový překlad lépe než Google Translate

2. Korpusový portál a volně dostupné nástroje

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

SYNTAX LS Úvod

Co nového ve zpracování MWE Automatická identifikace

Jak pracuje internetový vyhledávač

IA161 Pokročilé techniky zpracování přirozeného jazyka

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Automatické párování uzlů českých a anglických tektogramatických stromů

1. Přehled cizojazyčných a vícejazyčných korpusů

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Chytal tlouště na višni

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Strojové učení a pravidla pro extrakci informací z textů

Pražský závislostní korpus jako elektronická cvičebnice češtiny

Eva Lehečková 28. workshop Ţďárek Litoměřice

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Faktorované překladové modely. Základní informace

Jazyk XSL XPath XPath XML. Jazyk XSL - rychlá transformace dokumentů. PhDr. Milan Novák, Ph.D. KIN PF JU České Budějovice. 9.

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

Školní vzdělávací program Základní školy a mateřské školy Sdružení




Strukturovaný životopis

,,Příloha č. 1 k vyhlášce č. 381/2007 Sb.

kupní cena: ,- Kč Splatnost jednorázově, do 30 dnů ode dne podpisu kupní smlouvy na účet prodávajícího. Návrh č. 2.

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002

Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze

OJ305 TYPOLOGIE JAZYKŮ z pohledu syntaxe

Učíme počítače (nejen) česky: ÚFAL

Čím může bohemistice přispět současná počítačová lingvistika?

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost ET

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

Nedostatky bezkontextové gramatiky

Jak (ne)připravit zadání BP a DP, jak (ne)psát BP a DP, aneb co je taky (ne)možné

AUTOMATICKÁ TVORBA SLOVNÍKŮ

Masarykova Univerzita Pedagogická Fakulta

S frazémy si hrát na nervy je balzám Víceslovné výrazy v PDT dnes a zítra

Kam s ní? O interpunkční čárce v souvětí Jana Svobodová

MINISTERSTVO ŠKOLSTVÍ, MLÁDEŽE A TĚLOVÝCHOVY. Učební osnova předmětu MATEMATIKA

ŠABLONY INOVACE OBSAH UČIVA

Formální úprava bakalářských a diplomových prací Univerzita Karlova, Husitská teologická fakulta

5.1 Český jazyk a literatura Vyšší stupeň osmiletého gymnázia a gymnázium čtyřleté

MINISTERSTVO ŠKOLSTVÍ, MLÁDEŽE A TĚLOVÝCHOVY. Učební osnova předmětu MATEMATIKA. pro nástavbové studium. varianta B 6 celkových týd.

Webová grafika, struktura webu a navigace, použitelnost a přístupnost

Workshop k terminologickým otázkám organizace znalostí Motivace a hypotézy projektu. Cíl projektu NAKI DF13P01OVV013

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

INTLIB. Osnova. Projekt (TA /Inteligentní knihovna) je řešen s finanční podporou TA ČR. ! Legislativní doména

Přihláška Motivační dopis

Rekonstrukce standardizovaného textu z mluvené řeči

Redukční analýza s operacemi delete a shift a analytická rovina Pražského závislostního korpusu (PDT).

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Co naše děti umějí a kde se to vlastně učí?

GISON: ontologická integrace urbanistických datových sad IPR

Český jazyk v 5. ročníku

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

MULTIKULTURNÍ KONZULTANT


Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.

Nainstalovat Tred!

Metodický návod. pro tvůrce didaktických podpor k cizojazyčným odborným filmům

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

WWW jako dynamická knihovna

Workshop o paralelním korpusu InterCorp

Studentské hodnocení výuky

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.

Otevřená data. Shrnutí. Když stavím nový IS nebo upravuji existující, co musím udělat, abych byl Open Data Ready? Prosinec 2018

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

NLP & strojové učení

SíťIT: Portál na podporu sociální sítě informatiků v ČR

Česká školní inspekce Pražský inspektorát INSPEKČNÍ ZPRÁVA. čj. ČŠI 847/ Jánošíkova 1320

ČESKÝ JAZYK. Oddíl E učební osnovy I.1.C

FACT v ČR Blízkost holandskému modelu v praxi komunitních služeb

Počítačová typografie

Juxtapozice z do v Arabštině

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Datová úložiště CESNET

Plán práce pro 2. ročník na 15. školní týden ( ) Pondělí Úterý Středa Čtvrtek Pátek Samohlásky. Blahopřejeme!

Itálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů

DODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM III.

Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová

PRACOVNÍ LIST - REFERÁT

Autorem materiálu je Mgr. Renáta Lukášová, Waldorfská škola Příbram, Hornická 327, Příbram, okres Příbram Inovace školy Příbram, EUpenizeskolam.

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Sociálně vyloučené lokality v ČR

Ontologie. Otakar Trunda

Moses. M. Fabianová, A. Štromajerová, M. Vaněk

Transkript:

Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39

Osnova Typy dat ve strojovém překladu. Kolik je potřeba? Absolutní minimum: paralelní korpusy. Získávání paralelních textů z webu. Sdílení zdrojů. 2/39

Přístupy ke strojovému překladu povrchová syntax morfologická rovina hloubková syntax interlingva frázový překlad s 1 T 1 T 2 s 2 angličtina čeština generuj povrchovou realizaci linearizuj strom Pravidlový vs. statistický přístup: Pravidlové systémy píší lingvisté-programátoři. Statistické systémy se naučí samy podle dat. 3/39

Přístupy ke strojovému překladu povrchová syntax morfologická rovina hloubková syntax interlingva frázový překlad s 1 T 1 T 2 s 2 angličtina čeština generuj povrchovou realizaci linearizuj strom Pravidlový vs. statistický přístup: Pravidlové systémy píší lingvisté-programátoři. Statistické systémy se naučí samy podle dat. 4/39

Formální popis češtiny Ruční anotace Morfologická rovina: Slovo Lema Morfologická značka zákony zákon NNIP1-----A---- zákony zákon NNIP4-----A---- zákony zákon NNIP5-----A---- zákony zákon NNIP7-----A---- udělejte udělat Vi-P---2--A---- udělejte udělat Vi-P---3--A---4 pro pro-1 RR--4---------- lidi člověk NNMP1-----A---- lidi člověk NNMP4-----A---- lidi člověk NNMP5-----A---- Analytická rovina (povrchová syntax): Tektogramatická rovina (hloubková syntax): 5/39

Lingvistická data Korpusy jsou (velké) sbírky textů: Texty typicky označkované nebo včetně větných rozborů. Pražský závislostní korpus (PDT): 1.5 mil. slov. Pražský čj-aj závislostní korpus (PCEDT): 50 tis. vět. Některé vícejazyčné: CzEng (15 mil. vět, 220 mil. slov, odpovídá 50 metrům knih, ty tvoří však jen čtvrtinu). Slovníky strojově čitelné: Morfologický slovník říká, že kočka je české slovo a kočke ne. Valenční slovník říká, že: Rodiče přijali Petra. je správně Rodiče přijeli Petra. není správně Slovník subjektivity obsahuje hodnotící výrazy. Lze využít v programech (pravidlových i statistických). 6/39

Data po frázový překlad (Moses, MT@EC) Překladové slovníky méně vhodné. Překlad potřebuje vidět slova v kontextu. Terminologie a glosáře méně vhodné. Současné metody mohou vynutit překlad jen velice tupě. Zásadní je paralelní korpus. Pro kvalitu důležité, aby texty byly z dané domény. Systém memoruje až desetice slov. Dlouhé termíny zachovány přesně. České tvarosloví a volný slovosled situaci komplikuje. 7/39

Paralelní korpus 8/39

Automatické zarovnání po větách 9/39

Automatické zarovnání po větách 10/39

Zarovnaný paralelní korpus (1658) 11/39

Automatické zarovnání po slovech 12/39

Kolik textů je potřeba? 13/39

Kolik textů je potřeba? Víc. 13/39

Víc textů vyšší kvalita 14/39

Texty v doméně rovnou lepší výstup 15/39

Texty v doméně rychlejší zlepšení 16/39

Data pro aj čj v roce 2008 17/39

Vliv dat na kvalitu a neznámá slova 18/39

Komunitní data mimo doménu 19/39

Komunitní data mimo doménu 20/39

Profesionální překlady mimo doménu 21/39

Vše mimo doménu 22/39

Obdobný objem v doméně: mnohem lepší 23/39

Dodatečná data zlepší pokrytí 24/39

...ale mimo doménu mohou snížit kvalitu 25/39

Mimo doménu: kvalita i pokrytí horší 26/39

...víc dat zlepší pokrytí 27/39

...ale na moc kvalitu 28/39

Data raději z webu než z papíru 29/39

Paralelní webové stránky 30/39

Podstatná část dat nedostupná 31/39

Podstatná část dat nedostupná 32/39

I dostupné texty nemusí být vytěžitelné 33/39

A mnoho paralelních webů... 34/39

... je paralelních jen zčásti. 35/39

Postup 1. Najít dobré zdroje. 2. Získat surová data. 3. (Identifikovat a pojmenovat domény.) 4. Vyčistit. Odstranit navigační prvky, reklamu,... Odstranit neparalelní části. Odstranit jiné jazyky. 5. Zarovnat po dokumentech. 6. Zarovnat po větách. 7. Odstranit nekvalitně zarovnané části. 8. Zpřístupnit ostatním. Paralelní korpus CzEng. http://ufal.mff.cuni.cz/czeng 36/39

Šlo by to i lépe Můžete nám poradit dobré zdroje. Můžete nám pomoci s určením domény. Můžete nám přímo poskytnout své texty. 37/39

Šlo by to i lépe Můžete nám poradit dobré zdroje. Můžete nám pomoci s určením domény. Můžete nám přímo poskytnout své texty. 37/39

Shrnutí YOUR DATA IS NEEDED! 38/39

Shrnutí Lingvistické analýzy potřebují anotovaná data v doméně. MT potřebuje paralelní texty v doméně i mimo ni. Čím víc, tím ĺıp. Čím podobnější vstupům, tím lepší. Jazykové zdroje je třeba sdílet. I průmysl data sdíĺı. Zveřejněné překlady vytěžujeme, netriviální úsiĺı. Ideálně ne PDF, nejraději HTML s podobným URL. Lepší by byly primární zdroje, vaše texty. 39/39