Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Podobné dokumenty
1. Přehled cizojazyčných a vícejazyčných korpusů

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Vzdělávací oblast: Inovace a zkvalitnění Vzdělávací obor: žáci SOU všechny obory výuky cizích jazyků na středních školách

ve strojovém překladu

2. Korpusový portál a volně dostupné nástroje

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Tento pracovní list slouží k procvičování slovní zásoby, tvoření vět a k hraní si se slovy. Doporučený čas: 45 min. (dle schopností žáků)

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

Czenglish 1 ( )

PSANÍ. Anglický jazyk 5. třída Hana Stryalová

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Lokalizace QGIS, GRASS

Vzdálenost jednoznačnosti a absolutně

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

1 Úvod. 2 Existující korpusy a zdroje dat. 3 Technické aspekty. 5 Hledání v paralelních korpusech. 6 Další využití paralelních korpusů

M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

IA161 Pokročilé techniky zpracování přirozeného jazyka

Absolventská práce. žáka 9. ročníku

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

Present simple (přítomný čas prostý)

Antiplagiátorské nástroje pro naše repozitáře

Substituční šifry a frekvenční analýza. Mgr. Radim Janča ijanca@fit.vutbr.cz

Využití Umělé Inteligence (AI) v prostředí NKÚ




ANGLICKÝ TAHÁK, aneb jak se navždy zbavit nejčastějších CzeEnglish chyb.

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Project 1. My projects

Obsah. Obsah... 1 I. ŠKOLA VOLÁ - ZÁŘÍ ZÁŘÍ "ŠKOLKA VOLÁ" - JÁ A MOJI KAMARÁDI... 2

Jak dělat strojový překlad lépe než Google Translate

Czenglish 1 ( )

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Angličtina hravě - první stupeň

2AA TIME TO TALK (začátek od Unit 4) prof. Volfová Po 17:30 uč. 27

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Sport, sportování a hry

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

KIV/ZIS cvičení 5. Tomáš Potužák

Hello. Hello. y words. My Picture Dictionary Objects. 1 Přečtěte si v učebnici znovu stranu 4. Co jsou oblíbené věci těch osob?

Pokyny pro zpracování bakalářských prací

Convergence. Taxonomie z pohledu uživatele Q&A

Metodický návod. pro tvůrce didaktických podpor k cizojazyčným odborným filmům

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A20 Pořadové číslo: 20.

Doporučený čas: 45 min. (dle schopností žáků)

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

Jak resetovat heslo administrátora Rychlý průvodce HIKVISION TECHNICAL SUPPORT TEAM

Chytal tlouště na višni

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Zabezpečení proti SQL injection

7 Další. úlohy analýzy řeči i a metody

VY_22_INOVACE_84. P3 U3 Revision

Angličtina a němčina pod rozhraním Lingea EasyLex2 Ing. Miroslav HEROLD, CSc.

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Depfix: Jak dělat strojový překlad lépe než Google Translate

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

ÚSTAV ROMÁNSKÝCH STUDIÍ. Oddělení portugalistiky urs.ff.cuni.cz

Přehledvzdělávacích materiálů

ČASOVÁNÍ SLOVESA "TO HAVE"

How to order in a restaurant

Materiál slouží k procvičení znalosti přítomného času prostého, tvorbě vět a otázek.

Představte si, že hledáte dovolenou v Itálii. Co uděláte? Půjdete na italský vyhledávač a zadáte tam klíčové slovo vacanze in Italia?

Minulý čas prostý. Past simple. Výhradní výukový materiál portálu onlinejazyky.cz

Zabezpečení proti SQL injection


AJ 3_08_Shopping.notebook. November 08, úvodní strana

Czenglish 1 ( )

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

Městská knihovna v Praze

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

FAMILY AND RELATIONSHIPS

Microsoft Office Word 2003

Ročníková práce. Metodika tvorby. Jan Divišek Alena Beňadiková

ČTENÍ. Anglický jazyk 9. třída Mgr. Martin Zicháček. Jazyk Úroveň Autor Kód materiálu. Z á k l a d o v ý t e x t ( s l o v ) :

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie

Specializovaný korpus BANÁT a jeho využití

Metodik a koordinátor ICT - ICT a volný čas dětí a mládeže

Práce s osobními údaji studentů a uchazečů o studium

Jak porazit konkurenci v 95 znacích Outrider Czech Republic.

Paralelní korpusy. Alexandr Rosen

III_ _The Verb to Be sloveso Být pracovní list.doc III_ _The Verb to Be sloveso Být pracovní list - řešení.doc

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

VZDĚLÁVACÍ MATERIÁL. Závěrečná písemná práce pro 5. ročník z anglického jazyka Mgr. Iveta Milostná VY_32_INOVACE_A19 Pořadové číslo: 19.

Registrační číslo projektu: Škola adresa:

Průzkum paralelních dvojjazyčných textů v otázce určení autorství staročeského překladu

Macmillan Next Move Starter

Anglický jazyk 1. lekce Jméno. 2. ročník. Správně spoj. Použij k tomu různé pastelky. Dobré odpoledne

Výukový materiál. zpracovaný v rámci projektu. Pořadové číslo projektu:* Sada:* Šablona:* Ověření ve výuce: (nutno poznamenat v TK) Třída: Datum:

January 2, 2016 at 3:24pm 0 Comments 0 Likes Albuterol 4 Mg Où. Commander Kč Kč 1-30 dní let Do 15 minut

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Název školy: Základní škola Bavorov, okres Strakonice. Název: VY_32_INOVACE_09_16_Prověrka 1.pololetí

ŠKOLA. - pozdrav - začínáme s angličtinou - čísla pokyny učitele - školní potřeby - barvy - moje třída slovesa To je.., Já mám DOMÁCÍ ZVÍŘATA

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.

ANGLICKÝ TAHÁK, aneb jak se navždy zbavit nejčastějších CzeEnglish chyb.

ČEŠTINA PRO CIZINCE. ČC / JEDNOOBOROVÉ BAKALÁŘSKÉ STUDIUM PREZENČNÍ (tříleté) Povinné předměty

Transkript:

Paralelní korpusy 0/2 Z, zimní semestr 2006/2007 Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofická fakulta Univerzity Karlovy v Praze Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 1 / 96

1 Různé

Filmové titulky I http://www.opensubtitles.org/ http://divxsubtitles.net/ Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 81 / 96

Filmové titulky II 1 / 00:01:15,708 > 00:01:18,270 My name Borat. I like you. 2 / 00:01:19,037 > 00:01:20,026 I like sex. 3 / 00:01:21,091 > 00:01:22,309 It nice. 4 / 00:01:23,403 > 00:01:25,399 This my country of Kazakhstan. 5 / 00:01:26,205 > 00:01:31,818 It locate between Tajikistan and Kirghistan, and assholes, Uzbekistan. 1 / 00:01:14,268 > 00:01:18,949 Moje meno je Borat. Mám vás rád. 2 / 00:01:19,084 > 00:01:19,919 Mám rád sex. 3 / 00:01:21,099 > 00:01:22,299 Je hezký. 4 / 00:01:23,219 > 00:01:25,819 Tohle je moje země, Kazachstán. 5 / 00:01:26,819 > 00:01:31,819 Leží mezi Tádžikistánem, Kirgistánem a prdelí světa - Uzbekistánem. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 82 / 96

Problémy s formátem vstupu Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 83 / 96

Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 84 / 96

Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 85 / 96

Struktura textu stejná jako v originále? Ne nutně. Jazyky se liší v užívání: Příklad interpunkce dělení na věty přímé a nepřímé řeči Izvinite, požalujsta, čto ja pobespokoil vas tak pozdno, skazal on, no vaš videofon ne otključen, i ja rešil, čto vy ešče ne spite. "Promiňte, prosím, že vás ruším tak pozdě v noci," omlouval se. "Váš videofon ale nebyl vypnutý, myslel jsem si tedy, že ještě nespíte." Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 86 / 96

Zarovnávání textů s odlišnou strukturou Předpoklady při zarovnávání: 1 shodné nebo nepatrně odlišné pořadí vět v paralelních textech 2 minimum přidaných nebo vypuštěných pasáží 3 většina vět odpovídá 1:1, v jiných případech jsou čísla v m:n nízká vše kvůli efektivitě Příliš často neodpovídá realitě! Řešení? úprava textů před zarovnáním načtení textů do databáze, hledání korespondencí bez ohledu na pořadí Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 87 / 96

Zarovnávání slov, výrazů, větných členů Předpoklad: 1 segmentace/tokenizace v paralelních textech (nezávisle) 2 zjišt ování korespondencí (zarovnání) Segmentace ale může záviset na druhém jazyku: patentová přihláška demande de brevet Patenanmeldung domanda di brevetto Řešení? Víceúrovňová segmentace! Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 88 / 96

Drží se překladatelé co nejvíce originálu? Záleží na typu textu. V beletrii spíše ne. Důvody: cílový jazyk nemá srovnatelný výraz nebo konstrukci překladatel dá ze stylistických důvodů přednost jinému výrazu nebo konstrukci, i když má k dispozici doslovnější variantu překladatel se bojí, že udělá chybu, když použije identické výrazové prostředky A když vypadá překlad podobně jako originál tak může jít o neumělý, nepřirozený, doslovný překlad Navíc překladatelé někdy chybují a některé chyby může odhalit jen velmi dobrý znalec obou jazyků Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 89 / 96

Co když nemáme paralelní, ale jen srovnatelné texty? Texty mohou být neparalelní v různé míře: stejné věty jsou v textech na jiných pozicích texty obsahují jen větší či menší podíl stejných vět texty nepojednávají o stejném tématu texty nejsou ze stejného oboru Výsledkem je, že: výrazu nelze vždy přiřadit jednoznačný překlad ne vždy lze z textů překlad zjistit četnosti ekvivalentních výrazů v textech nelze srovnávat Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 90 / 96

Jak využít srovnatelné texty I Ale: je-li téma stejné, ekvivalentní výrazy se vyskytují ve všech jazycích ve srovnatelném kontextu v daném oboru a v určité době se ekvivalentní výrazy vyskytují se srovnatelnou frekvencí Jsou-li texty ze stejného oboru, na stejné téma a ze stejné doby: ekvivalentní výrazy se vyskytují v podobných kontextech ekvivalentní výrazy jsou srovnatelně frekventované Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 91 / 96

Jak využít srovnatelné texty II Hledání ekvivalentu podle srovnatelného kontextu 1 vyhledat slovo S A s kontextem v jazyce A 2 přeložit slova v kontextu S A pomocí nějakého slovníku do jazyka B 3 vyhledat kontexty s přeloženými slovy v jazyce B 4 hledané slovo S B je to, které je v těchto kontextech nejčastější Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 92 / 96

Jinak řečeno... (parafráze) I K čemu jsou parafráze dobré: generování (syntéza) přirozeného jazyka sumarizace hodnocení systémů strojového překladu hodnocení dotazovacích systémů Využití jednojazykového paralelního korpusu k parafrázování Emma burst into tears and he tried to comfort her, saying things to make her smile. Emma cried, and he tried to console her, adorning his words with puns. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 93 / 96

Jinak řečeno... (parafráze) II Postup 1 zarovnání po frázích (skupinách slov) 2 This situation is... in terms of security 3 under control unter Kontrolle 4 unter Kontrolle in check checked curbed *curb *limit *slow down (Bannard & Callison-Burch, ACL 2005) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 94 / 96