Paralelní korpusy. Alexandr Rosen

Podobné dokumenty
Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Úvod. 2 Existující korpusy a zdroje dat. 3 Technické aspekty. 5 Hledání v paralelních korpusech. 6 Další využití paralelních korpusů

1 Úvod. 2 Existující korpusy a zdroje dat. 3 Technické aspekty. 5 Hledání v paralelních korpusech. 6 Další využití paralelních korpusů

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

EU peníze středním školám digitální učební materiál

Verb + -ing or infinitive

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

Střední škola obchodní, České Budějovice, Husova 9, VY_INOVACE_ANJ_741. Škola: Střední škola obchodní, České Budějovice, Husova 9

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Paralelní korpusy úvod

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text

Absolventská práce. žáka 9. ročníku

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Střední průmyslová škola stavební Pardubice

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Název projektu: Multimédia na Ukrajinské

CLIL a projektové vyučování

Paralelní korpusy úvod

VY_12_INOVACE_ / Vyprávíme a překládáme příběh

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

POSLECH. Cinema or TV tonight (a dialogue between Susan and David about their plans for tonight)

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

Snow White and seven dwarfs

PŘEDPŘÍTOMNÝ prostý ČAS - procvičení

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

5. Učebnice str. 74, cvičení 5. Vybíráme podle jídelního lístku.

1. Přehled cizojazyčných a vícejazyčných korpusů

II_2-01_39 ABBA,Happy New Year, řešení II_2-01_39 ABBA,Happy New Year, for students

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

VY_22_INOVACE_84. P3 U3 Revision

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

CZ.1.07/1.5.00/

VY_22_INOVACE_CJ_III/2.21

II_ _Listening Pracovní list č. 2.doc II_ _Listening Pracovní list č. 3.doc II_ _Listening Řešení 1,2.doc

Socrates / Comenius Czech rep. 2006/2007

Angličtina pro radost I. Začátečníci

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Litosil - application

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

Primární modální slovesa CAN COULD (modál) I could play the piano. You could play the piano. He/She could play the piano. We could play the piano.

CZ.1.07/1.5.00/

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

seznamu nepravidelných sloves, osvojuje si správnou výslovnost, vede jednoduchý rozhovor

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Verbs Slovesa Test. PhDr. Zuzana Žantovská

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. Test

CZ.1.07/1.5.00/

CZ.1.07/1.5.00/

Kód DUM : VY_22_INOVACE_CJ_III/2. 19 Základní škola a Mateřská škola Dobronín, příspěvková organizace, Polenská 162 / 4, Dobronín

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

Název sady: Anglický jazyk pro 2. ročník čtyřletých maturitních uměleckořemeslných oborů

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

AJ 3_08_Shopping.notebook. November 08, úvodní strana

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

VY_22_INOVACE_číslo přílohy 1_AJ_6A_29. Úvodní část seznámení s cílem hodiny pohádka The Ugly Ducklings


Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

11/ Podmínkové věty. ( 1st Conditional) VY_32_INOVACE_AJ_UMA11,Podmínkové věty (1st Conditional).notebook. January 28, 2014

Náhradník Náhradník 9.A

PRIMÁRNÍ MODÁLNÍ SLOVESA CAN

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

Vánoční sety Christmas sets

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

Příjemce: Základní škola, Základní umělecká škola a Mateřská škola Lipnice nad Sázavou č. 213, Lipnice nad Sázavou

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

CZ.1.07/1.5.00/

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Od 9.p.r. VY_22_INOVACE_66_Píseň Someone like you. Použité zdroje :

I prefer a small shop in front of shopping centers it is comfortable and not there many people.

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Digitální učební materiál

Angličtina pro každého posloucháte - rozumíte - mluvíte

18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013

Instrukce: Cvičný test má celkem 3 části, čas určený pro tyto části je 20 minut. 1. Reading = 6 bodů 2. Use of English = 14 bodů 3.

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Jak na paralelní texty s programem ParaConc

Transkript:

Paralelní korpusy seminář ÚČNK, 2. dubna 2009 Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze alexandr.rosen@ff.cuni.cz http://utkl.ff.cuni.cz/~rosen Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 1 / 156

1 Úvod 2 Existující korpusy a zdroje dat 3 Technické aspekty 4 Příprava textů 5 Hledání v paralelních korpusech 6 Další využití paralelních korpusů 7 Různé 8 Web jako paralelní korpus 9 Přílohy

Úvod Osnova 1 Úvod: korpusy a korpusová lingvistika, paralelní korpusy a jejich využití 2 Ukázky: existující projekty a zdroje dat 3 Výběr a získávání textů: vyváženost korpusu, technické a právní problémy 4 Technické aspekty: formát dat, programové nástroje, hardware 5 Příprava textů: opravy a úpravy, konverze 6 Zarovnávání (alignment): automatické nástroje, kontrola a opravy 7 Hledání v paralelním korpusu: nástroje a práce s nimi 8 Další způsoby využití paralelních korpusů: komputační lexikografie, hledání v cizojazyčných textech, strojový nebo počítačem podporovaný překlad,... Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 3 / 156

Korpusy a paralelní korpusy K čemu je paralelní korpus? Ukázky paralelních konkordancí

Úvod Korpusy a paralelní korpusy Co je to paralelní korpus? Paralelní korpus obsahuje stejná nebo srovnatelná data ve více podobách, které se liší jazykem nebo verzí překladu. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 5 / 156

Úvod Korpusy a paralelní korpusy Typy paralelních korpusů: srovnatelné (texty ze stejného oboru, nikoli překlady) překladové Většinou se paralelní korpusy ztotožňují s překladovými. Podmínky pro rozumnou práci s paralelními korpusy: zarovnání po větách paralelní korpusový manažer (concordancer) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 6 / 156

Úvod Korpusy a paralelní korpusy Nevýhody paralelních korpusů: texty nejsou autentické, většinou jen překlady texty nejsou reprezentativní, paralelně lze získat jen některé typy textů předpokladem rozumného využití je spolehlivé zarovnání po větách, ale automatické metody zarovnávání nefungují na 100 % není snadné získat nástroje, které mají požadované funkce a přitom nevyžadují speciální znalosti Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 7 / 156

Korpusy a paralelní korpusy K čemu je paralelní korpus? Ukázky paralelních konkordancí

Úvod K čemu je paralelní korpus? Rovnou pro lidi: pro lexikografy paralelní konkordance extrakce ekvivalentů slov nebo kolokací pro překladatele paralelní konkordance překladová pamět (Translation Memory) automatická písařka (nabízí nejpravděpodobnější pokračování) pro učitele a studenty cizích jazyků pro translatology, literární vědce, komparatisty, dialektology pro ostatní lingvisty taky! Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 9 / 156

Úvod K čemu je paralelní korpus? Pro aplikace: statistický strojový překlad (Statistical Machine Translation) strojový překlad podle příkladů (Example-based Machine Translation) vyhledávání informací ve více jazycích (cross-language information retrieval) zjednoznačňování interpretace textu v jednom jazyce na základě jazyka druhého Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 10 / 156

Korpusy a paralelní korpusy K čemu je paralelní korpus? Ukázky paralelních konkordancí

determined I Ve slovníku (Hais Hodek, Academia 1991): determined 1 rozhodný, zarytý 2 rozhodnutý, odhodlaný, zamanuvší 3 v. determine determine 1 určit, určovat, stanovit, udat, udávat 2 rozhodnout, učinit rozhodnutí 3 rozhodnout se 4 zjistit, vyšetřit, vypočíst 5 přimět 6 zanikat, končit, ukončit 7 vymezit, ohraničit

determined II By now Les had engineered dozens of multiple-recorded discs and was determined that the world hear them. Hackman returned to New York determined to succeed. But Mr. Hill certainly had it, and I was determined to see how it worked. Steven was determined to make himself understood. Now, however, as the trial progressed, Donna grew stronger and more determined. Kallie rose slowly, determined to please her mistress. But that only made me more determined. Les měl tou dobou už desítky vícestopě nahraných desek a usiloval o to, aby je uslyšel i svět. Hackman se vrátil do New Yorku s předsevzetím, že prorazí. Pan Hill ji však zcela jistě vzbuzoval a já chtěl vidět, jak toho dociluje. Steven měl všechny předpoklady pro to, aby se naučil mluvit. Jak se však proces vyvíjel, Donna se zocelovala a odhodlávala. Kallie se zvedala pomalu, ale s odhodláním potěšit svou paní. Tím však jen posílili mé odhodlání.

determined III When a reunion of the Point Cruz crew was organized for September 1993, Bill was determined to have George there. As a young factory worker, Sheets was determined to give his three children summers they would always remember. Eager to impress the head keeper with my animal-handling expertise, I made a determined grab. If you find yourself going flat or tentative, determined thoughts can make all the difference. Když se bývalí členové posádky dohodli, že se v září 1993 zase po letech sejdou, zařekl se Bill, že tam "George" nesmí chybět. Když ještě zamlada pracoval v továrně, umínil si, že svým třem dětem dopřeje letní prázdniny, na jaké nikdy nezapomenou. Ale já jsem chtěl hlavního ošetřovatele ohromit svou zručností při manipulaci se zvířaty a rázně jsem bažanta popadl. Když se vám zdá, že ochabujete nebo že se cítíte nejistí, vše můžou napravit pevné, vyhraněné myšlenky.

determined IV Even before the diagnosis was confirmed, the Odones, both determined, strong-willed people, had decided they would learn all they could about the disease. I would close my eyes, determined not to give him the satisfaction of seeing me cry. Ještě před potvrzením diagnózy se Odoneovi, oba cílevědomí a nezdolní lidé, rozhodli, že si o té chorobě zjistí, co se dá. Jen mu neudělat radost, jen se nerozbrečet!

sophisticated I Ve slovníku (Hais Hodek, Academia 1991): sophisticated 1 příliš zkušený, znalý světa, blazeovaný, náročný, intelektuálně na výši, vysoce kultivovaný, překultivovaný 2 výlučný, exkluzivní, vysoce náročný, pro úzký okruh 3 (stroj) velmi složitý, komplikovaný, (zbraň) sofistikovaný; (teorie) složitý, subtilní, rafinovaný, vyspekulovaný 4 (auto) s posledními technickými vymoženostmi 5 klamný 6 viz sophisticate, v.

sophisticated II This led to the development of synchronized stereophonic tape, right up to the sophisticated present. This technological marvel has become amazingly sophisticated. At the city s Wat Nai Rong High School, 17-year-old Wasana Warathongchai says smoking makes her feel sophisticated and cosmopolitan, like America. I didn t get a buzz, because I didn t inhale, but just the fact I was actually smoking made me think I was cool sophisticated. To vedlo k vývoji synchronizované stereofonní nahrávky v její dnešní dokonalosti. Tato technická hříčka se totiž v poslední době podivuhodně zdokonalila. Sedmnáctiletá studentka střední školy Wasana Warathongchai vysvětluje, že když kouří, připadá si moderní a kosmopolitní jako Amerika. Nic to se mnou neudělalo, protože jsem nešlukovala, ale pocit, že doopravdy kouřím, byl fantastický.

sophisticated III Kids or teen-agers who think smoking is cool sophisticated or who want to try it: don t! Today, after years of research, educators are more sophisticated about detecting learning disabilities and teaching children how to compensate for them. Scientists had processed the images and additional ones from sophisticated Landsat satellites, which used a number of light and radio wavelengths to detect surface details. I wanted my mother to be more sophisticated, like my friends mothers. Všem klukům a holkám, kterým kouření připadá takové dospělé a rádi by to zkusili taky, chci říct: Nedělejte to! Dnes, po mnohaletých výzkumech, jsou učitelé o poruchách schopnosti učení více informováni, umí je rozpoznat a vědí, jak takové děti učit. Odborníci analyzovali snímky z vesmíru i fotografie získané z družic Landsat, které k mapování povrchu Země využívají světelné a radiové vlny. Chtěla jsem, aby moje matka byla elegantní jako matky mých kamarádek.

sophisticated IV And perhaps because, at still another level, we enjoy watching their gloriously sophisticated competition for our favors. Fleming secured sophisticated radio pagers that would keep the surveillance teams in constant contact with the Bexleyheath control center and alert them if the Ian and Nina Fox cash card was being used at an ATM machine. In the near future, data collection will become even more sophisticated. Možná i proto, že na ještě jiné úrovni zálibně pozorujeme, jak rafinovaně se ucházejí o naši přízeň. Fleming opatřil výkonná radiofonická pojítka, která umožňovala, aby sledovací týmy byly v nepřetržitém kontaktu s řídícím střediskem v Bexleyheathu a mohly je okamžitě uvědomit, kdyby někdo použil platební kartu Foxových. V blízké budoucnosti se sběr dat v supermarketech stane ještě významnější disciplínou.

1 Úvod 2 Existující korpusy a zdroje dat 3 Technické aspekty 4 Příprava textů 5 Hledání v paralelních korpusech 6 Další využití paralelních korpusů 7 Různé 8 Web jako paralelní korpus 9 Přílohy

Kde je něco česky? Další paralelní korpusy

Existující korpusy a zdroje dat Kde je něco česky? Paralelní korpusy s češtinou Kačenka: Korpus anglicko-český Katedry anglistiky FF MU Brno, celkem přes 3 mil. slov http://www.phil.muni.cz/angl/kacenka/kachna.html PCEDT: Prague Czech-English Dependency Treebank: 22k vět z Wall Street Journal, 53k vět z Reader s Digest http://ufal.mff.cuni.cz/pcedt/doc/pcedt_main.htm Multext/East: 1984 (George Orwell) nl.ijs.si/me/ OPUS: Evropská ústava (21 jazyků, č.: 11k vět, 128k slov), systémová hlášení KDE (61 jazyků, č.: 90k vět, 367k slov), manuály PHP (22 jazyků, č.: 63k vět, 147k slov) http://logos.uio.no/opus/ Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 22 / 156

Existující korpusy a zdroje dat Kde je něco česky? Paralelní korpusy s češtinou pokr. Acquis Communautaire: 21 jazyků, č.: 6 mil. slov http://wt.jrc.it/lt/acquis/ Parallel Corpus of Computer Terms Slovenský národný korpus http://korpus.juls.savba.sk/pcct/index.sk.html CzEng: Czech-English Parallel Corpus: Acquis, EU, Navajo, Gnome, KDE, e-books (č.: 1,4 mil. vět, 21 mil. slov) http://ufal.mff.cuni.cz/czeng/ InterCorp: http://korpus.cz/corpora/intercorp/ Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 23 / 156

Existující korpusy a zdroje dat Kde je něco česky? Elektronicky čitelné texty ve více jazycích beletrie, zákony EU, www stránky Resnik & Smith (2002) The web as a parallel corpus http://www.umiacs.umd.edu/~resnik/pubs.html Baroni, Kilgariff, Pomikálek, Rychlý: WebBootCat nástroj na generování korpusu podle zadaných klíčových slov http://corpora.fi.muni.cz/bootcat Nebo naskenovat...... Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 24 / 156

Kde je něco česky? Další paralelní korpusy

Existující korpusy a zdroje dat Další paralelní korpusy Korpusy prohledávatelné z webového rozhraní COMPARA: Portuguese-English http://www.linguateca.pt/compara/welcome.html Slovene-English Parallel Corpus, asi 1 mil. slov http://nl.ijs.si/elan/ Hunglish, Hungarian-English, 54,2 mil. slov http://mokk.bme.hu/resources/hunglishcorpus English-Norwegian Parallel Corpus, obsahuje i španělštinu, němčinu a francouzštinu http://129.177.24.120/webtce.htm Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 26 / 156

Existující korpusy a zdroje dat Další paralelní korpusy Různé další odkazy Sentence Alignment and Word Alignment: Projects, Papers, Evaluation, etc. http://www.cs.unt.edu/~rada/wa/ Building and Using Parallel Texts: Data Driven Machine Translation and Beyond HLT-NAACL 2003 Workshop, May 31, 2003 http://www.cs.unt.edu/~rada/wpt/ Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 27 / 156

1 Úvod 2 Existující korpusy a zdroje dat 3 Technické aspekty 4 Příprava textů 5 Hledání v paralelních korpusech 6 Další využití paralelních korpusů 7 Různé 8 Web jako paralelní korpus 9 Přílohy

Formát dat Programové nástroje

Technické aspekty Formát dat Postup přípravy textů pro paralelní korpus 1 akvizice 2 konverze 3 čištění 4 segmentace 5 značkování 6 zarovnávání 7 import do korpusového manažeru Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 30 / 156

Technické aspekty Formát dat Kódování znaků ISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, UTF-8 (Unicode) Kódování formátu slova, věty, odstavce, kapitoly; korespondence mezi nimi, pro 2 jazyky: 1 soubor, např. TMX http://www.lisa.org/standards/tmx/ 2 soubory, např. ParaConc, Moore 3 soubory, např. XCES http://www.xml-ces.org/ Lingvistické značkování... Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 31 / 156

Technické aspekty Formát dat Kódování formátu vše v jednom souboru výstup z programu G&C *** Link: 1-1 *** <Ocs.1.1.2.5> Nemělo smysl zkoušet výtah. <Oen.1.1.2.5> It was no use trying the lift. *** Link: 1-2 *** <Ocs.1.1.2.6> I v lepších časech zřídka fungoval a ted se elektrický proud přes den vypínal v rámci úsporných opatření v přípravách na Týden nenávisti. <Oen.1.1.2.6> Even at the best of times it was seldom working, and at present the electric current was cut off during daylight hours. <Oen.1.1.2.7> It was part of the economy drive in preparation for Hate Week *** Link: 2-1 *** <Ocs.1.1.2.7> Byt byl v sedmém patře. <Ocs.1.1.2.8> Winston, kterému bylo devětatřicet a měl bércový vřed nad pravým kotníkem, kráčel pomalu a několikrát si cestou odpočinul. <Oen.1.1.2.8> The flat was seven flights up, and Winston, who was thirty-nine and had a varicose ulcer above his right ankle, went slowly, resting several times on the way. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 32 / 156

Kódování formátu vše v jednom souboru výstup z programu Hunalign hunalign <P id="cs.1">start</p> <P id="en.1">start</p> <P id="cs.2">rozhodnutí,</p> <P id="cs.3">kterým se stanoví den, ke kterému Zásobovací agentura Euratomu přebírá své povinnosti a kterým se schvaluje nařízení Agentury, kterým se stanoví postup při vyrovnání nabídky a poptávky u rud, výchozích materiálů a zvláštních štěpných materiálů</p> <P id="cs.4">komise EVROP- SKÉHO SPOLEČENSTVÍ PRO ATOMOVOU ENERGII,</P> <P id="en.2">decision fixing the date on which the Euratom Supply Agency shall take up its duties and approving the Agency Rules of 5 May 1960 determining the manner in which demand is to be balanced against the supply of ores, source materials and special fissile materials</p> <P id="en.3">the COMMIS- SION OF THE EUROPEAN ATOMIC ENERGY COMMU- NITY, </P> 1.3 0.035230 0.670313

Technické aspekty Formát dat Kódování formátu vše v jednom souboru databáze Trados, textový formát I <TrU> <ChD>26111999, 10:13:42 <Seg L=DE-DE>Terme werden so eingegeben, wie man sie üblicherweise schreibt. <Seg L=CS>Výrazy se zadávají v obvyklém formátu. </TrU> <TrU> <ChD>26111999, 10:13:42 <Seg L=DE-DE>Ein- und Ausgabe sind gleichzeitig sichtbar. <Seg L=CS>Zadané údaje a výsledky jsou viditelné současně. </TrU> <TrU> <ChD>26111999, 10:13:42 Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 34 / 156

Technické aspekty Formát dat Kódování formátu vše v jednom souboru databáze Trados, textový formát II <Seg L=DE-DE>Zusammenhänge werden so leichter erkennbar. <Seg L=CS>Souvislosti tak lépe vyniknou. </TrU> <TrU> <ChD>26111999, 10:13:43 <Seg L=DE-DE>Vorangegangene Eingaben werden gesichert. <Seg L=CS>Chyba v zadaných údajích je hned patrná. </TrU> Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 35 / 156

Technické aspekty Formát dat Kódování formátu 1 soubor, formát TMX I <tu tuid="3589" datatype="text" changedate="19991126t101342z"> <tuv lang="de-de"> <seg>terme werden so eingegeben, wie man sie üblicherweise schreibt.</seg> </tuv> <tuv lang="cs"> <seg>výrazy se zadávají v obvyklém formátu.</seg> </tuv> </tu> <tu tuid="3590" datatype="text" changedate="19991126t101342z"> <tuv lang="de-de"> <seg>ein- und Ausgabe sind gleichzeitig sichtbar.</seg> </tuv> <tuv lang="cs"> <seg>zadané údaje a výsledky jsou viditelné současně.</seg> </tuv> </tu> Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 36 / 156

Technické aspekty Formát dat Kódování formátu 1 soubor, formát TMX II <tu tuid="3591" datatype="text" changedate="19991126t101342z"> <tuv lang="de-de"> <seg>zusammenhänge werden so leichter erkennbar.</seg> </tuv> <tuv lang="cs"> <seg>souvislosti tak lépe vyniknou.</seg> </tuv> </tu> <tu tuid="3592" datatype="text" changedate="19991126t101343z"> <tuv lang="de-de"> <seg>vorangegangene Eingaben werden gesichert.</seg> </tuv> <tuv lang="cs"> <seg>chyba v zadaných údajích je hned patrná.</seg> </tuv> </tu> Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 37 / 156

Technické aspekty Formát dat Kódování formátu 2 soubory výstup z programu ParaConc... <seg id="8">nemělo smysl zkoušet výtah. </seg> <seg id="9">i v lepších časech zřídka fungoval a ted se elektrický proud přes den vypínal v rámci úsporných opatření v přípravách na Týden nenávisti. </seg> <seg id="10">byt byl v sedmém patře. Winston, kterému bylo devětatřicet a měl bércový vřed nad pravým kotníkem, kráčel pomalu a několikrát si cestou odpočinul. </seg>...... <seg id="8">it was no use trying the lift. </seg> <seg id="9">even at the best of times it was seldom working, and at present the electric current was cut off during daylight hours. It was part of the economy drive in preparation for Hate Week </seg> <seg id="10">the flat was seven flights up, and Winston, who was thirty-nine and had a varicose ulcer above his right ankle, went slowly, resting several times on the way.</seg>... Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 38 / 156

Technické aspekty Formát dat Kódování formátu 3 soubory formát XCES v korpusu OPUS cs... <s id="s18.2"> <w id="w18.2.1">ve</w> <w id="w18.2.2">svých</w> <w id="w18.2.3">vztazích</w> <w id="w18.2.4">s okolním</w> <w id="w18.2.5">světem</w> <w id="w18.2.6">unie</w> <w id="w18.2.7">zastává</w> <w id="w18.2.8">a podporuje</w> <w id="w18.2.9">své</w> <w id="w18.2.10">hodnoty</w> <w id="w18.2.11">a zájmy</w> <w id="w18.2.12">.</w> </s>... Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 39 / 156

Technické aspekty Formát dat Kódování formátu 3 soubory formát xces v korpusu opus en <s id="s18.2"> <chunk id="c18.2-1" type="pp"> <w id="w18.2.1" tree="in" lem="in" pos="in">in</w> </chunk> <chunk id="c18.2-2" type="np"> <w id="w18.2.2" tree="pp$" lem="its" pos="prp$">its</w> <w id="w18.2.3" tree="nns" lem="relation" pos="nns">relations</w> </chunk>... <chunk id="c18.2-7" type="vp"> <w id="w18.2.11" tree="md" lem="shall" pos="md">shall</w> <w id="w18.2.12" tree="vv" lem="uphold" pos="vb">uphold</w> <w id="w18.2.13" tree="cc" lem="and" pos="cc">and</w> <w id="w18.2.14" tree="vv" lem="promote" pos="vb">promote</w>... <w id="w18.2.19" tree="sent" lem="." pos=".">.</w> </s> Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 40 / 156

Technické aspekty Formát dat Kódování formátu 3 soubory formát XCES v korpusu OPUS csen <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE cesalign PUBLIC "-//CES//DTD XML cesalign//en" ""> <cesalign fromdoc="cs/c2004310cs.01001101.xml" todoc="en/c2004310en.01001101.xml" version="1.0"> <linkgrp targtype="s" fromdoc="cs/c2004310cs.01001101.xml" todoc="en/c2004310en.01001101.xml"> <link certainty="0" id="sl0.1" xtargets="s1.1;s1.1" /> <link certainty="13" id="sl1.1" xtargets="s2.1;s2.1" />... <link certainty="29" id="sl17.2" xtargets="s18.2;s18.2" />... Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 41 / 156

Technické aspekty Formát dat Kódování formátu 3 soubory výstup ze zarovnávače GMA 1367 <=> 1341 1368 <=> 1342 1369 <=> 1343 1370 <=> 1344 1371 <=> 1345,1346 1372 <=> 1347 1373 <=> 1348,1349 1374 <=> omitted 1375,1376 <=> 1350 1377,1378 <=> 1351 1379 <=> 1352 1380 <=> 1353 1381 <=> 1354 1382 <=> 1355 1383 <=> 1356 Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 42 / 156

Technické aspekty Formát dat Kódování formátu 3 soubory výstup ze zarovnávače Hunalign 0 0 1.3 1 1 0.0352308 3 2 0.670313 4 3 2.16048 5 4 0.571795 6 5 0.442454 7 6 0.883784 8 7 1.7875 9 8 0.44718 10 9 1.788 11 10 0.394338 12 11 1.788 13 12 0.525556 14 13 1.39146 15 14 1.788 16 15 0.423446 hunalign Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 43 / 156

Formát dat Programové nástroje

Technické aspekty Programové nástroje Použitelné z webového rozhraní System Quirk: Text Alignment Server http://www.computing.surrey.ac.uk/systemq/align/ Corpógrafo, a web-based corpora linguistics tool http://www.linguateca.pt/corpografo/ Segmentace a zarovnání: http://chomsky.ruk.cuni.cz/hunalign. Napište si vyučujícímu o login a heslo. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 45 / 156

1 Úvod 2 Existující korpusy a zdroje dat 3 Technické aspekty 4 Příprava textů 5 Hledání v paralelních korpusech 6 Další využití paralelních korpusů 7 Různé 8 Web jako paralelní korpus 9 Přílohy

Příprava textů Postup přípravy textů pro paralelní korpus 1 akvizice 2 konverze 3 čištění 4 segmentace 5 značkování 6 zarovnávání 7 import do korpusového manažeru Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 47 / 156

Poloautomatické zarovnávání Automatické zarovnávání Hodnocení výsledků zarovnávání Recept na (paralelní) korpus

Příprava textů Poloautomatické zarovnávání Nástroje na poloautomatické zarovnávání jako součást programového balíku pro podporu překladatele (CAT) - provádí i konverzi a segmentaci, např.: Trados - inteligentní zarovnávání, ale $$$ http://www.trados.com Déjà Vu 3 - funkční součást demoverze, jen základní funkce http://www.atril.com CypreSoft TRANS Suite 2000 Align - freeware, základní funkce i párování bez ohledu na pořadí segmentů http://www.cypresoft.com SDLX http://www.sdlintl.com Star Transit http://www.star-ag.ch WordFast, makra do MS Wordu http://www.wordfast.org WordFisher, dtto http://www.wordfisher.com Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 49 / 156

Příprava textů Poloautomatické zarovnávání Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 50 / 156

Příprava textů Poloautomatické zarovnávání Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 51 / 156

Příprava textů Poloautomatické zarovnávání Funkce poloautomatických nástrojů I Konverze formátů pouze text textové editory (Word, RTF, OpenOffice, WordPerfect,... ) prezentace (PowerPoint,... ) tabulkové procesory (Excel,... ) databáze (Access,... ) DTP (FrameMaker, PageMaker, QuarkXPress, InDesign,... ) značkované texty (HTML, SGML/XML, TMX,... ) lokalizace softwaru (Interleaf, soubory nápovědy, C, Java, GNU Gettext,... ) formáty CAT (Trados, TMX,... ) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 52 / 156

Příprava textů Poloautomatické zarovnávání Funkce poloautomatických nástrojů II Konverze kódování znaků ISO 8859-2 (ISO Latin 2) CP 1250 (MS Windows) Mac CE Unicode (UTF-8,... ) Segmentace na věty, nadpisy, položky seznamů, popisky obrázků podle odstavců ( ) nebo již provedené částečné segmentace podle typických zakončení věty: interpunkce mezera výjimky: zkratky, čísla Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 53 / 156

Příprava textů Poloautomatické zarovnávání Funkce poloautomatických nástrojů III Automatické zarovnávání sekvenčně podle segmentů podle nadpisů podle formátování podle délky segmentů podle pravděpodobných ekvivalentů - "anchor points" (čísla, podobné řetězce, překlady slov podle slovníku) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 54 / 156

Příprava textů Poloautomatické zarovnávání Funkce poloautomatických nástrojů IV Kontrola a opravy automatického zarovnávání paralelní prohlížení spojování po sobě jdoucích segmentů rozdělování segmentů mazání segmentů změna pořadí segmentů zarovnávání segmentů 1 : n, n : 1, n : n korespondence křížem Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 55 / 156

Příprava textů Poloautomatické zarovnávání Nástroje na poloautomatické zarovnávání jako součást programového balíku pro jako součást programového balíku pro zpracování paralelních textů, např.: Logiterm (Terminotix, Inc.) http://www.terminotix.com MultiTrans http://www.multicorpora.com ParaConc http://www.ruf.rice.edu/~barlow/parac.html Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 56 / 156

Příprava textů Poloautomatické zarovnávání Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 57 / 156

Příprava textů Poloautomatické zarovnávání Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 58 / 156

Příprava textů Poloautomatické zarovnávání Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 59 / 156

Poloautomatické zarovnávání Automatické zarovnávání Hodnocení výsledků zarovnávání Recept na (paralelní) korpus

Příprava textů Automatické zarovnávání Nástroje na automatické zarovnávání I Podle délky segmentů ve znacích Gale&Church 1991 Vanilla Aligner http://www.research.att.com/~kwc/publications.html,http: //nl.ijs.si/telri/vanilla/,http: //www.issco.unige.ch/tools/,http://spraakbanken.gu.se/lb/ downloads.html,evert@ims.uni-stuttgart.de (EasyAlign - součást IMS CWB) Podle délky segmentů ve slovech Brown et al. 1991 Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 61 / 156

Příprava textů Automatické zarovnávání Nástroje na automatické zarovnávání II Podle "anchor points" distribuce ekvivalentů Kay&Röscheisen 1993 čísla, formátování, podobné řetězce dvoujazyčný slovník Melamed 1996 http://www.cs.nyu.edu/~melamed/gma/docs/readme.htm Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 62 / 156

Příprava textů Automatické zarovnávání Nástroje na automatické zarovnávání III Kombinace více metod Moore 2002 http://research.microsoft.com/research/downloads/ předběžné zarovnání podle délky extrakce dvoujazyčného slovníku (stochastickou metodou) přesnější zarovnání podle slovníku HunAlign http://mokk.bme.hu/resources/hunalign kombinuje zarovnání podle délky, podle ekvivalentů ze slovníku i stochastickou metodu nastavením parametrů lze přizpůsobit konkrétní dvojici jazyků Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 63 / 156

Poloautomatické zarovnávání Automatické zarovnávání Hodnocení výsledků zarovnávání Recept na (paralelní) korpus

Příprava textů Hodnocení výsledků zarovnávání Čím se měří úspěšnost zarovnávání I Pokrytí (recall) Porovnává se počet správně určených korespondencí (correct links) se skutečným stavem, tedy celkovým počtem korespondencí v souboru (reference links). pokrytí = počet správně určených korespondencí počet korespondencí v souboru Přesnost (precision) Porovnává se počet správně určených korespondencí (correct links) s počtem navržených korespondencí ve výsledku zarovnání (test links) přesnost = počet správně určených korespondencí počet korespondencí ve výsledku Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 65 / 156

Příprava textů Hodnocení výsledků zarovnávání Čím se měří úspěšnost zarovnávání II Míra F (F-measure) harmonický průměr pokrytí a přesnosti míra F = 2 pokrytí přesnost pokrytí + přesnost Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 66 / 156

Ukázky výsledků I AC 46+46 dokumentů z anglicko-české části Acquis Communautaire (asi 1%); se zachováním všech chyb (vynechávky, chybná segmentace); segmenty = odstavce 1984 román George Orwella, anglicky a česky (výsledek projektu Multext-East) FR7 sedm francouzských monografií (beletrie a literatura faktu) + české překlady Výsledky byly porovnány s ručně opraveným zarovnáním: Text Cz words L2 words Cz segs L2 segs All links 1:1 links AC 62,010 74,986 3,025 2,699 2,685 89% 1984 99,099 121,661 6,756 6,741 6,657 97% FR7 289,003 337,226 21,936 21,746 21,207 95%

Ukázky výsledků II Ref. Test Correct Recall Prec. F-measure AC GC 2700 2683 2225 82.41 82.93 82.67 Mmd + 2700 2686 2492 92.30 92.78 92.54 Mre 2700 2313 2218 82.15 95.89 88.49 Mre + 2700 2375 2308 85.48 97.18 90.96 1984 GC 6657 6633 6446 96.83 97.18 97.01 Mmd + 6657 6606 6287 94.44 95.17 94.81 Mre 6657 6167 6110 91.78 99.08 95.29 Mre* 6657 6370 6320 94.94 99.22 97.03 Mre + 6657 6441 6402 96.17 99.39 97.76 Hun 6657 6689 6535 98.17 97.70 97.93 F7 GC 21207 20868 19427 91.61 93.09 92.34 Mre 21207 19512 18801 88.65 96.36 92.35 Mmd 21207 21057 16161 76.21 76.68 76.44

Ukázky výsledků III Ref. Test Correct Recall Prec. F-measure AC GC 2391 2248 2156 90.17 95.91 92.95 Mmd + 2391 2354 2304 96.36 97.88 97.11 Mre 2391 2313 2218 92.76 95.89 94.30 Mre + 2391 2375 2308 96.53 97.18 96.85 1984 GC 6440 6438 6274 97.42 97.45 97.44 Mmd + 6404 6301 6287 97.62 99.78 98.69 Mre 6440 6167 6110 94.88 99.08 96.93 Mre* 6440 6370 6320 98.14 99.22 98.67 Mre + 6440 6441 6402 99.41 99.39 99.40 Hun 6440 6479 6386 99.16 98.56 98.86 F7 GC 20116 19220 19427 92.62 96.94 94.73 Mre 20116 19512 18801 93.46 96.36 94.89 Mmd 20116 19714 15539 77.25 78.82 78.03

Ukázky výsledků IV Pořadí podle F-measure (všechny korespondence) Rank AC 1984 F7 1. 92.54 Mmd + 97.93 Hun 92.35 Mre 2. 90.96 Mre + 97.76 Mre + 92.34 GC 3. 88.49 Mre 97.03 Mre* 76.44 Mmd 4. 82.67 GC 97.01 GC 5. 95.29 Mre 6. 94.81 Mmd +

Poloautomatické zarovnávání Automatické zarovnávání Hodnocení výsledků zarovnávání Recept na (paralelní) korpus

Příprava textů Recept na (paralelní) korpus S ParaConkem Vstup: dva soubory v textovém formátu, kódování Windows nebo UTF-8, s hranicemi odstavců Co pomáhá: Zarovnání po odstavcích Označené hranice vět Označené sekce (kapitoly) Zarovnání po větách Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 72 / 156

Příprava textů Recept na (paralelní) korpus Word&ParaConc à la InterCorp http://ucnk.ff.cuni.cz/intercorp/?req=id:5 1 Načtení textu do editoru MS Word 2 Vyčištění textu 3 Oddělení odstavců prázdným řádkem ukázky 4 Export z MS Wordu pomocí makra ICorpExport do textového formátu (označení odstavců <p>...</p>, kódování Windows podle jazyka, např CP1250) 5 Očíslování odstavců (<p id=...>), označení vět v českém textu (<s>...</s>), očíslování vět (<s id=...>) 6 Načtení do ParaConku jako Not Aligned 7 Oprava odlišného počtu odstavců spojením/rozdělením odstavců v cizím jazyce 8 Oprava zarovnání na věty (nepovinné) 9 Export z ParaConku do dvou souborů se značkami pro segmenty (<seg id=...>...</seg>) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 73 / 156

Příprava textů Recept na (paralelní) korpus Bolavá místa při přípravě textů zarovnání odstavců (i při stejném počtu odstavců může dojít k posunutí) určení hranic vět (není univerzální automatická metoda, která nevyžaduje další znalosti např. seznamy zkratek) zarovnání vět (automatická metoda nefunguje na 100%) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 74 / 156

Příprava textů Recept na (paralelní) korpus Řešení bolavých míst Řešení v ParaConku zarovnání odstavců: ruční spojování/dělení určení hranic vět: seznam zkratek, ruční opravy zarovnání vět: ruční spojování/dělení Problémy: ParaConc nefunguje na 100% hodně ruční práce Ale: Při troše štěstí a pečlivé ruční práci 100% výsledek Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 75 / 156

Příprava textů Recept na (paralelní) korpus Řešení mimo ParaConc využití jiného zarovnávače k zarovnání odstavců využití jiného zarovnávače k zarovnání vět Ale: pak je třeba určit hranice vět ve všech jazycích Zarovnávání on-line spouštění zarovnávače z webového rozhraní spouštění děliče vět pro daný jazyk z webového rozhraní Možnosti zarovnání odstavců: stačí zarovnávač zarovnání vět: je třeba dělič Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 76 / 156

Příprava textů Recept na (paralelní) korpus Děliče vět: Sentence splitters, Segmenters, Tokenizers, Sentencers tokenizér/segmentátor Pavla Květoně pro češtinu, používá se v projektu InterCorp, další aplikace třeba dohodnout s autorem MULTEXT/MULTEXT-East http://nl.ijs.si/me/cd/docs/mte-tools.html segmenter v sadě nástrojů ke zpracování bulharštiny, češtiny, angličtiny, estonštiny, mad arštiny, rumunštiny, slovinštiny, francouzštiny, španělština, nizozemštiny, němčiny, italštiny UNIVERSITY OF ILLINOIS Sentence Segmentation tool http://l2r.cs.uiuc.edu/~cogcomp/atool.php?tkey=ss volně pro akademické účely, zdrojový kód lze upravovat, perl, angličtina, seznam titulů Segmentátor pro angličtinu a hebrejštinu jako modul perlu, lze upravovat http://search.cpan.org/~shlomoy/ Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 77 / 156

Příprava textů Recept na (paralelní) korpus Děliče vět II Punkt (Kiss & Strunk, CL 32 (2006)), implementace v Pythonu http://nltk.sourceforge.net/ program se učí zkratky z textu, s jejich pomocí a na základě různých heuristik se pokouší dělit věty Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 78 / 156

Příprava textů Recept na (paralelní) korpus Zarovnávač: Hunalign http://mokk.bme.hu/resources/hunalign vstup: dva segmentované soubory, segmenty odděleny novým řádkem výstup: soubor se třemi sloupci text nebo jen s pořadovými čísly segmentů dostane-li slovník Gale-Church čísla slovník, kombinuje lexikální informace s metodou nemá-li slovník, vytvoří si ho v prvním kroku sám z korespondencí podle metody Gale-Church, a podle slovníku pak v druhém kroku zarovnání zpřesní nedokáže vytvářet korespondence křížem Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 79 / 156

Příprava textů Recept na (paralelní) korpus Hunalign další funkce u každé korespondence je hodnocení spolehlivosti výstupní filtry: jen korespondence 1:1 jen korespondence, před nimž a za nimiž jsou korespodence 1:1 potlačit korespondence s hodnocením nižším než zadaná hodnota... výpočet přesnosti a pokrytí vzhledem ke vzoru Jak zlepšit výsledek? Slovník, lematizace vstupů. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 80 / 156

1 Úvod 2 Existující korpusy a zdroje dat 3 Technické aspekty 4 Příprava textů 5 Hledání v paralelních korpusech 6 Další využití paralelních korpusů 7 Různé 8 Web jako paralelní korpus 9 Přílohy

Hledání v paralelních korpusech Korpusové manažery ParaConc http://www.ruf.rice.edu/~barlow/parac.html Uplug http://stp.ling.uu.se/~joerg/uplug/ COMPARA http://www.linguateca.pt/compara/welcome.html, IMS CWB http://www.ims.uni-stuttgart.de/projekte/corpusworkbench/ MultiLingual Concordancer in Java http://www.lancs.ac.uk/ staff/piaosl/research/download/download.htm Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 82 / 156

Hledání v paralelních korpusech Obvyklé vyhledávací funkce dotaz na libovolný jazyk nebo více jazyků zároveň (paralelní hledání) zadání dotazu regulárním výrazem hledání podle značek omezení prohledávaných textů: bibliografické údaje originál nebo překlad jazyková varianta (britská/americká angličtina) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 83 / 156

Hledání v paralelních korpusech Zobrazení výsledku dotazu kontext: segment nebo KWiC zadání/zjištění ekvivalentů, BiKWiC třídění podle KW, kontextu zobrazení/potlačení značek zobrazení kolokací údaje o zarovnání (n:n, spolehlivost) poznámky překladatele Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 84 / 156

Hledání v paralelních korpusech statistiky frekvence tvarů kolokace frekvence kolokací distribuce forem distribuce zdrojů Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 85 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 86 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 87 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 88 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 89 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 90 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 91 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 92 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 93 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 94 / 156

Hledání v paralelních korpusech Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 95 / 156

1 Úvod 2 Existující korpusy a zdroje dat 3 Technické aspekty 4 Příprava textů 5 Hledání v paralelních korpusech 6 Další využití paralelních korpusů 7 Různé 8 Web jako paralelní korpus 9 Přílohy

Další využití paralelních korpusů Extrakce ekvivalentů tomu může předcházet: zarovnání slov označení a zarovnání víceslovných výrazů, větných členů syntaktická analýza korpusu ( treebank) Překlad s využitím paralelního korpusu překladová pamět v systémech podpory překladu TM Translation Memory, CAT Computer-Aided Translation překlad podle příkladů EBMT Example-Based Machine Translation statistický překlad SMT Statistical Machine Translation K tomu všemu se často hodí syntakticky analyzovaný korpus treebank, v našem případě paralelní treebank. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 97 / 156

Treebanks databáze stromů Strojový překlad Překladové paměti Překlad podle příkladů EBMT Statistický překlad Příklady

Český treebank Pražský závislostní korpus 2.0 má více rovin zhruba podle teorie funkční generativní popis (Sgall et al.) tektogramatická rovina analytická rovina morfématická rovina rovina grafémů

Další využití paralelních korpusů Treebanks databáze stromů Paralelní treebanky PCEDT Prague Czech-English Dependency Treebank http://ufal.mff.cuni.cz/pcedt/ Reader s Digest 1993 1996: 53 000 dvojic vět Wall Street Journal, vybráno z korpusu Penn Treebank: 21 600 dvojic vět PADT Prague Arabic Dependency Treebank 1.0 http://ufal.mff.cuni.cz/padt/padt_1.0/ zatím jen arabsky Nordic Treebank Network http://w3.msi.vxu.se/~nivre/research/nt.html Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 100 / 156

Další využití paralelních korpusů Treebanks databáze stromů Ne vždy je možné/nutné analyzovat všecko stačí označit některé syntaktické celky, viz korpus OPUS: <s id="s18.2"> <chunk id="c18.2-1" type="pp"> <w id="w18.2.1" tree="in" lem="in" pos="in">in</w> </chunk> <chunk id="c18.2-2" type="np"> <w id="w18.2.2" tree="pp$" lem="its" pos="prp$">its</w> <w id="w18.2.3" tree="nns" lem="relation" pos="nns">relations</w> </chunk>... <chunk id="c18.2-7" type="vp"> <w id="w18.2.11" tree="md" lem="shall" pos="md">shall</w> <w id="w18.2.12" tree="vv" lem="uphold" pos="vb">uphold</w> <w id="w18.2.13" tree="cc" lem="and" pos="cc">and</w> <w id="w18.2.14" tree="vv" lem="promote" pos="vb">promote</w>... <w id="w18.2.19" tree="sent" lem="." pos=".">.</w> </s> Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 102 / 156

Treebanks databáze stromů Strojový překlad Překladové paměti Překlad podle příkladů EBMT Statistický překlad Příklady

Další využití paralelních korpusů Strojový překlad Google http://www.google.com/language_tools Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 104 / 156

Další využití paralelních korpusů Strojový překlad Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 105 / 156

Treebanks databáze stromů Strojový překlad Překladové paměti Překlad podle příkladů EBMT Statistický překlad Příklady

Další využití paralelních korpusů Překladové paměti databáze ekvivalentů, většinou vět a (terminologických) výrazů Využití: opakování vět nebo výrazů uvnitř dokumentu opakování vět nebo výrazů v různých dokumentech, různé verze téhož dokumentu Výhody: stejná nebo příbuzná témata, ne nutně technická ("birdwatching") originál v elektronické podobě, překlad ve stejném formátu čím víc a déle, tím lépe využití minulé práce (i cizí) dodržení stejné terminologie stejné prostředí pro různé formáty Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 107 / 156

Další využití paralelních korpusů Překladové paměti Odkazy: Déjà Vu: http://www.atril.com/ SDL SDLX: http://www.sdlintl.com/products/sdlx/nav/main.htm STAR TRANSIT: http://www.star-ag.ch/products/ TRADOS TRANSLATOR S WORKBENCH: http://www.trados.com/ Translation Memory: http://dmoz.org/computers/software/globalization/computer_aided_ Translation/Translation_Memory/ More Translation Memory Tools (not many more, but good ones) by Suzanne Assénat-Falcone http://www.accurapid.com/journal/12tm.htm How To Select the Right CAT Tool Solution http://www.languagepartners.com/reference-center/whitepapers/ howto.htm What you need to know about Translation Memories http://www.multilingualwebmaster.com/library/trmemories.html Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 108 / 156

Treebanks databáze stromů Strojový překlad Překladové paměti Překlad podle příkladů EBMT Statistický překlad Příklady

Další využití paralelních korpusů Překlad podle příkladů EBMT Překlad podle příkladů EBMT Example-based Machine Translation překlad podle analogie předchozí překlady slouží k překladu nového textu jako dvoujazyčný slovník + překlady data vydrží déle než teorie Možnosti: holý text syntaktická struktura kombinace Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 110 / 156

Další využití paralelních korpusů Překlad podle příkladů EBMT místo pravidel databáze ekvivalencí mezi výrazy příslušných jazyků příklady překladů, k tomu je třeba: 1 databáze ekvivalencí 2 algoritmus, který ke každému výrazu na vstupu vyhledá v databázi nejbližší výraz 3 při hledání se může uplatnit tezaurus s hierarchií, v níž se hledá nejspecifičtější výraz nadřízený oběma porovnávaným 4 abstraktní schéma, které bude zaplněno tím, čím se vstup od příkladu v databázi liší Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 111 / 156

Další využití paralelních korpusů Překlad podle příkladů EBMT Příklad Databáze příkladů wildlife protection ochrana volně žijících zvířat radiation protection ochrana před radiací police protection policejní ochrana Tourists eat hamburgers. Turisté jedí hamburgery. Acid eats metal. Kyselina ničí kov. Vstup endangered species protection, tropical forest protection, ozone layer protection, protection of inhabitants noise protection, drugs-related hazards protection government protection, neighbourhood watch protection She eats a lot of vegetables. Exhaust fumes eat the marble statues. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 112 / 156

Treebanks databáze stromů Strojový překlad Překladové paměti Překlad podle příkladů EBMT Statistický překlad Příklady

Další využití paralelních korpusů Statistický překlad Stručný popis statistické metody I Překlad z francouzštiny do angličtiny, Brown et al., 1989 Inspirace z kódování signálu: anglické věty byly zkresleny šumovým kanálem do vět francouzských. Jak najít původní anglické věty? Překladem anglické věty S může být kterákoli francouzská věta T. Každé dvojici S a T přisoudíme podmíněnou pravděpodobnost P(T S), že překladatel přeloží větu S větou T. K zadané větě T hledáme nejpravděpodobnější S, která byla přeložena jako věta T. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 114 / 156

Další využití paralelních korpusů Statistický překlad Stručný popis statistické metody II Chceme tedy takovou větu S, která maximalizuje pravděpodobnost P(S T ). Podle Bayesovy věty pak můžeme napsat: P(S)P(T S) P(S T ) = P(T ). Jmenovatel nezávisí na S, a tak stačí najít takové S, které maximalizuje součin P(S)P(T S). P(S)..... pravděpodobnost S v modelu zdrojového jazyka (volba a pořadí slov ve větě S) P(T S).. pravděpodobnost překladu věty S větou T (jaká slova z S vedla ke slovům v T). Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 115 / 156

Další využití paralelních korpusů Statistický překlad Stručný popis statistické metody III Pro systém strojového překladu je tedy třeba: 1 spočítat pravděpodobnosti jazykového modelu 2 spočítat pravděpodobnosti překladového modelu 3 najít takovou větu S, která maximalizuje součin obou pravděpodobností Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 116 / 156

Treebanks databáze stromů Strojový překlad Překladové paměti Překlad podle příkladů EBMT Statistický překlad Příklady

Další využití paralelních korpusů Příklady Strojový překlad literárního textu (systém APAČ) I CATCH22 26.01.1989 21:12 1 /-1- he found luciana sitting alone at a table in the allied officers night club, where the drunken anzac major who had brought her there had been stupid enough to desert her for the ribald company of some singing comrades at the bar.-2- -1- @ našel lucianu, jak sedí osamoceně, na tabulce v nočním klubu spojených dústojníkú, kde opilý major anzac, který přiváděl tam ji, byl dosti hloupý, aby opouštěl ji pro oplzlou společnost některých zpívajících soudruhú na tyči.-2- CATCH22 26.01.1989 21:18 2 /-1- " all right, i ll dance with you, " she said, before Yossarian could even speak.-2- -1- @ " v pořádku, bude tančit s tebou, " řekla, než yossarian dokonce by mohl mluvit.-2- CATCH22 26.01.1989 21:23 3 Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 118 / 156

Další využití paralelních korpusů Příklady Strojový překlad literárního textu (systém APAČ) II /-1- " but i won t let you sleep with me. "-2- -1- ", ale nenechá tě spát s mnou ".-2- CATCH22 26.01.1989 21:31 4 /-1- " who asked you? " Yossarian asked her.-2- -1- @-2- -2-" kdo se ptal tě? " yossarian se ptal jí.-3- -2-" kdo žádal tě? " yossarian se ptal jí.-3- -2-" kdo se ptal tě? " yossarian žádal ji.-3- -2-" kdo žádal tě? " yossarian žádal ji.-3- CATCH22 26.01.1989 21:36 5 /-1- " you don t want to sleep with me? " she exclaimed with surprise.-2- -1- @ " nechce spát s mnou? " zvolala překvapeně.-2- CATCH22 26.01.1989 21:41 6 /-1- " i don t want to dance with you ".-2- Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 119 / 156

Další využití paralelních korpusů Příklady Strojový překlad literárního textu (systém APAČ) III -1- @ " nechce tančit s tebou. "-2- CATCH22 13.02.1989 11:49 7 /-1- there was only one catch and that was catch - 22, which specified that a concern for one s own safety in the face of dangers that were real and immediate was the process of a rational mind.-2- -1- byl jen jeden úlovek a to bylo hlava 22, která určovala, že zájem o svou vlastní bezpečnost tváří v tvář nebezpečím, která byla reálná a bezprostřední, byl proces racionální mysli.-2- -1- byl jen jeden háček a to bylo hlava 22, která určovala, že zájem o svou vlastní bezpečnost tváří v tvář nebezpečím, která byla reálná a bezprostřední, byl proces racionální mysli.-2- CATCH22 13.02.1989 11:54 8 /-1- orr was crazy and could be grounded.-2- -1- orr byl bláznivý a by mohl být uzemněný.-2- CATCH22 13.02.1989 12:03 9 Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 120 / 156

Další využití paralelních korpusů Příklady Strojový překlad literárního textu (systém APAČ) IV /-1- all he had to do was ask ; and as soon as he did, he would no longer be crazy and would have to fly more missions.-2- -1- @-2- -2-všechno, co musil dělat, bylo se ptát ;, a jakmile dělal, už by nebyl bláznivý a by musil létat více misí.-3- -2-všechno, co musil dělat, bylo žádat ;, a jakmile dělal, už by nebyl bláznivý a by musil létat více misí.-3- CATCH22 13.02.1989 12:10 10 /-1- orr would be crazy to fly more missions and sane if he didn t, but if he was sane he had to fly them.-2- -1- @ orr by byl bláznivý, aby létal více misí, a rozumné, jestliže nedělal, ale, jestliže byl rozumný musil létat je.-2- CATCH22 13.02.1989 12:17 11 /-1- if he flew them he was crazy and didn t have to ; but if he didn t want to he was sane and had to.-2- Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 121 / 156

Další využití paralelních korpusů Příklady Strojový překlad literárního textu (systém APAČ) V -1- @ jestliže létal je byl bláznivý a nemusel ; ale, jestliže nechtěl byl rozumný a musel.-2- CATCH22 13.02.1989 12:25 12 /-1- yossarian was moved very deeply by the absolute simplicity of this clause of catch - 22 and let out a respectful whistle.-2- -1- @ yossarian byl pohnut velmi hluboce absolutní jednoduchostí této klauzule hlavy 22 a vydal uctivé zapísknutí.-2- Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 122 / 156

1 Úvod 2 Existující korpusy a zdroje dat 3 Technické aspekty 4 Příprava textů 5 Hledání v paralelních korpusech 6 Další využití paralelních korpusů 7 Různé 8 Web jako paralelní korpus 9 Přílohy

Různé Filmové titulky I http://www.opensubtitles.org/ http://divxsubtitles.net/ Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 124 / 156

Různé Filmové titulky II 1 / 00:01:15,708 > 00:01:18,270 My name Borat. I like you. 2 / 00:01:19,037 > 00:01:20,026 I like sex. 3 / 00:01:21,091 > 00:01:22,309 It nice. 4 / 00:01:23,403 > 00:01:25,399 This my country of Kazakhstan. 5 / 00:01:26,205 > 00:01:31,818 It locate between Tajikistan and Kirghistan, and assholes, Uzbekistan. 1 / 00:01:14,268 > 00:01:18,949 Moje meno je Borat. Mám vás rád. 2 / 00:01:19,084 > 00:01:19,919 Mám rád sex. 3 / 00:01:21,099 > 00:01:22,299 Je hezký. 4 / 00:01:23,219 > 00:01:25,819 Tohle je moje země, Kazachstán. 5 / 00:01:26,819 > 00:01:31,819 Leží mezi Tádžikistánem, Kirgistánem a prdelí světa - Uzbekistánem. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 125 / 156

Různé Problémy s formátem vstupu Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 126 / 156

Různé Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 127 / 156

Různé Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 128 / 156

Různé Struktura textu stejná jako v originále? Ne nutně. Jazyky se liší v užívání: Příklad interpunkce dělení na věty přímé a nepřímé řeči Izvinite, požalujsta, čto ja pobespokoil vas tak pozdno, skazal on, no vaš videofon ne otključen, i ja rešil, čto vy ešče ne spite. "Promiňte, prosím, že vás ruším tak pozdě v noci," omlouval se. "Váš videofon ale nebyl vypnutý, myslel jsem si tedy, že ještě nespíte." Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 129 / 156

Různé Zarovnávání textů s odlišnou strukturou Předpoklady při zarovnávání: 1 shodné nebo nepatrně odlišné pořadí vět v paralelních textech 2 minimum přidaných nebo vypuštěných pasáží 3 většina vět odpovídá 1:1, v jiných případech jsou čísla v m:n nízká vše kvůli efektivitě Příliš často neodpovídá realitě! Řešení? úprava textů před zarovnáním načtení textů do databáze, hledání korespondencí bez ohledu na pořadí Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 130 / 156

Různé Zarovnávání slov, výrazů, větných členů Předpoklad: 1 segmentace/tokenizace v paralelních textech (nezávisle) 2 zjišt ování korespondencí (zarovnání) Segmentace ale může záviset na druhém jazyku: patentová přihláška demande de brevet Patenanmeldung domanda di brevetto Řešení? Víceúrovňová segmentace! Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 131 / 156

Různé Drží se překladatelé co nejvíce originálu? Záleží na typu textu. V beletrii spíše ne. Důvody: cílový jazyk nemá srovnatelný výraz nebo konstrukci překladatel dá ze stylistických důvodů přednost jinému výrazu nebo konstrukci, i když má k dispozici doslovnější variantu překladatel se bojí, že udělá chybu, když použije identické výrazové prostředky A když vypadá překlad podobně jako originál tak může jít o neumělý, nepřirozený, doslovný překlad Navíc překladatelé někdy chybují a některé chyby může odhalit jen velmi dobrý znalec obou jazyků Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 132 / 156

Různé Co když nemáme paralelní, ale jen srovnatelné texty? Texty mohou být neparalelní v různé míře: stejné věty jsou v textech na jiných pozicích texty obsahují jen větší či menší podíl stejných vět texty nepojednávají o stejném tématu texty nejsou ze stejného oboru Výsledkem je, že: výrazu nelze vždy přiřadit jednoznačný překlad ne vždy lze z textů překlad zjistit četnosti ekvivalentních výrazů v textech nelze srovnávat Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 133 / 156

Různé Jak využít srovnatelné texty I Ale: je-li téma stejné, ekvivalentní výrazy se vyskytují ve všech jazycích ve srovnatelném kontextu v daném oboru a v určité době se ekvivalentní výrazy vyskytují se srovnatelnou frekvencí Jsou-li texty ze stejného oboru, na stejné téma a ze stejné doby: ekvivalentní výrazy se vyskytují v podobných kontextech ekvivalentní výrazy jsou srovnatelně frekventované Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 134 / 156

Různé Jak využít srovnatelné texty II Hledání ekvivalentu podle srovnatelného kontextu 1 vyhledat slovo S A s kontextem v jazyce A 2 přeložit slova v kontextu S A pomocí nějakého slovníku do jazyka B 3 vyhledat kontexty s přeloženými slovy v jazyce B 4 hledané slovo S B je to, které je v těchto kontextech nejčastější Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 135 / 156

Různé Jinak řečeno... (parafráze) I K čemu jsou parafráze dobré: generování (syntéza) přirozeného jazyka sumarizace hodnocení systémů strojového překladu hodnocení dotazovacích systémů Využití jednojazykového paralelního korpusu k parafrázování Emma burst into tears and he tried to comfort her, saying things to make her smile. Emma cried, and he tried to console her, adorning his words with puns. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 136 / 156

Různé Jinak řečeno... (parafráze) II Postup 1 zarovnání po frázích (skupinách slov) 2 This situation is... in terms of security 3 under control unter Kontrolle 4 unter Kontrolle in check checked curbed *curb *limit *slow down (Bannard & Callison-Burch, ACL 2005) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 137 / 156

1 Úvod 2 Existující korpusy a zdroje dat 3 Technické aspekty 4 Příprava textů 5 Hledání v paralelních korpusech 6 Další využití paralelních korpusů 7 Různé 8 Web jako paralelní korpus 9 Přílohy

Web jako paralelní korpus Zdroje paralelních textů na webu Hotové paralelní korpusy s webovým vyhledávacím rozhraním (Kačenka, SNK, COMPARA, OPUS) přístupné k dalšímu využití (Multext, Acquis Communautaire) Elektronicky čitelné texty ve více jazycích beletrie (http://www.logoslibrary.eu,... ) zákony Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 139 / 156

Web jako paralelní korpus Web jako korpus? McEnery & Wilson (1996): Korpus je sbírka textů, která obsahuje vzorky rozsáhlejších textů je reprezentativní je konečně velká je strojově čitelná lze na ni odkázat standardním způsobem Ale: korpus díla Karla Čapka trénovací korpusy pro systémy zpracování přirozeného jazyka neobsahují vzorky, nejsou reprezentativní, nelze na ně odkázat Proč tedy web nemůže být taky korpus? Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 140 / 156

Web jako paralelní korpus Hledání textů na webu ve více jazycích 2,6 mld IP adres, z toho 5,1 mil. českých 2003: 520 mil. slov česky, 7 mld slov německy, 77 mld slov anglicky (Alta Vista, dolní odhad) Ručně nebo automaticky? automatické metody nutné k získání většího než minimálního množství textů úspěšnost může být např. 99 % v přesnosti a 97 % v pokrytí [Ma & Liberman(1999)] nezávislé na konkrétních jazycích, výjimky: substituční pravidla k hledání adres odpovídajících stránek překladové slovníky k porovnání obsahu stránek data k identifikaci jazyka (slovník nebo max. 100 000 znaků textu k natrénování identifikátoru) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 141 / 156

Web jako paralelní korpus Postup 1 hledání stránek (dokumentů), které mohou být také v jiném jazyce 2 hledání překladových ekvivalentů stránek 3 filtr: odstranění chybných ekvivalentů Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 142 / 156

Web jako paralelní korpus Krok 1: hledání stránek ve více jazycích přes odkazy na stránky v různých jazycích na nadřazené stránce přes odkaz na překlad stránky stránky v určité doméně Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 143 / 156

Web jako paralelní korpus Krok 2: hledání překladového ekvivalentu stránky s odkazy na překlady snadné porovnávání adres stránek (URL) (http://cs.wikipedia.org/ vs. http://de.wikipedia.org/): ručně vytvořená substituční pravidla (en cs / big5 /... ) řetězce označující jazyk často začínají nebo končí charakteristickými znaky: _, -, mohou se v adrese objevit i 2x Levenštejnova editační vzdálenost (edit distance) ale pozor: http://de.wikipedia.org/wiki/zajíc neodpovídá http://de.wikipedia.org/wiki/zajíc porovnávání délky dokumentů, předpoklad: konstantní poměr znaků mezi určitými dvěma jazyky na základě automatického zjištění jazyka dokumentu automatická identifikace jazyka dokumentu vytvoření všech možných dvojic dokumentů odstranění nevyhovujících dvojic dokumentů (filtr) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 144 / 156

Web jako paralelní korpus der Feldhase a Jan Zajíc Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 145 / 156

Web jako paralelní korpus Krok 3: filtrování strukturní filtr: porovnávání HTML značek, případně doplněných údajem o délce příslušného úseku textu jazykový filtr: automatická identifikace jazyka obsahový filtr: překladový slovník, cognates, anchors; sekvenční porovnání nebo porovnání automaticky vygenerovaných indexů délkový filtr I: znaky (konstantní poměr), odstavce (identita) délkový filtr II: likvidace velmi krátkých textů (kratší než 500 znaků) snižují kvalitu korpusu Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 146 / 156

Web jako paralelní korpus Problémy I Málo jazyků, málo dat automaticky se z webu získaly paralelní korpusy zatím jen pro málo jazyků (angličtina francouzština, čínština, arabština,... ) obrovský nepoměr mezi angličtinou a ostatními jazyky situace se zlepšuje (1997: jen 1 promile adres obsahuje stránky ve více jazycích, ale např. v doméně.de je 10 % německo-anglických adres) Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 147 / 156

Web jako paralelní korpus Problémy II Autorské právo šíření textů třetích osob teoreticky vyžaduje jejich souhlas lze obejít vystavením adres dokumentů místo dokumentů samotných ale pak nelze vystavit zarovnané texty adresy i jejich obsah se mění lze vyřešit využitím internetových archivů Nevyváženost Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 148 / 156

Web jako paralelní korpus Problémy III Strukturní filtr někdy nepomáhá překlady mohou mít jinou strukturu v mnoha dokumentech chybí strukturní značkování Řešení: obsahový filtr (překladový slovník), délkový filtr Prolézání celé sítě je náročné Řešení: internetové archivy, např. http://www.archive.org (2003: 120 TB, 10 mld stránek) Stačí-li nám jen něco: Některé servery vydávají např. zprávy ve více jazycích. Stálý přísun! Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 149 / 156

Web jako paralelní korpus Odkazy BITS [Ma & Liberman(1999)] PTMiner [Chen & Nie(2000)] STRAND http://umiacs.umd.edu/~resnik/strand [Resnik & Smith(2003)] Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 150 / 156

Web jako paralelní korpus Chen, J. & Nie, J.-Y. (2000). Automatic construction of parallel English-Chinese corpus for cross-language information retrieval. In Proceedings of the Sixth Conference on Applied Natural Language Processing, pages 21 28, Seattle. Ma, X. & Liberman, M. (1999). BITS: a method for bilingual text search over the web. In Proceedings of Machine Translation Summit VII. National University of Singapore. Resnik, P. & Smith, N. A. (2003). The Web as a parallel corpus. Computational Linguistics, 29(3), 349 380. Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 151 / 156

Web jako paralelní korpus Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 152 / 156