Automatické vytváření slovníků z paralelních korpusů

Podobné dokumenty
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Univerzita Karlova v Praze

7. Rozdělení pravděpodobnosti ve statistice

Statistická teorie učení

5 Orientované grafy, Toky v sítích

Základy počtu pravděpodobnosti a metod matematické statistiky

oddělení Inteligentní Datové Analýzy (IDA)

Sémantický web a extrakce

Jana Vránová, 3. lékařská fakulta UK

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Aplikovaná numerická matematika

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Dolování asociačních pravidel

4.2 Syntaxe predikátové logiky

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Kybernetika a umělá inteligence, cvičení 10/11

Úloha - rozpoznávání číslic

Univerzita Karlova v Praze

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Algoritmizace prostorových úloh

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Teorie pravěpodobnosti 1

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

7. Funkce jedné reálné proměnné, základní pojmy

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Operační výzkum. Síťová analýza. Metoda CPM.

Pravděpodobnost a její vlastnosti

Univerzita Karlova v Praze

Regresní analýza 1. Regresní analýza

1. Statistická analýza dat Jak vznikají informace Rozložení dat

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

10. N á h o d n ý v e k t o r

MATEMATICKÁ STATISTIKA - XP01MST

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

zejména Dijkstrův algoritmus pro hledání minimální cesty a hladový algoritmus pro hledání minimální kostry.

Automatická post-editace výstupů frázového strojového překladu (Depfix)

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Matematika I 2a Konečná pravděpodobnost

Datové struktury 2: Rozptylovací tabulky

7. přednáška Systémová analýza a modelování. Přiřazovací problém

Matematika pro informatiky

TOKY V SÍTÍCH II. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Pokyny pro zpracování bakalářských prací

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Náhodné chyby přímých měření

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Trénování sítě pomocí učení s učitelem

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

6. Vektorový počet Studijní text. 6. Vektorový počet

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

IB112 Základy matematiky

UČENÍ BEZ UČITELE. Václav Hlaváč

Ilustrační příklad odhadu LRM v SW Gretl

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

5. Umělé neuronové sítě. Neuronové sítě

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Rozdělování dat do trénovacích a testovacích množin

Teorie náhodných matic aneb tak trochu jiná statistika

Úvod do teorie měření. Eva Hejnová

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Automatické párování uzlů českých a anglických tektogramatických stromů

Statistika, Biostatistika pro kombinované studium. Jan Kracík

PRIMITIVNÍ FUNKCE. Primitivní funkce primitivní funkce. geometrický popis integrály 1 integrály 2 spojité funkce konstrukce prim.

Základní pojmy teorie množin Vektorové prostory

Manuál k programu RIZIKA

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Formální požadavky na zpracování bakalářské práce

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

Náhodný vektor a jeho charakteristiky

Analytické procedury v systému LISp-Miner

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Fisherův exaktní test

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Václav Jirchář, ZTGB

3. ANTAGONISTICKÉ HRY

Matematické modelování dopravního proudu

2. přednáška - PRAVDĚPODOBNOST

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

ANTAGONISTICKE HRY 172

Pravděpodobnost, náhoda, kostky

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

I. D i s k r é t n í r o z d ě l e n í

Úvod do teorie měření. Eva Hejnová

1. července 2010

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Transkript:

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Jan Popelka Automatické vytváření slovníků z paralelních korpusů Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Studijní program: Studijní obor: RNDr. Pavel Pecina, Ph.D. Informatika Matematická lingvistika Praha 2011

Děkuji vedoucímu své práce RNDr. Pavlu Pecinovi, Ph.D. nejen za odborné vedení a konzultace, ale i za přátelský přístup po celou dobu naší spolupráce. Rovněž děkuji doc. Ing. Zdeňkovi Žabokrtskému, Ph.D. za poskytnutí přístupu k použitým datům a ochotné seznámení se systémem TectoMT. Také děkuji svým rodičům za podporu i pomoc se závěrečným laickým vyhodnocením slovníku.

Prohlašuji, že jsem tuto diplomovou práci vypracoval samostatně a výhradně s použitím citovaných pramenů, literatury a dalších odborných zdrojů. Beru na vědomí, že se na moji práci vztahují práva a povinnosti vyplývající ze zákona č. 121/2000 Sb., autorského zákona v platném znění, zejména skutečnost, že Univerzita Karlova v Praze má právo na uzavření licenční smlouvy o užití této práce jako školního díla podle 60 odst. 1 autorského zákona. V Praze dne 11. 4. 2011 Podpis autora

Název práce: Automatické vytváření slovníků z paralelních korpusů Autor: Bc. Jan Popelka Ústav: Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: RNDr. Pavel Pecina, Ph.D. Abstrakt: V rámci práce implementujeme vlastní systém pro zarovnání slov v paralelním korpusu. Použitá diskriminativní metoda zarovnání využívá lexikálních asociačních měr a dalších příznaků a vyžaduje malé množství ručně anotovaných trénovacích dat pro optimalizaci parametrů modelu. Optimální zarovnání je nalezeno jako nejlevnější hranové pokrytí v ohodnoceném bipartitním grafu, na základě vybraných suboptimálních zarovnání je rozlišena věrohodnost spojů. Použitá kombinace příznaků je experimentálně vyladěna s ohledem na dosažení optimálních výsledků. Výsledky zarovnání jsou vyhodnoceny a porovnány se systémem GIZA ++. Nejlepší natrénovaný model je využit pro zarovnání českoanglického paralelního korpusu Czeng 0.9. Na základě nejvěrohodnějších spojů je z korpusu extrahován ohodnocený překladový lexikon jednoslovných výrazů. Překladové dvojice jsou seřazeny podle významnosti a je provedeno automatické vyhodnocení přesnosti pro různé velikosti slovníků. Pro tři vybrané velikosti slovníku je vyhodnocení provedeno ručně. Klíčová slova: překladový slovník, lexikon, diskriminativní zarovnání slov Title: Automatic dictionary acquisition from parallel corpora Author: Bc. Jan Popelka Department: Institute of Formal and Applied Linguistics Supervisor: RNDr. Pavel Pecina, Ph.D. Abstract: In this work, an extensible word-alignment framework is implemented from scratch. It is based on a discriminative method that combines a wide range of lexical association measures and other features and requires a small amount of manually word-aligned data to optimize parameters of the model. The optimal alignment is found as minimum-weight edge cover, selected suboptimal alignments are used to estimate confidence of each alignment link. Feature combination is tuned in the course of many experiments with respect to the results of evaluation. The evaluation results are compared to GIZA ++. The best trained model is used to word-align a large Czech-English parallel corpus and from the links of highest confidence a bilingual lexicon is extracted. Single-word translation equivalents are sorted by their significance. Lexicons of different sizes are extracted by taking top N translations. Precision of the lexicons is evaluated automatically and also manually by judging random samples. Keywords: translation dictionary, lexicon, discriminative word alignment iii

Obsah 1 Úvod 1 2 Cíl práce 3 3 Popis úlohy 5 3.1 Terminologie.............................. 5 3.2 Definice z teorie grafů........................ 6 3.3 Typografické konvence........................ 7 3.4 Vymezení úlohy............................ 7 3.5 Související práce............................ 9 3.5.1 Automatické sestavení slovníku............... 9 3.5.2 Zarovnání slov......................... 10 4 Metodika zarovnání slov 13 4.1 Definice modelu............................ 13 4.2 Prohledávání............................. 14 4.2.1 Zarovnání jako nejdražší párování bipartitního grafu.... 14 4.2.2 Zarovnání slov jako nejlevnější hranové pokrytí...... 15 4.3 Spolehlivost spoje........................... 16 4.4 Trénování modelu........................... 16 4.5 Evaluace................................ 17 5 Reprezentace příznaků 19 5.1 Faktory slov.............................. 19 5.2 Příznaky................................ 20 5.2.1 Lexikální asociační míry................... 20 5.2.2 Kontextové asociační míry.................. 23 5.2.3 Heuristické příznaky..................... 24 6 Použitá data 27 6.1 Data zarovnaná po větách...................... 27 6.1.1 Paralelní korpus CzEng 0.9................. 27 v

6.2 Data zarovnaná po slovech...................... 28 6.2.1 Czech-English Manually Aligned Parallel Corpus...... 28 7 Experimenty 31 7.1 Pracovní postup............................ 31 7.2 Základní konfigurace......................... 33 7.3 Architektura neuronové sítě..................... 34 7.4 Normalizace dat............................ 35 7.5 Výběr asociačních měr........................ 35 7.6 Výběr trénovacích dat........................ 38 7.7 Druhy spojů při trénování...................... 38 7.8 Výběr trénovacích příkladů...................... 39 7.9 Výběr faktorů............................. 40 7.10 Spolehlivost spojů........................... 41 7.11 Výběr dalších příznaků........................ 42 7.12 Závěrečná konfigurace........................ 43 8 Výsledky zarovnání 45 8.1 Povrchová rovina........................... 45 8.2 Tektogramatická rovina........................ 45 9 Sestavení slovníku 47 9.1 Metodika............................... 47 9.2 Vyhodnocení............................. 48 9.2.1 Automatické vyhodnocení.................. 49 9.2.2 Ruční vyhodnocení...................... 50 9.3 Víceslovné výrazy........................... 52 9.4 Export do programu StarDict.................... 52 10 Implementace 55 10.1 Programové moduly......................... 55 10.2 Externí konfigurace.......................... 56 10.3 Rozšiřitelnost............................. 57 vi

11 Závěr 59 Seznam použité literatury 64 Seznam obrázků 65 Seznam tabulek 67 Přílohy 69 A Seznam příznaků 69 B Konfigurační soubory 73 B.1 Definice konstant........................... 73 B.2 Parametrizace asociačních měr.................... 73 B.3 Brzká parametrizace příznaků.................... 74 B.4 Pozdní parametrizace příznaků................... 75 C Přehledy maker 77 C.1 Implementace nových příznaků................... 77 C.2 Implementace nových asociačních měr................ 79 C.3 Export asociačních měr a příznaků................. 80 D Obsah CD 81 vii

viii

1. Úvod Dvojjazyčné slovníky jsou významným zdrojem informace používané při překladu z jednoho jazyka do druhého. Uživateli cizího jazyka slouží tradiční tištěné slovníky s důsledně strukturovaným obsahem, redigované profesionálními lexikografy. Kompilace tradičního slovníku je zdlouhavý a nákladný proces, přestože dnes lexikografové pracují za pomoci počítačů a využívají elektronické korpusy textů. S masovým rozšířením osobních počítačů a internetu roste poptávka po elektronických slovnících dostupných přes internet nebo na počítači vybaveném příslušným programem. Kompletní převod tištěného slovníku do elektronické podoby je netriviální proces, protože elektronická podoba slovníku vykazuje oproti tištěné řadu specifik. Některé méně kvalitní elektronické slovníky mají i dnes spíše charakter lexikonu, ve kterém kromě jednotlivých překladových párů není obsažena žádná další informace. Takové lexikony je dnes možné generovat pomocí automatických metod, které dokáží informaci o překladových párech vytěžit z již napsaných textů a jejich překladů, jsou-li pro zvolenou dvojici jazyků k dispozici v elektronické podobě a v dostatečném množství. Relativně nízká kvalita automaticky generovaných slovníků v porovnání s tištěnými je vyvážena několika výhodami. Automatické vygenerování slovníku, který reflektuje slovní zásobu paralelního korpusu textů, je nenákladnou a rychlou záležitostí. V případě budoucího rozšíření korpusu o nové texty je možné slovník znovu vygenerovat a tím i aktualizovat. V některých oborech (např. legislativa Evropské unie, informatika) se rychle obohacuje slovní zásoba a vzniká velké množství textů a jejich překladů. Automatické sestavení slovníku z těchto textů umožňuje zachytit současnou terminologii a slovní zásobu bez zpoždění, které je nevyhnutelné při tvorbě tištěných slovníků. Vygenerovaný slovník může sloužit lexikografům jako podklad k obohacení již existujícího tištěného slovníku o novou slovní zásobu nebo jako hodnotný základ pro sestavení nového slovníku. I přes potřebu manuálního úpravy a kontroly obsažených překladových párů se jedná o efektivní postup. Další z možných aplikací je použití automaticky sestaveného slovníku v rámci systému pro strojový překlad. Automaticky sestavený slovník obsahuje kromě běžných slov i řadu slov, která se do běžných slovníků obvykle nezařazují, např. odbornou terminologii, překlady vlastních jmen, místních názvů, zkratek apod. Překladový systém musí být schopen přeložit i tato slova, proto je použití automaticky sestaveného slovníku přínosné i pro strojový překlad. 1

2

2. Cíl práce Na poli strojového překladu došlo v posledních letech k rychlému rozvoji. Jako nezbytný zdroj trénovacích dat pro překladové systémy vznikají velké paralelní korpusy. Cílem této práce je využít existující paralelní korpus k automatickému vytvoření překladového slovníku. Překladový slovník ke slovům jednoho jazyka přiřazuje jejich možné překladové ekvivalenty z druhého jazyka, každý překladový ekvivalent spolu s původním slovem tvoří tzv. překladový pár. Vztah překladové ekvivalence bývá v paralelním korpusu přímo zachycen, tzv. zarovnáním, pouze pro větší segmenty, tj. dokumenty, odstavce nebo celé věty. Pro extrakci překladových párů tvořených jednotlivými slovy lze obecně použít dva základní přístupy. Jednodušší přístup využívá statistiky výskytů a souvýskytů slov v zarovnaných segmentech korpusu a je založen na poznatku, že čím častěji se slovo jednoho jazyka vyskytuje společně s nějakým slovem druhého jazyka, tím spíše se jedná o překladové ekvivalenty. Pro účely identifikace signifikantních souvýskytů a jejich rozlišení od souvýskytů náhodných byla navržena řada lexikálních asociačních měr. Druhým možným přístupem je strategie, kterou využívají statistické překladové systémy při konstrukci překladových tabulek frází a která spočívá v zarovnání paralelního korpusu po slovech. Alternativou k tradičním generativním a heuristickým metodám zarovnání slov jsou diskriminativní metody. Na rozdíl od generativního přístupu vyžadují ručně zarovnaná data pro natrénování modelu, ale umožňují využití komplikovaných příznaků, které mohou být velice přínosné v případě jazyků s bohatou morfologií. V porovnání s heuristickými metodami jsou diskriminativní metody dobře matematicky formulovány a zaručují nalezení optimálního řešení pro daný model. Cílem této práce je automatické vytvoření překladového slovníku na základě zarovnání slov diskriminativní metodou s využitím lexikálních asociačních měr. Část práce byla odvedena v rámci výzkumné stáže na Dublin City University (Pecina and Popelka, 2010). 3

KAPITOLA 2. CÍL PRÁCE 4

3. Popis úlohy 3.1 Terminologie Korpus je (rozsáhlý) soubor textů. Texty jsou uloženy elektronicky v jednotném souborovém formátu a s jednotným kódováním znaků, původní formátování je odstraněno. Jednotlivé texty mohou být opatřeny metadaty nebo lingvistickou anotací. Texty týkající se stejného tématu mohou být sdruženy a označeny jako dokumenty. Jednojazyčný korpus je korpus textů v jednom jazyce. Dvojjazyčný korpus je korpus textů ve dvou jazycích. Paralelní korpus je dvojjazyčný korpus sestávající z textů uspořádaných do dvojic, které jsou navzájem sobě překladem, tj. podávají stejnou informaci ale v jiném jazyce (paralelní texty). Tyto páry jsou obvykle utvořeny přinejmenším pro jednotlivé dokumenty (paralelní dokumenty), o korpusu pak mluvíme jako o paralelním korpusu zarovnaném po dokumentech. Pokud jsou spárovány překladové dvojice i na úrovni jednotlivých vět (paralelní věty), označujeme korpus jako paralelní korpus zarovnaný po větách. Dle konvence je jeden z obou jazyků označován jako zdrojový jazyk a jemu odpovídající polovina korpusu jako zdrojová strana korpusu, druhý z jazyků jako cílový jazyk a jemu odpovídající polovina korpusu jako cílová strana korpusu. Toto rozdělení je odvozeno od zamýšleného směru překladu (ze zdrojového jazyka do cílového) a na korpus nemá žádný vliv. Paralelní věta je uspořádaná dvojice (e, f) tvořená posloupností e = e 1... e I reprezentující větu v cílovém jazyce a posloupností f = f 1... f J reprezentující větu ve zdrojovém jazyce. Prvky posloupností e i a f j jsou slova nebo interpunkční znaménka (s těmi se zachází stejně). Dvojjazyčný překladový slovník je slovník obsahující dvojice odpovídajících výrazů ze dvou jazyků, tzv. překladové páry. Je tedy možné použít jej při překladu těchto výrazů z jednoho jazyka do druhého. Výrazem mohou být jednotlivá slova, víceslovná spojení nebo celé fráze. K výrazu v jednom jazyce slovník udává jeho možné překlady do druhého jazyka, tzv. překladové ekvivalenty. Překladových ekvivalentů pro jeden výraz může být více, pokud jsou navíc ohodnoceny číslem udávajícím jejich věrohodnost, hovoříme o tzv. ohodnoceném překladovém slovníku, nebo o pravděpodobnostním překladovém slovníku, pokud ohodnocení vykazuje vlastnosti pravděpodobnostního rozdělení. Pojmem slovo v této práci rozumíme řetězec znaků nebo interpunkční znaménko. Hranice slov ve větě jsou získány v procesu tokenizace. V závislosti na kontextu odkazujeme pojmem slovo buď obecně na slovo daného jazyka, nebo na jeho jednotlivý výskyt v datech. Pokud chceme zdůraznit rozlišení těchto dvou použití, používáme pojem slovní typ k označení slova obecně a slovní token k označení konkrétního výskytu slova v dané větě e i, nebo v t-té větě korpusu e t i. Slovo 5

KAPITOLA 3. POPIS ÚLOHY může být reprezentováno svou povrchovou morfologickou formou (tvarem), nebo vektorem tzv. faktorů, jedním z nichž může být právě povrchová forma slova. Dvojice slov, neboli souvýskyt slov v paralelní větě odkazuje v této práci vždy k uspořádané dvojici (e, f), ve které se slovo e vyskytuje na cílové straně věty a slovo f na zdrojové straně věty, jedná se tedy o dvojici slov ve dvou různých jazycích. Analogicky k předchozí definici můžeme mluvit obecně o dvojici slovních typů (e, f) nebo o konkrétním výskytu dvojice slovních tokenů v dané větě (e i, f j ) nebo v t-té větě korpusu (e t i, ft j ). 3.2 Definice z teorie grafů Graf je uspořádaná dvojice G = (V, E) tvořená množinou vrcholů V a množinou hran E; hrany jsou dvouprvkové podmnožiny V, tj. e E : e = {v 1, v 2 } v 1 V v 2 V. Ohodnocený graf je graf G = (V, E) spolu s funkcí w: E R, která každé hraně z E přiřazuje reálné číslo (váhu). Bipartitní graf je graf G = (V, E), jehož vrcholy je možné rozdělit do dvou disjunktních množin V 1 a V 2 (nazývané parity) tak, že žádné dva vrcholy ze stejné množiny nejsou spojeny hranou, tedy každá hrana inciduje vždy s jedním vrcholem z V 1 a s jedním vrcholem z V 2, tj. V = V 1 V 2, V 1 V 2 =, e E: e = {v 1, v 2 } v 1 V 1 v 2 V 2. Úplný bipartitní graf, G = (V 1 V 2, E), je bipartitní graf se všemi možnými hranami mezi paritami V 1 a V 2, tj. v 1 V 1, v 2 V 2 : {v 1, v 2 } E, tedy E = V 1 V 2. Párování M grafu G = (V, E) je množina hran, z nichž žádné dvě neincidují se společným vrcholem, tj. M E: e 1, e 2 M: e 1 e 2 e 1 e 2 =. Vrchol v je spárovaný v párovaní M grafu G = (V, E), pokud inciduje s nějakou hranou daného párování, tj. v: e E: v e. V opačném případě říkáme, že vrchol je nespárovaný. Perfektní párování M grafu G = (V, E) je takové párování, ve kterém je každý vrchol z V spárovaný, tj. v V e M: v e. Nejdražší párování je takové párování ohodnoceného bipartitního grafu, že součet vah jeho hran je největší ze všech možných párování grafu. Nejlevnější perfektní párování je takové perfektní párování ohodnoceného bipartitního grafu, že součet vah jeho hran je nejmenší ze všech možných perfektních párování grafu. Hranové pokrytí C grafu G = (V, E) je taková podmnožina jeho hran, že každý vrchol grafu inciduje alespoň s jednou hranou této množiny, tj. C E : 6

3.3. TYPOGRAFICKÉ KONVENCE v V e C: v e. Nejlevnější hranové pokrytí je takové hranové pokrytí ohodnoceného grafu, že součet vah jeho hran je nejmenší ze všech možných hranových pokrytí. 3.3 Typografické konvence V celém textu jsou použity následující notace a typografické konvence. Písmeno f, ve všech svých variantách, vždy odkazuje na zdrojovou stranu paralelních dat (korpusu, věty, dvojice slov), tj. na stranu ve zdrojovém jazyce, písmeno e pak analogicky na cílovou stranu, tj. stranu v cílovém jazyce. Posloupnosti (většinou věty) jsou označovány minuskulemi v tučném řezu písma a sestávají z prvků označovaných stejným písmenem v normálním řezu, např. f = f J 1 = f 1... f J. Slova cílové strany paralelní věty jsou indexována písmenem i {1,..., I} a slova zdrojové strany písmenem j {1,..., J}. Poznamenejme, že počty slov I a J jsou různé pro každou paralelní větu (e I 1, f J 1). Vektory jsou také označovány minuskulemi v tučném řezu písma a sestávají z prvků označených stejným písmenem v normálním řezu, ale ve výčtové podobě jsou uzavřeny do kulatých závorek, např. vektor příznaků ϕ = (ϕ 1,..., ϕ K ). Na rozdíl od posloupností mají vektory stejného typu vždy stejný počet prvků (např. vektor příznaků v daném modelu). Prvky vektorů příznaků a vektoru vah jsou indexovány písmenem k {1,..., K} Množiny jsou značeny majuskulemi v normálním řezu písma (např. množina vrcholů E a F, množina hran H) a multimnožiny (množiny s opakováním) majuskulemi v tučném řezu písma (např. kontexty slov C e a C t f). Množiny dat označujeme majuskulemi tučného skriptu (např. trénovací množina dat T nebo testovací množina dat S). 3.4 Vymezení úlohy Zarovnání slov, tedy zarovnání paralelní věty po slovech, spočívá v nalezení odpovídajících slov, která tvoří navzájem překladové ekvivalenty (viz obr. 3.1). Formálně je zarovnání a paralelní věty (e, f) množina spojů mezi slovy vět e a f: a = {(i, j): e i e f j f}. And the programme has been implemented. Le programme a été mis en aplication. Obrázek 3.1: Příklad zarovnání slov v paralelní větě. 7

KAPITOLA 3. POPIS ÚLOHY V obecném případě může zarovnání vykazovat všechny možné kombinace arity: 1 1, když je právě jedno slovo cílové strany zarovnáno s právě jedním slovem zdrojové strany (např. the Le, programme programme), M N, když je M > 0 slov cílové strany zarovnáno s N > 0 slovy zdrojové strany (např. implemented mis en application). Arita 1 0 a 0 1 se uplatňuje tehdy, pokud pro dané slovo neexistuje překladový ekvivalent na druhé straně paralelní věty (při překladu bylo některé slovo vypuštěno, resp. vloženo, např. And). Metody pro zarovnání slov často nepřipouštějí všechny tyto možnosti a omezují se pouze na některé kombinace, např. pouze na korespondence s aritou 1 1. Překladový lexikon L pro jazyky L e a L f je v nejobecnějším případě podmnožinou kartézského součinu všech možných výrazů obou těchto jazyků, tedy L L e L f. Položka slovníku je uspořádaná dvojice (e, f) L tvořená výrazem f L f a jeho překladovým ekvivalentem e L e ; nemusí se vždy jednat o jednotlivá slova, jeden nebo oba z výrazů mohou být v obecném případě víceslovné jednotky tvořící gramatický výraz nebo celou frázi daného jazyka. Takto definovaný lexikon nerozlišuje směr překladu. Při kompilaci slovníku v člověkem čitelné podobě je třeba směr překladu stanovit a vygenerovat abecedně seřazená slovníková hesla. Slovníkové heslo pro výraz f ve zdrojovém jazyce uvádí všechny jeho překladové ekvivalenty {e : (e, f) L}. V ohodnoceném překladovém slovníku je ke každému překladovému ekvivalentu připojena informace, která kvantifikuje, jak často se daný ekvivalent při překladu používá, či jakou věrohodnost mu přikládá automatická metoda, která slovník sestavila. Tato informace se dá využít k seřazení překladových ekvivalentů v rámci slovníkového hesla, případně k vyřazení málo častých či nevěrohodných překladů. Z korpusu zarovnaného po slovech může být ohodnocený pravděpodobnostní lexikon snadno extrahován. Jeho vlastnosti závisí jednak na vlastnostech metody použité pro zarovnání korpusu, a jednak na anotaci, která je pro texty korpusu k dispozici. Pokud se metoda neomezuje na spoje arity 1 1, mohou být do slovníku zařazeny i překlady víceslovných výrazů. Jsou-li texty korpusu doplněny o morfologickou anotaci, tj. ke každému slovu paralelní věty je uvedena i jeho morfologická značka a lemma (základní tvar slova), je možné do slovníku zařadit informaci o slovních druzích a jako překladové ekvivalenty uvádět základní tvary slov. V opačném případě se do slovníku jedno slovo dostane ve více tvarech, např. v jednotném i množném čísle či v různých pádech, a takto vytvořený lexikon se od běžného slovníku výrazněji liší. 8

3.5. SOUVISEJÍCÍ PRÁCE 3.5 Související práce 3.5.1 Automatické sestavení slovníku První metody pro automatické sestavení slovníku z paralelního korpusu zarovnaného po větách (Melamed, 1996) využívaly vždy nějakou variantu tohoto běžného postupu: Definovat asociační míru, která umožní ohodnotit dvojici slov tvořenou slovy z obou jazyků. Vypočítat hodnotu asociační míry pro všechny možné dvojice. Pro získání překladů zvoleného slova seřadit příslušné dvojice dle hodnoty asociační míry a použít prvních N dvojic, nebo všechny dvojice, pro které hodnota asociační míry neklesne pod určitou mez. Klíčovým rozhodnutím při aplikaci této metody je volba vhodné asociační míry. Nejproblematičtějším krokem je ovšem stanovení správné hranice pro omezení seznamu potenciálních překladů. Melamed poukazuje na problém nepřímých asociací, který brání vytvoření čistého slovníku bez nesprávných překladů. Asociace mezi slovy obou jazyků jsou určovány na základě statistik souvýskytů těchto slov v paralelních větách. Pokud se dvě slova často vyskytují současně na protilehlých stranách paralelní věty, hodnota asociace je vysoká a nasvědčuje tomu, že se jedná o překladové ekvivalenty. Pokud tomu tak opravdu je, hovoříme o přímé asociaci. Vysoké hodnoty asociace ale mohou dosahovat i slova, která nejsou překlady, ale často se vyskytují současně, protože jsou vázána na podobné kontexty. V tom případě jde o nepřímou asociaci, jejímž důsledkem může být zařazení nesprávné překladové dvojice do slovníku. Melamed řeší problém nepřímých asociací pomocí iterativní čistící procedury založené na předpokladu, že nepřímé asociace jsou slabší než přímé. V každém kroku procedury jsou postupně zpracovány všechny paralelní věty (zarovnané segmenty). V rámci jednoho segmentu spolu soupeří všechny možné spoje mezi slovy. Spoje s nejsilnější asociací jsou vybírány jako vítězné a jim příslušná slova již nemohou náležet žádnému dalšímu vítěznému spoji. Přestože je zde jasné omezení na spoje typu 1 1 každé slovo může náležet nejvýše jednomu vítěznému spoji v daném segmentu jedná se o jistou formu zarovnání slov. Po zpracování celého korpusu je krok procedury završen přehodnocením asociací na základě počtu vítězných spojů pro danou dvojici (dvojice se vyskytla v paralelní větě a byla zarovnána) a počtu nevítězných spojů (dvojice se vyskytla současně v paralelní větě, ale zarovnána nebyla). Jiná řešení tohoto problému (např. Moore, 2001; Biemann and Quasthoff, 2005) se opírají o fakt, že původci nepřímých asociací slova jednoho jazyka 9

KAPITOLA 3. POPIS ÚLOHY pravidelně se vyskytující ve stejném kontextu jsou často součástí víceslovných výrazů, které mohou být identifikovány ještě před vlastním zarovnáním slov, a během zarovnání je pak s nimi možné nakládat jako s nedělitelnými jednotkami. Dalším zdrojem nepřímých asociací a nesprávných překladů ve slovníku jsou synsémantická slova, která se vyskytují téměř v každé větě. 3.5.2 Zarovnání slov Dosud navržené metody pro zarovnání slov mohou být rozděleny do tří skupin: na generativní, diskriminativní a heuristické. Generativní modely Generativní modely zarovnání slov popisují překlad z jednoho jazyka do druhého jako generativní proces, při kterém věta v jednom jazyce (zdrojová věta f) generuje větu ve druhém jazyce (cílová věta e), a samotné zarovnání slov je jen vedlejším produktem tohoto procesu. Tento přístup je založen na modelování podmíněné pravděpodobnosti p(e, a f) pomocí skrytých markovských modelů (HMM), ve kterých je zarovnání a skrytou proměnnou generativního procesu. Optimální zarovnání a, které maximalizuje p(e, a f), se obvykle hledá pomocí dynamického algoritmu Viterbi, který v tomto případě pracuje s časovou složitostí O(n 3 ). Ačkoliv obecně může být vztah překladové ekvivalence mezi zdrojovými a cílovými slovy libovolný, v praxi většina modelů omezuje zarovnání tak, že každé zdrojové slovo může být zarovnáno právě s jedním slovem cílového jazyka, takže výsledek zarovnání je asymetrický (Och and Ney, 2003). Součástí generativního procesu může být vložení nebo smazání slova, změna pořádku slov (změna relativní pozice slova ve větě při generování cílového slova ze zdrojového), a případně také modelování fertility zdrojového slova (zohlednění vztahu 1 M při generování cílových slov) (Brown et al., 1993). Nejčastěji používané modely IBM Model 1 a IBM Model 2 (Brown et al., 1993) fertilitu přímo nezohledňují. Generativní proces překladu modelují takto: nejprve je vybrána pozice zdrojového slova pro každou pozici slova v cílové větě a poté jsou cílová slova vygenerována jako překlady slova na zvolené zdrojové pozici. V modelu IBM 1 je pozice vybírána z rovnoměrného rozdělení pravděpodobnosti, v modelu IMB 2 je výběr podmíněn cílovou pozicí. Modely zohledňující fertilitu, např. IBM Model 3 a IBM Model 4 (Brown et al., 1993), popisují generativní proces jinak. Nejprve je rozhodnuto o tom, kolik cílových slov každé zdrojové slovo bude generovat (fertilita zdrojových slov). Poté jsou cílová slova generována s využitím modelů pro změnu pořádku slov. Model IBM 3 vybírá cílovou pozici nezávisle pro cílová slova generovaná jednotlivými zdrojovými slovy. V modelu IBM 4 je pozice vybírána s ohledem na pozici před- 10

3.5. SOUVISEJÍCÍ PRÁCE chozích generovaných slov. IBM Model 5 je modifikací modelu 4 s vylepšeným modelem změny pořádku slov. Přestože pro tyto modely neexistuje optimální prohledávací algoritmus (implementace využívá aproximačních gradientních metod, které nezaručují nalezení optimálního řešení), poskytují vysoce kvalitní zarovnání používaná v řadě statistických systémů strojového překladu. Podrobné zhodnocení různých generativních modelů uvádí Och and Ney (2003). Diskriminativní modely Diskriminativní modely, na rozdíl od generativních, modelují pravděpodobnost nebo v obecném případě ohodnocení zarovnání p(a e, f) přímo pomocí dekompozice na (váženou) kombinaci hodnot různých příznaků. Jako optimální zarovnání a je hledáno to, které maximalizuje hodnotu této kombinace. Diskriminativní modely ovšem vyžadují jisté množství ručně po slovech zarovnaných dat, které jsou použity pro natrénování parametrů modelu, vah jednotlivých příznaků. Jako učící algoritmus mohou být použity různé metody strojového učení, např. averaged perceptron (Moore, 2005), maximum entropy (Liu et al., 2005), support vector machines (Taskar et al., 2005), conditional random fields (Blunsom and Cohn, 2006) a další. Heuristické metody Heuristické nebo též asociační metody získávají zarovnání pomocí aplikace asociačních měr na zdrojová a cílová slova (Smadja et al., 1996; Melamed, 2000), případně kombinované s aplikací dalších příznaků, využívajících např. syntaktickou informaci, slovnědruhové značky, chunk labels (Tiedemann, 2003) a závislostní stromy (Cherry and Lin, 2003) podobným způsobem jako diskriminativní metody zarovnání, ale pouze heuristickým způsobem. Prohledávací algoritmus je pak obvykle implementován jako hladový algoritmus (e.g. Cherry and Lin, 2003), a tudíž není zaručena jeho optimalita. 11

KAPITOLA 3. POPIS ÚLOHY 12

4. Metodika zarovnání slov V této práci získáváme zarovnání pomocí diskriminativního přístupu. Nejprve definujeme parametrický model, který každému zarovnání přiřazuje cenové ohodnocení. Na paralelní větu pohlížíme jako na úplný ohodnocený bipartitní graf. Vrcholy obou partit odpovídají slovům jednotlivých stran paralelní věty, hrany odpovídají možným překladovým ekvivalencím mezi slovy a jejich ohodnocení vyjadřuje cenu zarovnání příslušné dvojice slov. Cena hrany zohledňuje věrohodnost toho, že je daná dvojice slov navzájem překladem. Všechny podgrafy tohoto ohodnoceného grafu tvoří prostor možných zarovnání. Optimální řešení hledáme jako nejlevnější hranové pokrytí, pro což existuje algoritmus v polynomiálním čase. Parametry modelu optimalizujeme lokálně na základě trénovací části dat ručně zarovnaných po slovech zarovnané dvojice slov používáme jako pozitivní trénovací příklady, nezarovnané dvojice slov jako negativní trénovací příklady. 4.1 Definice modelu Pro paralelní větu (e, f) a její zarovnání a model definuje cenu s(e, f, a), kterou se snažíme maximalizovat pro nalezení optimálního zarovnání a : a = arg max a s(e, f, a). Ohodnocení zarovnání s(e, f, a) běžným způsobem dekomponujeme na součet ohodnocení jednotlivých spojů s(i, j): s(e, f, a) = s(i, j). (i,j) a Ohodnocení spoje s(i, j) definujeme jako skalární součin vektoru hodnot příznaků ϕ(i, j) a váhového vektoru w: s(i, j) = w ϕ(i, j). Vektor hodnot příznaků ϕ(i, j) udává pro daný spoj hodnoty ϕ k (i, j) po řadě pro všechny příznaky ϕ k použité v modelu. Váhy příznaků w k ve váhovém vektoru w jsou parametry modelu. Pro vhodnou množinu příznaků ϕ a dobře zvolený váhový vektor w je úkol nalezení nejdrazšího zarovnání a dané paralelní věty (e, f) formulován jako: a = arg max a (i,j) a w ϕ(i, j). 13

KAPITOLA 4. METODIKA ZAROVNÁNÍ SLOV 4.2 Prohledávání Paralelní věta (e, f) může být obecně reprezentována jako úplný ohodnocený bipartitní graf G = (E F, H), ve kterém jsou partity E a F tvořeny po řadě slovy cílové a zdrojové věty e a f, tedy: E = {e 1,..., e I }, F = {f 1,..., f J }. Množina hran H obsahuje všechny možné hrany mezi E a F, ohodnocené cenami jednotlivých spojů w(e i, f j ) = s(i, j), zohledňujícími věrohodnost vzájemného překladu slov (vrcholů) hranami spojených, viz obr. 4.1. And the programme has been implemented. Le programme a été mis en aplication. Obrázek 4.1: Paralelní věta jako úplný bipartitní graf. V této reprezentaci zarovnání slov a přímo odpovídá libovolné podmnožině hran A H, jejíž prvky popisují spoje mezi dvojicemi slov: A = {(e i, f j ): (i, j) a}. 4.2.1 Zarovnání jako nejdražší párování bipartitního grafu S použitím této reprezentace Melamed (2000) navrhuje hledat optimální zarovnání slov a jako nejdražší párování bipartitního grafu G, pro každé slovo (vrchol z nějaké partity) tedy platí, že je spojeno s nanejvýše jedním slovem druhé partity. Nejdražší párování lze nalézt pomocí tzv. maďarského algoritmu (Kuhn, 1955) s časovou složitostí O(n 3 ). Ilustrace párování bipartitního grafu viz obr. 4.2. And the programme has been implemented. Le programme a été mis en aplication. Obrázek 4.2: Zarovnání slov jako párování bipartitního grafu. Je zjevné, že párování bipartitního grafu zachytí pouze zarovnání slov typu 1 1. Celkem I J slov zůstane nespárovaných a tudíž nezarovnaných (implicitní zarovnání typu 1 0), ačkoliv by mnoho z nich typicky mělo být zarovnáno způsobem 1 N spolu s dalšími slovy překládanými společně jako víceslovné jednotky. Pro ilustraci uveďme slova mis a en na obr. 4.2: obě by měla být zarovnána se slovem implemented (stejně jako slovo aplication). Ze stejné příčiny mohou být některá slova zarovnána touto metodou špatně, jako např. slova implemented a aplication: slovo aplication by mělo být zarovnáno se slovem implemented tehdy a 14

4.2. PROHLEDÁVÁNÍ pouze tehdy, pokud jsou s ním zarovnána i slova mis a en. Tuto poměrně běžnou situaci nedokáže párování v bipartitním grafu zachytit. 4.2.2 Zarovnání slov jako nejlevnější hranové pokrytí Po vzoru Kravalová (2007) navrhujeme zarovnání slov hledat jako nejlevnější hranové pokrytí upraveného grafu G. Z vlastností hranového pokrytí bipartitního grafu plyne, že každý vrchol musí být spojen alespoň s jedním vrcholem druhé partity, a žádný vrchol tedy nemůže zůstat nezarovnán. Abychom hranovým pokrytím mohli zachytit i nezarovnaná slova (zarovnání typu 1 0), přidáme do každé partity grafu G jeden technický vrchol (e 0 = NULL, f 0 = NULL), se kterým budou spojena nezarovnaná slova druhé partity. Pokud budou všechna slova alespoň v jedné partitě zarovnána, technické vrcholy budou v hranovém pokrytí spojeny hranou. Formálně definujeme upravený graf G = (E F, H ), kde E = {e 0 } E, F = {f 0 } F a H = E F. Ilustrace hranového pokrytí viz obr. 4.3. NULL And the programme has been implemented. NULL Le programme a été mis en aplication. Obrázek 4.3: Zarovnání slov jako hranové pokrytí bipartitního grafu. Nalezení nejlevnějšího hranového pokrytí odpovídajícího optimálnímu zarovnání slov v grafu G spočívá v nalezení takového hranového pokrytí, jehož součet vah hran je nejnižší ze všech možných hranových pokrytí. To vyžaduje, aby hrany byly ohodnoceny opačně než v předchozím případě nejdražšího párování. Správné ohodnocení hran zajistí algoritmus strojového učení. Nepravděpodobné spoje (hrany) budou trénovány na vyšší ceny (ty je budou znevýhodňovat při hledání nejlevnějšího pokrytí) a pravděpodobné spoje na nižší. V porovnání s párováním má řešení pomocí hranového pokrytí několik výhod. Za prvé, umožňuje zarovnání typu 1 N, takže např. slovo implemented na obr. 4.3 může být správně zarovnáno se všemi třemi slovy mis, en, a aplication. Za druhé, přímo modeluje možnost nezarovnání slov, takže každé slovo má přiřazeno i ohodnocení vyjadřující míru pravděpodobnosti, že slovo není zarovnáno (přeloženo). Nejlevnější hranové pokrytí bipartitního grafu lze nalézt s časovou složitostí O(n 3 ) pomocí jednoduché redukce na nejlevnější perfektní párování v bipartitním grafu (viz Schrijver, 2003, str. 317). 15

KAPITOLA 4. METODIKA ZAROVNÁNÍ SLOV 4.3 Spolehlivost spoje Algoritmus nalezení optimálního zarovnání pomocí nejlevnějšího hranového pokrytí jsme jednoduchým způsobem heuristicky rozšířili tak, aby umožnil rozlišit spolehlivost jednotlivých nalezených spojů. Na základě hodnoty spolehlivosti můžeme nejméně spolehlivé spoje ze zarovnání úplně vyřadit, a méně spolehlivé označit jen jako možné, a tím případně zvýšit přesnost zarovnání na úkor úplnosti. V první fázi rozšířeného algoritmu je standardním způsobem v úplném ohodnoceném bipartitním grafu G = (E F, H) nalezeno nejlevnější hranové pokrytí A H, obsahující N = A hran. V původní verzi algoritmu by všech těchto N hran bylo prohlášeno za jisté spoje. V upravené verzi algoritmu jsou výchozím bodem pro další postup. Pro každou z hran a n A je vytvořen modifikovaný graf G n, který je přesnou kopií ohodnoceného grafu G, s výjimkou hrany a n, která je z úplného grafu odstraněna. Formálně definujeme upravený graf G n = (E F, H n ), kde H n = H \ a n. V upraveném grafu opět nalezneme nejlevnější hranové pokrytí A n H n H. Toto pokrytí se od optimálního obvykle liší jen lokálně. Odstraněním hrany se staly jeden nebo dva vrcholy nepokrytými, proto musí být vyřazená hrana nahrazena jinou, případně dojde k přeskupení nejdražší části pokrytí. Většina hran ale zůstane stejná jako v optimálním pokrytí. U každé hrany (e i, f j ) A můžeme určit spolehlivost na základě počtu upravených grafů G n, ve kterých zůstala součástí nejlevnějšího pokrytí: s(e i, f j ) = 1 + {n: (e i, f j ) H n }. N Takto definovaná spolehlivost hrany nabývá hodnot z intervalu (0, 1. Stanovením hodnoty dvou parametrů 1 S P 0 interval rozdělíme na tři části a spoje (i, j) výsledného zarovnání rozlišíme podle spolehlivosti odpovídajících hran nejlevnějšího hranového pokrytí (e i, f j ) A. 1 s(e i, f j ) S jistý spoj S > s(e i, f j ) P P > s(e i, f j ) 0 možný spoj žádný spoj Tento algoritmus využívá opakovaného spuštění algoritmu pro nalezení nejlevnějšího hranového pokrytí. Oproti původnímu řešení je navíc spuštěn jednou pro každou hranu nejlevnějšího nalezeného pokrytí. Asymptotická časová složitost upraveného algoritmu je tedy O(n 4 ). 4.4 Trénování modelu Náš model pro zarovnání slov předpokládá použití metody strojového učení s učitelem, aby bylo možné optimalizovat hodnoty parametrů, vah jednotlivých 16

4.5. EVALUACE příznaků. Potřebujeme tedy anotovaná trénovací data tvořená menší množinou ručně po slovech zarovnaných vět T = {(e t, f t, a t )} T t=1, kde e t a f t jsou po řadě cílové a zdrojové strany t-té paralelní věty a zarovnání a t je považováno za správné vzorové zarovnání slov (gold-standard). Podle objektivní funkce můžeme rozlišit dvě trénovací strategie: lokální optimalizaci a globální optimalizaci (např. Moore, 2005; Taskar et al., 2005). V této práci používáme pouze strategii lokální optimalizace, globální optimalizaci ponecháváme jako možný prostor pro další experimenty. Při lokální optimalizaci pohlížíme na trénovací data jako na množinu nezávislých dvojic slov, z nichž některé jsou v trénovacích datech zarovnány, většina zarovnána není. Hranice vět nejsou důležité. Zarovnané dvojice slov tvoří množinu pozitivních trénovacích příkladů, nezarovnané dvojice slov množinu negativních trénovacích příkladů. Velikosti těchto množin jsou značně nevyvážené, což je problémem pro některé metody strojového učení. Pokud je to nutné, vybíráme z negativních příkladů pro trénování náhodně podmnožinu tak, aby její velikost byla srovnatelná s počtem pozitivních příkladů. Množiny pozitivních a negativních příkladů tvoří dvě klasifikační třídy. Cílem strojového učení je natrénovat klasifikátor, který na základě vektoru hodnot příznaků ϕ(i, j) pro dvojici slov (e i, f j ) zařadí dvojici do jedné z těchto tříd. 4.5 Evaluace Zarovnání slov, podobně jako jiné úlohy z oblasti počítačového zpracování přirozeného jazyka, může být vyhodnoceno intrinsicky jako nezávislá úloha nebo extrinsicky jako součást systému řešícího nějakou rozsáhlejší úlohu, která zarovnání slov používá (např. překladový systém). V této práci zarovnání vyhodnotíme intrinsicky a posléze nepřímo, vyhodnocením slovníku vytvořeného ze zarovnaného paralelního korpusu. Pro intrinsickou evaluaci používáme množinu ručně po slovech zarovnaných testovacích vět S se stejnými vlastnostmi, jaké měla trénovací data. Kvalitu automatického zarovnání slov vyhodnotíme standardními metrikami Precision, Recall, F-measure a Average Error Rate (AER). Data ručně zarovnaná po slovech často rozlišují dva druhy spojů: jisté spoje (Sure), používané pro zarovnání přesných překladových ekvivalentů, a možné spoje (Possible), používané v případě, že vztah překladové ekvivalence není zcela jasný. Pro některé aplikace, např. sestavení slovníku, mají jisté spoje větší význam než možné spoje. Má tedy smysl provádět vyhodnocení zarovnání slov dvěma způsoby: první způsob omezuje vyhodnocení pouze na jisté spoje, při druhém způsobu se uvažují jak jisté tak možné spoje. Množinu jistých spojů ve vyhodnocovaném zarovnání, resp. ve vzorovém ručním zarovnání označíme A S, resp. G S, množinu jistých a možných spojů A P, resp. 17

KAPITOLA 4. METODIKA ZAROVNÁNÍ SLOV G P. Zarovnání vyhodnotíme pomocí standardního skriptu používaného v rámci semináře HLT/NAACL 2003 (Mihalcea and Pedersen, 2003). Výsledkem vyhodnocení je následující sedmice čísel: P S = A S G S A S P P = A P G P A P, R S = A S G S, F S = 2P SR S, G S P S + R S, R P = A P G P, F P = 2P PR P, G P P P + R P AER = 1 A P G S + A P G P. A P + G S Stejným způsobem vyhodnotíme i zarovnání získané pomocí rozšířeného nástroje GIZA ++ a provedeme srovnání. 18

5. Reprezentace příznaků Zarovnávaná paralelní věta (e t, f t ) je tvořená posloupností cílových slov e t = e t 0... e t I a posloupností zdrojových slov ft = f t 0... f t J. Do obou vět byla přidána technická nulová slova e t 0 =NULL a f t 0 =NULL umožňující v rámci hranového pokrytí pokrýt i slova, která zarovnána být nemají (zarovnáním s nulovým slovem). Všechna ostatní slova vět jsou běžná slova nebo interpunkční znaménka. Použitý model rozkládá ohodnocení zarovnání věty s(e, f, a) na součet nezávislých cen jednotlivých spojů s(i, j). Cena spoje odráží věrohodnost zarovnání dané dvojice slov (e i, f j ) a je vyjádřena jako lineární kombinace příznaků ϕ k (i, j). Příznaky zachycují dílčí informaci relevantní pro zarovnání slov a jejich hodnoty pro danou dvojici slov tvoří vektor (hodnot) příznaků ϕ(i, j). Příspěvek každého příznaku k celkovému ohodnocení spoje s(i, j) závisí na váze příznaku w k, která je optimalizována procesem strojového učení. s(i, j) = w ϕ(i, j) = K w k ϕ k (i, j) Příznaky jsou aplikovány vždy na konkrétní dvojici slov na pozicích i a j v paralelní větě. Slova ve větě však mohou být reprezentována sadou faktorů nesoucích různou informaci, definice příznaků tedy mohou být složitější. k=1 5.1 Faktory slov V nejzákladnějším případě je každé slovo (přesněji výskyt slova) reprezentováno svou povrchovou formou, tvarem ve kterém se vyskytlo na dané pozici id faktor parametry popis 1. forma velikost písmen povrchová forma slova, případně s upravenou velikostí písmen 2. lemma základní tvar slova 3. prefix délka prefix slova zadané délky 4. sufix délka sufix slova zadané délky 5. značka maska morfologická značka, v případě poziční značky maskou omezená na vybrané pozice 6. třída třída slova s ohledem na velikost písmen a použité speciální znaky (velká, malá, prví velké, všechna velká, číslo, interpunkce, ostatní apod.) 7. pozice absolutní pořadí slova ve větě Tabulka 5.1: Použité druhy faktorů slov. 19

KAPITOLA 5. REPREZENTACE PŘÍZNAKŮ v dané větě. V obecném případě může být slovo reprezentováno vektorem tzv. faktorů, což jsou obecně libovolné řetězce popisující daný výskyt slova. Typické faktory jsou např. povrchová forma, lemma, morfologická značka apod., případně může být zachycena i syntaktická informace. Tabulka 5.1 udává přehled druhů faktorů použitých v rámci experimentů v této práci. Formálně jsou příznaky ϕ k definovány pro dvojici pozic i a j v paralelní větě, při aplikaci příznaku na danou pozici ϕ k (i, j) se ovšem pracuje se slovy na těchto pozicích a u složitějších příznaků třeba i se slovy na jiných význačných pozicích nebo s celou větou. V běžných případech je postačující přístup ke dvojici slov na zadaných pozicích, resp. ke dvojici jejich faktorů, uvažujeme-li reprezentaci slov pomocí faktorů. Teoreticky může příznak pracovat s libovolnou kombinací faktorů, ne všechny kombinace jsou však smysluplné. 5.2 Příznaky Příznaky použité v této práci můžeme rozdělit na tři základní skupiny: lexikální asociační míry počítané pro dvojice faktorů, kontextové asociační míry analyzující a porovnávající kontexty slov a ostatní heuristické příznaky. Pro výpočet příznaků z prvních dvou skupin jsou potřeba statistiky získané z velkého paralelního korpusu zarovnaného po větách. Při výpočtu heuristických příznaků tyto statistiky využívány nejsou, jejich výpočet je založen pouze na informacích obsažených v právě zarovnávané paralelní větě. Popis jednotlivých skupin příznaků podávají následující oddíly, přehled příznaků použitých pro závěrečné zarovnání slov je uveden v příloze A. 5.2.1 Lexikální asociační míry Lexikální asociační míry jsou matematické vzorce, které vyjadřují míru asociace mezi dvěma nebo více slovy (slovními typy), vypočtenou na základě jejich výskytů a souvýskytů v rozsáhlém korpusu textů (Pecina and Schlesinger, 2006). Tento přístup lze v upravené podobě aplikovat i na dvojjazyčné korpusy tak, že hodnota asociační míry popisuje věrohodnost toho, že slovo v jednom jazyce je překladem slova ve druhém jazyce. Tedy čím vyšší je hodnota asociační míry pro danou dvojici slov, tím je pravděpodobnější, že se jedná o překladové ekvivalenty. Asociační míry se dají velice dobře využít v našem modelu pro zarovnání slov a můžeme ihned jako příznaky použít řadu různých asociačních měr popsaných v literatuře. Lexikální asociační míry vyžadují ke své realizaci trénovací data v podobě velkého paralelního korpusu. Tento paralelní korpus je zarovnán pouze po větách a značíme ho D. V rámci trénovací fáze jsou z něj extrahovány počty výskytů a souvýskytů jednotlivých slov (resp. konkrétních faktorů). 20

5.2. PŘÍZNAKY a := C(e, f) =: C 11 b := C(e, f) =: C 12 C(e, ) =: C 1 c := C(ē, f) =: C 21 d := C(ē, f) =: C 22 C(ē, ) C(, f) =: C 2 C(, f) N Tabulka 5.2: Kontingenční tabulka pozorovaných četností (C 11, C 12, C 21, a C 22 ) pro dvojici slov (e, f), včetně marginálních četností (C 1, C 2 ), které jsou součtem přes první řádek, resp. sloupec. Podstata měření lexikální asociace spočívá v rozlišení případů, kdy se jedná o náhodný souvýskyt dvojice slov v paralelní větě, od případů, které nejsou jen náhodné a dvojice slov se často vyskytuje pohromadě v paralelní větě proto, že se jedná o překladové ekvivalenty. Na paralelní korpus D pohlížíme jako na množinu náhodně generovaných vět a spočteme sdružené a marginální četnosti slov vyskytujících se společně v paralelních větách. Tyto četnosti pro všechny možné dvojice slov jsou pak uspořádány do tzv. tabulky souvýskytů a používané pro výpočet různých asociačních měr. Sdružená četnost C(e, f) udává počet počet paralelních vět (e t, f t ) obsahujících dvojici slov (e, f). Marginální četnost C(e, ) udává počet paralelních vět, ve kterých cílová strana věty obsahuje slovo e, analogicky C(, f) pro zdrojovou stranu věty. C(e, f) := { t: (e t, f t ) D e e t f f t} C(e, ) := { t: (e t, f t ) D e e t} C(, f) := { t: (e t, f t ) D f f t} K výpočtu některých asociačních měr je potřeba detailnější pohled na výskyty slov v podobě kontingenční tabulky, která navíc pro dvojici slov (e, f) udává počty vět, které obsahují slovo e na cílové straně a neobsahují slovo f na zdrojové straně, a naopak. C(e, f) := { t: (e t, f t ) D e e t f f t} C(e, f) := { t: (e t, f t ) D e e t f / f t} C(ē, f) := { t: (e t, f t ) D e / e t f f t} C(ē, f) := { t: (e t, f t ) D e / e t f / f t} Tyto četnosti bývají běžně označovány též písmeny a, b, c a d nebo velkým písmenem C s indexy i,j {1, 2}. N udává v tomto případě počet všech paralelních vět. Kontingenční tabulka viz tab. 5.2). V této práci používáme jako alternativu k předchozím definicím četností následující definice, které ve svém důsledku přikládají menší váhu souvýskytům v dlouhých větách. Při extrakci četností souvýskytů na korpus pohlížíme jako na 21

KAPITOLA 5. REPREZENTACE PŘÍZNAKŮ množinu dvojic slov, každá z paralelních vět (e 0... e I, f 0... f J ) přispívá k celkovému počtu dvojic N všemi svými dvojicemi, kterých je I J. Sdružená četnost C(e, f) potom udává počet dvojic slov, ve kterých se slovo e vyskytlo na cílové straně dvojice se slovem f na zdrojové straně dvojice; analogicky jsou pomocí počtů dvojic definovány ostatní četnosti. C(e, f) := { (t, i, j): (e t, f t ) D e t i e t f t j f t e = e t i f = fj} t C(e, f) := { (t, i, j): (e t, f t ) D e t i e t f t j f t e = e t i f fj} t C(ē, f) := { (t, i, j): (e t, f t ) D e t i e t f t j f t e e t i f = fj} t C(ē, f) := { (t, i, j): (e t, f t ) D e t i e t f t j f t e e t i f fj} t Pro měření lexikální asociace bylo v posledních desetiletích navrženo množství asociačních měr (Pecina and Schlesinger, 2006). Jeden z druhů asociačních měr je založen na testování statistické hypotézy: nulová hypotéza je formulována tak, že mezi dvěma slovy není žádná asociace a jejich souvýskyty v paralelních větách jsou čistě náhodné. Asociační míra je potom statistickým testem, na základě kterého je možné nulovou hypotézu přijmout, nebo zamítnout. Dalším druhem asociačních měr jsou koeficienty relativní věrohodnosti (likelihood ratios), vyjadřující jak moc je jedna hypotéza věrohodnější než druhá, a další převážně heuristické míry asociaace převzaté z jiných oborů, např. z teorie informace. Asociační míry založené na nulové hypotéze využívají kromě tabulky pozorovaných četností obdobnou tabulku očekávaných četností (viz tab. 5.3). Hodnoty očekávaných četností jsou vypočteny na základě hypotézy nezávislého výskytů slov e a f dle níže uvedených vzorců. Ĉ(e, f) := Ĉ(e, f) := Ĉ(ē, f) := Ĉ(ē, f) := C(e, ) C(, f) N C(e, ) (N C(, f)) N (N C(e, )) C(, f) N (N C(e, )) (N C(, f)). N Přehled lexikálních asociačních měr použitých jako příznaky v této práci uvádí tab. A.1 v příloze. Asociační míry označené jako asymetrické jsou použity v obou možných směrech. 22

5.2. PŘÍZNAKY Ĉ(e, f) =: Ĉ11 Ĉ(ē, f) =: Ĉ21 Ĉ(, f) =: Ĉ2 Ĉ(e, f) =: Ĉ12 Ĉ(ē, f) =: Ĉ22 Ĉ(, f) Ĉ(e, ) =: Ĉ1 Ĉ(ē, ) N Tabulka 5.3: Tabulka očekávaných četností pro dvojici slov (e, f) za předpokladu platnosti nulové hypotézy. 5.2.2 Kontextové asociační míry Kontextové asociační míry jsou dalším možným způsobem měření asociace mezi slovy (Pecina and Schlesinger, 2006). Mnoho úloh počítačového zpracování přirozeného jazyka využívá předpokladu, že význam daného výskytu slova v korpusu je určen jeho bezprostředním kontextem, tj. slovy která se vyskytují v jeho nejbližším okolí. Můžeme říci, že slovní typ a jeho vztah k ostatním slovním typům je charakterizován průměrným kontextem. V této práci pojetí kontextů aplikujeme na paralelní věty a sledujeme nejen kontexty tvořené slovy na stejné straně paralelní věty, ale i kontexty tvořené slovy druhého jazyka na protější straně paralelní věty. Opět používáme po větách zarovnaný paralelní korpus, který jsme použili při extrakci tabulek souvýskytů slov. Průměrný kontext cílového slova e definujeme jako multimnožinu C e slov f vyskytujících se na zdrojových stranách všech paralelních vět, kde se slovo e objevilo na cílové straně. Analogicky definujeme průměrný kontext zdrojového slova f, multimnožinu C f. Počet výskytů slova w v průměrném kontextu C e slova e lze vyjádřit hodnotou charakteristické funkce χ e pro prvek w, a tato hodnota odpovídá sdružené četnosti dvojice slov C(e, w). Analogicky charakteristická funkce χ f popisuje průměrný kontext C f slova f. Při vhodné obousměrné reprezentaci tedy můžeme tabulku souvýskytů využít i jako tabulku průměrných kontextů slov. C e : χ e (w) := C(e, w) C f : χ f (w) := C(w, f) Dále definujeme bezprostřední kontext výskytu slova e na cílové straně t-té paralelní věty jako multimnožinu C t e, obsahující slova z téže strany paralelní věty. Analogicky definujeme kontext pro zdrojové slovo f, multimnožinu C t f. Formálně oba kontexty definujeme pomocí charakteristických funkcí χ t e, resp. χ t f. C t e : χ t e(w) := { i: e t i e t w = e t i} C t f : χ t f(w) := { j: f t j f t w = f t j} Navrhujeme měřit asociaci mezi slovy (e, f) na základě podobnosti bezpro- 23

KAPITOLA 5. REPREZENTACE PŘÍZNAKŮ středních a průměrných kontextů, C t e a C f, resp. C t f a C e : s(e, f) := 1 2 (Sim(C t e, C f ) + Sim(C t f, C e ) ). Pro určení míry podobnosti Sim dvou kontextů převedených na vektory nebo pravděpodobnostní rozdělení existuje velké množství metrik. Jejich použitím v uvedeném vztahu získáme řadu kontextových příznaků pro náš model. Přehled implementovaných metrik uvádí tab. A.2. 5.2.3 Heuristické příznaky K výpočtu heuristických příznaků postačuje informace obsažená v právě zarovnávané paralelní větě. Příznaky v této skupině mohou být do jisté míry lingvisticky motivovány. Největší význam mají tyto příznaky pro dvojice slov, pro které je informace získaná výpočtem asociačních měr nespolehlivá nebo nedostatečná, tedy např. pro neznámá či málo častá slova, nebo naopak velice častá funkční slova, která vykazují silné nepřímé asociace. Problematické jsou také delší věty, ve kterých se pro zvolené slovo jednoho jazyka vyskytl překladový ekvivalent s nejvyšší asociací vícekrát. Hodnoty heuristických příznaků zahrnutých do modelu mohou právě v těchto případech napomoci správnému rozlišení. Mezi běžně používané příznaky patří zejména poziční příznaky, které využívají informaci o absolutní a relativní pozici slova ve větě. Tyto příznaky jsou založeny na poznatku, že v typickém případě je zarovnání slov monotónní. Tento předpoklad je pochopitelně zjednodušený, opomíjí možné změny pořádku slov, ke kterým při překladu mezi některými jazyky systematicky dochází. Ještě komplikovanější je situace v případě jazyků s volným slovosledem. Dalším typickým příkladem jsou lexikální příznaky, které analyzují slova jako řetězce písmen. Nejdůležitějším takovým příznakem je identita řetězců, která vrací hodnotu 1, právě když jsou zdrojové a cílové slovo zcela identickým řetězcem písmen. Tato informace napomůže správnému zarovnání slov, která se píší stejně v obou jazycích, i když pro ně není záznam v tabulce souvýskytů. Může se jednat např. o neobvyklá vlastní jména, zkratky apod. Některá slova se v obou jazycích píší velice podobně, přestože k jistým změnám v pravopisu u nich dochází. Obvykle se jedná o slova společného etymologického původu (cognates), např. comet kometa, disc disk, Europe Evropa atd. K odhalení vztahu překladové ekvivalence v těchto případech mohou napomoci příznaky, které řetězce obou slov zkoumají podrobněji. Uveďme např. příznaky udávající editační vzdálenost mezi dvěma slovy, délku nejdelšího společného podřetězce, identitu předpony dané délky apod. Další heuristické příznaky využívají lingvistickou informaci obsaženou v morfologické anotaci, zejména značku slovního druhu, nebo dokonce znalost daného slova a jeho chování ve větě. Použití těchto příznaků je značně závislé na konkrétní 24

5.2. PŘÍZNAKY dvojici jazyků. Nejobecnější příznak shody slovního druhu využívá pozorování, že slovní druh překládaného slova často zůstane zachován. Další příznaky mohou být navrženy na základě analýzy chyb zarovnání a popisovat např. specifika zarovnání funkčních slov. Tyto příznaky mohou být jak pozitivní, popisují-li dvojice slov, která mají být zarovnána, tak negativní, popisují-li dvojice slov, která zarovnána být nemají. Očekává se, že vhodně navržené negativní příznaky dostanou při optimalizaci parametrů modelu záporné váhy a budou tak určité dvojice slov při zarovnání diskriminovat. Přehled všech použitých heuristických příznaků podává tab. A.3 v příloze. 25

KAPITOLA 5. REPREZENTACE PŘÍZNAKŮ 26

6. Použitá data Všechny experimenty v této práci jsou provedené na česko-anglických paralelních datech. Pro sběr statistik souvýskytů slov i pro závěrečné sestavení slovníku používáme paralelní korpus Czech-English Parallel Corpus zarovnaný po větách. Použitá metoda zarovnání slov dále vyžaduje pro trénovací a testovací účely menší množství dat ručně zarovnaných po slovech. K těmto účelům používáme korpus Czech-English Manually Aligned Parallel Corpus, patřičně rozdělený na několik částí. Podrobnější informace o těchto datech podávají následující oddíly. 6.1 Data zarovnaná po větách 6.1.1 Paralelní korpus CzEng 0.9 Korpus Czech-English Parallel Corpus (CzEng; Bojar and Žabokrtský, 2009) je paralelní česko-anglický korpus zarovnaný po větách. Současná verze CzEng 0.9 obsahuje 8 milionů paralelních vět (93 milionů anglických a 82 milionů českých tokenů), ve kterých je zastoupeno sedm různých druhů textů: filmové a seriálové titulky; automaticky stažené z internetových archivů a spárované; obsahují množství chyb, ale také cenné příklady hovorového a slangového užití jazyka, které se v jiných zdrojích nevyskytují; paralelní webové stránky; elektronické knihy; včetně korpusu Kačenka, knih z projektů Palm knihy a Gutenberg, článků z výběru Reader s Digest; legislativa Evropské unie; včetně textů z korpusu JRC Acquis Multilingual Parallel Corpus (JRC-Acquis; Steinberger et al., 2006); technická softwarová dokumentace; překlady KDE, GNOME, terminologie produktů firmy Microsoft; novinové články; včetně textů z korpusu Prague Czech-English Dependency Treebank a z portálu Project Syndicate uživateli opravené články z encyklopedie Navajo (strojový překlad anglické verze encyklopedie Wikipedia do češtiny) Paralelní texty zahrnuté do korpusu jsou zbaveny formátování, segmentovány na věty a po větách zarovnány nástrojem Hunalign (Varga et al., 2005). Jsou zachovány jen segmenty, ve kterých jedné cílové větě odpovídá právě jedna zdrojová věta. Je aplikována řada kontrol s cílem vyloučit chybně zarovnané paralelní věty. Ponechané věty jsou na anglické i české straně automaticky analyzovány 27

KAPITOLA 6. POUŽITÁ DATA nástrojem TectoMT (Žabokrtský et al., 2008) až na tektogramatickou rovinu, schéma anotací vychází z pravidel vytvořených pro korpus Prague Dependency Treebank 2.0 (Hajič et al., 2006). Anotované věty ze všech různých zdrojů jsou rozděleny do krátkých bloků tvořených jen několika větami a tyto bloky jsou náhodně promíchány. Identifikátor každé věty jen přibližně informuje o zdroji, ze kterého věta pochází. Takto promíchaná data jsou rozdělena na 100 částí přibližně stejné velikosti, z nichž 80 částí je označeno jako trénovací data. Pro své experimenty využíváme jen části označené jako trénovací. Pracujeme se soubory v exportním formátu, ve kterém jedné paralelní větě odpovídá jedna řádka prostého textu. Z dostupných anotací se omezujeme jen na použití morfologické roviny, vyšší roviny anotace nepoužíváme, s výjimkou experimentálního vyhodnocení zarovnání (viz kap. 8.2). 6.2 Data zarovnaná po slovech 6.2.1 Czech-English Manually Aligned Parallel Corpus Czech-English Manually Aligned Parallel Corpus (CEMAT; Mareček, 2008) je ručně po slovech zarovnaný korpus. Sestává z 2500 paralelních vět, složení vět přibližně odpovídá obsahu korpusu CzEng, zastoupeny však nejsou filmové titulky, softwarová dokumentace ani encyklopedické články. Každá věta byla nezávisle ručně zarovnána dvěma různými anotátory. Každé slovo je zarovnáno pomocí jednoho nebo více spojů se slovy druhé strany paralelní věty, nebo není zarovnáno vůbec. Anotátoři byli instruováni, aby rozlišovali tři druhy spojů: jisté spoje pro vyjádření přesné překladové ekvivalence; frázové spoje mezi celými částmi zdrojové a cílové věty, pokud si tyto části navzájem odpovídají, ale určení ekvivalence mezi jednotlivými slovy je nemožné; možné spoje v případech, kdy je ekvivalence slov nejistá, ale spoj je možný např. na základě syntaktických kritérií; tyto spoje byly používány zejména pro zarovnání funkčních slov; anglických členů s příslušným překladem substantiva, při překladu jinak vyjádřených předložek, vypuštěných zájmen, pomocných a modálních sloves, interpunkce apod. Kromě obou původních anotací je k dispozici i sloučená verze anotací (D1). Ve sloučené verzi byly frázové spoje nahrazeny možnými spoji a na základě mezianotátorské shody rozlišeny jen jisté a možné spoje. Pro některé experimenty využíváme i původní anotace s frázovými spoji. Rozdělili jsme je podle počtu 28

6.2. DATA ZAROVNANÁ PO SLOVECH frázových spojů na anotaci s méně frázovými spoji (D2) a na anotaci s více frázovými spoji (D3). Věty z ručně zarovnaného korpusu jsme nástrojem TectoMT anotovali až na tektogramatickou rovinu, stejný postupem jaký byl použit pro anotaci korpusu CzEng 0.9. Informaci o ručním zarovnání slov jsem zachovali, při předzpracování dat jsme doplnili technická nulová slova. K nim jsme zarovnali pomocí tzv. nulových spojů ta slova na protějších stranách paralelní věty, od kterých nevedl žádný spoj. Při experimentech s nulovými spoji zacházíme jako se spoji jistými. Data jsme převedli do exportního formátu, věty náhodně promíchali a rozdělili na tři části: trénovací část (750 vět) používanou jako zdroj příkladů pro optimalizaci parametrů modelu; vývojovou část (750 vět) používanou pro opakovaná vyhodnocení v rámci vývoje systému; testovací část (1000 vět) použitou jedenkrát pro vyhodnocení závěrečné konfigurace systému. část dat anotace počet spojů druhy spojů celkem jisté možné frázové nulové D1 22 471 58% 32% 0% 10% trénovací data D2 21 471 61% 20% 5% 14% D3 21 811 59% 17% 6% 18% D1 22 497 60% 31% 0% 9% vývojová data D2 21 569 62% 20% 5% 13% D3 21 903 60% 17% 6% 17% D1 29 851 60% 30% 0% 10% testovací data D2 28 776 62% 20% 4% 14% D3 29 074 61% 17% 5% 17% D1 74 819 59% 31% 0% 10% celkem D2 71 816 61% 20% 5% 14% D3 72 788 60% 17% 6% 17% Tabulka 6.1: Počty spojů v ručně zarovnaných datech. Počty a druhy spojů v jednotlivých částech dat udává pro všechny tři verze anotace tabulka 6.1. Počty jistých spojů ve všech anotacích jsou přibližně stejné, anotace D2 a D3 se liší zejména využitím a množstvím frázových a možných spojů. Za povšimnutí stojí, že anotace D3 s více frázovými spoji obsahuje ve všech částech dat též více nulových spojů než anotace D2. 29

KAPITOLA 6. POUŽITÁ DATA 30

7. Experimenty 7.1 Pracovní postup Pracovní postup se skládal ze tří fází. Během vývojové a testovací fáze byl vyvinut a vyhodnocen systém pro diskriminativní zarovnání slov (dále jen Zarovnávač ). V závěrečné fázi byl tento systém využit pro zarovnání paralelního korpusu a sestavení slovníku. Ve vývojové fázi Zarovnávače byly do vytvářeného sytému přidávány nové šablony příznaků a asociačních měr a opakovaně prováděny experimenty s jejich různým použitím v modelu. Tyto experimenty byly vyhodnocovány na vývojové části ručně zarovnaných dat a orientačně porovnávány s výsledky nejběžnějšího nástroje GIZA ++. Během experimentů byly moduly Zarovnávače odladěny a byla učiněna rozhodnutí ohledně přesného postupu lokálního trénování modelu. Rozhodujícím výstupem této fáze jsou vyladěný vektor příznaků a pro něj natrénovaný model, které dávají nejlepší výsledky na vývojové části testovacích dat. V následující testovací fázi Zarovnávače je pomocí modelu zarovnána dosud nepoužitá testovací část ručně zarovnaných dat, provedeno intrinsické vyhodnocení a porovnání s nástrojem GIZA ++. Tyto výsledky dávají objektivnější představu o kvalitě zarovnání, které jsme schopni dosáhnout. V následující fázi sestavení slovníku je pomocí tohoto modelu po slovech zarovnán paralelní korpus CzEng. Ze zarovnaného korpusu jsou extrahovány překladové ekvivalenty a sestaveny ohodnocené slovníky. V závěrečné fázi vyhodnocení slovníku je přesnost slovníků vyhodnocena automaticky a pro tři zvolené velikosti též ručně, posouzením správnosti náhodně vybraných překladových párů. Během vývojové fáze jsme provedli řadu experimentů, některé jen s cílem otestovat nové vlastnosti Zarovnávače, většinu z nich však s cílem posunout hranici do té doby nejlepšího dosaženého zarovnání. Díky nim jsme získali ucelenější pohled na data a chování celého systému, což nám umožnilo navrhnout závěrečný vektor příznaků a rozhodnout o všech konfiguračních parametrech. 31

KAPITOLA 7. EXPERIMENTY Obrázek 7.1: Schéma pracovního postupu. Konfigurace pro každý experiment má mnoho stupňů volnosti. Kromě vektoru příznaků musí být před experimentem stanoveny ještě další hyperparametry, související např. se způsobem sestavení množiny trénovacích příkladů apod. Hodnoty těchto parametrů musí být stanoveny experimentálně. Výsledek každého experimentu je ovšem závislý na všech konfiguračních parametrech jako celku, 32

7.2. ZÁKLADNÍ KONFIGURACE nedá se říci, že jsou nezávislé. V následujících podkapitolách se přesto pokusíme jednotlivé experimenty systematičtěji prezentovat. Východiskem pro srovnávání výsledků bude jednak vyhodnocení výsledků Zarovnávače v jedné ze základních konfigurací, a jednak vyhodnocení výsledků nástroje GIZA ++, které bude tvořit horní hranici, jíž se snažíme dosáhnout, případně ji překonat. 7.2 Základní konfigurace Při prezentaci vlivu jednotlivých parametrů budeme vycházet ze základní konfigurace Zarovnávače. V základní konfiguraci jsou jako vektor příznaků použity všechny implementované asociační míry počítané pro zdrojová a cílová lemmata. Žádné další příznaky se nepoužívají. Množina trénovacích příkladů se získá ze sloučené verze ručně zarovnaných dat, množina negativních příkladů (nezarovnaných dvojic slov) se náhodným výběrem zredukuje na stejnou velikost, jako má množina pozitivních příkladů (zarovnaných dvojic slov). Za zarovnanou dvojici se považují slova zarovnaná jistými i možnými spoji. Vyhodnocení základní konfigurace Zarovnávače jsme provedli vzhledem k oběma ručním anotacím testovacích dat (D2 a D3) i k jejich sloučené verzi (D1), viz tab. 7.1. jisté spoje jisté a možné spoje vývojová data P S R S F S P P R P F P AER Zarovnávač, základní konfigurace D1 0,5525 0,7755 0,6453 0,6006 0,5547 0,5768 0,3266 D2 0,5540 0,7773 0,6469 0,5876 0,5898 0,5887 0,3334 D3 0,5476 0,7810 0,6438 0,5815 0,6018 0,5915 0,3363 GIZA ++, intersection D1 0,9258 0,7700 0,8407 0,9663 0,5288 0,6835 0,1409 D2 0,9281 0,7716 0,8426 0,9511 0,5656 0,7093 0,1469 D3 0,9174 0,7753 0,8404 0,9475 0,5810 0,7203 0,1459 GIZA ++, grow-diag-final D1 0,6315 0,9310 0,7525 0,7465 0,7241 0,7352 0,1789 D2 0,6302 0,9287 0,7508 0,7210 0,7600 0,7400 0,1951 D3 0,6235 0,9340 0,7478 0,7099 0,7717 0,7395 0,2004 Tabulka 7.1: Výsledky zarovnání na vývojové části dat, základní konfigurace. Abychom mohli průběžně srovnávat výsledky naší metody s jiným uznávaným programem, zarovnali jsme celá testovací data nástrojem GIZA ++. Nástroj byl spuštěn na stejných datech, jaká jsme používali pro sběr souvýskytů slov, všechna slova byla nahrazena svými lemmaty. Tabulka 7.1 uvádí výsledky vy- 33

KAPITOLA 7. EXPERIMENTY hodnocení na vývojové části testovacích dat. Výsledky uvádíme pro dvě symetrizační metody: výstupem metody intersection je zarovnání s vysokou přesností, symetrizace grow-diag-final naopak poskytuje zarovnání s vysokou úplností. Vyhodnocení jsme opět provedli vzhledem k oběma ručním anotacím testovacích dat i k jejich sloučené verzi. Výsledky potvrzují předpoklad, že vyhodnocení na sloučené verzi ručně anotovaných dat, která obsahuje největší množství spojů, vychází pro zarovnávací programy nejpříznivěji. V následujících srovnávacích tabulkách tedy budeme vždy uvádět vyhodnocení na sloučené verzi vývojových dat, aniž bychom na to výslovně upozorňovali. Současně je evidentní, že Zarovnávač ve své základní konfiguraci nemůže soupeřit se systémem GIZA ++. 7.3 Architektura neuronové sítě Na základě několika experimentů v programu RapidMiner (Mierswa et al., 2006) jsme jako model pro kombinaci příznaků zvolili neuronovou síť a integrovali přímo do našeho programu knihovnu pro práci s neuronovými sítěmi Flood (Lopez, 2008). Knihovna Flood nabízí rozhraní pro pro práci s vícevrstvými neuronovými sítěmi, včetně několika objektivních funkcí a trénovacích algoritmů. Natrénovanou neuronovou síť je možné snadno uložit na disk a znovu načíst ve chvíli aplikace modelu, což přesně splňuje požadavky Zarovnávače rozděleného na nezávislé moduly (viz kap. 10.1). Zvolenému lineárnímu modelu (viz kap. 4.1) odpovídá síť tvořená jediným neuronem (prahová hodnota neuronu může být chápána jako váha přidaného technického příznaku s konstantní návratovou hodnotou 1). Přesto jsme provedli několik experimentů s neuronovými sítěmi tvořenými více neurony. Složitější optimalizace parametrů nelineárního modelu byla časově výrazně náročnější a dosažené výsledky obvykle nebyly lepší. Pro ilustraci prezentujeme mírné zhoršení výsledků základní konfigurace (A1) způsobené použitím sítě se dvěma skrytými vrstvami: A1 Lineární model (perceptron, jediný neuron). A2 Neuronová síť obsahující dvě skryté vrstvy. jisté spoje jisté a možné spoje Zarovnávač P S R S F S P P R P F P AER A1 (základní) 0,5525 0,7755 0,6453 0,6006 0,5547 0,5768 0,3266 A2 0,5400 0,7701 0,6348 0,5922 0,5556 0,5734 0,3345 34

7.5. VÝBĚR ASOCIAČNÍCH MĚR 7.4 Normalizace dat Ne všechny příznaky mají návratovou hodnotu ze stejného oboru (typicky 0, 1 nebo {0, 1}), zejména rozsahy a rozdělení hodnot asociačních měr se liší. Je proto vhodné provádět normalizaci trénovacích dat před vlastním trénováním modelu a stejnou normalizaci testovacích dat při aplikaci modelu. Normalizaci provádíme pro každý příznak nezávisle, pro všechny příznaky používáme stejnou metodu. Prezentujeme výsledky konfigurací lišících se od základní (N1) pouze změnou metody normalizace. N1 Hodnoty příznaků jsme normalizovali na nulovou výběrovou střední hodnotu a jednotkový výběrový rozptyl. N2 Hodnoty příznaků jsme lineárně normalizovali do intervalu 0, 1. N3 Hodnoty příznaků jsme nenormalizovali. jisté spoje jisté a možné spoje Zarovnávač P S R S F S P P R P F P AER N1 (základní) 0,5525 0,7755 0,6453 0,6006 0,5547 0,5768 0,3266 N2 0,5595 0,7871 0,6541 0,6077 0,5625 0,5842 0,3178 N3 0,3205 0,4243 0,3651 0,3635 0,3166 0,3384 0,6103 Výsledky experimentu dokládají, že normalizace hodnot příznaků je nezbytná. Rozdíl mezi použitými metodami není příliš velký, přestože v této konfiguraci jsou patrné lepší výsledky u méně stabilní lineární normalizace. 7.5 Výběr asociačních měr Množství všech implementovaných asociačních měr je poměrně velké (viz tab. A.1). Při experimentech s více různými dvojicemi faktorů celkový počet příznaků v modelu rychle narůstá, pokud pro každou dvojici faktorů použijeme všechny asociační míry. Model se stává složitým a výpočetně náročným. Proto je žádoucí pro tyto experimenty sadu použitých asociačních měr zredukovat. Asociační míry jsou do určité míry navzájem korelované. Pro měření korelace využíváme Pearsonův korelační koeficient. Dá se říci, že čím je vyšší korelace mezi dvěma asociačními mírami, tím menší je přidaná informace získaná zařazením obou měr do modelu a stačilo by použití jen jedné z nich. Na vzorku trénovacích dat můžeme pro každou asociační míru spočítat korelaci se všemi ostatními mírami a získat tím úplnou korelační matici (viz obr. 7.2). 35

KAPITOLA 7. EXPERIMENTY Obrázek 7.2: Vizualizace korelační matice všech asociačních měr. Na základě průměrné korelace je možné jednoduchým hladovým algoritmem vyřazovat nejkorelovanější asociační míry a snížit tak počet asociačních měr na požadovanou hodnotu. V každém kroku hladového algoritmu je vyřazena právě jedna asociační míra, a to míra, která vykazuje nejvyšší průměr korelací se zbývajícími asociačními mírami. Obrázek 7.3 zobrazuje korelační matici po redukci počtu asociačních měr na 10. 36

7.5. VÝBĚR ASOCIAČNÍCH MĚR Obrázek 7.3: Korelační matice redukovaného počtu asociačních měr. Vedle základní konfigurace se všemi asociačními mírami (M1) prezentujeme pro srovnání i konfigurace se zredukovaným počtem asociačních měr, a též konfiguraci rozšířenou o všechny implementované kontextové míry. Podmnožina 12 asociačních měr byla vybrána hladovým algoritmem na základě průměrné korelace. Výsledky potvrzují, že vyřazení silně korelovaných asociačních měr nezpůsobí zhoršení výsledků (v uvedeném případě dokonce pozorujeme mírné zlepšení). Naopak kvalita zarovnání při použití jediné asociační míry je podstatně horší. Nepodařilo se prokázat, že použití výpočetně náročných kontextových měr má výrazný pozitivní vliv na výsledek. M1 Všechny asociační míry (viz tab. A.1 v příloze). M2 Jediná asociační míra (tamtéž, id 107). M3 12 asociačních měr s nízkou průměrnou korelací (tamtéž, id: 102, 110, 115, 227, 229, 233, 236, 237, 239, 247, 247*, 251). M4 Všechny asociační míry a kontextové míry (viz tab. A.2 v příloze). jisté spoje jisté a možné spoje P S R S F S P P R P F P AER M1 (základní) 0,5525 0,7755 0,6453 0,6006 0,5547 0,5768 0,3266 M2 0,5118 0,6723 0,5812 0,5428 0,4691 0,5033 0,4012 M3 0,5580 0,7850 0,6523 0,6052 0,5601 0,5817 0,3201 M4 0,5515 0,7807 0,6464 0,6021 0,5608 0,5808 0,3239 37