Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Podobné dokumenty
Automatické párování uzlů českých a anglických tektogramatických stromů

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Co nového ve zpracování MWE Automatická identifikace

ve strojovém překladu

Algoritmizace prostorových úloh

Automatické vytváření slovníků z paralelních korpusů

1. Přehled cizojazyčných a vícejazyčných korpusů

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Depfix: Jak dělat strojový překlad lépe než Google Translate

Faktorované překladové modely. Základní informace

autoři: Rudolf Bayer, Ed McCreight všechny vnější uzly (listy) mají stejnou hloubku ADS (abstraktní datové struktury)

Využití metod strojového učení v bioinformatice David Hoksza

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Semestrální práce 2 znakový strom

Programování v Pythonu

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Autor: Jan Hošek

Spojení OntoUML a GLIKREM ve znalostním rozhodování

Využití strojového učení k identifikaci protein-ligand aktivních míst

The Czech education system, school

IA161 Pokročilé techniky zpracování přirozeného jazyka

Jak dělat strojový překlad lépe než Google Translate

Zadání druhého zápočtového projektu Základy algoritmizace, 2005

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

Automatická anotace angličtiny na tektogramatické

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Samovysvětlující pozemní komunikace

Jak si udržet zákazníky a nabídnout jim co nejvíce?

Průzkum paralelních dvojjazyčných textů v otázce určení autorství staročeského překladu

Generátor jedinečných zadání

Zobrazování barev Josef Pelikán CGG MFF UK Praha.

Deskripční logika. Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Deskripční logika 37 / 157

Problém identity instancí asociačních tříd

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

Testování prvočíselnosti

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

PRÉCIS STRUKTUROVANÁ DATABÁZE JAKO ODPOVĚĎ NA NESTRUKTUROVANÝ DOTAZ. Dominik Fišer, Jiří Schejbal

Změkčování hranic v klasifikačních stromech

Translation Model Interpolation for Domain Adaptation in TectoMT

Genetické algoritmy. Vysoká škola ekonomická Praha. Tato prezentace je k dispozici na:

NLP & strojové učení

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Větné členy a jejich pozice. Význam anglického slovosledu

Uživatelská příručka

Japonsko-český strojový překlad

ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost ET

METODICKÝ LIST. Mgr. Stanislava Zíková. Gymnázium a Obchodní akademie Pelhřimov. Název aktivity: D-Day. Úroveň: Rok: 2017 CÍLE AKTIVITY.

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Detektor anomálií DNS provozu

Postup objednávky Microsoft Action Pack Subscription

Vstupní analýza absorpční kapacity OPTP. pro programové období

CFD výpočtový model bazénu pro skladování použitého paliva na JE Temelín a jeho validace

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky DIPLOMOVÁ PRÁCE

ANALÝZA A KLASIFIKACE DAT

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Digitální učební materiál

Strojové učení a pravidla pro extrakci informací z textů

Triangulace. Význam triangulace. trojúhelník je základní grafický element aproximace ploch předzpracování pro jiné algoritmy. příklad triangulace

MBI - technologická realizace modelu

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

Rozhraní pro práci s XML dokumenty. Roman Malo

Diagnostika infarktu myokardu pomocí pravidlových systémů


KMA/PDB. Karel Janečka. Tvorba materiálů byla podpořena z prostředků projektu FRVŠ č. F0584/2011/F1d

TGH09 - Barvení grafů

Zadání soutěžních úloh

Jak pracuje internetový vyhledávač

IB112 Základy matematiky

= je prostý orientovaný graf., formálně c ( u, v) 0. dva speciální uzly: zdrojový uzel s a cílový uzel t. Dále budeme bez

Algoritmy výpočetní geometrie

CLIL a projektové vyučování

Bipartitní grafy. Karel Klouda c KTI, FIT, ČVUT v Praze 28. března, letní semestr 2010/2011

Jak na paralelní texty s programem ParaConc

Implementace A* algoritmu na konkrétní problém orientace v prostoru budov

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

PRESENT PERFECT doslova znamená přítomný čas dokonavý

Platforma Java. Petr Krajča. Katedra informatiky Univerzita Palackého v Olomouci. Petr Krajča (UP) KMI/PJA: Seminář V. 27. říjen, / 15

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Digitální učební materiál

Dynamické datové struktury I.

Projekt MŠMT ČR: EU peníze školám

Vytěžování znalostí z dat

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Dobrovolná bezdětnost v evropských zemích Estonsku, Polsku a ČR

Best-Effort Top-k Query Processing Under Budgetary Constraints. Jakub Čermák

Obsah přednášky. programovacího jazyka. Motivace. Princip denotační sémantiky Sémantické funkce Výrazy Příkazy Vstup a výstup Kontinuace Program

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

ČTENÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

5 Orientované grafy, Toky v sítích

Ukážeme si lineární algoritmus, který pro pevné k rozhodne, zda vstupní. stromový rozklad. Poznamenejme, že je-li k součástí vstupu, pak rozhodnout

Uni- and multi-dimensional parametric tests for comparison of sample results

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Studentská tvůrčí a odborná činnost STOČ 2017

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Vědomostní test. Gymnázium, Praha 6, Arabská 14 předmět Programování, vyučující Tomáš Obdržálek

Transkript:

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008

Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být jednodušší než na m- rovnině. Zlepšení transferu pro systém automatického překladu TectoMT Vyhledávání překladových ekvivalentů mezi dvěma jazyky

Cíl práce Implementovat nástroj, který dostane na vstupu českou a anglickou větu analyzovanou až na t- rovinu a vrátí seznam navzájem si odpovídajících uzlů jejich t-stomů Měl by využívat stromových struktur, ale zároveň by měl být dostatečně odolný proti chybám vzniklým běhěm parsingu Implementace v prostředí TectoMT

Zjednodušená t-rovina Strutura t-roviny převzatá z TectoMT Chybí aktuální členění (pořadí uzlů v t-stromu odpovídá pořadí slov ve větě) Chybí kopírované uzly Chybí odkazy do valenčního slovníku Chybí funktory (kromě koordinačních)

Vytvoření testovacích dat ruční párování na slovní rovině následný převod na t-rovinu pomocí odkazů lex.rf

Manuální word-alignment K dispozici 515 ručně anotovaných vět z PCEDT Tři typy hran: sure, phrasal, possible Anotace dalších 1985 vět z corpusu CzEng 4 anotátoři (MFF, FF, 2x ÚJČ) Každá věta anotována dvěma anotátory typ dat vět EN tokenů CZ tokenů Právní texty (Acquis Communautaire) 501 13 512 10 752 Beletrie (Reader s Digest, E-Books) 500 10 097 8 978 Novinové články (Project Syndicate) 484 10 714 9 990 Nov. Čl. s pojmenovanými entitami (Project Syndicate) 500 12 799 11 052

Příklady word-alignmentu Not long before the visit of the Chinese premier, India hosted US Secretary of State Condoleezza Rice. Nedlouho před návštěvou čínského premiéra hostila Indie ministryni zahraničí USA Condoleezu Riceovou. I stuck it out as far as ever it would go, and I shut one eye, and try to examine it with the other. Vyplázl jsem ho tak daleko, jak to jen šlo, zavřel jsem jedno oko a snažil se druhým ho prohlédnout. sure link possible link phrasal link

Převod do t-roviny využití atributu lex.rf dva uzly na t-rovině jsou spojeny hranou jejich odpovídající tokeny na m-rovině jsou spojeny hranou typy hran jsou zachovány problém: přidané uzly, např. #PersPron reprezentující nevyjádřený podmět

Mezianotátorská shoda typ dat typy hran rozlišovány typy hran nerozlišovány pouze hrany sure rovina m t m t m t právní texty 86,7 92,0 92,1 96,1 94,0 95,6 beletrie 76,6 82,9 85,8 90,5 90,1 91,2 novinové články 80,8 87,9 87,8 93,3 92,0 93,7 pojmenované entity 86,5 94,3 91,5 96,5 93,6 96,4 PCEDT 84,1 94,3 89,8 95,1 93,8 95,3

T-aligner Implementován v prostředí TectoMT 2 fáze Czech and English t-trees Greedy 1:1 alignment Complete 1:N relations aligned t-trees GIZA++ t-alignment probabilistic dictionary

Fáze 1 Greedy 1:1 alignment hladový algoritmus založený na rysech (features) skóre potenciálního páru t-uzlů: score(cnode, enode) = w f(cnode, enode) váha hodnota algoritmus vybere vždy ten pár s nejvyšším skóre a příslušné uzly spojí to opakuje, dokud je skóre větší než daná prahová hodnota

Rysy (features) vlastnosti dvojice českého a anglického t-uzlu celkem 15 rysů jejich váhy byly optimalizovány pomocí perceptronu příklady rysů: Pravděpodobnost překladu dvojice t-lemmat (z pravděpodobnostního slovníku) (hodnota 0 až 1) Tato dvojice rovněž byla/nebyla spárována nástrojem GIZA++ (0 nebo 1) T-lemmata jsou shodná (0 nebo 1) Shoda t-lemmat v prvních třech písmenech (0, 1)

Rysy (features) (2) Rodičovské uzly obou zkoumaných uzlů jsou již spárovány (hodnoty 0, 1) Někteří potomci zkoumaných uzlů jsou již spárováni (hodnoty 0, 1, 2, 3 ) Shodný sémantický slovní druh (hodnoty 0, 1) Podobná pozice uzlů ve stomě (real 0 až 1) Rozdíl relativních pozic českého a anglického uzlu

Fáze 2 Completing 1:N relations Spojíme navíc ty dvojice uzlů (K, L), pro které jsou splněny následující podmínky: K ještě není spojen s žádným protějšímu uzlem, ale jeho synovský nebo rodičovský uzel je spojen s L. Dvojice (K, L) byla navíc spojena systémem GIZA++ Dvojice (K, L) se vyskytuje v pravděpodobnostním slovníku

Ukázka t-alignmentu The $ 409 million bid is estimated by Mr. Simpson as representing 75 % of the value of all Hooker real-estate holdings in the U. S. Podle odhadu pana Simpsona představuje 409 milionová nabídka 75 % hodnoty všech realitních holdingů firmy Hooker ve Spojených státech.

Vyhodnocení úspěšnosti pro porovnání výsledků využita pouze spojení typu sure. 10-násobná cross-validace 9/10 dat pro natrénování optimálních vah jednotlivých rysů (features) perceptronem 1/10 dat pro samotnou evaluaci

T-aligner evaluace typ dat precision recall f-measure právní texty 92,8 % 91,4 % 92,1 % beletrie 86,3 % 82,7 % 84,4 % novinové články 90,7 % 91,9 % 91,3 % pojmenované entity 94,8 % 92,8 % 93,8 % PCEDT 94,9 % 88,7 % 91,7 % Dohromady 92,5 % 89,6 % 91,0 %

GIZA++ na m-lemmatech GIZA++ byla spuštěna na sekvence m-lemmat. Průniková symetrizace Výsledný word-alignment byl pak převeden na t- alignment pomocí odkazů lex.rf. precision 95,5 % recall 77,8 % f-measure 85,7 %

GIZA++ na t-lemmatech Z tektogramatických stromů byla vyextrahována t-lemmata a seřazena podle jejich pozice ve stromě. Každý uzel reprezentuje jedno t-lemma. Na takovéto sekvence t-lemmat byla spuštěna GIZA++ s průnikovou symetrizací. precision 93,1 % recall 75,9 % f-measure 83,6 %

Závěr zlepšení f-measure o 5% oproti baseline (GIZA++) GIZA++ t-alignment feature based t-aligner mezianotátorská shoda f-measure 85,7 % 91,0 % 94,8 %

Děkuji za pozornost.