Automatické párování uzlů českých a anglických tektogramatických stromů

Podobné dokumenty
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

ve strojovém překladu

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

PRESENT PERFECT doslova znamená přítomný čas dokonavý

Co nového ve zpracování MWE Automatická identifikace

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Autor: Jan Hošek

Větné členy a jejich pozice. Význam anglického slovosledu

Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: 15 minut

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Soukromá střední odborná škola Frýdek-Místek, s.r.o.

PŘEDPŘÍTOMNÝ průběhový ČAS (PRESENT PERFECT continuous TENSE) - cvičení

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Automatické vytváření slovníků z paralelních korpusů

Depfix: Jak dělat strojový překlad lépe než Google Translate

Past simple. = minulý prostý čas Použití: mluvíme o činnostech a aktivitách v. Časové výrazy: last week, yesterday, last year, on Monday

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

1. Přehled cizojazyčných a vícejazyčných korpusů

Střední průmyslová škola stavební Pardubice

PSANÍ. Anglický jazyk 5. třída Hana Stryalová

IA161 Pokročilé techniky zpracování přirozeného jazyka

Faktorované překladové modely. Základní informace

Zjistit, jak žáci zvládli učivo prvního pololetí. Pomůcky: Psací potřeby Zdroje: vlastní. III_2-05_54 Half term test, 6yr - řešení

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Minulý čas prostý. Past simple. Výhradní výukový materiál portálu onlinejazyky.cz

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: 2O Číslo DUMu: VY_32_INOVACE_O9_AJ

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

VY_22_INOVACE_CJ_III/2.18

Present simple přítomný čas prostý

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Future. V angličtině máme 3 způsoby, jak popsat budoucnost: 1. will future 2. be going to 3. present continuous

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

vyprávění, popis přítomný čas, minulý čas, předložky, členy, stupňování

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Algoritmizace prostorových úloh

Hodnocení psaní. Seminář Brno

Materiál slouží k procvičení znalosti přítomného času prostého, tvorbě vět a otázek.

Mgr. Lucie Cihlářová Datum vytvoření: Stup. vzdělávání: II. st. 9. třída

Digitální učební materiál

PRIMÁRNÍ MODÁLNÍ SLOVESA CAN

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

CLIL a projektové vyučování

Projekt MŠMT ČR: EU peníze školám

Střední odborná škola stavební a Střední odborné učiliště stavební Rybitví

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO: NÁZEV: VY_32_INOVACE_438_Podmínkové věty (1) AUTOR: Ing.

Project 1. My projects

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Rozdělení anglických sloves podle způsobu tvoření otázky a záporu, aneb Pohádka o čtyřech Supermanech :

Téma: PRESENT SIMPLE III VY_32_ZAZNAM_573

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

ČASOVÁNÍ SLOVESA "TO HAVE"

Využití metod strojového učení v bioinformatice David Hoksza

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. Test

Kód: Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Present simple "to have, to be"

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

VY_22_INOVACE_17_AJ_3.02_Jazykový test. V hodině žáci vypracují test, naleznou správná řešení a doporučení.

Přítomný čas prostý/ průběhový. Present simple/ present continuous. Výhradní výukový materiál portálu onlinejazyky.cz

Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: minut

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

Verbs Slovesa Test. PhDr. Zuzana Žantovská

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_14_AJ_G

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Přítomný čas prostý a průběhový v angličtině

PSANÍ. (1) My address is Dlouhá 34, Liberec. Thank you and!

Sémantický web a extrakce

1. Introduction - That is me. 1. Presentation

Verb + -ing or infinitive

1/ Napiš, o jakou sportovní aktivitu se jedná: Sloveso je ve tvaru infinitivu (bez to ) -např. swim. a/ s _ i b/ s t _ c/ d e. Yes, I.. No, I.

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

VY_22_INOVACE_84. P3 U3 Revision

POSLECH. Anglický jazyk 9. třída Mgr. Martin Zicháček. Jazyk Úroveň Autor Kód materiálu. Z á k l a d o v ý t e x t :

Anglický jazyk 3.ročník 2007/2008. učivo - témata kompetence (čtení,psaní,poslech, dialog) pomůcky

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Název školy: Základní škola Bavorov, okres Strakonice. Název: VY_32_INOVACE_09_16_Prověrka 1.pololetí

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

Doplňovačka-časy, slovní zásoba

Metodická příručka k elektronické učebnici eškola ZŠ Komenského Slavkov u Brna

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Název vzdělávacího materiálu: Minulé časy prostý, průběhový (Past tenses: present simple X present continuous)

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

PŘEDPŘÍTOMNÝ prostý ČAS - procvičení

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Výukový materiál. zpracovaný v rámci projektu. Pořadové číslo projektu:* Sada:* Šablona:* Ověření ve výuce: (nutno poznamenat v TK) Třída: Datum:

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

Výukový materiál zpracovaný v rámci projektu

Základní škola a Mateřská škola Křesetice, okres Kutná Hora, příspěvková organizace

Verbs. eoverview. Irregular. Part 3. Pre-intermediate! course A2-B1 CEFR. mp3 INTEGRATED into PDF. Printable flash cards included!

Projekt MŠMT ČR: EU peníze školám

Jak dělat strojový překlad lépe než Google Translate

Moses. M. Fabianová, A. Štromajerová, M. Vaněk

Transkript:

Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008

Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování slov na paralelním korpusu nástroj pro automatické párování uzlů tektogramatických stromů evaluace, porovnání výsledků plány do budoucna

Motivace Na t rovině jsou si jazyky podobnější alignment by zde měl být jednodušší než na m rovnině. Zlepšení kvality automatického překladu založeného na transferu přes tektogramatickou rovinu (TectoMT) Vyhledávání překladových ekvivalentů mezi dvěma jazyky

Příklad I have always been convinced that Milosevic should have been put on trial in Belgrade. Vždy jsem byl přesvědčen, že Miloševič by měl být souzen v Bělehradě.

Úkol Implementovat nástroj, který automaticky spáruje uzly českého a anglického tektogramatického stromu Měl by využívat stromových struktur, ale zároveň by měl být dostatečně odolný proti chybám vzniklým běhěm parsingu Implementace v prostředí TectoMT anglická věta česká věta tektogramatická analýza anglický t stom český t stom t alignment

Zjednodušená t rovina Strutura t roviny převzatá z TectoMT Chybí aktuální členění (pořadí uzlů v t stromu odpovídá pořadí slov ve větě) Chybí kopírované uzly Chybí odkazy do valenčního slovníku Chybí funktory (kromě koordinačních)

Test data pro t alignment ruční párování automaticky vygenerovaných stromů není vhodné po změně nástrojů pro automatickou analýzu by se stala tato data nepoužitelnými Řešení: ruční spárování slov na morfologické rovině následný převod na t rovinu pomocí odkazů lex.rf

Manuální word alignment K dispozici 515 ručně anotovaných vět z PCEDT (Ondřej Bojar, Magda Prokopová) Tři typy hran: Sure spojuje dvě ekvivalentní slova Phrasal fráze si navzájem odpovídají, samostatná slova však nikoli, spojuje se každé slovo s každým Possible možná spojení, typicky připojuje slovo, které ve druhém jazyce nemá svůj protějšek, ale k některému syntakticky patří (např. členy v angličtině)

Příklady word alignmentu Not long before the visit of the Chinese premier, India hosted US Secretary of State Condoleezza Rice. Nedlouho před návštěvou čínského premiéra hostila Indie ministryni zahraničí USA Condoleezu Riceovou. I stuck it out as far as ever it would go, and I shut one eye, and try to examine it with the other. Vyplázl jsem ho tak daleko, jak to jen šlo, zavřel jsem jedno oko a snažil se druhým ho prohlédnout. sure link possible link phrasal link

Anotace anotace dalších 1985 vět z paralelního corpusu CzEng 4 anotátoři (MFF, FF, 2x ÚJČ) každá věta anotována nezávisle dvěma anotátory vytvořena další pravidla pro anotaci některých častých jazykových jevů typ dat vět EN tokenů CZ tokenů Právní texty (Acquis Communautaire) 501 13 512 10 752 Beletrie (Reader s Digest, E Books) 500 10 097 8 978 Novinové články (Project Syndicate) 484 10 714 9 990 Nov. Čl. s pojmenovanými entitami (Project Syndicate) 500 12 799 11 052

Pravidla týkají se především possible hran popisují, kam připojit dané slovo, pokud nemá ve druhém jazyce svůj protějšek nebo zda li ho vůbec připojovat členy a předložky the dog depends on play the violin equivalent to pes závisí na hrát na housle stejný jako

Pravidla zájmena she laughed help him I remember smála se pomoz mu pamatuji si pomocná slovesa he is n't sleeping we worked I have never been nespí pracovali jsme nikdy jsem nebyl

Převod do t roviny využití atributu lex.rf dva uzly na t rovině jsou spojeny hranou jejich odpovídající tokeny na m rovině jsou spojeny hranou typy hran jsou zachovány problém: přidané uzly, např. #PersPron reprezentující nevyjádřený podmět

Nevyjádřený podmět heuristický algoritmus zajisití alespoň správné připojování českého nevyjádřeného podmětu zásah do ruční anotace

Mezianotátorská shoda typ dat typy hran rozlišovány typy hran nerozlišovány pouze hrany sure rovina m t m t m t právní texty 86,7 92,0 92,1 96,1 94,0 95,6 beletrie 76,6 82,9 85,8 90,5 90,1 91,2 novinové články 80,8 87,9 87,8 93,3 92,0 93,7 pojmenované entity 86,5 94,3 91,5 96,5 93,6 96,4 PCEDT 84,1 94,3 89,8 95,1 93,8 95,3

Automatický t alignment Haruno and Yamazaki (1996) myšlenka párovat pouze autosémantické uzly Menezes and Richardson (2001) párování uzlů sémantických sromů

T aligner Inspirace článkem Menezese a Richardsona Implementace v prostředí TectoMT 2 fáze Czech and English t trees Greedy 1:1 alignment Complete 1:N relations aligned t trees GIZA++ t alignment probabilistic dictionary

Fáze 1 Greedy 1:1 alignment hladový algoritmus založený na rysech (features) skóre potenciálního páru t uzlů: score(cnode, enode) = w f(cnode, enode) váha hodnota algoritmus vybere vždy ten pár s nejvyšším skóre a příslušné uzly spojí to opakuje, dokud je skóre větší než daná prahová hodnota

Rysy (features) vlastnosti dvojice českého a anglického t uzlu celkem 15 rysů jejich váhy byly optimalizovány pomocí perceptronu příklady rysů: Pravděpodobnost překladu dvojice t lemmat (z pravděpodobnostního slovníku) (hodnota 0 až 1) Tato dvojice rovněž byla/nebyla spárována nástrojem GIZA++ (0 nebo 1) T lemmata jsou shodná (0 nebo 1) Shoda t lemmat v prvních třech písmenech (0, 1)

Rysy (features) (2) Rodičovské uzly obou zkoumaných uzlů jsou již spárovány (hodnoty 0, 1) Někteří potomci zkoumaných uzlů jsou již spárováni (hodnoty 0, 1, 2, 3 ) Shodný sémantický slovní druh (hodnoty 0, 1) Podobná pozice uzlů ve stomě (real 0 až 1) Rozdíl relativních pozic českého a anglického uzlu

Fáze 2 Completing 1:N relations Spojíme navíc ty dvojice uzlů (K, L), pro které jsou splněny následující podmínky: K ještě není spojen s žádným protějšímu uzlem, ale jeho synovský nebo rodičovský uzel je spojen s L. Dvojice (K, L) byla navíc spojena systémem GIZA++. Dvojice (K, L) se vyskytuje v pravděpodobnostním slovníku.

Ukázka t alignmentu The $ 409 million bid is estimated by Mr. Simpson as representing 75 % of the value of all Hooker real estate holdings in the U. S. Podle odhadu pana Simpsona představuje 409 milionová nabídka 75 % hodnoty všech realitních holdingů firmy Hooker ve Spojených státech.

Vyhodnocení úspěšnosti pro porovnání výsledků využita pouze spojení typu sure. 10 násobná cross validace 9/10 dat pro natrénování optimálních vah jednotlivých rysů (features) perceptronem 1/10 dat pro samotnou evaluaci

T aligner evaluace typ dat precision recall f measure právní texty 92,8 % 91,4 % 92,1 % beletrie 86,3 % 82,7 % 84,4 % novinové články 90,7 % 91,9 % 91,3 % pojmenované entity 94,8 % 92,8 % 93,8 % PCEDT 94,9 % 88,7 % 91,7 % Dohromady 92,5 % 89,6 % 91,0 %

GIZA++ na m lemmatech GIZA++ byla spuštěna na sekvence m lemmat. Průniková symetrizace Výsledný word alignment byl pak převeden na t alignment pomocí odkazů lex.rf. precision 95,5 % recall 77,8 % f measure 85,7 %

GIZA++ na t lemmatech Z tektogramatických stromů byla vyextrahována t lemmata a seřazena podle jejich pozice ve stromě. Každý uzel reprezentuje jedno t lemma. Na takovéto sekvence t lemmat byla spuštěna GIZA++ s průnikovou symetrizací. precision 93,1 % recall 75,9 % f measure 83,6 %

Závěr zlepšení f measure o 5% oproti baseline (GIZA+ +) GIZA++ t alignment feature based t aligner mezianotátorská shoda f measure 85,7 % 91,0 % 94,8 %

Děkuji za pozornost.