Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Podobné dokumenty
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Strukturovaný životopis

On the Structure of Constituent Negation in Czech

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Faktorované překladové modely. Základní informace

ve strojovém překladu

Automatické párování uzlů českých a anglických tektogramatických stromů

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Publications 1 Barbora Vidová Hladká March 2017

Cl. Práce publikované v odborných Časopisech vydávaných v zahraničí

Barbora Vidová Hladká Publications as of March 2016

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

1. Přehled cizojazyčných a vícejazyčných korpusů

Translation Model Interpolation for Domain Adaptation in TectoMT

Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny

Education and Training

V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.

Životopis. Osobní informace. Pracovní pozice

Automatická anotace angličtiny na tektogramatické

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Životopis Duben 2008

PSANÍ. (1) My address is Dlouhá 34, Liberec. Thank you and!

RNDr. Ondřej Bojar, Ph.D.

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Střední odborná škola stavební a Střední odborné učiliště stavební Rybitví

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Gramatické závislosti vs. koordinace z pohledu redukční analýzy

AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.

PDT-Vallex: trochu jiný valenční slovník

1. Introduction - That is me. 1. Presentation

DIDAKTICKÉ STUDIE ročník 5, číslo 2,2013

VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová

Juxtapozice z do v Arabštině

Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: 15 minut

Liší se mluvené a psané texty ve valenci? 1

ANGLIČTINA ODPOLEDNÍ 111, 113 (minulý semestr 111, 113) Angličtina velmi mírně pokročilí (3. semestry) Výukové materiály Předpokládaný rozsah učiva:

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

Zachycení (nejen) koordinací v závislostních stromech

Anotace rematizátorů a discourse connectives v PEDT

Angličtina hravě - první stupeň

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

Syntaktická rovina a syntaktické funkce

Název projektu: Multimédia na Ukrajinské

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

Výsledky dosažené v roce 2007

Present simple (přítomný čas prostý)

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Hlásili to v rozhlase aneb vzájemné mapování lokace a aktoru v dvojjazyčném závislostním korpusu 1

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy

Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?

Střední průmyslová škola stavební Pardubice

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE

ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost ET

model arabské morfologie Otakar Smrž

Depfix: Jak dělat strojový překlad lépe než Google Translate

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

Metodický list. Radmila Válková

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ PaedDr. Zuzana Sehnalová

SUBCATEGORIZATION OF ADVERBIAL MEANINGS BASED ON CORPUS DATa

Pražský závislostní korpus jako elektronická cvičebnice češtiny

VÝZNAMOVÁ REPREZENTACE ELIPSY. Marie Mikulová

Rekonstrukce standardizovaného textu z mluvené řeči

Perfektym v současné cestine

Univerzita Karlova v Praze. Matematicko-fyzikální fakulta DISERTAČNÍ PRÁCE. Marie Mikulová. Významová reprezentace elipsy

ROZŠÍŘENÁ TEXTOVÁ KOREFERENCE A ASOCIAČNÍ ANAFORA Koncepce anotace českých dat v Pražském závislostním korpusu. Anna Nědolužko

Minulý čas prostý. Past simple. Výhradní výukový materiál portálu onlinejazyky.cz

Future. V angličtině máme 3 způsoby, jak popsat budoucnost: 1. will future 2. be going to 3. present continuous

Učíme počítače (nejen) česky: ÚFAL

Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Nedostatky bezkontextové gramatiky

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

0. Úvod. 1. Syntaktické značkování textu

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Workshop o paralelním korpusu InterCorp

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u : My family, my hobbies Present simple and continuous, Wh- questions

Sport, sportování a hry

Strojové učení a pravidla pro extrakci informací z textů

Karel Pala, Vít Suchomel

POSLECH. Anglický jazyk 9. třída Mgr. Martin Zicháček. Jazyk Úroveň Autor Kód materiálu. Z á k l a d o v ý t e x t :

ZÁKLADY ANGLICKÉ GRAMATIKY PRO SOU MGR. DITA HEJLOVÁ

PŘEDPŘÍTOMNÝ prostý ČAS - procvičení

Sémantický web a extrakce

ČASOVÁNÍ SLOVESA "TO HAVE"

Strukturovaný životopis

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Transkript:

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz Workshop InterCorp 6. září 2013

Paralelní závislostní data zatím pouze cs en Prague Czech-English Dependency Treebank 2.0 (PCEDT) 2312 paralelních česko-anglických dokumentů, přes 1, 2 mil. tokenů / 49 208 vět v každé paralele Penn Treebank Wall Street Journal

Paralelní závislostní data manuální parsing anglické it a zrekonstruované chybějící uzly pro to/ono v češtině v první fázi anotovány ručně hloubková syntax sémantické vztahy automatické propojení uzlů praktická aplikace ve strojovém překladu

Paralelní závislostní data http://ufal.mff.cuni.cz/pcedt2.0/

Paralelní závislostní data

Paralelní závislostní data

Cíle projektu (Veselovská et al., 2012) zlepšení anotačního schématu PCEDT 2.0: jak nakládat se zájmenem it? experimenty s automatickou identifikací it pravidlový klasifikátor pro každou stranu korpusu kontrola správnosti zarovnání protějšků

Cíle projektu (Veselovská et al. 2012) zlepšení anotačního schématu PCEDT 2.0: jak nakládat se zájmenem it? experimenty s automatickou identifikací it pravidlový klasifikátor pro každou stranu korpusu kontrola správnosti zarovnání protějšků

Angličtina (Quirk et al. 1985, Sinclair 1995 atd.) a) anaforické: I bought a new hat but my husband did not like it. b) anticipační: It is no good bothering about it. c) deiktické: Is it your suitcase (over there)? d) exklamativní: It s me, open the door! e) prop: It is 5 o clock.

Čeština: nevyjádřený subjekt (Nguy a Ševčíková 2011) a) implicitní subjekt Slunce zezlátlo. (Ono) pomalu zašlo za obzor. b) všeobecný subjekt S rizikem se počítá. c) blíže nespecifikovaný Hlásili to v rádiu. subjekt d) nulový subjekt Zítra bude oblačno.

Zjednodušení úlohy Anaforické: anaforické a anticipační v angl. + nevyjádřená 3.os sg. t-lemma #Perspron (a-lemma it), šipka k antecedentu Neanaforické: deiktické a exklamativní v angl. + nevyjádřená 3. os. sg., t-lemma #Perspron (a-lemma it), bez šipky Pleonastické: prop v angl. + nulový subjekt nemá vlastní t-uzel, v češtině #Gen

Pleonastické it

Pleonastické it prop it (Quirk et al., 1985) neodkazuje k žádné specifické entitě je považováno za sémanticky vyprázdněné v jednočlenných větách v angličtině tyto věty vyžadují predikát se sponovým slovesem

Pleonastické it v InterCorpu dotazy na vyhledávání specifických struktur s it, omezení i na české protějšky na základě vyhledávek ruční pravidla pro klasifikátor (kombinace závislostních vlastností a zjištění z InterCorpu)

Pleonastické it v InterCorpu časové místní atmosférické It is 5 o clock. It is not far to New York. It is raining.

Pleonastické it v InterCorpu lemma hlavního predikátu je make a predikát vedlejší věty je v pozici pacientu make it easy/hard ve sponě je infinitiv slovesa smyslového vnímání It is heard/seen/felt atd. identifikace na základě českých protějšků je možné/je nutné/jde o

Pravidla pokud je sloveso make a podřízený subjekt je pacientem, pak je it pleonastické) pokud nejde o nulový subjekt (součást fráze zdá se atp.), přidej vygenerovaný uzel pro osobní zájmeno kombinace obou částí: pokud má paralelní uzel subjekt, musí být na české straně #PersPron

Závěry opravy it, která visela v PCEDT 2.0 špatně využití informace o českém protějšku obohacení systému o ruční pravidla úpravy manuálu vylepšení automatické detekce pleonastického it

Závěry => zvýšení přesnosti automatické detekce pleonastického it v anglické části paralelního závislostního korpusu

Závěry na základě správně detekovaného pleonastického it úpravy české části korpusu => zvýšení přesnosti detekce o 3,5%

Literatura Hajič, J., Hajičová, E., Panevová J., Sgall, P., Cinková S., Fučíková E., Mikulová M., Pajas P., Popelka J., Semecký, J., Šindlerová, J., Štěpánek J., Toman, J., Urešová, Z., Žabokrtský, Z.: Prague Czech-English Dependency Treebank 2.0. Data/software, Institute of Formal and Applied Linguistics, Prague, Czech republic, http://ufal.mff.cuni.cz/pcedt2.0/, 2011. Quirk, R., Greenbaum, S., Leech, G. And J. Svartvik. A Comprehensive Grammar of the English Language. Longman, 1985. Sinclair, J. M. English Grammar. Harper Collins Publisher, UK, 1995. Veselovská K., Nguy Giang L., Novák M.: Using Czech-English Parallel Corpora in Automatic Identification of It. Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012), European Language Resources Association, İstanbul, Turkey, 2012.