Anotace jmenné koreference a asociační anafory na tektogramatické rovině

Podobné dokumenty
ANJA NĚDOLUŽKO 20. LISTOPADU 2008

ROZŠÍŘENÁ TEXTOVÁ KOREFERENCE A ASOCIAČNÍ ANAFORA Koncepce anotace českých dat v Pražském závislostním korpusu. Anna Nědolužko

Mezianotátorská neshoda

ÚPRAVY A DOPLŇKY PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU (OD PDT 2.0 K PDT 3.0) ÚFAL Technical Report TR ISSN

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Dataprojektor, kodifikační příručky

Anotování koreference

5. Abstraktní podstatná jména se často tvoří odvozováním od přídavných jmen různými příponami. Utvořte:

Korpus fikčních narativů

Výukové programy - Mgr. Karla Pitáková, tel

Střední odborná škola a Střední odborné učiliště, Hustopeče, Masarykovo nám. 1 Autor

SADA VY_32_INOVACE_CJ1

Přípravné kurzy k nové maturitě německý jazyk /základní úroveň/

ČESKÝ JAZYK 3. ROČNÍK Slovní druhy ohebné ROZLIŠUJEME DESET SLOVNÍCH DRUHŮ.

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

Přípravné kurzy k nové maturitě německý jazyk /vyšší úroveň/ Obsahem každé lekce bude nácvik:

SEZNAM VYTVOŘENÝCH digitálních učebních materiálů

Slovní druhy Masarykova ZŠ a MŠ Velká Bystřice projekt č. CZ.1.07/1.4.00/ Název projektu: Učení pro život

Dataprojektor, jazykové příručky, pracovní listy

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

ZŠ ÚnO, Bratří Čapků 1332

Slovní druhy. Ohebné i neohebné

Vyučovací hodiny mohou probíhat v multimediální učebně,jazykové učebně a kmenových třídách s využitím interaktivních tabulí.

Digitální učební materiál

Přísudek opakování a rozšíření

Návod Hra je postavena na pravidlech hry Země město, jen se při ní nepíše, žáci jsou aktivnější.

Výukový materiál zpracován v rámci projektu EU peníze školám

Automatické párování uzlů českých a anglických tektogramatických stromů

Co nového ve zpracování MWE Automatická identifikace

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Marta Klimecká Týdenní dotace hodin: 8 hodin Ročník: třetí

VY_12_INOVACE_ČT_II/1.03 Škola: Základní škola a Mateřská škola Dobronín, příspěvková organizace Polenská 162 / 4, Dobronín

VY_32_INOVACE_ / IQ cesta

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2017/18)

zastřelení zatčený Víte, kolik se v ČR prodalo novin v roce 2012? Podívejte se na statistiku. Odpovězte na otázky. 139/9+

Anglický jazyk vyšší úroveň. obsahem lekcí bude nácvik jednotlivých dovedností a typů úloh:

2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 5. Průřezová témata Mezipředmětové vztahy.

Učební osnovy pracovní

Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Specifikace požadavků pro školní část přijímací zkoušky (anglický jazyk) Šestiletý obor vzdělávání

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps

2 Lexikální jednotka. 2.1 Obecné kategorie

Zájmena Pronomina Číslovky Numeralia Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje

být a se v na ten že s on z který mít do o k

Developeři očekávají významný pokles nabídky průmyslových nemovitostí, do záporných čísel se dostane v Praze i regionech

Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele

Anglický jazyk základní úroveň obtížnosti. obsahem lekcí bude nácvik jednotlivých dovedností a typů úloh:

PRV reagovala Lucie Krumpholcová

Očekávané výstupy RVP Školní výstupy Učivo Poznámky (průřezová témata, mezipředmětové vztahy apod.) Řečové dovednosti

Katedra českého jazyka UK v Praze, PedF Přijímací zkouška z českého jazyka (VVP) VARIANTA O I. Korektura

ROZŠÍŘENÁ TEXTOVÁ KOREFERENCE A ASOCIAČNÍ ANAFORA Koncepce anotace českých dat v Pražském závislostním korpusu. Anna Nědolužko

č. účel patro m administrativa 1NP 36, administrativa 1NP 33,53

Literární výchova Světová literatura 2. poloviny 20. století

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Nguy Giang Linh

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Vzdělávací obor - Anglický jazyk - druhý cizí jazyk

PŘÍDAVNÁ JMÉNA, ZÁJMENA, ČÍSLOVKY

Základy latiny II

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Příloha B Průzkum podnikatelského prostředí

RUSKÝ JAZYK ročník Charakteristika vyučovacího předmětu. Obsahové, časové a organizační vymezení

JMENOVÁNÍ OSOB V KRONICE

Olympiáda v českém jazyce 45. ročník 2018/2019

Popis klinického případu práce s od narození nevidomým klientem K.K. Kortokov, T.Karovina International Society of Intuitive Information Sight

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

VY_12_INOVACE_55 Základní škola a mateřská škola Herálec, Herálec 38, ; IČ: ; tel.:

Projekt: EU peníze školám - OP VK oblast podpory 1.4 s názvem Zlepšení podmínek pro vzdělávání na základních školách

Český jazyk ve 4. ročníku

Metodický list. Název materiálu. Slovesné třídy a vzory. Autor. Darja Dvořáková. Klíčová slova. Slovesné třídy, vzory, K. J. Erben, Kytice, balada

Školní výstupy Učivo (pojmy) Poznámka

Anglický jazyk - Sekunda

Volitelný španělský jazyk

VLÁDA ČESKÉ REPUBLIKY PROGRAM SCHŮZE VLÁDY ČESKÉ REPUBLIKY

ŠKOLNÍČEK MŠ NOVÝ HRÁDEK

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

Všestranný jazykový rozbor (VJR)

Zájmena. MASARYKOVA ZÁKLADNÍ ŠKOLA A MATEŘSKÁ ŠKOLA VELKÁ BYSTŘICE projekt č. CZ.1.07/1.4.00/ Název projektu: Učení pro život

January 12, Kdo bude králem jezera (procv.nás.).notebook. Modernizace vzdělávání CZ.1.07/1.4.00/

Počítač, dataprojektor, interaktivní tabule, audio a video technika, plány měst, mapy, slovníky

Sémantická interpretace

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Žák se seznámí se základními pojmy morfologie tvarosloví, ohebnost, význam slov.

Anglický jazyk pro 6. ročník

Základní škola Karviná Nové Město tř. Družby 1383

Základní škola Karviná Nové Město tř. Družby 1383

Učebnice, cvičebnice, CD-Rom, počítačová učebna, dataprojektor, interaktivní tabule, mapy anglicky mluvících zemí

Základní škola Karviná Nové Město tř. Družby 1383

Tady se rodí baletky TÉMA. >> Jiří Sotona

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

Historie české správy. Správní vývoj v letech část

TÝDENÍK EKONOMICKÝCH AKTUALIT 4. týden 25. až 29. ledna 2016

Kompozicionalita: jm na a reference, logick typy, rule-to-rule vs. interpretativn s mantika 1 / 14

II. Nástroje a metody, kterými ověřujeme plnění cílů

ZŠ a MŠ Panenské Břežany

Očekávání stavebních firem a dodavatelů stavebních materiálů

Při čtení následujících stran se vám může udělat nevolno, můžete mít pocity studu za autora, či získat tendence si fyzicky ubližovat. Mám vás rád.

Transkript:

Anotace jmenné koreference a asociační anafory na tektogramatické rovině

Reference - Koreference Helena poprosila maminku, aby na ni počkala. antecedent koreferující člen

Koreference v PDT 2.0 Na tektogramatické rovině se anotuje: gramatická koreference HOTOVO textová koreference zájmenná jmenná DĚLÁ SE bridging anafora

Technické provedení v PDT odkaz na ID antecedenta v atributech: coref_gram.rf pro zaznamenání gramatické koreference coref_text.rf (+ informal-type: 0, NR) pro zaznamenání zájmenné a jmenné textové koreference coref_special (segm, exoph) pro zaznamenání případů speciálních druhů odkazů: na segment předcházejícího textu (segm) a exoforický odkaz mimo text (exoph) bridging (+ informal-type: SET, PART, FUNCT, CONTRAST, REST) pro zaznamenání asociační anafory

Reprezentace v TrEdu Pro zásobování Ostravska a Frýdeckomístecka potřebuje firma svá jatka.

Teoretické zásady anotace koreference princip řetězce (odkaz na nejbližší předcházející koref. uzel) princip maximální délky koref. řetězce (propojení gramatická k. textová zájmenná k. textová jmenná k.) maximální velikost koref. členů (vždy celý podstrom) princip kooperace s anotací TG-roviny (neanotujeme apozici, predikaci, přímé potomky s funktory APP, PAT, MAT a AUTH atd.) princip rozhodujícího koreferenčního vztahu (před anaforickým), princip zvláštní váhy podílu na kohezi textu, princip preference koreference před asociační anaforou a jiné

Gramatická koreference korefence zvratných zájmen, hlavně sebe, svůj (Sobě nedopřeje matka nikdy nic.) koreference vztažných prostředků který, jenž, kam,kde apod. (Člověk, který chce všechno.) koreference v recipročních konstrukcích (Sultáni se vystřídali {#Rcp.PAT} na trůnu.) kontrola (Začít {#Cor.ACT} číst.) a kvazikontrola (Karel podal {#QCor.ACT} stížnost policii.) koreference u doplnění s dvojí závislostí vyjádřených slovesnou formou

Textová koreference zájmenná Identita referentů. Koreferující člen je: osobní nebo přivlastňovací zájmeno v 3. osobě (Helena poprosila maminku, aby na ni počkala) ukazovací zájmeno TEN v substantivní funkci (Helena poprosila maminku, aby na ni počkala. Ta to ale odmítla.) při aktuální elipse, kdy je do tektogramatického stromu doplněn nový uzel se zástupným t-lematem #PersPron (Helena poprosila maminku, aby #PersPron na ni počkala.) Antecedent nemusí být ve stejné větě s koreferujícím členem. Antecedent se určuje na základě kontextu

Anotace gramatické a zájmenné textové koreference ručně a částečně automaticky na celém PDT gramatická + textová: r. 2002 2004 2 anotátorky 4 6 24 2 linků v 49 431 větách (50.3% gram.k., 48.4% text k.) automatická předanotace

Textová koreference jmenná Helena poprosila maminku, aby na ni počkala. Maminka však řekla, že nemůže. Helena poprosila maminku, aby na ni počkala. Maminka však prosbu dcery ignorovala. Ale Dcera by měla poslouchat maminku. Například moje dcera mě poslouchá. nejsou koreferenční

Textová koreference jmenná slovní druhy Koreferující člen může být: substantivum (Helena/ona/#PersPron,... Helena) příslovce (v Praze tam) adjektivum (přivlastňovací typu otcův nebo pokud je odvozeno od NE - německý) + v některých případech také číslovka, sloveso

Dodržování koreferenčního řetězce Helena poprosila maminku, aby #PersPron na ni počkala. Maminka však řekla, že #PersPron nemůže. řetězec se dodělává automaticky: A B C problémy: "...očekávají návštěvu sparťanského prezidenta Macha s manažerem Nehodou, kteří by měli podat vysvětlení. (...) Musí zasáhnout manažer nebo prezident klubu." manažer = prezident (naštěstí jediný případ a dá se pak vyhledat automaticky)

Typologie TKR vztahů rozlišujeme specifickou a nespecifickou referenci TYP 0 (specifická reference) *SYN (různé nominace, např. Helena - slečna) *ER (hyperonym antecedenta, např. mango to ovoce) např.: Helena #PersPron slečna s ní dcera TYP NR (nespecifická reference) např. Tímto faktorem je podnikatel - inovátor, který se snaží o zisk, a proto logicky nemůže existovat ve stavu statiky, která nezná ani zisk, ani ztrátu. Tento podnikatel se od manažera liší tím, že! sem patří většina případů koreference abstrakt, pokud není nápadně jinak

Bridging anaphora Helena vstoupila do místnosti. Ze stropu kapala voda. nejde o koreferenci, ale o sémantický vztah podílí na kohezi textu WHOLE_PART neudržuje se řetězec s jinými typy koreference snažíme se propojovat jenom autosémantické uzly

Typologie bridging vztahů část celek (významy PART_WHOLE a WHOLE_PART v atributu bridging v informaltype) množina podmnožina/element množiny(set_sub a SUB_SET) funkce objekt (P_FUNCT a FUNCT_P) vztah sémantického kontrastu (CONTRAST) ostatní (REST)

Bridging - PART část celek (PART_WHOLE a WHOLE_PART) Dělal jsem bez přestávky celé týdny, často v noci. Německo Bavorsko Mnichov Neanotujeme, pokud ACMP, PAT, APP, MAT, AUTH: Na břehu Starnberského jezera u místa utonutí byla postavena kaplička s královými daty narození, vlády a smrti, s křížem a mramorovou pamětní deskou. strop této místnosti

Bridging - SET množina podmnožina / element množiny (SET_SUB a SUB_SET) Na rozdíl od dobře vybaveného FS dnes nikdo z téměř dvou stovek poslanců kromě předsedy a místopředsedů sněmovny a šéfů jejích výborů nemá svou kancelář, pracovní stůl, židli a telefon. také u jmenných skupin s nespecifickou referencí: Nový VW Golf je vybaven motorem o síle..." - "Dostali jsme možnost se novým golfem projet.

Hraniční případy SET a PART občas rozlišení ovlivňuje pouze počitatelnost jména Jeho hlavní výhodou by mělo být lepší napojení na televizní přenosovou techniku : zatímco dnes přenosové vozy {SET/PART} blokují parkovací prostor před starou sněmovnou, v budoucnu zajedou do Thunovské a kabely {SET?} se snadno spojí s tiskovým centrem. Když ho smrt překvapila u psacího stolu, revidoval právě text Prezidentské adresy, kterou pronesl několik dní před tím v Americké ekonomické asociaci. Poslední věta { PART?}, kterou v životě napsal, zněla : Stagnacionisté se mýlí v diagnóze důvodu, proč by kapitalistický proces měl stagnovat.

Bridging - FUNCT funkce objekt (P_FUNCT a FUNCT_P) Někteří se vrátili do Německa, další přešli na faru v nedalekém Jeníkově a spojili se se skupinou, která tady byla již ubytována. Podobné zkušenosti jako v Oseku potvrdil i farář v Jeníkově pan Matfiak. ministr vláda (SET) vs. premiér vláda (FUNCT)

Bridging CONTRAST vztah sémantického kontrastu (CONTRAST) A přesvědčen jsem ještě o jednom - je třeba mít vysoké cíle a s malými [cíly] se nespokojit. Lidi nežvýkají, to jenom krávy. Neanotujeme, pokud jsou propojeny ADVS: Dočasný podnikatelův zisk bude anulován, ale trvalý zisk z jeho inovace zůstane zachován společnosti ve formě nižších cen nebo technicky dokonalejších výrobků. NB! Zajímavé prolínání s AČV a diskurzivními vztahy.

bridging - REST ostatní přesněji nezařazené případy (REST) vztah rodinné příslušnosti (děda vnuk) místo obyvatel (Mexiko Mexičán) autor dílo (pokud není AUTH) (obraz autor) stejné nominace s podílem na kohezi (přihrála náhoda - do hry vstoupila další náhoda) událost argument (podnikání podnikatel) některé jiné ale bez fanatismu

anafora bez koreference "Duha?" Kněz přiloží prst k tomu slovu, aby nezapomněl, kde skončil. Protože tenhle Adolf Hitler nebyl vůdce velkoněmecké říše, ale pták druhu tučňák královský. A to jméno dostal vlastně dodatečně. A tak jsme ten rok vyjeli o něco dříve - koncem června. V tu dobu tam je sice ještě moc velká zima na koupání, ale ryby berou výborně. Jak se Vám zamlouvala Pragobanka Cup? - Takovou/podobnou/stejnou akci bychom také uvítali Zatím patří do REST. Přemýšlíme o zavedení Bridging-ANOF

Speciální typy odkazů nové exoph Dokončeny by měly být do 31. prosince 1995, a to i přes jisté zdržení způsobené opožděným stěhováním nájemníků z domů čp. 8 a 518 do náhradních bytů na sídlišti Barrandov v těchto dnech. A tu se dostáváme zpět k počátku tohoto textu.

Speciální typy odkazů nové segm Celní unie bude sice existovat na papíře ještě dalších dvanáct měsíců, ale v praxi dostanou vzájemné vztahy punc tvrdosti mezinárodního obchodu. Poroste administrativa. Jistotu v tomto směru dávají nejnovější kroky vlády SR, která se rozhodla zavést již před časem avizovanou desetiprocentní dovozní přirážku na zboží zahraniční provenience. Tak jako každý Mexičan, i Santa Anna znal a občas žvýkal mízu sapodilly zvanou chicle, a tak se zrodil nápad pokusit se z chicle udělat náhražku kaučuku. Právě v té době přihrála náhoda Santa Annovi do cesty Thomase Adamse, fotografa a především vynálezce všeho druhu.

nový segm - 2 typ segm dáváme, pokud struktura stromu nedovoluje odkázat na náležitý podstrom: Od 1. dubna nebude ÚNMS SR rozhodnutí české zkušebny potvrzovat.tato funkce přejde na příslušnou slovenskou zkušebnu. Chtěl jsem být největším ekonomem na světě, největším milencem na světě a největším jezdcem na světě.vzhledem k pokročilému věku třetí cíl už nestihnu.

Technické provedení standardní rozšíření TrEdu (bridging extension) 20 vět před aktuálně anotovanou větou a po ni (dá se nastavit jinak) zvýrazňují se stejná lemmata (podtržením) zvýrazňují se (barevně) všechny vztahy s aktuálním uzlem (podle typu vztahu - modře, bledě modře a červeně) anotovat se může na stromu nebo na textu problém u velkých souborů (nad 30 vět) předanotace NE (německý - Německo)

průběh anotace mezianotátorská shoda začátek 10.2008 10.-12.2008: 3 anotátoři 1.2009 -...: 2 anotátoři 1000 vět měsíčne pokud stejně - ½ PDT ke konci roku 70 60 50 40 30 20 10 TKR TRK+typ BR BR+typ 0 listopad 2008 leden 2009

statistika dat 492 souboru z train-1 a train-2: 7434 vět (15% PDT), 124 648 slov 3493(gram) +3282(text)=6775 starých šipek 8597(text) +4029(bridging)=12626 nových šipek 3282(pron.text) vs. 8597(noun.text) TK_0 bridgingrest bridgingcontrast bridgingfunct bridgingpart bridgingset TK_NR

problematická místa: předložkové fráze struktura TGS neumožňuje rozlišovat NP a PP v době karnevalu v těchto dnech karneval problém: den KOREF karneval Německá stávka v době karnevalu... Že mnohé Němce bude v těchto dnech bolet hlava, s tím se počítalo. Ve čtvrtek přece začal masopustní karneval... za Prahou - části města tu, před válkou po válce nebo naopak koreferenční jsou pouze PP: před začátkem utkání při rozcvičování

problematická místa: koreference na kontejner Tří a půl tisíce dělníků vyhlásili stávku. Stávkující žádají zvýšení platů o šest procent. Do 8. března se počet stávkujících může zdvojnásobit. nebo Tří a půl tisíce dělníků vyhlásili stávku. Stávkující žádají zvýšení platů o šest procent. Do 8. března se počet stávkujících může zdvojnásobit.

problematická místa: abstraktní jména Míra nezaměstnanosti by se měla vyvíjet protikladně, než ve standardní ekonomice. [ ] růst nezaměstnanosti v letech 1991 1993 značně zaostal za poklesem HDP. Pokračující privatizace a restrukturalizace si však vynutí zvýšení míry nezaměstnanosti z 3.5 % koncem roku 1993 na 5 6 % ke konci příštího roku. anotovat neanotovat? těžko stanovit hranice koreference pokud ano, jako typ 0 nebo typ NR? (teď jako NR, pokud tomu není nápadně jinak) problém hranice mezi konkrétními a abstraktními NP (zisk) podobně u dějových jmen

PLÁNY pokračovat v anotaci hledat a vyučovat nové anotátory vylepšovat mezianotátorskou shodu srovnávat a vyhodnocovat materiál základy pro automatickou předanotaci začít strojové zaučování, creating features