Mezianotátorská neshoda Pokus o klasifikaci mezianotátorských neshod na materiále jednoho velkého souboru. (101 vět). Mezianotátorská shoda na tomto souboru: texová koreference bridging F1-measure on arrows 0.83 0.46 F1-measure on arrows and types 0.68 0.43 Různá chápání textu: Tak je i knížka koncipována. V každé kapitole se mluví o určitém problému, uvádíme jak je rozsáhlý, kolik dětí je jím postiženo a co dělat. Je tam {knížka, kapitola} v podstatě konkrétní návod. Další příklad: Materiálům, které dnes máte k dispozici, předcházel dlouholetý výzkum. Zdeněk Dytrych : Od roku 1969, kdy jsme založili v bývalém Výzkumném ústavu psychiatrickém Oddělení pro výzkum rodiny, se hlavně zabýváme touto problematikou. Měli jsme samozřejmě řadu spolupracovníků a za pětadvacet let jsme v týmu udělali téměř nekonečnou řadu prací. Tak například rozsáhlý výzkum rozvodovosti. Anotátor A vedl šípku vzathu bridging_set_sub na dlouholetý výzkum, anotátor B na práce. Obě interpretace jsou možné. Další příklad je konkurence chápání jako antecedenta celého jevu nebo jeho konkrétního příkladu. Srov. také: Jedna je tzv. patologie třetí generace {možný antecedent A}. Například : jestliže matka nechtěla dítě a dítě se jí narodilo proti její vůli, vyvíjelo se nepříznivě a je vysoká pravděpodobnost, a my chceme vědět jaká, že i toto dítě se v budoucnu bude chovat ke svému dítěti podobně {možný antecedent B celé tvrzení, technicky odkaz na spojku a}. Koneckonců tento vysoce zajímavý jev {odkaz na patologie nebo na spojku a} byl pozorován v experimentech u opic, které prováděl před několika desítkami let vynikající americký etolog Harlow. Nejde jen o to hledat negativa, ale i pozitiva. Co to způsobilo? Například to může být škola, sport, hudba atd. Většinou něco, co jim umožnilo vyniknout.
Zdeněk Dytrych : Tyto děti, které prožily některé období naplněné stresem, mají společný znak a to je ztráta sebedůvěry. Mají ji rozkolísanou. Nevěří v sebe, nevěří v ostatní a jejich život se klikatí, má různé složitosti a ty se na sebe hromadí. My tomu říkáme efekt sněhové koule. Na negativní věci se nabalují další a další a už ani nevíme, co bylo na začátku. Jeden z anotátorů má ten vztah označeny jako textovou koreferenci typu NR. Není vyloučeno, dokonce dost logické, ale zevrubně řečeno jaksi neobligatorně. Dá se pochopit různě, nemusí se o koreferenci v podstatě ani jednat. Druhý anotátor odkázal negativní věci na NP složitosti, což také není vyloučeno a podobně jako první řešení není jednoznačné. Upřesnění segm vs. koreference Anotátor má rozhodnout, jestli daný uzel odkazuje na něco v předchozím kontextu nebo na větší úsek textu. Vaše kniha obsahuje ve třiadvaceti kapitolách různé problémy, od těžkých poškození dítěte až po lehčí disfunkci či [vlivu]vliv rozvodu na dítě. Tím ovšem jednu konkrétní rodinu může zajímat maximálně pět, přinejhorším deset kapitol. Zdeněk Matějček : Původně tato knížka byla určena pro zdravotnické pracovníky, a to především pro lékaře, kteří jsou ve styku s rodinou. Na druhé straně se ukázalo, že toto téma je stejně důležité pro pedagogy a vychovatele. V případě daného anaforického hyperonymu (toto téma) dochází k několika různým interpretacím. Anotátor A odkázal toto téma na tato knížka vztahem bridging_rest (jako kniha-téma), anotátor B udělal textovou šípku na problémy, anotátor C odkazal speciálním typem reference na segment textu (coref_segm). Srov. také větší úsek textu, kde předpokládaný antecedent textové koreference se nachází ve 20větové vzdálenosti od anaforického členu: Materiálům, které dnes máte k dispozici, předcházel dlouholetý výzkum. Zdeněk Dytrych : Od roku 1969, kdy jsme založili v bývalém Výzkumném ústavu psychiatrickém Oddělení pro výzkum rodiny, se hlavně zabýváme touto problematikou. Měli jsme samozřejmě řadu spolupracovníků a za pětadvacet let jsme v týmu udělali téměř nekonečnou řadu prací. Tak například rozsáhlý výzkum rozvodovosti. Sledovali jsme šest let po rozvodu, co se děje s bývalými manžely a s jejich dětmi. Jaké je jejich další začlenění do života, jak je rozvod poznamenal, či nepoznamenal. Zdeněk Matějček : Studovali jsme děti, které vyrůstaly v situacích za méně příznivých společenských a citových podmínek, které mohou být nejrůznějšího druhu.
Kdy hned na začátku do osudu dítěte vstoupilo něco nedobrého. Jsou to děti, které získaly určité obtíže z vnějšího světa. Na druhé straně se zabýváme dětmi, které si nesou v sobě od počátku určitou nápadnost nebo obtíž. Zdeněk Dytrych : K tomu je třeba dodat, že za poslední léta v Čechách roste počet dětí s vrozenou vývojovou vadou. My jsme tento nárůst sledovali a je to až do deseti procent. [vybrali]vybrali jsme si jako modelovou situaci rozštěp rtu a patra. Zkoumali jsme, co se děje s matkou. Ta zažije šok a táhne se to s ní celý život a s dítětem taky. Jsou případy, kdy se matka zavírala doma a přerušila styky s celým okolím i s přáteli. To dítě je totiž tzv. nechlubitelné. Rodina se stáhne do sebe a vzniká zvláštní atmosféra, která samozřejmě vytváří stres. Má to různé fáze a ty my sledujeme, podobně jako lékaři ve Spojených státech a jinde. Zdeněk Matějček : Náš výzkum bych shrnul do dvou kategorií. Děti, které si nesou do života problém, který není nápadný, který je uložený v jeho centrálním nervovém systému, jak už vrozeně, tak vlivem vnějším. Anotátor A odkázal výzkum v první větě této ukázky. Anotátor B udělal segm. Čistě logicky je správné řešení A, ale vzdálenost v textu a pojednávaní celého předcházejícího kontextu o výzkumu vysvětluje i druhé řešení. Technické nesrovnalosti Hloubka uzlu intuice vs. konvence-1. Dochází k rozporu konvence (princip maximální velikosti koreferovaných členů) a intuice anotátoru. V následujícím příkladě se zdá kontraintuitivní řešení odkazovat na uzel s t-lemmatem #Idph, proto anotátor může odkázat na významový kořen: Děti, rodina a stres... {titul - AN} Před prázdninami vyšla v nakladatelství Galén kniha {možnost odkázat na #Idph nebo na spojku a, srov. tektogramatickou reprezentaci antecedentní věty na Obr. X} Děti, rodina a stres s podtitulem Vybrané kapitoly z prevence psychické zátěže u dětí.
Obr.X Antecedentní věta Anotace uzlů s funktorem ID - intuice vs. konvence-1. Konvence neanotace uzlů s funktorem ID (srov. v X.X.X) nemusí být anotátorem dodržena pokud dále v textu jsou na ně odkazy. Srov. v již uvedené antecedentní větě (ex.x) a následující anaforickou větu: Její autoři prof. PhDr. Zdeněk Matějček a Doc. MUDr. Zdeněk Dytrych před pětadvaceti lety založili Oddělení pro výzkum rodiny, které dodnes vedou. NP rodina se plynule navazuje na konjunkci děti, rodina a stres, což je však název knížky, tedy všechny tři uzly mají funktor ID, a tento vztah podle existující konvence nemá být označeny. Takové řešení však protiřečí intuici anotátora a rovněž skutečnosti, že vztah mezi NP rodina v první a druhé větě je koreferenční a podílí na kohezi textu. Bridging: těsnost vztahu vs. autosémantičnost lemmat Jde o konflikt konvence anotace na nejbližší referující uzel (viz. chain principle) a konvence odkazování asociační anafory na uzly vyjadřené plnohodnotnými názvy (ne PersPron/spojky/rekonstruované uzly, viz. X.X.X). Srov. NP její autoři v předchozím příkladě, kde anotátor vybírá mezi anotací vztahu bridging_rest na #PersPron v téže větě a anotací na plnohodnotné pojmenování kniha Děti, rodina a stres ve větě předchozí. Hranice mezi brigding (hlavně SUBSET) a koreferencí NR Jde především o nereferenčně (genericky) použité, často hypertématické NP. V takových případech je občas těžko rozhodnout mezi textovou generickou koreferencí (argument: propojíme to celé jedním řetězcem, je to článek o tom, takže mělo by to být spojené, aby to bylo vidět) a bridging vztahem typu SUBSET (argument: NP nereferují na stejnou množinu prvků. V jednom případě referují na všechny objekty dané třídy, v druhém případě jenom na část). Námitkou proti prvnímu rozhodnutí je kontraintuintivní chápání koreference, námitkou proti druhému rozhodnutí je složitost až nemožnost
takovým způsobem oanotovaná data jakýmkoliv způsobem automaticky zpracovat. Přikláníme se spíše k prvnímu řešení, ale těžko se dá stanovit úplně přesná pravidla. Srov. A když už byla knížka hotova, tak se zjistilo, že je praktická i pro rodiče. V této knize je poučení, jak snášejí děti rozvod a jak na něj reagují, a návod, jak se mají rodiče chovat, aby se utrpení dětí snížilo. namalovat dvě paralelní šipky: bledě a tmavomodrou od rodiče k rodiče. V daném kontextu je dvakrát genericky použité lemma rodiče. V první větě se však mluví o všech rodičích, v druhém jenom de facto o rodičích postížených rozvodem, což je přesně řečeno podmnožina množiny rodičů. Generický denotativní funkce obou uzlů však svádí k NR-interpretaci. Srov. také následující příklad: Vybrali jsme si jako modelovou situaci rozštěp rtu a patra. Zkoumali jsme, co se děje s matkou. Ta zažije šok a táhne se to s ní celý život a s dítětem taky. Jsou případy, kdy se matka zavírala doma a přerušila styky s celým okolím i s přáteli. To dítě je totiž tzv. nechlubitelné. V obou případech je NP matka použita nereferenčně, ale pořád se jedná o matky dětí s rozštěpem rtu a patra. V podstatě se tvrdí, že některé matky takto nemocných dětí se zavírají doma atd. Logicky správně SET_SUB, ale nespecifická reference svádí k NR. Anotátor A provedl vztah koreferenční typu NR, anotátor B bridging SET_SUB. Velice podobně, ale de facto jinak vypadají referenční vztahy v páru dítě-dítě. Nechlubitelné je kterékoli postižené dítě, nejenom u té matky, která se zavřela doma a přerušila styky s celým okolím i s přáteli. I když takové chápání rovněž není vyloučeno. Tedy obě řešení jsou logicky oprávněné. Z konvence preference koreference před vztahem bridging vede k označení v tomto případě koreference typu NR. Paralelismus konstrukcí a jejich sémantiky a odlišná interpretace reference je velice časově náročná a není zaručeně použitelná. Řešit to zatím opravdu neumím. Celkově je dost nepředvídatelná shoda u bridging vztahů mezi NP s nespecifickou referencí. Buď to můžeme celé zrušit, nebo se s tím prostě počítat. Srov. dost nekonečný počet možností navázaní referenčních vztahů mezi NP označujícími děti a rodiče v následujícím úseku textu: Z. Matějček se věnuje dětem a Z. Dytrych dospělé části rodiny... Zdeněk Dytrych : Na ministerstvu zdravotnictví v útvaru hlavního hygienika se objevila potřeba shrnout některé problémy, které se v rodině velice často opakují. Profesor Matějček a já jsme byli požádáni, abychom se o takové shrnutí pokusili s tím, že čtenáři mají dostat konkrétní rady. Tak je i knížka koncipována. V každé kapitole se mluví o určitém problému, uvádíme jak je rozsáhlý, kolik dětí je jím postiženo a co dělat. Je tam v podstatě konkrétní návod.
Vaše kniha obsahuje ve třiadvaceti kapitolách různé problémy, od těžkých poškození dítěte až po lehčí disfunkci či vliv rozvodu na dítě. Tím ovšem jednu konkrétní rodinu může zajímat maximálně pět, přinejhorším deset kapitol. Zdeněk Matějček : Původně tato knížka byla určena pro zdravotnické pracovníky, a to především pro lékaře, kteří jsou ve styku s rodinou. Na druhé straně se ukázalo, že toto téma je stejně důležité pro pedagogy a vychovatele. Ti se přece setkávají i s postiženými nebo týranými dětmi. A když už byla knížka hotova, tak se zjistilo, že je praktická i pro rodiče. Samozřejmě ne každá kapitola ne pro každého rodiče. Zdeněk Dytrych : Kdyby se přímo dotýkalo některé rodiny deset kapitol, tak by to byla opravdu nešťastná rodina. Ale stačí jedna a většinou jich bude i víc. Vezměte si, kolik je rozvodů - třicet tisíc ročně v republice, to znamená, téměř třicet tisíc dětí je rozvodem nějakým způsobem postiženo. V této knize je poučení, jak snášejí děti rozvod a jak na něj reagují, a návod, jak se mají rodiče chovat, aby se utrpení dětí snížilo. Nebo například existuje lehká mozková disfunkce, kterou trpí podle našeho rozsáhlého výzkumu pět procent dětí. Toto postižení se velice špatně rozpoznává. Dítě je nemotorné, neklidné a není schopné se soustředit, ale přitom je většinou chytré. Rodiče ho považují za lajdáka a bývá trestáno třeba za špatný výkon ve škole, tím se zhoršuje vztah k učení atd. A tohle rodiče musí vědět. Samozřejmě i pedagogové a v této knížce je návod co s tím. Zdeněk Matějček : Předkládáme i problémy, na které se zapomíná. Tak například úmrtí dítěte nebo narození postiženého dítěte. Tady nejde jenom o rodiče, ale i o okolí, které musí vědět, jak se má chovat. Nebo úmrtí v rodině a jeho vliv na dítě a může to být třeba babička. Dá se říci, že kapitoly z vaší knížky, které se určité rodiny netýkají, přispějí k porozumění těm druhým? Zdeněk Matějček : Ano, to je přesné. Vždyť například chlapec s lehkou mozkovou disfunkcí není jen v rodině či ve škole. Taková rodina má své přátele, sousedy atd. Celý rozhovor probíhá na abstraktní rovině, tj. nemluví se o žádných konkrétních dětech ani rodinách. Není pravda, že všechny rodiče a všechny děti jsou mezi sebou koreferenční. V některých větách je zřejmý vztah SUBSET (Matějček se věnuje dětem - kolik dětí je jím postiženo; Dytrych dospělé části rodiny - jednu konkrétní rodinu může zajímat... atd) Avšak jasné příklady jsou bohužel vždy v menšině. Např. dále ve větě Vaše
kniha obsahuje ve třiadvaceti kapitolách různé problémy, od těžkých poškození dítěte až po lehčí disfunkci či vliv rozvodu na dítě. už je více možností: koreferovat dítě na předcházející dítě v obecněgenerickém kontextu, nebo je vést na tuto NP jako SUBSET. Řešení podobných problémů je neproduktivní ztráta času a jen stěží k něčemu přispěje. Proto je tu pravděpodobně nejlepší řešení je koreferovat podobné uzly s typem NR. Problém je zase v tom, že jen velice těžko se stanoví pro to pravidla. Další specifikace popsané neshody je výběr mezi neoznačením žádného vztahu a označením bridging_set. Srov. v následujícím příkladě po značném (ale menším než hraničních 20 vět) textovém intervalu. Nebo úmrtí v rodině a jeho vliv na dítě a může to být třeba babička. {10 vět} Sledovali jsme šest let po rozvodu, co se děje s bývalými manžely a s jejich dětmi. Jaké je jejich další začlenění do života, jak je rozvod poznamenal, či nepoznamenal. Zdeněk Matějček : Studovali jsme děti, které vyrůstaly v situacích za méně příznivých společenských a citových podmínek, které mohou být nejrůznějšího druhu. Podíváme se na poslední použití NP děti v kontextu Studovali jsme děti, které. Tyto děti nemohou být koreferovány s dětmi v předchozí větě, protože jse o jinou problémovou skupinu. Avšak jde o jistou podmnožinu všech dětí, a všechny děti se už genericky v předchozím textu vyskytly (srov. první větu toho příkladu), i když ne úplně jednoznačně. Z toho důvodu jeden z anotátorů vede brodging_set_sub na dětí v první větě, druhý a třetí žádnou šipku nevedou. Dokonce podobný problém může vzniknout i v NP děti v prostřední větě (kontext manžely a s jejich dětmi), kde děti mohou být také chápány jako podmnožina všech děti a tudiž odkázána na děti v první větě. Koreference typu NR vs. žádná koreference V případě, kdy extenze použitých nereferenčních jmen není totožná. Srov. možnost odkázat/neodkázat v následujícím příkladě: Zdeněk Matějček : Jeden projekt, který ještě běží, je sledovat od určitého věku děti, které jsou dnes dospělé a mají děti, ale vyrostly za poněkud zvláštních podmínek. Jedna skupina jsou jedinci, kteří nikdy nepoznali rodinu a vyrůstali v dětských domovech. V další skupině jsou ti, kteří z dětských domovů přešli do náhradní péče, ale typu SOS vesničky, a v třetí ti, kteří se dostali do individuální pěstounské péče. NP dětský domov má vdaném kontextu nejednoznačnou referenci, která může být interpretována i jako specifická. V tom případě dané NP by neměly být spojené koreferenční šipkou. V případě nereferenční interpretace koreferenční vztah není vyloučen. Bridging SUBSET u nereferenčních NP Jakmile nereferenční (generické a jiné NP) mají různou extentci, se k problematice rozhodnutí
označovat/neoznačovat dodává také problém správného (resp. stejného u více anotátorů) výběru antecedenta. Srov. v následujícím úseku textu se mluví o dětech v dětských domovech, kteří v dospělosti nejsou schopny lásku přijímat ani dávat. O takových dětech se mluvilo nějakou dobu. Pak následuje věta Přesto jsou děti, které v takovýchto podmínkách vyrostou v dobré, bezproblémové dospělé. V předchozím kontextu se nevyskytla NP s generickým významem, odpovídající denotaci 'všechny děti, kteří vyrůstají v dětských domovech', tedy nemůžeme z této poslední věty odvést referenci typu SUBSET. Jednoznačně však tyto děti jsou podmnožinou dětí z dětských domovů. Výsledek anotace tedy je, že tuto NP odvede každý anotátor někam jinam. Srov. Zdeněk Matějček : Jak dokazuje výzkum z dětských domovů, když jsou tyto děti dospělé, tak nejsou schopny lásku přijímat ani dávat. Zdeněk Dytrych : Čili do koho nebyla láska vložena, tak ji nedovede ani dávat. Zdeněk Matějček : Tento člověk není schopen citové investice a je s ním život těžší ; ne že by to bylo prokletí a že by byli všichni takoví, ale je to tendence. Prokáže se, když sledujete větší skupiny. Zdeněk Dytrych : Chceme znát možnosti, jak tomu zabránit ; a to souvisí i s druhou částí, kdy hledáme faktory tzv. protektivní, které vedou k tomu dobrému ve vývoji. Zdeněk Matějček : Přesto jsou děti, které v takovýchto podmínkách vyrostou v dobré, bezproblémové dospělé. Anotátor A vede šipku bridging SUBSET na vzdálenější předcházející kontext, kde se vyskytla NP děti v generičtějším významu (matka nechtěla dítě, 10 vět předtím), anotátor B bridging_contrast na tento člověk, anotátor C SUBSET na tyto děti. Pokračování daného textového úseku předkládá další problém. Srov. v bezprostředně následující kontext: Proč? Nejde jen o to hledat negativa, ale i pozitiva. Co to způsobilo? Například to může být škola, sport, hudba atd. Většinou něco, co jim umožnilo vyniknout. Zdeněk Dytrych : Tyto děti, které prožily některé období naplněné stresem, mají společný znak a to je ztráta sebedůvěry. NP tyto děti v poslední větě odkazuje genericky na děti, kteří vyrostli v dětských domovech a v předchozím kontextu nemá antecedent. Anotátoři ji různě odkázali A udělal textovou koreferenci typu NR na děti v první větě předchozího úseku (když jsou tyto děti dospělé), Anotátor B textovou koreferenci typu NR na šťastné děti ( děti, které v takovýchto podmínkách vyrostou v dobré, bezproblémové dospělé ), anotátor C odkázal na obě tyto NP vztahem bridging_sub_set Všiml vs. nevšiml Některé vztahy (zvláště bridging) nejsou snadno uchopitelné. Často se stává, že jeden z anotátorů
anotuje vztah, který si druhý anotátor nevšimne, nebo si ho všimne, ale bude ho považovat za nerelevantní. Srov. např. v následující větě jeden z anotátorů označil vztah mezi rada a návod jako SET_SUB, druhý si ho vůbec nevšiml: Profesor Matějček a já jsme byli požádáni, abychom se o takové shrnutí pokusili s tím, že čtenáři mají dostat konkrétní rady. Tak je i knížka koncipována. V každé kapitole se mluví o určitém problému, uvádíme jak je rozsáhlý, kolik dětí je jím postiženo a co dělat. Je tam v podstatě konkrétní návod. Zvlášť aktuální je podobný problém na větší textovou vzdálenost. _SKOPÍROVAT NĚKAM K KAPITOLCE O TOM, ŽE SE ČÁSTI NE NEMAJÍ BÝT ANOTOVÁNY_: Její autoři prof. PhDr. Zdeněk Matějček a Doc. MUDr. Zdeněk Dytrych před pětadvaceti lety založili Oddělení pro výzkum rodiny, které dodnes vedou. Nebo například existuje lehká mozková disfunkce, kterou trpí podle našeho rozsáhlého výzkumu pět procent dětí. Dlouhé řetězce koreferenčních a bridging vztahů. Platí konvence o dodržování koreferenčních řetězců a spojování řetězce bridgingem takřka jednou, a pak už vést jenom koreferenci. Není to však vždy jednoznačné, zvlášť v textech s generickými hypertématy. V analyzovaném textu hypertématickou platnost mají NP děti a rodiče, které i mezi sebou jsou propojeny bridging vztahem SUBSET. Avšak skutečností, že nejsou všechny NP děti (resp. rodiče ) mezi sebou koreferenční vzniká potřeba dodatečně propojovat dál jiné rodiče a děti bridgingem. Textová koreference mezi jednotlivými děti a rodiči je provedena velice nejednoznačně (srov. většinu předchozích a následujícich příkladů s těmi lemmaty), tudíž i bridging vztah se provádí různými anotátory různě. Řetězová chyba (jedna neshoda vleče druhou) Tak je i knížka koncipována. V každé kapitole se mluví o určitém problému, uvádíme jak je rozsáhlý, kolik dětí je jím postiženo a co dělat. Je tam v podstatě konkrétní návod. Vaše kniha obsahuje ve třiadvaceti kapitolách různé problémy, od těžkých poškození dítěte až po lehčí disfunkci či [vlivu]vliv rozvodu na dítě.