SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 Jarmila Panevová, Markéta Lopatková panevova@ufal.mff.cuni.cz lopatkova@ckl.mff.cuni.cz Valence a Pražský závislostní korpus (PDT) 1. Teorie valence v teoretickém plánu (ve FGP funkčním generativním popisu) pro slovesa: 1. 1 Třídění slovesných doplnění (srov. Přílohu, seznam funktorů ) podle způsobů jejich spojování se slovesy: (i) jednou x víckrát u jednoho slovesa (ii) omezený seznam sloves x každé sloveso Levá strana (i) a (ii) aktanty (partcipanty) Pravá strana (i) a (ii) volná doplnění Aktanty: Konatel (ACTor), Patient (PAT), Adresát (ADDR), Původ (ORIGo), Výsledek (EFFektum) Volná doplnění: lokální, směrová, temporální, způsobová, kauzální, (viz Přílohu) 1.2 Závaznost spojení slovesa s valenčním členem: Aktanty: obligatorní fakultativní (ale v obou případech jsou součástí valenčního rámce slovesa v lexikonu) Volná doplnění: obligatorní fakultativní (jen obligatorní jsou součástí valenčního rámce slovesa v lexikonu) 1.3 (a) Kritérium pro stanovení (sémantické) obligatornosti: Dialogový test (ne)přijatelnost odpovědi Nevím při otázce po valenčním členu. (b) Přístupy k vymezení počtu aktantů: (ba) Kognitivní role jako Původce, Procesor, Nositel, Kauzátor,, Stimul, Destruktiv, Beneficient, (bb) 1. aktant, 2. aktant, 3. aktant Kompromis mezi (ba ) a (bb): jazyková strukturace (posouvání) Sloveso má 1 aktant = ACT (místo ACT je vždy obsazeno): (1) Jan běží. (2) Jan otevřel (dveře). (3) Jan spí. (4) Slunce/kniha vychází. (5) Komín kouří. (6) Klíč/vítr otevřel (dveře). (7) Jan upustil/rozbil (vázu). 1
Sloveso má 2 aktanty = ACT, PAT (valenční místo ACT a PAT u slovesa s více než jedním aktantem je ve (valenčním) rámci vždy přítomno): (8) Jan otevřel dveře. (9) Jan potkal listonoše. (10) Náhle ho oslovil neznámý člověk. (11) Chlapec vyrostl/vyspěl v muže. (12) Hrobník vykopal hrob. Slovesa se 3 a více aktanty sémantické hodnocení (fakultativní aktanty jsou v závorce): (13) Švadlena ušila šaty (zákaznici) (z nemačkavé látky). (14) Švadlena přešila (zákaznici) šaty (na župan). (15) Matka předělala (dětem) loutku z Kašpárka na čerta. 2. Uplatnění navržené valenční teorie na další slovní druhy: (i) (ii) vystačíme u substantiv a adjektiv se stejným souborem doplnění (funktorů) nebo potřebujeme další jednotky? uplatňuje se tu princip posouvání jako u sloves? 2.1 Adjektiva A. Deverbativní: odvozená z tvarů činných pohlcení pozice ACT; odvozená z tvarů trpných pohlcení pozice PAT, popř. ADDR, (EFF?) (16) digestoř pohlcující kuchyňské pachy = digestoř, která pohlcuje (17) Odevzdal náramek nalezený na ulici = náramek, který nalezl/byl nalezen na ulici (18) Studenti informovaní o formách studia reagovali na anketu lépe = studenti, které (ADDR) informovali/kteří byli informováni o formách B. Primární: sdílení doplnění (funktorů) se slovesy i substantivy plný čeho (obligatorní partitiv MAT(eriál)) hrdý na koho/co (PAT fakultativní nebo obligatorní?, odpověď spojena s řešením lexikálních vlastností, polysémie adjektiva) 2.2 Substantiva A. Deverbativní: sdílejí rámec zdrojového slovesa (změny formální, změny v povrchové vypustitelnosti vše je vypustitelné) B. Primární: specifická doplnění substantiv (vedle doplnění slovesných): MAT(eriál) partitiv aktant oblig. nebo fakult. (?) část národa, skupina dětí, košík hub, talíř polévky, APP(urtenance) přináležitost volné doplnění, u některých substantiv (zejm. relačních) obligatorní bratr Josefa Čapka, povrch zeměkoule, ID(entity) nominativ jmenovací (fakultativní) aktant hrad Trosky, parník Hradčany, Odpovědi na otázky: 2
(i) viz výše (ii) zatím otevřeno, ale srov. poradce prezidenta.addr, asistent primáře.addr (ACT u konatelských jmen pohlcen/zabudován, PAT je všeobecný?) 3. Otázky a problémy 3.1 Sémantická obligatornost a povrchová vypustitelnost A. Přijít kam, odejít odkud, vrátit se kam sémanticky obligatorní na povrchu nepřítomné směrové doplnění je buď známo z kontextu, nebo je to místo totožné s místem, kde je mluvčí nebo posluchač (telefonický dialog) B. Zevšeobecnění aktantu (volného doplnění?) Gen(eral) fungování dialogového testu (19) Moje vnučka už čte. Gen.PAT *Co čte? (20) Otec sedí u stolu a čte. Gen.PAT Co čte? To, co má v ruce, přesně nevím. (21) Věra prodává v supermarketu. Gen.PAT Gen.ADDR *Co prodává? *Komu prodává? (22) Student mluví na chodbě s učitelem (ADDR). O čem? Nevím PAT je fakultativní (23) Syn vzrušeně mluvil o maturitní zkoušce. Gen.ADDR?S kým? S přítomným(i) posluchačem(i)/s kýmkoli ADDR je obligatorní (24) Jan (už to) auto prodal. Gen.ADDR Komu? Někomu určitě, přesně nevím. (25) Dcera dostala k narozeninám krásné dárky. Gen.ORIG Od koho? Od dárců, přesně nevím od kterých. (26) Věra si koupila nové boty. Od koho? Nevím fakultativní ORIG (27) Jan pojede do Šlapanic na konferenci. Čím? Nevím volný MEANS (prostředek) Dialogový test - pro aktanty (oblig/fakult) není vždy naprosto spolehlivý (smysluplnost otázky, možnost přesné odpovědi, otázka po doplňující informaci). Interpretace: Gen cokoliv, co je vhodné pro tu činnost / něco konkrétního, co není přesně specifikováno, ale v situaci je přítomno. 3.2 Vydělení další skupiny kvazivalenční doplnění 3.2.1 Překážka OBST(acle) (nově zavedený funktor) (28) Matka se píchla nůžkami vs. o nůžky. (29) Růženka se píchla o trn. (30) Jan zakopl (nohou) o stůl. (31) Jan zavadil o roh stolu (nohou). oblig. OBST 3.2.2 Mediátor MEDIAT (nově zavedený funktor) (32) Otec přitáhl kluka (levou rukou) za ucho. (33) Když jsem odcházel, zatahal mě soused za rukáv. 3
(34) Jan přivedl psa za obojek. 3.2.3 Rozdíl DIFF(erence) (modifikovaný funktor, dříve volné určení) (35) Inflace se zvýšila proti roku 2000 o několik procent. (36) Náš tým zvítězil o dvě branky. (37) Jan zvítězil v závodě o prsa. (38) Postupte o dva schody výš. Shody OBST, MEDIAT a DIFF s aktanty: (i) vyskytují se s omezenou třídou řídících slov (ii) jsou vazebné (rekce) (iii) nemohou se opakovat (u jednoho řídícího slova). Shoda s volnými doplněními: (iv) jsou sémanticky vyhraněné (přestože jsou vazebné) Na kvazivalenčnost aspirují i další doplnění, např. Záměr (INTT intence) šel nakupovat, odešel z domova hledat práci. 4. Vztah lexikálního významu (polysémie slovesa) a valence Jedna (lexikální) jednotka má více valenčních rámců je to (minimálně) tolik lexií, kolik je valenčních rámců (jednostranná implikace, srov. chovat králíky, chovat dítě shoda ve valenčním rámci, ale nesporný rozdíl v lexii). (39) hrát 1 karty PAT [4; obl] (= provozovat nějakou hru) hrát 2 na housle MEANS [;obl] (= vyluzovat hudbu pomocí hudebního nástroje) (40) bát se 1 matky/čerta PAT [2;obl] (= mít strach z ) bát se 2 o matku PAT [o+4, vv; obl] (= obávat se o /že ) (41) odpovídat 1 komu na co PAT [na+4, vv; obl] ADDR [3; obl] odpovídat 2 čemu PAT [3; obl] odpovídat 3 za co PAT [za + 4; obl] (42) poslat 1 dopis příteli (do Brna) poslat 1 žádost městskému úřadu PAT [4; obl] ADDR [3; obl] (= adresovat) poslat 2 žádost na úřad poslat 2 studentku do podatelny PAT [4; obl] DIR3 [ ; obl] (= vypravit) 4
5. Výstavba valenčních slovníků pro účely PDT jádro anotace na tektogramatické rovině problém udržení konzistence valenční slovník slovesa dvě větve seznamy valenčních rámců využívaných anotátory PDT (PDT-VALLEX) komplexní valenční slovník (VALLEX) substantiva zpracovávání teoretických aspektů a metodologie (Panevová, Kolářová- Řezníčková) seznamy substantiv a jejich doplnění (PDT-VALLEX) adjektiva seznamy adjektiv a jejich doplnění Valenční slovník sloves PDT-VALLEX seznamy valenčních rámců vytvářených a využívaných anotátory PDT valenční rámce sloves v jejich jednotlivých významech (jak se objevují v průběhu anotace) lexém jako celek není zpracováván valenční rámec soubor slovesných doplnění charakterizován příkladem/příklady pro jednotlivá slovesné doplnění specifikován: funktor charakterizuje valenční vztah mezi slovesem a doplněním typ doplnění obligatorní / fakultativní možné povrchové vyjádření Valenční slovník sloves VALLEX komplexní informace o celém slovesném lexému (Lopatková et al., 2002) valenční rámce sloves typicky odpovídají jednotlivým významům charakterizovány glosami a příklady užití valenční rámec soubor valenčních doplnění pro jednotlivá slovesné doplnění specifikován: funktor charakterizuje valenční vztah mezi slovesem a doplněním typ doplnění obligatorní / fakultativní / typické možné povrchové vyjádření doplňující syntaktické informace: vid a odkaz na odpovídající vidový protějšek kontrola syntakticko-sémantická třída (pracovní rozdělení) idiomy rozpracováno: reciprocita reflexivita možné diateze, způsoby pasivizace odkazy na odpovídající synsety české větve WordNetu aktanty kvazivalenční volná obligatorní fakultativní typická typická doplnění obvykle užívaná fakultativní volná doplnění obvykle rozvíjejí celou skupinu sloves s podobným významem slovesa pohybu jít do kina / přes les / jít z domova směrová určení slovesa výměny dát / dostat / získat / brát něco.pat za něco.rcmp 5
Proč dvě větve valenčního slovníku? PDT-VALLEX ~ extenzivní přístup cca 5 200 sloves se 7 800 valenčními rámci (tj. 1,5 rámce na sloveso) nutné pro anotaci, 100% pokrytí na PDT VALLEX ~ intenzivní přístup 1 450 sloves s 3 860 valenčními rámci (tj. 2,7 rámce na sloveso) slovesa podle frekvence v ČNK, PDT pokrytí cca 85% na běžícím textu v PDT (se slovesem být a modálními slovesy zatím nezpracováno) PDT-VALLEX a VALLEX budou sloučeny dokončení anotace TR PDT, kontroly Využití valenčního slovníku dosažení konzistence při anotování valenční struktury na TR PDT (PDT-VALLEX) automatická syntaktická analýza ( shallow parsing ) (Žabokrtský) (VALLEX) automatický tektogramatický parser - automatický systém pro budování podkladové reprezentace českých vět (Honetschlager) (PDT-VALLEX, VALLEX) data pro (poloatomatické) vytváření valenčního slovníku českých substantiv (Kolářová- Řezníčková) (VALLEX) Jazykové zdroje teoretické články o valenci (Panevová) Manuál pro tektogramatické značkování (Hajičová et al., 2001) seznamy valenčních rámců využívaných anotátory PDT electronický valenční slovník povrchových realizací ve formátu BRIEF (FI MU Brno, Pala, Ševeček, 1997) tištění slovníky: Slovesa pro praxi (SPP, 1997), valenční specifikace 767 nejčastějších českých sloves Slovník spisovného jazyka českého (SSJČ, 1964) Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978) Slovník českých synonym (SČS, 1994) Slovník české frazeologie a idiomatiky (SČFI, 1983) Český národní korpus (ČNK) EuroWordNet, česká větev WordNetu Literatura Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia Hajičová, E. et al. (2001) Manuál pro tektogramatické značkování. UFAL TR Panevová, J. (1980) Formy a funkce ve stavbě české věta. Praha: Academia Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243. Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština univerzália a specifika 2, MU, Brno, pp. 173-180. Panevová, J., Řezníčková, V. (2001) K možnému pojetí všeobecnosti aktantu. Čeština - univerzália a specifika 3, MU, Brno, pp. 139-146. Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press) Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves. UFAL/CKL TR-2002-15. Lopatková, M. (2003) Valency in the Prague Dependency Treebank: Building the Valency Lexicon. PBML 79-80. (in press) Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno. 6
PŘÍLOHA: Seznam funktorů u sloves (někdy i u subst.): AKTANTY (argumenty, participanty, vnitřní doplnění) actor/bearer *ACT agens, hloubk. subjekt addressee *ADDR adresát, komu effect *EFF výsledek (zvolí kým, zač) origin *ORIG původ, z čeho (ne odkud) patient *PAT patiens, hloubk. objekt prošli celý les (ale prošli lesem.dir2) KVAZIVALENČNÍ DOPLNĚNÍ difference *DIFF rozdíl (oč) mediator MEDIAT přivést psa za obojek obstacle *OBST překážka (zavadit o stůl) VOLNÁ DOPLNĚNÍ (adjuncts, free modifications) accompaniment *ACMP doprovod (s, bez) aim *AIM účel (aby, pro něco) attitude ATT postojové (s radostí, vhodně, právem) benefactive *BEN benefaktiv (pro koho, proti komu) cause *CAUS příčina comparison CPR porovnání (než, jako, stejně jako) complement *COMPL doplněk concession CNCS přípustka (ačkoli) condition COND podmínka reálná ((jest)-li, jestliže, když, až) counterfactual CTERF irreálná podmínka (kdyby) criterion CRIT kritérium, měřítko ( podle jeho slov ) dir(ectional)-from *DIR1 odkud? (ale: udělat co z čeho.orig) dir-which way *DIR2 kudy? prošli lesem (ale: prošli les.pat) dir-where to *DIR3 kam? (ale změnit nač.eff) dependent part *DPHR část frazému, pro niž se nehodí prav. funktor of phraseme (křížem krážem.dphr, nechat se slyšet.dphr) ethical dative ETHD volný dativ, dativ sdílnosti (Děti nám nechodí včas, Já ti mám knih!) extent *EXT míra (velmi, trochu) foreign phrase FPHR cizí fráze heritage *HER dědictví (po otci) intensification INTF navazovací element, falešný podmět (To Karel ještě nepřišel? To prší.) intent *INTT záměr (šel se koupat, poslali ho nakoupit) locative *LOC místo kde (jednání uvnitř koalice) manner *MANN způsob (ústně; psát česky) means *MEANS prostředek (psát rukou, na stroji, tužkou) (adverbial of) modality MOD asi, možná, To je myslím zlé. norm *NORM norma ( podle pravidla ) recompense *RCMP odplata (dal mu peníze za nákup.rcmp) reference to PREC např. tedy, naopak, tudíž, totiž, také, preceding text protože, když, jenže, taky a aj. regard *REG se zřetelem, bez ohledu na rhematizer RHEM i, také, jenom, nejen, vůbec, zároveň(-i) restriction RESTR omezení (kromě, mimo) result *RESL účinek (opálen do hněda, prsty ztuhlé, že je nenarovná) substitution *SUBS zastoupení (místo koho-čeho) temp(oral)-when *TWHEN kdy? loni, vstupuje v platnost dnem podpisu 7
temp-since when *TSIN odkdy? od_té_doby_co, platí ode dne podpisu temp-till TTILL dokdy? až_do, dokud ne, než temp-how long *THL jak dlouho? četl půl hodiny, celou zimu temp-for how long *TFHL na jak dlouho? na dva dny, na věky temp-how often THO jak často? často, mnohokrát temp-parallel, TPAR během, zatímco, za celý večer, mezitím_co contemporaneous temp-from when *TFRWH ze kdy (Zbylo od Vánoc cukroví. Z dětství si nepamatuji nic. Vstupenka z pátku...) temp-to when *TOWH na kdy? Přelož výuku na pátek. Demonstrace je svolána na šestou hodinu. jen u substantiv: appurtenance APP přináležitost (čí, čeho) descriptive DES nerestriktivní přívlastek (zlatá Praha; kočky, patřící k savcům,...) identity ID totožnost (pojem čas(u), parník Hradčany) material MAT 'partitiv' (hrnek čaje) restrictive adjunct RSTR restriktivní přívlastek vokativ aponovaný VOCAT Pojď sem, Jirko! Tento seznam je převzat z Manuálu pro tektogramatické značkování (Hajičová et al., 2001) a doplněn o nově zaváděné funktory MEDIAT, OBST a RCMP. Funktory, které se vyskytují ve VALLEXu jsou označeny *. 8