Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Grantová podpora: GAČR 16-02196S, Lindat-Clarin LM2015071 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 1
Osnova Syntax v psaných a mluvených komunikátech Syntakticky anotované korpusy psané a mluvené češtiny Vyjádření propozice pomocí verbálních substantiv ve dvou vybraných korpusech psané a mluvené češtiny míra kondenzace vyjádření míra explicitnosti vyjádření zastoupení elipsy způsob odkazování do okolního textu Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 2
Syntax v psaných a mluvených komunikátech Hausenblas (1962), Těšitelová (1983), Müllerová (1989, 1994), Hoffmannová Mikulová (2011), Mikulová Štěpánek Urešová (2013) grant Syntax mluvené češtiny (prof. J. Hoffmannová, ÚJČ) Vyjadřování Segmentace Psaný komunikát Sevřené, kondenzované Hypotaxe Ostré přechody mezi syntaktickými jednotkami Mluvený komunikát Rozvolněné, analytické Parataxe, juxtapozice Problém větné segmentace Jiné prostředky koheze Délka věty 15,0 (SYN) 23,6 (PCEDT) 10,1 (PDTSC) Elipsy Gramatická, textová elipsa Neúplnost, zkratkovitost Mimotextové odkazování Specifické vyjadřovací prostředky Podřadné souvětí Nominalizace Restarty, anakoluty, opravy, vycpávky, redundance Valence Propracovanost forem Příznakové valenční členy Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 3
Syntakticky anotované korpusy psané a mluvené češtiny Psaná čeština Pražský závislostní korpus (ÚFAL) Pražský česko-anglický závislostní korpus (ÚFAL) PDT-Faust (ÚFAL) Pražský závislostní korpus právních textů (ÚFAL) Automatická anotace: CzEng: Česko-anglický paralelní korpus (ÚFAL) SYNÁČEK: Syntakticky anotovaný český korpus (ÚTKL) Mluvená čeština Pražský závislostní korpus mluvené češtiny (ÚFAL) Korpus věcného stylu (ÚJČ, 1985) 75 % psaný text / 25 % mluvený komunikát Český akademický korpus (ÚFAL) Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 4
Korpusy v číslech Počet tokenů Počet vět Počet slov/věta ČNK-SYN 2 685 127 310 178 499 972 15,0 PDT 833 195 49 431 16,9 PCEDT-cz 1 162 072 49 208 23,6 PDT-Faust 33 772 3 000 11,3 PDT-právní(CLTT) 35 058 1 128 31,0 CzEng 206 442 315 15 136 126 13,6 SYNÁČEK 1 000 000 65 000 15,4 PDTSC 742 257 73 835 10,1 ČAK mluvené/psané 158 825/493 307 6 998/24 709 22,7/20,0 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 5
PCEDT a PDTSC PCEDT: profesionální překlad Wall Street Journal, 1989 PDTSC: lehce moderované dialogy s lidmi, kteří přežili holocaust (Malach), a dialogy nad osobní sbírkou fotografií (Companions) Automatická morfologická a povrchově-syntaktická anotace Manuální anotace hloubkové syntaxe včetně koreference K dispozici v repozitáři LINDAT-CLARIN (PDTSC koncem roku) Vyhledávání: Tree Query, KonText PCEDT (psaný korpus) PDTSC (mluvený korpus) Token 1 162 072 742 257 Věta 49 208 73 835 Slova na větu 23,6 10,1 Plnovýznamová slovesa 99 186 102 868 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 6
Vyjádření propozice pomocí verbálních substantiv Vyjadřování v psaných komunikátech: sevřené, kondenzované Jedním z prostředků kondenzovaného vyjadřování: nominalizace (substantiva s dějovým významem) Poté, co nastoupil do nového zaměstnání, se hodně změnilo. Po jeho nastoupení/ nástupu do nového zaměstnání se hodně změnilo. V češtině: dva typy substantiv, která mohou mít dějový význam verbální substantiva, např. čtení, nastoupení, prodávání, vyrábění produktivní tvoření: -ní/-tí dějová substantiva, např. četba, nástup, prodej, výroba neproduktivní tvoření: různé přípony, včetně sufixu nulového V PCEDT a PDTSC: vyhledáváme verbální substantiva (VS) a způsob vyjádření jejich aktantů často mají dějový význam lze je všechna vyhledat Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 7
Verbální substantiva s dějovým významem Vyjádření propozice Snaha při vyhledávání odlišit dějové a nedějové významy pití čaje vs. dobré pití vyznamenání veterána premiérem vs. vyznamenání na uniformě Substantiva s dějovým významem dědí valenční rámec svých základových sloves Substantiva s posunutým (substantivizovaným) významem často vykazují specifické valenční chování redukce počtu valenčních doplnění nejvíce se uchovává Patiens nebo Adresát změna charakteru valenčních doplnění Patiens se mění např. na Partitiv / Material (MAT) balení dárků.pat rodiči.act vs. jedno balení másla.mat ( kontejner ) specifické formy valenčních doplnění Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 8
Rozlišení významů verbálních substantiv Předpoklad: různé významy různé valenční rámce Valenční slovník PDT-Vallex omezení (omezit) ACT(.2,.7,.u) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) postupné omezení těžby.pat uranu ze současných 950 tun.orig na 500 tun.eff ročně omezení (opatření soubor pravidel)?act(.2,.u)?pat(proti-1[.3]) omezení vlády.act proti exportérům.pat omezení (vlastnost, okolnost, která omezuje) EMPTY lidé se zdravotním omezením V PCEDT i v PDTSC se doplňují povrchově nevyjádřená hloubkově obligatorní valenční doplnění Vyhledávání: taková substantiva zakončená na -ní / -tí, na kterých ve stromě visí Aktor (vyjádřený nebo nevyjádřený) na substantivu mohou viset i další aktanty Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 9
Rozlišení významů verbálních substantiv Předpoklad: různé významy různé valenční rámce Valenční slovník PDT-Vallex omezení (omezit) ACT(.2,.7,.u) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) postupné omezení těžby.pat uranu ze současných 950 tun.orig na 500 tun.eff ročně omezení (opatření soubor pravidel)?act(.2,.u)?pat(proti-1[.3]) omezení vlády.act proti exportérům.pat omezení (vlastnost, okolnost, která omezuje) EMPTY lidé se zdravotním omezením V PCEDT i v PDTSC se doplňují povrchově nevyjádřená hloubkově obligatorní valenční doplnění Vyhledávání: taková substantiva zakončená na -ní / -tí, na kterých ve stromě visí Aktor (vyjádřený nebo nevyjádřený) na substantivu mohou viset i další aktanty Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 10
Rozlišení významů verbálních substantiv Předpoklad: různé významy různé valenční rámce Valenční slovník PDT-Vallex omezení (omezit) ACT(.2,.7,.u) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) postupné omezení těžby.pat uranu ze současných 950 tun.orig na 500 tun.eff ročně omezení (opatření soubor pravidel)?act(.2,.u)?pat(proti-1[.3]) omezení vlády.act proti exportérům.pat omezení (vlastnost, okolnost, která omezuje) EMPTY lidé se zdravotním omezením V PCEDT i v PDTSC se doplňují povrchově nevyjádřená hloubkově obligatorní valenční doplnění Vyhledávání: taková substantiva zakončená na -ní / -tí, na kterých ve stromě visí Aktor (vyjádřený nebo nevyjádřený) na substantivu mohou viset i další aktanty Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 11
Doplňování povrchově nevyjádřených aktantů omezení (omezit) ACT(.2,.7,.u, ze_strany) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) PCEDT omezení produkce ze strany některých členů omezení tohoto stropu na 101250 dolarů Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 12
Doplňování povrchově nevyjádřených aktantů omezení (omezit) ACT(.2,.7,.u, ze_strany) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) PCEDT omezení produkce ze strany některých členů omezení tohoto stropu na 101250 dolarů PDTSC Dnes vám neřeknu, v kterém roce vyšly Norimberské zákony, ale na Židy se vztahovalo omezení pohybu. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 13
Doplňování povrchově nevyjádřených aktantů omezení (omezit) ACT(.2,.7,.u, ze_strany) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) PCEDT omezení produkce ze strany některých členů omezení tohoto stropu na 101250 dolarů PDTSC Dnes vám neřeknu, v kterém roce vyšly Norimberské zákony, ale na Židy se vztahovalo omezení pohybu. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 14
Textová koreference osobní a ukazovací zájmena modrá šipka Anotace koreference Gramatická koreference daná gramatickými pravidly červená šipka PCEDT: Jestliže japonské společnosti vážně uvažují o svém přežití, mohly by učinit alespoň tři věci ke zlepšení situace. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 15
Vyhledávací jazyk: PML-TQ PML Tree Query (Štěpánek Pajas, 2010) Dotaz: Substantiva zakončená na -ní/-tí, na kterých visí uzel s funktorem ACT t-node $a := [ t_lemma ~ "^.*[nt]í([_-].*)?$", t-node [ functor = "ACT" ], a/lex.rf a-node [ tag ~ "^N.N.*$" ] ]; >> distinct $a >> give count() Výsledek (v PCEDT): 16283 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 16
Vyjádření propozice Slovesa vs. verbální substantiva Výrazně častější vyjádření propozice pomocí verbálních substantiv v psaném korpusu než v korpusu mluveném Zkoumaný jev Verbální substantiva v dějovém užití Plnovýznamová slovesa Výskyty v PCEDT (psaný korpus) 16 283 1 359 99 186 102 868 Počet sloves na 1 VS 6,1 75,7 Nejčastější lemmata verbálních substantiv obchodování (1 323), zvýšení (590), snížení (458), převzetí (437), rozhodnutí(357), jednání (325), financování (258), prohlášení (221), očekávání (190), pojištění (181), zdanění (179), omezení (167), řízení (159), obvinění (152), uzavření (147), podnikání (136), hlasování (122), získání (121), oznámení (120), zlepšení (120), snižování (113), Výskyty v PDTSC (mluvený korpus) cvičení (73), setkání (44), koupání (37), lyžování (33), narození (32), cestování (23), učení (21), plavání (20), vaření (17), přijímání (16), povídání (14), posezení (14), osvobození (13), vítání (12), pití (11), vyprávění (11), čtení (11), fotografování (10), psaní (10), bydlení (9), hraní (9), přání (9), tancování (9), hlídání (8),vyučení (8), stravování (8), rozhodnutí (8), Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 17 Počet lemmat VS 1 595 501
Relativní četnosti kombinací povrchově Kombinace povrchově vyjádřených aktantů vyjádřených aktantů Nejčastější kombinace - stejné pořadí v obou korpusech zastoupení nulové kombinace vyšší v mluveném korpusu Převažuje vyjádření pouhého Patientu nad vyjádřením pouhého Aktora Nejčastější kombinací dvou vyjádřených aktantů je ACT+PAT, následuje kombinace PAT+ADDR statisticky prokazatelné v PCEDT PCEDT (psaný korpus) PDTSC (mluvený korpus) Výskyty % kombinací Výskyty % kombinací 0 vyjádřených aktantů 6860 42 991 72,9 PAT 7003 43 252 19 ACT 1606 9,9 101 7,4 ACT + PAT 363 2,2 7 0,5 PAT + ADDR 126 0,8 2 0,15 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 18
Kondenzované vyjádření propozice Kumulace verbálních substantiv postupné rozvíjení dalšími verbálními substantivy výrazně kondenzovanější vyjádření propozice v psaném korpusu Newyorská burza uvažuje o znovuzavedení omezení programového obchodování Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 19
Psaný korpus Kumulace verbálních substantiv postupná závislost dvou i tří verbálních substantiv jednání o vyrovnání, přerušení obchodování oznámení o údajném zneužití monitorování, zrušení rozhodnutí o odstoupení, znovuzavedení omezení programového obchodování Mluvený korpus postupná závislost pouze dvou verbálních substantiv po skončení sváření, po dokončení přezbrojení Zkoumaný jev Výskyty v PCEDT (psaný korpus) Výskyty v PDTSC (mluvený korpus) Verbální substantiva v dějovém užití 16 283 1 359 Postupná závislost dvou verbálních substantiv 348 2,14% 2 0,15% Postupná závislost tří verbálních substantiv 8 0 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 20
Míra explicitního vyjádření aktantů Vyjádření aktantů verbálních substantiv je v psaném korpusu explicitnější Vyjádření pomocí zájmen bez gramatické koreference její převzetí, pochopení pro to vs. své rozhodnutí přijímání zpráv.pat a jejich.pat předávání jednotlivým odborům.dir3 snižuje se explicitnost vyjádření Mluvený korpus vyjádření zájmenným výrazem je častější zájmena bez gramatické koreference představují 90% Zkoumaný jev Výskyty v PCEDT (psaný korpus) Výskyty v PDTSC (mluvený korpus) Povrchově vyjádřené aktanty 32% 16,85% Zájmenné vyjádření aktantů VS (% povrchově vyjádřených aktantů) 6,3% 17,0% Zájmena bez gramatické koreference 56% 90,6% Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 21
Zájmenné vyjádření aktantů PDTSC Práce zahrnovala přijímání zpráv a jejich předávání jednotlivým odborům PCEDT Společnost uvedla, že akcionáři schválili její převzetí torontskou společností Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 22
Elipsy valenčních doplnění V mluveném komunikátu stoupá výskyt elipsy obecně Elipsy aktantů verbálních substantiv častější v mluveném komunikátu V mluveném korpusu se častěji objevuje případ substantiv, u nichž žádný aktant z jejich valenčního rámce není vyjádřený Zkoumaný jev Výskyty v PCEDT (psaný korpus) Výskyty v PDTSC (mluvený korpus) Povrchově vyjádřené aktanty 32% 16,85% Elipsy aktantů 68% 83,15% Neprázdný rámec, ale žádný aktant není vyjádřený 42,13% 72,9% Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 23
Koreference Koreference a exofora odkazuje do okolního textu textová koreference osobní a ukazovací zájmena modrá šipka gramatická koreference daná gramatickými pravidly červená šipka Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 24
Koreference a exofora Koreference odkazuje do okolního textu textová koreference osobní a ukazovací zájmena modrá šipka gramatická koreference daná gramatickými pravidly červená šipka Exofora odkazuje k mimotextové realitě šipka vede vzhůru výrazně častější v mluveném korpusu Zkoumaný jev Výskyty v PCEDT (psaný korpus) Výskyty v PDTSC (mluvený korpus) Exofora (% všech aktantů) 0,34% 13,37% Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 25
PCEDT Nahromaděné množství neprodaného zboží může vést ke snížení výroby a propouštění. Exofora PDTSC To jste museli pro děti vymýšlet nějaký program? Pochopitelně. Byly hry, noční hlídání. PDTSC Celkově se mi ale vojna nezamlouvala. Bral jsem to jako ošizení o dva roky krásného věku. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 26
Závěr Pilotní studie zaměřená na vyjádření propozice pomocí verbálních substantiv v psaném a mluveném komunikátu Shodné rysy relativní četnosti kombinací povrchově vyjádřených aktantů: v obou korpusech stejné pořadí Rozdílné rysy podobné jako u vyjádření propozice pomocí sloves Psaný korpus vyšší míra kondenzace a explicitnosti vyjádření Mluvený korpus vyšší zastoupení elips výrazně vyšší míra odkazování k mimotextové situaci Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 27
Literatura Hoffmannová, J. Mikulová M. (2011). Korpusy mluvené češtiny a možnosti jejich využití pro poznání rozdílných "světů" mluvenosti a psanosti. In F. Čermák (ed.), Korpusová lingvistika Praha 2011. 2 Výzkum a výstavba korpusů. Praha: Lidové noviny, 78-92. Kolářová, V. (2010). Valence deverbativních substantiv v češtině (na materiálu substantiv s dativní valencí). Praha: Karolinum. Mikulová, M. Štěpánek, J. Urešová, Z. (2013). Liší se mluvené a psané texty ve valenci? Korpus gramatika axiologie, 8, 36-46. Müllerová, O. (1989): Ke vztahu psaného a mluveného textu (srovnání psaného a mluveného vypravování). Slovo a slovesnost, 50, 205-216. Müllerová, O. (1994): Mluvený text a jeho syntaktická výstavba. Praha: Academia. Panevová, J. (2000). Poznámky k valenci podstatných jmen. In Z. Hladká, P. Karlík (Ed.) Čeština univerzália a specifika 2. Brno: Vydavatelství MU, pp. 173--180. ISBN 80-210-2262-0. Svozilová, N.; Prouzová, H. and Jirsová, A. (2005). Slovník slovesných, substantivních a adjektivních vazeb a spojení. Praha: Academia. Štěpánek, J. Pajas, P. (2010). Querying Diverse Treebanks in a Uniform Way. In Proceedings of the Seventh conference on International Language Resources and Evaluation(LREC'10), European Language Resources Association(ELRA), Valletta, Malta, 1828-1835. Těšitelová, M. a kol. (1983). Psaná a mluvená odborná čeština z kvantitativního hlediska. Praha: ÚJČ. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 28