Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

Podobné dokumenty
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE

ve strojovém překladu

NomVallex: Valenční slovník českých substantiv založený na korpusu

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Preference v souvýskytu aktantů u českých substantiv mluvení

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

2. Korpusový portál a volně dostupné nástroje

Depfix: Jak dělat strojový překlad lépe než Google Translate

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Valence vybraných typů deverbativních substantiv ve valenčním slovníku PDT-Vallex. ÚFAL Technical Report TR ISSN

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

SYNTAX LS Úvod

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Helena Hasilová KAROLINUM

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, s. ISBN

Vzdělávací obsah vyučovacího předmětu

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

ČASOPIS PRO MODERNÍ FILOLOGII 99, 2017, Č. 1, S

Vzdělávací obsah vyučovacího předmětu

RVP ŠVP UČIVO - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov

Vzdělávací obsah vyučovacího předmětu

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Liší se mluvené a psané texty ve valenci? 1

ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost ET

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

ANOTACE NA TEKTOGRAMATICKÉ ROVINĚ. DODATKY K ANOTÁTORSKÉ PŘÍRUČCE (S OHLEDEM NA ANOTOVÁNÍ PDTSC A PCEDT) ÚFAL Technical Report TR

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Vyučovací předmět : Český jazyk a literatura Ročník : 5.

Učebnice, cvičebnice, CD-Rom, počítačová učebna, dataprojektor, interaktivní tabule, mapy anglicky mluvících zemí

PDT-Vallex: trochu jiný valenční slovník

Přehled očekávaných výstupů

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Český jazyk a literatura

český jazyk a literatura

český jazyk a literatura

Předmět: Konverzace v ruském jazyce

Předmět - Český jazyk a literatura Ročník: 5. RVP - ZV Výstup Učivo Průřezová témata

Jazyková výchova Opakování. Věta, souvětí. Význam slov, hlásková podoba slova. Jednoznačná a mnohoznačná slova

Přehled očekávaných výstupů

Předmět: Český jazyk a literatura

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Předmět:: Český jazyk a literatura

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Český jazyk a literatura

Předmět:: Český jazyk

O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová

Automatické párování uzlů českých a anglických tektogramatických stromů

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Předmět: Český jazyk a literatura

Vzdělávací obor Německý jazyk

LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU

O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová

Český jazyk a literatura

VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová

Rekonstrukce standardizovaného textu z mluvené řeči

Český jazyk a literatura. 6. ročník. Komunikační a slohová výchova. Vypravování osnova

7 UČEBNÍ OSNOVY 7.1 JAZYK A JAZYKOVÁ KOMUNIKACE Český jazyk (ČJ) Charakteristika předmětu 1. stupně

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Základy latiny II

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

PŘEDMLUVA VÝKLADOVÁ ČÁST

Testování konzistence a úplnosti valenčního slovníku českých sloves

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Očekávané výstupy RVP Školní výstupy Učivo Poznámky (průřezová témata, mezipředmětové vztahy apod.) Řečové dovednosti

Český jazyk v 5. ročníku

9.1.1 Jazyk a jazyková komunikace Český jazyk

Čím může bohemistice přispět současná počítačová lingvistika?

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

Školní vzdělávací program Základní školy a mateřské školy Sdružení

Výstupy z RVP Učivo Ročník Průřezová témata Termín/hodiny Komunikační a slohová výchova 12 čte s porozuměním přiměřeně náročné texty potichu i nahlas

Tematický plán učiva. Předmět : Český jazyk a literatura Školní rok : Třída-ročník : 4. Vyučující : Věra Ondrová

UNIVERZITA KARLOVA FILOZOFICKÁ FAKULTA FUNKCE ADVERBÁLNÍHO DATIVU V HLOUBKOVÉ A POVRCHOVÉ STAVBĚ ČESKÉ VĚTY

Český jazyk a literatura

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1

OPAKOVÁNÍ SLOHOVÝCH ÚTVARŮ I. Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje

1. Jazyk a jazyková komunikace

český jazyk a literatura

Přípravné kurzy k nové maturitě německý jazyk /vyšší úroveň/ Obsahem každé lekce bude nácvik:

Očekávané výstupy podle RVP ZV Učivo Přesahy a vazby

ČESKÝ JAZYK A LITERATURA 4.ROČNÍK

UČEBNÍ PLÁN PŘEDMĚTU VZDĚLÁVACÍ OBLAST: JAZYK A JAZYKOVÁ KOMUNIKACE ZÁKLADNÍ ŠKOLA LIPTÁL

Jarmila Panevová (Praha) K valenci substantiv (s ohledem na jejich derivaci)

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Výstupy odpovídající úrovni A1 podle SERR. Dataprojektor, počítač, smartphone, pracovní listy, slovníky. Gymnázium Jiřího Ortena, Kutná Hora

ČESKÝ JAZYK 3. ROČNÍK

NÁVRHY TEMATICKÝCH PLÁNŮ. 1. ročník Počet hodin

Mgr.Jana Berkovcová. Učitelka anglického jazyka. Školní metodik prevence. Školní rok 2018/ Anglický jazyk, 5.ročník. Učivo:

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: literární výchova - ročník: KVARTA

Němčina druhý jazyk

Český jazyk a literatura

Výstupy z RVP Učivo Ročník Průřezová témata Termín/hodiny Komunikační a slohová výchova 12 čte s porozuměním přiměřeně náročné texty potichu i nahlas

Eva Lehečková 28. workshop Ţďárek Litoměřice

Transkript:

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Grantová podpora: GAČR 16-02196S, Lindat-Clarin LM2015071 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 1

Osnova Syntax v psaných a mluvených komunikátech Syntakticky anotované korpusy psané a mluvené češtiny Vyjádření propozice pomocí verbálních substantiv ve dvou vybraných korpusech psané a mluvené češtiny míra kondenzace vyjádření míra explicitnosti vyjádření zastoupení elipsy způsob odkazování do okolního textu Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 2

Syntax v psaných a mluvených komunikátech Hausenblas (1962), Těšitelová (1983), Müllerová (1989, 1994), Hoffmannová Mikulová (2011), Mikulová Štěpánek Urešová (2013) grant Syntax mluvené češtiny (prof. J. Hoffmannová, ÚJČ) Vyjadřování Segmentace Psaný komunikát Sevřené, kondenzované Hypotaxe Ostré přechody mezi syntaktickými jednotkami Mluvený komunikát Rozvolněné, analytické Parataxe, juxtapozice Problém větné segmentace Jiné prostředky koheze Délka věty 15,0 (SYN) 23,6 (PCEDT) 10,1 (PDTSC) Elipsy Gramatická, textová elipsa Neúplnost, zkratkovitost Mimotextové odkazování Specifické vyjadřovací prostředky Podřadné souvětí Nominalizace Restarty, anakoluty, opravy, vycpávky, redundance Valence Propracovanost forem Příznakové valenční členy Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 3

Syntakticky anotované korpusy psané a mluvené češtiny Psaná čeština Pražský závislostní korpus (ÚFAL) Pražský česko-anglický závislostní korpus (ÚFAL) PDT-Faust (ÚFAL) Pražský závislostní korpus právních textů (ÚFAL) Automatická anotace: CzEng: Česko-anglický paralelní korpus (ÚFAL) SYNÁČEK: Syntakticky anotovaný český korpus (ÚTKL) Mluvená čeština Pražský závislostní korpus mluvené češtiny (ÚFAL) Korpus věcného stylu (ÚJČ, 1985) 75 % psaný text / 25 % mluvený komunikát Český akademický korpus (ÚFAL) Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 4

Korpusy v číslech Počet tokenů Počet vět Počet slov/věta ČNK-SYN 2 685 127 310 178 499 972 15,0 PDT 833 195 49 431 16,9 PCEDT-cz 1 162 072 49 208 23,6 PDT-Faust 33 772 3 000 11,3 PDT-právní(CLTT) 35 058 1 128 31,0 CzEng 206 442 315 15 136 126 13,6 SYNÁČEK 1 000 000 65 000 15,4 PDTSC 742 257 73 835 10,1 ČAK mluvené/psané 158 825/493 307 6 998/24 709 22,7/20,0 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 5

PCEDT a PDTSC PCEDT: profesionální překlad Wall Street Journal, 1989 PDTSC: lehce moderované dialogy s lidmi, kteří přežili holocaust (Malach), a dialogy nad osobní sbírkou fotografií (Companions) Automatická morfologická a povrchově-syntaktická anotace Manuální anotace hloubkové syntaxe včetně koreference K dispozici v repozitáři LINDAT-CLARIN (PDTSC koncem roku) Vyhledávání: Tree Query, KonText PCEDT (psaný korpus) PDTSC (mluvený korpus) Token 1 162 072 742 257 Věta 49 208 73 835 Slova na větu 23,6 10,1 Plnovýznamová slovesa 99 186 102 868 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 6

Vyjádření propozice pomocí verbálních substantiv Vyjadřování v psaných komunikátech: sevřené, kondenzované Jedním z prostředků kondenzovaného vyjadřování: nominalizace (substantiva s dějovým významem) Poté, co nastoupil do nového zaměstnání, se hodně změnilo. Po jeho nastoupení/ nástupu do nového zaměstnání se hodně změnilo. V češtině: dva typy substantiv, která mohou mít dějový význam verbální substantiva, např. čtení, nastoupení, prodávání, vyrábění produktivní tvoření: -ní/-tí dějová substantiva, např. četba, nástup, prodej, výroba neproduktivní tvoření: různé přípony, včetně sufixu nulového V PCEDT a PDTSC: vyhledáváme verbální substantiva (VS) a způsob vyjádření jejich aktantů často mají dějový význam lze je všechna vyhledat Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 7

Verbální substantiva s dějovým významem Vyjádření propozice Snaha při vyhledávání odlišit dějové a nedějové významy pití čaje vs. dobré pití vyznamenání veterána premiérem vs. vyznamenání na uniformě Substantiva s dějovým významem dědí valenční rámec svých základových sloves Substantiva s posunutým (substantivizovaným) významem často vykazují specifické valenční chování redukce počtu valenčních doplnění nejvíce se uchovává Patiens nebo Adresát změna charakteru valenčních doplnění Patiens se mění např. na Partitiv / Material (MAT) balení dárků.pat rodiči.act vs. jedno balení másla.mat ( kontejner ) specifické formy valenčních doplnění Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 8

Rozlišení významů verbálních substantiv Předpoklad: různé významy různé valenční rámce Valenční slovník PDT-Vallex omezení (omezit) ACT(.2,.7,.u) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) postupné omezení těžby.pat uranu ze současných 950 tun.orig na 500 tun.eff ročně omezení (opatření soubor pravidel)?act(.2,.u)?pat(proti-1[.3]) omezení vlády.act proti exportérům.pat omezení (vlastnost, okolnost, která omezuje) EMPTY lidé se zdravotním omezením V PCEDT i v PDTSC se doplňují povrchově nevyjádřená hloubkově obligatorní valenční doplnění Vyhledávání: taková substantiva zakončená na -ní / -tí, na kterých ve stromě visí Aktor (vyjádřený nebo nevyjádřený) na substantivu mohou viset i další aktanty Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 9

Rozlišení významů verbálních substantiv Předpoklad: různé významy různé valenční rámce Valenční slovník PDT-Vallex omezení (omezit) ACT(.2,.7,.u) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) postupné omezení těžby.pat uranu ze současných 950 tun.orig na 500 tun.eff ročně omezení (opatření soubor pravidel)?act(.2,.u)?pat(proti-1[.3]) omezení vlády.act proti exportérům.pat omezení (vlastnost, okolnost, která omezuje) EMPTY lidé se zdravotním omezením V PCEDT i v PDTSC se doplňují povrchově nevyjádřená hloubkově obligatorní valenční doplnění Vyhledávání: taková substantiva zakončená na -ní / -tí, na kterých ve stromě visí Aktor (vyjádřený nebo nevyjádřený) na substantivu mohou viset i další aktanty Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 10

Rozlišení významů verbálních substantiv Předpoklad: různé významy různé valenční rámce Valenční slovník PDT-Vallex omezení (omezit) ACT(.2,.7,.u) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) postupné omezení těžby.pat uranu ze současných 950 tun.orig na 500 tun.eff ročně omezení (opatření soubor pravidel)?act(.2,.u)?pat(proti-1[.3]) omezení vlády.act proti exportérům.pat omezení (vlastnost, okolnost, která omezuje) EMPTY lidé se zdravotním omezením V PCEDT i v PDTSC se doplňují povrchově nevyjádřená hloubkově obligatorní valenční doplnění Vyhledávání: taková substantiva zakončená na -ní / -tí, na kterých ve stromě visí Aktor (vyjádřený nebo nevyjádřený) na substantivu mohou viset i další aktanty Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 11

Doplňování povrchově nevyjádřených aktantů omezení (omezit) ACT(.2,.7,.u, ze_strany) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) PCEDT omezení produkce ze strany některých členů omezení tohoto stropu na 101250 dolarů Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 12

Doplňování povrchově nevyjádřených aktantů omezení (omezit) ACT(.2,.7,.u, ze_strany) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) PCEDT omezení produkce ze strany některých členů omezení tohoto stropu na 101250 dolarů PDTSC Dnes vám neřeknu, v kterém roce vyšly Norimberské zákony, ale na Židy se vztahovalo omezení pohybu. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 13

Doplňování povrchově nevyjádřených aktantů omezení (omezit) ACT(.2,.7,.u, ze_strany) PAT(.2,.u)?ORIG(z-1[.2])?EFF(na-1[.4]) PCEDT omezení produkce ze strany některých členů omezení tohoto stropu na 101250 dolarů PDTSC Dnes vám neřeknu, v kterém roce vyšly Norimberské zákony, ale na Židy se vztahovalo omezení pohybu. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 14

Textová koreference osobní a ukazovací zájmena modrá šipka Anotace koreference Gramatická koreference daná gramatickými pravidly červená šipka PCEDT: Jestliže japonské společnosti vážně uvažují o svém přežití, mohly by učinit alespoň tři věci ke zlepšení situace. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 15

Vyhledávací jazyk: PML-TQ PML Tree Query (Štěpánek Pajas, 2010) Dotaz: Substantiva zakončená na -ní/-tí, na kterých visí uzel s funktorem ACT t-node $a := [ t_lemma ~ "^.*[nt]í([_-].*)?$", t-node [ functor = "ACT" ], a/lex.rf a-node [ tag ~ "^N.N.*$" ] ]; >> distinct $a >> give count() Výsledek (v PCEDT): 16283 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 16

Vyjádření propozice Slovesa vs. verbální substantiva Výrazně častější vyjádření propozice pomocí verbálních substantiv v psaném korpusu než v korpusu mluveném Zkoumaný jev Verbální substantiva v dějovém užití Plnovýznamová slovesa Výskyty v PCEDT (psaný korpus) 16 283 1 359 99 186 102 868 Počet sloves na 1 VS 6,1 75,7 Nejčastější lemmata verbálních substantiv obchodování (1 323), zvýšení (590), snížení (458), převzetí (437), rozhodnutí(357), jednání (325), financování (258), prohlášení (221), očekávání (190), pojištění (181), zdanění (179), omezení (167), řízení (159), obvinění (152), uzavření (147), podnikání (136), hlasování (122), získání (121), oznámení (120), zlepšení (120), snižování (113), Výskyty v PDTSC (mluvený korpus) cvičení (73), setkání (44), koupání (37), lyžování (33), narození (32), cestování (23), učení (21), plavání (20), vaření (17), přijímání (16), povídání (14), posezení (14), osvobození (13), vítání (12), pití (11), vyprávění (11), čtení (11), fotografování (10), psaní (10), bydlení (9), hraní (9), přání (9), tancování (9), hlídání (8),vyučení (8), stravování (8), rozhodnutí (8), Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 17 Počet lemmat VS 1 595 501

Relativní četnosti kombinací povrchově Kombinace povrchově vyjádřených aktantů vyjádřených aktantů Nejčastější kombinace - stejné pořadí v obou korpusech zastoupení nulové kombinace vyšší v mluveném korpusu Převažuje vyjádření pouhého Patientu nad vyjádřením pouhého Aktora Nejčastější kombinací dvou vyjádřených aktantů je ACT+PAT, následuje kombinace PAT+ADDR statisticky prokazatelné v PCEDT PCEDT (psaný korpus) PDTSC (mluvený korpus) Výskyty % kombinací Výskyty % kombinací 0 vyjádřených aktantů 6860 42 991 72,9 PAT 7003 43 252 19 ACT 1606 9,9 101 7,4 ACT + PAT 363 2,2 7 0,5 PAT + ADDR 126 0,8 2 0,15 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 18

Kondenzované vyjádření propozice Kumulace verbálních substantiv postupné rozvíjení dalšími verbálními substantivy výrazně kondenzovanější vyjádření propozice v psaném korpusu Newyorská burza uvažuje o znovuzavedení omezení programového obchodování Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 19

Psaný korpus Kumulace verbálních substantiv postupná závislost dvou i tří verbálních substantiv jednání o vyrovnání, přerušení obchodování oznámení o údajném zneužití monitorování, zrušení rozhodnutí o odstoupení, znovuzavedení omezení programového obchodování Mluvený korpus postupná závislost pouze dvou verbálních substantiv po skončení sváření, po dokončení přezbrojení Zkoumaný jev Výskyty v PCEDT (psaný korpus) Výskyty v PDTSC (mluvený korpus) Verbální substantiva v dějovém užití 16 283 1 359 Postupná závislost dvou verbálních substantiv 348 2,14% 2 0,15% Postupná závislost tří verbálních substantiv 8 0 Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 20

Míra explicitního vyjádření aktantů Vyjádření aktantů verbálních substantiv je v psaném korpusu explicitnější Vyjádření pomocí zájmen bez gramatické koreference její převzetí, pochopení pro to vs. své rozhodnutí přijímání zpráv.pat a jejich.pat předávání jednotlivým odborům.dir3 snižuje se explicitnost vyjádření Mluvený korpus vyjádření zájmenným výrazem je častější zájmena bez gramatické koreference představují 90% Zkoumaný jev Výskyty v PCEDT (psaný korpus) Výskyty v PDTSC (mluvený korpus) Povrchově vyjádřené aktanty 32% 16,85% Zájmenné vyjádření aktantů VS (% povrchově vyjádřených aktantů) 6,3% 17,0% Zájmena bez gramatické koreference 56% 90,6% Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 21

Zájmenné vyjádření aktantů PDTSC Práce zahrnovala přijímání zpráv a jejich předávání jednotlivým odborům PCEDT Společnost uvedla, že akcionáři schválili její převzetí torontskou společností Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 22

Elipsy valenčních doplnění V mluveném komunikátu stoupá výskyt elipsy obecně Elipsy aktantů verbálních substantiv častější v mluveném komunikátu V mluveném korpusu se častěji objevuje případ substantiv, u nichž žádný aktant z jejich valenčního rámce není vyjádřený Zkoumaný jev Výskyty v PCEDT (psaný korpus) Výskyty v PDTSC (mluvený korpus) Povrchově vyjádřené aktanty 32% 16,85% Elipsy aktantů 68% 83,15% Neprázdný rámec, ale žádný aktant není vyjádřený 42,13% 72,9% Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 23

Koreference Koreference a exofora odkazuje do okolního textu textová koreference osobní a ukazovací zájmena modrá šipka gramatická koreference daná gramatickými pravidly červená šipka Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 24

Koreference a exofora Koreference odkazuje do okolního textu textová koreference osobní a ukazovací zájmena modrá šipka gramatická koreference daná gramatickými pravidly červená šipka Exofora odkazuje k mimotextové realitě šipka vede vzhůru výrazně častější v mluveném korpusu Zkoumaný jev Výskyty v PCEDT (psaný korpus) Výskyty v PDTSC (mluvený korpus) Exofora (% všech aktantů) 0,34% 13,37% Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 25

PCEDT Nahromaděné množství neprodaného zboží může vést ke snížení výroby a propouštění. Exofora PDTSC To jste museli pro děti vymýšlet nějaký program? Pochopitelně. Byly hry, noční hlídání. PDTSC Celkově se mi ale vojna nezamlouvala. Bral jsem to jako ošizení o dva roky krásného věku. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 26

Závěr Pilotní studie zaměřená na vyjádření propozice pomocí verbálních substantiv v psaném a mluveném komunikátu Shodné rysy relativní četnosti kombinací povrchově vyjádřených aktantů: v obou korpusech stejné pořadí Rozdílné rysy podobné jako u vyjádření propozice pomocí sloves Psaný korpus vyšší míra kondenzace a explicitnosti vyjádření Mluvený korpus vyšší zastoupení elips výrazně vyšší míra odkazování k mimotextové situaci Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 27

Literatura Hoffmannová, J. Mikulová M. (2011). Korpusy mluvené češtiny a možnosti jejich využití pro poznání rozdílných "světů" mluvenosti a psanosti. In F. Čermák (ed.), Korpusová lingvistika Praha 2011. 2 Výzkum a výstavba korpusů. Praha: Lidové noviny, 78-92. Kolářová, V. (2010). Valence deverbativních substantiv v češtině (na materiálu substantiv s dativní valencí). Praha: Karolinum. Mikulová, M. Štěpánek, J. Urešová, Z. (2013). Liší se mluvené a psané texty ve valenci? Korpus gramatika axiologie, 8, 36-46. Müllerová, O. (1989): Ke vztahu psaného a mluveného textu (srovnání psaného a mluveného vypravování). Slovo a slovesnost, 50, 205-216. Müllerová, O. (1994): Mluvený text a jeho syntaktická výstavba. Praha: Academia. Panevová, J. (2000). Poznámky k valenci podstatných jmen. In Z. Hladká, P. Karlík (Ed.) Čeština univerzália a specifika 2. Brno: Vydavatelství MU, pp. 173--180. ISBN 80-210-2262-0. Svozilová, N.; Prouzová, H. and Jirsová, A. (2005). Slovník slovesných, substantivních a adjektivních vazeb a spojení. Praha: Academia. Štěpánek, J. Pajas, P. (2010). Querying Diverse Treebanks in a Uniform Way. In Proceedings of the Seventh conference on International Language Resources and Evaluation(LREC'10), European Language Resources Association(ELRA), Valletta, Malta, 1828-1835. Těšitelová, M. a kol. (1983). Psaná a mluvená odborná čeština z kvantitativního hlediska. Praha: ÚJČ. Praha, 17. 9. 2016 Korpusová lingvistika Praha 2016 28