Abstrakty. korpusová lingvistika Praha let mapování češtiny

Transkript

1 korpusová lingvistika Praha let mapování češtiny Abstrakty IV. pražská konference korpusové lingvistiky pořádaná u příležitosti 20. výročí založení Českého národního korpusu září 2014

2 Tato publikace vznikla v rámci Programu rozvoje vědních oblastí na Univerzitě Karlově č. P11 Český národní korpus, podprogram Český národní korpus.

3 Obsah Plenární přednášky Paul Baker Counting all the cherries: using corpora to analyse discourses Cyril Belica Kookurenčná analýza a jazykové štruktúry Neil Bermel Mapování jazykové variability ve světle korpusové frekvence a odpovědí rodilých mluvčích Karel Kučera Dvacet let poté Konferenční příspěvky Lucie Benešová, Michal Křen, Martina Waclawičová Korpus spontánní mluvené češtiny ORAL Vladimír Benko Je webový korpus horší? Tilman Berger, Stefan Heck Performativní užívání dokonavého prézentu v češtině ve srovnání s jinými slovanskými jazyky Aleš Bičan Fonologický lexikální korpus češtiny a jeho analýza František Cvrček, Karel Pala, Pavel Rychlý Chování slov a jejich kolokací v jazyce právních subdomén Václav Cvrček, Jiří Václavík Kvantitativní pohled na kontextovou desambiguaci

4 Tomáš Čapka, Michal Křen, Petr Truneček SynKorp: prostředí pro správu a zpracování textů Radek Čech, Emmerich Kelih, Ján Mačutek Vliv sémantiky na vlastnosti pádové distribuce podstatných jmen v češtině František Čermák Kolokace a kolokabilita synsémantik: Substituty a interjekce Alena M. Černá Staročeské lexémy nemoc, neduh, nedostatek jejich sémantická a gramatická charakteristika Lenka Fárová Uvozovací slovesa v překladech typologicky rozdílných jazyků Jarmila Fictumová, Jiří Rambousek Jak se mění zrádná slova? Masako Fidler, Václav Cvrček Prezidentské projevy: Analýza tematické výstavby a řečových strategií pomocí KWords Markus Giger Subjektová rezultativa v češtině ve srovnání s ruštinou Hana Goláňová, Marie Kopřivová Kartografické a geografické zpracování dat z mluvených korpusů Zbigniew Greń Formální variabilita nejnovějších anglicismů v češtině, polštině a slovenštině (na korpusovém materiálu) Milena Hebal-Jezierska Obraz(y) Američana a Angličana v korpusech českého, slovenského a polského jazyka Jiří Hedánek GLOSSA, metajazyk pro popis zvukové stránky textu

5 Zdeňka Hladká Užití korpusu korespondenčních textů KSK111 k sledování dynamiky české slovní zásoby ve 20. století Jaroslava Hlaváčová Vyjádření intenzity slovesného děje pomocí předpon Milena Hnátková Automatická identifikace ustálených kolokací v diachronních textech Jana Hoffmannová, Olga Richterová Si představ, se nediv, ti to ukážu Jednoslabičné začátky syntaktických segmentů v mluvené češtině Andrzej Charciarek Národní korpusy a velké překladové polsko-české a česko-polské slovníky Pavla Chejnová Využití korpusu dětské řeči k popisu akvizice morfologických kategorií Lucie Chlumská Je čeština v překladech jiná? Lucie Jílková Vy jste mi z té otázky utekl! (analýza jednoho způsobu vymáhání odpovědi, s využitím korpusových dokladů) Karel Jirásek Identifikace typologických rozdílů mezi češtinou a chorvatštinou za pomoci paralelního korpusu InterCorp Elżbieta Kaczmarska, Alexandr Rosen, Jirka Hana Jak najít optimální překlad polysémních sloves porovnání metod automatické analýzy paralelních textů Tomáš Káňa Česká nesubstantivní deminutiva a jejich protějšky v němčině a angličtině

6 Adam Kilgarriff, Pavel Rychlý, Miloš Jakubíček, Vojtěch Kovář, Vít Suchomel, Jan Bušta, Vít Baisa, Jan Michelfeit Multilingual data processing in Sketch Engine Petra Klimešová, Zuzana Komrsková, Marie Kopřivová, David Lukeš Co že to je? K tvaru to v mluvených korpusech ČNK Ivana Kolářová Slovesa odvozená od adverbií jako periferie slovotvorného systému (na materiále Českého národního korpusu) Veronika Kolářová Preference v souvýskytu aktantů u českých substantiv mluvení Pavel Kosek Vývoj slovosledu kondicionálového auxiliáru v češtině Dominika Kováříková Slovní druhy v mluvené a psané češtině Boris Lehečka Obsah a značkování diachronního korpusu češtiny Eva Lehečková Konstrukční specifika dvou sémantických typů obouvidových sloves v češtině Martina Lev Voľné datívy a DcI-konštrukcie. Distribučná štúdia na materiáli podkorpusu českého synchrónneho korpusu SYN2010 a podkorpusu ruského osnovného korpusu Michaela Lišková, Helena Pernicová Pojmenování barev a jejich odstínů v Akademickém slovníku současné češtiny David Lukeš Perspektivy fonetické anotace v korpusech mluveného jazyka

7 Jiří Mácha Ke kategorizaci plurálií a singulárií tantum kvantitativní analýza sufixů Markéta Malá Překladové protějšky jako ukazatele významu: čeština a angličtina v paralelním korpusu InterCorp Michaela Martinková, Martin Šimon Enklitická partikule pak: korpusová studie Tereza Mašková, Vojtěch Ripka Korpus jazyka StB Vít Michalec, Vojtěch Veselý K souborovému a kolektivně-látkovému významu substantiv s převahou plurálových tvarů Aksana Mikalayenka Homonymní příslovce a předložky a problematika jejich disambiguace v Českém národním korpusu Květoslava Musilová Slovakismy v současné češtině Petr Nádeníček Různá pojetí slovotvorné konverze ve světle národních korpusů slovanských a germánských jazyků Olga Navrátilová Slovosled nominální fráze ve staré češtině Renata Novotná Antropomorfický princip u konkrétních neživotných substantiv: názvy nebeských těles Klára Osolsobě Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou) í]cí a jejich morfologické značkování)

8 Hana Peloušková O nepříjemných pocitech. Specifické konstrukce s několika německými slovesy a jejich protějšky v češtině Vladimír Petkevič Slovnědruhová a morfologická homonymie, homografie a homofonie v současné češtině Žaneta Pixová Čeština soudních rozhodnutí ve světle korpusu Petr Plecháč Korpus českého verše a možnosti jeho využití Alena Polická K možnostem zkoumání (identitární) neologie v ČNK a IC Alena Poncarová Sestavování korpusu pro syntaktickou anotaci práce na celý život? Petr Pořízka Olomoucký mluvený korpus pilotní verze Olga Richterová, Anna Čermáková Jak malá je malá místnůstka? Korpusová studie deminutivnosti se zaměřením na sémantické aspekty Alexandr Rosen, Michala Adamová, Martin Vavřín Extrakce lexikálních ekvivalentů z paralelního korpusu Hana Skoumalová, Jiří Znamenáček, Vladimír Petkevič Využití valenčních slovníků při tvorbě českého treebanku Tess Slavíčková Investigating nepřizpůsobivý (inadaptable) as a keyword in critical analysis of Czech press reports on Roma Jindra Světlá Uvádění stupňovaných tvarů u adjektiv a adverbií v novém všeobecném výkladovém slovníku češtiny

9 Karel Šebesta Využití speciálních korpusů Českého národního korpusu pro výzkum jazykového vývoje žáků Magda Ševčíková Přípona -ství/-ctví v současné češtině (korpus jako zdroj dat pro zkoumání slovotvorby) Mária Šimková Predložky s časovým významom v slovenčine a v češtine Jana Šindlerová Alternace aktoru a instrumentu v paralelním česko-anglickém korpusu Svatava Škodová, Michaela Kuchařová, Václav Lábus, Jasňa Pacovská Reflexe proměn užívání češtiny na základě mluveného korpusu zpravodajského vysílání Českého rozhlasu v letech Michal Škrabal, Lubomír Ďuroška Cizojazyčné protějšky slov druh a soudruh: situace v lotyštině a slovinštině Jitka Šonková Rozdíly v rozsahu slovní zásoby v Pražském mluveném korpusu: Kdo má bohatší slovník junioři, senioři, muži nebo ženy? Jovanka Šotolová, Olga Nádvorníková Za hranice věty Barbora Štindlová, Veronika Čurdová, David Beneš Merlin: Multilingvální platforma pro evropské referenční úrovně Tamás Tölgyesi Německé přejímky v běžně mluvené češtině na základě korpusu ORAL Marie Vachková Paradigmatika a syntagmatika v překladovém slovníku

10 Kateřina Veselovská Sestry manžel byl kamaráda bratr ke slovoslednému postavení neshodného atributu vyjádřeného substantivem v genitivu Pavel Vondřička InterText: upečte si vlastní paralelní korpus Uliana Yazhinova Syntactic reduplication in Czech and Slovak (corpus-based approach) Anna Zitová, Martin Stluka K některým morfologickým zvláštnostem starších českých textů (především 19. století) Richard Změlík Možnosti jazykového korpusu pro literárněvědnou analýzu na příkladu autorského slovníku Jana Čepa

11 Plenární přednášky

12 Paul Baker Dapartment of Linguistics and English Language, Lancaster University Counting all the cherries: using corpora to analyse discourses Corpora are (usually) very large collections of electronically stored, naturally occurring texts that are aimed to be representative of a particular language variety. They are analysed with the help of computer software which use a combination of statistical tests and ways of presenting data that enable salient patterns of language to be identified. Partington et al (2013: 11) argue that corpus approaches can thus help to uncover non-obvious meaning. In this talk I examine how corpus techniques can be used to analyse discourses or ways of making sense of the world. As Fairclough (1989: 54) points out A single text on its own is quite insignificant: the effects of media power are cumulative, working through the repetition of particular ways of handling causality and agency, particular ways of positioning the reader, and so forth, so it is through the repetition of language that we are able to obtain evidence for stable discourses in societies. Using examples from my own research, I discuss techniques based around comparing frequencies, collocation, keywords, concordances and dispersion data in order to demonstrate how this method of analysis can be implemented. I employ data from tabloid news, parliamentary debates, personal advertisements and spoken conversations in order to ask what can corpora tell us about discourse that we wouldn t necessarily have gained from introspection or qualitative analysis of a small number of texts? The talk ends with a discussion of some of the potential pitfalls of this approach. References Fairclough, N. (1989). Language and Power. London: Longman. Partington, A., Dugiud, A. & Taylor, Ch. (2013). Patterns and Meanings in Discourse. Theory and practice in corpus-assisted discourse studies (CADS). Amsterdam: John Benjamins. 12

13 Cyril Belica Institut für Deutsche Sprache, Mannheim Kookurenčná analýza a jazykové štruktúry Kookurenčná analýza má svoje pevné miesto v korpusovej lingvistike už niekoľko desťročí. Vo svojom klasickom variante, keď voliteľnými veličinami sú len veľkosť kontextu, konkrétna funkcia miery asociácie a cieľová lexikálna jednotka, slúži predovšetkým ako prostriedok na kvantifikovanie asociačných vzťahov medzi dvojicami slov v korpuse. Nad rámec tejto v podstate deskriptívnej funkcie však kookurenčnú analýzu možno chápať aj ako metodické východisko pri abdukcii hypotéz interpretujúcich rozmanité druhy pravidelností pozorovaných v ľubovoľnej jazykovej produkcii. Prednáška je venovaná predovšetkým tomuto pohľadu na možnosti kookurenčnej analýzy, s dôrazom na význam viacčlenných kookurencií a syntagmatických vzorcov najmä pre výskum jazykov s relatívne voľným slovosledom. Na pozadí metód vyvinutých začiatkom deväťdesiatych rokov v Ústave nemeckého jazyka (IDS) v Mannheime ukazuje, ako sa pomocou kombinácie kookurenčnej a zhlukovej analýzy dajú v korpusoch izolovať komplexné, mnohovrstevné štruktúry stimulujúce abduktívny prístup k výskumu jazyka. Explanatívny potenciál týchto štruktúr, osobitne z pohľadu lexikálnej sémantiky, je v prednáške načrtnutý na niekoľkých príkladoch interpretácie zhlukovej analýzy kookurenčných profilov lexikálnych jednotiek pomocou neurónových sietí. 13

14 Neil Bermel Russian and Slavonic Studies, The University of Sheffield Mapování jazykové variability ve světle korpusové frekvence a odpovědí rodilých mluvčích Tvrzení, že nám korpus umožní nahlédnout do lingvistických vlastností textů, které v nich najdeme, není kontroverzní. Pokud ale chceme vyvodit, že díky korpusu získáme náhled do jazyka (nebo jazykové variety), ve kterém jsou jeho texty psány, názory nejsou jednotné. K čemu jsou tedy korpusy v mapování struktury jazyka? Pokud by se měla korpusová data jako doklady Saussurovského parole vztahovat k jazykové produkci, počet a proporce tvarů v korpusu by měly hrát významnou roli ve volbách rodilých mluvčích. Pokud ale vycházíme z předpokladu, že korpus odráží jazykové prostředí, které uživatele obklopuje a není přímou ukázkou jeho jazykových dovedností, měli bychom vztahovat korpusová data spíše k hodnocením a posudkům uživatele. Výsledky našich sond do některých konkurujících si morfů v českém deklinačním systému ukazují, že korpusová data mají předpovědní hodnotu jak pro posudky rodilých mluvčích, tak pro užití jednotlivých jevů, a to v daných případech více než jakýkoliv další činitel. Vysokou předpovědní schopnost vzhledem k volbě a hodnocení tvarů má proporcionální frekvence jevů v korpusu; absolutní frekvence se zdá hrát jen vedlejší roli. Nejjasněji a nejmarkantněji se to odráží na volbě mezi tvary, ale co se týče posudků, zjevná neochota mluvčích označovat méně užívané tvary za nepřijatelné nabízí možné vysvětlení, proč se tato variabilita v češtině po staletí udržuje. 14

15 Karel Kučera Ústav Českého národního korpusu FF UK Dvacet let poté Dvacátého výročí založení Ústavu Českého národního korpusu bude v příspěvku využito jednak ke krátkému přehledu nejvýznamnějších výstupů série pěti- až sedmiletých projektů zaměřených na budování korpusového komplexu Českého národního korpusu (ČNK), jednak především ke shrnutí hlavních zásad, které se v tomto komplexu uplatňují, a k naznačení představ a plánů týkajících se jeho dalšího rozvoje v budoucnosti. V rozsahu omezeném formou konferenčního příspěvku bude pozornost věnována základním problémům spojeným s obecnými principy (zejména koncepci reprezentativnosti), s možnostmi lingvistické interpretace a značkování korpusových dat, s předpokládanými směry rozvoje korpusového softwaru a se získáváním jazykových dat. Jádro příspěvku je koncipováno jako zamyšlení nad výhodami i nevýhodami přístupů, které byly v minulosti zvoleny v jednotlivých složkách ČNK (synchronní psané a mluvené korpusy, diachronní korpusy, paralelní korpusy, specializované korpusy), nad současnými problémy i nad problémy, které bude třeba řešit v budoucnu, mimo jiné v souvislosti se snahou, aby ČNK v co největší šíři reflektoval komunikační spektrum současného českého jazyka (aktuální potřeba adekvátně zachytit jazyk SMS, různých druhů internetové komunikace ap.) a souvisleji a hlouběji mapoval diachronii češtiny. 15

16

17 Konferenční příspěvky

18 Lucie Benešová Ústav Českého národního korpusu FF UK Michal Křen Ústav Českého národního korpusu FF UK Martina Waclawičová Ústav Českého národního korpusu FF UK Korpus spontánní mluvené češtiny ORAL2013 Příspěvek představí nedávno zveřejněný korpus spontánní mluvené češtiny ORAL2013 (Válková et al. 2012), který je výsledkem projektu realizovaného v ÚČNK FF UK v Praze. Korpus je přístupný všem registrovaným uživatelům na adrese < a zachycuje reprezentativní materiál představující autentický mluvený jazyk v neformálních komunikačních situacích. V příspěvku se zaměříme především na představení základní koncepce korpusu ORAL2013, popíšeme způsob transkripce i řešení praktických otázek při sběru dat. Součástí prezentace bude také ukázka práce s korpusem v novém webovém rozhraní KonText. Korpus ORAL2013 se skládá z 835 nahrávek z let a obsahuje více než 2,7 milionu textových slov ( tokenů včetně interpunkce) v přepisech celkem mluvčích (z toho unikátních). Celková délka nahrávek je minut, tj. téměř 300 hodin. ORAL2013 je v pořadí již třetím korpusem řady ORAL, která vzniká jako součást ČNK. Je tedy přirozené, že v mnohém navazuje na své předchůdce, korpusy neformální mluvené češtiny ORAL2006 (Kopřivová & Waclawičová 2006) a ORAL2008 (Waclawičová et al. 2009). Důležitým rysem celé řady je především zachycení prototypicky mluveného jazyka (Čermák 2009); nahrávány byly proto pouze situace splňující následující kritéria: fyzická přítomnost mluvčích; dialogičnost promluv (rozhovor dvou nebo více mluvčích); vzájemný blízký vztah mluvčích; nepřipravenost, spontánnost; neveřejná a neoficiální komunikační situace. 18

19 Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK. Korpus ORAL2013 se zároveň od svých předchůdců odlišuje v následujících bodech. Pokrytí celého území ČR, tj. Čech, Moravy a Slezska. Propojení přepisu se zvukovou stopou v transkripčním programu Transcriber (Geoffrois et al. 2000); uživatel si tak může ve webových rozhraních ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (segment), a poslechnout si tak jeho realizaci. Použití pauzové interpunkce, která nahradila původní syntaktickou. Označení překryvů replik více mluvčích. Označení shodných mluvčích, kteří vystupují ve více nahrávkách; toto označení je přístupné pomocí náhodně vygenerované přezdívky, která je pro daného mluvčího v celém korpusu stejná. Uvádění informace o typu komunikační situace. Odlišné pojetí vyváženosti dat. Při sběru dat jsme usilovali o maximální regionální pokrytí a různorodost mluvčích, materiál byl proto průběžně vyvažován v těchto hlavních sociolingvistických kategoriích: pohlaví, věková skupina (mladší/starší mluvčí), vzdělání a oblast pobytu mluvčího v dětství (podle tradičního Běličova dialektologického členění používaného v Českém jazykovém atlase, Balhar et al ). Na rozdíl od korpusu ORAL2008 jsme však nepřistoupili k závěrečnému výběru, jehož výsledkem by bylo plné vyvážení korpusu. Znamenalo by to totiž zbavování se cenného materiálu v situaci, kdy je korpus už dostatečně reprezentativní, zatímco jeho hypotetická ideální vyváženost by byla jednak sporná (zvláště její regionální faktor), a jednak by nebyla ani potřebná, protože nové webové rozhraní umožňuje práci s relativními (a tedy srovnatelnými) frekvencemi. Složení korpusu v základních sociolingvistických kategoriích uvádíme v následujících tabulkách: Pohlaví ženy muži Věková skupina mladší (18 34 let) starší (35 let a výš) Vzdělání nižší vyšší Tabulka 1: Počet slov v hlavních kategoriích. 19

20 Oblast pobytu v dětství počet slov středočeská severovýchodočeská jihozápadočeská české pohraničí česko-moravská středomoravská východomoravská slezská moravské pohraničí Tabulka 2: Počet slov podle převažující oblasti pobytu v dětství. Literatura Balhar, J. (Ed.) ( ). Český jazykový atlas, 1 6. Praha: Academia. Čermák, F. (2009). Spoken corpora design. Their constitutive parameters. International Journal of Corpus Linguistics, 14 (1), Geoffrois, E., Barras, C., Bird, S. & Wu, Z. (2000). Transcribing with annotation graphs. In: Proceedings from The Second International Conference on Language Resources and Evaluation (LREC), Kopřivová, M. & Waclawičová, M. (2006). Representativeness of spoken corpora on the example of the new spoken corpora of the Czech language. In: Труды международной конференции Корпусная лингвистика Санкт-Петербург: Издательство СПбГУ, Válková, L., Waclawičová, M. & Křen, M. (2012). Balanced data repository of spontaneous spoken Czech. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC), Accessed January 30, lrec2012/pdf/179_paper.pdf. Waclawičová, M., Křen, M. & Válková, L. (2009). Balanced corpus of informal spoken Czech: compilation, design and findings. In Proceedings of the 10th Annual Conference of the International Speech Communication Association INTERSPEECH 2009,

21 Vladimír Benko Jazykovedný ústav Ľ. Štúra SAV Je webový korpus horší? V súvislosti s takmer exponenciálnym rastom množstva textových dát na internete stúpa zároveň záujem o ich lingvistické využitie. Okrem naivného používania vyhľadávacích služieb na zisťovanie základných údajov o frekvencii výskytu slov a slovných spojení, trochu pejoratívne označovaného ako Google linguistics (porov. Kilgarriff 2007), sme aj svedkami snáh o využitie dát z webu systematickejším a z hľadiska potrieb lingvistov plnohodnotnejším spôsobom. Jedným z vývojových smerov v tejto oblasti je tvorba webových korpusov, v rámci ktorej sa dáta vo veľkom objeme sťahujú z webu pomocou automatizovaných procedúr využívajúcich sofistikované stratégie hodnotenia obsahu jednotlivých webových lokalít z hľadiska využiteľnosti v korpuse (Suchomel & Pomikálek 2012), následne sa filtrujú a deduplikujú, takže výstup v textovej podobe možno ďalej spracovať štandardnými metódami a technológiami korpusovej lingvistiky (tokenizácia, morfologická anotácia a spracovanie korpusovým manažérom). Za posledné desaťročie sa tvorba webových korpusov etablovala ako samostatná oblasť korpusovej lingvistiky, má svoju sekciu v Asociácii pre počítačovú lingvistiku (ACL SIGWC), pravidelné konferencie (WAC) a dočkala sa už aj prvej monografie (Schäfer & Bildhauer, 2013). Okrem zjavných výhod webových korpusov oproti tradičným (dajú sa vytvoriť omnoho rýchlejšie a s neporovnateľne väčším rozsahom, obsahujú aj žánre, registre a domény typicky absentujúce v tradičných korpusoch, dáta sú k dispozícii prakticky pre ľubovoľný jazyk, nové tendencie v jazyku sa v nich odrazia prakticky okamžite) majú samozrejme a veľa nedostatkov, ktoré spôsobujú problémy nielen pri ich tvorbe a anotácii, ale aj pri lingvistických analýzach (len v nepatrnom rozsahu vieme ovplyvniť a dokonca aj zistiť, aké texty vlastne obsahujú, a značná časť textov je zašumená, napr. používa neštandardnú ortografiu prípadne jazykovú varietu, alebo obsahuje čiastočne nezmyselné slová v dôsledku chýb pri znakových konverziách, filtrácii či identifikácii jazyka dokumentov. Pre jednotlivé dokumenty v korpuse je k dispozícii len minimálna bibliografická anotácia, väčšinou obmedzená len na adresu webovej stránky a dátum jej stiahnutia z webu. Vzhľa- 21

22 dom na technické obmedzenia procesu sťahovania dát z webu je principiálne nemožné určiť (socio)lingvisticky dôležitý parameter dátum vzniku dokumentu. Problémy sú aj s nejasnou situáciou ohľadne autorských práv jednotlivých textov pri počtoch dokumentov rádovo v miliónoch nie je v silách žiadneho korpusového pracoviska riešiť túto otázku pre každý text individuálne. V súčasnosti už existuje veľa jazykov, pre ktoré okrem tradičných korpusov bol vytvorený aj webový korpus porovnateľného, či dokonca ešte väčšieho rozsahu. Každému (korpusovému) lingvistovi sa v takejto situácii prirodzene núkajú otázky: Aké dôsledky má pre môj výskum existencia dvoch vzoriek jazyka vytvorených odlišnou metodológiou a technológiou? Ktorá z nich poskytuje vhodnejší podklad na zovšeobecnenie výsledkov? Je niektorý z korpusov horší? Aj slovenčina patrí medzi jazyky, kde sa na takéto otázky môžeme pokúšať hľadať odpoveď. Je to dané projektom Slovenského národného korpusu, v rámci ktorého sa systematicky buduje tradičný korpus na báze textov pokrytými autorskými právami (beletria, odborné publikácie a publicistika) a tiež tým, že sa paralelne budujú aj webové korpusy. Hlavný korpus SNK (6.1) má v súčasnosti rozsah okolo 830 miliónov tokenov a tri existujúce webové korpusy (vytvorené v rozličnom čase, rozličnými autormi a rozličnými procedúrami) majú rozsahy (po deduplikácii na úrovni dokumentov) 195, 875 a miliónov tokenov. V príspevku opisujeme práve prebiehajúci experiment, v ktorom sa pokúšame potvrdiť alebo vyvrátiť tvrdenie, podporené našimi skúsenosťami s prácou s webovými aj tradičnými korpusmi: Webový korpus nie je horší ako tradičný korpus rovnakého rozsahu. V prípade, že webový korpus je väčší (čo je veľmi častý prípad), môže byť dokonca lepší, než korpus tradičný. Naše tvrdenie sa však obmedzuje len na použitie korpusu ohraničené našou skúsenosťou, t. j. v lexikografii. Experiment pozostáva z rekonfigurácie pôvodných korpusových dát tak, aby vzniklo niekoľko webových korpusov s rovnakým rozsahom, ako má referenčný tradičný korpus. Pre všetky korpusy vykonávame porovnanie stupňa deduplikácie na úrovni odsekov a viet, štatistických parametrov pre homogénnosť a vzájomnú podobnosť korpusov (Kilgarriff 2001), frekvenčnú distribúciu lexikálnych jednotiek a slovných druhov, formálnu úspešnosť morfologickej anotácie (počty nerozpoznaných slovných tvarov), proporciu úspešne detegovaného šumu, a na malých vzorkách aj jej reálnu chybovosť 22

23 morfologickej anotácie. Vlastným jadrom experimentu je porovnanie kolokačných profilov vybraných lexikálnych jednotiek z rôznych frekvenčných pásiem vytvorených pomocou nástroja Sketch Engine (Kilgarriff et al. 2004). Chceme ešte poznamenať, že v štádiu rozpracovania máme aj webový korpus pre češtinu. Po jeho dokončení bude analogické porovnanie možné aj medzi korpusmi budovanými v ÚČNK a týmto webovým korpusom. Literatúra Kilgarriff, A. (2001). Comparing Corpora. International Journal of Corpus Linguistics, 6 (1), Kilgarriff, A. (2007). Googleology is Bad Science. Computational Linguistics 33 (1), Kilgarriff, A. et al. (2004). The Sketch Engine. In G. Williams & S. Vessier (Eds.), Proceedings of the eleventh EURALEX International Congress EURALEX 2004 Lorient, France, July 6-10, Lorient: Université de Bretagne-Sud, Schäfer, R. & Bildhauer, F. (2013). Web Corpus Construction. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers. Suchomel, V. & Pomikálek, J. (2012). Efficient Web Crawling for Large Text Corpora. 7th Web as Corpus Workshop (WAC-7), Lyon,

24 Tilman Berger Slavisches Seminar, Universität Tübingen Stefan Heck SFB 833, Universität Tübingen Performativní užívání dokonavého prézentu v češtině ve srovnání s jinými slovanskými jazyky Náš příspěvek se zabývá užíváním dokonavého prézentu bez významu futura v performativních kontextech, jako např. ve větě: Přiznám se, že tomu vůbec nerozumím (SYN2010). Na tento fenomén jako první upozornil Koschmieder (1930) a vysvětlil ho takzvanou koincidencí, tj. tím, že realiza cí výpovědi je také realizován děj popsaný slovesem. Uvedl polské příklady jako A teraz poproszę o odprowadzenie do powozu nebo Tylko na baronową ośmielę się zwrócić uwagę. Performativní výpovědi, jak je později v rámci teorie řečových aktů popsali Austin (1962) a Searle (1969), jsou zvláštním případem koincidence, která sama o sobě představuje širší koncept a obsahuje také pří pady s neperformativními slovesy. O užívání dokonavého prézentu v performativním kontextu se psalo několikrát v rusistických pracích (srov. Forsyth 1970: 150; Bondarko 1971: 222; Apresjan 1986: 215). O jiných slovanských jazycích se zmínil už Koschmieder a potom krátce Galton (1976: 92 95). V rámci své velké studie o slovanském vidu Dickey (2000: ) předložil podrobnější rozbor tohoto fenoménu ve všech slovanských jazycích. Podle jeho názoru se uží vání dokonavých sloves v performativní funkci různí v jednotlivých slovanských jazycích. Zatímco v ruštině je daný fenomén omezen na podskupinu verb dicendi a na slovesa odkazující na okamžik výpovědi ( mentální performativa v pojetí Rjabcevové (1992)), v polštině funguje u mnohem více verb dicendi a také u sociálních neboli rituálních performativ podle Rjabcevové. Ohledně češtiny můžeme pozorovat rozporuplnou situaci: Dickey a po něm také Wiemer (v tisku) a Łaziński (rukopis) se domnívají, že je tam situace podobná jako v polštině a dokonce naznačují, že by dokonavá performativa v češtině by mohla být ještě častější. Bohemistická aspek tologická literatura zase o tomto užívání dokonavého prézentu mlčí nebo jeho existen- 24

25 ci vysloveně popírá. Kopečný (1962: 35 36) sice diskutuje sporné příklady z Seidelova článku z roku 1939 o užívání dokonavého prézentu, ale neříká nic o jediném dokladu performativního slovesa, který je tam uveden (Nu jo, já dovolím, Seidel 1939: 17). V mluvnicích češtiny jsme nic nenašli, kromě Pří ruční mluvnice češtiny (1996: 592), která tvrdí, že performativní výpovědi jsou užívána vždy v ne dokonavém vidu. Totéž tvrdí i Hirschová (2011), která sice zná a cituje Apresjana, ale zastává ná zor, že je to spíše věc idiomatického charakteru takové výpovědi se smyslem důrazné žádosti, nikoli specifického typu performativnosti (Hirschová 2011: 155). Pro naši studii jsme vybrali celkem 15 sloves ze studií Dickeyho, Wiemera a Łazińského. Pro zkoumali jsme, jak často se české, ruské a polské ekvivalenty vyskytují v korpusech (SYN2010, NKJP, NKRJa). Užívali jsme jen doklady z přímé řeči a bez časové posloupnosti (která vylučuje performativnost). Došli jsme k několika prozatimním výsledkům, z nichž je nejdůležitější ten, že dokonavá slovesa jsou užívána v češtině v podobném rozsahu jako v jiných slovanských jazycích, ale nikoliv výrazně častěji. Jinak můžeme konstatovat následující: 1. U řídkých nebo průměrně frekventovaných sloves (např. upřesním, utočnju, uściślę) užívání ve všech třech jazycích je poměrně podobné. 2. U vysoce frekventovaných sloves může dojít k značným výkyvům: např. je performativní užívání ruského poprošu značně častější než užívání českého poprosím nebo polského po proszę, což se asi dá vysvětlit tím, že prosím a proszę mají více významů a funkcí než ruské prošu (konkurující s požalujsta). 3. V případech, kde podle Dickeyho a Wiemera dokonavé sloveso údajně nevystupuje v rušti ně, ale jen v češtině a polštině, dotyčná slovesa jsou poměrně řídká také v češtině. To se týká např. sloves navrhnu a zaproponuję. Literatura Apresjan, Ju. D. (1986). Performativy v grammatike i v slovare. Izvestija Akademii nauk SSSR, 45, Austin, J. L. (1962). How to Do Things with Words. Oxford. Bondarko, A. V. (1971). Vid i vremja russkogo glagola (značenie i upotreblenie). Moskva. Dickey, S. (2000). Parameters of Slavic Aspect: A Cognitive Approach. Stanford. 25

26 Forsyth, J. (1970). A Grammar of Aspect: Usage and Meaning in the Russian Verb. Cambridge. Galton, H. (1976). The Main Functions of the Slavic Aspect. Skopje. Hirschová, M. (2011). Slovesný vid a tzv. performativnost. In M. Ološtiak et al. (Eds.), Vidy jazyka a jazykovedy. Na počesť Miloslavy Sokolovej. Prešov, Kopečný, F. (1962). Slovesný vid v češtině. Praha. Koschmieder, E. (1930). Durchkreuzungen von Aspekt- und Tempussystem im Präsens. Zeitschrift für slavische Philologie, 7, Łaziński, M. (2012). The aspect of Polish performatives with regard to politeness rules. Rukopis. Příruční mluvnice češtiny. (1996). Praha. Rjabceva, N. K. (1992). Mental nye performativy v naučnom diskurse. Voprosy Jazykoznanija 1992, 4, Searle, J. (1969). Speech Acts: An Essay in the Philosophy of Language. Cambridge. Seidel, E. (1939). Zur Futurbedeutung des Praesens perfectivum im Slavischen. Slavia, 17, Wiemer, B. (v tisku). Upotreblenie soveršennogo vida v performativnom nastojaščem. Vyjde ve sborníku na počest V. S. Chrakovského. 26

27 Aleš Bičan Ústav pro jazyk český AV ČR Fonologický lexikální korpus češtiny a jeho analýza Korpusová lingvistika se soustředí především na tvorbu korpusů určených pro gramatickou analýzu češtiny. Korpusy však lze využít pro analýzu fonologické struktury jazyka, avšak tento aspekt zůstával doposud mimo zájem lingvistů popisujících češtinu. Příspěvek představí fonologický korpus české slovní zásoby a nabídne analýzu dat, které z něj lze získat. Fonologický lexikální korpus češtiny je primárně korpusem fonologickým. Jeho zdrojem je seznam lexémů zahrnutých v Databázi heslářů ( lexiko.ujc.cas.cz/), jež obsahuje hesel. V současné době je do našeho korpusu zahrnuto přes 270 tisíc lexémů ze Slovníku spisovné češtiny, Slovníku spisovného jazyka českého, Výslovnosti spisovné češtiny, Příručního slovníku jazyka českého a dalších zdrojů. Všechny lexémy jsou opatřeny fonologickou reprezentací, která vychází z ortoepické výslovnosti. Fonologická reprezentace byla nejdříve získána automatickým převodem z ortografické podoby, následně však byl každý lexém manuálně zkontrolován a případně opraven. Jelikož ze samotného českého pravopisu nelze stoprocentně odvodit výslovnost (především v případě slov cizího původu), byla kontrola nutná, aby se předešlo zkreslení a nepřesnostem způsobeným automatickou transkripcí. Tím jsme předešli problémům, které jsou patrné u fonologické analýzy ČNK Bartoně et al. (2009), kteří též použili automatickou transkripci, avšak bez následné kontroly. (Ačkoliv si autoři zmíněné analýzy jsou zkreslení výsledků vědomi, pokládají je za zanedbatelné, s čímž lze polemizovat: např. slova struktury konsonant konsonant (CC) mohou jen těžko patřit mezi sto nejčastějších typů slov (viz op. cit. 109), jelikož čeština taková slova nemá, uvedenou strukturu mají pouze zkratky.) Data ve fonologickém lexikálním korpusu jsou uložena v formátu tabulky. Příklad záhlaví a jednoho hesla v korpusu je v následující tabulce. 27

28 Ortho PhRep Length Phtagms CVStr Place Manner Voicing Horiz Vertic Quant SSČ SSJČ VSČ stín Sťīn 4 1 CCVC APvA FOvN XUvX ccqc cchc ccgc Sloupec Ortho udává pravopisnou podobu lexému a sloupec PhRep jeho fonologickou reprezentaci. Sloupce Length až Quality udávají fonologické vlastnosti lexémů a fonémů, které obsahují. Zbývající sloupce zaznamenávají, do kterého slovníku je lexém zařazen. Fonologické vlastnosti fonémů, kterých se lexém skládá, jsou odvoditelné z fonologické reprezentace a lze je chápat jako analogie gramatické anotace v nefonologických korpusech. Sloupce Length, Phtagms udávají počet fonémů a počet slabik, sloupec CVStr pak strukturu lexému na základě členství jeho fonémů ve třídě konsonantů či vokálů. Další sloupce vyjadřují distinktivní rysy konsonantů podle místa a způsobu artikulace a znělosti (Place, Manner, Voicing) a distinktivní rysy vokálů podle horizontální a vertikální polohy a kvantity (Horiz, Vertic, Quant). Písmena v uvedených sloupcích jsou zkratky fonologických vlastností; např. APvA ve sloupci Place lze chápat takto: A = alveolární (odpovídající /S/), P = palatální (= odpovídající /ť/), v = vokál (odpovídající /ī/), N = nazální (odpovídající /n/). Další sloupce, např. s vyjádřením hranic slabik, budou do korpusu postupně přidávány. Na základě uvedených sloupců, resp. fonologických vlastností celého lexému nebo jednotlivých fonémů je možné v korpusu vyhledávat a třídit data podle definovatelných kritérií (např. jednoslabičné lexémy o šesti fonémech obsahujících okluzívu a dlouhý vokál). Korpus je k dispozici na webové adrese Prozatím je volně přístupná jen jeho ukázková část o počtu cca hesel ze Slovníku spisovné češtiny, jež je též doplněna o informaci o slovních druzích, podle které lze např. zkoumat i fonologickou strukturu podstatných jmen oproti slovesům. Data z lexikálního fonologického korpusu slouží, obdobně jako u gramatických korpusů, k lingvistické analýze. Příspěvek kromě představení tohoto korpusu nabídne i fonologickou analýzu lexikální zásoby češtiny. Z korpusu lze např. získat informace o frekvenci výskytu jednotlivých fonémů a jejich tříd nebo frekvenci různých kombinací fonémů a vůbec informace o kombinovatelnosti fonémů. Rovněž můžeme získat informace o výskytu a frekvenci lexémů určité délky nebo struktury. 28

29 Literatura Bartoň, T. et al. (2009). Statistiky čestiny. Praha. František Cvrček Ústav státu a práva AV ČR f.cvrcek@worldonline.cz Karel Pala Fakulta informatiky Masarykovy univerzity pala@fi.muni.cz Pavel Rychlý Fakulta informatiky Masarykovy univerzity pary@fi.muni.cz Chování slov a jejich kolokací v jazyce právních subdomén V článku věnujeme pozornost chování kolokací v právních subdoménách, jako jsou texty zákonů, vyhlášek a nařízení. Porovnání slov samostatně i slovních kolokací z jednotlivých typů právních textů poskytuje kvantifikovatelné údaje, které vypovídají o terminologické povaze pozorovaných kolokací. Z provedených měření a pozorování jasně plyne, že jazyk primárních předpisů se značně liší od jazyka sekundárních předpisů. Jako materiál posloužily korpusy: CzLaw čítající 20,6 mil. tokenů, který se dále člení na subkorpus Primarni predpisy (Ústava a platné zákony ČR) s 12,2 mil. tokeny a Sekundarni predpisy (vyhlášky a nařízení) s 8,4 mil. tokeny. Uvedené korpusy nejsou velké, ale základní kolokační tendence, o které nám jde, lze na nich dobře demonstrovat. Pro kontrastní analýzu jsme též využili korpus CzechParl čítající 51,4 mil. tokenů, který obsahuje záznamy projevů poslanců v Parlamentu ČR a má právní povahu. Jeho velikost lze pro naše účely pokládat za více než dostačující. 29

30 V článku navazujeme na projekt PES (viz v němž se úspěšně kombinují korpusově lingvistické přístupy s právnickými. Jde o analýzu užití právnické terminologie v doktrinálním jazyce (základní učebnice práva z jednotlivých odvětví), v jazyce zákonů (korpus platných zákonů ČR včetně Ústavy ČR), v jazyce sekundárních předpisů (korpus platných nařízení a vyhlášek ČR na centrální úrovni), v jazyce judikatury (korpus judikatury soudních rozhodnutí nejvyšších soudů od roku 1990) a v tzv. obecném základu jazyka (korpus Czes). Systém PES (soubor bází, korpusů a programů) umožňuje studium právního jazyka a jeho změn. Vzhledem k rozsahu, který prakticky pokrývá celý právní řád i obecný základ jazyka, získáváme vlastně poprvé představu o složitosti práva jako celku na jazykové úrovni. Programový systém PES je pravidelně aktualizován a je pro potřeby výuky a výzkumu přístupný všem uživatelům, kteří o to mohou požádat u JUDr. F. Cvrčka z ÚSP AV ČR. Jednotlivé uvedené korpusy jsou v elektronické podobě a lze s nimi pracovat v korpusovém manažeru Manatee/Bonito (Rychlý 2007) s vestavěným modulem pro práci se slovními profily (Word Sketches, Kilgarriff et al. 2004). Manažer Manatee/Bonito umožňuje prohledávat zmíněné korpusy, získávat z nich konkordance, sledovat frekvence jednotlivých výrazů (právních termínů) a zejména pozorovat jejich kolokační chování, získávat klíčová slova a porovnávat jednotlivé korpusy či subkorpusy na různých úrovních. První důkaz rozdílnosti jazyků primárních a sekundárních předpisů přináší porovnání klíčových slov obou subkorpusů. Pro oba subkorpusy jsme vytvořili seznamy klíčových slov porovnáním frekvencí slov s referenčním korpusem. Při výpočtech byla používána tzv. redukovaná četnost (Average Reduce Frequency), která automaticky filtruje slova, která se vyskytují v jednom či několika málo dokumentech. Vytvořeno bylo několik seznamů různé délky obsahující vždy statisticky nejvýznamnější klíčová slova z daného subkorpusu. Z porovnáním příslušných seznamů plyne, že pouze 60 % slov je v odpovídajících seznamech společných. Podobně jsme postupovali při porovnání kolokací jednotlivých klíčových slov (společných oběma subkorpusům). Seznamy kolokací byly vytvořeny pomocí systému Sketch Engine (Kilgarriff et al. 2004) jako statisticky významné kolokace v příslušných gramatických relacích. Opětovné porovnání seznamů mezi oběma subkorpusy ukazuje, že u některých slov je podíl společných kolokací menší než 30 %. Jako příklad můžeme uvést slovo území, u kterého z 37 gramatických relací má pouze 18 re- 30

31 lací alespoň jednu kolokaci společnou oběma subkorpusům a pouze 6 relací má více než 3 společné kolokace. Podrobnějším studiem konkrétních vazeb jednotlivých slov zjišťujeme, že společné kolokace v primárních a sekundárních předpisech jsou z velké části pouze obecné fráze, které nejsou specifické pro právnické texty. Odborné vazby jsou v obou subdoménách značně rozdílné. V článku budou uvedeny příslušné seznamy a tabulky. Celkově můžeme konstatovat, že ač se na první pohled může zdát, že zákony na jedné straně a vyhlášky a nařízení na druhé straně spadají do stejného jazyka, exaktní statistická analýza ukazuje, že se jedná o dvě značně rozdílné domény, které hovoří různými podjazyky. I když to nebývá v odborné literatuře zvykem, pokládáme zde za nutné konstatovat, že analýza korpusů právních textů upozorňuje na některé celospolečenské problémy, jež mají bezprostřední politické důsledky. Jestliže nejfrekventovanější slovo v korpusu právních textů je slovo zákon a jeho prostý slovní profil (Word Sketch) ukazuje, že nejfrekventovanější kolokace s genitivem jsou znění, změna, návrh, doplnění (zákona) a je subjektem sloves měnit, předchází před slovesy měnit, stanovit, doplňovat atd., svědčí to o nenormálním a nadměrném novelizování zákonů, které fakticky ohrožuje právní řád v ČR. Další podrobná kvantitativní analýza stavu českého právního řádu ukazuje, že jazyková analýza na základě poměrně jednoduchých prostředků naznačené situace potvrzuje. Lingvistická analýza v daném případě dokládá existenci nebezpečí spočívajícího v nepřehlednosti a nesrozumitelnosti vazeb mezi právními předpisy, jež obojí narušuje standardní využívání práva v ČR. Literatura Cvrček, F. et al. (2012). PES (Právní elektronický slovník Electronic Legal Dictionary), webová stránka (Web page). Kilgarriff, A., Rychlý, P., Smrž, P. & Tugwell, D. (2004). The Sketch Engine Proc. Euralex. Lorient, France, July, Mráková, E. & Pala, K. (2010). Legal Terms and Word Sketches: a Case Study, Proceedings of the RASLAN Workshop, Karlova Studánka, Pala, K., Rychlý, P. & Šmerk, P. (2012). Automatic Identication of Legal Terms in Czech Law Texts, Semantic Processing of Legal Texts, Springer, LNAI 6036, Rychlý, P. (2007). Manatee/Bonito A Modular Corpus Manager, Proceedings of the RASLAN Workshop, Karlova Studánka,

32 Václav Cvrček Filozofická fakulta Univerzity Karlovy Jiří Václavík Filozofická fakulta Univerzity Karlovy Kvantitativní pohled na kontextovou desambiguaci Myšlenkovým východiskem tohoto příspěvku je tvrzení, že izolované (dekontextualizované) jazykové jednotky jsou ze své podstatě vždy víceznačné či alespoň polyfunkční (Cvrček 2013). Až zapojením do kontextu dochází k jejich desambiguaci, čehož využívají jak nástroje na pravidlovou či stochastickou morfologickou analýzu (Hajič 2004, Petkevič 2006), tak lingvisté v popisu; např. zkoumání kolokací je ve světle tohoto pohledu hledáním typických kontextů, které zjednoznačňují inherentně víceznačné lexémy. Výzkum kvantitativních charakteristik kontextu by i proto měl být v centru zájmu komputačních i korpusových lingvistů. Příspěvek se pokusí kvantitativně uchopit vztah mezi délkou n-gramu, která aproximuje rozsah kontextové informace, a mírou jeho jednoznačnosti. U izolované jednotky najdeme příklady víceznačnosti vcelku snadno: řada lemmat má kupř. mnoho různých flektivních tvarů, skloňovaná i nesklonná lemmata pak nabývají v různých kontextech různých významů nebo stylových odstínů. Problematika víceznačnosti (a její desambiguace) se tedy týká všech jazykových rovin; prakticky je však v současnosti kvantitativní výzkum tohoto fenoménu možný pouze na rovinách přidržujících se formy, o což se pokusí i tento příspěvek. Na jednotky, jejichž rozsah překračuje hranici jednoho slova (n-gramy), je možné nahlížet jako na spojení zkoumaného slova a části jeho kontextu. Tím, že slovo vstupuje do sousedství s jiným, se víceznačnost celého spojení ve srovnání s izolovaným slovem snižuje. Např. bigram tvořený posloupností verba a substantiva odpovídá v rozsáhlém korpusu mnoha lexikálním realizacím (sekvencím lemmat) a stejnému nebo většímu počtu realizací lexikálně gramatických (sekvencím slovních tvarů). Přidáváním dalších jednotek k tomuto bigramu (např. vytvořením trigramu adverbium verbum substantivum nebo tetragramu adverbium sloveso substantivum pre- 32

33 pozice) omezujeme formální i lexikální variabilitu celé sekvence, až v určitém kroku dospějeme k takové délce zkoumané jednotky, že její realizace bude jednoznačná, tj. sekvenci značek slovních druhů bude odpovídat právě jedna posloupnost lemmat nebo tvarů (což svědčí o tom, že došlo k úplné desambiguaci). Otázkou samozřejmě zůstává, jak dlouhá musí taková posloupnost být, aby byla zcela zjednoznačněná. Pro každou délku n-gramu platí, že některé n-gramy budou zcela jednoznačné (budou mít právě jednu realizaci na zvolené rovině), jiné budou víceznačné. Předpokládáme přitom, že nejednoznačných n-gramů bude proporčně méně v seznamu n-gramů rozsáhlejších než v seznamu n-gramů kratších. Výzkum bude prováděn na korpusech ČNK řady SYN, a to konkrétně na seznamech n-gramů (konsekutivních n-tic slov) různé délky. Pro každý n-gram tvořený lemmaty bude v korpusu zjištěn počet jejich různých realizací na úrovni slovních tvarů, pro n-gramy tvořené značkami slovních druhů bude zjišťován počet různých realizací na úrovni posloupností lemmat i slovních tvarů atp. Analýza tak simuluje zablokování flektivního a lexikálního faktoru (ve smyslu článku Nebeský & Novák 1996). Lze přitom předpokládat, že výsledky zjištěné při těchto pokusech na formách a lexémech budou analogicky platit i pro desambiguaci sémantiky (ačkoli v oblasti významů je situace nesporně složitější). Abychom výsledky měření mohli zobecnit a úspěšně kvantifikovat vztah délky a ambiguity v závislosti na použitém typu desambiguace a celkové frekvenci sekvence v korpusu, je třeba přistoupit ke korekci, která zohledňuje omezený rozsah korpusu (jakkoli je dnes obrovský). O jistotě desambiguace kontextem můžeme mluvit pouze v případě, kdy víme, že jednotky v n-gramu obsažené, skutečně můžou různých formálních podob nabýt. Má-li zkoumaný n-gram (tvořený kupř. lemmaty) celkovou frekvenci 200 výskytů a víme-li, že všechna slova v něm obsažená jsou nesklonná, nelze takový příklad za desambiguaci (na rovině slovních tvarů) prohlásit. N-gram je za takových okolností formálně jednoznačný vždy (bez ohledu na délku). Pouze v případě, že jednotky v n-gramu mohou při své realizaci nabývat alespoň dvou různých variant (např. jedno lemma alespoň dvou různých tvarů) a to s pravděpodobností, která naznačuje, že při celkové frekvenci 200 výskytů bychom mohli očekávat alespoň dvě odlišné realizace, pak pokud je taková sekvence realizována jednoznačně můžeme skutečně hovořit o desambiguaci. 33

34 Výsledky takto zjištěné by mohly sloužit nejen k určení optimálního rozsahu kontextu nutného pro formální desambiguaci anotačních nástrojů, ale s určitou mírou tolerance by měly být zobecnitelné i na analýzu jakékoli polysémie/polyfunkčnosti, jíž se zabývá deskriptivní lingvistika na všech rovinách popisu. Literatura Cvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Lidové noviny. Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Praha: Karolinum Charles University Press. Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, Nebeský, L. & Novák, P. (1996). Větné faktory a jejich podíl na analýze věty. Slovo a slovesnost, 57,

35 Tomáš Čapka Ústav Českého národního korpusu FF UK Michal Křen Ústav Českého národního korpusu FF UK Petr Truneček Ústav Českého národního korpusu FF UK SynKorp: prostředí pro správu a zpracování textů Zveřejnění korpusu předchází často velké množství pro uživatele neviditelné práce, jejíž cíl můžeme charakterizovat jako kvalitně zpracované texty bez duplicit či jiných zjevných chyb. Zpracování textů do synchronních psaných korpusů řady SYN zahrnuje v zásadě tři hlavní kroky: akvizici (získání textu), jeho (víceméně automatickou) technickou konverzi do potřebného formátu a (převážně manuální) anotaci. Anotací je v tomto textu míněno pouze doplňování bibliografické informace spolu s evaluativním určováním typu textu a žánru; lemmatizace a morfologické značkování probíhají až v další fázi, jejíž popis není cílem příspěvku. Dosud se v ČNK pro konverzi a anotaci korpusů řady SYN používaly nástroje, které začaly vznikat už v polovině 90. let; tyto nástroje byly v dalších letech průběžně vylepšovány a doplňovány. Postupně tak vznikla sada nástrojů, jimiž byly zpracovány všechny dosud zveřejněné korpusy řady SYN (Hnátková et al. 2014). Jednotlivé nástroje však byly příliš specifické a málo flexibilní a především používaly dnes již překonané standardy (SGML, 8-bitové kódování češtiny). Průběžné modernizaci bránila komplexnost celé sady nástrojů a jejich vzájemná provázanost, stejně jako (možná paradoxně) jejich spolehlivost: jednotlivé komponenty byly odladěné a vhodně parametrizované, což zvyšovalo nároky na nový systém, stejně jako čas potřebný k jeho implementaci. Protože šlo o nástroje v mnoha ohledech zastaralé, začaly práce na kompletním přepracování celého procesu včetně adaptace či výměny všech výkonných skriptů. Kromě potřeby radikálních změn bylo zřejmé, že je nutné zachovat to, co se osvědčilo, a tím je především základní princip používat 35

36 cílené procedury aplikované v závislosti na zdroji dat spolu s průběžnými kontrolami jejich výstupů. Hlavní cíle vývoje nového prostředí SynKorp tedy byly: 1. integrace správy textů, anotace a konverze pro synchronní psané korpusy do jednotného systému; 2. přechod na nové standardy (XML, UTF-8); 3. preference etablovaných nástrojů (jsou-li pro daný účel dostupné); 4. modularita, tj. možnost snadné výměny komponent; 5. revize architektury databáze používané pro správu textů spojená s obohacením o další údaje; 6. anotace s externě definovatelnými závislostmi jednotlivých položek; 7. spouštění konverzí přes webové rozhraní zahrnující snadnou konfigurovatelnost (zapojování/vyřazování konkrétních nástrojů a jejich parametrizaci) a kvalitativní kontroly; 8. zrychlení celého procesu; 9. zachování kvality a spolehlivosti původních nástrojů; 10. využitelnost nové sady nástrojů také pro další účely. Postup zpracování textů implementovaný v SynKorpu je principiálně velice podobný původnímu, pouze je celý (od jednotlivých nástrojů až po uživatelské rozhraní) realizován jinými programy. Typický proces zpracování textu v SynKorpu probíhá v následujících čtyřech krocích. 1. Získaný text je spolu s dostupnými metadaty evidován v databázi. 2. Text je spolu s dalšími texty stejného formátu a/nebo ze stejného zdroje převeden z původního formátu (.txt,.doc,.pdf,.epub apod.) do jednotného XML meziformátu. Tento meziformát je založen na doporučeních TEI, umožňuje zachování řady dosud opomíjených jevů (řezy písma, nadpisy, poznámky pod čarou, verše, repliky v dramatech, přímá řeč) a zároveň je navržen tak, aby vyhovoval potřebám zpracování textů také v dalších sekcích ČNK. 3. Meziformát je anotován v komfortním webovém prostředí s možností volby mezi anotací manuální (typicky pro neperiodika) a dávkovou (periodika). 4. Nakonec probíhá čištění, které je možné provádět podle potřeby pouze částečně nebo vůbec: detekce a odstraňování cizojazyčných částí textu (Cavnar & Trenkle 1994), duplicit (Onion & Pomikálek 2011; jeho použití viz Benko 2013) a odstavců obsahujících velké množství čísel, tabulek nebo seznamů; obecně jde o části textu, jejichž přítomnost v kor- 36

Zobrazit více