Fonologický lexikální korpus češtiny a jeho analýza 1 Aleš Bičan, bican@phil.muni.cz Ústav pro jazyk český AV ČR, Veveří 97, Brno



Podobné dokumenty
KVANTITATIVNÍ ANALÝZA SLABIKY V ČESKÉM LEXIKONU

NĚKTERÉ OBVYKLÉ PROBLÉMY PŘI OSVOJOVÁNÍ ČESKÉHO HLÁSKOVÉHO SYSTÉMU CIZINCI (Ne)problematický vztah hláska foném grafém

Úvod do kvantitativní lingvistiky. Radek Čech

1. ÚVOD 2. GRAFICKÝ ZÁPIS ZVUKOVÉ PODOBY JAZYKA 2.1 Písmo 2.2 Pravopis 2.3 Fonetická transkripce

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Segmentální struktura čínské slabiky Segmental Structure of Mandarin Syllable

Okruhy pojmů ke zkoušce, podzim 2016

FONETIKA A FONOLOGIE I.

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Zvuková stránka jazyka

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Algoritmy a struktury neuropočítačů ASN P8b

Analýza veřejných zakázek v oblasti zdravotnictví

3. SYLABIFIKACE ÚVOD DO SLABIČNÉ TYPOLOGIE

Analýza staročeské morfologie v Excelu

RECENZE A REFERÁTY 247

Vzdělávací obsah vyučovacího předmětu

Šablona: I/2Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační gramotnosti

DIACHRONNÍ VÝVOJ JAZYKŮ JAKO ZMĚNA SYSTÉMU

Linguistica ONLINE. Added: January, 30th ISSN

Roviny analýzy jazyka. Fonetika

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

- analogická úprava podnět dal Josef Dobrovský, 1819, zavedl psaní i/y v koncovkách podle analogie (po c pouze i, po s, z i/y podle analogie)

Hodnocení stavu životního prostředí - květen 2016

Konsonanty. 1. úvod. 2. frikativy. - zúžením v místě artikulace vzniká sloupec vzduchu, směrodatná je délka předního tubusu

Český jazyk a literatura

GLOBÁLNÍ OTEPLOVÁNÍ A JEHO DOPADY

Máte rádi kávu? Statistický výzkum o množství vypité kávy napříč věkovým spektrem.

Milada Hirschová: Pragmatika v češtině. Olomouc, Univerzita Palackého v Olomouci s.

Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

Shoda u českých složených základních číslovek obsahujících číslovku jeden

ANALÝZA STRUKTURY A DIFERENCIACE MEZD ZAMĚSTNANCŮ EMPLOEE STRUCTURE ANALYSIS AND WAGE DIFFERENTIATION ANALYSIS

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Využití shlukové analýzy při vytváření typologie studentů

STÁRNOUCÍ POPULACE OSTRAVY SOUČASNÝ STAV A OČEKÁVANÝ VÝVOJ

Úvod do kvantitativní lingvistiky. Radek Čech

Protetické v- v pražské mluvě. seminář Příprava a realizace interdisciplinárního výzkumu

Český jazyk a literatura

Názor na zadlužení obyvatel a státu leden 2018

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

TULLIO DE MAURO: BIBLIOGRAFICKÉ A KRITICKÉ POZNÁMKY O FERDINANDOVI DE SAUSSUROVI

PROGRAM PŘEDŠKOLÁCKÉHO KROUŽKU 2016/2017

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Vyšší odborná škola, Střední odborná škola a Střední odborné učiliště Kopřivnice, příspěvková organizace. Střední odborná škola MATURITNÍ PRÁCE

Markéta Ziková ÚČJ FF MU, Brno. Člověk - jazyk - komunikace, České Budějovice,

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Dolování z textu. Martin Vítek

Systém českých hlásek

Vzdělávací obsah vyučovacího předmětu

Frekvence Korelační analýza Jazykové zákony

SOPHIA SLAVICA. Sborník prací věnovaných PhDr. Žofii Šarapatkové k osmdesátým narozeninám. Uspořádali Vít Boček a Bohumil Vykypěl

VYUŽITÍ SOFTWARU MATHEMATICA VE VÝUCE PŘEDMĚTU MATEMATIKA V EKONOMII 1

HTS Report. d2-r. d2-r. Jan Novák ID Datum administrace Standard 1. Vydání. Hogrefe Testcentrum, Praha

2.Fonetika jako věda (fonetika jako nauka, dělení fonetiky, fonetická transkripce slov praxe, diferenciace hlásek v promluvě)

Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D.

Kvantitativní fonotaktická analýza názvů českých obcí a jejich částí*

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

DeriNet: Lexikální databáze českých derivátů

K úkolům výzkumného záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století 1

Logický důsledek. Petr Kuchyňka

*Jihočeská univerzita v Českých Budějovicích, Zemědělská fakulta České Budějovice ** IDS Praha

Jednofaktorová analýza rozptylu

Výzkum komunikačního účinku propagace firmy GOTECH s.r.o. Eva Solařová

Metody analýzy dat I. Míry a metriky - pokračování

Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1

Linguistica ONLINE. Added: March 30th ISSN

MAL. one of the best corroborated law in linguistics

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Stonožka jak se z výsledků dozvědět co nejvíce

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Vliv věku a příjmu na výhodnost vstupu do důchodového spoření (II. pilíře)

Analýza dat s využitím MS Excel

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

1 Fonetika, fonologie, morfonologie

Statistické zpracování naměřených experimentálních dat za rok 2012

Popisná statistika kvantitativní veličiny

PENĚŽNÍ VYDÁNÍ NA DOPRAVU V ČR MONETARY TRANSPORT EXPENSES IN CZECH REPUBLIC

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Exportní výzkum DHL 21. vlna. Září 2012

MODELY ŘÍZENÍ ZÁSOB nákladově orientované modely poptávka pořizovací lhůta dodávky předstih objednávky deterministické stochastické

(1) IBRAHIM, R. PLECHÁČ, P. ŘÍHA, J. (2013). Úvod do teorie verše. Praha: Akropolis.

Univerzita Karlova v Praze Filozofická fakulta. Ústav bohemistických studií. Diplomová práce. Bc. Kateryna Pugachova

Juxtapozice z do v Arabštině

Bibliometrie v Národní technické knihovně ~ metody, zkušenosti, mise a vize. Mgr. Jakub Szarzec Národní technická knihovna

SYSTÉM PRO AUTOMATICKÉ OVĚŘOVÁNÍ ZNALOSTÍ

Hodnocení maturitní zkoušky v profilové části ve školním roce 2015/2016

Staroegyptská matematika. Hieratické matematické texty

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

MLUVNÍ KOMPONENTY V ČESKÉM ZNAKOVÉM JAZYCE BAKALÁŘSKÁ PRÁCE JIŘINA VLKOVÁ

Náhodné (statistické) chyby přímých měření

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

Centrální databáze nežádoucích událostí

Spokojenost se životem březen 2018

Analýza dat na PC I.

Tabulkový procesor. Základní rysy

Marketingový výzkum. Ing. Martina Ortová, Ph.D. Technická univerzita v Liberci. Projekt TU v Liberci

Transkript:

Fonologický lexikální korpus češtiny a jeho analýza 1 Aleš Bičan, bican@phil.muni.cz Ústav pro jazyk český AV ČR, Veveří 97, Brno Abstrakt: The paper describes the Phonological Lexical Corpus of Czech (http://www.ujc.cas.cz/phword) and presents its analysis. The corpus consists of 257,962 lexemes phonologically transcribed. Every lexeme contains information about its length (in terms of phonemes and syllables), its syllabification, and phonological properties of the constituent phonemes. Included is also information about the lexeme s part of speech and its record in various dictionaries. An analysis of the corpus is offered with a focus on the distribution of vocalic quantity. It is demonstrated that previous claims about the distribution of long vowels are not supported by the corpus. For example, their number per word is limited to the maximum of four. Finally, the structure of Czech words in terms of syllables is discussed. It is shown that Czech prefers open syllables and that the frequency of lexemes decreases with the number of closed syllables in them. Klíčová slova: fonologický korpus, fonologické slovo, fonotaktika, vokalická kvantita, slabika Cílem následujícího příspěvku je představit Fonologický lexikální korpus (FLK) a naznačit možnosti, jak jej lze využít pro zkoumání fonologie současné češtiny. Korpus podává nejen přesné údaje o frekvenci jednotlivých fonémů a jejich kombinací v českých lexémech (jako celku či v konkrétních slovních druzích), ale zároveň poskytuje nové poznatky o fonologické struktuře českých slov. V tomto příspěvku se zaměříme na výskyt krátkých a dlouhých vokálů uvnitř českých slov a na strukturu slov podle typu slabik. 1 Příspěvek vznikl za podpory grantu 13-15361P Problémy ve fonologii slova v češtině (GAČR). 1

Struktura korpusu FLK je lexikální slovní zásoba moderní češtiny převedená do fonologické transkripce. Korpus vychází ze seznamu lexémů v Databázi heslářů, 2 jež čítá více než 830 000 položek, avšak pro FLK byla prozatím vybrána jen slovní zásoba ze tří hlavních slovníků češtiny, 3 obohacena o další publikované slovníky. 4 Celkově korpus obsahuje 257 962 slov (počítáno jako typy, nikoliv tokeny). Jeho samostatnou součástí je několik subkorpusů se seznamem názvů českých obcí a jejich částí, seznamem nejčastějších křestních jmen a jejich domácích variant. Dalšími plánovanými subkorpusy budou české názvy živočichů a rostlin. Ke každému lexému je ve FLK přiřazena fonologická interpretace jeho fonetické realizace, která vychází z předpokládané ortoepické výslovnosti (viz VSČ). Fonologická transkripce byla v první fázi získána automatickým převodem z ortografické podoby slova. Český pravopis takový převod dovoluje, jelikož do značné míry odráží předpokládanou výslovnost. V další fázi bylo nutné výsledek ručně překontrolovat a opravit. Některé sekvence písmen totiž ve slovech domácího původu odpovídají jiné výslovnosti než ve slovech původu cizího (např. spojení t, d, n + i, srov. diktát divák). Jiné sekvence či jednotlivá písmena mohou odpovídat různé výslovnosti podle významu (např. x, srov. existence praxe), popř. podle morfologické struktury slova (např. kombinace ou na morfémových hranicích vs. uvnitř morfémů, srov. poučit louka). Tímto jsme získali daleko přesnější transkripci než autoři knihy Statistiky češtiny, kteří takové rozlišení a kontrolu při transkribování ČNK neprovedli (Václav Cvrček, osobní komunikace) a např. transkribovali ou vždy stejným způsobem. 2 http://lexiko.ujc.cas.cz/heslare/ 3 Slovník spisovné češtiny pro školu a veřejnost (2003), Slovník spisovného jazyka českého I IV (1960 1971), Příruční slovník jazyka českého I VIII (1935 1957). 4 Co v slovnících nenajdete: novinky v současné slovní zásobě (1994), Slovesa pro praxi. Valenční slovník nejčastějších českých sloves (1997), Nová slova v češtině. Slovník neologizmů 1 (1998), Nová slova v češtině. Slovník neologizmů 2 (2004), Slovník slovesných, substantivních a adjektivních vazeb a spojení (2005), Frekvenční slovník češtiny (2010). 2

Data jsou uložena ve standardu Unicode ve formátu CSV (Comma-Separated Value). Takové soubory lze lehce zpracovat různými editory (např. Microsoft Excel či CSV Easy), které umožňují data třídit, vyhledávat v nich a vyhodnocovat. Každá položka, odpovídající jednomu řádku v tabulce, obsahuje ortografickou podobu lexému, jeho fonologickou transkripci, soubor fonologických vlastností a informaci o slovním druhu a výskytu ve slovnících. Jak již bylo řečeno, fonologická podoba lexému vychází z jeho pravopisného zápisu. Mnoho slov, především cizího původu, má ovšem různé způsoby zápisu, např. filosofie filozofie. Proto korpus obsahuje ve fonologické transkripci mnoho duplicit, avšak při jeho vyhodnocování je to řešeno rozlišováním mezi tokeny a typy. Jako token se /filozofije/ objevuje dvakrát, jako typ jen jednou. Fonologická transkripce hesla existuje ve dvou podobách. Základní podobou je posloupnost fonémů, která je rozdělena do fonologických slov, 5 popř. i přízvukových taktů, pokud heslo odpovídá více slovům. Fonologická transkripce je vizualizace fonologické analýzy daných jazykových faktů a jako každá analýza se řídí principy a metodologií vycházející z určité teorie. Tou je pro FLK teorie funkční fonologie formulovaná členy Pražského lingvistického kroužku a dále rozvinutá André Martinetem (Martinet, 2011) a Janem Mulderem (Mulder, 1989). Detaily jsou podrobně popsány v Bičan (2013). Samostatný sloupec u každého hesla představuje fonologická transkripce, v níž je naznačeno, jak slova slabikovat. Poněvadž neexistuje shoda na univerzálním slabikování slov, slabikování se řídí pravidly, která jsou uložena v externím souboru a která je možné měnit. Prozatím byla s jistými modifikacemi využita pravidla navržená Kučerou a Monroem (1968). Jsou to stejná pravidla, kterými se řídili pozdější lingvisté (např. Ludvíková, 1985). 5 K pojmu fonologické slovo v češtině viz Bičan, 2014. 3

Z fonologické transkripce jsou odvozeny fonologické vlastnosti, které lze chápat jako analogii gramatické anotace v nefonologických korpusech. Kromě informace o délce slova podle fonémů a slabik je u každého hesla naznačen tzv. konsonanticko-vokalický vzorec. 6 Každý foném je totiž buď neslabičný (tj. konsonant, C), nebo slabičný (tj. vokál nebo slabičná sonanta /r/ a /l/, V), takže např. tvary /voda/ a /vlna/ mají oba vzorec CVCV. Dále heslo obsahuje informace o distinktivních rysech fonémů, z nichž se skládá. U konsonantů je to místo a způsob artikulace a znělost, u vokálů pak horizontální a vertikální poloha a kvantita. Podle uvedených vlastností je možné ve FLK vyhledávat nebo jej třídit, takže lze např. zjistit, zda existují slova o pěti slabikách obsahující znělou velární okluzívu, slabičné /r/ a vysoké přední vokály. Dalším oddílem u každého hesla je i informace o slovních druzích konkrétních hesel. Prozatím tuto informaci obsahují jen hesla ze SSČ, dalším heslům je postupně přidávána. I podle ní lze korpus třídit a zjišťovat, zda se fonologická struktura slovních druhů navzájem liší. Z důvodu omezeného prostoru se touto otázkou nebudeme dále zabývat, avšak poznamenejme, že rozdíly mezi slovními druhy skutečně existují, kupř. ve slabičné struktuře či celkové struktuře slova (více viz Bičan, ms. 1). Konečně posledním oddílem každého hesla je informace o slovnících, ve kterých se dané heslo objevuje, což nabízí další možnost, jak slova srovnávat. Tak lze např. zjistit, zda se fonologická struktura apelativ liší od struktury proprií (srov. Bičan, ms. 2). FLK vzniká v rámci grantu, v současnosti stále řešeného, a bude v celé své šíři zveřejněn po jeho skončení v roce 2016. Pro potřeby ostatních lingvistů je však prozatím nabídnuta část korpusu se slovní zásobou ze Slovníku spisovné češtiny, jež čítá něco málo přes 45 000 položek. 7 6 S konsonanticko-vokalickými vzorci pracovali také Bartoň et al. (2009), avšak jejich transkripce byla fonetická, tudíž všechna slova začínala na konsonant. Ráz, který se vyskytuje na začátku slov před vokálem, je také konsonant. Fonologicky však ráz status fonému nemá. 7 Viz http://www.ujc.cas.cz/phword/. Tam i detailní analýza této slovní zásoby. 4

Analýza korpusu O užitečnosti korpusů pro analýzu a pochopení jazyka nelze pochybovat. Ačkoliv je lingvisté využívají především pro gramatickou analýzu, korpusy mají své opodstatnění i pro zkoumání zvukové stránky jazyka. Svědčí o tom četné fonetické korpusy (Durand et al., 2014), pro češtinu např. Pražský fonetický korpus (Skarnitzl, 2010), nebo korpusy mluveného jazyka (pro češtinu jich existuje několik). Na rozdíl od fonetických korpusů, které se využívají pro popis skutečných zvukových realizací, je záměrem fonologických korpusů podat informaci o využití zvukových prostředků v daném jazyce a o jeho zvukové stavbě. Fonologické korpusy jsou vzácnější a pro češtinu nebyl dosud žádný zveřejněn, ačkoliv jich předchozí lingvisté zřejmě využívali (Mathesius, 1929, Vachek, 1940, Kučera Monroe, 1968, Trnka, 1966, Ludvíková, 1985). Tyto popisy byly pochopitelně omezeny technickými možnostmi dané doby, a tudíž vycházely jen z omezeného množství dat. Navíc jejich zdrojem byly zpravidla skutečné texty, nikoliv celková slovní zásoba. Fonologické struktuře české slovní zásoby se dosud nikdo nevěnoval, přestože pro jiné jazyky existují fonologické lexikální korpusy (srpv- např. Frisch, 2012) a stejně tak vznikají i práce, které srovnávají fonologické vlastnosti lexikální slovní zásoby různých jazyků (např. Rousset, 2004). V prvé řadě lze z FLK získat informaci o zastoupení jednotlivých fonémů a jejich tříd, a to jak v celkovém korpusu, tak v jeho částech (např. u čtyřslabičných slov či substantiv, popř. proprií, viz výše). Výsledky se shodují s předchozími statistickými výzkumy (viz Ludvíková, 1985). Znamená to, že distribuce fonémů v konkrétních textech je shodná s distribucí fonémů v lexikonu a jedná se tedy o stabilní vlastnosti češtiny. Z konsonantických tříd jsou podle způsobu artikulace nejčastější okluzívy, pak frikativy, sonanty a nejméně časté jsou nazály. Podle místa artikulace jsou nejčastější alveoláry, pak labiály, pak izolované fonémy /ř/, /j/, /r/ a /l/, dále palatály a nejméně časté jsou veláry. Neznělé konsonanty 5

převažují nad znělými. U vokálů jsou podle horizontální polohy nejčastější přední vokály, pak zadní vokály a nejméně časté jsou vokály střední. Podle vertikální polohy jsou nejčastější středové, pak vysoké a nejméně časté jsou nízké vokály. Zřetelně převažují krátké vokály nad dlouhými (viz dále). Poměr mezi neslabičnými a slabičnými fonémy je 60,1 % ku 39,9 %. Maximální fonémická délka slov je 27 fonémů a maximální slabičná délka je 11 slabik. Obě tyto délky má slovo pseudokonstitucionalismus, což je spíše výjimka než pravidlo. Průměrná fonémická délka slov je totiž 9,24 fonémů a průměrná slabičná délka je 3,69 slabik. Ačkoliv z matematického hlediska neplatí, že by slova o uvedených průměrných délkách musela být nejčastější, v češtině tomu tak skutečně je. Graf 1 uvádí rozložení počtu slov, která obsahují určitý počet fonémů. Je zjevné, že čím je ve slově více nebo méně fonémů než 9, tím jsou taková slova méně častá. Četnost slov se zmenšuje pravidelně, tj. nejčastější jsou slova s devíti fonémy a slov, která jsou o jeden foném kratší, je srovnatelný počet jako slov, která jsou o jeden foném delší. Graf 2 potom uvádí rozložení výskytu slov podle počtu slabik. Nejčastější jsou slova o čtyřech slabikách, avšak slova o třech slabikách jsou také hodně zastoupena. 80 % všech slov obsahuje tři až pět slabik. Opět platí, že se zvyšujícím se nebo snižujícím se počtem slabik klesá i četnost takových slov. 6

Graf 1: Rozložení výskytu slov podle počtu fonémů Graf 2: Rozložení výskytu slov podle počtu slabik Pravděpodobně to nejužitečnější, co FLK nabízí, jsou údaje o kombinovatelnosti fonémů. Získáme nejen přesný seznam všech doložených kombinací různých 7

druhů (např. kombinace dvou konsonantů, dvou vokálů či kombinace vokálů s konsonanty), ale též jejich procentuální zastoupení. Takto podrobné údaje nejsou součástí žádného předchozího popisu češtiny, ačkoliv kombinace na začátku a konci slov jsme popsali již v Bičan (2013). Podívejme se podrobněji na jeden typ kombinací, a to kombinací krátkých a dlouhých vokálů uvnitř slova. V minulosti někteří lingvisté přednesli myšlenku, že distribuce vokalické délky není v češtině náhodná, ale že se naopak řídí určitými pravidly. Trnka (1966) kupříkladu tvrdil, že dlouhé vokály nejsou dovoleny před některými konsonantickými kombinacemi. Jiní naopak tvrdili, že výskyt dlouhých vokálů není v českých slovech nijak omezen, tj. že česká slova mohou obsahovat jakýkoliv počet dlouhých vokálů (např. Horálek, 1986, s. 128 129). Stejný názor se traduje ve versologii (např. Ibrahim et al., 2013, s. 14). Tyto a podobné hypotézy lze testovat pomocí FLK. Vokály se mohou objevovat mezi mediálními a finálními konsonantickými kombinacemi, tj. uprostřed a na konci slov. Z důvodu omezeného místa se zaměříme jen na mediální kombinace, ačkoliv podobné závěry platí i pro finální kombinace. Mediálních kombinací je doloženo 1 646 různých typů. 8 Před 38 z nich (tj. 2,25 %) se neobjevuje žádný krátký vokál. Téměř polovina kombinací, před nimiž nejsou krátké vokály doloženy, je ve FLK zastoupena jen jednou. Můžeme proto téměř z jistotou tvrdit, že se krátké vokály mohou kombinovat s jakoukoliv konsonantickou kombinací uprostřed slova. Oproti tomu dlouhé vokály 9 nenajdeme před 1 187 mediálními konsonantickými kombinacemi (tj. 72,11 %). Mohli bychom tedy usuzovat, že je výskyt dlouhých vokálů před konsonantickými kombinacemi skutečně nějak systematicky omezen. Nicméně podrobnějším zkoumáním FLK se nám nepodařilo zjistit, že 8 Typem myslíme kombinaci stejných konsonantů, tzn. že slova postrašit a beztrestně obsahují stejný typ kombinace, tj. /Str/ (/S/ je archifoném). 9 Zde a v dalším výkladu budeme pod dlouhé vokály zahrnovat i diftongy. 8

by to byly právě konsonantické kombinace, které by výskyt dlouhých vokálů omezovaly. Nezjistili jsme žádnou zjevnou korelaci ani mezi vokalickou délkou a počtem konsonantů v kombinaci, ani mezi vokalickou délkou a kvalitou a uspořádáním konsonantů v kombinaci. Znamená to, že na výskyt dlouhých vokálů nemá vliv, zda stojí před dvěma nebo více konsonanty, a stejně tak na ně nemá výraznější vliv, zda stojí před kombinacemi dvou obstruentů (např. /St/, /Pk/) či kombinacemi sonanty a obstruentu (např. /nd/, /rt/). Důvod absence dlouhých vokálů před mnohými konsonantickými kombinacemi musíme hledat jinde a zdá se, že tato absence je prostě důsledkem omezeného výskytu dlouhých vokálů oproti vokálům krátkým. Celkově je ve FLK 80,3 % krátkých vokálů a 19,7 % dlouhých vokálů. Před konsonantickými kombinacemi je procentuální poměr mezi nimi 85,76 % ku 14,24 %, což je srovnatelné s poměrem před jednoduchým konsonantem uprostřed slov (86,72 % ku 13,28 %). 10 Přesto ale nelze tvrdit, že by distribuce vokalické délky byla zcela libovolná, jak se v popisech češtiny tvrdí (viz výše). Rozhodně neplatí tradovaná představa, že české slovo může obsahovat jakýkoliv počet dlouhých vokálů. Data z FLK ukazují, že jejich počet je omezen. Zatímco česká slova mohou obsahovat tolik krátkých vokálů, kolik je ve slově slabik (a navíc se zvyšujícím se počtem slabik se zvyšuje i jejich procentuální zastoupení), dlouhé vokály nikdy nepřesahují počtu čtyř bez ohledu na počet slabik ve slově. Tab. 1 tento fakt dokládá. Hodnoty jsou uvedeny v procentech; 11 první řádek (S2 S11) označuje počet slabik ve slově a první sloupec (D0 D5+) počet dlouhých vokálů ve slově (D0 = žádný dlouhý, 12 D5+ slovo obsahuje pět a více dlouhých vokálů). 10 Celkové vyšší procentuální zastoupení dlouhých vokálů je dáno jejich větším výskytem v koncových slabikách slov. Tam je poměr mezi krátkými a dlouhými vokály 63,9 % ku 36,1 %. 11 Pro počty jednotlivých slov podle počtu slabik viz graf 2. 12 Tj. slovo obsahuje buď jen krátké vokály, nebo krátké vokály a slabičné sonanty /r/ a /l/. 9

S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 D0 53,71 41,94 38,64 41,59 42,62 44,98 42,97 34,23 29,41 100 D1 42,31 45,73 45,06 41,07 40,82 37,19 37,97 38,26 29,41 0 D2 3,98 11,86 15,07 15,40 14,44 15,29 16,25 22,82 35,29 0 D3 0,47 1,20 1,87 1,98 2,47 2,66 4,70 5,88 0 D4 0,02 0,06 0,13 0,08 0,16 0 0 0 D5+ 0 0 0 0 0 0 0 Tab. 1: Výskyt dlouhých vokálů ve slově podle počtu slabik (v procentech) Z tabulky je patrno několik skutečností. Za prvé, nejsou doložena slova s pěti a více dlouhými vokály. Za druhé, nejčastější jsou slova s žádným nebo jedním krátkým vokálem. Za třetí, se vzrůstajícím počtem dlouhým vokálů klesá i četnost takových slov. Za čtvrté, bez ohledu na počet slabik ve slově je poměr mezi slovy o určitém množství dlouhých vokálů stabilní. Průměrně je slov se všemi krátkými vokály 45,61 %, slov s jedním dlouhým vokálem 36,14 %, slov se dvěma dlouhými vokály 15,89 %, slov se třemi dlouhými vokály 2,55 % a konečně slov s čtyřmi dlouhými vokály 0,09 %. Z právě řečeného vyplývá, že se čeština brání shlukům dlouhých vokálů ve slovech. Důvody mohou být jak historické, tak fonetické. Jak poznamenává Sukač (2011), na češtinu v minulosti zřejmě působil podobný rytmický zákon jako ve slovenštině, byť nikoliv v takovém rozsahu a tak pravidelně. Z fonetického hlediska jsou dlouhé vokály náročnější na výslovnost (a čas) a v delších slovech může být obtížnější je rozlišit od krátkých, poněvadž se výslovnost často redukuje. Jelikož FLK obsahuje informace o slabikování slov, zmiňme se na závěr o struktuře slov podle typů slabik. Nejdříve se podívejme na četnost různých slabičných typů. Jak dokládá tab. 2 (kde C = konsonant a V = vokál či slabičná sonanta), čeština preferuje otevřené slabiky a slabiky začínající na jeden konsonant. Průsečíkem obou možností je CV, což je nejčastěji doložený slabičný typ v češtině. Zde se data z FLK shodují s předcházejícími výzkumy (Ludvíková, 10

1985), které zároveň doplňují. Výsledky totiž jasně ukazují, že ačkoliv čeština dovoluje až pět konsonantů na začátku slabiky (srov. /FSkvjeT/ vzkvět) a až tři konsonanty na konci slabiky (srov. /zāpst/ zábst), nejsou doloženy slabiky, v nichž by bylo více než šest konsonantů (FLK obsahuje 951 377 slabik). Konec slabiky -Ø -C -CC -CCC Celkem Ø- V VC VCC VCCC 2,50 1,21 0,07 0,002 3,78 C- CV CVC CVCC CVCCC 55,01 13,89 3,55 0,07 72,53 CC- CCV CCVC CCVCC CCVCCC 16,88 4,33 0,81 0,02 22,04 CCC- CCCV CCCVC CCCVCC CCCVCCC 1,22 0,33 0,05 0,002 1,60 CCCC- CCCCV CCCCVC CCCCVCC 0,05 0,02 < 0,001 0,06 CCCCC- CCCCCV CCCCCVC < 0,001 < 0,001 < 0,002 Celkem 75,66 19,77 4,48 0,09 100 Tab. 2: Doložené typy slabik v češtině a jejich procentuální zastoupení Začátek slabiky Z korpusu je ovšem patrná další tendence, která také dosud ušla pozornosti lingvistů: Bez ohledu na počet slabik ve slově jsou nejčastější ta slova, která obsahují jednu zavřenou slabiku. Na druhém místě jsou pak slova, která neobsahují žádnou zavřenou slabiku a dále platí, že se vzrůstajícím počtem zavřených slabik klesá i frekvence takových slov. Jak ilustruje tab. 3, tato hierarchie je stabilní bez ohledu na počet slabik ve slově. Čísla opět odpovídají procentům, S2 S11 označuje počet slabik ve slově a Z0 Z6+ označuje počet zavřených slabik ve slově. Kromě uvedené tendence je z tabulky zřejmé, že není doloženo slovo, v němž by bylo šest a více zavřených slabik. S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 Z0 20,29 27,31 37,16 39,62 32,30 30,65 26,41 26,85 17,65 0 Z1 60,65 52,31 44,61 41,73 42,81 38,48 38,13 34,23 52,94 0 Z2 19,07 19,02 16,00 15,42 19,54 22,02 24,53 29,53 29,41 100 Z3 1,36 2,16 2,99 4,71 7,19 8,91 6,71 0 0 11

Z4 0,08 0,23 0,60 1,52 1,56 2,01 0 0 Z5 0,01 0,04 0,15 0,47 0,67 0 0 Z6+ 0 0 0 0 0 0 Tab. 3: Výskyt zavřených slabik ve slově podle počtu slabik (v procentech) V omezeném prostoru jsme mohli naznačit jen některé možnosti, které FLK nabízí. Jelikož obsahuje velké množství dat, které lze poměrně jednoduše kvantitativně vyhodnotit, jeho následná podrobná analýza umožní podat podrobný obraz o fonologické struktuře češtiny. Dílčí výsledky již existují (Bičan ms. 1, ms. 2). Musíme samozřejmě mít na paměti, že FLK nabízí jen jednu část obrazu, a to jen fonologickou strukturu lexémů. Neříká už nic o struktuře slov v konkrétních textech, kde se objevují různé morfologické tvary slov, jež v našem korpusu zaznamenané nejsou. Proto je v budoucnu nutné tento korpus doplnit fonologickým korpusem skutečných textů češtiny, a to nejlépe podle textů různého stylu. Literatura BARTOŇ, T. et al. (2009): Statistiky češtiny. Praha: Nakladatelství Lidové noviny Ústav Českého národního korpusu. BIČAN, A. (2013): Phonotactics of Czech. Frankfurt am Main: Peter Lang. BIČAN, A. (2014): K pojmu fonologické slovo v češtině. In V. Boček B. Vykypěl (eds.), Sophia Slavica. Brno: Tribun, s. 13 23. BIČAN, A. (ms. 1): Corpus-based Analysis of the Czech Syllable. Pre-print k dispozici zde: <http://www.ujc.cas.cz/phword>. BIČAN, A. (ms. 2): Kvantitativní fonologická analýza názvů českých obcí a jejich částí. Pre-print k dispozici zde: <http://www.ujc.cas.cz/phword>. DATABÁZE HESLÁŘŮ. Ústav pro jazyk český AV ČR, <http://lexiko.ujc.cas.cz/heslare/>. DURAND, J. et al. (eds.) (2014): The Oxford Handbook of Corpus Phonology. Oxford University Press. FLK = Fonologický lexikální korpus. Ústav pro jazyk český AV ČR, <http://www.ujc.cas.cz/phword>. 12

FRISCH, S. A. (2012): Phonotactic Patterns in Lexical Corpora. In: A. C. COHN et al. (eds.), The Oxford Handbook of Laboratory Phonology. Oxford, s. 458 470. HORÁLEK, K. (1986): Fonologie spisovné češtiny. In Mluvnice češtiny 1. Praha: Academia, s. 122 156. IBRAHIM, R. et al. (2013): Úvod do teorie verše. Praha: Akropolis. KUČERA, H. MONROE, G. K. (1968): A Comparative Quantitative Phonology of Russian, Czech, and German. New York: Elsevier. LUDVÍKOVÁ, M. (1995): Kvantitativní charakteristiky českých fonémů. In: M. TĚŠITELOVÁ (ed.), Kvantitativní charakteristiky současné češtiny. Praha, Academia, s. 11 28. MARTINET, A. (2011): Éléments de linguistique générale. 5. vydání. Paris: Armand Colin. MATHESIUS, V. (1929): La structure phonologique du lexique du tchèque moderne. Travaux du Cercle Linguistique de Prague, 1, s. 67 84. MULDER, J. (1989): Foundations of Axiomatic Linguistics. Berlin New York: Mouton de Gruyter. ROUSSET, I. (2004): Structures syllabiques et lexicales des langues du monde (Ph.D. práce), <https://tel.archives-ouvertes.fr/tel-00250154>. SKARNITZL, R. (2010): Prague Phonetic Corpus: Status Report. Phonetica Pragensia, 12, s. 65 67. SUKAČ, R. (2013): Fish and its Fisherman. Paradigmatic and Derivative Length in Czech. Zeitschrift für Slawistik, 58, 72 101. TRNKA, B. (1966): The Distribution of Vowel Length and its Frequency in Czech. Prague Studies in Mathematical Linguistics, 1, s. 11 16. VACHEK, J. (1940): Poznámky k fonologii českého lexika. Listy filologické, 67, s. 395 402. VSČ = Výslovnost spisovné češtiny. Praha: Academia, 1968, 13