Abstrakty. korpusová lingvistika Praha let mapování češtiny

Rozměr: px
Začít zobrazení ze stránky:

Download "Abstrakty. korpusová lingvistika Praha let mapování češtiny"

Transkript

1 korpusová lingvistika Praha let mapování češtiny Abstrakty IV. pražská konference korpusové lingvistiky pořádaná u příležitosti 20. výročí založení Českého národního korpusu září 2014

2 Tato publikace vznikla v rámci Programu rozvoje vědních oblastí na Univerzitě Karlově č. P11 Český národní korpus, podprogram Český národní korpus.

3 Obsah Plenární přednášky Paul Baker Counting all the cherries: using corpora to analyse discourses Cyril Belica Kookurenčná analýza a jazykové štruktúry Neil Bermel Mapování jazykové variability ve světle korpusové frekvence a odpovědí rodilých mluvčích Karel Kučera Dvacet let poté Konferenční příspěvky Lucie Benešová, Michal Křen, Martina Waclawičová Korpus spontánní mluvené češtiny ORAL Vladimír Benko Je webový korpus horší? Tilman Berger, Stefan Heck Performativní užívání dokonavého prézentu v češtině ve srovnání s jinými slovanskými jazyky Aleš Bičan Fonologický lexikální korpus češtiny a jeho analýza František Cvrček, Karel Pala, Pavel Rychlý Chování slov a jejich kolokací v jazyce právních subdomén Václav Cvrček, Jiří Václavík Kvantitativní pohled na kontextovou desambiguaci

4 Tomáš Čapka, Michal Křen, Petr Truneček SynKorp: prostředí pro správu a zpracování textů Radek Čech, Emmerich Kelih, Ján Mačutek Vliv sémantiky na vlastnosti pádové distribuce podstatných jmen v češtině František Čermák Kolokace a kolokabilita synsémantik: Substituty a interjekce Alena M. Černá Staročeské lexémy nemoc, neduh, nedostatek jejich sémantická a gramatická charakteristika Lenka Fárová Uvozovací slovesa v překladech typologicky rozdílných jazyků Jarmila Fictumová, Jiří Rambousek Jak se mění zrádná slova? Masako Fidler, Václav Cvrček Prezidentské projevy: Analýza tematické výstavby a řečových strategií pomocí KWords Markus Giger Subjektová rezultativa v češtině ve srovnání s ruštinou Hana Goláňová, Marie Kopřivová Kartografické a geografické zpracování dat z mluvených korpusů Zbigniew Greń Formální variabilita nejnovějších anglicismů v češtině, polštině a slovenštině (na korpusovém materiálu) Milena Hebal-Jezierska Obraz(y) Američana a Angličana v korpusech českého, slovenského a polského jazyka Jiří Hedánek GLOSSA, metajazyk pro popis zvukové stránky textu

5 Zdeňka Hladká Užití korpusu korespondenčních textů KSK111 k sledování dynamiky české slovní zásoby ve 20. století Jaroslava Hlaváčová Vyjádření intenzity slovesného děje pomocí předpon Milena Hnátková Automatická identifikace ustálených kolokací v diachronních textech Jana Hoffmannová, Olga Richterová Si představ, se nediv, ti to ukážu Jednoslabičné začátky syntaktických segmentů v mluvené češtině Andrzej Charciarek Národní korpusy a velké překladové polsko-české a česko-polské slovníky Pavla Chejnová Využití korpusu dětské řeči k popisu akvizice morfologických kategorií Lucie Chlumská Je čeština v překladech jiná? Lucie Jílková Vy jste mi z té otázky utekl! (analýza jednoho způsobu vymáhání odpovědi, s využitím korpusových dokladů) Karel Jirásek Identifikace typologických rozdílů mezi češtinou a chorvatštinou za pomoci paralelního korpusu InterCorp Elżbieta Kaczmarska, Alexandr Rosen, Jirka Hana Jak najít optimální překlad polysémních sloves porovnání metod automatické analýzy paralelních textů Tomáš Káňa Česká nesubstantivní deminutiva a jejich protějšky v němčině a angličtině

6 Adam Kilgarriff, Pavel Rychlý, Miloš Jakubíček, Vojtěch Kovář, Vít Suchomel, Jan Bušta, Vít Baisa, Jan Michelfeit Multilingual data processing in Sketch Engine Petra Klimešová, Zuzana Komrsková, Marie Kopřivová, David Lukeš Co že to je? K tvaru to v mluvených korpusech ČNK Ivana Kolářová Slovesa odvozená od adverbií jako periferie slovotvorného systému (na materiále Českého národního korpusu) Veronika Kolářová Preference v souvýskytu aktantů u českých substantiv mluvení Pavel Kosek Vývoj slovosledu kondicionálového auxiliáru v češtině Dominika Kováříková Slovní druhy v mluvené a psané češtině Boris Lehečka Obsah a značkování diachronního korpusu češtiny Eva Lehečková Konstrukční specifika dvou sémantických typů obouvidových sloves v češtině Martina Lev Voľné datívy a DcI-konštrukcie. Distribučná štúdia na materiáli podkorpusu českého synchrónneho korpusu SYN2010 a podkorpusu ruského osnovného korpusu Michaela Lišková, Helena Pernicová Pojmenování barev a jejich odstínů v Akademickém slovníku současné češtiny David Lukeš Perspektivy fonetické anotace v korpusech mluveného jazyka

7 Jiří Mácha Ke kategorizaci plurálií a singulárií tantum kvantitativní analýza sufixů Markéta Malá Překladové protějšky jako ukazatele významu: čeština a angličtina v paralelním korpusu InterCorp Michaela Martinková, Martin Šimon Enklitická partikule pak: korpusová studie Tereza Mašková, Vojtěch Ripka Korpus jazyka StB Vít Michalec, Vojtěch Veselý K souborovému a kolektivně-látkovému významu substantiv s převahou plurálových tvarů Aksana Mikalayenka Homonymní příslovce a předložky a problematika jejich disambiguace v Českém národním korpusu Květoslava Musilová Slovakismy v současné češtině Petr Nádeníček Různá pojetí slovotvorné konverze ve světle národních korpusů slovanských a germánských jazyků Olga Navrátilová Slovosled nominální fráze ve staré češtině Renata Novotná Antropomorfický princip u konkrétních neživotných substantiv: názvy nebeských těles Klára Osolsobě Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou) í]cí a jejich morfologické značkování)

8 Hana Peloušková O nepříjemných pocitech. Specifické konstrukce s několika německými slovesy a jejich protějšky v češtině Vladimír Petkevič Slovnědruhová a morfologická homonymie, homografie a homofonie v současné češtině Žaneta Pixová Čeština soudních rozhodnutí ve světle korpusu Petr Plecháč Korpus českého verše a možnosti jeho využití Alena Polická K možnostem zkoumání (identitární) neologie v ČNK a IC Alena Poncarová Sestavování korpusu pro syntaktickou anotaci práce na celý život? Petr Pořízka Olomoucký mluvený korpus pilotní verze Olga Richterová, Anna Čermáková Jak malá je malá místnůstka? Korpusová studie deminutivnosti se zaměřením na sémantické aspekty Alexandr Rosen, Michala Adamová, Martin Vavřín Extrakce lexikálních ekvivalentů z paralelního korpusu Hana Skoumalová, Jiří Znamenáček, Vladimír Petkevič Využití valenčních slovníků při tvorbě českého treebanku Tess Slavíčková Investigating nepřizpůsobivý (inadaptable) as a keyword in critical analysis of Czech press reports on Roma Jindra Světlá Uvádění stupňovaných tvarů u adjektiv a adverbií v novém všeobecném výkladovém slovníku češtiny

9 Karel Šebesta Využití speciálních korpusů Českého národního korpusu pro výzkum jazykového vývoje žáků Magda Ševčíková Přípona -ství/-ctví v současné češtině (korpus jako zdroj dat pro zkoumání slovotvorby) Mária Šimková Predložky s časovým významom v slovenčine a v češtine Jana Šindlerová Alternace aktoru a instrumentu v paralelním česko-anglickém korpusu Svatava Škodová, Michaela Kuchařová, Václav Lábus, Jasňa Pacovská Reflexe proměn užívání češtiny na základě mluveného korpusu zpravodajského vysílání Českého rozhlasu v letech Michal Škrabal, Lubomír Ďuroška Cizojazyčné protějšky slov druh a soudruh: situace v lotyštině a slovinštině Jitka Šonková Rozdíly v rozsahu slovní zásoby v Pražském mluveném korpusu: Kdo má bohatší slovník junioři, senioři, muži nebo ženy? Jovanka Šotolová, Olga Nádvorníková Za hranice věty Barbora Štindlová, Veronika Čurdová, David Beneš Merlin: Multilingvální platforma pro evropské referenční úrovně Tamás Tölgyesi Německé přejímky v běžně mluvené češtině na základě korpusu ORAL Marie Vachková Paradigmatika a syntagmatika v překladovém slovníku

10 Kateřina Veselovská Sestry manžel byl kamaráda bratr ke slovoslednému postavení neshodného atributu vyjádřeného substantivem v genitivu Pavel Vondřička InterText: upečte si vlastní paralelní korpus Uliana Yazhinova Syntactic reduplication in Czech and Slovak (corpus-based approach) Anna Zitová, Martin Stluka K některým morfologickým zvláštnostem starších českých textů (především 19. století) Richard Změlík Možnosti jazykového korpusu pro literárněvědnou analýzu na příkladu autorského slovníku Jana Čepa

11 Plenární přednášky

12 Paul Baker Dapartment of Linguistics and English Language, Lancaster University Counting all the cherries: using corpora to analyse discourses Corpora are (usually) very large collections of electronically stored, naturally occurring texts that are aimed to be representative of a particular language variety. They are analysed with the help of computer software which use a combination of statistical tests and ways of presenting data that enable salient patterns of language to be identified. Partington et al (2013: 11) argue that corpus approaches can thus help to uncover non-obvious meaning. In this talk I examine how corpus techniques can be used to analyse discourses or ways of making sense of the world. As Fairclough (1989: 54) points out A single text on its own is quite insignificant: the effects of media power are cumulative, working through the repetition of particular ways of handling causality and agency, particular ways of positioning the reader, and so forth, so it is through the repetition of language that we are able to obtain evidence for stable discourses in societies. Using examples from my own research, I discuss techniques based around comparing frequencies, collocation, keywords, concordances and dispersion data in order to demonstrate how this method of analysis can be implemented. I employ data from tabloid news, parliamentary debates, personal advertisements and spoken conversations in order to ask what can corpora tell us about discourse that we wouldn t necessarily have gained from introspection or qualitative analysis of a small number of texts? The talk ends with a discussion of some of the potential pitfalls of this approach. References Fairclough, N. (1989). Language and Power. London: Longman. Partington, A., Dugiud, A. & Taylor, Ch. (2013). Patterns and Meanings in Discourse. Theory and practice in corpus-assisted discourse studies (CADS). Amsterdam: John Benjamins. 12

13 Cyril Belica Institut für Deutsche Sprache, Mannheim Kookurenčná analýza a jazykové štruktúry Kookurenčná analýza má svoje pevné miesto v korpusovej lingvistike už niekoľko desťročí. Vo svojom klasickom variante, keď voliteľnými veličinami sú len veľkosť kontextu, konkrétna funkcia miery asociácie a cieľová lexikálna jednotka, slúži predovšetkým ako prostriedok na kvantifikovanie asociačných vzťahov medzi dvojicami slov v korpuse. Nad rámec tejto v podstate deskriptívnej funkcie však kookurenčnú analýzu možno chápať aj ako metodické východisko pri abdukcii hypotéz interpretujúcich rozmanité druhy pravidelností pozorovaných v ľubovoľnej jazykovej produkcii. Prednáška je venovaná predovšetkým tomuto pohľadu na možnosti kookurenčnej analýzy, s dôrazom na význam viacčlenných kookurencií a syntagmatických vzorcov najmä pre výskum jazykov s relatívne voľným slovosledom. Na pozadí metód vyvinutých začiatkom deväťdesiatych rokov v Ústave nemeckého jazyka (IDS) v Mannheime ukazuje, ako sa pomocou kombinácie kookurenčnej a zhlukovej analýzy dajú v korpusoch izolovať komplexné, mnohovrstevné štruktúry stimulujúce abduktívny prístup k výskumu jazyka. Explanatívny potenciál týchto štruktúr, osobitne z pohľadu lexikálnej sémantiky, je v prednáške načrtnutý na niekoľkých príkladoch interpretácie zhlukovej analýzy kookurenčných profilov lexikálnych jednotiek pomocou neurónových sietí. 13

14 Neil Bermel Russian and Slavonic Studies, The University of Sheffield Mapování jazykové variability ve světle korpusové frekvence a odpovědí rodilých mluvčích Tvrzení, že nám korpus umožní nahlédnout do lingvistických vlastností textů, které v nich najdeme, není kontroverzní. Pokud ale chceme vyvodit, že díky korpusu získáme náhled do jazyka (nebo jazykové variety), ve kterém jsou jeho texty psány, názory nejsou jednotné. K čemu jsou tedy korpusy v mapování struktury jazyka? Pokud by se měla korpusová data jako doklady Saussurovského parole vztahovat k jazykové produkci, počet a proporce tvarů v korpusu by měly hrát významnou roli ve volbách rodilých mluvčích. Pokud ale vycházíme z předpokladu, že korpus odráží jazykové prostředí, které uživatele obklopuje a není přímou ukázkou jeho jazykových dovedností, měli bychom vztahovat korpusová data spíše k hodnocením a posudkům uživatele. Výsledky našich sond do některých konkurujících si morfů v českém deklinačním systému ukazují, že korpusová data mají předpovědní hodnotu jak pro posudky rodilých mluvčích, tak pro užití jednotlivých jevů, a to v daných případech více než jakýkoliv další činitel. Vysokou předpovědní schopnost vzhledem k volbě a hodnocení tvarů má proporcionální frekvence jevů v korpusu; absolutní frekvence se zdá hrát jen vedlejší roli. Nejjasněji a nejmarkantněji se to odráží na volbě mezi tvary, ale co se týče posudků, zjevná neochota mluvčích označovat méně užívané tvary za nepřijatelné nabízí možné vysvětlení, proč se tato variabilita v češtině po staletí udržuje. 14

15 Karel Kučera Ústav Českého národního korpusu FF UK Dvacet let poté Dvacátého výročí založení Ústavu Českého národního korpusu bude v příspěvku využito jednak ke krátkému přehledu nejvýznamnějších výstupů série pěti- až sedmiletých projektů zaměřených na budování korpusového komplexu Českého národního korpusu (ČNK), jednak především ke shrnutí hlavních zásad, které se v tomto komplexu uplatňují, a k naznačení představ a plánů týkajících se jeho dalšího rozvoje v budoucnosti. V rozsahu omezeném formou konferenčního příspěvku bude pozornost věnována základním problémům spojeným s obecnými principy (zejména koncepci reprezentativnosti), s možnostmi lingvistické interpretace a značkování korpusových dat, s předpokládanými směry rozvoje korpusového softwaru a se získáváním jazykových dat. Jádro příspěvku je koncipováno jako zamyšlení nad výhodami i nevýhodami přístupů, které byly v minulosti zvoleny v jednotlivých složkách ČNK (synchronní psané a mluvené korpusy, diachronní korpusy, paralelní korpusy, specializované korpusy), nad současnými problémy i nad problémy, které bude třeba řešit v budoucnu, mimo jiné v souvislosti se snahou, aby ČNK v co největší šíři reflektoval komunikační spektrum současného českého jazyka (aktuální potřeba adekvátně zachytit jazyk SMS, různých druhů internetové komunikace ap.) a souvisleji a hlouběji mapoval diachronii češtiny. 15

16

17 Konferenční příspěvky

18 Lucie Benešová Ústav Českého národního korpusu FF UK Michal Křen Ústav Českého národního korpusu FF UK Martina Waclawičová Ústav Českého národního korpusu FF UK Korpus spontánní mluvené češtiny ORAL2013 Příspěvek představí nedávno zveřejněný korpus spontánní mluvené češtiny ORAL2013 (Válková et al. 2012), který je výsledkem projektu realizovaného v ÚČNK FF UK v Praze. Korpus je přístupný všem registrovaným uživatelům na adrese < a zachycuje reprezentativní materiál představující autentický mluvený jazyk v neformálních komunikačních situacích. V příspěvku se zaměříme především na představení základní koncepce korpusu ORAL2013, popíšeme způsob transkripce i řešení praktických otázek při sběru dat. Součástí prezentace bude také ukázka práce s korpusem v novém webovém rozhraní KonText. Korpus ORAL2013 se skládá z 835 nahrávek z let a obsahuje více než 2,7 milionu textových slov ( tokenů včetně interpunkce) v přepisech celkem mluvčích (z toho unikátních). Celková délka nahrávek je minut, tj. téměř 300 hodin. ORAL2013 je v pořadí již třetím korpusem řady ORAL, která vzniká jako součást ČNK. Je tedy přirozené, že v mnohém navazuje na své předchůdce, korpusy neformální mluvené češtiny ORAL2006 (Kopřivová & Waclawičová 2006) a ORAL2008 (Waclawičová et al. 2009). Důležitým rysem celé řady je především zachycení prototypicky mluveného jazyka (Čermák 2009); nahrávány byly proto pouze situace splňující následující kritéria: fyzická přítomnost mluvčích; dialogičnost promluv (rozhovor dvou nebo více mluvčích); vzájemný blízký vztah mluvčích; nepřipravenost, spontánnost; neveřejná a neoficiální komunikační situace. 18

19 Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK. Korpus ORAL2013 se zároveň od svých předchůdců odlišuje v následujících bodech. Pokrytí celého území ČR, tj. Čech, Moravy a Slezska. Propojení přepisu se zvukovou stopou v transkripčním programu Transcriber (Geoffrois et al. 2000); uživatel si tak může ve webových rozhraních ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (segment), a poslechnout si tak jeho realizaci. Použití pauzové interpunkce, která nahradila původní syntaktickou. Označení překryvů replik více mluvčích. Označení shodných mluvčích, kteří vystupují ve více nahrávkách; toto označení je přístupné pomocí náhodně vygenerované přezdívky, která je pro daného mluvčího v celém korpusu stejná. Uvádění informace o typu komunikační situace. Odlišné pojetí vyváženosti dat. Při sběru dat jsme usilovali o maximální regionální pokrytí a různorodost mluvčích, materiál byl proto průběžně vyvažován v těchto hlavních sociolingvistických kategoriích: pohlaví, věková skupina (mladší/starší mluvčí), vzdělání a oblast pobytu mluvčího v dětství (podle tradičního Běličova dialektologického členění používaného v Českém jazykovém atlase, Balhar et al ). Na rozdíl od korpusu ORAL2008 jsme však nepřistoupili k závěrečnému výběru, jehož výsledkem by bylo plné vyvážení korpusu. Znamenalo by to totiž zbavování se cenného materiálu v situaci, kdy je korpus už dostatečně reprezentativní, zatímco jeho hypotetická ideální vyváženost by byla jednak sporná (zvláště její regionální faktor), a jednak by nebyla ani potřebná, protože nové webové rozhraní umožňuje práci s relativními (a tedy srovnatelnými) frekvencemi. Složení korpusu v základních sociolingvistických kategoriích uvádíme v následujících tabulkách: Pohlaví ženy muži Věková skupina mladší (18 34 let) starší (35 let a výš) Vzdělání nižší vyšší Tabulka 1: Počet slov v hlavních kategoriích. 19

20 Oblast pobytu v dětství počet slov středočeská severovýchodočeská jihozápadočeská české pohraničí česko-moravská středomoravská východomoravská slezská moravské pohraničí Tabulka 2: Počet slov podle převažující oblasti pobytu v dětství. Literatura Balhar, J. (Ed.) ( ). Český jazykový atlas, 1 6. Praha: Academia. Čermák, F. (2009). Spoken corpora design. Their constitutive parameters. International Journal of Corpus Linguistics, 14 (1), Geoffrois, E., Barras, C., Bird, S. & Wu, Z. (2000). Transcribing with annotation graphs. In: Proceedings from The Second International Conference on Language Resources and Evaluation (LREC), Kopřivová, M. & Waclawičová, M. (2006). Representativeness of spoken corpora on the example of the new spoken corpora of the Czech language. In: Труды международной конференции Корпусная лингвистика Санкт-Петербург: Издательство СПбГУ, Válková, L., Waclawičová, M. & Křen, M. (2012). Balanced data repository of spontaneous spoken Czech. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC), Accessed January 30, lrec2012/pdf/179_paper.pdf. Waclawičová, M., Křen, M. & Válková, L. (2009). Balanced corpus of informal spoken Czech: compilation, design and findings. In Proceedings of the 10th Annual Conference of the International Speech Communication Association INTERSPEECH 2009,

21 Vladimír Benko Jazykovedný ústav Ľ. Štúra SAV Je webový korpus horší? V súvislosti s takmer exponenciálnym rastom množstva textových dát na internete stúpa zároveň záujem o ich lingvistické využitie. Okrem naivného používania vyhľadávacích služieb na zisťovanie základných údajov o frekvencii výskytu slov a slovných spojení, trochu pejoratívne označovaného ako Google linguistics (porov. Kilgarriff 2007), sme aj svedkami snáh o využitie dát z webu systematickejším a z hľadiska potrieb lingvistov plnohodnotnejším spôsobom. Jedným z vývojových smerov v tejto oblasti je tvorba webových korpusov, v rámci ktorej sa dáta vo veľkom objeme sťahujú z webu pomocou automatizovaných procedúr využívajúcich sofistikované stratégie hodnotenia obsahu jednotlivých webových lokalít z hľadiska využiteľnosti v korpuse (Suchomel & Pomikálek 2012), následne sa filtrujú a deduplikujú, takže výstup v textovej podobe možno ďalej spracovať štandardnými metódami a technológiami korpusovej lingvistiky (tokenizácia, morfologická anotácia a spracovanie korpusovým manažérom). Za posledné desaťročie sa tvorba webových korpusov etablovala ako samostatná oblasť korpusovej lingvistiky, má svoju sekciu v Asociácii pre počítačovú lingvistiku (ACL SIGWC), pravidelné konferencie (WAC) a dočkala sa už aj prvej monografie (Schäfer & Bildhauer, 2013). Okrem zjavných výhod webových korpusov oproti tradičným (dajú sa vytvoriť omnoho rýchlejšie a s neporovnateľne väčším rozsahom, obsahujú aj žánre, registre a domény typicky absentujúce v tradičných korpusoch, dáta sú k dispozícii prakticky pre ľubovoľný jazyk, nové tendencie v jazyku sa v nich odrazia prakticky okamžite) majú samozrejme a veľa nedostatkov, ktoré spôsobujú problémy nielen pri ich tvorbe a anotácii, ale aj pri lingvistických analýzach (len v nepatrnom rozsahu vieme ovplyvniť a dokonca aj zistiť, aké texty vlastne obsahujú, a značná časť textov je zašumená, napr. používa neštandardnú ortografiu prípadne jazykovú varietu, alebo obsahuje čiastočne nezmyselné slová v dôsledku chýb pri znakových konverziách, filtrácii či identifikácii jazyka dokumentov. Pre jednotlivé dokumenty v korpuse je k dispozícii len minimálna bibliografická anotácia, väčšinou obmedzená len na adresu webovej stránky a dátum jej stiahnutia z webu. Vzhľa- 21

22 dom na technické obmedzenia procesu sťahovania dát z webu je principiálne nemožné určiť (socio)lingvisticky dôležitý parameter dátum vzniku dokumentu. Problémy sú aj s nejasnou situáciou ohľadne autorských práv jednotlivých textov pri počtoch dokumentov rádovo v miliónoch nie je v silách žiadneho korpusového pracoviska riešiť túto otázku pre každý text individuálne. V súčasnosti už existuje veľa jazykov, pre ktoré okrem tradičných korpusov bol vytvorený aj webový korpus porovnateľného, či dokonca ešte väčšieho rozsahu. Každému (korpusovému) lingvistovi sa v takejto situácii prirodzene núkajú otázky: Aké dôsledky má pre môj výskum existencia dvoch vzoriek jazyka vytvorených odlišnou metodológiou a technológiou? Ktorá z nich poskytuje vhodnejší podklad na zovšeobecnenie výsledkov? Je niektorý z korpusov horší? Aj slovenčina patrí medzi jazyky, kde sa na takéto otázky môžeme pokúšať hľadať odpoveď. Je to dané projektom Slovenského národného korpusu, v rámci ktorého sa systematicky buduje tradičný korpus na báze textov pokrytými autorskými právami (beletria, odborné publikácie a publicistika) a tiež tým, že sa paralelne budujú aj webové korpusy. Hlavný korpus SNK (6.1) má v súčasnosti rozsah okolo 830 miliónov tokenov a tri existujúce webové korpusy (vytvorené v rozličnom čase, rozličnými autormi a rozličnými procedúrami) majú rozsahy (po deduplikácii na úrovni dokumentov) 195, 875 a miliónov tokenov. V príspevku opisujeme práve prebiehajúci experiment, v ktorom sa pokúšame potvrdiť alebo vyvrátiť tvrdenie, podporené našimi skúsenosťami s prácou s webovými aj tradičnými korpusmi: Webový korpus nie je horší ako tradičný korpus rovnakého rozsahu. V prípade, že webový korpus je väčší (čo je veľmi častý prípad), môže byť dokonca lepší, než korpus tradičný. Naše tvrdenie sa však obmedzuje len na použitie korpusu ohraničené našou skúsenosťou, t. j. v lexikografii. Experiment pozostáva z rekonfigurácie pôvodných korpusových dát tak, aby vzniklo niekoľko webových korpusov s rovnakým rozsahom, ako má referenčný tradičný korpus. Pre všetky korpusy vykonávame porovnanie stupňa deduplikácie na úrovni odsekov a viet, štatistických parametrov pre homogénnosť a vzájomnú podobnosť korpusov (Kilgarriff 2001), frekvenčnú distribúciu lexikálnych jednotiek a slovných druhov, formálnu úspešnosť morfologickej anotácie (počty nerozpoznaných slovných tvarov), proporciu úspešne detegovaného šumu, a na malých vzorkách aj jej reálnu chybovosť 22

23 morfologickej anotácie. Vlastným jadrom experimentu je porovnanie kolokačných profilov vybraných lexikálnych jednotiek z rôznych frekvenčných pásiem vytvorených pomocou nástroja Sketch Engine (Kilgarriff et al. 2004). Chceme ešte poznamenať, že v štádiu rozpracovania máme aj webový korpus pre češtinu. Po jeho dokončení bude analogické porovnanie možné aj medzi korpusmi budovanými v ÚČNK a týmto webovým korpusom. Literatúra Kilgarriff, A. (2001). Comparing Corpora. International Journal of Corpus Linguistics, 6 (1), Kilgarriff, A. (2007). Googleology is Bad Science. Computational Linguistics 33 (1), Kilgarriff, A. et al. (2004). The Sketch Engine. In G. Williams & S. Vessier (Eds.), Proceedings of the eleventh EURALEX International Congress EURALEX 2004 Lorient, France, July 6-10, Lorient: Université de Bretagne-Sud, Schäfer, R. & Bildhauer, F. (2013). Web Corpus Construction. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers. Suchomel, V. & Pomikálek, J. (2012). Efficient Web Crawling for Large Text Corpora. 7th Web as Corpus Workshop (WAC-7), Lyon,

24 Tilman Berger Slavisches Seminar, Universität Tübingen Stefan Heck SFB 833, Universität Tübingen Performativní užívání dokonavého prézentu v češtině ve srovnání s jinými slovanskými jazyky Náš příspěvek se zabývá užíváním dokonavého prézentu bez významu futura v performativních kontextech, jako např. ve větě: Přiznám se, že tomu vůbec nerozumím (SYN2010). Na tento fenomén jako první upozornil Koschmieder (1930) a vysvětlil ho takzvanou koincidencí, tj. tím, že realiza cí výpovědi je také realizován děj popsaný slovesem. Uvedl polské příklady jako A teraz poproszę o odprowadzenie do powozu nebo Tylko na baronową ośmielę się zwrócić uwagę. Performativní výpovědi, jak je později v rámci teorie řečových aktů popsali Austin (1962) a Searle (1969), jsou zvláštním případem koincidence, která sama o sobě představuje širší koncept a obsahuje také pří pady s neperformativními slovesy. O užívání dokonavého prézentu v performativním kontextu se psalo několikrát v rusistických pracích (srov. Forsyth 1970: 150; Bondarko 1971: 222; Apresjan 1986: 215). O jiných slovanských jazycích se zmínil už Koschmieder a potom krátce Galton (1976: 92 95). V rámci své velké studie o slovanském vidu Dickey (2000: ) předložil podrobnější rozbor tohoto fenoménu ve všech slovanských jazycích. Podle jeho názoru se uží vání dokonavých sloves v performativní funkci různí v jednotlivých slovanských jazycích. Zatímco v ruštině je daný fenomén omezen na podskupinu verb dicendi a na slovesa odkazující na okamžik výpovědi ( mentální performativa v pojetí Rjabcevové (1992)), v polštině funguje u mnohem více verb dicendi a také u sociálních neboli rituálních performativ podle Rjabcevové. Ohledně češtiny můžeme pozorovat rozporuplnou situaci: Dickey a po něm také Wiemer (v tisku) a Łaziński (rukopis) se domnívají, že je tam situace podobná jako v polštině a dokonce naznačují, že by dokonavá performativa v češtině by mohla být ještě častější. Bohemistická aspek tologická literatura zase o tomto užívání dokonavého prézentu mlčí nebo jeho existen- 24

25 ci vysloveně popírá. Kopečný (1962: 35 36) sice diskutuje sporné příklady z Seidelova článku z roku 1939 o užívání dokonavého prézentu, ale neříká nic o jediném dokladu performativního slovesa, který je tam uveden (Nu jo, já dovolím, Seidel 1939: 17). V mluvnicích češtiny jsme nic nenašli, kromě Pří ruční mluvnice češtiny (1996: 592), která tvrdí, že performativní výpovědi jsou užívána vždy v ne dokonavém vidu. Totéž tvrdí i Hirschová (2011), která sice zná a cituje Apresjana, ale zastává ná zor, že je to spíše věc idiomatického charakteru takové výpovědi se smyslem důrazné žádosti, nikoli specifického typu performativnosti (Hirschová 2011: 155). Pro naši studii jsme vybrali celkem 15 sloves ze studií Dickeyho, Wiemera a Łazińského. Pro zkoumali jsme, jak často se české, ruské a polské ekvivalenty vyskytují v korpusech (SYN2010, NKJP, NKRJa). Užívali jsme jen doklady z přímé řeči a bez časové posloupnosti (která vylučuje performativnost). Došli jsme k několika prozatimním výsledkům, z nichž je nejdůležitější ten, že dokonavá slovesa jsou užívána v češtině v podobném rozsahu jako v jiných slovanských jazycích, ale nikoliv výrazně častěji. Jinak můžeme konstatovat následující: 1. U řídkých nebo průměrně frekventovaných sloves (např. upřesním, utočnju, uściślę) užívání ve všech třech jazycích je poměrně podobné. 2. U vysoce frekventovaných sloves může dojít k značným výkyvům: např. je performativní užívání ruského poprošu značně častější než užívání českého poprosím nebo polského po proszę, což se asi dá vysvětlit tím, že prosím a proszę mají více významů a funkcí než ruské prošu (konkurující s požalujsta). 3. V případech, kde podle Dickeyho a Wiemera dokonavé sloveso údajně nevystupuje v rušti ně, ale jen v češtině a polštině, dotyčná slovesa jsou poměrně řídká také v češtině. To se týká např. sloves navrhnu a zaproponuję. Literatura Apresjan, Ju. D. (1986). Performativy v grammatike i v slovare. Izvestija Akademii nauk SSSR, 45, Austin, J. L. (1962). How to Do Things with Words. Oxford. Bondarko, A. V. (1971). Vid i vremja russkogo glagola (značenie i upotreblenie). Moskva. Dickey, S. (2000). Parameters of Slavic Aspect: A Cognitive Approach. Stanford. 25

26 Forsyth, J. (1970). A Grammar of Aspect: Usage and Meaning in the Russian Verb. Cambridge. Galton, H. (1976). The Main Functions of the Slavic Aspect. Skopje. Hirschová, M. (2011). Slovesný vid a tzv. performativnost. In M. Ološtiak et al. (Eds.), Vidy jazyka a jazykovedy. Na počesť Miloslavy Sokolovej. Prešov, Kopečný, F. (1962). Slovesný vid v češtině. Praha. Koschmieder, E. (1930). Durchkreuzungen von Aspekt- und Tempussystem im Präsens. Zeitschrift für slavische Philologie, 7, Łaziński, M. (2012). The aspect of Polish performatives with regard to politeness rules. Rukopis. Příruční mluvnice češtiny. (1996). Praha. Rjabceva, N. K. (1992). Mental nye performativy v naučnom diskurse. Voprosy Jazykoznanija 1992, 4, Searle, J. (1969). Speech Acts: An Essay in the Philosophy of Language. Cambridge. Seidel, E. (1939). Zur Futurbedeutung des Praesens perfectivum im Slavischen. Slavia, 17, Wiemer, B. (v tisku). Upotreblenie soveršennogo vida v performativnom nastojaščem. Vyjde ve sborníku na počest V. S. Chrakovského. 26

27 Aleš Bičan Ústav pro jazyk český AV ČR Fonologický lexikální korpus češtiny a jeho analýza Korpusová lingvistika se soustředí především na tvorbu korpusů určených pro gramatickou analýzu češtiny. Korpusy však lze využít pro analýzu fonologické struktury jazyka, avšak tento aspekt zůstával doposud mimo zájem lingvistů popisujících češtinu. Příspěvek představí fonologický korpus české slovní zásoby a nabídne analýzu dat, které z něj lze získat. Fonologický lexikální korpus češtiny je primárně korpusem fonologickým. Jeho zdrojem je seznam lexémů zahrnutých v Databázi heslářů ( lexiko.ujc.cas.cz/), jež obsahuje hesel. V současné době je do našeho korpusu zahrnuto přes 270 tisíc lexémů ze Slovníku spisovné češtiny, Slovníku spisovného jazyka českého, Výslovnosti spisovné češtiny, Příručního slovníku jazyka českého a dalších zdrojů. Všechny lexémy jsou opatřeny fonologickou reprezentací, která vychází z ortoepické výslovnosti. Fonologická reprezentace byla nejdříve získána automatickým převodem z ortografické podoby, následně však byl každý lexém manuálně zkontrolován a případně opraven. Jelikož ze samotného českého pravopisu nelze stoprocentně odvodit výslovnost (především v případě slov cizího původu), byla kontrola nutná, aby se předešlo zkreslení a nepřesnostem způsobeným automatickou transkripcí. Tím jsme předešli problémům, které jsou patrné u fonologické analýzy ČNK Bartoně et al. (2009), kteří též použili automatickou transkripci, avšak bez následné kontroly. (Ačkoliv si autoři zmíněné analýzy jsou zkreslení výsledků vědomi, pokládají je za zanedbatelné, s čímž lze polemizovat: např. slova struktury konsonant konsonant (CC) mohou jen těžko patřit mezi sto nejčastějších typů slov (viz op. cit. 109), jelikož čeština taková slova nemá, uvedenou strukturu mají pouze zkratky.) Data ve fonologickém lexikálním korpusu jsou uložena v formátu tabulky. Příklad záhlaví a jednoho hesla v korpusu je v následující tabulce. 27

28 Ortho PhRep Length Phtagms CVStr Place Manner Voicing Horiz Vertic Quant SSČ SSJČ VSČ stín Sťīn 4 1 CCVC APvA FOvN XUvX ccqc cchc ccgc Sloupec Ortho udává pravopisnou podobu lexému a sloupec PhRep jeho fonologickou reprezentaci. Sloupce Length až Quality udávají fonologické vlastnosti lexémů a fonémů, které obsahují. Zbývající sloupce zaznamenávají, do kterého slovníku je lexém zařazen. Fonologické vlastnosti fonémů, kterých se lexém skládá, jsou odvoditelné z fonologické reprezentace a lze je chápat jako analogie gramatické anotace v nefonologických korpusech. Sloupce Length, Phtagms udávají počet fonémů a počet slabik, sloupec CVStr pak strukturu lexému na základě členství jeho fonémů ve třídě konsonantů či vokálů. Další sloupce vyjadřují distinktivní rysy konsonantů podle místa a způsobu artikulace a znělosti (Place, Manner, Voicing) a distinktivní rysy vokálů podle horizontální a vertikální polohy a kvantity (Horiz, Vertic, Quant). Písmena v uvedených sloupcích jsou zkratky fonologických vlastností; např. APvA ve sloupci Place lze chápat takto: A = alveolární (odpovídající /S/), P = palatální (= odpovídající /ť/), v = vokál (odpovídající /ī/), N = nazální (odpovídající /n/). Další sloupce, např. s vyjádřením hranic slabik, budou do korpusu postupně přidávány. Na základě uvedených sloupců, resp. fonologických vlastností celého lexému nebo jednotlivých fonémů je možné v korpusu vyhledávat a třídit data podle definovatelných kritérií (např. jednoslabičné lexémy o šesti fonémech obsahujících okluzívu a dlouhý vokál). Korpus je k dispozici na webové adrese Prozatím je volně přístupná jen jeho ukázková část o počtu cca hesel ze Slovníku spisovné češtiny, jež je též doplněna o informaci o slovních druzích, podle které lze např. zkoumat i fonologickou strukturu podstatných jmen oproti slovesům. Data z lexikálního fonologického korpusu slouží, obdobně jako u gramatických korpusů, k lingvistické analýze. Příspěvek kromě představení tohoto korpusu nabídne i fonologickou analýzu lexikální zásoby češtiny. Z korpusu lze např. získat informace o frekvenci výskytu jednotlivých fonémů a jejich tříd nebo frekvenci různých kombinací fonémů a vůbec informace o kombinovatelnosti fonémů. Rovněž můžeme získat informace o výskytu a frekvenci lexémů určité délky nebo struktury. 28

29 Literatura Bartoň, T. et al. (2009). Statistiky čestiny. Praha. František Cvrček Ústav státu a práva AV ČR Karel Pala Fakulta informatiky Masarykovy univerzity Pavel Rychlý Fakulta informatiky Masarykovy univerzity Chování slov a jejich kolokací v jazyce právních subdomén V článku věnujeme pozornost chování kolokací v právních subdoménách, jako jsou texty zákonů, vyhlášek a nařízení. Porovnání slov samostatně i slovních kolokací z jednotlivých typů právních textů poskytuje kvantifikovatelné údaje, které vypovídají o terminologické povaze pozorovaných kolokací. Z provedených měření a pozorování jasně plyne, že jazyk primárních předpisů se značně liší od jazyka sekundárních předpisů. Jako materiál posloužily korpusy: CzLaw čítající 20,6 mil. tokenů, který se dále člení na subkorpus Primarni predpisy (Ústava a platné zákony ČR) s 12,2 mil. tokeny a Sekundarni predpisy (vyhlášky a nařízení) s 8,4 mil. tokeny. Uvedené korpusy nejsou velké, ale základní kolokační tendence, o které nám jde, lze na nich dobře demonstrovat. Pro kontrastní analýzu jsme též využili korpus CzechParl čítající 51,4 mil. tokenů, který obsahuje záznamy projevů poslanců v Parlamentu ČR a má právní povahu. Jeho velikost lze pro naše účely pokládat za více než dostačující. 29

30 V článku navazujeme na projekt PES (viz v němž se úspěšně kombinují korpusově lingvistické přístupy s právnickými. Jde o analýzu užití právnické terminologie v doktrinálním jazyce (základní učebnice práva z jednotlivých odvětví), v jazyce zákonů (korpus platných zákonů ČR včetně Ústavy ČR), v jazyce sekundárních předpisů (korpus platných nařízení a vyhlášek ČR na centrální úrovni), v jazyce judikatury (korpus judikatury soudních rozhodnutí nejvyšších soudů od roku 1990) a v tzv. obecném základu jazyka (korpus Czes). Systém PES (soubor bází, korpusů a programů) umožňuje studium právního jazyka a jeho změn. Vzhledem k rozsahu, který prakticky pokrývá celý právní řád i obecný základ jazyka, získáváme vlastně poprvé představu o složitosti práva jako celku na jazykové úrovni. Programový systém PES je pravidelně aktualizován a je pro potřeby výuky a výzkumu přístupný všem uživatelům, kteří o to mohou požádat u JUDr. F. Cvrčka z ÚSP AV ČR. Jednotlivé uvedené korpusy jsou v elektronické podobě a lze s nimi pracovat v korpusovém manažeru Manatee/Bonito (Rychlý 2007) s vestavěným modulem pro práci se slovními profily (Word Sketches, Kilgarriff et al. 2004). Manažer Manatee/Bonito umožňuje prohledávat zmíněné korpusy, získávat z nich konkordance, sledovat frekvence jednotlivých výrazů (právních termínů) a zejména pozorovat jejich kolokační chování, získávat klíčová slova a porovnávat jednotlivé korpusy či subkorpusy na různých úrovních. První důkaz rozdílnosti jazyků primárních a sekundárních předpisů přináší porovnání klíčových slov obou subkorpusů. Pro oba subkorpusy jsme vytvořili seznamy klíčových slov porovnáním frekvencí slov s referenčním korpusem. Při výpočtech byla používána tzv. redukovaná četnost (Average Reduce Frequency), která automaticky filtruje slova, která se vyskytují v jednom či několika málo dokumentech. Vytvořeno bylo několik seznamů různé délky obsahující vždy statisticky nejvýznamnější klíčová slova z daného subkorpusu. Z porovnáním příslušných seznamů plyne, že pouze 60 % slov je v odpovídajících seznamech společných. Podobně jsme postupovali při porovnání kolokací jednotlivých klíčových slov (společných oběma subkorpusům). Seznamy kolokací byly vytvořeny pomocí systému Sketch Engine (Kilgarriff et al. 2004) jako statisticky významné kolokace v příslušných gramatických relacích. Opětovné porovnání seznamů mezi oběma subkorpusy ukazuje, že u některých slov je podíl společných kolokací menší než 30 %. Jako příklad můžeme uvést slovo území, u kterého z 37 gramatických relací má pouze 18 re- 30

31 lací alespoň jednu kolokaci společnou oběma subkorpusům a pouze 6 relací má více než 3 společné kolokace. Podrobnějším studiem konkrétních vazeb jednotlivých slov zjišťujeme, že společné kolokace v primárních a sekundárních předpisech jsou z velké části pouze obecné fráze, které nejsou specifické pro právnické texty. Odborné vazby jsou v obou subdoménách značně rozdílné. V článku budou uvedeny příslušné seznamy a tabulky. Celkově můžeme konstatovat, že ač se na první pohled může zdát, že zákony na jedné straně a vyhlášky a nařízení na druhé straně spadají do stejného jazyka, exaktní statistická analýza ukazuje, že se jedná o dvě značně rozdílné domény, které hovoří různými podjazyky. I když to nebývá v odborné literatuře zvykem, pokládáme zde za nutné konstatovat, že analýza korpusů právních textů upozorňuje na některé celospolečenské problémy, jež mají bezprostřední politické důsledky. Jestliže nejfrekventovanější slovo v korpusu právních textů je slovo zákon a jeho prostý slovní profil (Word Sketch) ukazuje, že nejfrekventovanější kolokace s genitivem jsou znění, změna, návrh, doplnění (zákona) a je subjektem sloves měnit, předchází před slovesy měnit, stanovit, doplňovat atd., svědčí to o nenormálním a nadměrném novelizování zákonů, které fakticky ohrožuje právní řád v ČR. Další podrobná kvantitativní analýza stavu českého právního řádu ukazuje, že jazyková analýza na základě poměrně jednoduchých prostředků naznačené situace potvrzuje. Lingvistická analýza v daném případě dokládá existenci nebezpečí spočívajícího v nepřehlednosti a nesrozumitelnosti vazeb mezi právními předpisy, jež obojí narušuje standardní využívání práva v ČR. Literatura Cvrček, F. et al. (2012). PES (Právní elektronický slovník Electronic Legal Dictionary), webová stránka (Web page). Kilgarriff, A., Rychlý, P., Smrž, P. & Tugwell, D. (2004). The Sketch Engine Proc. Euralex. Lorient, France, July, Mráková, E. & Pala, K. (2010). Legal Terms and Word Sketches: a Case Study, Proceedings of the RASLAN Workshop, Karlova Studánka, Pala, K., Rychlý, P. & Šmerk, P. (2012). Automatic Identication of Legal Terms in Czech Law Texts, Semantic Processing of Legal Texts, Springer, LNAI 6036, Rychlý, P. (2007). Manatee/Bonito A Modular Corpus Manager, Proceedings of the RASLAN Workshop, Karlova Studánka,

32 Václav Cvrček Filozofická fakulta Univerzity Karlovy Jiří Václavík Filozofická fakulta Univerzity Karlovy Kvantitativní pohled na kontextovou desambiguaci Myšlenkovým východiskem tohoto příspěvku je tvrzení, že izolované (dekontextualizované) jazykové jednotky jsou ze své podstatě vždy víceznačné či alespoň polyfunkční (Cvrček 2013). Až zapojením do kontextu dochází k jejich desambiguaci, čehož využívají jak nástroje na pravidlovou či stochastickou morfologickou analýzu (Hajič 2004, Petkevič 2006), tak lingvisté v popisu; např. zkoumání kolokací je ve světle tohoto pohledu hledáním typických kontextů, které zjednoznačňují inherentně víceznačné lexémy. Výzkum kvantitativních charakteristik kontextu by i proto měl být v centru zájmu komputačních i korpusových lingvistů. Příspěvek se pokusí kvantitativně uchopit vztah mezi délkou n-gramu, která aproximuje rozsah kontextové informace, a mírou jeho jednoznačnosti. U izolované jednotky najdeme příklady víceznačnosti vcelku snadno: řada lemmat má kupř. mnoho různých flektivních tvarů, skloňovaná i nesklonná lemmata pak nabývají v různých kontextech různých významů nebo stylových odstínů. Problematika víceznačnosti (a její desambiguace) se tedy týká všech jazykových rovin; prakticky je však v současnosti kvantitativní výzkum tohoto fenoménu možný pouze na rovinách přidržujících se formy, o což se pokusí i tento příspěvek. Na jednotky, jejichž rozsah překračuje hranici jednoho slova (n-gramy), je možné nahlížet jako na spojení zkoumaného slova a části jeho kontextu. Tím, že slovo vstupuje do sousedství s jiným, se víceznačnost celého spojení ve srovnání s izolovaným slovem snižuje. Např. bigram tvořený posloupností verba a substantiva odpovídá v rozsáhlém korpusu mnoha lexikálním realizacím (sekvencím lemmat) a stejnému nebo většímu počtu realizací lexikálně gramatických (sekvencím slovních tvarů). Přidáváním dalších jednotek k tomuto bigramu (např. vytvořením trigramu adverbium verbum substantivum nebo tetragramu adverbium sloveso substantivum pre- 32

33 pozice) omezujeme formální i lexikální variabilitu celé sekvence, až v určitém kroku dospějeme k takové délce zkoumané jednotky, že její realizace bude jednoznačná, tj. sekvenci značek slovních druhů bude odpovídat právě jedna posloupnost lemmat nebo tvarů (což svědčí o tom, že došlo k úplné desambiguaci). Otázkou samozřejmě zůstává, jak dlouhá musí taková posloupnost být, aby byla zcela zjednoznačněná. Pro každou délku n-gramu platí, že některé n-gramy budou zcela jednoznačné (budou mít právě jednu realizaci na zvolené rovině), jiné budou víceznačné. Předpokládáme přitom, že nejednoznačných n-gramů bude proporčně méně v seznamu n-gramů rozsáhlejších než v seznamu n-gramů kratších. Výzkum bude prováděn na korpusech ČNK řady SYN, a to konkrétně na seznamech n-gramů (konsekutivních n-tic slov) různé délky. Pro každý n-gram tvořený lemmaty bude v korpusu zjištěn počet jejich různých realizací na úrovni slovních tvarů, pro n-gramy tvořené značkami slovních druhů bude zjišťován počet různých realizací na úrovni posloupností lemmat i slovních tvarů atp. Analýza tak simuluje zablokování flektivního a lexikálního faktoru (ve smyslu článku Nebeský & Novák 1996). Lze přitom předpokládat, že výsledky zjištěné při těchto pokusech na formách a lexémech budou analogicky platit i pro desambiguaci sémantiky (ačkoli v oblasti významů je situace nesporně složitější). Abychom výsledky měření mohli zobecnit a úspěšně kvantifikovat vztah délky a ambiguity v závislosti na použitém typu desambiguace a celkové frekvenci sekvence v korpusu, je třeba přistoupit ke korekci, která zohledňuje omezený rozsah korpusu (jakkoli je dnes obrovský). O jistotě desambiguace kontextem můžeme mluvit pouze v případě, kdy víme, že jednotky v n-gramu obsažené, skutečně můžou různých formálních podob nabýt. Má-li zkoumaný n-gram (tvořený kupř. lemmaty) celkovou frekvenci 200 výskytů a víme-li, že všechna slova v něm obsažená jsou nesklonná, nelze takový příklad za desambiguaci (na rovině slovních tvarů) prohlásit. N-gram je za takových okolností formálně jednoznačný vždy (bez ohledu na délku). Pouze v případě, že jednotky v n-gramu mohou při své realizaci nabývat alespoň dvou různých variant (např. jedno lemma alespoň dvou různých tvarů) a to s pravděpodobností, která naznačuje, že při celkové frekvenci 200 výskytů bychom mohli očekávat alespoň dvě odlišné realizace, pak pokud je taková sekvence realizována jednoznačně můžeme skutečně hovořit o desambiguaci. 33

34 Výsledky takto zjištěné by mohly sloužit nejen k určení optimálního rozsahu kontextu nutného pro formální desambiguaci anotačních nástrojů, ale s určitou mírou tolerance by měly být zobecnitelné i na analýzu jakékoli polysémie/polyfunkčnosti, jíž se zabývá deskriptivní lingvistika na všech rovinách popisu. Literatura Cvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Lidové noviny. Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Praha: Karolinum Charles University Press. Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, Nebeský, L. & Novák, P. (1996). Větné faktory a jejich podíl na analýze věty. Slovo a slovesnost, 57,

35 Tomáš Čapka Ústav Českého národního korpusu FF UK Michal Křen Ústav Českého národního korpusu FF UK Petr Truneček Ústav Českého národního korpusu FF UK SynKorp: prostředí pro správu a zpracování textů Zveřejnění korpusu předchází často velké množství pro uživatele neviditelné práce, jejíž cíl můžeme charakterizovat jako kvalitně zpracované texty bez duplicit či jiných zjevných chyb. Zpracování textů do synchronních psaných korpusů řady SYN zahrnuje v zásadě tři hlavní kroky: akvizici (získání textu), jeho (víceméně automatickou) technickou konverzi do potřebného formátu a (převážně manuální) anotaci. Anotací je v tomto textu míněno pouze doplňování bibliografické informace spolu s evaluativním určováním typu textu a žánru; lemmatizace a morfologické značkování probíhají až v další fázi, jejíž popis není cílem příspěvku. Dosud se v ČNK pro konverzi a anotaci korpusů řady SYN používaly nástroje, které začaly vznikat už v polovině 90. let; tyto nástroje byly v dalších letech průběžně vylepšovány a doplňovány. Postupně tak vznikla sada nástrojů, jimiž byly zpracovány všechny dosud zveřejněné korpusy řady SYN (Hnátková et al. 2014). Jednotlivé nástroje však byly příliš specifické a málo flexibilní a především používaly dnes již překonané standardy (SGML, 8-bitové kódování češtiny). Průběžné modernizaci bránila komplexnost celé sady nástrojů a jejich vzájemná provázanost, stejně jako (možná paradoxně) jejich spolehlivost: jednotlivé komponenty byly odladěné a vhodně parametrizované, což zvyšovalo nároky na nový systém, stejně jako čas potřebný k jeho implementaci. Protože šlo o nástroje v mnoha ohledech zastaralé, začaly práce na kompletním přepracování celého procesu včetně adaptace či výměny všech výkonných skriptů. Kromě potřeby radikálních změn bylo zřejmé, že je nutné zachovat to, co se osvědčilo, a tím je především základní princip používat 35

36 cílené procedury aplikované v závislosti na zdroji dat spolu s průběžnými kontrolami jejich výstupů. Hlavní cíle vývoje nového prostředí SynKorp tedy byly: 1. integrace správy textů, anotace a konverze pro synchronní psané korpusy do jednotného systému; 2. přechod na nové standardy (XML, UTF-8); 3. preference etablovaných nástrojů (jsou-li pro daný účel dostupné); 4. modularita, tj. možnost snadné výměny komponent; 5. revize architektury databáze používané pro správu textů spojená s obohacením o další údaje; 6. anotace s externě definovatelnými závislostmi jednotlivých položek; 7. spouštění konverzí přes webové rozhraní zahrnující snadnou konfigurovatelnost (zapojování/vyřazování konkrétních nástrojů a jejich parametrizaci) a kvalitativní kontroly; 8. zrychlení celého procesu; 9. zachování kvality a spolehlivosti původních nástrojů; 10. využitelnost nové sady nástrojů také pro další účely. Postup zpracování textů implementovaný v SynKorpu je principiálně velice podobný původnímu, pouze je celý (od jednotlivých nástrojů až po uživatelské rozhraní) realizován jinými programy. Typický proces zpracování textu v SynKorpu probíhá v následujících čtyřech krocích. 1. Získaný text je spolu s dostupnými metadaty evidován v databázi. 2. Text je spolu s dalšími texty stejného formátu a/nebo ze stejného zdroje převeden z původního formátu (.txt,.doc,.pdf,.epub apod.) do jednotného XML meziformátu. Tento meziformát je založen na doporučeních TEI, umožňuje zachování řady dosud opomíjených jevů (řezy písma, nadpisy, poznámky pod čarou, verše, repliky v dramatech, přímá řeč) a zároveň je navržen tak, aby vyhovoval potřebám zpracování textů také v dalších sekcích ČNK. 3. Meziformát je anotován v komfortním webovém prostředí s možností volby mezi anotací manuální (typicky pro neperiodika) a dávkovou (periodika). 4. Nakonec probíhá čištění, které je možné provádět podle potřeby pouze částečně nebo vůbec: detekce a odstraňování cizojazyčných částí textu (Cavnar & Trenkle 1994), duplicit (Onion & Pomikálek 2011; jeho použití viz Benko 2013) a odstavců obsahujících velké množství čísel, tabulek nebo seznamů; obecně jde o části textu, jejichž přítomnost v kor- 36

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze O (Ú)ČNK Ústav Českého národního korpusu, založen v roce

Více

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st. Korpusová lingvistika a počítačová Od 60. let 20. st. Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené

Více

Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D.

Validita korpusu ORAL2013. Mgr. Jan Chromý, Ph.D. Validita korpusu ORAL2013 Mgr. Jan Chromý, Ph.D. Obsah korpus ORAL2013 validita ORAL2013 cíl represent spontanneous spoken Czech in a sociolinguistically balanced way (Válková et al. 2012) charakteristiky

Více

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105 Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl

Více

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY Datum konání: 11. dubna 2014 Místo konání: Filozofická fakulta Masarykovy univerzity (učebna G13) Název přednášky: Přednášející: Webové korpusy Aranea

Více

Publikační činnost. Václav Cvrček

Publikační činnost. Václav Cvrček Publikační činnost Monografie a rozsáhlejší publikace: Cvrček, V.: Kvantitativní analýza kontextu. NLN. Praha 2013. Cvrček, V. Cvrčková Porkertová, L.: Velký slovník rýmů. NLN. Praha 2011. Cvrček, V. Kodýtek,

Více

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Korpusová lingvistika a počítačové zpracování přirozeného jazyka Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář

Více

2. Korpusový portál a volně dostupné nástroje

2. Korpusový portál a volně dostupné nástroje 1. Něco málo o jazykových korpusech co to je a jak se to používá 2. Korpusový portál a volně dostupné nástroje webový portál www.korpus.cz 3. Korpusový nástroj SyD porovnání dvou a více slov z hlediska

Více

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady

Více

Specializovaný korpus BANÁT a jeho využití

Specializovaný korpus BANÁT a jeho využití Specializovaný korpus BANÁT a jeho využití Klára Dvořáková, Zuzana Komrsková a Karolína Vyskočilová klara.dvorakova@ujc.cas.cz zuzana.komrskova@ff.cuni.cz karolina.vyskocilova@ff.cuni.cz Korpusová lingvistika

Více

Specializované korpusy mluveného jazyka - jejich tvorba a využití

Specializované korpusy mluveného jazyka - jejich tvorba a využití Specializované korpusy mluveného jazyka - jejich tvorba a využití Karolína Vyskočilová 34. Žďárek, Poděbrady, 2. 4. května 2014 vyskoczilova@seznam.cz Obsah příspěvku korpusy čeština v zahraničí BANÁT

Více

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová KOGNITIVNÍ LINGVISTIKA Jazyk a jeho užívání jsou jednou z kognitivních aktivit lidské mysli. Kognitivní lingvisté předpokládají, že jazyk

Více

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem; NABÍDKOVÝ LIST Ústav Českého národního korpusu Filozofická fakulta UK v Praze www.korpus.cz Odborné zaměření Český národní korpus je akademický projekt při FF UK, který se dlouhodobě soustředí na sběr,

Více

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností Nová cesta k modernímu jednojazyčnému výkladovému slovníku současné češtiny: koncepční poznámky ke struktuře dat v novém DWS Pavla Kochová, Zdeňka Opavská 1. Úvod V oddělení současné lexikologie a lexikografie

Více

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz

Více

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický OBSAH Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický Úvod Rozdělení jazykového rozboru Poměr fonologie k fonetice. Dějiny bádání Fonémy a varianty Monofonémové hodnocení hláskových komplexů Dvoufonémové

Více

1. Přehled cizojazyčných a vícejazyčných korpusů

1. Přehled cizojazyčných a vícejazyčných korpusů 1. Přehled cizojazyčných a vícejazyčných korpusů typy korpusů a možnosti jejich využití 2. Nová verze korpusu InterCorp (prosinec 2014) nové jazyky a texty lemmatizace a značkování 3. Webové korpusy srovnatelné

Více

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D. PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno Mgr. Dana Hlaváčková, Ph.D. Korpusová lingvistika v ČR lexikografické počátky 1988 Iniciativní skupina pro

Více

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1 Filozofická fakulta Na této stránce najdete kompletní nabídku Filozofické fakulty Univerzity Karlovy. Pokud máte zájem o kompletní nabídku, navštivte hlavní stránku. Přehled vědeckých týmů Centrum pro

Více

Protetické v- v pražské mluvě. seminář Příprava a realizace interdisciplinárního výzkumu

Protetické v- v pražské mluvě. seminář Příprava a realizace interdisciplinárního výzkumu Protetické v- v pražské mluvě seminář Příprava a realizace interdisciplinárního výzkumu Osnova shrnutí dosavadní literatury metodologie našeho výzkumu dosavadní výsledky Dosavadní literatura shrnuje James

Více

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého Počet kreditů: 1 Typ předmětu: volitelný Způsob zakončení: zápočet Garant

Více

Karel Pala, Vít Suchomel

Karel Pala, Vít Suchomel PA153 Počítačové zpracování přirozeného jazyka 06 Korpusy a korpusové nástroje, značkování Karel Pala, Vít Suchomel Centrum ZPJ, FI MU, Brno 21. října 2013 Karel Pala, Vít Suchomel PA153 Zpracování přirozeného

Více

Čeština doma & ve světě. [nová]

Čeština doma & ve světě. [nová] Čeština doma & ve světě [nová] 1 2015 Nová čeština doma a ve světě Filozofická fakulta Univerzity Karlovy v Praze 1/2015 Redakce: Vedoucí redaktorka Mgr. Kateřina Romaševská, Ph.D. Výkonná redaktorka Mgr.

Více

Korpus spontánní mluvené češtiny ORAL2013 1

Korpus spontánní mluvené češtiny ORAL2013 1 Lucie Benešová Michal Křen Martina Waclawičová ČASOPIS PRO MODERNÍ FILOLOGII 97, 2015, Č. 1, S. 42 50 Korpus spontánní mluvené češtiny ORAL2013 1 Lucie Benešová, Michal Křen, Martina Waclawičová (Praha)

Více

Popis morfologických značek poziční systém

Popis morfologických značek poziční systém Popis morfologických značek poziční systém Jan Hajič Ústav formální a aplikované lingvistiky MFF UK Morfologická analýza a syntéza Morfologické značky jsou součástí výsledku (výstupem) morfologické analýzy,

Více

Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová

Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová Aplikovaná lingvistika Příručka pro studenty Bc. studia ČJL KAROLINUM Aplikovaná lingvistika Příručka pro studenty Bc. studia ČJL Karel

Více

NÁVRHY TEMATICKÝCH PLÁNŮ. 1. ročník Počet hodin

NÁVRHY TEMATICKÝCH PLÁNŮ. 1. ročník Počet hodin Návrhy tematických plánů Střední odborná škola 1. Návrh tematického plánu mluvnice 1. ročník Počet hodin Racionální studium textu 1 Základy informatiky získávání a zpracování informací 1 Jazykověda a její

Více

NLP & strojové učení

NLP & strojové učení NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování

Více

Univerzita Karlova v Praze, Nakladatelství Karolinum, 2015 Robert Adam, 2015

Univerzita Karlova v Praze, Nakladatelství Karolinum, 2015 Robert Adam, 2015 Morfologie Příručka k povinnému předmětu bakalářského studia oboru ČJL Robert Adam Grafická úprava Jan Šerých Sazba DTP Nakladatelství Karolinum Vydání první Univerzita Karlova v Praze, Nakladatelství

Více

Sémantický web a extrakce

Sémantický web a extrakce Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací

Více

Analýza staročeské morfologie v Excelu

Analýza staročeské morfologie v Excelu Analýza staročeské morfologie v Excelu B O R I S L E H E Č K A, B O R I S @ D A L I B O R I S. C Z O D D Ě L E N Í V Ý V O J E J A Z Y K A Ú S T A V P R O J A Z Y K Č E S K Ý A V Č R L I N G V I S T I

Více

Retrográdní slovníky = inverzní

Retrográdní slovníky = inverzní Retrográdní slovníky = inverzní Přinášejí slovní zásobu (nebo její část) určitého jazyka v obráceném abecedním řazení (tj. od konce slova, a tergo) Jsou především zdrojem poznání slovotvorných typů a jejich

Více

Úvod do kvantitativní lingvistiky. Radek Čech

Úvod do kvantitativní lingvistiky. Radek Čech Úvod do kvantitativní lingvistiky Radek Čech Historie KL G. K. Zipf (1902-1950) PLK B. Trnka (problematika těsnopisu) M. Těšitelová a kol. G. Altmann, R. Köhler, L. Hřebíček Místo KL v lingvistice cíle

Více

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program https://ubs.ff.cuni.cz/cs/ Charakteristika studijního programu SP vychází zvl. z vědních oborů: lingvistika, literatura,

Více

Český jazyk - Jazyková výchova

Český jazyk - Jazyková výchova Prima Zvuková stránka jazyka Stavba slova a pravopis rozlišuje spisovný jazyk, nářečí a obecnou češtinu Jazyk a jeho útvary seznamuje se s jazykovou normou spisovně vyslovuje česká a běžně užívaná cizí

Více

MLUVNÍ KOMPONENTY V ČESKÉM ZNAKOVÉM JAZYCE BAKALÁŘSKÁ PRÁCE JIŘINA VLKOVÁ

MLUVNÍ KOMPONENTY V ČESKÉM ZNAKOVÉM JAZYCE BAKALÁŘSKÁ PRÁCE JIŘINA VLKOVÁ MLUVNÍ KOMPONENTY V ČESKÉM ZNAKOVÉM JAZYCE BAKALÁŘSKÁ PRÁCE JIŘINA VLKOVÁ CO JE CÍLEM TÉTO PREZENTACE? TEORETICKÁ ČÁST DEFINICE MLUVNÍHO KOMPONENTU Manuální Tvary, pozice a pohyby rukou Znakový jazyk dvojí

Více

Digitální učební materiál

Digitální učební materiál Digitální učební materiál Projekt Šablona Tématická oblast DUM č. CZ.1.07/1.5.00/34.0415 Inovujeme, inovujeme III/2 Inovace a zkvalitnění výuky prostřednictvím ICT (DUM) Anglický jazyk pro obor podnikání

Více

Český jazyk a literatura - jazyková výchova

Český jazyk a literatura - jazyková výchova Využívá znalostí získaných v předešlých ročnících. OPAKOVÁNÍ OPAKOVÁNÍ Vysvětlí pojmy: sl.nadřazené, podřazené a slova souřadná.uvede příklady. Rozpozná sl. jednoznač.a mnohoznačná. V textu vyhledá synonyma,

Více

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období 1. 2. 2016 31. 1. 2019 1. Úvod Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr.

Více

PROGRAM PONDĚLÍ 14. KVĚTNA 2018

PROGRAM PONDĚLÍ 14. KVĚTNA 2018 PROGRAM PONDĚLÍ 14. KVĚTNA 2018 8.30 9.45 REGISTRACE na FF UP, OLOMOUC: Křížkovského 10, přízemí, katedra bohemistiky 9.30 Pracovní setkání soutěžní poroty: místnost 1.42, celostátní kolo lingvistické

Více

Učebnice, cvičebnice, CD-Rom, počítačová učebna, dataprojektor, interaktivní tabule, mapy anglicky mluvících zemí

Učebnice, cvičebnice, CD-Rom, počítačová učebna, dataprojektor, interaktivní tabule, mapy anglicky mluvících zemí Předmět: Náplň: Třída: Počet hodin: Pomůcky: Anglický jazyk Jazyk a jazyková komunikace 1. ročník 4 hodiny týdně Učebnice, cvičebnice, CD-Rom, počítačová učebna, dataprojektor, interaktivní tabule, mapy

Více

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Jak lze v korpusech hledat doklady pro výzkum morfologie? Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy

Více

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, 2002. 504 s. ISBN 3-19-011601-6

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, 2002. 504 s. ISBN 3-19-011601-6 Německý jazyk začátečnický V rámci Inovace studijního programu PIS byly u studijního oboru německý jazyk začátečnický (NE2) vymezeny základní aspekty ve výuce tak, aby po ukončení studia byli studenti

Více

Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele

Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele Číslo projektu Název školy Autor Tematická oblast CZ.1.07/1.5.00/34.0743 Moravské gymnázium Brno s.r.o. Hana Blaudeová Český jazyk Ročník 2. Datum tvorby 05.05.2013 Anotace -prezentace určena pro učitele

Více

Výzkum komunikačního účinku propagace firmy GOTECH s.r.o. Eva Solařová

Výzkum komunikačního účinku propagace firmy GOTECH s.r.o. Eva Solařová Výzkum komunikačního účinku propagace firmy GOTECH s.r.o. Eva Solařová Bakalářská práce 2008 ABSTRAKT Tato bakalářská práce se zabývá analýzou marketingové komunikace firmy GOTECH s.r.o. Rozbor probíhá

Více

Vzdělávací obsah vyučovacího předmětu

Vzdělávací obsah vyučovacího předmětu Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 8. ročník Zpracovala: Mgr. Marie Čámská Jazyková výchova spisovně vyslovuje běžně užívaná cizí slova umí spisovně vyslovit běžná cizí slova

Více

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i n-gramy a textové korpusy n-gramy Pavel Rychlý, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Úkol: Je zadáno n slov textu, jaké slovo následuje s největší pravděpodobností? Obsah:

Více

Metodologie řízení projektů

Metodologie řízení projektů Metodologie řízení projektů Petr Smetana Vedoucí práce PhDr. Milan Novák, Ph.D. Školní rok: 2008-09 Abstrakt Metodologie řízení projektů se zabývá studiem způsobů řešení problémů a hledání odpovědí v rámci

Více

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D. PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D. PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika a počítačová lexikografie Mgr. Dana

Více

Strukturovaný životopis

Strukturovaný životopis Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český

Více

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech

Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech Kvantitativní analýza textu (její nástrahy, meze, perspektivy) Radek Čech http://www.cechradek.cz Kvantitativní analýza textu kvantifikace a její důsledky kvantifikace a operacionalizace případ volby jazykových

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

VOLITELNÉ PŘEDMĚTY - 4. ročník. Školní rok: Blok zaměřený na matematiku, fyziku a IVT. - cvičení z matematiky

VOLITELNÉ PŘEDMĚTY - 4. ročník. Školní rok: Blok zaměřený na matematiku, fyziku a IVT. - cvičení z matematiky VOLITELNÉ PŘEDMĚTY - 4. ročník Školní rok: 2018 2019 1. Blok zaměřený na matematiku, fyziku a IVT - cvičení z matematiky - cvičení z fyziky a informatiky 2. Blok společenskovědních předmětů - seminář humanitních

Více

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4. Anglicko český technický slovník Lingea Ing. Miroslav HEROLD, CSc. Na Jeronýmovi 2010 byl ke shlédnutí nový slovníkový titul pod rozhraním LEXICON 5 Anglicko-český technický slovník. Toto rozhraní bylo

Více

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání. - plynule čte v porozuměním text přiměřeného rozsahu a náročnosti KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - porozumí písemným nebo mluveným pokynům přiměřené složitosti - respektuje

Více

NĚKTERÉ OBVYKLÉ PROBLÉMY PŘI OSVOJOVÁNÍ ČESKÉHO HLÁSKOVÉHO SYSTÉMU CIZINCI (Ne)problematický vztah hláska foném grafém

NĚKTERÉ OBVYKLÉ PROBLÉMY PŘI OSVOJOVÁNÍ ČESKÉHO HLÁSKOVÉHO SYSTÉMU CIZINCI (Ne)problematický vztah hláska foném grafém NĚKTERÉ OBVYKLÉ PROBLÉMY PŘI OSVOJOVÁNÍ ČESKÉHO HLÁSKOVÉHO SYSTÉMU CIZINCI (Ne)problematický vztah hláska foném grafém 37. setkání AUČCJ Praha 19. 5. 2012 Jaroslav Šimek jarasimek@centrum.cz Hláska foném

Více

SEZNAM ANOTACÍ. CZ.1.07/1.5.00/34.0527 III/2 Inovace a zkvalitnění výuky prostřednictvím ICT VY_32_INOVACE_AJ7 Word Expansion

SEZNAM ANOTACÍ. CZ.1.07/1.5.00/34.0527 III/2 Inovace a zkvalitnění výuky prostřednictvím ICT VY_32_INOVACE_AJ7 Word Expansion SEZNAM ANOTACÍ Číslo projektu Číslo a název šablony klíčové aktivity Označení sady DUM Tematická oblast CZ.1.07/1.5.00/34.0527 III/2 Inovace a zkvalitnění výuky prostřednictvím ICT VY_32_INOVACE_AJ7 Word

Více

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/ Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami reg. č.: CZ.1.07/2.2.00/28.0076 Úvod do kvantitativní lingvistiky Radek Čech Kvantitativní lingvistika co Vás napadne,

Více

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku. - plynule čte s porozuměním text přiměřeného rozsahu a náročnosti KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. OSV (komunikace)- specifické komunikační dovednosti - porozumí písemným

Více

SADA VY_32_INOVACE_CJ1

SADA VY_32_INOVACE_CJ1 SADA VY_32_INOVACE_CJ1 Přehled anotačních tabulek k dvaceti výukovým materiálům vytvořených Mgr. Bronislavou Zezulovou a Mgr. Šárkou Adamcovou. Kontakt na tvůrce těchto DUM: zezulova@szesro.cz a adamcova@szesro.cz

Více

Olympiáda v českém jazyce 45. ročník, 2018/2019

Olympiáda v českém jazyce 45. ročník, 2018/2019 Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, 110 00 Praha 1 Olympiáda v českém jazyce 45. ročník, 2018/2019 Krajské kolo zadání II. kategorie přidělené soutěžní číslo body gramatika

Více

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA

Český jazyk a literatura komunikační a slohová výchova ročník TÉMA Český jazyk a literatura komunikační a slohová výchova ročník TÉMA 1 Nauka o slohu - objasní základní pojmy stylistiky Styl prostě sdělovací - rozpozná funkční styl, dominantní slohový Popis a jeho postup

Více

RECENZE A REFERÁTY 247

RECENZE A REFERÁTY 247 RECENZE A REFERÁTY 247 ohledu na území českého národního jazyka, z nějž text pochází, v podstatě stejná (zhruba v rozmezí 2,5-3 slabiky; stranou byly ponechány pouze texty z lašské nářeční oblasti, které

Více

Fonologický lexikální korpus češtiny a jeho analýza 1 Aleš Bičan, bican@phil.muni.cz Ústav pro jazyk český AV ČR, Veveří 97, Brno

Fonologický lexikální korpus češtiny a jeho analýza 1 Aleš Bičan, bican@phil.muni.cz Ústav pro jazyk český AV ČR, Veveří 97, Brno Fonologický lexikální korpus češtiny a jeho analýza 1 Aleš Bičan, bican@phil.muni.cz Ústav pro jazyk český AV ČR, Veveří 97, Brno Abstrakt: The paper describes the Phonological Lexical Corpus of Czech

Více

Vysoké školy na Slovensku Prieskum verejnej mienky

Vysoké školy na Slovensku Prieskum verejnej mienky Vysoké školy na Slovensku 201 Prieskum verejnej mienky PRIESKUM VÁCLAV FORST Marketing Research Consultant Metodológia Zber dát bol realizovaný formou internetového dotazníka (CAWI) prostredníctvom internetového

Více

SEMINÁŘ Z ČESKÉHO JAZYKA. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu

SEMINÁŘ Z ČESKÉHO JAZYKA. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu SEMINÁŘ Z ČESKÉHO JAZYKA Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu Charakteristika vzdělávacího oboru Seminář z českého jazyka Dovednost užívat češtiny jako mateřského jazyka v jeho mluvené i

Více

Využití zakotvené teorie pro výzkum volby školy na úrovni primárního vzdělávání

Využití zakotvené teorie pro výzkum volby školy na úrovni primárního vzdělávání Využití zakotvené teorie pro výzkum volby školy na úrovni primárního vzdělávání Jaroslava Simonová Ústav výzkumu a rozvoje vzdělávání Pedagogická fakulta UK Praha výzkumný projekt Přechod mezi preprimárním

Více

Olympiáda v českém jazyce 45. ročník, 2018/2019

Olympiáda v českém jazyce 45. ročník, 2018/2019 Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, 110 00 Praha 1 Olympiáda v českém jazyce 45. ročník, 2018/2019 Okresní kolo zadání I. kategorie přidělené soutěžní číslo body gramatika

Více

Jazyková EUROMOZAIKA místo pro divergenci / konvergenci jazyků(?)

Jazyková EUROMOZAIKA místo pro divergenci / konvergenci jazyků(?) OLOMOUC 2013 6. 8. května XIV. mezinárodní setkání mladých lingvistů Jazyková EUROMOZAIKA místo pro divergenci / konvergenci jazyků(?) Jste srdečně zváni na setkání mladých lingvistů rozvíjející tradici

Více

Průzkum paralelních dvojjazyčných textů v otázce určení autorství staročeského překladu

Průzkum paralelních dvojjazyčných textů v otázce určení autorství staročeského překladu Průzkum paralelních dvojjazyčných textů v otázce určení autorství staročeského překladu Markéta Pytlíková Lingvistika Praha 2014 11. 4. 2014 ÚJČ AV ČR pytlikova@ujc.cas.cz Atribuce překladového textu Atribuce

Více

Metodologie výzkumu mezigeneračního učení: od otázek k výsledkům

Metodologie výzkumu mezigeneračního učení: od otázek k výsledkům Metodologie výzkumu mezigeneračního učení: od otázek k výsledkům Milada Rabušicová Lenka Kamanová Kateřina Pevná Ústav pedagogických věd, Filozofická fakulta Masarykovy university, Brno Výzkumný projekt

Více

ve strojovém překladu

ve strojovém překladu Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém

Více

DeriNet: Lexikální databáze českých derivátů

DeriNet: Lexikální databáze českých derivátů DeriNet: Lexikální databáze českých derivátů Magda Ševčíková, Zdeněk Žabokrtský {sevcikova,zabokrtsky}@ufal.mff.cuni.cz Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované

Více

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce 1 JAZYK A JAZYKOVÁ KOMUNIKACE UČEBNÍ OSNOVY 1. 2 Cvičení z českého jazyka Cvičení z českého jazyka 7. ročník 1 hodina 8. ročník 1 hodina 9. ročník 1 hodina Charakteristika Žáci si tento předmět vybírají

Více

KATEDRA ČESKÉHO JAZYKA

KATEDRA ČESKÉHO JAZYKA KATEDRA ČESKÉHO JAZYKA TÉMATA Diplomových prací Bakalářských prací pro akademický rok 2017/2018 Doc. Mgr. Robert Adam, Ph.D. 1. Variantní tvary sloves vzoru "sází" a dějová adjektiva od nich tvořená (šlo

Více

Topospolitické korektnosti v současném českém mediálním diskurzu

Topospolitické korektnosti v současném českém mediálním diskurzu Topospolitické korektnosti v současném českém mediálním diskurzu Eva Lehečková a Michal Hořejší Ústav českého jazyka a teorie komunikace FF UK eva.leheckova@ff.cuni.cz; mhorejsi@ujc.cas.cz Konference České

Více

PROPOJENÍ VĚDY, VÝZKUMU, VZDĚLÁVÁNÍ A PODNIKOVÉ PRAXE. PhDr. Dana Pokorná, Ph.D. Mgr. Jiřina Sojková, Státní zámek Sychrov, 21. 23. 5.

PROPOJENÍ VĚDY, VÝZKUMU, VZDĚLÁVÁNÍ A PODNIKOVÉ PRAXE. PhDr. Dana Pokorná, Ph.D. Mgr. Jiřina Sojková, Státní zámek Sychrov, 21. 23. 5. PROPOJENÍ VĚDY, VÝZKUMU, VZDĚLÁVÁNÍ A PODNIKOVÉ PRAXE PhDr. Dana Pokorná, Ph.D. Mgr. Jiřina Sojková, Státní zámek Sychrov, 21. 23. 5. 2012 APSYS Aplikovatelný systém dalšího vzdělávání pracovníků ve vědě

Více

RVP ŠVP UČIVO - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov

RVP ŠVP UČIVO - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov Dodatek č.17 PŘEDMĚT: ČESKÝ JAZYK A LITERATURA ROČNÍK: 8. ročník ČESKÝ JAZYK - rozlišuje a příklady v textu dokládá nejdůležitější způsoby obohacování slovní zásoby a zásady tvoření českých slov - rozlišuje

Více

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce

Více

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující

Více

Informační média a služby

Informační média a služby Informační média a služby Výuka informatiky má na Fakultě informatiky a statistiky VŠE v Praze dlouholetou tradici. Ke dvěma již zavedeným oborům ( Aplikovaná informatika a Multimédia v ekonomické praxi

Více

VÝVOJ OBYVATELSTVA ČESKA V POSLEDNÍCH 100 LETECH: HISTORICKÝ ATLAS OBYVATELSTVA ČESKÝCH ZEMÍ

VÝVOJ OBYVATELSTVA ČESKA V POSLEDNÍCH 100 LETECH: HISTORICKÝ ATLAS OBYVATELSTVA ČESKÝCH ZEMÍ VÝVOJ OBYVATELSTVA ČESKA V POSLEDNÍCH 100 LETECH: HISTORICKÝ ATLAS OBYVATELSTVA ČESKÝCH ZEMÍ Petra Špačková, Martin Ouředníček, Jana Jíchová, Lucie Pospíšilová & kolektiv projektu NAKI XLVII. konference

Více

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie

OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie OBECNÁ JAZYKOVĚDA (dvouoborové bakalářské studium) B 7310 Filologie Y SPOLEČNÉHO ZÁKLADU POVINNÉ 1 1. Úvod do filozofie* 2. Cizí jazyk** 0p + 12s 3 Zk (Platnost akreditace: 17.2. 2009 1.3. 2015) Zk p 6

Více

Kolísání rodu substantiv

Kolísání rodu substantiv Kolísání rodu substantiv Alena Poncarová alena.poncarova@gmail.com Ţďárek duben 2012 Ţďárek Proč se zabývám jmenným rodem Jmenný rod jako takový Kolísání v širokém slova smyslu Některé problémy bádání

Více

OXICO. jazykové knihy. ponuka platí do

OXICO. jazykové knihy. ponuka platí do vianocná ponuka anglický jazyk OXICO jazykové knihy ponuka platí do 31. 12. 2017 Macmillan English Grammar in Context Essential, Intermediate, Advanced Séria troch učebníc anglickej gramatiky je rozdelená

Více

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova Vyučovací předmět: Český jazyk a literatura Ročník: 6. Vzdělávací obsah Očekávané výstupy z RVP ZV Školní výstupy Učivo Přesahy a vazby, průřezová témata rozlišuje spisovný jazyk, nářečí a obecnou češtinu

Více

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda KATEDRA ČESKÉHO JAZYKA A LITERATURY S DIDAKTIKOU, PdF OU Sledované učebnice: Český jazyk učebnice pro základní školy (2. 5. ročník),

Více

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15) TEMATICKÝ PLÁN (ŠR 2014/15) PŘEDMĚT Český jazyk TŘÍDA/SKUPINA VYUČUJÍCÍ ČASOVÁ DOTACE UČEBNICE (UČEB. MATERIÁLY) - ZÁKLADNÍ POZN. (UČEBNÍ MATERIÁLY DOPLŇKOVÉ aj.) sekunda Mgr. Barbora Maxová 2hod/týden,

Více

Faktorované překladové modely. Základní informace

Faktorované překladové modely. Základní informace Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace

Více

Tematický plán pro školní rok 2016/2017 Předmět: Český jazyk a literatura Vyučující: Mgr. Jana Paličková Týdenní dotace hodin: 9 hodin Ročník: druhý

Tematický plán pro školní rok 2016/2017 Předmět: Český jazyk a literatura Vyučující: Mgr. Jana Paličková Týdenní dotace hodin: 9 hodin Ročník: druhý ČASOVÉ OBDOBÍ Září 1. 30. 9. 1. 5. 28. 9. státní svátek KONKRÉTNÍ VÝSTUPY respektuje základní komunikační pravidla v rozhovoru volí vhodné verbální a nonverbální prostředky řeči v běžných školních i mimoškolních

Více

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát Kvantitativní analýza žánrů Radek Čech & Miroslav Kubát Východiska 1. jazyk jako projev chování 2. jazykové chování ovlivněno pragmatickými faktory (kontextem) 3. některé kontexty se opakují a vykazují

Více

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115 Číslo projektu: Číslo šablony: Název materiálu: Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115 CZ.1.07/1.5.00/34.0410 II/2 Parts of a computer IT English Ročník: Identifikace materiálu: Jméno

Více

OCHRANA INOVÁCIÍ PROSTREDNÍCTVOM OBCHODNÝCH TAJOMSTIEV A PATENTOV: DETERMINANTY PRE FIRMY EURÓPSKEJ ÚNIE ZHRNUTIE

OCHRANA INOVÁCIÍ PROSTREDNÍCTVOM OBCHODNÝCH TAJOMSTIEV A PATENTOV: DETERMINANTY PRE FIRMY EURÓPSKEJ ÚNIE ZHRNUTIE OCHRANA INOVÁCIÍ PROSTREDNÍCTVOM OBCHODNÝCH TAJOMSTIEV A PATENTOV: DETERMINANTY PRE FIRMY EURÓPSKEJ ÚNIE ZHRNUTIE júl 2017 OCHRANA INOVÁCIÍ PROSTREDNÍCTVOM OBCHODNÝCH TAJOMSTIEV A PATENTOV: DETERMINANTY

Více

PROJEKT BAKALÁŘSKÉ PRÁCE

PROJEKT BAKALÁŘSKÉ PRÁCE PROJEKT BAKALÁŘSKÉ PRÁCE Univerzita Karlova v Praze Fakulta sociálních věd Institut sociologických studií Katedra sociologie PŘEDPOKLÁDANÝ NÁZEV BAKALÁŘSKÉ PRÁCE: PODNIKOVÉ VZDĚLÁVÁNÍ A JEHO VZTAH K MOBILITĚ

Více

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen Paralelní korpusy 0/2 Z, zimní semestr 2006/2007 Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofická fakulta Univerzity Karlovy v Praze Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 1

Více

NĚMECKÝ JAZYK A LITERATURA (jednooborové bakalářské studium) B 7310 Filologie

NĚMECKÝ JAZYK A LITERATURA (jednooborové bakalářské studium) B 7310 Filologie NĚMECKÝ JAZYK A LITERATURA (jednooborové bakalářské studium) B 7310 Filologie 1. Úvod do filozofie * PŘEDMĚTY SPOLEČNÉHO ZÁKLADU POVINNÉ 1 způs. zak. (Platnost akreditace: 24.4. 2008 30.4. 2012) druh před.

Více

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus? n-gramy a textové korpusy n-gramy Pavel Rychlý, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Úkol: Je zadáno n slov textu, jaké slovo následuje s největší pravděpodobností? Obsah:

Více

Přehled modelů reputace a důvěry na webu

Přehled modelů reputace a důvěry na webu Přehled modelů reputace a důvěry na webu Jiří Vaňásek Ing. Ladislav Beránek Školní rok: 2008-09 Abstrakt V online systémech se musíme spoléhat na mechanismy implementované v rámci daného systému, na reputační

Více

Modul 3 Indikátory ke sledování jazykové gramotnosti

Modul 3 Indikátory ke sledování jazykové gramotnosti Modul 3 Indikátory ke sledování jazykové gramotnosti Modul 3 popisuje základní přístup k volbě nových indikátorů pro sledování podpory rozvoje jazykové gramotnosti, uvádí východiska pro jejich výběr, jejich

Více