Identifikace derivačních vztahů ve španělštině JÁN FARYAD. ÚFAL Technical Report TR ISSN
|
|
- Bohuslav Bláha
- před 5 lety
- Počet zobrazení:
Transkript
1 M A T E M A T I C K O - F Y Z I K Á L N Í F A K U L T A P R A H A Identifikace derivačních vztahů ve španělštině JÁN FARYAD ÚFAL Technical Report TR ISSN U N I V E R S I T A S C A R O L I N A P R A G E N S I S
2 Copies of ÚFAL Technical Reports can be ordered from: Institute of Formal and Applied Linguistics (ÚFAL MFF UK) Faculty of Mathematics and Physics, Charles University Malostranské nám. 25, CZ Prague 1 Czechia or can be obtained via the Web:
3 Identifikace derivačních vztahů ve španělštině Ján Faryad Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova 13. září 2019 Abstrakt V posledních letech se v rámci počítačové lingvistiky věnuje stále větší pozornost derivační morfologii, která zkoumá proces odvozování slov v jazyce (např. znak značka značkový). Za tímto účelem vznikají lexikální databáze odvozených slov v různých jazycích. Předložená zpráva popisuje projekt, během něhož vznikla derivační databáze pro španělštinu DeriNet.ES. Podle vzoru české databáze DeriNet reprezentuje španělská databáze slova sdílející týž slovní kořen jako zakořeněný orientovaný strom. Derivační vztahy byly vytvářeny na základě substitučních pravidel. Pomocí metrik precision a recall je představena úspěšnost vytvořených derivačních párů. Jedním z přínosů práce je prezentovaná metoda určování derivačních vztahů, zejména pak použitá substituční pravidla. Vzniklá databáze obsahuje lemmat a derivačních vztahů a je dostupná na webových stránkách Ústavu formální a aplikované lingvistiky. 1 Úvod Ve srovnání s flektivní morfologií, jíž se počítačová lingvistika už dlouho zabývá (etablovanou úlohou je např. morfologická analýza - Hajič 2004, Straková et al. 2014), se derivační morfologii začala věnovat větší pozornost teprve v posledních letech. Tato lingvistická disciplína zkoumá proces odvozování slov, zvláště pomocí předpon a přípon (např. učit naučit, učit učitel). Za tímto účelem vznikají lexikální databáze, které se snaží tento jazykový jev náležitě modelovat. Na Ústavu formální a aplikované lingvistiky (ÚFAL) MFF UK byla práce na tvorbě těchto zdrojů orientována zpočátku pouze na češtinu. Lexikální databáze českých derivátů DeriNet (Ševčíková et al., 2016) je zde budována od roku Současná verze databáze DeriNet 2.0 (Vidra et al., 2019) obsahuje přes milion lemmat propojených více než derivačními vztahy. Za účelem zkoumání lingvistických jevů napříč jazyky vznikají jazykové zdroje anotované podle stejných pravidel v oblasti syntaxe např. anotační 1
4 projekt Universal Dependencies, na jehož vývoji se ÚFAL podílí (Nivre, 2019). Podobným způsobem se uvažuje o harmonizaci anotačních stylů různých jazykových zdrojů modelujících derivace (Kyjánek et al., 2019). Na ÚFAL vznikly pilotní derivační databáze také pro další jazyky včetně španělštiny (Lango et al., 2018). Struktura španělské databáze byla inspirována českým DeriNetem. Lemmata v ní jsou modelována jako uzly a vztah derivace mezi nimi je reprezentován hranou vedoucí od derivovaného lemmatu k základovému. Slova sdílející tentýž lexikální kořen pak tvoří v databázi zakořeněný orientovaný strom. Pilotní španělská databáze Spanish Word-Formation Network (WFN) obsahovala lemmat a derivačních vztahů mezi nimi, řada z nich však byla chybná. Předkládaná zpráva popisuje projekt, jehož původním cílem bylo upravit a rozšířit španělskou derivační databázi Spanish WFN co do sady lemmat i derivačních relací. Vzhledem k množství chybných derivačních relací však bylo rozhodnuto, že vznikne nová databáze, DeriNet.ES, do níž bude převzato schéma modelování závislostí a také většina lemmat z původní sady, nicméně sít derivačních vztahů bude vybudována nově, nezávisle na derivacích v původní databázi. Příspěvek je rozdělen do tří částí. V první části (oddíl 2) je představen postup úpravy a doplnění původní sady lemmat, druhá část (oddíl 3) podrobně popisuje postup vytváření nových derivačních relací mezi lemmaty. Vyhodnocení správnosti derivačních vztahů v nové databázi DeriNet.ES a její srovnání se Spanish WFN je provedeno ve třetí části (oddíl 4). 2 Úprava sady lemmat Prvním cílem práce bylo upravit sadu lemmat. Úprava proběhla ve dvou krocích: doplnění nových lemmat z jiných zdrojů a odstranění lemmat, která z různých důvodů nejsou vhodná pro zařazení do databáze. Za účelem doplnění lemmat byly použity dva další zdroje. Šlo zejména o 22. vydání slovníku Španělské královské akademie (Ruiz, 2010). Slovník sice obsahuje lemmat, nicméně velká část jich už byla v původní databázi zahrnuta. Dalším použitým zdrojem byl seznam archaických výrazů (Flores, 2018). Tento zdroj však obsahuje pouze lemmat, z nichž se část nacházela už v původní databázi a většina byla shodná s lemmaty z prvního zdroje. Ve výsledku bylo do databáze přidáno nových lemmat, převážně z prvního zdroje. V lemmasetu Spanish WFN se nacházela také nevhodná lemmata, která bylo zapotřebí odstranit. Jednalo se např. o neslovní řetězce: interpunkci, zkratky nebo unigramy a bigramy bez významu ve španělštině (např. q, pu, my, oz). Tato lemmata bylo možné snadno identifikovat a odstranit bud automaticky, nebo ručně. Jinou skupinu nežádoucích lemmat tvořila slova, která nepatří do běžné slovní zásoby španělštiny. Mezi nimi vynikalo nepřiměřeně velké množství francouzských toponym, konkrétně názvů obcí. Jejich odstranění bylo obtížným 2
5 Obrázek 1: Porovnání původní a revidované sady lemmat úkolem, nebot mnoho z nich není snadno odlišitelných od jiných vlastních jmen. U španělských či mezinárodních vlastních jmén je vhodné, aby byla v databázi zahrnuta, protože jsou přirozenou součástí jazyka a vstupují do slovotvorných procesů. Proto byla odebrána pouze taková francouzská toponyma, která bylo možné spolehlivě identifikovat, nebot obsahovala větší počet pomlček (např. Saint-Pierre-du-Val) nebo typické koncové řetězce (-ville a -court). Celkově bylo z původní sady odstraněno lemmat. Lemmaset databáze DeriNet.ES má lemmat, což je sice méně, než měla Spanish WFN, zato jsou však revidovaná lemmata reprezentativnější než původní sada lemmat. Na obrázku 1 je znázorněn přehled počtu a podílu odstraněných a nově přidaných lemmat v obou sadách. 3 Vytváření derivačních vztahů Druhým úkolem projektu bylo nalézt mezi lemmaty derivační vztahy. Řešení spočívalo v navržení substitučních pravidel, podle kterých byly afixy (tj. prefixy i sufixy) derivátů nahrazeny afixem předpokládaného základového slova. Pokud bylo takto vytvořené lemma přítomné v databázi, byl mezi ním a derivátem vyznačen vztah derivace. Pro dosažení lepšího pokrytí se nebrala v úvahu skutečná podoba lemmat, nýbrž podoba normalizovaná: bez diakritiky a s konverzí na malá písmena. Každé pravidlo má tvar [derivační afix] [základový afix], např. able ar. Při tvorbě pravidel se dodržovala podmínka, aby afix derivátu nebyl kratší než afix základového slova. Lemmata mají v databázi podobu řetězce znaků a nelze poznat, kde je hranice mezi kořenem a afixem. Proto byla provedena analýza frekvence stejných podřetězců na začátku a na konci lemmat, což pomohlo odhadnout, které podřetězce představují afixy. Pro tento rozbor byl vytvořen nástroj, který seřadí počáteční a koncové podřetězce podle četnosti jejich výskytu. Dále pro každý podřetězec prozkoumá, u kolika lemmat jej lze nahradit jiným podřetězcem, a tyto možné substituce opět seřadí podle frekvence (výstup nástroje je znázorněn na obrázku 2). Takto vytvořený seznam posloužil jako jeden z podkladů pro 3
6 Obrázek 2: Ukázka výstupu nástroje: počet výskytů sufixu a jeho možných substitucí i s náhodnými příklady 1123 able 776 ar arrug- compar- honor- contrat- 502 ador polariz- limpi- respet- aconsej- 354 ado conden- guard- enchuf- identific- 233 o alter- lament- tach- ecu- 217 ante magnetiz- coagul- ferment- son- 188 a deriv- visit- vapor- conjetur- 88 al lacrim- emocion- interes- proces- 82 e grav- moj- pesc- confort- 77 ada entreg- fum- escal- j- 70 oso vituper- honr- agasaj- dudnávrhy substitučních pravidel. Několik dalších pravidel bylo navrženo na základě vlastní jazykové intuice. Uvedeným způsobem bylo pro prefixy vytvořeno 43 pravidel, přičemž základový afix je vždy nulový jde tedy o pouhé připojení předpony na začátek základového slova. Jedná se převážně o předpony odvozené ze španělských předložek (např. tras-, con-, sub-) nebo z řeckých či latinských slov (např. hipo-, super-, micro-, multi-). U sufixů je situace složitější: základové sufixy jsou většinou nenulové a navíc je velmi časté, že jedem derivační sufix může být pomocí různých pravidel nahrazen různými základovými sufixy. Mnohdy bývá derivační sufix substituován typickými jmennými (-o, -a, -e) nebo slovesnými (-ar, -er, -ir) sufixy, přičemž v různých případech je třeba použít jiné z těchto pravidel pro nalezení existujícího základového slova. Pravidla jsou uvedena v sestupném pořadí podle jejich pravděpodobnosti. Pokud je v datech přítomno více slov vzniklých použitím různých pravidel náležících jednomu derivačnímu sufixu, použije se první z těchto pravidel, tedy to nejpravděpodobnější. Derivačních sufixů je 110 a jsou nahrazovány základovými sufixy pomocí 227 sufixových pravidel. Jiným důležitým rozhodnutím bylo určit, zda se mají nejprve uplatňovat prefixová, či sufixová pravidla (např. slovo desfragmentación by mohlo být odvozeno prefixovou substitucí des 0 od fragmentación nebo sufixovou substitucí ación ar od desfragmentar). Na základě rozboru vzorku příkladů byla dána přednost sufixovým pravidlům. Pro každé pravidlo bylo náhodně vybráno nejvýše deset vytvořených derivačních párů, které dostali ke kontrole dva anotátoři. U každého příkladu měli vyznačit, zda je základové slovo pro daný derivát navrženo správně. Pokud byly správné alespoň dvě třetiny vztahů vytvořených jedním navrženým pravidlem, pravidlo bylo ponecháno, jinak bylo ze seznamu odstraněno. Takto přísně nastavené kritérium sice může vést k nižší hodnotě recall (pokrytí) hledaných derivačních relací, je však zachována vysoká hodnota precision (přesnost), na níž byl kladen zvláštní důraz. 4
7 Obrázek 3: Srovnání velikosti stromů v původní a v nové databázi 4 Evaluace výsledků Oproti derivačním relacím ve Spanish WFN jich DeriNet.ES obsahuje Počet derivačních stromů tudíž klesl, a naopak narostla jejich velikost (počet lemmat v derivačním stromu; viz obrázek 3) a hloubka (počet úrovní v derivačním sdtromu; viz obrázek 4). Rovněž mají lemmata v nově vytvořené databázi v průměru více derivátů (viz obrázek 5). Závěrečné vyhodnocení úspěšnosti rozpoznávání derivací proběhlo opět na základě manuální anotace. Z dat v nové databázi DeriNet.ES bylo náhodně vybráno 300 lemmat i s jejich základovým slovem, pokud u nich bylo uvedeno. Anotátoři pro každé lemma vyznačili, zda je uvedení či neuvedení základového slova správně, a v případě chyby navrhli opravu. Proti týmž příkladům byly vyhodnoceny vztahy ve Spanish WFN, aby bylo možné provést srovnání a vyčíslit zlepšení. Vybrána byla sice slova přítomná v obou databázích, přesto se však se jimi zastupované lemmasety liší (viz oddíl 2). Změny v sadě lemmat však nebyly tak rozsáhlé, aby výrazně snížily porovnatelnost naměřených hodnot mezi oběma datábázemi. Porovnání počtů správných a nesprávných vztahů včetně typu chyby je uvedeno v tabulce 1. Pro evaluaci nelze přímočaře použít tradiční metriky precision a recall. Ty se obvykle používají pro úlohy, v nichž je třeba z dané množiny vzorků vybrat podmnožinu vzorků splňujících určitou vlastnost. Testované příklady se rozdělí do čtyř skupin: true positives (TP) zahrnuje příklady, které danou vlastnost splňují a byly správně vybrány, true negatives (TN) naopak ty, které vlastnost nesplňují a vybrány nebyly, false positive (FP) obsahuje vzorky, které vlastnost nesplňují, ale přesto byly nesprávně vybrány a nakonec ve skupině false negative (FN) se nacházejí příklady, která vybrány nebyly, ačkoli požadovanou vlastnost splňují. Skupiny FP a FN představují u těchto úloh dva 5
8 Obrázek 4: Srovnání hloubky stromů v původní a v nové databázi Obrázek 5: Srovnání rozvětvenosti derivačních stromů v původní a v nové databázi 6
9 Tabulka 1: Srovnání správnosti derivačních vztahů v původních a v nové databázi Spanish WFN DeriNet.ES správně (1) shodně bez rodiče (2) shodný rodič chybně (3) chybějící rodič (4) nadbytečný rodič 7 9 (5) odlišný rodič 0 14 celkem Tabulka 2: Matice konfuze derivačních vztahů v databázi zlaté vztahy od anotátorů pozitivní negativní vztahy v databázi poz. TP = 21 FP = 7 Spanish WFN neg. FN = 113 TN = 159 vztahy v databázi poz. TP = 73 FP = 23 DeriNet.ES neg. FN = 47 TN = 157 typy chyb, k nimž může dojít. V případě určování derivačních vztahů však mohou nastat tři chyby: u lemmatu chybělo určení základového slova (v tabulce typ 3), u lemmatu bylo uvedeno základové slovo, přestože uvedeno být nemělo (typ 4), anebo bylo lemma správně vybráno jako derivované, ale s uvedením chybného základového slova (typ 5). Jelikož jsou však precision a recall přehledné metriky, je vhodné se pokusit jejich pomocí popsat výsledky i za cenu mírné nepřesnosti. Pokud do false positives zahrneme obě kategorie s nesprávným základovým slovem, tedy s nadbytečným (typ 4) a odlišným od správného (typ 5), a ve false negatives ponecháme případy s chybějícím základovým slovem, dostaneme hodnoty uvedené v tabulce 2. Z nich vycházejí hodnoty precision, recall a jejich harmonický průměr F 1 -score prezentované v tabulce 3. Z těchto výsledků je patrné, že se podařilo výrazně zlepšit pokrytí derivačních vztahů v databázi při zachování podobné přesnosti. Tabulka 3: Přibližné hodnoty precision, recall a F 1 -score Spanish WFN DeriNet.ES precision 75,00 % 76,04 % recall 15,67 % 60,83 % F 1 -score 25,92 % 67,59 % 7
10 Obra zek 6: Uka zka vyhleda vacı ho dotazu a nalezeny ch vy sledku 8
11 5 Dostupnost dat Vytvořená databáze DeriNet.ES byla v květnu 2019 zveřejněna na webových stránkách ÚFAL ( pod licencí CC-BY-ND. Obsahuje lemmat a derivačních vztahů mezi nimi. Celou databázi je možné stáhnout v jednoduchém formátu tsv. K dispozici je také prohledávání databáze pomocí dotazů v jazyce DCQL ( Na obrázku 6 je ukázka dotazu na slova končící příponou -able a několika výsledků v podobě derivačních stromů obsahujících nalezená slova. 6 Závěr Zpráva představila postup tvorby nové španělské derivační databáze DeriNet.ES. Proces spočíval ve dvou krocích: v úpravě sady lemmat z původní databáze Spanish WFN a ve vytváření nových derivačních vztahů mezi lemmaty. V prvním kroce se podařilo odstranit řadu nežádoucích výrazů (např. interpunkci, zkratky, francouzská toponyma). Doplnění řady lemmat z jiných zdrojů však nestačilo tento úbytek vyvážit, takže výsledná sada je menší než původní. V budoucnu bude vhodné sadu dále doplňovat o lemmata z dosud nepoužitých zdrojů. Ve druhém kroku se při zachování podobné přesnosti dosáhlo výrazně lepšího pokrytí derivačních vztahů ve srovnání s původní verzí databáze. Největším problémem stále zůstávají deriváty bez označeného základového slova. Jedná se většinou o příklady málo častých záměn základové předpony za derivační (např. chasca chascudo) nebo o derivace při nichž dochází ke změně v kořeni (např. suponer supuesto). Část z nich by se podařilo zachytit, pokud by se při hledání základového slova uplatnila na poslední slabiku kořene některá z hláskových změn typických pro španělštinu (např. e i, e ie, u ue, o ue). Výrazný pokrok lze očekávat od natrénování modelu strojového učení, který by byl schopen rozpoznat některé derivační páry i bez explicitně formulovaného substitučního pravidla. Ve zprávě byla představena úspěšná metoda hledání derivačních vztahů, která může být užitečná také pro nalezení derivací v dalších jazycích. Použitá substituční pravidla i nová databáze DeriNet.ES mohou sloužit jako materiál pro další zkoumání španělské derivační morfologie, např. pro anotaci některých souvisejících příznaků. Už během tvorby databáze totiž vyvstávala potřeba opatřit některá lemmata dodatečnými značkami pro složeniny, cizí slova nebo vlastní jména. 9
12 Seznam použité literatury Flores, I. M. M. (2018). Palabras en Desuso. Madrid: Real Academia Española, dostupné na naposledy přistoupeno Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Linguistic Data Consortium, University of Pennsylvania. Kyjánek, L., Žabokrtský, Z., Ševčíková, M., and Vidra, J. (2019). Universal derivations kickoff: A collection of harmonized derivational resources for eleven languages. In Proceedings of the Second International Workshop on Resources and Tools for Derivational Morphology (DeriMo 2019), Prague. Lango, M., Ševčíková, M., and Žabokrtský, Z. (2018). Semi-Automatic Construction of Word-Formation Networks (for Polish and Spanish). Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018), pages Nivre, J. (2019). Universal Dependencies 2.4. Praha: LIN- DAT/CLARIN digitální knihovna na ÚFAL MFF UK, dostupné na naposledy přistoupeno Ruiz, T. (2010). Lemario Actualizado del Español. Madrid: Real Academia Española, dostupné na /10/17/lemario/-actualizado-espanol, naposledy přistoupeno Straková, J., Straka, M., and Hajič, J. (2014). Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13 18, Baltimore, Maryland. Association for Computational Linguistics. Ševčíková, M., Žabokrtský, Z., Vidra, J., and Straka, M. (2016). Lexikální sít DeriNet: elektronický zdroj pro výzkum derivace v češtině. Časopis pro moderní filologii, 98: Vidra, J., Žabokrtský, Z., Kyjánek, L., Ševčíková, M., and Dohnalová, Š. (2019). DeriNet 2.0. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. 10
13 THE ÚFAL/CKL TECHNICAL REPORT SERIES ÚFAL ÚFAL (Ústav formální a aplikované lingvistiky; is the Institute of Formal and Applied linguistics, at the Faculty of Mathematics and Physics of Charles University, Prague, Czech Republic. The Institute was established in 1990 after the political changes as a continuation of the research work and teaching carried out by the former Laboratory of Algebraic Linguistics since the early 60s at the Faculty of Philosophy and later the Faculty of Mathematics and Physics. Together with the sister Institute of Theoretical and Computational Linguistics (Faculty of Arts) we aim at the development of teaching programs and research in the domain of theoretical and computational linguistics at the respective Faculties, collaborating closely with other departments such as the Institute of the Czech National Corpus at the Faculty of Philosophy and the Department of Computer Science at the Faculty of Mathematics and Physics. CKL As of 1 June 2000 the Center for Computational Linguistics (Centrum komputační lingvistiky; was established as one of the centers of excellence within the governmental program for support of research in the Czech Republic. The center is attached to the Faculty of Mathematics and Physics of Charles University in Prague. TECHNICAL REPORTS The ÚFAL/CKL technical report series has been established with the aim of disseminate topical results of research currently pursued by members, cooperators, or visitors of the Institute. The technical reports published in this Series are results of the research carried out in the research projects supported by the Grant Agency of the Czech Republic, GAČR 405/96/K214 ( Komplexní program ), GAČR 405/96/0198 (Treebank project), grant of the Ministry of Education of the Czech Republic VS 96151, and project of the Ministry of Education of the Czech Republic LN00A063 (Center for Computational Linguistics). Since November 1996, the following reports have been published. ÚFAL TR Eva Hajičová, The Past and Present of Computational Linguistics at Charles University Jan Hajič and Barbora Hladká, Probabilistic and Rule-Based Tagging of an Inflective Language A Comparison ÚFAL TR Vladislav Kuboň, Tomáš Holan and Martin Plátek, A Grammar-Checker for Czech ÚFAL TR Alla Bémová at al., Anotace na analytické rovině, Návod pro anotátory (in Czech) ÚFAL TR Jan Hajič and Barbora Hladká, Tagging Inflective Languages: Prediction of Morphological Categories for a Rich, Structural Tagset ÚFAL TR Geert-Jan M. Kruijff, Basic Dependency-Based Logical Grammar ÚFAL TR Vladislav Kuboň, A Robust Parser for Czech ÚFAL TR Eva Hajičová, Jarmila Panevová and Petr Sgall, Manuál pro tektogramatické značkování (in Czech) ÚFAL TR Tomáš Holan, Vladislav Kuboň, Karel Oliva, Martin Plátek, On Complexity of Word Order ÚFAL/CKL TR Eva Hajičová, Jarmila Panevová and Petr Sgall, A Manual for Tectogrammatical Tagging of the Prague Dependency Treebank ÚFAL/CKL TR Zdeněk Žabokrtský, Automatic Functor Assignment in the Prague Dependency Treebank ÚFAL/CKL TR Markéta Straňáková, Homonymie předložkových skupin v češtině a možnost jejich automatického zpracování ÚFAL/CKL TR Eva Hajičová, Jarmila Panevová and Petr Sgall, Manuál pro tektogramatické značkování (III. verze)
14 ÚFAL/CKL TR Pavel Pecina and Martin Holub, Sémanticky signifikantní kolokace ÚFAL/CKL TR Jiří Hana, Hana Hanová, Manual for Morphological Annotation ÚFAL/CKL TR Markéta Lopatková, Zdeněk Žabokrtský, Karolína Skwarská and Vendula Benešová, Tektogramaticky anotovaný valenční slovník českých sloves ÚFAL/CKL TR Radu Gramatovici and Martin Plátek, D-trivial Dependency Grammars with Global Word- Order Restrictions ÚFAL/CKL TR Pavel Květoň, Language for Grammatical Rules ÚFAL/CKL TR Markéta Lopatková, Zdeněk Žabokrtský, Karolina Skwarska, Václava Benešová, Valency Lexicon of Czech Verbs VALLEX 1.0 ÚFAL/CKL TR Lucie Kučová, Veronika Kolářová, Zdeněk Žabokrtský, Petr Pajas, Oliver Čulo, Anotování koreference v Pražském závislostním korpusu ÚFAL/CKL TR Kateřina Veselá, Jiří Havelka, Anotování aktuálního členění věty v Pražském závislostním korpusu ÚFAL/CKL TR Silvie Cinková, Manuál pro tektogramatickou anotaci angličtiny ÚFAL/CKL TR Daniel Zeman, Neprojektivity v Pražském závislostním korpusu (PDT) ÚFAL/CKL TR Jan Hajič a kol., Anotace na analytické rovině, návod pro anotátory ÚFAL/CKL TR Jan Hajič, Zdeňka Urešová, Alevtina Bémová, Marie Kaplanová, Anotace na tektogramatické rovině (úroveň 3) ÚFAL/CKL TR Jan Hajič, Zdeňka Urešová, Alevtina Bémová, Marie Kaplanová, The Prague Dependency Treebank, Annotation on tectogrammatical level ÚFAL/CKL TR Jiří Hana, Daniel Zeman, Manual for Morphological Annotation (Revision for PDT 2.0) ÚFAL/CKL TR Marie Mikulová a kol., Pražský závislostní korpus (The Prague Dependency Treebank) Anotace na tektogramatické rovině (úroveň 3) ÚFAL/CKL TR Petr Pajas, Jan Štěpánek, A Generic XML-Based Format for Structured Linguistic Annotation and Its application to the Prague Dependency Treebank 2.0 ÚFAL/CKL TR Marie Mikulová, Alevtina Bémová, Jan Hajič, Eva Hajičová, Jiří Havelka, Veronika Kolařová, Lucie Kučová, Markéta Lopatková, Petr Pajas, Jarmila Panevová, Magda Razímová, Petr Sgall, Jan Štěpánek, Zdeňka Urešová, Kateřina Veselá, Zdeněk Žabokrtský, Annotation on the tectogrammatical level in the Prague Dependency Treebank (Annotation manual) ÚFAL/CKL TR Marie Mikulová, Alevtina Bémová, Jan Hajič, Eva Hajičová, Jiří Havelka, Veronika Kolařová, Lucie Kučová, Markéta Lopatková, Petr Pajas, Jarmila Panevová, Petr Sgall, Magda Ševčíková, Jan Štěpánek, Zdeňka Urešová, Kateřina Veselá, Zdeněk Žabokrtský, Anotace na tektogramatické rovině Pražského závislostního korpusu (Referenční příručka) ÚFAL/CKL TR Marie Mikulová, Alevtina Bémová, Jan Hajič, Eva Hajičová, Jiří Havelka, Veronika Kolařová, Lucie Kučová, Markéta Lopatková, Petr Pajas, Jarmila Panevová, Petr Sgall,Magda Ševčíková, Jan Štěpánek, Zdeňka Urešová, Kateřina Veselá, Zdeněk Žabokrtský, Annotation on the tectogrammatical level in the Prague Dependency Treebank (Reference book) ÚFAL/CKL TR Jan Hajič, Marie Mikulová, Martina Otradovcová, Petr Pajas, Petr Podveský, Zdeňka Urešová, Pražský závislostní korpus mluvené češtiny. Rekonstrukce standardizovaného textu z mluvené řeči ÚFAL/CKL TR Markéta Lopatková, Zdeněk Žabokrtský, Václava Benešová (in cooperation with Karolína Skwarska, Klára Hrstková, Michaela Nová, Eduard Bejček, Miroslav Tichý) Valency Lexicon of Czech Verbs. VALLEX 2.0 ÚFAL/CKL TR Silvie Cinková, Jan Hajič, Marie Mikulová, Lucie Mladová, Anja Nedolužko, Petr Pajas, Jarmila Panevová, Jiří Semecký, Jana Šindlerová, Josef Toman, Zdeňka Urešová, Zdeněk Žabokrtský, Annotation of English on the tectogrammatical level ÚFAL/CKL TR Magda Ševčíková, Zdeněk Žabokrtský, Oldřich Krůza, Zpracování pojmenovaných entit v českých textech ÚFAL/CKL TR Silvie Cinková, Marie Mikulová, Spontaneous speech reconstruction for the syntactic and semantic analysis of the NAP corpus ÚFAL/CKL TR Marie Mikulová, Rekonstrukce standardizovaného textu z mluvené řeči v Pražském závislostním korpusu mluvené češtiny. Manuál pro anotátory
15 ÚFAL/CKL TR Zdeněk Žabokrtský, Ondřej Bojar, TectoMT, Developer's Guide ÚFAL/CKL TR Lucie Mladová, Diskurzní vztahy v češtině a jejich zachycení v Pražském závislostním korpusu 2.0 ÚFAL/CKL TR Marie Mikulová, Pokyny k překladu určené překladatelům, revizorům a korektorům textů z Wall Street Journal pro projekt PCEDT ÚFAL/CKL TR Loganathan Ramasamy, Zdeněk Žabokrtský, Tamil Dependency Treebank (TamilTB) 0.1 Annotation Manual ÚFAL/CKL TR Ngụy Giang Linh, Michal Novák, Anna Nedoluzhko, Coreference Resolution in the Prague Dependency Treebank ÚFAL/CKL TR Anna Nedoluzhko, Jiří Mírovský, Annotating Extended Textual Coreference and Bridging Relations in the Prague Dependency Treebank ÚFAL/CKL TR David Mareček, Zdeněk Žabokrtský, Unsupervised Dependency Parsing ÚFAL/CKL TR Martin Majliš, Zdeněk Žabokrtský, W2C Large Multilingual Corpus ÚFAL TR Lucie Poláková, Pavlína Jínová, Šárka Zikánová, Zuzanna Bedřichová, Jiří Mírovský, Magdaléna Rysová, Jana Zdeňková, Veronika Pavlíková, Eva Hajičová, Manual for annotation of discourse relations in the Prague Dependency Treebank ÚFAL TR Nathan Green, Zdeněk Žabokrtský, Ensemble Parsing and its Effect on Machine Translation ÚFAL TR David Mareček, Martin Popel, Loganathan Ramasamy, Jan Štěpánek, Daniel Zemana, Zdeněk Žabokrtský, Jan Hajič Cross-language Study on Influence of Coordination Style on Dependency Parsing Performance ÚFAL TR Jan Berka, Ondřej Bojar, Mark Fishel, Maja Popović, Daniel Zeman, Tools for Machine Translation Quality Inspection ÚFAL TR Marie Mikulová, Anotace na tektogramatické rovině. Dodatky k anotátorské příručce (s ohledem na anotování PDTSC a PCEDT) ÚFAL TR Marie Mikulová, Annotation on the tectogrammatical level. Additions to annotation manual (with respect to PDTSC and PCEDT) ÚFAL TR Marie Mikulová, Eduard Bejček, Jiří Mírovský, Anna Nedoluzhko, Jarmila Panevová, Lucie Poláková, Pavel Straňák, Magda Ševčíková, Zdeněk Žabokrtský, Úpravy a doplňky Pražského závislostního korpusu (Od PDT 2.0 k PDT 3.0) ÚFAL TR Marie Mikulová, Eduard Bejček, Jiří Mírovský, Anna Nedoluzhko, Jarmila Panevová, Lucie Poláková, Pavel Straňák, Magda Ševčíková, Zdeněk Žabokrtský, From PDT 2.0 to PDT 3.0 (Modifications and Complements) ÚFAL TR Rudolf Rosa, Depfix Manual ÚFAL TR Veronika Kolářová, Valence vybraných typů deverbativních substantiv ve valenčním slovníku PDT-Vallex ÚFAL TR Anna Nedoluzhko, Eva Fučíková, Jiří Mírovský, Jiří Pergler, Lenka Šíková, Annotation of coreference in Prague Czech-English Dependency Treebank ÚFAL TR Zdeňka Urešová, Eva Fučíková, Jana Šindlerová, CzEngVallex: Mapping Valency between Languages ÚFAL TR Kateřina Rysová, Magdaléna Rysová, Eva Hajičová, Topic Focus Articulation in English Texts on the Basis of Functional Generative Description ÚFAL TR Kira Droganova, Daniel Zeman, Conversion of SynTagRus (the Russian dependency treebank) to Universal Dependencies ÚFAL TR Lukáš Kyjánek, Morphological Resources of Derivational Word-Formation Relations ÚFAL TR Zdeňka Urešová, Eva Fučíková, Eva Hajičová, CzEngClass: Contextually-based Synonymy and Valency of Verbs in a Bilingual Setting (CzEngClass: Kontextová synonymie a valence sloves v bilingvním prostředí)
16 ÚFAL TR Ján Faryad, Identifikace derivačních vztahů ve španělštině
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
Strukturovaný životopis
Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český
Cl. Práce publikované v odborných Časopisech vydávaných v zahraničí
Příloha 6 Strukturovaná bibliografie Zdeněk Žabokrtský, 1999-2009 A. Monografie [1] Markéta Lopatková, Zdeněk Žabokrtský, and Václava Kettnerová. Valenční slovník českých sloves. Nakladatelství Karolinum,
Korpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
Publications 1 Barbora Vidová Hladká March 2017
Publications 1 Barbora Vidová Hladká March 2017 Books (2) 1. Panevová Jarmila, Bojar Ondřej, Cinková Silvie, Hajič Jan, Hladká Barbora, Kuboň Vladislav, Mírovský Jiří, Peterek Nino, Spoustová Johanka,
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
Barbora Vidová Hladká Publications as of March 2016
Barbora Vidová Hladká Publications as of March 2016 Theses 1. Hladká Barbora. Software Tools for Large Czech Corpora Annotation. MSc Thesis, MFF UK. 1994. 2. Vidová Hladká Barbora: Czech Language Tagging.
Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny
Detail projektu Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy Základní informace o projektu č. 1572314 Český název projektu: Modelování závislostní
NLP & strojové učení
NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování
Education and Training
CURRICULUM VITAE Mgr. Magdaléna Rysová, Ph.D. E-mail: magdalena.rysova@ufal.mff.cuni.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Education and Training 2012 2015 Ph.D. Charles University in Prague
Faktorované překladové modely. Základní informace
Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace
DeriNet: Lexikální databáze českých derivátů
DeriNet: Lexikální databáze českých derivátů Magda Ševčíková, Zdeněk Žabokrtský {sevcikova,zabokrtsky}@ufal.mff.cuni.cz Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
Lexikální síť DeriNet: elektronický zdroj pro výzkum derivace v češtině 1
Magda Ševčíková Zdeněk Žabokrtský Jonáš Vidra Milan Straka ČASOPIS PRO MODERNÍ FILOLOGII 98, 2016, Č. 1, S. 62 76 Lexikální síť DeriNet: elektronický zdroj pro výzkum derivace v češtině 1 Magda Ševčíková
On the Structure of Constituent Negation in Czech
On the Structure of Constituent Negation in Czech Kateřina Veselovská veselovska@ufal.mff.cuni.cz Institute of Formal and Applied Linguistics Faculty of Mathematics and Physics Charles University in Prague
Common Language Resources and Their Applications
Common Language Resources and Their Applications http://clara.b.uib.no/ Markéta Lopatková Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze formální rámec
Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU
Právní datasety co, proč, kdo a komu Jakub HARAŠTA Ústav práva a technologií, Právnická fakulta MU Podpořeno Grantovou agenturou České republiky projekt GA17-20645S Obsah Úvod Právní datasety Rozhodovací
Zachycení (nejen) koordinací v závislostních stromech
Zachycení (nejen) koordinací v závislostních stromech Markéta Lopatková ÚFAL MFF UK atural language syntax: Treebanks text corpora, esp. treebanks tens of languages stress on morphology, syntax manual
TELEGYNEKOLOGIE TELEGYNECOLOGY
TELEGYNEKOLOGIE TELEGYNECOLOGY Račanská E. 1, Huser M. 1, Schwarz D. 2, Šnábl I. 2, Ventruba P. 1 1) Gynekologicko porodnická klinika LF MU a FN Brno 2) Institut biostatistiky a analýz LF a PřF MU Abstrakt
Životopis. Osobní informace. Pracovní pozice
Životopis Osobní informace Jméno a příjmení Jan HAJIČ Adresa Nosická 12, 10000 Praha 10, Česká republika Telefon (+420) 221 914 257 (+420) 607 209 212 Fax (+420) 221 914 306 E-mail, web hajic@ufal.mff.cuni.cz,
Translation Model Interpolation for Domain Adaptation in TectoMT
Rudolf Rosa, Ondřej Dušek, Michal Novák, Martin Popel {rosa,odusek,mnovak,popel}@ufal.mff.cuni.cz Translation Model Interpolation for Domain Adaptation in TectoMT Charles University in Prague Faculty of
Životopis Duben 2008
Jan Hajič Životopis Duben 2008 Osobní údaje: Narozen 4.11.1960 v Praze, r.č. 601104/0981 Bydliště: Nosická 12/2389, 100 00 Praha 10 Rodinný stav: ženatý, 2 děti Kontakt: hajic@ufal.mff.cuni.cz, tel. 607
Co nového ve zpracování MWE Automatická identifikace
Co nového ve zpracování MWE Automatická identifikace Společný workshop tří GAČRů 15. dubna 2013 Víceslovné výrazy Osnova Víceslovné výrazy (VV, MWE) v PDT 2.5 Automatická identifikace Problémy (Úpravy
Automatické párování uzlů českých a anglických tektogramatických stromů
Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008 Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Rekonstrukce standardizovaného textu z mluvené řeči
Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Příspěvek shrnuje dosavadní poznatky získané při budování Pražského závislostního korpusu mluvené češtiny (Prague Dependency
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita
Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.
Korpusová lingvistika a počítačová Od 60. let 20. st. Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené
Strojové učení a pravidla pro extrakci informací z textů
Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015 Pozvánka Jako výzkumníci
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE Veronika Kolářová, Jana Klímová, Anna Vernerová Ústav formální a aplikované lingvistiky MFF UK Praha 22. 4. 2016 Slovanská lexikografie počátkem 21.
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie
Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie Obsah Strojový překlad Statistický strojový překlad Frázový statistický strojový překlad Překlad pojmenovaných entit O. Hálek, R. Rosa,
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
Identifikace poruchy osobnosti z psaného textu
Identifikace poruchy osobnosti z psaného textu Adam Ondrejka, Petr Šaloun, and Radka Cepláková VŠB-Technická univerzita Ostrava, 17. listopadu 15, 708 33 Ostrava, Česká republika adam.ondrejka@gmail.com
PDT-Vallex: trochu jiný valenční slovník
PDT-Vallex: trochu jiný valenční slovník Zdeňka Urešová uresova@ufal.mff.cuni.cz Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky Malostranské nám. 25 11800 Praha 1 Česká republika Abstract
Jak lze v korpusech hledat doklady pro výzkum morfologie?
Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy
WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY
WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY Datum konání: 11. dubna 2014 Místo konání: Filozofická fakulta Masarykovy univerzity (učebna G13) Název přednášky: Přednášející: Webové korpusy Aranea
Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka
Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce
Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz
Automatická segmentace slov s pomocí nástroje Affisix Michal Hrušecký, Jaroslava Hlaváčová Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz Motivace Při zpracování přirozeného jazyka nikdy nemůžeme mít
model arabské morfologie Otakar Smrž
Počítačový systém ElixirFM model arabské morfologie Otakar Smrž dzamedzam@yahoo.com Džám-e Džam jazyková škola Otakar Smrž (Džám-e Džam) Počítačový systém ElixirFM Praha, 12. prosince 2009 1 / 6 ElixirFM
Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?
Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK lopatkova@ufal.mff.cuni.cz Cíl popsat přirozený jazyk
Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Adam Liška Čištění paralelních dat pro strojový překlad Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: RNDr.
ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost 2005 1ET101120413
Národní 3, 117 20 Praha 1 List PT1 ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost Rok Identifikační kód projektu 2005 1ET101120413 01 Řešitel projektu Jméno: Mgr. Barbora Vidová Hladká,
RNDr. Ondřej Bojar, Ph.D.
RNDr. Ondřej Bojar, Ph.D. Narozen: 7. března 1979 v Praze E-mail, web: bojar@ufal.mff.cuni.cz; http://www.cuni.cz/ obo Dosažené vzdělání: 2003-2008 doktorské studium MFF UK, obor Matematická lingvistika
Liší se mluvené a psané texty ve valenci? 1
Liší se mluvené a psané texty ve valenci? 1 Marie Mikulová Jan Štěpánek Zdeňka Urešová Ústav formální a aplikované lingvistiky, MFF UK Praha {mikulova, stepanek, uresova}@ufal.mff.cuni.cz Valency in spoken
Vytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
Algoritmy ořezávání. Habilitační práce. (Clipping Algorithms) (Habilitation Thesis) Prof.Ing.Václav Skala, CSc.
Algoritmy ořezávání (Clipping Algorithms) Habilitační práce (Habilitation Thesis) Prof.Ing.Václav Skala, CSc. http://www.vaclavskala.eu Abstrakt Algoritmy ořezávání a jejich implementace je jednou z klíčových
PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
PSANÍ Jazyk Úroveň Autor Kód materiálu Anglický jazyk 5. třída Hana Stryalová Aj5-kap-str-psa-05 Z á k l a d o v ý t e x t : Dear Judy, My name s Caroline and I m from Leeds. I m 11 years old. I ve got
Sémantický web 10 let poté
Sémantický web 10 let poté Vilém Sklenák sklenak@vse.cz Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství Inforum2011, 26. 5. 2011 Vilém Sklenák
Depfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
SLOVNIK CIZICH SLOV PDF
SLOVNIK CIZICH SLOV PDF ==> Download: SLOVNIK CIZICH SLOV PDF SLOVNIK CIZICH SLOV PDF - Are you searching for Slovnik Cizich Slov Books? Now, you will be happy that at this time Slovnik Cizich Slov PDF
Chytal tlouště na višni
Chytal tlouště na višni Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Jedna noc s informatikou a matematikou MFF
EEA and Norway Grants. Norské fondy a fondy EHP
EEA Scholarship Programme & Bilateral Scholarship Programme The programme offers various options for scholarship funding of international institutional cooperation projects and mobilities among the Czech
Jak dělat strojový překlad lépe než Google Translate
Mgr. Rudolf Rosa Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky ProSŠ, Gymnázium Kladno, 23. října
AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.
AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu. Ondřej Bojar obo@cuni.cz Abstrakt Systém AX je určen ke zpracování morfologicky analyzovaných vět přirozeného jazyka s cílem
Perfektym v současné cestine
Perfektym v současné cestine Korpusová studie jeho gramatikalizace na bázi Českého národního korpusu Mira Načeva-Marvanová NAKLADATELSTVÍ LIDOVÉ NOVINY Ústav Českého národního korpusu Obsah PŘEDMLUVA (František
MODÁLNÍ ANALÝZA ZVEDACÍ PLOŠINY S NELINEÁRNÍ VAZBOU
MODÁLNÍ ANALÝZA ZVEDACÍ PLOŠINY S NELINEÁRNÍ VAZBOU Autoři: Ing. Jan SZWEDA, Ph.D., Katedra mechaniky, Fakulta strojní, VŠB-Technická univerzita Ostrava, e-mail: jan.szweda@vsb.cz Ing. Zdeněk PORUBA, Ph.D.,
Algoritmizace prostorových úloh
Algoritmizace prostorových úloh Vektorová data Daniela Szturcová Prostorová data Geoobjekt entita definovaná v prostoru. Znalost jeho identifikace, lokalizace umístění v prostoru, vlastností vlastních
KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!
KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze O (Ú)ČNK Ústav Českého národního korpusu, založen v roce
Pražský závislostní korpus jako elektronická cvičebnice češtiny
Pražský závislostní korpus jako elektronická cvičebnice češtiny OndřejKučera ondrej.kucera@centrum.cz Abstrakt Pražský závislostní korpus patří mezi nejvýznamnější jazykové korpusy na světě. Cílem naší
DIDAKTICKÉ STUDIE ročník 5, číslo 2,2013
DIDAKTICKÉ STUDIE ročník 5, číslo 2,203 UNIVERZITA KARLOVA V PRAZE - PEDAGOGICKÁ FAKULTA Syntax v teorii a praxi jazykového vyučování Praha 203 ZPŮSOBY VYJADŘOVÁNÍ VZTAHU PŘÍČINY A DŮSLEDKU V TEXTU - ALTERNATIVY
Právní formy podnikání v ČR
Bankovní institut vysoká škola Praha Právní formy podnikání v ČR Bakalářská práce Prokeš Václav Leden, 2009 Bankovní institut vysoká škola Praha Katedra Bankovnictví Právní formy podnikání v ČR Bakalářská
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Ondřej Bojar Automatická extrakce lexikálně-syntaktických údajů z korpusu Praha 2002 Ústav formální a aplikované lingvistiky Vedoucí
Syntactic annotation of a second-language learner corpus
Syntactic annotation of a second-language Jirka Hana & Barbora Hladká Charles University Prague ICBLT 2018 CzeSL Corpus of L2 Czech ICBLT 2018 2 CzeSL Czech as a Second Language Part of AKCES Acquisition
Prague Dependency Treebank (vs. Functional Generative Description) and HamleDT Family
Prague Dependency Treebank (vs. Functional Generative Description) and HamleDT Family Markéta Institute of Formal and Applied Linguistics, MFF UK lopatkova@ufal.mff.cuni.cz Prague Dependency Treebank ~
Testování konzistence a úplnosti valenčního slovníku českých sloves
Testování konzistence a úplnosti valenčního slovníku českých sloves Markéta Lopatková and Zdeněk Žabokrtský Center for Computational Linguistics, MFF UK, Prague {lopatkova,zabokrtsky}@ckl.mff.cuni.cz Abstrakt
Tam, kde anglické příklady neodpovídají českému jazykovému systému, se český překlad neuvádí.
ČESKÁ TECHNICKÁ NORMA ICS 01.020 Listopad 1997 Terminologie - Slovník ČSN ISO 1087 01 0501 Terminology - Vocabulary Terminologie - Vocabulaire Terminologielehre - Begriffe Tato norma je identická s ISO
SUBCATEGORIZATION OF ADVERBIAL MEANINGS BASED ON CORPUS DATa
JAZYKOVEDNÝ ČASOPIS, 2017, roč. 68, č. 2 SUBCATEGORIZATION OF ADVERBIAL MEANINGS BASED ON CORPUS DATa Marie Mikulová Eduard Bejček Veronika Kolářová Jarmila Panevová Faculty of Mathematics and Physics,
Výsledky dosažené v roce 2007
Výsledky dosažené v roce 2007 Řešitelské pracoviště MFF UK Podrobně jsou výsledky projektu dokumentovány na stránce http://ufal.mff.cuni.cz/rest. Stěžejním výstupem projektu bylo vydání monografie Průvodce
Jazyky a počítač: překážky a možnosti. Eva Hajičová MFF UK Praha
Jazyky a počítač: překážky a možnosti Eva Hajičová MFF UK Praha Historický pohled 1947: Warren Weaver, dekódování 1949: memorandum Translation 1952: první konference o SP, USA 1954: Georgetown Univ., R
Affisix. Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Česká Republika,
Automatické rozpoznávání předpon a přípon s pomocí nástroje Affisix Jaroslava Hlaváčová, Michal Hrušecký Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Česká Republika, Hlavacova@ufal.mff.cuni.cz,
Pavol Bukviš 1, Pavel Fiala 2
MODEL MIKROVLNNÉHO VYSOUŠEČE OLEJE Pavol Bukviš 1, Pavel Fiala 2 ANOTACE Příspěvek přináší výsledky numerického modelování při návrhu zařízení pro úpravy transformátorového oleje. Zařízení pracuje v oblasti
zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností
Nová cesta k modernímu jednojazyčnému výkladovému slovníku současné češtiny: koncepční poznámky ke struktuře dat v novém DWS Pavla Kochová, Zdeňka Opavská 1. Úvod V oddělení současné lexikologie a lexikografie
V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.
Syntakticky anotovaný korpus českých textů Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič, Alexandr Rosen, Hana Skoumalová Ústav teoretické a komputační lingvistiky, Filozofická fakulta
ORGANIZAČNÍ ŘÁD ČVUT FD
Příloha č. 1 ke Statutu ČVUT FD ORGANIZAČNÍ ŘÁD ČVUT FD Organizační řád je vnitřním předpisem Českého vysokého učení technického v Praze Fakulty dopravní (dále jen ČVUT FD ), který upravuje vnitřní organizaci
Compression of a Dictionary
Compression of a Dictionary Jan Lánský, Michal Žemlička zizelevak@matfyz.cz michal.zemlicka@mff.cuni.cz Dept. of Software Engineering Faculty of Mathematics and Physics Charles University Synopsis Introduction
Bibliometric probes into the world of scientific publishing: Economics first
Bibliometric probes into the world of scientific publishing: Economics first Daniel Münich VŠE, Nov 7, 2017 Publication space Field coverage of WoS Source: Henk F. Moed, Citation Analysis in Research Evaluation,
Počítačové zpracování češtiny. Kontrola pravopisu. Daniel Zeman
Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman http://ufal.mff.cuni.cz/daniel-zeman/ Úloha Rozpoznat slovo, které není ve slovníku Triviální Těžší je rozpoznat slovo, které ve slovníku je,
Zelený produkt automobilek a jeho vnímání různými generacemi českých spotřebitelů EVA JADERNÁ, MARTIN MLÁZOVSKÝ
Zelený produkt automobilek a jeho vnímání různými generacemi českých spotřebitelů EVA JADERNÁ, MARTIN MLÁZOVSKÝ Řešitelský tým Vedoucí projektu: Ing. Eva Jaderná, Ph.D., Katedra marketingu a managementu
Co vím o Ázerbájdžánu?
Ministerstvo mládeže a sportu Ázerbájdžánské republiky Ministerstvo zahraničních věcí Ázerbájdžánské republiky Velvyslanectví Ázerbájdžánské republiky v Praze ve spolupráci s Centrem ázerbájdžánských a
O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová
O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Kateřina Rysová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Kateřina Rysová O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Published by Institute of Formal and Applied
Digitální učební materiál
Digitální učební materiál Projekt Šablona Tématická oblast DUM č. CZ.1.07/1.5.00/34.0415 Inovujeme, inovujeme III/2 Inovace a zkvalitnění výuky prostřednictvím ICT (DUM) Anglický jazyk pro obor podnikání
Gramatické závislosti vs. koordinace z pohledu redukční analýzy
V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 61 67 http://ceur-ws.org/vol-1214, Series ISSN 1613-0073, c 2014 M. Lopatková, J. Mírovský,
Unstructured data pre-processing using Snowball language
Unstructured data pre-processing using Snowball language Předzpracování nestrukturovaných dat pomocí jazyka Snowball Bc. Pavel Řezníček, doc. Ing. František Dařena, PhD., Ústav informatiky, Provozně ekonomická
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy Veronika Kolářová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 1
Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů
Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů Design and implementation of algorithms for adaptive control of stationary robots Marcel Vytečka 1, Karel Zídek 2 Abstrakt Článek
Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace
Název školy STŘEDNÍ ODBORNÁ ŠKOLA a STŘEDNÍ ODBORNÉ UČILIŠTĚ, Česká Lípa, 28. října 2707, příspěvková organizace Číslo a název projektu: CZ.1.07/1.5.00/34.0880 Digitální učební materiály www.skolalipa.cz
ORGANIZAČNÍ ŘÁD ČVUT FD
Příloha č. 1 ke Statutu ČVUT FD ORGANIZAČNÍ ŘÁD ČVUT FD Organizační řád je vnitřním předpisem Českého vysokého učení technického v Praze Fakulty dopravní (dále jen ČVUT FD ), který upravuje vnitřní organizaci
VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová
VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex Zdeňka Urešová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Zdeňka Urešová VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex
Univerzita Karlova v Praze
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE 2011 Jonáš Bujok Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Jonáš Bujok Nástroj pro převod PDF na
Vzorový audit webové stránky podle
Vzorový audit webové stránky podle Web Content Accessibility Guidelines Autor: Tomáš Drn Vedoucí práce: PaedDr. Petr Pexa Školní rok: 2009-10 Abstrakt Tato práce se zabývá hodnocením správnosti provedení
O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová
O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Kateřina Rysová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Kateřina Rysová O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Published by Institute of Formal and Applied
VIII. ÚPLNÉ ZNĚNÍ Přílohy č. 2 STATUTU UNIVERZITY KARLOVY V PRAZE ORGANIZAČNÍ ŘÁD ZE DNE 20. ČERVNA 2014
Ministerstvo školství, mládeže a tělovýchovy registrovalo podle 36 odst. 2 zákona č. 111/1998 Sb., o vysokých školách a o změně a doplnění dalších zákonů (zákon o vysokých školách), dne 26. dubna 1999
Deadjektivní deriváty v češtině jako deriváty syntaktické vs. lexikální
Deadjektivní deriváty v češtině jako deriváty syntaktické vs. lexikální Magda Ševčíková Ústav formální a aplikované lingvistiky MFF UK sevcikova@ufal.mff.cuni.cz ABSTRACT: Deadjectival derivates are a
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Univerzita Pardubice Dopravní fakulta Jana Pernera
Univerzita Pardubice Dopravní fakulta Jana Pernera Technicko ekonomické a ekologické zhodnocení pohonu na LPG vozidla Škoda Octavia 1,6 55 kw Josef Shejbal Bakalářská práce 2009 Prohlašuji: Tuto práci
Jak psát Bc. resp. Mgr. závěrečnou práci. Zpracoval: Karel Bílek
Jak psát Bc. resp. Mgr. závěrečnou práci Zpracoval: Karel Bílek Tato prezentace vznikla v rámci řešení doktorského projektu GAČR 523/03/H076 duben 2005 Textový dokument... co to je? Textovým dokumentem