Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
|
|
- Rudolf Esterka
- před 8 lety
- Počet zobrazení:
Transkript
1 Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz Workshop InterCorp 6. září 2013
2 Paralelní závislostní data zatím pouze cs en Prague Czech-English Dependency Treebank 2.0 (PCEDT) 2312 paralelních česko-anglických dokumentů, přes 1, 2 mil. tokenů / vět v každé paralele Penn Treebank Wall Street Journal
3 Paralelní závislostní data manuální parsing anglické it a zrekonstruované chybějící uzly pro to/ono v češtině v první fázi anotovány ručně hloubková syntax sémantické vztahy automatické propojení uzlů praktická aplikace ve strojovém překladu
4 Paralelní závislostní data
5 Paralelní závislostní data
6 Paralelní závislostní data
7 Cíle projektu (Veselovská et al., 2012) zlepšení anotačního schématu PCEDT 2.0: jak nakládat se zájmenem it? experimenty s automatickou identifikací it pravidlový klasifikátor pro každou stranu korpusu kontrola správnosti zarovnání protějšků
8 Cíle projektu (Veselovská et al. 2012) zlepšení anotačního schématu PCEDT 2.0: jak nakládat se zájmenem it? experimenty s automatickou identifikací it pravidlový klasifikátor pro každou stranu korpusu kontrola správnosti zarovnání protějšků
9 Angličtina (Quirk et al. 1985, Sinclair 1995 atd.) a) anaforické: I bought a new hat but my husband did not like it. b) anticipační: It is no good bothering about it. c) deiktické: Is it your suitcase (over there)? d) exklamativní: It s me, open the door! e) prop: It is 5 o clock.
10 Čeština: nevyjádřený subjekt (Nguy a Ševčíková 2011) a) implicitní subjekt Slunce zezlátlo. (Ono) pomalu zašlo za obzor. b) všeobecný subjekt S rizikem se počítá. c) blíže nespecifikovaný Hlásili to v rádiu. subjekt d) nulový subjekt Zítra bude oblačno.
11 Zjednodušení úlohy Anaforické: anaforické a anticipační v angl. + nevyjádřená 3.os sg. t-lemma #Perspron (a-lemma it), šipka k antecedentu Neanaforické: deiktické a exklamativní v angl. + nevyjádřená 3. os. sg., t-lemma #Perspron (a-lemma it), bez šipky Pleonastické: prop v angl. + nulový subjekt nemá vlastní t-uzel, v češtině #Gen
12 Pleonastické it
13 Pleonastické it prop it (Quirk et al., 1985) neodkazuje k žádné specifické entitě je považováno za sémanticky vyprázdněné v jednočlenných větách v angličtině tyto věty vyžadují predikát se sponovým slovesem
14 Pleonastické it v InterCorpu dotazy na vyhledávání specifických struktur s it, omezení i na české protějšky na základě vyhledávek ruční pravidla pro klasifikátor (kombinace závislostních vlastností a zjištění z InterCorpu)
15 Pleonastické it v InterCorpu časové místní atmosférické It is 5 o clock. It is not far to New York. It is raining.
16 Pleonastické it v InterCorpu lemma hlavního predikátu je make a predikát vedlejší věty je v pozici pacientu make it easy/hard ve sponě je infinitiv slovesa smyslového vnímání It is heard/seen/felt atd. identifikace na základě českých protějšků je možné/je nutné/jde o
17 Pravidla pokud je sloveso make a podřízený subjekt je pacientem, pak je it pleonastické) pokud nejde o nulový subjekt (součást fráze zdá se atp.), přidej vygenerovaný uzel pro osobní zájmeno kombinace obou částí: pokud má paralelní uzel subjekt, musí být na české straně #PersPron
18 Závěry opravy it, která visela v PCEDT 2.0 špatně využití informace o českém protějšku obohacení systému o ruční pravidla úpravy manuálu vylepšení automatické detekce pleonastického it
19 Závěry => zvýšení přesnosti automatické detekce pleonastického it v anglické části paralelního závislostního korpusu
20 Závěry na základě správně detekovaného pleonastického it úpravy české části korpusu => zvýšení přesnosti detekce o 3,5%
21 Literatura Hajič, J., Hajičová, E., Panevová J., Sgall, P., Cinková S., Fučíková E., Mikulová M., Pajas P., Popelka J., Semecký, J., Šindlerová, J., Štěpánek J., Toman, J., Urešová, Z., Žabokrtský, Z.: Prague Czech-English Dependency Treebank 2.0. Data/software, Institute of Formal and Applied Linguistics, Prague, Czech republic, Quirk, R., Greenbaum, S., Leech, G. And J. Svartvik. A Comprehensive Grammar of the English Language. Longman, Sinclair, J. M. English Grammar. Harper Collins Publisher, UK, Veselovská K., Nguy Giang L., Novák M.: Using Czech-English Parallel Corpora in Automatic Identification of It. Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012), European Language Resources Association, İstanbul, Turkey, 2012.
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
Strukturovaný životopis
Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český
On the Structure of Constituent Negation in Czech
On the Structure of Constituent Negation in Czech Kateřina Veselovská veselovska@ufal.mff.cuni.cz Institute of Formal and Applied Linguistics Faculty of Mathematics and Physics Charles University in Prague
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
Faktorované překladové modely. Základní informace
Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
Automatické párování uzlů českých a anglických tektogramatických stromů
Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008 Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování
Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.
Korpusová lingvistika a počítačová Od 60. let 20. st. Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené
Publications 1 Barbora Vidová Hladká March 2017
Publications 1 Barbora Vidová Hladká March 2017 Books (2) 1. Panevová Jarmila, Bojar Ondřej, Cinková Silvie, Hajič Jan, Hladká Barbora, Kuboň Vladislav, Mírovský Jiří, Peterek Nino, Spoustová Johanka,
Cl. Práce publikované v odborných Časopisech vydávaných v zahraničí
Příloha 6 Strukturovaná bibliografie Zdeněk Žabokrtský, 1999-2009 A. Monografie [1] Markéta Lopatková, Zdeněk Žabokrtský, and Václava Kettnerová. Valenční slovník českých sloves. Nakladatelství Karolinum,
Barbora Vidová Hladká Publications as of March 2016
Barbora Vidová Hladká Publications as of March 2016 Theses 1. Hladká Barbora. Software Tools for Large Czech Corpora Annotation. MSc Thesis, MFF UK. 1994. 2. Vidová Hladká Barbora: Czech Language Tagging.
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
1. Přehled cizojazyčných a vícejazyčných korpusů
1. Přehled cizojazyčných a vícejazyčných korpusů typy korpusů a možnosti jejich využití 2. Nová verze korpusu InterCorp (prosinec 2014) nové jazyky a texty lemmatizace a značkování 3. Webové korpusy srovnatelné
Translation Model Interpolation for Domain Adaptation in TectoMT
Rudolf Rosa, Ondřej Dušek, Michal Novák, Martin Popel {rosa,odusek,mnovak,popel}@ufal.mff.cuni.cz Translation Model Interpolation for Domain Adaptation in TectoMT Charles University in Prague Faculty of
Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny
Detail projektu Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy Základní informace o projektu č. 1572314 Český název projektu: Modelování závislostní
Education and Training
CURRICULUM VITAE Mgr. Magdaléna Rysová, Ph.D. E-mail: magdalena.rysova@ufal.mff.cuni.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Education and Training 2012 2015 Ph.D. Charles University in Prague
V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.
Syntakticky anotovaný korpus českých textů Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič, Alexandr Rosen, Hana Skoumalová Ústav teoretické a komputační lingvistiky, Filozofická fakulta
Životopis. Osobní informace. Pracovní pozice
Životopis Osobní informace Jméno a příjmení Jan HAJIČ Adresa Nosická 12, 10000 Praha 10, Česká republika Telefon (+420) 221 914 257 (+420) 607 209 212 Fax (+420) 221 914 306 E-mail, web hajic@ufal.mff.cuni.cz,
Automatická anotace angličtiny na tektogramatické
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Josef Toman Automatická anotace angličtiny na tektogramatické rovině Ústav formální a aplikované lingvistiky Vedoucí diplomové práce:
Korpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
Životopis Duben 2008
Jan Hajič Životopis Duben 2008 Osobní údaje: Narozen 4.11.1960 v Praze, r.č. 601104/0981 Bydliště: Nosická 12/2389, 100 00 Praha 10 Rodinný stav: ženatý, 2 děti Kontakt: hajic@ufal.mff.cuni.cz, tel. 607
PSANÍ. (1) My address is Dlouhá 34, Liberec. Thank you and!
PSANÍ Jazyk Úroveň Autor Kód materiálu Anglický jazyk 5. třída Mgr. Petra Prokophová aj5-kap-prk-psa-06 Z á k l a d o v ý t e x t : Dear Santa, (1) My address is Dlouhá 34, Liberec. Thank you and! (2)I
RNDr. Ondřej Bojar, Ph.D.
RNDr. Ondřej Bojar, Ph.D. Narozen: 7. března 1979 v Praze E-mail, web: bojar@ufal.mff.cuni.cz; http://www.cuni.cz/ obo Dosažené vzdělání: 2003-2008 doktorské studium MFF UK, obor Matematická lingvistika
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Střední odborná škola stavební a Střední odborné učiliště stavební Rybitví
Střední odborná škola stavební a Střední odborné učiliště stavební Rybitví Vzdělávací oblast: Vzdělávání a komunikace v cizím jazyce Název: Rozdíl v používání as/ like Autor: Mgr.Tompos Monika Datum, třída:
POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
POSLECH Jazyk Úroveň Autor Kód materiálu Anglický jazyk 9. třída Mgr. Martin Zicháček aj9-kap-zic-pos-07 Z á k l a d o v ý t e x t : Margaret: Hi Eric. Eric: Oh, hi Margaret. How are you doing? Margaret:
Gramatické závislosti vs. koordinace z pohledu redukční analýzy
V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 61 67 http://ceur-ws.org/vol-1214, Series ISSN 1613-0073, c 2014 M. Lopatková, J. Mírovský,
AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.
AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu. Ondřej Bojar obo@cuni.cz Abstrakt Systém AX je určen ke zpracování morfologicky analyzovaných vět přirozeného jazyka s cílem
PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.
PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st. Algebraická lingvistika matematika algebra logika formální logika logická analýza jazyka
PDT-Vallex: trochu jiný valenční slovník
PDT-Vallex: trochu jiný valenční slovník Zdeňka Urešová uresova@ufal.mff.cuni.cz Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky Malostranské nám. 25 11800 Praha 1 Česká republika Abstract
1. Introduction - That is me. 1. Presentation
1. Introduction - That is me ZŠ a MŠ Ostrava Zábřeh, Kosmonautů 15 Cíl hodiny: Vytvořit prezentaci "To jsem já", zopakovat slovesa popisující zájmy a přítomný čas průběhový (Učebnice: Project 2, Introduction
DIDAKTICKÉ STUDIE ročník 5, číslo 2,2013
DIDAKTICKÉ STUDIE ročník 5, číslo 2,203 UNIVERZITA KARLOVA V PRAZE - PEDAGOGICKÁ FAKULTA Syntax v teorii a praxi jazykového vyučování Praha 203 ZPŮSOBY VYJADŘOVÁNÍ VZTAHU PŘÍČINY A DŮSLEDKU V TEXTU - ALTERNATIVY
VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová
VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex Zdeňka Urešová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Zdeňka Urešová VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex
Juxtapozice z do v Arabštině
Juxtapozice z do v Arabštině Kvantitativní přístup Jiří Milička Ústav srovnávací jazykovědy Jak do začalo? První data pro výzkum byla shromážděna automaticky. Ale když se ukázalo, že téma je zajímavé,
Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: 15 minut
VY_32_INOVACE_AJPS2_5060CZE Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám Číslo projektu: CZ.1.07/1.5.00/34.0883 Název projektu: Rozvoj vzdělanosti Číslo šablony: III/2 Datum vytvoření:
Liší se mluvené a psané texty ve valenci? 1
Liší se mluvené a psané texty ve valenci? 1 Marie Mikulová Jan Štěpánek Zdeňka Urešová Ústav formální a aplikované lingvistiky, MFF UK Praha {mikulova, stepanek, uresova}@ufal.mff.cuni.cz Valency in spoken
ANGLIČTINA ODPOLEDNÍ 111, 113 (minulý semestr 111, 113) Angličtina velmi mírně pokročilí (3. semestry) Výukové materiály Předpokládaný rozsah učiva:
ANGLIČTINA ODPOLEDNÍ 111, 113 (minulý semestr 111, 113) Angličtina velmi mírně pokročilí (3. semestry) Předpokládaný rozsah učiva: 8. 12. lekce Gramatika: bude probráno základní použití následujících gramatických
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období 1. 2. 2016 31. 1. 2019 1. Úvod Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr.
Zachycení (nejen) koordinací v závislostních stromech
Zachycení (nejen) koordinací v závislostních stromech Markéta Lopatková ÚFAL MFF UK atural language syntax: Treebanks text corpora, esp. treebanks tens of languages stress on morphology, syntax manual
Anotace rematizátorů a discourse connectives v PEDT
Anotace rematizátorů a discourse connectives v PEDT Kateřina Veselá Horní Mísečky 11. 2. 2009 Obsah Úvod Anotace rematizátorů v PEDT Specifické problémy v anglické anotaci Co jsme se naučili o rematizátorech
Angličtina hravě - první stupeň
INV E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky Projekt: Registrační číslo projektu: Každý máme šanci
PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.
PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D. PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika a počítačová lexikografie Mgr. Dana
Syntaktická rovina a syntaktické funkce
Syntaktická rovina a syntaktické funkce 1. Úvod Nejprve uvedeme stručný přehled rovin v celém systému. Celý systém obsahuje tři roviny, čili každá věta je reprezentována na těchto rovinách: a) slovní rovina
Název projektu: Multimédia na Ukrajinské
Základní škola, Ostrava Poruba, Ukrajinská 1533, příspěvková organizace Operační program Vzdělávání pro konkurenceschopnost Název projektu: Multimédia na Ukrajinské číslo projektu: CZ1.07/1.4.00/21.3759
Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost
Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost Registrační číslo: CZ.1.07/1. 5.00/34.0084 Šablona: II/2 Inovace a zkvalitnění výuky cizích jazyků na středních
Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie
Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie Obsah Strojový překlad Statistický strojový překlad Frázový statistický strojový překlad Překlad pojmenovaných entit O. Hálek, R. Rosa,
Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis
Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis BUDOUCÍ ČAS PROSTÝ (WILL) VY_32_INOVACE_AK_2_08 OPVK 1.5 EU peníze středním školám CZ.1.07/1.500/34.0116 Modernizace výuky na učilišti Název školy
Výsledky dosažené v roce 2007
Výsledky dosažené v roce 2007 Řešitelské pracoviště MFF UK Podrobně jsou výsledky projektu dokumentovány na stránce http://ufal.mff.cuni.cz/rest. Stěžejním výstupem projektu bylo vydání monografie Průvodce
Present simple (přítomný čas prostý)
Present simple (přítomný čas prostý) MASARYKOVA ZÁKLADNÍ ŠKOLA A MATEŘSKÁ ŠKOLA VELKÁ BYSTŘICE projekt č. CZ.1.07/1.4.00/21.1920 Název projektu: Učení pro život Číslo DUMu: VY_32_INOVACE_11_12 Tématický
POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
POSLECH Jazyk Úroveň Autor Kód materiálu Anglický jazyk 5. třída Mgr. Milena Kašová aj5-mas-kas-pos-01 Z á k l a d o v ý t e x t : Carl is for the first time in a new school. The teacher is asking Carl.
Hlásili to v rozhlase aneb vzájemné mapování lokace a aktoru v dvojjazyčném závislostním korpusu 1
Hlásili to v rozhlase aneb vzájemné mapování lokace a aktoru v dvojjazyčném závislostním korpusu 1 Jana Šindlerová ABSTRAKT: V příspěvku se zabýváme jedním typem strukturní odlišnosti mezi českými a anglickými
PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
PSNÍ Jazyk Úroveň utor Kód materiálu nglický jazyk 9. třída Mgr. Martin Zicháček aj9-kap-zic-psa-20 Z á k l a d o v ý t e x t : ear Thomas, I 1 like to apologize for what I did yesterday and explain why
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy Veronika Kolářová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 1
Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?
Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK lopatkova@ufal.mff.cuni.cz Cíl popsat přirozený jazyk
Střední průmyslová škola stavební Pardubice
Střední průmyslová škola stavební Pardubice Vzdělávací oblast: Vzdělávání a komunikace v cizím jazyce Název: Slovesná vazba I am used to + ing a I get used to + ing. Autor: Svatoňová Zuzana Datum, třída:
Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT
Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Výuka s ICT na SŠ obchodní České Budějovice Šablona
Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Adam Liška Čištění paralelních dat pro strojový překlad Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: RNDr.
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE Veronika Kolářová, Jana Klímová, Anna Vernerová Ústav formální a aplikované lingvistiky MFF UK Praha 22. 4. 2016 Slovanská lexikografie počátkem 21.
ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost 2005 1ET101120413
Národní 3, 117 20 Praha 1 List PT1 ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost Rok Identifikační kód projektu 2005 1ET101120413 01 Řešitel projektu Jméno: Mgr. Barbora Vidová Hladká,
model arabské morfologie Otakar Smrž
Počítačový systém ElixirFM model arabské morfologie Otakar Smrž dzamedzam@yahoo.com Džám-e Džam jazyková škola Otakar Smrž (Džám-e Džam) Počítačový systém ElixirFM Praha, 12. prosince 2009 1 / 6 ElixirFM
Depfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/34.0205 Šablona: III/2 Anglický jazyk
Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list
VY_32_INOVACE_AJ_133 Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list PhDr. Zuzana Žantovská Období vytvoření: květen 2013 Ročník: 1. 4. ročník SŠ Tematická oblast: Gramatika slovesa
Číslo projektu: CZ.1.07/1.5.00/34.0036 Název projektu: Inovace a individualizace výuky
Číslo projektu: CZ.1.07/1.5.00/34.0036 Název projektu: Inovace a individualizace výuky Autor: Mgr. Libuše Matulová Název materiálu: Education Označení materiálu: VY_32_INOVACE_MAT27 Datum vytvoření: 10.10.2013
Metodický list. Radmila Válková
Projekt: Zlepšení podmínek pro vzdělávání Příjemce: Základní škola Integra Vsetín Registrační číslo: CZ.1.07/1.4.00/21.3764 Název materiálu Autor Klíčová slova Šablona Metodický list Datum vytvoření 9.
ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/34.0717. PaedDr. Zuzana Sehnalová
Název projektu ICT podporuje moderní způsoby výuky Číslo projektu CZ.1.07/1.5.00/34.0717 Název školy Gymnázium, Turnov, Jana Palacha 804, přísp. organizace Číslo a název šablony klíčové aktivity II/2 Inovace
SUBCATEGORIZATION OF ADVERBIAL MEANINGS BASED ON CORPUS DATa
JAZYKOVEDNÝ ČASOPIS, 2017, roč. 68, č. 2 SUBCATEGORIZATION OF ADVERBIAL MEANINGS BASED ON CORPUS DATa Marie Mikulová Eduard Bejček Veronika Kolářová Jarmila Panevová Faculty of Mathematics and Physics,
Pražský závislostní korpus jako elektronická cvičebnice češtiny
Pražský závislostní korpus jako elektronická cvičebnice češtiny OndřejKučera ondrej.kucera@centrum.cz Abstrakt Pražský závislostní korpus patří mezi nejvýznamnější jazykové korpusy na světě. Cílem naší
VÝZNAMOVÁ REPREZENTACE ELIPSY. Marie Mikulová
VÝZNAMOVÁ REPREZENTACE ELIPSY Marie Mikulová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Marie Mikulová VÝZNAMOVÁ REPREZENTACE ELIPSY Published by Institute of Formal and Applied Linguistics as
Rekonstrukce standardizovaného textu z mluvené řeči
Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Příspěvek shrnuje dosavadní poznatky získané při budování Pražského závislostního korpusu mluvené češtiny (Prague Dependency
Perfektym v současné cestine
Perfektym v současné cestine Korpusová studie jeho gramatikalizace na bázi Českého národního korpusu Mira Načeva-Marvanová NAKLADATELSTVÍ LIDOVÉ NOVINY Ústav Českého národního korpusu Obsah PŘEDMLUVA (František
Univerzita Karlova v Praze. Matematicko-fyzikální fakulta DISERTAČNÍ PRÁCE. Marie Mikulová. Významová reprezentace elipsy
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DISERTAČNÍ PRÁCE Marie Mikulová Významová reprezentace elipsy Ústav formální a aplikované lingvistiky Vedoucí disertační práce: Prof. PhDr. Jarmila
ROZŠÍŘENÁ TEXTOVÁ KOREFERENCE A ASOCIAČNÍ ANAFORA Koncepce anotace českých dat v Pražském závislostním korpusu. Anna Nědolužko
ROZŠÍŘENÁ TEXTOVÁ KOREFERENCE A ASOCIAČNÍ ANAFORA Koncepce anotace českých dat v Pražském závislostním korpusu Anna Nědolužko STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Anna Nědolužko ROZŠÍŘENÁ
Minulý čas prostý. Past simple. Výhradní výukový materiál portálu onlinejazyky.cz
Minulý čas prostý Past simple Výhradní výukový materiál portálu onlinejazyky.cz Use Použití Minulý čas prostý používáme, hovoříme-li o činnostech, událostech či stavech, které začaly a také skončily v
Future. V angličtině máme 3 způsoby, jak popsat budoucnost: 1. will future 2. be going to 3. present continuous
Future Future V angličtině máme 3 způsoby, jak popsat budoucnost: 1. will future 2. be going to 3. present continuous 1. Will Will používáme, když: 1. mluvíme o faktech v budoucnosti. I will be fifteen
Učíme počítače (nejen) česky: ÚFAL
Učíme počítače (nejen) česky: ÚFAL Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky
Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU
Právní datasety co, proč, kdo a komu Jakub HARAŠTA Ústav práva a technologií, Právnická fakulta MU Podpořeno Grantovou agenturou České republiky projekt GA17-20645S Obsah Úvod Právní datasety Rozhodovací
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost. Projekt MŠMT ČR Číslo projektu Název projektu školy Klíčová aktivita III/2 EU PENÍZE ŠKOLÁM CZ.1.07/1.4.00/21.2146
Nedostatky bezkontextové gramatiky
Nedostatky bezkontextové gramatiky Běžná gramatika nezachytí schodu podmětu s přísudkem. Lze řešit přidáním zvláštních neterminálů pro jednotné číslo, množné číslo... Velký nárust počtu neterminálů Rozšířené
CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT
Autor: Sylva Máčalová Tematický celek : Gramatika Cílová skupina : začátečník mírně pokročilý Anotace Materiál má podobu pracovního listu, který obsahuje 6 různých cvičení včetně krátkého překladu, pomocí
0. Úvod. 1. Syntaktické značkování textu
Systém pro syntaktické značkování velkých textových korpusů 1 Tomáš Jelínek Ústav teoretické a komputační lingvistiky Filozofické fakulty Karlovy univerzity Abstract Syntactic annotation of corpora is
PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
PSANÍ Jazyk Úroveň Autor Kód materiálu Anglický jazyk 9. třída Markéta Zakouřilová aj9-jen-zak-psa-02 In the park (R reporter, B Bill) R: _1, may I ask you several questions? B: Yes, of course. R: What
Workshop o paralelním korpusu InterCorp
Workshop o paralelním korpusu InterCorp Praha, 6.9.2013 Olga Richterová, ÚČNK Český národní korpus (LM2011023; 2012-2016) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro
Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis
Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis MINULÝ ČAS PROSTÝ VY_32_INOVACE_AK_2_06 OPVK 1.5 EU peníze středním školám CZ.1.07/1.500/34.0116 Modernizace výuky na učilišti Název školy Název
POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
POSLECH Jazyk Úroveň Autor Kód materiálu Anglický jazyk 5. třída Hana Stryalová Aj5-kap-str-pos-02 Z á k l a d o v ý t e x t : O n t h e p h o n e : Annie: Hello. 892356. Who is it? Jack: Hello. It s Jack.
Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis
Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis DRUHÁ PODMÍNKOVÁ VĚTA VY_32_INOVACE_AK_2_18 OPVK 1.5 EU peníze středním školám CZ.1.07/1.500/34.0116 Modernizace výuky na učilišti Název školy
PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u : My family, my hobbies Present simple and continuous, Wh- questions
PSNÍ Jazyk Úroveň utor Kód materiálu nglický jazyk 5. třída Eva Prokšová j5-doc-pro-psa-01 Z á k l a d o v ý t e x t : Dear Johny, My name s Pavel Novák and I m twelve years old. I m from Prague which
Sport, sportování a hry
Sport, sportování a hry Konverzace z angličtiny autorka: Mgr. Nikola Němcová Základní škola a Mateřská škola Kameničky Další možnosti studia - nepovinné předměty CZ.1.07/1.1.28/02.0034 Předpokládaný čas:
Strojové učení a pravidla pro extrakci informací z textů
Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015 Pozvánka Jako výzkumníci
Karel Pala, Vít Suchomel
PA153 Počítačové zpracování přirozeného jazyka 06 Korpusy a korpusové nástroje, značkování Karel Pala, Vít Suchomel Centrum ZPJ, FI MU, Brno 21. října 2013 Karel Pala, Vít Suchomel PA153 Zpracování přirozeného
POSLECH. Anglický jazyk 9. třída Mgr. Martin Zicháček. Jazyk Úroveň Autor Kód materiálu. Z á k l a d o v ý t e x t :
POSLECH Jazyk Úroveň Autor Kód materiálu Anglický jazyk 9. třída Mgr. Martin Zicháček aj9-kap-zic-pos-20 Z á k l a d o v ý t e x t : Caren: High Wings, Caren speaking, how can I help you? John: Hello,
ZÁKLADY ANGLICKÉ GRAMATIKY PRO SOU MGR. DITA HEJLOVÁ
ZÁKLADY ANGLICKÉ GRAMATIKY PRO SOU MGR. DITA HEJLOVÁ ČLEN URČITÝ A NEURČITÝ VY_32_INOVACE_AH_2_01 OPVK 1.5 EU peníze středním školám CZ.1.07/1.500/34.0116 Modernizace výuky na učilišti Název školy Název
PŘEDPŘÍTOMNÝ prostý ČAS - procvičení
PŘEDPŘÍTOMNÝ prostý ČAS - procvičení Předmět Ročník a obor Kód sady Kód DUM Autor Anglický jazyk Všechny ročníky střední školy všech oborů AJ/ZA+SC+OS/01020+03+04/01 AJ/ZA+SC+OS/01+20+03+04/01/03-20 Mgr.
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
ČASOVÁNÍ SLOVESA "TO HAVE"
ČASOVÁNÍ SLOVESA "TO HAVE" Časování slovesa TO HAVE je o něco jednodušší než časování slovesa TO BE, protože má jen dva tvary. Ve 3.osobě j.č. je tvar HAS, ve všech ostatních osobách je HAVE. V hovorové
Strukturovaný životopis
Strukturovaný životopis PhDr. Kateřina Rysová, Ph.D. E-mail: katerina.rysova@post.cz, rysova@ufal.mff.cuni.cz WWW: https://ufal.mff.cuni.cz/katerina-rysova Vzdělání 2009 2013 Ph.D. Filozofická fakulta
PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
PSANÍ Jazyk Úroveň Autor Kód materiálu Anglický jazyk 5. třída Hana Vavřenová aj5-rie-vav-psa-03 Z á k l a d o v ý t e x t : M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u : Tematická
Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost
Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost Registrační číslo: CZ.1.07/1. 5.00/34.0084 Šablona: II/2 Inovace a zkvalitnění výuky cizích jazyků na středních