Automatická post-editace výstupů frázového strojového překladu (Depfix)
|
|
- František Horák
- před 6 lety
- Počet zobrazení:
Transkript
1 Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs
2 Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 2/45
3 Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 3/45
4 Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 4/45
5 Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 5/45
6 Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co by se nám líbilo více? Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 6/45
7 Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 7/45
8 Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 8/45
9 Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 9/45
10 Motivační příklad Zdroj (WMT 2010): All the winners received a diploma Co nám dá Moses? Všem výhercům obdržel diplom Co na to Depfix? vezme zdrojovou větu a výstup Mosese najde chyby, opraví je, a vydá správný překlad Všichni výherci obdrželi diplom Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 10/45
11 Obsah Motivační příklad Depfix krok za krokem Úpravy použitých nástrojů, zejména parseru Vyhodnocení Shrnutí Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 11/45
12 Depfix krok za krokem Lingvistická analýza vstupu Pravidlové a statistické opravy chyb Roviny dle Pražského závislostního korpusu M-rovina A-rovina T-rovina Implementováno ve frameworku Treex přijata Treexová implementace rovin Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 12/45
13 M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek, kapitalizace Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 13/45
14 M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek, kapitalizace Zdroj: director of the best hotel in Pec, Karel Rada Moses: ředitel nejlepší hotel v peci, Karel rada Depfix: ředitel nejlepší hotel v Peci, Karel Rada Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 14/45
15 M-rovina Analýza: lemmata, tagy, word-alignment Opravy: vokalizace předložek, kapitalizace Zdroj: director of the best hotel in Pec, Karel Rada Moses: ředitel nejlepší hotel v peci, Karel rada Depfix (M): ředitel nejlepší hotel v Peci, Karel Rada Depfix: ředitel nejlepšího hotelu v Peci, Karel Rada Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 15/45
16 A-rovina Analýza: závislostní stromy, analytické funkce Opravy: morfologické shody: předložka se substantivem, podmět s přísudkem, substantivum s adjektivem transfer významu do morfologie: podmět, nevyjádřený podmět, přivlastňování, pasivum Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 16/45
17 Všem výhercům obdržel diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
18 Transfer významu: podmět a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
19 Transfer významu: podmět a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výhercům NNMP3 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
20 Podmět nominativ a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
21 Všem výherci obdržel diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
22 Shoda adjektiva se substantivem a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všem Atr PLXP3
23 Shoda: rod, pád (číslo) a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
24 Všichni výherci obdržel diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
25 Shoda podmětu s přísudkem a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdržel Pred VpYSXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
26 Shoda: rod, číslo (osoba) a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdrželi Pred VpMPXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
27 Všichni výherci obdrželi diplom a-tree zone=en a-tree zone=cs received Pred VBD AuxK obdrželi Pred VpMPXRA AuxK Z: winners Sb NNS diploma NN výherci Sb NNMP1 diplom NNIS1 All Atr PDT the AuxA DT a AuxA DT Všichni Atr PLMP1
28 T-rovina Analýza: t-stromy, formémy Opravy: pravidlové: negace, překlad slovesných časů, vypouštění pronominálního podmětu statistické: substantivní a verbální valence Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 28/45
29 Valenční model pravděpodobnost formému argumentu podmíněná lematem rodiče (sloveso/substantivum) formémem anglického argumentu ± lematem argumentu trénováno na CzEngu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 29/45
30 Úpravy použitých nástrojů nástroje pro automatickou analýzu jazyka tagger, word-aligner, parser určené pro analýzu bezchybných vět výstupy strojového překladu obsahují chyby nátroje mají při jejich analýze nižší úspěšnost zvýšení robustnosti nástrojů pravidlové opravy výstupů (tagger, aligner, parser) reimplementace a modifikace parseru (pro češtinu) Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 30/45
31 Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 31/45
32 Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 32/45
33 Maximum Spanning Tree parser McDonald, Crammer, Pereira (2005) Online large-margin training of dependency parsers McDonald, Pereira, Rybarov, Hajič (2006) Non-projective dependency parsing using spanning tree algorithms Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 33/45
34 Maximum Spanning Tree parser reimplementace, vyladění pro češtinu Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 34/45
35 Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 35/45
36 Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 36/45
37 Maximum Spanning Tree parser reimplementace, vyladění pro češtinu zhoršení trénovacích dat zavlečení chyb podle chybového modelu, natrénovaného na výstupech Mosese přidání informací o zdrojové větě tag, analytická funkce, existence hrany přidání informací z velkého korpusu (CzEng) PMI parent, child =log p [ parent, child ] p[ parent, *] p[*, child ] Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 37/45
38 Manuální vyhodnocení Depfixu Vyhodnoceno Změněno 1350 vět 739 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 38/45
39 Manuální vyhodnocení Depfixu Vyhodnoceno Změněno Zlepšeno Zhoršeno Neurčeno 1350 vět 739 vět 430 vět 152 vět 157 vět Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 39/45
40 Manuální vyhodnocení Depfixu Vyhodnoceno 1350 vět Změněno 739 vět Zlepšeno 430 vět Zhoršeno 152 vět Neurčeno 157 vět správně správně špatně špatně věta zcela špatně, nelze určit Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 40/45
41 Manuální vyhodnocení Depfixu Vyhodnoceno 1350 vět Změněno 739 vět Zlepšeno 430 vět Zhoršeno 152 vět Neurčeno 157 vět Úspěšnost 58,2% Přesnost 73,9% Úplnost 31,9% úspěšnost = zlepšeno změněno přesnost = úplnost = zlepšeno zlepšeno zhoršeno zlepšeno vyhodnoceno Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 41/45
42 Automatické vyhodnocení (BLEU) Systém WMT 2011 WMT 2012 před po před po Joshua (Zeman) 14,08 14,81 12,10 12,44 Moses (Bojar) 16,35 16,83 14,19 14,26 Moses (Koehn) 17,30 17,94 15,54 15,78 Google Translate 19,73 19,97 16,22 16,22 a dalších 9 systémů průměrné zlepšení +0,38 +0,19 Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 42/45
43 Shrnutí Depfix = automatická post-editace výstupů frázového strojového překladu (AJ ČJ) Lingvistická analýza v Treexu (M-, A-, T-rovina) zvýšena robustnost nástrojů (data obsahují chyby) Pravidlové i statistické opravy shody, negace, podměty, časy, valence Zvýšení kvality strojového překladu do značné míry nezávislé na překladovém systému Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 43/45
44 Děkuji za pozornost Rudolf Rosa, ÚFAL MFF UK tato prezentace i samotná diplomová práce budou k dipozici na webu Depfix je součástí Treexu trunk/treex/devel/depfix/ free software; můžete jej redistribuovat a/nebo modifikovat za stejných podmínek jako Perl Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 44/45
45 Generování většina oprav vede ke změně tagu jednoho nebo více slov pro nalezení správné slovní formy používáme Hajičův morfologický generátor forma = generátor(lemma, tag) Rudolf Rosa: Automatická post-editace výstupů frázového strojového překladu 45/45
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
Depfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
Jak dělat strojový překlad lépe než Google Translate
Mgr. Rudolf Rosa Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky ProSŠ, Gymnázium Kladno, 23. října
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
Faktorované překladové modely. Základní informace
Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace
0. Úvod. 1. Syntaktické značkování textu
Systém pro syntaktické značkování velkých textových korpusů 1 Tomáš Jelínek Ústav teoretické a komputační lingvistiky Filozofické fakulty Karlovy univerzity Abstract Syntactic annotation of corpora is
Možnosti zlepšení strojového překladu z angličtiny do češtiny
Prezentace k obhajobě diplomové práce Možnosti zlepšení strojového překladu z angličtiny do češtiny Martin Popel 14. září 2009 TectoMT Anotace překladových chyb Jednotlivá vylepšení Analýza Transfer Syntéza
Popis morfologických značek poziční systém
Popis morfologických značek poziční systém Jan Hajič Ústav formální a aplikované lingvistiky MFF UK Morfologická analýza a syntéza Morfologické značky jsou součástí výsledku (výstupem) morfologické analýzy,
Automatické párování uzlů českých a anglických tektogramatických stromů
Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008 Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování
Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie
Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie Obsah Strojový překlad Statistický strojový překlad Frázový statistický strojový překlad Překlad pojmenovaných entit O. Hálek, R. Rosa,
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
Program pro automatickou opravu stochastické syntaktické anotace (analytická rovina PDT)
Program pro automatickou opravu stochastické syntaktické anotace (analytická rovina PDT) 1. Základní charakteristiky opravného programu Opravný program je počítačový software umožňující vyhledání a opravy
Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny
Detail projektu Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy Základní informace o projektu č. 1572314 Český název projektu: Modelování závislostní
Japonsko-český strojový překlad
V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 85 92 http://ceur-ws.org/vol-1214, Series ISSN 1613-0073, c 2014 D. Variš, O. Bojar
IA161 Pokročilé techniky zpracování přirozeného jazyka
IA161 Pokročilé techniky zpracování přirozeného jazyka Strojový překlad Vít Baisa Překlad angličtina čeština Moses is an implementation of the statistical (or data-driven) approach to machine translation
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Pražský závislostní korpus jako elektronická cvičebnice češtiny
Pražský závislostní korpus jako elektronická cvičebnice češtiny OndřejKučera ondrej.kucera@centrum.cz Abstrakt Pražský závislostní korpus patří mezi nejvýznamnější jazykové korpusy na světě. Cílem naší
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva I. Zpracování
Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze
ÔÐ ØÖÓ ÓÚ Ó Ô Ð Ù Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 18. říjen 2010 Aplikace strojového překladu Ç ÔÖ Þ
Slovníky a morfologická analýza
Počítačové zpracování přirozeného jazyka Slovníky a morfologická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ Slovník Zásobárna informací o slovech Morfologie vzory ohýbání, pravidelné odvozování
Nainstalovat Tred!
Nainstalovat Tred! http://ufal.mff.cuni.cz/tred/ 1 Korpusy a lingvistické nástroje Daniel Zeman zeman@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova
johanka April 16, 2008
(Jak disambiguátoři přicházejí o iluze) April 16, 2008 Výchozí podmínky Co máme k dispozici? Jazyk LanGR + poloboha Pavla Květoně Pravidla pro (částečnou) morfologickou disambiguaci (Niki Petkevič, Tomáš
Moses. M. Fabianová, A. Štromajerová, M. Vaněk
Moses M. Fabianová, A. Štromajerová, M. Vaněk Osnova 1. Trocha historie 2. Co je to Moses? 3. V čem je Moses jiný/lepší než ostatní SMT překladače? 4. Využití, příklady, srovnání Trocha historie 50. léta
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Ondřej Bojar Automatická extrakce lexikálně-syntaktických údajů z korpusu Praha 2002 Ústav formální a aplikované lingvistiky Vedoucí
Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Adam Liška Čištění paralelních dat pro strojový překlad Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: RNDr.
Morfologie odborných textů
Morfologie odborných textů Yvona Řepová Název školy Název a číslo projektu Název modulu Obchodní akademie a Střední odborné učiliště, Veselí nad Moravou Motivace žáků ke studiu technických předmětů OP
Jak lze v korpusech hledat doklady pro výzkum morfologie?
Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE Veronika Kolářová, Jana Klímová, Anna Vernerová Ústav formální a aplikované lingvistiky MFF UK Praha 22. 4. 2016 Slovanská lexikografie počátkem 21.
Á Í Č Ě Č ň ť Š Č Ť ň ň ď Ť Ú ť Č ň ď ť Č Š Ž Ú Ť Ť Ť Ť ň Ť Ť ť Ť Ť Á Ť Ť Ť ď Ť Ť Ť Ť Ť Ť Ť Ť Ť ň ďť Ť Ť Ť Š Š Š ď ň Č Š ň Š ť Š ň Š Š Ť Ť Ť Ť Ť Ť Ť Ť Ť Ť Ť Ť Ť Ť Ť Ú Š ň ť ť Š ň Š Ž ť ť ť ň Š Č Š Š Í
FAKULTA INFORMAČNÍCH TECHNOLOGIÍ
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV POČÍTAČOVÉ GRAFIKY A MULTIMÉDIÍ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND
Korpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
Anotace na analytické rovině
Anotace na analytické rovině Návod pro anotátory Jan Hajič, Jarmila Panevová, Eva Buráňová, Zdeňka Urešová, Alla Bémová Jiří Kárník, Jan Štěpánek, Petr Pajas 11. 10. 1999 ÚFAL MFF UK Praha Editoři: Eva
qwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjkl zxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiop asdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqw
qwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjkl zxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiop asdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqw Semestrální práce z předmětu Kartografická polygrafie a reprografie
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita
V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.
Syntakticky anotovaný korpus českých textů Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič, Alexandr Rosen, Hana Skoumalová Ústav teoretické a komputační lingvistiky, Filozofická fakulta
Aktivní detekce chyb
Fakulta aplikovaných věd, Katedra kybernetiky a Výzkumné centrum Data - Algoritmy - Rozhodování Západočeská univerzita v Plzni Prezentace v rámci odborného semináře Katedry kybernetiky Obsah Motivační
Zachycení (nejen) koordinací v závislostních stromech
Zachycení (nejen) koordinací v závislostních stromech Markéta Lopatková ÚFAL MFF UK atural language syntax: Treebanks text corpora, esp. treebanks tens of languages stress on morphology, syntax manual
pokroky ve johanka Obsah telenovely Bez ladu a skladu Unsupervised johanka 21. dubna 2008
(nejen) češtiny 21. dubna 2008 Tipovací soutěž Pro který/é z následujících jazyků bude v průběhu přednášky překonán state-of-the-art? Čeština 95.68 % ( et. al., 2007) Slovenština 89.36 % (TnT, Brants 2000)
Strojové učení a pravidla pro extrakci informací z textů
Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015 Pozvánka Jako výzkumníci
KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY. Drahomíra johanka Spoustová
KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY Drahomíra johanka Spoustová Copyright Institute of Formal and Applied Linguistics, 2009 ISBN 978-80-904175-4-0 Obsah 1 Úvod 1 2 Výchozí situace
AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.
AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu. Ondřej Bojar obo@cuni.cz Abstrakt Systém AX je určen ke zpracování morfologicky analyzovaných vět přirozeného jazyka s cílem
SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony
Číslo a název projektu Číslo a název šablony DUM číslo a název CZ.1.07/1.5.00/34.0378 Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT SSOS_CJL_5.13
L A TEX Korektura textu
Semestrální práce z předmětu Kartografická polygrafie a reprografie L A TEX Korektura textu Autor: Jana Baarová,Pavla Ptáčková, Hana Gubániová, Rudolf Klímek Editor: Jan Varyš Praha, 5.5. 2010 Katedra
Učíme počítače (nejen) česky: ÚFAL
Učíme počítače (nejen) česky: ÚFAL Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky
DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ
DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ Číslo projektu Číslo a název šablony klíčové aktivity Tématická oblast CZ.1.07/1.5.00/34.0963 II/2 Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy
Valence českých deverbativních substantiv reprezentujících vybrané sémantické třídy Veronika Kolářová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 1
DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ
DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ Číslo projektu Číslo a název šablony klíčové aktivity Tématická oblast CZ.1.07/1.5.00/34.0963 II/2 Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační
ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost 2005 1ET101120413
Národní 3, 117 20 Praha 1 List PT1 ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost Rok Identifikační kód projektu 2005 1ET101120413 01 Řešitel projektu Jméno: Mgr. Barbora Vidová Hladká,
Rekonstrukce standardizovaného textu z mluvené řeči
Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Příspěvek shrnuje dosavadní poznatky získané při budování Pražského závislostního korpusu mluvené češtiny (Prague Dependency
NLP & strojové učení
NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování
Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti
Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující
1 Úvod 5 1.1 Co je PDT 2.0... 5 1.2 Historické pozadí projektu... 6 1.3 Vývoj projektu... 6. 2 Roviny anotace 11 2.1 Morfologická rovina...
Průvodce PDT 2.0 Jan Hajič, Eva Hajičová, Jaroslava Hlaváčová, Václav Klimeš, Jiří Mírovský, Petr Pajas, Jan Štěpánek, Barbora Vidová Hladká, and Zdeněk Žabokrtský 20. června 2006 Obsah 1 Úvod 5 1.1 Co
ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps
ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps Číslo projektu Číslo a název šablony klíčové aktivity Tematická oblast (předmět) Autor CZ.1.07/1.5.00/34.0705 III/2 Inovace a zkvalitnění výuky prostřednictvím
Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič
Jazyky a jazykové technologie v České republice Tomáš Svoboda Jan Hajič 1 Kolik jazyků máme v ČR? Jeden úřední jazyk (čeština) Skutečnost je složitější Turistika Obchod a mezinárodní komerční aktivity
LATINA. V rámci gymnaziálního vzdělání přispívá předmět Latina k utváření a rozvíjení klíčových kompetencí t těmito metodami:
LATINA Název předmětu: Latina Charakteristika vyučovacího předmětu: Vyučovací předmět Latina vychází vychází z RVP G jako Doplňující vzdělávací obor. Lze ho studovat jako povinně volitelný předmět ve 2.
Počítačové zpracování přirozeného jazyka. Daniel Zeman
Počítačové zpracování přirozeného jazyka Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ zeman@ufal.mff.cuni.cz Předpoklady Žádné (téměř) Pouze: Základní znalost programování v některém programovacím
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
září Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová. Žák dokáže rozlišit mluvnické kategorie podstatných jmen (pád, číslo, rod), rozliší větu jednoduchou
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
Čím může bohemistice přispět současná počítačová lingvistika?
Jarmila Panevová (Univerzita Karlova, Praha) Čím může bohemistice přispět současná počítačová lingvistika? I. Po několik destiletí (od 2. poloviny 20. století) se mohlo zdát, že počítačová a formální lingvistika
NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA
ČÍSLO SADY III/2 AUTOR/KA Radka Zborníková ČJL - Tvarosloví Slovní druhy číselné označení DUM NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA FORMÁT (pdf,, ) 1. Slovní druhy - přehled, opakování učiva
Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255
Úvod do gramatiky Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255 Slovní druhy Z deseti slovních druhů se v lékařské terminologii uplatňují jen některé: a) podstatná
Chytal tlouště na višni
Chytal tlouště na višni Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Jedna noc s informatikou a matematikou MFF
Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince
Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince Cíl kursu: 1/rychlé osvojení češtiny na komunikační úrovni - rozvoj slovní zásoby 2/ pochopení základních pravidel systému jazyka druhy
úč úč ž ů ž Č Č č č ů ž úč č úč ť Ň č ú Ý č č Ú Ú ť ú č ď ů ž š úč ž úč úč ž ť ď ť ď ž ú č č úč š ž Ů č č ú úč ž ů ť úč ž ž ž Ů č ž ú č Š úč č Úč Č Č š ď š Š š Ó Ó ž ůč ú Ď ť ž ů ů č ů Č ů ž úč Ý č ž úč
č ů š ň č č Ú č č č Ú ů Ú č ž ú š š ý č ú ó ó ž č ý ý ý č ž č ý ž ý č ý ž ž č ý ý ý ž ý ý ý ý š ý š ů ů č č ý ž č ý ů š ž ý Ú Ú úč š ů ž ů ů Úč ž č ý č š ý ů č š ý ý ý ů č č ž ů š ů ů š ý ý ů ů č č ž ú
Á Ě Í Ě Á Á ó č ž č ž č Í š úč é úč š ž č é ů č é č é é ů č ů č č ů é Ž š ů ů š č é Ž č é Ž č Í ž Ž Ž é é Ů é Ř ů ť š é é č é é é š č č é č č č č š č š é č é č ů č č š ú é č é š é Ž Ž é é ú č č é ů č š
OJ305 TYPOLOGIE JAZYKŮ z pohledu syntaxe
OJ305 TYPOLOGIE JAZYKŮ z pohledu syntaxe Syntaktická typologie co je to slovosled? co je to syntax? slovosled = pořadí větných členů ve větě syntax = slovosled, tedy pořadí větných členů, vztahy mezi nimi
Oddíl E učební osnovy VI.1.B LATINA
Podještědské gymnázium, s.r.o., Liberec, Sokolovská 328 Oddíl E učební osnovy VI.1.B LATINA Charakteristika předmětu: LATINA ve vyšším stupni osmiletého studia Obsah předmětu Latinský jazyk plní jednak
Automatická anotace angličtiny na tektogramatické
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Josef Toman Automatická anotace angličtiny na tektogramatické rovině Ústav formální a aplikované lingvistiky Vedoucí diplomové práce:
Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman
Počítačové zpracování češtiny Syntaktická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ Syntaktická rovina Vztahy mezi větnými členy. Větný člen je pro nás slovo (tj. též interpunkce). Z praktických
OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický
OBSAH Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický Úvod Rozdělení jazykového rozboru Poměr fonologie k fonetice. Dějiny bádání Fonémy a varianty Monofonémové hodnocení hláskových komplexů Dvoufonémové
Univerzita Karlova v Praze Matematicko-fyzikální fakulta
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Oldřich Krůza Dělení českých vět na klauze Ústav formální a aplikované lingvistiky Vedoucí diplomové práce práce: RNDr. Vladislav
Japonsko-český strojový překlad
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Dušan Variš Japonsko-český strojový překlad Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: RNDr. Ondřej Bojar,
15. Věta jednoduchá Vypracovala: Martina Miškeříková, červenec 2013
15. Věta jednoduchá Vypracovala: Martina Miškeříková, červenec 2013 Název školy Obchodní akademie a Střední odborné učiliště Veselí nad Moravou Název a číslo OP OP Vzdělávání pro konkurenceschopnost, CZ
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
VY_12_INOVACE_32_ZAKLAD_VETY. Časová dotace: 45 min Datum ověření:
Kód materiálu: Název materiálu: VY_12_INOVACE_32_ZAKLAD_VETY Základ věty Předmět: Český jazyk Ročník: 4. Časová dotace: 45 min Datum ověření: 17. 4. 2013 Jméno autora: Klíčová slova: Výchovné a vzdělávací
Sémantická interpretace
Vysoké učení technické v Brně Fakulta informačních technologií Sémantická interpretace Moderní teoretická informatika Semestrální projekt Autor: Zdeněk Martínek Školitel: RNDr. Jitka Kreslíková, CSc. 19.
SADA VY_32_INOVACE_CJ1
SADA VY_32_INOVACE_CJ1 Přehled anotačních tabulek k dvaceti výukovým materiálům vytvořených Mgr. Bronislavou Zezulovou a Mgr. Šárkou Adamcovou. Kontakt na tvůrce těchto DUM: zezulova@szesro.cz a adamcova@szesro.cz
PDT-Vallex: trochu jiný valenční slovník
PDT-Vallex: trochu jiný valenční slovník Zdeňka Urešová uresova@ufal.mff.cuni.cz Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky Malostranské nám. 25 11800 Praha 1 Česká republika Abstract
Syntaktická rovina a syntaktické funkce
Syntaktická rovina a syntaktické funkce 1. Úvod Nejprve uvedeme stručný přehled rovin v celém systému. Celý systém obsahuje tři roviny, čili každá věta je reprezentována na těchto rovinách: a) slovní rovina
VĚTNÉ ČLENY. Mgr. Jiří Ondra Procvičení základních pojmů a kategorií z oblasti české skladby. Zdokonalování jazykových vědomostí a dovedností
VĚTNÉ ČLENY Autor Mgr. Jiří Ondra Anotace Opakování základních pojmů a kategorií z oblasti české skladby Očekávaný přínos Procvičení základních pojmů a kategorií z oblasti české skladby Tematická oblast
Předmět: Český jazyk a literatura
21 sestaví osnovu vyprávění a na jejím základě vytváří krátký mluvený nebo písemný projev s dodržením časové posloupnosti 30 porovnává významy slov, zvláště slova stejného nebo podobného významu a slova
Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.
Jazykové modelování Pavel Smrž 27. listopadu 2006 Osnova 1 Úvod motivace, základní pojmy 2 Modely n-tic 3 Způsob vyhodnocování 4 Vyhlazování a stahování 5 Rozšíření modelů n-tic 6 Lingvisticky motivované
Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
TectoMT: Machine Translation System
: Machine Translation System Martin Popel ÚFAL (Institute of Formal and Applied Linguistics) Charles University in Prague FEAST (Forum Entwicklung und Anwendung von Sprach-Technologien) November 16, 2010,
Toolboxy analýzy a modelování stochastických systémů
Toolboxy analýzy a modelování stochastických systémů Ústav teorie informace a automatizace, AVČR Oddělen lení stochastické informatiky Petr Salaba Toolboxy analýzy a modelování stochastických systémů Projekt:
SLOVNÍ DRUHY Platón Aristoteles Dionysios Thrácký Priscianus
SLOVNÍ DRUHY Historicky podmíněná kategorizace lexikálních jednotek/slov. Védángy (disciplíny umožňující studium véd Nirukta 5./6. stol. př. n. l. základy popisu jazyka glosář etymologie, forma a význam
Jazyk a jazyková komunikace 2. ročník a sexta
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Tvarosloví Český jazyk (CEJ) Jazyk a jazyková komunikace 2. ročník a sexta 2 hodiny týdně (viz poznámky) S jistotou určí slovní druh a pojmenuje jej cizím termínem
Metriky pro optimalizaci modelů strojového překladu
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Matouš Macháček Metriky pro optimalizaci modelů strojového překladu Ústav formální a aplikované lingvistiky Vedoucí bakalářské
Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?
Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK lopatkova@ufal.mff.cuni.cz Cíl popsat přirozený jazyk
na postupech, které se souhrnně nazývají závislostními. Oba principy lze vykládat
Závislostní redukční analýza přirozených jazyků Markéta Lopatková, 1 Martin Plátek 2 a Vladislav Kuboň 3 1 CKL MFF UK, Praha lopatkova@ckl.mff.cuni.cz 2 KTIML MFF UK, Praha platek@ksi.ms.mff.cuni.cz 3
4.9.1. Základy latiny II
4.9.1. Základy latiny II Základy latiny jsou dvouletý volitelný předmět, jehož hlavním cílem je poskytnout žákům základní orientaci v systému latinské gramatiky v rozsahu středoškolského učiva a připravit
Veřejné zakázky 2018 Jste připraveni na povinnou elektronickou komunikaci? Příprava na povinnou elektronizaci veřejných zakázek a NEN
Veřejné zakázky 2018 Jste připraveni na povinnou elektronickou komunikaci? Příprava na povinnou elektronizaci veřejných zakázek a NEN Ing. Stanislav Bogdanov Ministerstvo pro místní rozvoj Obsah 1. Povinná
Všestranný jazykový rozbor (VJR)
Všestranný jazykový rozbor (VJR) VJR by měl tvořit součást téměř každé vyučovací hodiny a můžeme jej zařadit do kterékoli její části. Nejčastěji se používá při opakovaní a vyvozování nového učiva. Pokud
Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
Žák porovnává významy slov, zvláště slova podobného nebo stejného významu a slova vícevýznamová O jazyce Opakování učiva 3. ročníku Národní jazyk Naše vlast a národní jazyk Nauka o slově Slova a pojmy,
Číslo projektu: CZ.1.07/1.4.00/
Číslo projektu: CZ.1.07/1.4.00/21.1486 Číslo materiálu: VY 32 INOVACE 24/01 Název materiálu: Opakování - větné členy Vypracoval: Mgr. Hana Šatná DALTONSKÝ LIST ČJ 8. ročník OPAKOVÁNÍ VĚTNÉ ČLENY PODPIS: