Faktorované překladové modely. Základní informace
|
|
- Miluše Jarošová
- před 8 lety
- Počet zobrazení:
Transkript
1 Základní informace
2 statistická metoda překladu
3 statistická metoda překladu založena na frázích (nikoliv slovo slovo)
4 statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace k tokenům (cílový i výchozí jazyk; o tom později)
5 statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace k tokenům (cílový i výchozí jazyk; o tom později) odtud faktorovaný SMT (multiple factors)
6 statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace k tokenům (cílový i výchozí jazyk; o tom později) odtud faktorovaný SMT (multiple factors) experimenty ukazují na podstatné zlepšení kvality překladu (podle BLEU)
7 statistické frázové překlady zatím nejlepší výsledky
8 statistické frázové překlady zatím nejlepší výsledky problémy při překladu do morf. bohatých jazyků
9 statistické frázové překlady zatím nejlepší výsledky problémy při překladu do morf. bohatých jazyků čeština morf. velmi bohatý jazyk: podle Hajiče teoreticky 4000 tagů, reálně se užívá 2000; angličtina běžně používá 50
10 statistické frázové překlady zatím nejlepší výsledky problémy při překladu do morf. bohatých jazyků čeština morf. velmi bohatý jazyk: podle Hajiče teoreticky 4000 tagů, reálně se užívá 2000; angličtina běžně používá 50 problémy se řeší přidáním dodatečných informací (o tom později)
11 statistické frázové překlady zatím nejlepší výsledky problémy při překladu do morf. bohatých jazyků čeština morf. velmi bohatý jazyk: podle Hajiče teoreticky 4000 tagů, reálně se užívá 2000; angličtina běžně používá 50 problémy se řeší přidáním dodatečných informací (o tom později) zavedeno do Moses
12 klasické frázové překlady: překlad slovo za slovo (house je jiné než houses)
13 klasické frázové překlady: překlad slovo za slovo (house je jiné než houses) faktorované frázové překlady: přidávají dodatečnou informaci: morfologickou, syntaktickou nebo sémantickou
14 klasické frázové překlady: překlad slovo za slovo (house je jiné než houses) faktorované frázové překlady: přidávají dodatečnou informaci: morfologickou, syntaktickou nebo sémantickou
15 principy:
16 principy: lepší využití trénovacích dat (při použití lemmatu místo word )
17 principy: lepší využití trénovacích dat (při použití lemmatu místo word ) správný překlad většinou závisí právě na dodatečné informaci
18 principy: lepší využití trénovacích dat (při použití lemmatu místo word ) správný překlad většinou závisí právě na dodatečné informaci v tomto pojetí tak word není jen token, ale jakýsi vektor faktorů, kt. reprezentují různé úrovně anotace (viz násl. slajdy)
19
20 překlad tak sestává ze tří částí:
21 překlad tak sestává ze tří částí:. překlad výchozích lemmat
22 překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS
23 překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2
24 překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2 новые дома строятся new houses are built
25 překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2 новые дома строятся new houses are built. překlad: mapování lemmat дом house, home, building, shell
26 překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2 новые дома строятся new houses are built. překlad: mapování lemmat дом house, home, building, shell. překlad: mapování morfologie NN plural-nominative-masculine NN plural, NN singular
27 překlad tak sestává ze tří částí:. překlad výchozích lemmat. překlad výchozích morfologických charakteristik a POS. generování cílových forem na základě 1 a 2 новые дома строятся new houses are built. překlad: mapování lemmat дом house, home, building, shell. překlad: mapování morfologie NN plural-nominative-masculine NN plural, NN singular. generování vnějších forem house NN plural houses house NN singular house
28 každá fráze je tak expandována na seznam (množinu) možných překladů: { houses house NN plural, homes home NN plural, buildings building NN plural, shells shell NN plural, house house NN singular, }
29 Implementace pro anglicko-český překlad Realizoval RNDr. Ondřej Bojar, Ph.D. v rámci workshopu SMT
30 Data Využití systému Moses Trénování konfigurováno volbami [3] Zdrojem dat je News Commentary corpus (NC) Cca 55 tis. párů vět [1] Sekce pro ladění a vyhodnocení (cca po 1000) Zarovnání na slova pomocí nástroje GIZA++ [2] Anglický text byl převeden na lowercase a český lemmatizován
31 Scénáře faktorového překladu Frázový překlad Dekompozice a rozšíření 3-gramový jazykový model přes tvary slov a lemmata 7-gramový jazykový model přes morfologické značky Východisko - T scénář Single factored (faktor: slovní tvar) Úspěšnost multifaktorových scénářů Obrázek: T+T+G scénář: tři jazykové modely
32 Strojové učení Jak zvolit rysy? Úplné tagy Sloveso vykonat, tvar vykoná, značka: VB-S 3P-AA [1] Pouze POS CNG03: optimalizovaný tagset V případě větší trénovací množiny jsou úplné tagy úspěšnější
33 Problémové jevy Příslovečná určení rozvíjející slovesa Lokální shoda versus chybný pád u jmenného doplnění Obrázek: Analýza příslovečných určení rozvíjejících slovesa v větách Výsledky parsování závislostní syntaxe Valence?
34 Zdroje BOJAR, O.: English-to-Czech Factored Machine Translation. In: Proceedings of the Second Workshop on Statistical Machine Translation. 2007, p KOEHN, P. HOANG, H.: Factored Translation Models. In: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2007, p. 868 V876.
35 Zdroje Morphological Analysis of Czech Word Forms. LINDAT/CLARIN [online]. Praha: Institute of Formal and Applied Linguistics, 2015, 2012 [cit ]. Dostupné z: GIZA++. Statistical Machine Translation [online]. Baltimore: Johns Hopkins University, 2001, leden 2001 [cit ]. Dostupné z: Factored Training. Moses [online]. Edinburgh: University of Edinburgh, 2015, červenec 2013 [cit ]. Dostupné z:
36 Experiment a jeho výsledná evaluace Moses se základním nastavením využ ití evaluač ního algoritmu BLEU
37 1) Syntakticky obohacený výstup Přelož ení "surface forms of words", přidání lexikálních faktorů Implementování morfologické a mě lké syntaktické analýzy Získáme sekvenč ní model podobný n- gramům Podpora syntaktické koherence na výstupu Použ ité modely: Eng-Ger, Eng-Sp, Eng- Cz, Eng-Chin
38 English-German Europarl korpus, 750 tis. vě t Přidání sl. druhu a morf. analýzy na výstupu a využ ití 7-gramů přineslo zlepšení (0,18%) "Baseline systém" se neumě l vypořádat s urč itými i neurč itými č leny ve vě tě
39 English-German Model Best published result Baseline (surface) Surface+ POS Surface+ POS+ Morph BLEU 18,15% 18,04% 18,15% 18,22%
40 English-Spanish Europarl korpus, 40 tis. vě t Použ ití sl. druhu a morfologické analýzy na výstupu a 7-gramového sekvenč ního modelu přineslo zlepšení o 1,25% (morph) a 0,84% (morph+ kat)
41 English-Spanish Model BLEU Baseline (surface) 23,41% Surface+ morph 24,66% Surface+ morph+ kat 24,25English-Spanish%
42 English-Czech Wall Street journal, 20 tis. vě t Využ ití morfologické analýzy a 7-gramového jazykového modelu Potřeba zváž it, které morfologické rysy využ ít Všechny modely předč ily základní variantu
43 English-Czech Model Baseline (surface) Surface+ all morph Surface+ case/ number/ gender Surface+ CNG/ verb/ preposition BLEU 25,82% 27,04% 27,45% 27,62%
44 2) Morfologická analýza a generování Místo surface přelož íme lemma a morfologii a vytvoříme surface na výstupu Experiment proveden na English-German News commentary korpus, 52 tis. vě t Ně mecká morfologická a slovně druhová analýza: LoPar Schmitd and Schulte im Walde (2000) Anglická slovně druhová analýza: Brill's tagger (Brill, 1995)
45 2) Morfologická analýza a generování II Při použ ití slovně druhové analýzyzlepšení o 0,86% Lemma+ morfologická analýza- propad Vytvoření vybíracího modelu Pokud není v trénovacich datech výskyt surface, pak už ijeme generování
46 German-English Model Baseline (surface) Surface+ POS Lemma/ morph Vybírací model BLEU 18,19% 19,05% 14,46% 19,47%
47 3) Použ ití automatických slovních druhů Automaticky trénované rozdě lení do sl. druhů shlukováním kontextové podobnosti Zlepšení o 1,25%
48 English-Chinese Baseline (surface) 19,54% Surface+ word class 21,10%
49 4) Integrovaný recasing Recasing= různá podoba zápisu: the, The, THE V SMT- minuskulní písmo, potřeba přidat krok k navrácení původní podoby Lze integrovat do modelu
50 Chinese-English Standart two-pass SMT+ recase 20,65% Integrated factored model (optimized) 21,08%
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
Automatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
IA161 Pokročilé techniky zpracování přirozeného jazyka
IA161 Pokročilé techniky zpracování přirozeného jazyka Strojový překlad Vít Baisa Překlad angličtina čeština Moses is an implementation of the statistical (or data-driven) approach to machine translation
Možnosti zlepšení strojového překladu z angličtiny do češtiny
Prezentace k obhajobě diplomové práce Možnosti zlepšení strojového překladu z angličtiny do češtiny Martin Popel 14. září 2009 TectoMT Anotace překladových chyb Jednotlivá vylepšení Analýza Transfer Syntéza
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
Korpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
NLP & strojové učení
NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování
Moses. M. Fabianová, A. Štromajerová, M. Vaněk
Moses M. Fabianová, A. Štromajerová, M. Vaněk Osnova 1. Trocha historie 2. Co je to Moses? 3. V čem je Moses jiný/lepší než ostatní SMT překladače? 4. Využití, příklady, srovnání Trocha historie 50. léta
Automatické párování uzlů českých a anglických tektogramatických stromů
Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008 Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování
Slovníky a morfologická analýza
Počítačové zpracování přirozeného jazyka Slovníky a morfologická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ Slovník Zásobárna informací o slovech Morfologie vzory ohýbání, pravidelné odvozování
Petr Plecháč Robert Ibrahim (Institute of Czech Literature AS CR) DATABASE OF CZECH VERSE
Petr Plecháč Robert Ibrahim (Institute of Czech Literature AS CR) DATABASE OF CZECH VERSE REPRESENTATIVENESS BOOK PO EM (STANZA) LINE WORD SYLLABLE BOOK Bibliographic metadata (author, title, year...)
Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
Depfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.
Korpusová lingvistika a počítačová Od 60. let 20. st. Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené
Workshop o paralelním korpusu InterCorp
Workshop o paralelním korpusu InterCorp Praha, 6.9.2013 Olga Richterová, ÚČNK Český národní korpus (LM2011023; 2012-2016) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro
Translation Model Interpolation for Domain Adaptation in TectoMT
Rudolf Rosa, Ondřej Dušek, Michal Novák, Martin Popel {rosa,odusek,mnovak,popel}@ufal.mff.cuni.cz Translation Model Interpolation for Domain Adaptation in TectoMT Charles University in Prague Faculty of
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Adam Liška Čištění paralelních dat pro strojový překlad Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: RNDr.
Jak dělat strojový překlad lépe než Google Translate
Mgr. Rudolf Rosa Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky ProSŠ, Gymnázium Kladno, 23. října
Affisix. Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Česká Republika,
Automatické rozpoznávání předpon a přípon s pomocí nástroje Affisix Jaroslava Hlaváčová, Michal Hrušecký Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Česká Republika, Hlavacova@ufal.mff.cuni.cz,
Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát
Kvantitativní analýza žánrů Radek Čech & Miroslav Kubát Východiska 1. jazyk jako projev chování 2. jazykové chování ovlivněno pragmatickými faktory (kontextem) 3. některé kontexty se opakují a vykazují
FAKULTA INFORMAČNÍCH TECHNOLOGIÍ
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV POČÍTAČOVÝCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER SYSTEMS ZAROVNÁVÁNÍ PARALELNÍCH
0. Úvod. 1. Syntaktické značkování textu
Systém pro syntaktické značkování velkých textových korpusů 1 Tomáš Jelínek Ústav teoretické a komputační lingvistiky Filozofické fakulty Karlovy univerzity Abstract Syntactic annotation of corpora is
Čeština: 2. lekce Czech language: 2 nd lesson
Čeština: 2. lekce Czech language: 2 nd lesson Communicative Competency: What do you do in Brno? Grammar: Word and its forms in Czech. Natural/grammatical genders in Czech. Three genders of Czech nouns.
Jak lze v korpusech hledat doklady pro výzkum morfologie?
Seminář cjbb75 1. 4. 2015 Jak lze v korpusech hledat doklady pro výzkum morfologie? Vyhledávání podle morfologické značky problém spolehlivosti desambiguace Vyhledejte v korpusu SYN2010 všechny vokativy
VÝUKOVÝ MATERIÁL. Bratislavská 2166, 407 47 Varnsdorf, IČO: 18383874 www.vosassvdf.cz, tel. +420412372632 Číslo projektu
VÝUKOVÝ MATERIÁL Identifikační údaje školy Vyšší odborná škola a Střední škola, Varnsdorf, příspěvková organizace Bratislavská 2166, 407 47 Varnsdorf, IČO: 18383874 www.vosassvdf.cz, tel. +420412372632
TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH Autoreferát dizertační práce Jindra Drábková Liberec 2005 Tvorba jazykového
1. Přehled cizojazyčných a vícejazyčných korpusů
1. Přehled cizojazyčných a vícejazyčných korpusů typy korpusů a možnosti jejich využití 2. Nová verze korpusu InterCorp (prosinec 2014) nové jazyky a texty lemmatizace a značkování 3. Webové korpusy srovnatelné
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
Juxtapozice z do v Arabštině
Juxtapozice z do v Arabštině Kvantitativní přístup Jiří Milička Ústav srovnávací jazykovědy Jak do začalo? První data pro výzkum byla shromážděna automaticky. Ale když se ukázalo, že téma je zajímavé,
AUTOMATICKÁ TVORBA SLOVNÍKŮ
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV POČÍTAČOVÉ GRAFIKY A MULTIMÉDIÍ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
model arabské morfologie Otakar Smrž
Počítačový systém ElixirFM model arabské morfologie Otakar Smrž dzamedzam@yahoo.com Džám-e Džam jazyková škola Otakar Smrž (Džám-e Džam) Počítačový systém ElixirFM Praha, 12. prosince 2009 1 / 6 ElixirFM
Úvod do kvantitativní lingvistiky. Radek Čech
Úvod do kvantitativní lingvistiky Radek Čech Historie KL G. K. Zipf (1902-1950) PLK B. Trnka (problematika těsnopisu) M. Těšitelová a kol. G. Altmann, R. Köhler, L. Hřebíček Místo KL v lingvistice cíle
Popis morfologických značek poziční systém
Popis morfologických značek poziční systém Jan Hajič Ústav formální a aplikované lingvistiky MFF UK Morfologická analýza a syntéza Morfologické značky jsou součástí výsledku (výstupem) morfologické analýzy,
V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.
Syntakticky anotovaný korpus českých textů Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič, Alexandr Rosen, Hana Skoumalová Ústav teoretické a komputační lingvistiky, Filozofická fakulta
Word Sense Disambiguation (1)
SENSEVAL SENSEVAL (1) Mezinárodní organizace zabývající se hodnocením systémů Word Sense Disambiguation (WSD) Organizace a řízení hodnocení a související činnosti Testování kladů a záporů WSD systémů s
LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen
(UČEBNÍ MATERIÁLY Český jazyk a stylistika Sexta A, Sexta B Libuše Kratochvílová 2 hodiny týdně Český jazyk pro 2.roč. G SPN 2005 / nov. mat. / Český jazyk pro stř. šk. SPN 2003 a další Český jazyk v kostce
ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová
Název projektu ICT podporuje moderní způsoby výuky Číslo projektu CZ.1.07/1.5.00/34.0717 Název školy Gymnázium, Turnov, Jana Palacha 804, přísp. organizace Číslo a název šablony klíčové aktivity III/2
AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.
AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu. Ondřej Bojar obo@cuni.cz Abstrakt Systém AX je určen ke zpracování morfologicky analyzovaných vět přirozeného jazyka s cílem
Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR
Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Data Obce ČR 2011 (Veřejná databáze ČSÚ) SPSS IBM, ArcGIS Proměnné: intenzita migračního
KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY. Drahomíra johanka Spoustová
KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY Drahomíra johanka Spoustová Copyright Institute of Formal and Applied Linguistics, 2009 ISBN 978-80-904175-4-0 Obsah 1 Úvod 1 2 Výchozí situace
Karel Pala, Vít Suchomel
PA153 Počítačové zpracování přirozeného jazyka 06 Korpusy a korpusové nástroje, značkování Karel Pala, Vít Suchomel Centrum ZPJ, FI MU, Brno 21. října 2013 Karel Pala, Vít Suchomel PA153 Zpracování přirozeného
Present simple (přítomný čas prostý)
Present simple (přítomný čas prostý) MASARYKOVA ZÁKLADNÍ ŠKOLA A MATEŘSKÁ ŠKOLA VELKÁ BYSTŘICE projekt č. CZ.1.07/1.4.00/21.1920 Název projektu: Učení pro život Číslo DUMu: VY_32_INOVACE_11_12 Tématický
SLOVNÍ DRUHY Platón Aristoteles Dionysios Thrácký Priscianus
SLOVNÍ DRUHY Historicky podmíněná kategorizace lexikálních jednotek/slov. Védángy (disciplíny umožňující studium véd Nirukta 5./6. stol. př. n. l. základy popisu jazyka glosář etymologie, forma a význam
OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický
OBSAH Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický Úvod Rozdělení jazykového rozboru Poměr fonologie k fonetice. Dějiny bádání Fonémy a varianty Monofonémové hodnocení hláskových komplexů Dvoufonémové
Rozšíření ksh vůči sh při práci s proměnnými
Rozšíření ksh vůči sh při práci s proměnnými (X36UNX, Jan Skalický, 2006) Pole homogenní lineární struktura implicitn ě s číselným rozsahem index ů 0...1023 (někde 4095) implicitn ě řetězcov ě orientovaná
Sémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Japonsko-český strojový překlad
V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 85 92 http://ceur-ws.org/vol-1214, Series ISSN 1613-0073, c 2014 D. Variš, O. Bojar
Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1
f.voborská/41-46/6 6.2.2009 21:56 Stránka 41 Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1 Ústav pro jazyk český AV ČR, v. v. i. Tools for Inputting Morphological Data A Proposal
hloubkových jazykových analýz
Strojový překlad: zamyšlení nad účelností hloubkových jazykových analýz Ondřej Bojar obo@cuni.cz 22. května 2006 Abstrakt Příspěvek stručně uvádí dva protipóly přístupu ke strojovému překladu: lingvisticky
Úvod z historie. Kompilátory. Kompilace / Kompilátor Compile / Compiler. Pojem kompilátoru. Úvod z historie
Úvod z historie RNDr. Miroslav Benedikovič John Louis von Neumann r. 1946 nová koncepce počítače (společná paměť pro kód programu a zpracovávaná data) vytvořila podmínky pro vznik softvéru na přípravu
Analýza staročeské morfologie v Excelu
Analýza staročeské morfologie v Excelu B O R I S L E H E Č K A, B O R I S @ D A L I B O R I S. C Z O D D Ě L E N Í V Ý V O J E J A Z Y K A Ú S T A V P R O J A Z Y K Č E S K Ý A V Č R L I N G V I S T I
Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze
Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
Soukromá střední odborná škola Frýdek-Místek, s.r.o.
Číslo projektu Název školy Název Materiálu Autor Tematický okruh Ročník CZ.1.07/1.5.00/34.0499 Soukromá střední odborná škola Frýdek-Místek, s.r.o. VY_22_INOVACE_458_AJ_18 Mgr. Taťána BLAHUTOVÁ Anglický
1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017
Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta
n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?
n-gramy a textové korpusy n-gramy Pavel Rychlý, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Úkol: Je zadáno n slov textu, jaké slovo následuje s největší pravděpodobností? Obsah:
RNDr. Ondřej Bojar, Ph.D.
RNDr. Ondřej Bojar, Ph.D. Narozen: 7. března 1979 v Praze E-mail, web: bojar@ufal.mff.cuni.cz; http://www.cuni.cz/ obo Dosažené vzdělání: 2003-2008 doktorské studium MFF UK, obor Matematická lingvistika
Fuzzy regulátory Mamdaniho a Takagi-Sugenova typu. Návrh fuzzy regulátorů: F-I-A-D v regulátorech Mamdaniho typu. Fuzzifikace. Inference. Viz. obr.
Fuzzy regulátory Mamdaniho a Takagi-Sugenova typu Návrh fuzzy regulátorů: Fuzzifikace, (fuzzyfikace), (F) Inference, (I), Agregace, (A), Defuzzifikace (defuzzyfikace) (D). F-I-A-D v regulátorech Mamdaniho
Dolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
2 Lexikální jednotka. 2.1 Obecné kategorie
2 Lexikální jednotka 2.1 Obecné kategorie Pojmy vyjádřené lexikálními jednotkami patří k těmto obecným kategoriím: a) Konkrétní entity (nositelé vlastností a dějů) b) Abstraktní entity c) Individuální
Popis plnění balíčku WP08: Snižování mechanických ztrát pohonných jednotek
WP08: Snižování mechanických ztrát pohonných jednotek Vedoucí konsorcia podílející se na pracovním balíčku Vysoké učení technické v Brně doc. Ing. Pavel Novotný, Ph.D. Členové konsorcia podílející se na
ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost 2005 1ET101120413
Národní 3, 117 20 Praha 1 List PT1 ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost Rok Identifikační kód projektu 2005 1ET101120413 01 Řešitel projektu Jméno: Mgr. Barbora Vidová Hladká,
POKYNY PRO AUTORY. Kvasný průmysl publikuje výsledky základního a aplikovaného výzkumu (recenzované
POKYNY PRO AUTORY Kvasný průmysl publikuje výsledky základního a aplikovaného výzkumu (recenzované články) ze všech oblastí sladařství, pivovarnictví, kvasného a nápojového průmyslu, např. z chemie, biochemie,
Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze
ÔÐ ØÖÓ ÓÚ Ó Ô Ð Ù Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 18. říjen 2010 Aplikace strojového překladu Ç ÔÖ Þ
SHLUKOVÁNÍ SLOV PODLE VÝZNAMU
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV POČÍTAČOVÉ GRAFIKY A MULTIMÉDIÍ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND
P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i
n-gramy a textové korpusy n-gramy Pavel Rychlý, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Úkol: Je zadáno n slov textu, jaké slovo následuje s největší pravděpodobností? Obsah:
Výsledky dosažené v roce 2007
Výsledky dosažené v roce 2007 Řešitelské pracoviště MFF UK Podrobně jsou výsledky projektu dokumentovány na stránce http://ufal.mff.cuni.cz/rest. Stěžejním výstupem projektu bylo vydání monografie Průvodce
Syntactic annotation of a second-language learner corpus
Syntactic annotation of a second-language Jirka Hana & Barbora Hladká Charles University Prague ICBLT 2018 CzeSL Corpus of L2 Czech ICBLT 2018 2 CzeSL Czech as a Second Language Part of AKCES Acquisition
pokroky ve johanka Obsah telenovely Bez ladu a skladu Unsupervised johanka 21. dubna 2008
(nejen) češtiny 21. dubna 2008 Tipovací soutěž Pro který/é z následujících jazyků bude v průběhu přednášky překonán state-of-the-art? Čeština 95.68 % ( et. al., 2007) Slovenština 89.36 % (TnT, Brants 2000)
Životopis Duben 2008
Jan Hajič Životopis Duben 2008 Osobní údaje: Narozen 4.11.1960 v Praze, r.č. 601104/0981 Bydliště: Nosická 12/2389, 100 00 Praha 10 Rodinný stav: ženatý, 2 děti Kontakt: hajic@ufal.mff.cuni.cz, tel. 607
PSANÍ. I am interested in applying for the post of full-time secretary in TUMI Enterprises.
PSANÍ Jazyk Úroveň Autor Kód materiálu Anglický jazyk 9. třída Jitka Bärtlová aj9-doc-bar-psa-03 Formal letter - Applying for a job Mr. Gordon TUMI Enterprises 25 Blue Road Reading BT5 8PK Mrs. Wilson
Dolování dat z dotazníků. Ondřej Takács
Dolování dat z dotazníků Ondřej Takács Úvod Součást projektu, který se zabývá individualizovaným e-learningem virtuální učitel, který svůj výklad přizpůsobuje statickým či dynamicky se měnícím vlastnostem
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA STAVEBNÍ ÚSTAV POZEMNÍHO STAVITELSTVÍ FACULTY OF CIVIL ENGINEERING INSTITUTE OF BUILDING STRUCTURES RODINNÝ DŮM BAKALÁŘSKÁ PRÁCE BACHELOR'S
Jazyk a jazyková komunikace 2. ročník a sexta
Předmět: Náplň: Třída: Počet hodin: Pomůcky: Tvarosloví Český jazyk (CEJ) Jazyk a jazyková komunikace 2. ročník a sexta 2 hodiny týdně (viz poznámky) S jistotou určí slovní druh a pojmenuje jej cizím termínem
Mzdy na ÚFALu
Mzdy na ÚFALu 2009 4.5.2009 1 Mzdové tabulky UK Univerzitní mzdové tabulky (předpis UK) Nespadají po státní systém (odměňování státní správy) Třída ~ tarifní rozpětí, plus osobní ohodnocení Akademické
Data Science projekty v telekomunikační společnosti
Data Science projekty v telekomunikační společnosti Jan Romportl Chief Data Scientist, O2 Czech Republic Data, mapa a teritorium Data Science Mezioborová technicky orientovaná oblast, která se zabývá inovativním
2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2
Výpočet transformačních koeficinetů vybraných 2D transformací Jan Ježek červen 2008 Obsah Odvození transformačního klíče vybraných 2D transformací 2 Meto vyrovnání 2 2 Obecné vyjádření lineárních 2D transformací
Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.
Jazykové modelování Pavel Smrž 27. listopadu 2006 Osnova 1 Úvod motivace, základní pojmy 2 Modely n-tic 3 Způsob vyhodnocování 4 Vyhlazování a stahování 5 Rozšíření modelů n-tic 6 Lingvisticky motivované
6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz
6. Testování statistických Testování statistických Princip: Ověř ěřování určit itého předpokladu p zjišťujeme, zda zkoumaný výběr r pochází ze základnz kladního souboru, který mám určit ité rozdělen lení
CzeSL-SGT korpus češtiny nerodilých mluvčích s automaticky provedenou anotací
CzeSL-SGT korpus češtiny nerodilých mluvčích s automaticky provedenou anotací Žákovský korpus CzeSL-SGT (Czech as a Second Language with Spelling, Grammar and Tags) obsahuje přepisy písemných prací nerodilých
Morfologie, morfologická analýza
Morfologie, morfologická analýza Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Morfologie Úvod do počítačové lingvistiky 4/11 1 / 30 Morfologie Morfologie Morfologie nauka
zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností
Nová cesta k modernímu jednojazyčnému výkladovému slovníku současné češtiny: koncepční poznámky ke struktuře dat v novém DWS Pavla Kochová, Zdeňka Opavská 1. Úvod V oddělení současné lexikologie a lexikografie
Nedostatky bezkontextové gramatiky
Nedostatky bezkontextové gramatiky Běžná gramatika nezachytí schodu podmětu s přísudkem. Lze řešit přidáním zvláštních neterminálů pro jednotné číslo, množné číslo... Velký nárust počtu neterminálů Rozšířené
Masarykovo gymnázium,
Masarykovo gymnázium, SOŠ a VOŠ zdravotnická Vsetín Jméno autora Třída Název práce Seminární/ maturitní práce Vedoucí práce: Titul, jméno 2017 Prohlašuji, že jsem seminární práci vypracoval/a samostatně
POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
POSLECH Jazyk Úroveň Autor Kód materiálu Anglický jazyk 5. třída Mgr. Milena Kašová aj5-mas-kas-pos-01 Z á k l a d o v ý t e x t : Carl is for the first time in a new school. The teacher is asking Carl.
Úvod do programovacích jazyků (Java)
Úvod do programovacích jazyků (Java) Michal Krátký Katedra informatiky VŠB Technická univerzita Ostrava Úvod do programovacích jazyků (Java), 2007/2008 c 2006 2008 Michal Krátký Úvod do programovacích
PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :
PSANÍ Jazyk Úroveň Autor Kód materiálu Anglický jazyk 9. třída Mgr. Martin Zicháček aj9-kap-zic-psa-15 Z á k l a d o v ý t e x t : Flat to rent BBW Real Estate Agency offers for rent three bedroom flat
Automatizace ST optimalizace. Lukas Vozda Analytics & Automation
Automatizace ST optimalizace Lukas Vozda Analytics & Automation Úvod Optimalizace vyhledávacích dotazů na klíčová slova se nám lepí nové vyhledávací dotazy nutná pravidelná hygiena (vyloučit / přidat nové
Strojové učení a pravidla pro extrakci informací z textů
Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015 Pozvánka Jako výzkumníci
Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha
Identifikace tématických sociálních sítí Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha 2 Obsah prezentace Cíl Fáze řešení a navržené postupy Prototyp a výsledky
UČEBNICE ČEŠTINY JAKO CIZÍHO JAZYKA
UČEBNICE ČEŠTINY JAKO CIZÍHO JAZYKA 1. 6. 2019 BARBORA ŠTINDLOVÁ METODICKÉ A ODBORNÉ CENTRUM barbora.stindlova@ ujop.c uni.cz OBSAH 1. JAKÉ ZNÁTE? 2. KTERÉ POUŽÍVÁTE? 3. KRITÉRIA PRO VÝBĚR? 4. PŘÍKLAD:
ALGORITMIZACE A PROGRAMOVÁNÍ
Metodický list č. 1 Algoritmus a jeho implementace počítačovým programem Základním cílem tohoto tematického celku je vysvětlení pojmů algoritmus a programová implementace algoritmu. Dále je cílem seznámení
Testování strojového překladu
Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky Diplomová práce Testování strojového překladu Plzeň, 2015 Robert Adamec Prohlášení Prohlašuji, že jsem diplomovou
Algoritmizace. Obrázek 1: Přeložení programu překladačem
Algoritmizace V každém okamžiku ví procesor počítače přesně, co má vykonat. Pojmem procesor se v souvislosti s algoritmy označuje objekt (např. stroj i člověk), který vykonává činnost popisovanou algoritmem.
Multidimenzionální analýza češtiny. Pilotní studie
Multidimenzionální analýza češtiny. Pilotní studie Adrian Zasina, Anna Řehořková, David Lukeš, Petra Poukarová, Václav Cvrček, Zuzana Komrsková ÚČNK FF UK Teoretický rámecij Východiska Motivace snaha popsat
XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS
XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS Roman MALO - Arnošt MOTYČKA This paper is oriented to discussion about using markup language XML and its features in LCMS