ve strojovém překladu
|
|
- Roman Bartoš
- před 7 lety
- Počet zobrazení:
Transkript
1 Jaká data se používají ve strojovém překladu Ondřej Bojar Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec /39
2 Osnova Typy dat ve strojovém překladu. Kolik je potřeba? Absolutní minimum: paralelní korpusy. Získávání paralelních textů z webu. Sdílení zdrojů. 2/39
3 Přístupy ke strojovému překladu povrchová syntax morfologická rovina hloubková syntax interlingva frázový překlad s 1 T 1 T 2 s 2 angličtina čeština generuj povrchovou realizaci linearizuj strom Pravidlový vs. statistický přístup: Pravidlové systémy píší lingvisté-programátoři. Statistické systémy se naučí samy podle dat. 3/39
4 Přístupy ke strojovému překladu povrchová syntax morfologická rovina hloubková syntax interlingva frázový překlad s 1 T 1 T 2 s 2 angličtina čeština generuj povrchovou realizaci linearizuj strom Pravidlový vs. statistický přístup: Pravidlové systémy píší lingvisté-programátoři. Statistické systémy se naučí samy podle dat. 4/39
5 Formální popis češtiny Ruční anotace Morfologická rovina: Slovo Lema Morfologická značka zákony zákon NNIP1-----A---- zákony zákon NNIP4-----A---- zákony zákon NNIP5-----A---- zákony zákon NNIP7-----A---- udělejte udělat Vi-P---2--A---- udělejte udělat Vi-P---3--A---4 pro pro-1 RR lidi člověk NNMP1-----A---- lidi člověk NNMP4-----A---- lidi člověk NNMP5-----A---- Analytická rovina (povrchová syntax): Tektogramatická rovina (hloubková syntax): 5/39
6 Lingvistická data Korpusy jsou (velké) sbírky textů: Texty typicky označkované nebo včetně větných rozborů. Pražský závislostní korpus (PDT): 1.5 mil. slov. Pražský čj-aj závislostní korpus (PCEDT): 50 tis. vět. Některé vícejazyčné: CzEng (15 mil. vět, 220 mil. slov, odpovídá 50 metrům knih, ty tvoří však jen čtvrtinu). Slovníky strojově čitelné: Morfologický slovník říká, že kočka je české slovo a kočke ne. Valenční slovník říká, že: Rodiče přijali Petra. je správně Rodiče přijeli Petra. není správně Slovník subjektivity obsahuje hodnotící výrazy. Lze využít v programech (pravidlových i statistických). 6/39
7 Data po frázový překlad (Moses, Překladové slovníky méně vhodné. Překlad potřebuje vidět slova v kontextu. Terminologie a glosáře méně vhodné. Současné metody mohou vynutit překlad jen velice tupě. Zásadní je paralelní korpus. Pro kvalitu důležité, aby texty byly z dané domény. Systém memoruje až desetice slov. Dlouhé termíny zachovány přesně. České tvarosloví a volný slovosled situaci komplikuje. 7/39
8 Paralelní korpus 8/39
9 Automatické zarovnání po větách 9/39
10 Automatické zarovnání po větách 10/39
11 Zarovnaný paralelní korpus (1658) 11/39
12 Automatické zarovnání po slovech 12/39
13 Kolik textů je potřeba? 13/39
14 Kolik textů je potřeba? Víc. 13/39
15 Víc textů vyšší kvalita 14/39
16 Texty v doméně rovnou lepší výstup 15/39
17 Texty v doméně rychlejší zlepšení 16/39
18 Data pro aj čj v roce /39
19 Vliv dat na kvalitu a neznámá slova 18/39
20 Komunitní data mimo doménu 19/39
21 Komunitní data mimo doménu 20/39
22 Profesionální překlady mimo doménu 21/39
23 Vše mimo doménu 22/39
24 Obdobný objem v doméně: mnohem lepší 23/39
25 Dodatečná data zlepší pokrytí 24/39
26 ...ale mimo doménu mohou snížit kvalitu 25/39
27 Mimo doménu: kvalita i pokrytí horší 26/39
28 ...víc dat zlepší pokrytí 27/39
29 ...ale na moc kvalitu 28/39
30 Data raději z webu než z papíru 29/39
31 Paralelní webové stránky 30/39
32 Podstatná část dat nedostupná 31/39
33 Podstatná část dat nedostupná 32/39
34 I dostupné texty nemusí být vytěžitelné 33/39
35 A mnoho paralelních webů... 34/39
36 ... je paralelních jen zčásti. 35/39
37 Postup 1. Najít dobré zdroje. 2. Získat surová data. 3. (Identifikovat a pojmenovat domény.) 4. Vyčistit. Odstranit navigační prvky, reklamu,... Odstranit neparalelní části. Odstranit jiné jazyky. 5. Zarovnat po dokumentech. 6. Zarovnat po větách. 7. Odstranit nekvalitně zarovnané části. 8. Zpřístupnit ostatním. Paralelní korpus CzEng. 36/39
38 Šlo by to i lépe Můžete nám poradit dobré zdroje. Můžete nám pomoci s určením domény. Můžete nám přímo poskytnout své texty. 37/39
39 Šlo by to i lépe Můžete nám poradit dobré zdroje. Můžete nám pomoci s určením domény. Můžete nám přímo poskytnout své texty. 37/39
40 Shrnutí YOUR DATA IS NEEDED! 38/39
41 Shrnutí Lingvistické analýzy potřebují anotovaná data v doméně. MT potřebuje paralelní texty v doméně i mimo ni. Čím víc, tím ĺıp. Čím podobnější vstupům, tím lepší. Jazykové zdroje je třeba sdílet. I průmysl data sdíĺı. Zveřejněné překlady vytěžujeme, netriviální úsiĺı. Ideálně ne PDF, nejraději HTML s podobným URL. Lepší by byly primární zdroje, vaše texty. 39/39
Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze
ÔÐ ØÖÓ ÓÚ Ó Ô Ð Ù Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 18. říjen 2010 Aplikace strojového překladu Ç ÔÖ Þ
VíceDepfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
VíceAutomatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
VíceAutomatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
VíceKORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská. 13. 2. 2013 Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!
KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT! Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze O (Ú)ČNK Ústav Českého národního korpusu, založen v roce
VíceJak dělat strojový překlad lépe než Google Translate
Mgr. Rudolf Rosa Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky ProSŠ, Gymnázium Kladno, 23. října
Více2. Korpusový portál a volně dostupné nástroje
1. Něco málo o jazykových korpusech co to je a jak se to používá 2. Korpusový portál a volně dostupné nástroje webový portál www.korpus.cz 3. Korpusový nástroj SyD porovnání dvou a více slov z hlediska
VíceVyužití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
VíceSYNTAX LS Úvod
SYNTAX LS 2017 Úvod Co očekáváte od předmětu? viz sylabus požadavky Literatura Nový encyklopedický slovník češtiny https://www.czechency.org/ Panevová a kol. (2014) Mluvnice současné češtiny 2. http://www.cupress.cuni.cz/ink2_ext/index.jsp?
VíceCo nového ve zpracování MWE Automatická identifikace
Co nového ve zpracování MWE Automatická identifikace Společný workshop tří GAČRů 15. dubna 2013 Víceslovné výrazy Osnova Víceslovné výrazy (VV, MWE) v PDT 2.5 Automatická identifikace Problémy (Úpravy
VíceJak pracuje internetový vyhledávač
Rudolf Rosa rosa@ufal.mff.cuni.cz Jak pracuje internetový vyhledávač Univerzita Karlova Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky Den otevřených dveří MFF UK, Praha, 23. 11.
VíceIA161 Pokročilé techniky zpracování přirozeného jazyka
IA161 Pokročilé techniky zpracování přirozeného jazyka Strojový překlad Vít Baisa Překlad angličtina čeština Moses is an implementation of the statistical (or data-driven) approach to machine translation
VíceAutomatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
VíceAutomatické párování uzlů českých a anglických tektogramatických stromů
Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008 Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování
Více1. Přehled cizojazyčných a vícejazyčných korpusů
1. Přehled cizojazyčných a vícejazyčných korpusů typy korpusů a možnosti jejich využití 2. Nová verze korpusu InterCorp (prosinec 2014) nové jazyky a texty lemmatizace a značkování 3. Webové korpusy srovnatelné
VíceParalelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen
Paralelní korpusy 0/2 Z, zimní semestr 2006/2007 Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofická fakulta Univerzity Karlovy v Praze Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 1
VíceChytal tlouště na višni
Chytal tlouště na višni Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Jedna noc s informatikou a matematikou MFF
VíceWEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY
WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY Datum konání: 11. dubna 2014 Místo konání: Filozofická fakulta Masarykovy univerzity (učebna G13) Název přednášky: Přednášející: Webové korpusy Aranea
VíceÚstav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program
Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program https://ubs.ff.cuni.cz/cs/ Charakteristika studijního programu SP vychází zvl. z vědních oborů: lingvistika, literatura,
VíceStrojové učení a pravidla pro extrakci informací z textů
Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015 Pozvánka Jako výzkumníci
VícePražský závislostní korpus jako elektronická cvičebnice češtiny
Pražský závislostní korpus jako elektronická cvičebnice češtiny OndřejKučera ondrej.kucera@centrum.cz Abstrakt Pražský závislostní korpus patří mezi nejvýznamnější jazykové korpusy na světě. Cílem naší
VíceEva Lehečková 28. workshop Ţďárek Litoměřice
Eva Lehečková (eva.leheckova@ff.cuni.cz) 28. workshop Ţďárek Litoměřice 14. 5. 2011 1 1. Téma 2. Kontext (Korpus DEAF), termíny, problémy 3. Syntax CN kvalitativní sonda 2 V psané češtině českých neslyšících
VíceVyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita
VíceRudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie
Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie Obsah Strojový překlad Statistický strojový překlad Frázový statistický strojový překlad Překlad pojmenovaných entit O. Hálek, R. Rosa,
VíceVětná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
VíceFaktorované překladové modely. Základní informace
Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace
VíceJazyk XSL XPath XPath XML. Jazyk XSL - rychlá transformace dokumentů. PhDr. Milan Novák, Ph.D. KIN PF JU České Budějovice. 9.
Jazyk XSL - rychlá transformace dokumentů 9. prosince 2010 Osnova 1 Jazyk XSL Úvod Princip zpracování pomocí stylů Formátování dokumentu pomocí XSL FO Osnova 1 Jazyk XSL Úvod Princip zpracování pomocí
VíceČeský jazyk a literatura komunikační a slohová výchova ročník TÉMA
Český jazyk a literatura komunikační a slohová výchova ročník TÉMA 1 Nauka o slohu - objasní základní pojmy stylistiky Styl prostě sdělovací - rozpozná funkční styl, dominantní slohový Popis a jeho postup
VíceŠkolní vzdělávací program Základní školy a mateřské školy Sdružení
Vyučovací předmět: Český jazyk a literatura 3. ročník Měsíc Téma Učivo Očekávaný výstup září říjen OPAKOVÁNÍ Z 2. roč. VĚTA JEDNODUCHÝ PŘÍBĚH OPAKOVÁNÍ Z 2. ročníku PÁROVÉ SOUHLÁSKY ABECEDA JEDNODUCHÝ
Víceúč úč ž ů ž Č Č č č ů ž úč č úč ť Ň č ú Ý č č Ú Ú ť ú č ď ů ž š úč ž úč úč ž ť ď ť ď ž ú č č úč š ž Ů č č ú úč ž ů ť úč ž ž ž Ů č ž ú č Š úč č Úč Č Č š ď š Š š Ó Ó ž ůč ú Ď ť ž ů ů č ů Č ů ž úč Ý č ž úč
Víceč ů š ň č č Ú č č č Ú ů Ú č ž ú š š ý č ú ó ó ž č ý ý ý č ž č ý ž ý č ý ž ž č ý ý ý ž ý ý ý ý š ý š ů ů č č ý ž č ý ů š ž ý Ú Ú úč š ů ž ů ů Úč ž č ý č š ý ů č š ý ý ý ů č č ž ů š ů ů š ý ý ů ů č č ž ú
VíceÁ Ě Í Ě Á Á ó č ž č ž č Í š úč é úč š ž č é ů č é č é é ů č ů č č ů é Ž š ů ů š č é Ž č é Ž č Í ž Ž Ž é é Ů é Ř ů ť š é é č é é é š č č é č č č č š č š é č é č ů č č š ú é č é š é Ž Ž é é ú č č é ů č š
VíceStrukturovaný životopis
Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český
Více,,Příloha č. 1 k vyhlášce č. 381/2007 Sb.
,,Příloha č. 1 k vyhlášce č. 381/2007 Sb. Částka 125 Sbírka zákonů č. 387 / 2008 Strana 6003 Strana 6004 Sbírka zákonů č. 387 / 2008 Částka 125 Částka 125 Sbírka zákonů č. 387 / 2008 Strana 6005 Strana
Vícekupní cena: 680 500,- Kč Splatnost jednorázově, do 30 dnů ode dne podpisu kupní smlouvy na účet prodávajícího. Návrh č. 2.
Návrh č. 1. kupní cena: 680 500,- Kč Návrh č. 2. kupní cena: 681 500,- Kč Návrh č. 3. 1 kupní cena: 682 500,- Kč Návrh č. 4. kupní cena: 683 500,- Kč Návrh č. 5. 2 kupní cena: 684 000,- Kč Návrh č. 6.
VíceUniverzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Ondřej Bojar Automatická extrakce lexikálně-syntaktických údajů z korpusu Praha 2002 Ústav formální a aplikované lingvistiky Vedoucí
VíceOndřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze
Þ Ú Í Ð Ô Ð ØÖÓ ÓÚ ÓÐ Ondřej Bojar ÓÑ bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 27. únor 2012 Udělá za vás strojový překlad
VíceOJ305 TYPOLOGIE JAZYKŮ z pohledu syntaxe
OJ305 TYPOLOGIE JAZYKŮ z pohledu syntaxe Syntaktická typologie co je to slovosled? co je to syntax? slovosled = pořadí větných členů ve větě syntax = slovosled, tedy pořadí větných členů, vztahy mezi nimi
VíceUčíme počítače (nejen) česky: ÚFAL
Učíme počítače (nejen) česky: ÚFAL Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky
VíceČím může bohemistice přispět současná počítačová lingvistika?
Jarmila Panevová (Univerzita Karlova, Praha) Čím může bohemistice přispět současná počítačová lingvistika? I. Po několik destiletí (od 2. poloviny 20. století) se mohlo zdát, že počítačová a formální lingvistika
VíceKorpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
VíceZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost 2005 1ET101120413
Národní 3, 117 20 Praha 1 List PT1 ZPRÁVA O PRŮBĚHU PRACÍ na programovém projektu Informační společnost Rok Identifikační kód projektu 2005 1ET101120413 01 Řešitel projektu Jméno: Mgr. Barbora Vidová Hladká,
VíceKoncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období 1. 2. 2016 31. 1. 2019 1. Úvod Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr.
VíceNedostatky bezkontextové gramatiky
Nedostatky bezkontextové gramatiky Běžná gramatika nezachytí schodu podmětu s přísudkem. Lze řešit přidáním zvláštních neterminálů pro jednotné číslo, množné číslo... Velký nárust počtu neterminálů Rozšířené
VíceJak (ne)připravit zadání BP a DP, jak (ne)psát BP a DP, aneb co je taky (ne)možné
Jak (ne)připravit zadání BP a DP, jak (ne)psát BP a DP, aneb co je taky (ne)možné Zadání BP a DP Povinné náležitosti: Název práce v češtině a angličtině (překlad z Googlu se skutečně nedoporučuje) Cíl
VíceAUTOMATICKÁ TVORBA SLOVNÍKŮ
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV POČÍTAČOVÉ GRAFIKY A MULTIMÉDIÍ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND
VíceMasarykova Univerzita Pedagogická Fakulta
Masarykova Univerzita Pedagogická Fakulta VÍCEJAZYČNÁ LINGVISTICKÁ TERMINOLOGIE - cíle, struktura a využití ve výuce (na příkladu RJ) Simona Koryčánková Vícejazyčná lingvistická terminologie o příručka
VíceS frazémy si hrát na nervy je balzám Víceslovné výrazy v PDT dnes a zítra
S frazémy si hrát na nervy je balzám Víceslovné výrazy v PDT dnes a zítra Projekt Lexemann Pavla Straňáka Workshop grantu Explicitní popis jazyka a anotovaná data se zřetelem na češtinu 12. dubna 2012
VíceKam s ní? O interpunkční čárce v souvětí Jana Svobodová
Kam s ní? O interpunkční čárce v souvětí Jana Svobodová KATEDRA ČESKÉHO JAZYKA A LITERATURY S DIDAKTIKOU, PdF OU Teoreticky o čárce v souvětí Bylo by asi výhodné, kdyby se psaní čárky jako interpunkčního
VíceMINISTERSTVO ŠKOLSTVÍ, MLÁDEŽE A TĚLOVÝCHOVY. Učební osnova předmětu MATEMATIKA
MINISTERSTVO ŠKOLSTVÍ, MLÁDEŽE A TĚLOVÝCHOVY Učební osnova předmětu MATEMATIKA pro střední odborné školy s humanitním zaměřením (6 8 hodin týdně celkem) Schválilo Ministerstvo školství, mládeže a tělovýchovy
VíceŠABLONY INOVACE OBSAH UČIVA
ŠABLONY INOVACE OBSAH UČIVA Číslo a název projektu CZ.1.07/1.5.00/34. 0185 Moderní škola 21. století Číslo a název šablony II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách klíčové aktivity
VíceFormální úprava bakalářských a diplomových prací Univerzita Karlova, Husitská teologická fakulta
Formální úprava bakalářských a diplomových prací Univerzita Karlova, Husitská teologická fakulta Odevzdání práce Bakalářské a diplomové práce se odevzdávají prostřednictvím webového rozhraní SIS na adrese
Více5.1 Český jazyk a literatura Vyšší stupeň osmiletého gymnázia a gymnázium čtyřleté
5.1 Český jazyk a literatura Vyšší stupeň osmiletého gymnázia a gymnázium čtyřleté Časové, obsahové a organizační vymezení Ročník 1. 2. 3. 4. Hodinová dotace 4 4 4 4 Realizuje se obsah vzdělávacího oboru
VíceMINISTERSTVO ŠKOLSTVÍ, MLÁDEŽE A TĚLOVÝCHOVY. Učební osnova předmětu MATEMATIKA. pro nástavbové studium. varianta B 6 celkových týd.
MINISTERSTVO ŠKOLSTVÍ, MLÁDEŽE A TĚLOVÝCHOVY Učební osnova předmětu MATEMATIKA pro nástavbové studium (hodinová dotace: varianta A 4 až 5 celkových týd. hodin, varianta B 6 celkových týd. hodin) Schválilo
VíceWebová grafika, struktura webu a navigace, použitelnost a přístupnost
Webová grafika, struktura webu a navigace, použitelnost a přístupnost Martin Kuna martin.kuna@seznam.cz Obsah Webová grafika Rozvržení stránky Typografické zásady Nejčastější chyby Struktura webu a navigace
VíceWorkshop k terminologickým otázkám organizace znalostí Motivace a hypotézy projektu. Cíl projektu NAKI DF13P01OVV013
Workshop k terminologickým otázkám organizace znalostí 29. 10. 2014 Součást řešení projektu Programu aplikovaného výzkumu a vývoje národní a kulturní identity (NAKI) DF13P01OVV013 2013 2015 Helena Kučerová,
VíceUniverzita Karlova v Praze Matematicko-fyzikální fakulta. Adam Liška. Ústav formální a aplikované lingvistiky
Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Adam Liška Čištění paralelních dat pro strojový překlad Ústav formální a aplikované lingvistiky Vedoucí bakalářské práce: RNDr.
VíceINTLIB. Osnova. Projekt (TA02010182/Inteligentní knihovna) je řešen s finanční podporou TA ČR. ! Legislativní doména
INTLIB Projekt (TA02010182/Inteligentní knihovna) je řešen s finanční podporou TA ČR. Osnova! O projektu! Postupy prací podle oblastí! Legislativní doména " Judikatura " Účetní poddoména! Environmentální
VícePřihláška Motivační dopis
- Úvod Vážený pane, Formální, příjemce muž, jméno neznámé Vážená paní, Formální, příjemce žena, jméno neznámé Vážený pane / Vážená paní, Formální, jméno a pohlaví příjemce neznámé Vážený pane, Vážená paní,
VíceRekonstrukce standardizovaného textu z mluvené řeči
Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Příspěvek shrnuje dosavadní poznatky získané při budování Pražského závislostního korpusu mluvené češtiny (Prague Dependency
VíceRedukční analýza s operacemi delete a shift a analytická rovina Pražského závislostního korpusu (PDT).
Redukční analýza s operacemi delete a shift a analytická rovina Pražského závislostního korpusu (PDT). M. Plátek, K. Oliva Rozšíření a zpřesnění prezentace z ITATu 2015. Pracovní verze. Úvod: tři typy
VíceSpecializované korpusy mluveného jazyka - jejich tvorba a využití
Specializované korpusy mluveného jazyka - jejich tvorba a využití Karolína Vyskočilová 34. Žďárek, Poděbrady, 2. 4. května 2014 vyskoczilova@seznam.cz Obsah příspěvku korpusy čeština v zahraničí BANÁT
VíceCo naše děti umějí a kde se to vlastně učí?
Co naše děti umějí a kde se to vlastně učí? Pohled na dovednosti a znalosti žáků ZŠ prostřednictvím dat z projektu Kalibro David Souček, 2019 Jaká data máme k dispozici o žácích ZŠ Projekt Kalibro systematicky
VíceGISON: ontologická integrace urbanistických datových sad IPR
GISON: ontologická integrace urbanistických datových sad IPR Jiří Čtyroký 1, Petr Křemen 2 1 IPR Praha, 2 FEL ČVUT Slovníky a ontologie Měli bychom co nejvíce používat třídy a vlastnosti definované existujícími
VíceČeský jazyk v 5. ročníku
Český jazyk v 5. ročníku září Jazyková Při hlasitém čtení vhodně využívá modulace souvislé řeči a různá zabarvení hlasu. Po tichém čtení samostatně reprodukuje text. Odliší podstatné a okrajové informace,
VíceText Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
VíceMULTIKULTURNÍ KONZULTANT
Tento projekt byl financován s podporou Evropské komise v programu Lifelong Learning Programme, Leonardo da Vinci Partnerships. Za obsah prezentace ručí výhradně Slovo 21 a Evropská komise neodpovídá za
Více7.15-8.00 8.05-8.50 8.55-9.40 9.45-10.30 10.35-11.20 11.25-12.10 12.15-13.00 13.05-13.50 13.55-14.40 14.45-15.30 15.35-16.20 16.25-17.
Angličtina pro školskou praxi, 1. ročník, LS 2014/15 Výuka vždy v místnosti H8, pokud není uvedeno jinak Skupina A 7.15-8.00 27/02/15 1 - Reálie - Reálie 06/03/15 13/03/15 1 27/03/15 Britské Britské -
VíceKorpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.
Korpusová lingvistika a počítačová Od 60. let 20. st. Raná korpusová lingvistika (konec 19. st 50. léta 20. st., Early corpus linguistics) strukturalistická tradice, americký deskriptivismus, metody založené
VíceV této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.
Syntakticky anotovaný korpus českých textů Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič, Alexandr Rosen, Hana Skoumalová Ústav teoretické a komputační lingvistiky, Filozofická fakulta
VíceNainstalovat Tred!
Nainstalovat Tred! http://ufal.mff.cuni.cz/tred/ 1 Korpusy a lingvistické nástroje Daniel Zeman zeman@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova
VíceMetodický návod. pro tvůrce didaktických podpor k cizojazyčným odborným filmům
Metodický návod pro tvůrce didaktických podpor k cizojazyčným odborným filmům Tento metodický návod je určen pro tvůrce didaktických podpor pro cizojazyčné odborné filmy (dále jen Tvůrce ). Didaktické
VícePočítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva I. Zpracování
VíceŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
VíceAnglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti
Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující
VíceWWW jako dynamická knihovna
Automatizace knihovnických procesů 2001, Liberec WWW jako dynamická knihovna Miroslav Škultéty KSI MFF UK Praha Osnova Úvod Statické vs. dynamické textové IS Nové modely komunikace Klíčová role XML Metadata
VíceWorkshop o paralelním korpusu InterCorp
Workshop o paralelním korpusu InterCorp Praha, 6.9.2013 Olga Richterová, ÚČNK Český národní korpus (LM2011023; 2012-2016) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro
VíceStudentské hodnocení výuky
Studentské hodnocení výuky Obecné otázky Jan Kříž, David Hurný, Markéta Martínková Studentská komora Akademického senátu PřF studijní proděkanka Proč dělat SHV 1. Vyžaduje to legislativa 2. Zvýšení kvality
VícePLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.
PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st. Algebraická lingvistika matematika algebra logika formální logika logická analýza jazyka
VíceOtevřená data. Shrnutí. Když stavím nový IS nebo upravuji existující, co musím udělat, abych byl Open Data Ready? Prosinec 2018
Otevřená data Když stavím nový IS nebo upravuji existující, co musím udělat, abych byl Open Data Ready? Prosinec 2018 Schválil: Ing. Petr Kuchař, ředitel odboru Hlavního architekta egovernmentu, MVČR Shrnutí
Vícesoučasný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;
NABÍDKOVÝ LIST Ústav Českého národního korpusu Filozofická fakulta UK v Praze www.korpus.cz Odborné zaměření Český národní korpus je akademický projekt při FF UK, který se dlouhodobě soustředí na sběr,
VíceNLP & strojové učení
NLP & strojové učení Miloslav Konopík 2. dubna 2013 1 Úvodní informace 2 Jak na to? Miloslav Konopík () NLP & strojové učení 2. dubna 2013 1 / 13 Co je to NLP? NLP = Natural Language Processing (zpracování
VíceSíťIT: Portál na podporu sociální sítě informatiků v ČR http://www.sitit.cz/
SíťIT: Portál na podporu sociální sítě informatiků v ČR http://www.sitit.cz/ Projekt SoSIReČR SoSIReČR = Sociální síť informatiků v regionech České republiky Projekt je hrazen z rozpočtu Evropského sociálního
VíceČeská školní inspekce Pražský inspektorát INSPEKČNÍ ZPRÁVA. čj. ČŠI 847/07-01. Jánošíkova 1320
Česká školní inspekce Pražský inspektorát INSPEKČNÍ ZPRÁVA čj. ČŠI 847/07-01 Název školy: Základní škola U Krčského lesa, Praha 4, Jánošíkova 1320 Adresa: Jánošíkova 1320, 142 00 Praha 4 - Krč Identifikátor:
VíceČESKÝ JAZYK. Oddíl E učební osnovy I.1.C
ČESKÝ JAZYK Oddíl E učební osnovy I.1.C Charakteristika předmětu: ČESKÝ JAZYK ve čtyřletém gymnáziu Obsah předmětu Předmět český jazyk vychází ze vzdělávací oblasti Jazyk a jazyková komunikace. V jazykové
VíceFACT v ČR Blízkost holandskému modelu v praxi komunitních služeb
FACT v ČR Blízkost holandskému modelu v praxi komunitních služeb Mgr. Pavel Říčan MUDr. Jan Stuchlík Centrum pro rozvoj péče o duševní zdraví PROJEKT PODPORA FACT MODELU V ČESKÉ REPUBLICE, Č. CZ.03.2.63/0.0/0.0/15_023/0001126
VícePočítačová typografie
Počítačová typografie Typografie je nauka o tom, jak má tiskovina vypadat. Proč se o typografii učíme? Každý z nás běžně připravuje nějakou tiskovinu a požadavky na její kvalitu a zpracování jsou všude
VíceJuxtapozice z do v Arabštině
Juxtapozice z do v Arabštině Kvantitativní přístup Jiří Milička Ústav srovnávací jazykovědy Jak do začalo? První data pro výzkum byla shromážděna automaticky. Ale když se ukázalo, že téma je zajímavé,
VíceTovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje
jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových
VíceDatová úložiště CESNET
Datová úložiště CESNET David Antoš CESNET 20. 9. 2016 Přehled proč budujeme národní datová úložiště pro vědu a výzkum hlavní výhody úložišť typické případy užití úložišť plány rozvoje infrastruktury a
VícePlán práce pro 2. ročník na 15. školní týden ( ) Pondělí Úterý Středa Čtvrtek Pátek Samohlásky. Blahopřejeme!
Plán práce pro 2. ročník na 15. školní týden (10. 12. - 14. 12. 2018) ČJ Psaní Samohlásky Samohlásky (krátké, dlouhé) (krátké, dlouhé) ČJ str. 40, 41 společně PS str. 35 41/1 část DÚ: ČJ str. 41/1 dokonči
VíceItálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů
Itálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů O Vás 1. Dotazník vyplnilo sedm vysokoškolských pedagogů připravujících budoucí učitele cizích jazyků. 2. Šest
VíceDODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM III.
DODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM III. ZADAVATEL: Česká republika Ministerstvo práce a sociálních věcí Sídlem: Na Poříčním právu 1/376, 128 01 Praha 2 Zastoupena: PhDr. Karlem Vítem, PhD., ředitelem
VíceKarel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová
Karel Šebesta Eva Lehečková Piotr Paweł Pierścieniak Kateřina Šormová Aplikovaná lingvistika Příručka pro studenty Bc. studia ČJL KAROLINUM Aplikovaná lingvistika Příručka pro studenty Bc. studia ČJL Karel
VícePRACOVNÍ LIST - REFERÁT
PRACOVNÍ LIST - REFERÁT Anotace Tématem pracovního listu je slohový útvar referát. Materiál slouží k výkladu, ale také je orientován na práci s konkrétním referátem. Cílem je seznámit žáka s daným útvarem
VíceAutorem materiálu je Mgr. Renáta Lukášová, Waldorfská škola Příbram, Hornická 327, Příbram, okres Příbram Inovace školy Příbram, EUpenizeskolam.
Šablona č. 7, sada č. 1 Vzdělávací oblast Vzdělávací obor Tematický okruh Téma Člověk a jeho svět Člověk a jeho svět Lidé kolem nás Řemesla Ročník 3. Anotace Prostřednictvím těchto pracovních listů se
VíceE K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO
Seznam výukových materiálů III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblast: Předmět: Vytvořil: Současný český jazyk upevňování a procvičování obtížných gramatických jevů Český jazyk
VíceSociálně vyloučené lokality v ČR
Sociálně vyloučené lokality v ČR Karel Čada Fakulta sociálních věd Univerzity Karlovy Praha, 9. 11. 2017, Spravedlivost ve vzdělávání Nerovnosti v českém vzdělávacím systému Co je to sociální vyloučení?
VíceOntologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
VíceMoses. M. Fabianová, A. Štromajerová, M. Vaněk
Moses M. Fabianová, A. Štromajerová, M. Vaněk Osnova 1. Trocha historie 2. Co je to Moses? 3. V čem je Moses jiný/lepší než ostatní SMT překladače? 4. Využití, příklady, srovnání Trocha historie 50. léta
Více