Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

Podobné dokumenty
Analytické podklady pro politiku VaVaI

PŘÍLOHA C. Tabulka se jmény studentů. PŘÍLOHA C. Tabulka se jmény studentů. pro 8 hráčů. pro 10 hráčů. stát projekt jméno Německo Více Evropy

Tabulka 1: Základní pfiehled v vozû podle jednotliv ch zemí a osmi skupin vojenského materiálu

AIA Akademická informační agentura

EGAP a podpora exportu. Konference ekonomických radů Ing. Jan Procházka,

Ekonomické perspektivy v cestovním ruchu

Dosavadní zapojení subjektů ČR do výzev WIDESPREAD. Informační den v oblasti Šíření excelence a podpora účasti v programu Horizont 2020

TRACES - Import živých zvířat do ČR 1 / 2017

Cíl: definovat zahraniční pracovní cest, vyjmenovat náhrady při zahraniční pracovní cestě a stanovit jejich výši.

Tisková konference, Český statistický úřad, 14. února 2012, Praha

Ceny energií a vliv POZE na konkurenceschopnost průmyslu

PRO STUDENTY DOKTORSKÝCH PROGRAMŮ

#Cesko2016. Česko : Jak jsme na tom?

Nabídka služeb CzechTrade a aktuální exportní příležitosti v Polsku

STATISTICKÁ ZPRÁVA ČESKÁ REPUBLIKA

VY_32_INOVACE_0616 Evropa a Evropská unie

Schéma organizační struktury Slovanského ústavu AV ČR

Střední a východní Evropa:

AIA Akademická informační agentura

ŽIVOT CIZINCŮ V ČR. Zpracoval: Odbor statistiky trhu práce a rovných příležitostí

Ceník přepravce BALIKSERVIS Doba přepravy

Gymnázium Františka Palackého Valašské Meziříčí

Stipendijní pobyty v zahraničí na základě mezinárodních smluv AKADEMICKÁ INFORMAČNÍ AGENTURA

Počet hostů / Number of guests. % podíl / % share

II. Veřejně dostupné služby v mobilních sítích elektronických komunikací

ZHORŠUJE SE VZTAH ČECHŮ K POLSKU, MAĎARSKU, UKRAJINĚ I ČÍNĚ

Stipendijní pobyty v zahraničí na základě mezinárodních smluv AKADEMICKÁ INFORMAČNÍ AGENTURA

Příloha č. 1: Vstupní soubor dat pro země EU 1. část

I N F O R M A C E. Vězeňská služba České republiky Generální ředitelství. Soudní 1672/1a, P.O.Box 3, Praha Tel.: Fax:

Kolik platí Češi za elektřinu a plyn? Nové porovnání evropských států

Geografie dopravy aktuální geografické změny v jednotlivých druzích dopravy. HS Geografie nevýrobní sféry Přenáška č. 6

I N F O R M A C E. Vězeňská služba České republiky Generální ředitelství. Soudní 1672/1a, P.O.Box 3, Praha Tel.: Fax:

I N F O R M A C E. Vězeňská služba České republiky Generální ředitelství. Soudní 1672/1a, P.O.Box 3, Praha Tel.: Fax:

I N F O R M A C E. Vězeňská služba České republiky Generální ředitelství. Soudní 1672/1a, P.O.Box 3, Praha Tel.: Fax:

I N F O R M A C E. Vězeňská služba České republiky Generální ředitelství. Soudní 1672/1a, P.O.Box 3, Praha Tel.: Fax:


I N F O R M A C E. Vězeňská služba České republiky Generální ředitelství. Soudní 1672/1a, P.O.Box 3, Praha Tel.: Fax:

Otázka: Mezinárodní vztahy. Předmět: Základy společenských věd. Přidal(a): M.

I N F O R M A C E. Vězeňská služba České republiky Generální ředitelství. Soudní 1672/1a, P.O.Box 3, Praha Tel.: Fax:

I N F O R M A C E. Vězeňská služba České republiky Generální ředitelství. Soudní 1672/1a, P.O.Box 3, Praha Tel.: Fax:

Demografické trendy a regionální diferenciace terciárního vzdělávání

Cizinci v České a Slovenské republice po roce Pavel Ptáček, Pavel Roubínek katedra geografie PřF UP v Olomouci

SEŠIT II. Tabulky a grafy všech návštěvníků ŠETŘENÍ A VYHODNOCENÍ STATISTICKÝCH DAT NÁVŠTĚVNOSTI V ČESKÝCH BUDĚJOVICÍCH.

CENÍK. Cena za 20 minut. Cena za 30 minut Cena za 45 min Cena za hodinu. včetně. Tlumočení po telefonu

KOLIK U NÁS PRACUJE CIZINCŮ

KOMISE EVROPSKÝCH SPOLEČENSTVÍ ROZHODNUTÍ KOMISE. ze dne ,

FINANCOVÁNÍ VEŘEJNÉHO VÝZKUMU A VÝVOJE

Organizátoři děkují všem sponzorům a partnerům, kteří se podíleli na přípravě OHC Liberec 2016.

Přehled readmisních dohod, jimiž je Česká republika vázána:

LIDÉ MAJÍ POCIT, ŽE KORUPČNÍ KLIMA POSILUJE

Příslušná ustanovení ve dvoustranných smlouvách týkající se osvobození od dalšího ověření

Aplikace snížené sazby daně z přidané hodnoty u piva

Indikátory zranitelnosti vůči dopadům změny klimatu

Asistivní technologie

Bakalářské státní závěrečné zkoušky Jednotlivé části bakalářské státní zkoušky a okruhy otázek

Informace ze zdravotnictví Libereckého kraje

1. CENÍK SLUŽEB PRO ZÁKAZNÍKY BEZ SMLOUVY SE SERVIS 24 2

Průměrná doba pobytu ve dnech/ Average length of stay. % podíl / % share

Přílohy. Příloha č. 1: Počet jaderných reaktorů ve světě (439) a rozložení dle toho, kolik let jsou v provozu.

Hans Strelow

Mimoto se mohou řízené transakce v tomto případě uskutečnit i mezi společnostmi A a B případě mezi společnostmi A a C.

Gymnázium, Brno, Elgartova 3

Informace ze zdravotnictví Libereckého kraje

PRÁVO EU - ÚVOD. Prezentace VŠFS 2015

I N F O R M A C E. Vězeňská služba České republiky Generální ředitelství. Soudní 1672/1a, P.O.Box 3, Praha Tel.: Fax:

Hana Šmardová. Duben 2012

7 Migrace. Tab. 7.1 Zahraniční migrace podle pohlaví, Tab. 7.2 Přistěhovalí podle věku,

Kontexty porodnosti v České republice a Praze

ČESKÝ STATISTICKÝ ÚŘAD

PŘEHLED UZAVŘENÝCH READMISNÍCH SMLUV

I N F O R M A C E. o stavu a složení vězeňské populace v České republice za měsíc Září 2013

Ceny vody v roce 2017

Zahraniční obchod s okrasnými rostlinami 2015

Shrnutí poznatků z konference AV 15 Ing. Petr Mondschein, Ph.D.

Příloha I.A. Vývoj platů soudců obecných soudů v letech (Zdroj: Ministerstvo spravedlnosti České republiky, Ústavní soud České republiky)

Mobilní hlasové služby

Informace ze zdravotnictví Královéhradeckého kraje

1. Doc. RNDr. Pavel Burda, CSc. VS Ing. Robert Cimrman, Ph.D. VS1052 NTC Západočeská univerzita Univerzitní Plzeň

Začínáme. Pro Focus UltraView. Tato příručka je k dispozici v různých jazycích na webových stránkách BK Medical.

...od STODOLY ke SVĚTOVÉ JEDNIČCE...

SILNIČNÍ DOPRAVA. mgr. Jan Hercik

Informace ze zdravotnictví Královéhradeckého kraje

I N F O R M A C E. o stavu a složení vězeňské populace v České republice za měsíc. prosinec 2014

CO ŘÍKAJÍ STATISTIKY O IT ODBORNÍCÍCH V ČR

Státní zřízení: konstituční monarchie. Návrh: EPP-ED S&D ALDE ZELENÍ/EFA ECR GUE/NGL EFD NEZ.

18. celostátní konference o územním plánování Liberec, ČKAIT. Ing. Pavel Křeček

Pavla Suttrová: Rozvodovost v evropském srovnání 55

Nástroje kraj. plánování

Úvod do praxe stínového řečníka. Úvod

Postavení českého trhu práce v rámci EU

Č E S K Á R E P U B L I K A (Č E S K O)

Stručná referenční příručka Pro Focus 2202 Color

Aktivity sítě CIVINET na podporu udržitelné dopravy ve městech České a Slovenské republiky

Obsah. Projekt část EBSCO

CzechTrade: Váš partner na zahraničních trzích

MOBILITY NA FST 2016/201

Informace ze zdravotnictví Karlovarského kraje

Základní charakteristika oboru vodovodů a kanalizací v České republice

N O N - S T O P A s i s t e n c e

EVROPSKÁ UNIE ENERGETIKA & DOPRAVA V ČÍSLECH. Část doprava

Transkript:

Jazyky a jazykové technologie v České republice Tomáš Svoboda Jan Hajič 1

Kolik jazyků máme v ČR? Jeden úřední jazyk (čeština) Skutečnost je složitější Turistika Obchod a mezinárodní komerční aktivity Migrace Regionální rozvoj, vývoj, státní správa, mez, spolupráce Mobilita a doprava Energetika, změna klimatu Životní prostředí a EU: přeshraniční spolupráce a mobilita Zákony, vyhlášky, nařízení (pracovní, obchodní, sociální, turistika) Zdravotní dokumentace, rychlá pomoc 2

Jazyky v ČR Čeština je výrazně převažující jazyk Češi mají dva cizí jazyky ve škole Angličtina Němčina, francouzština, ruština (další méně) Jazyky menšin: Slovenština Romština (Sinti) Ruština, vietnamština, ukrajinština, polština, angličtina Nářečí (Ostrava, Slezsko, Slovácko) 3

Jazyky sousedních zemí Polština Němčina Slovenština 4

Regionální spolupráce (Interreg aj.) Region Countries Languages Střední Evropa Dunajský Německo (část), Polsko, ČR, Rakousko, Slovensko, Maďarsko, Itálie (sever), Slovinsko, Chorvatsko Německo (část), Bulharsko, Chorvatsko, ČR, Maďarsko, Rumunsko, Slovensko, Slovinsko Němčina, polština, slovenština, maďarština, italština, slovinština, chorvatština Němčina, bulharština, slovenština, maďarština, rumunština, slovinština, chorvatština A další... (např. NATO, OBSE, UNICEF, WHO, OSN ) 5

Vícejazyčnost v regionální spolupráci Přeshraniční Rychlá pomoc, pomoc při nehodách, traumatologie Zdravotní turistika Právní předpisy a požadavky osobní, ekonomická činnost, státní správa Bezpečnost, policie, armáda, soudy, zastupitelství Infrastrukturní projekty Silnice a železnice Energetika (ropa, plyn, přenos el. energie) Pošta a komunikace Finanční instituce a spolupráce 6

Migrace a zahraniční pracovníci Občané jiných zemí v ČR 2009: 3,9 % (407 500) (srov.: Polsko 0,1 % - 39 500 lidí) Z toho 1,4 % z EU, zbytek mimo EU Nejvíce: Slovensko (82 tis.), Asie souhrnně, Ukrajina, i Německo (14 tis.) Migrace: tranzitní země Dosud nevelká frekvence Mimoevropské jazyky Zahraniční pracovní síla Slovensko, Ukrajina, Rusko, Polsko Studenti a zahraniční učitelé Slovensko Rusko, Ukrajina, Vietnam, USA Učitelé jazyků Výzkumníci a vědci 7

ČR a jazykové technologie Jazykové technologie Automatická (počítačová) analýza textu a mluvené řeči Také syntéza (tzv. Text-To-Speech, nebo generevání textu) Aplikace: Kontrola pravopisu, kontrola gramatiky, automatické opravy, doplňování diakritiky Automatický překlad (z a do češtiny) Vyhledávání v textech (např. na internetu) Bez ohledu na slovní tvary (tzv. tvaroslovná analýza) Big data analytika Analýza sociálních sítí (polarita názorů) Call centra (směrování hovorů, hodnocení operátorů) Telefonické informační systémy (např. PID) Kombinace dolování (zajímavých) informací z textu a dat 8

Jazykové technologie v ČR: aktéři Výzkumné organizace Univerzita Karlova v Praze, MFF (Ústav formální a aplikované lingvistiky) vedoucí vývojové středisko v oblasti automatického překladu (v EU), podíl na vývoji světově nejrozšířenějšího systému Moses Vysoké učení technické v Brně (Speech@FIT) Fakulta aplikovaných věd ZČU Plzeň (Katedra kybernetiky, NTIS) Ústav pro jazyk český AV ČR, v.v.i. Masarykova univerzita v Brně (NLP Lab, Katedra poč. systémů a komunikací) Technická univerzita Liberec (Katedra mechatroniky) Firmy Phonexia (Brno), Lingea (Brno), Speechtek (Plzeň), Good Data (Praha), Geneea (Praha), Newton,... Jazykové technologie využívají (ve spolupráci s univerzitami a AV) např. ASPI/Kluwer, seznam.cz, centrum.cz, Google,...; soudy, ČT Infrastruktura pro výzkum a vývoj LINDAT/CLARIN, MFF UK (+3), součást Clarin ERIC (EU) 9

Jazykové technologie v ČR: stav Jazykové technologie Neexistuje kritérium funguje/nefunguje : vždy funguje v procentech Příklady: Kontrola pravopisu: chybějící slova, nepozná správnost jsme/jsem apod. Převod slov na základní tvary pro vyhledávání: chybějící slova ve slovníku Automatický překlad nikdy nebude perfektní (každý zná Google Translate) Čeština stav dostupných jazykových technologií Popsáno v Bíle knize jazyků (cihlová obálka...) Stav jazykových technologií, stav jazykových zdrojů S výjimkou vyzrálosti a kvality zpracovaných textových korpusů (dat) < 5 bodů (na škále 1-5) Automatický překlad souhrnně: nízká podpora Hlavní důvod: nedostatek dat (přeložených textů) Kvalita závislá na dostupnosti jazykových dat (textů, audia) 10

Odkazy Bílá kniha jazyků http://www.meta-net.eu/whitepapers/volumes/czech Celoevropská koordinační síť jazykových technologií http://www.meta-net.eu Infrastruktura pro distribuci dat a základních nástrojů http://lindat.cz Nástroje pro překlad (open source) http://www.statmt.org/moses Instituce: Děkuji za pozornost! ÚFAL MFF UK: http://ufal.mff.cuni.cz Speech@FIT VUT Brno: http://speech.fit.vutbr.cz ÚJČ AV ČR Praha: http://www.ujc.cas.cz KKY ZČU Plzeň, odd. UI: http://www.kky.zcu.cz/cs/research-fields 11