1. Přehled cizojazyčných a vícejazyčných korpusů



Podobné dokumenty
KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Workshop o paralelním korpusu InterCorp

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

2. Korpusový portál a volně dostupné nástroje

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

IA161 Pokročilé techniky zpracování přirozeného jazyka

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

ve strojovém překladu

Koncepce a zdroje korpusu InterCorp

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.

Mezinárodní přehled cen mléka v jednotlivých mlékařských společnostech za prosinec Cena ( /100 Kg)

Petr Nevrlý

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Ceník platný od Ceny jsou konečné, nejsme plátci DPH.

pomocí SDL Trados Jak mi Translation Memory, Terminologie a Workflow pomohou při každodenní práci? Kdo jsme? Kdo je SDL? Translation Memory

Knihovnické informace. Vyhledávání ve zdrojích Knihovnického institutu

Elektronická technická dokumentace Bc. Lukáš Procházka

Japonsko-jazyčné online slovníky

Bible Quote 6.5 Okno programu

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Podporováno Technologickou agenturou České republiky, projekt TE

případová studie KB - BLOK systém, s.r.o. Nová webová prezentace rozšířená o e-shop

Informační listy výrobků. Zásobník teplé vody Typ Třída energetické účinnosti Statická ztráta [W] Užitný objem [l] NAD 1000v1

Role informační architektury a optimalizace pro vyhledavače v online publikování

Digitální knihovny v České republice

Jak na paralelní texty s programem ParaConc

C3 Vyhledávání na Internetu

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

Technická specifikace předmětu veřejné zakázky Zhotovení interaktivního webového portálu a mobilních aplikací

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Není korpus jako korpus: Korpusy v kontrastivní lingvistice a translatologii 1

Kapitola Rozpočet Rozpočet RU Skutečnost Sk utečnost % plnění Skutečnost Skutečnost

Středoškolská technika 2013 VYUŽITÍ JAZYKOVÝCH KORPUSŮ NA STŘEDNÍCH ŠKOLÁCH (S DŮRAZEM NA PARALELNÍ KORPUS INTERCORP)

Dlouhodobý vývoj Jihomoravského kraje

Technická dokumentace Bc. Lukáš Procházka

Služby Internetu. Ing. Luděk Richter

K možnostem počítačového zpracování literárního textu

vietnamská komunita ,0 Kč mutlikulturní v ý chov ,0 Kč 43% židov ská komunita ,0 Kč 5% ukrajinská menšina ,0 Kč

Intercorp schůzka paralelistů

Průměrná měsíční návštěvnost dosahuje přes 2 milióny unikátních uživatelů*.

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

Autor: JUDr. Lukáš Bohuslav Redakce: JUDr. Petr Flášar

Seminář pro nakladatele , Evropský dům, Praha

SECTRON s.r.o. Výstavní 2510/10, Ostrava - Mariánské Hory , sales@sectron.cz

INFORMACE Z MONITORINGU TRŽNÍ PRODUKCE MLÉKA

1. Manuál ke Sketch Engine

Databáze překladových ekvivalentů Treq 1

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

SPOLEČNÁ ZEMĚDĚLSKÁ POLITIKA V ČÍSLECH

2017 CARAT "New design"

European Local Transport Information Service. Přední evropský portál městské dopravy a mobility.

8.3 Dotazníkové šetření

Paralelní korpusy úvod

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Turistický portál kraje Vysočina a jeho další rozvoj

Abychom věděli, o čem mluvíme

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

SPOLUPRÁCE SE SPOLEČNOSTÍ EXPEDIA CENY A DOSTUPNOST

Informační zdroje pro výzkum v ČR (Informace o výsledku závěrečného vyhodnocení programu INFOZ)

gcon VAŠE MOBILNÍ APLIKACE PRO KONFERENCE A KONGRESY

Digitální kartotéky jako badatelské prostředí

Návod pro vložení nabídky účastníkem do eaukční síně v prostředí eaukčního sw PROebiz

Znalostní systém nad ontologií ve formátu Topic Maps

Příručka. pro uživatele

ČESKÁ TECHNICKÁ NORMA

Kapitola Rozpočet Rozpočet RU Skutečnost Skutečnost % plnění Skutečnost

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

Manuscriptorium v roce 2013

Wikizdroje Wikisource

Pracovní list č. 14 Microsoft Word 2010 jazykové nástroje, reference I Jazykové nástroje

INFORMACE Z MONITORINGU TRŽNÍ PRODUKCE MLÉKA

INFORMACE Z MONITORINGU TRŽNÍ PRODUKCE MLÉKA

Produktový list. Firemní profily

Petr Nevrlý

Oznámení o veřejné soutěži na určitý výkon

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Oddělení pro vědeckou a výzkumnou činnost FJFI ČVUT v Praze

Paralelní korpusy úvod

Obrázek 6.14: Prohlížec nápovedy

Publikování map na webu - WMS

Ministerstvo financí České republiky Financování a hospodaření obcí, krajů, zadluženost, inkaso sdílených daní, rozpočet 2016

BAKALÁŘSKÝ SEMINÁŘ 2. JAK VYHLEDAT ZDROJE A PRÁCE S NIMI. Ing. Maryna Garan

ROMÁNSKÉ JAZYKY A ČEŠTINA VE SVĚTLE PARALELNÍCH KORPUSŮ

Quo vadis, vyhledávání (na webu)?

Ministerstvo financí České republiky Financování a hospodaření obcí, krajů, zadluženost, inkaso sdílených daní, rozpočet 2016

Jak lze zefektivnit monitoring médií

Ukázka knihy z internetového knihkupectví

Ministerstvo financí České republiky Financování a hospodaření obcí, krajů, inkaso sdílených daní, rozpočet 2016

Uživatelský manuál. Hospodářské informace Creditreform z tuzemska i zahraničí

Redakční systém Joomla. Prokop Zelený

NEPERIODICKÉ PUBLIKACE 2017

Automatické párování uzlů českých a anglických tektogramatických stromů

Dealer Extranet 3. Správa účtu

1 Hodnocení Creditcheck v BYZNYS ERP návod k nastavení

ŽIVOTNÍ CYKLUS PŘÍPRAVKU I

PowerPoint - klávesové zkratky

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Transkript:

1. Přehled cizojazyčných a vícejazyčných korpusů typy korpusů a možnosti jejich využití 2. Nová verze korpusu InterCorp (prosinec 2014) nové jazyky a texty lemmatizace a značkování 3. Webové korpusy srovnatelné korpusy řady Aranea WaCky 4. Pozvánka na workshop

PARALELNÍ (parallel) zpravidla označuje korpus složený z originálů a jejich překladů v jednom či více cizích jazycích lze v něm dohledat zdrojové texty (=originály) bývá zarovnán na úrovni vět/segmentů InterCorp SROVNATELNÝ (comparable) většinou obsahuje srovnatelné texty podobného typu, žánru a délky ve více jazycích nejedná se o překlady, nelze dohledat zdrojové texty může být i jednojazyčný (například srovnatelný korpus překladové a nepřekladové češtiny)

Umožňuje zkoumat jazyk v kontrastivním pohledu dohledávat překladové ekvivalenty analyzovat rysy překladu Nedostatky reprezentativnost zdaleka ne všechny žánry lze získat paralelně automatické zarovnání (alignment) nemusí být 100% spolehlivé a ruční je časově i finančně náročné

Co máme k dispozici paralelní korpus InterCorp s 38 jazyky beletrie, žurnalistické a právnické texty i titulky hledání překladových ekvivalentů (nástroj TrEq) webové korpusy: ukwac, dewac, itwac aktuální jazyk, velikost, lemmatizace i značkování srovnatelné webové korpusy: Aranea stejně velké a stejně vytvořené, aktuální jazyk cizojazyčné korpusy: Dotko, Hotko, lestrepublicain...

aktuální informace použity z prezentace Alexandra Rosena

vícejazyčný paralelní korpus zaměřený na češtinu www.korpus.cz/intercorp dostupný pro všechny registrované uživatele zdarma čeština zatím jako pivot, zarovnání po větách/segmentech mezi texty v jiných jazycích je zarovnání přes českou verzi každý rok nové, aktualizované vydání s novými texty i jazyky poslední verze 7 prosinec 2014 přibyla např. albánština, japonština, ukrajinština či vietnamština kolekce textů nově titulky z Open Subtitles

aktuální počet jazyků: 38 jazyky se liší objemem textů, ne všechny jsou lemmatizovány a značkovány celková velikost: 1 390/165 mil. slov (cizí/české) složení: jádro a kolekce (vč. titulků) beletristické texty, manuální zarovnání: 137/77 mil. slov žurnalistika: Project Syndicate: http://www.project-syndicate.org/ PressEurop: http://www.presseurop.eu právnické texty v jazycích EU: Acquis Communautaire: http://langtech.jrc.ec.europa.eu/jrc-acquis.html EP (verbatim 2007-2011): Europarl: http://www.statmt.org/europarl/

Tagy se v různých jazycích liší!

Kde najdu, jak tag vypadá pro můj jazyk? odkaz zde

vytvořeny v letech 2005 2007 dostupné pro tyto jazyky: en, de, it, fr ukwac: 2 mld., domény končící na.uk, tagy dewac: 1,7 mld., domény končící na.de, tagy itwac: 2 mld., domény končící na.it, tagy frwac: 1,6 mld., domény končící na.fr, info

rodina nereferenčních srovnatelných webových korpusů (autor Vladimír Benko) zatím pro 7 jazyků (de, en, fr, nl, pl, ru, sk), cs bude pro každý jazyk dva korpusy: základní větší (maius, cca 1 mld. slov) a jeho 10% menší vzorek (minus) získány pomocí webového crawleru v letech 2013/2014 srovnatelný design, více informací zde tagset korpusů Aranea

experimentální online nástroj na automatické vyhledávání překladových ekvivalentů na základě paralelního korpusu InterCorp řadí pravděpodobné protějšky podle frekvence výsledky neprochází ruční kontrolou, nejde o klasický slovník spíš o inspiraci pro překladatele bude brzy zahrnut mezi nástroje na černé liště na www.korpus.cz TrEg zatím k vyzkoušení zde

www.korpus.cz

www.korpus.cz

Rozhraní KonText

Paralelní korpusy v rozhraní KonText umožňuje hledat v jednotlivých jazycích jako v samostatných korpusech (bez zobrazení paralelní verze) v paralelním zobrazení vždy jeden korpus základní a ostatní zarovnané více funkcí pro základní korpus: kolokace, frekvenční distribuce, třídění) vytváření subkorpusu jednoduchým klikacím výběrem umožňuje zobrazit výsledky i v případě, že v některém z jazyků daný text chybí kontext.korpus.cz

Příklad výběru korpusů

Paralelní korpusy v rozhraní KonText

Pokládání dotazu v obou korpusech typ dotazu podřetězec (najde všechna slova, která obsahují zadaný řetězec znaků)

Pokládání dotazu v obou korpusech

Máte jakékoli dotazy? Sem s nimi!

Český národní korpus (LM2011023; 2012-2016) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro VaVaI