Data mining pro překlady pomocí CAT nástrojů

Podobné dokumenty
Textové editory. Ing. Luděk Richter

HEDO Praha s.r.o. Profesionální služby v oblasti technických překladů

TVORBA TEXTOVÉHO DOKUMENTU PROSTŘEDKY, PŘENOSITELNOST

Název modulu: OO Writer a Impress

DOHODA O ÚROVNI POSKYTOVANÝCH SLUŽEB

MS Word základy. Úvod do MS Word. Nový dokument. Vytvoření zástupce programu na ploše. Otevření dokumentu a popis prostředí: Ukládání souboru:

o o Autor karty a všech jejích součástí, není-li uvedeno jinak, je: Bc. Pavel Janíček

Microsoft. Word. prostředí, základní editace textu. Mgr. Jan Veverka Střední odborná škola sociální Evangelická akademie

Gymnázium Dr. J. Pekaře Mladá Boleslav PRAVIDLA PRO PSANÍ MATURITNÍ PRÁCE

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT

Formát stránky, písma, odstavce Word 2007 egon. Formát stránky a písma, okraje, odstavce, oddíly

Inovace výuky prostřednictvím šablon pro SŠ

Osnova kurzu OBSLUHA PC ZÁKLADNÍ ZNALOSTI. pilotního projektu v rámci I. Etapy realizace SIPVZ

Srovnání aplikací pro převod dat z formátu PDF do Excelu

Pracovní list VY_32_INOVACE_33_20 Databáze Databáze Databáze Projekt II. Ing. Petr Vilímek

1. Otevřete dokument, který chcete číst. 2. Na kartě Zobrazení klikněte ve skupině Zobrazení dokumentů na položku Čtení na celé obrazovce.

Word textový editor. Tlačítko Office základní příkazy pro práci se souborem. Karta Domů schránka. písmo. vyjmout. vložit kopírovat.

Programové vybavení. Typografická pravidla I. Mgr. Martin Kolář SOŠ a SOU spojů a informatiky Kolín

Ročník VIII. Informatika. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.

OBSAH. Kontrola aktualizací... 18

PDF Creator. Instalace tiskárny pro převod dokumentů do PDF

Otázky neopisuj, piš odpověď!

Práce v programu Word 2003

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Úvodní list. Název školy Integrovaná střední škola stavební, České Budějovice, Nerudova 59 Číslo šablony/ číslo sady Poř. číslo v sadě 19 32/10

Osnova. Koncept a použití prezentací. Seznámení s pracovním prostředím MS Word Režimy zobrazení. Užitečná nastavení. Základní práce s dokumenty

Střední škola průmyslová a umělecká, Opava, příspěvková organizace, Praskova 399/8, Opava, IČO: Projekt: OP VK 1.5

Pracovní list VY_32_INOVACE_33_19 Databáze Databáze Databáze Ing. Petr Vilímek

OpenOffice.org, Writer

Microsoft Word základní úpravy textu

MS Word. verze Přehled programů pro úpravu textu

Internetový portál Elektrotechnika 2. školení

Obsah 1 SEZNÁMENÍ S PROGRAM EM 1

Název školy: Základní škola a Mateřská škola Žalany. Číslo projektu: CZ. 1.07/1.4.00/ Téma sady: Informatika pro pátý až šestý ročník

Místo úvodu. Čeho se vyvarovat. Mazání znaků

Počítačová typografie

Formátování obsahu adminweb

INFORMATIKA WORD 2007

Úterý 25. října. Úterý 1. listopadu. Word - 2. část. Tabulátory

6. Formátování: Formátování odstavce

Informace k e-learningu

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT EU-OVK-VZ-III/2-ZÁ-210

INFORMAČNÍ TECHNOLOGIE. Charakteristika vyučovacího předmětu 2.stupeň

Tato stručná uživatelská příručka vám pomůže začít používat produkt IRISPen TM Executive 7.

Použití prezentací. K heslovitému sdělení informací. Oživení obrázky, schématy, tabulkami, Nevhodné pro dlouhé texty. Doprovodná pomůcka při výkladu

ÚPRAVA BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE

VKLÁDÁNÍ OBJEKTŮ - tabulka

INFORMATIKA. Grafické studio ve škole

ABSOLVENTSKÉ PRÁCE ŽÁKŮ 9. ROČNÍKŮ - METODIKA

Databáze prodejců. Tlačítka. Vytvoří kartu nového prodejce (Alt+N); Změní vybraného prodejce Uloží nového prodejce nebo změnu (Alt+U);

OpenOffice Writer, zkratkové klávesy (výběr) Vytvořil: Mgr. et Mgr. Martin Hladký, Ph.D. Datum: 9. ledna

Jak využít kancelářské aplikace ve výuce MS Office Gymnázium a SOŠ Orlová Ing. Marta Slawinská

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Microsoft Word - Styly, obsah a další

Tabulky. V té to ka pi to le:

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Odhad náročnosti plnění

Pravidla vypracování maturitní práce

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

VÝPOČETNÍ TECHNIKA OBOR: EKONOMIKA A PODNIKÁNÍ ZAMĚŘENÍ: PODNIKÁNÍ FORMA: DENNÍ STUDIUM

Microsoft Office Word 2003

Dokument a jeho části oddíly, záhlaví, zápatí

středa A 10 B 20 C 30

POKYNY PRO VYPRACOVÁNÍ BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE

Backspace maže znaky před kurzorem (tedy zprava)

Pravidla vypracování maturitní práce

Obsahy kurzů MS Office

Variace Microsoft Word

Prezentace. Prezentace. 5. InDesign vzory, znakové styly. Vytvořil: Tomáš Fabián vytvořeno

IMPORT DAT DO DATABÁZE

ZÁKLADY POŘIZOVÁNÍ TEXTU

7. 2 Exporty sestav a dokladů

Příloha č. 17 INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE

Albrechtova střední škola, Český Těšín, p.o. II. DTP STRÁNKOVÁ MONTÁŽ

Microsoft Office Word 2003

Obsah KAPITOLA 1 Několik slov o Wordu

STANDARDNÍ APLIKAČNÍ VYBAVENÍ

b) červená, zelená, modrá, c) černá, bílá, d) černá, bílá, šedá. 5. PNG je formát: a) textový,

KAPITOLA 1 Několik slov o PowerPointu

WORD 2007 grafický manuál

FORMÁTOVÁNÍ 2. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen Ročník: sedmý. Vzdělávací oblast: Informatika a výpočetní technika

Novinky ve verzi Nastavení. Práce s textem a grafickými objekty. Vkládání textu. Vložte 2 strany latinského textu

K 2 - Základy zpracování textu

VY_32_INOVACE_INF3_18. Textové formáty PDF, TXT, RTF, HTML, ODT

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA

Co je nového v aplikaci QuarkXPress 2015

Word Lekce III. a IV.

Excel pro začátečníky

Informatika a výpočetní technika (IVT) Základní pojmy, Operační systém, MS Power Point, MS Word, Vypalování CD

Styly odstavců. Word Přiřazení stylu odstavce odstavci. Změna stylu odstavce

ID-Ware II Editace docházky

Microsoft Word základní

Pokyny pro vypracování maturitních prací 2014

Aplikace pro srovna ní cen povinne ho ruc ení

Zásadní dovednosti Indesign. Stručné otázky a odpovědi

INFORMATIKA WORD 2007

Informatika základní pojmy

Transkript:

Data mining pro překlady pomocí CAT nástrojů Radim Kroutil překladatel anglického jazyka s praxí od roku 1994 Září 2013 Dokumenty formátu PDF jsou standardem pro přenos informací a dokumentů, aniž by došlo k narušení vizuálního vzhledu dokumentů převedených do PDF. Text, obrázky, grafika apod. se v dokumentech PDF uzamknou a až na menší výjimky popsané níže, které jsou ale pro účely překladů zanedbatelné, není možné dokumenty PDF jakkoliv upravovat. Tento dokument popisuje situace, se kterými se překladatel běžně setkává při výkonu své práce. Jde především o takzvaný data mining, čili vytěžování dat, z PDF souborů, zejména textu, který poté překladatel importuje do CAT nástroje, ve kterém již pracuje čiště s textem, jehož formátování je omezeně vyznačeno formátovacími značkami. Rozdělení vstupních dokumentů 3) Zdrojové dokumenty v PDF s obsahem získatelným pouze s OCR. V zásadě je možné podklady pro data mining rozdělit do tří skupin: DOCX, XLSX, PPT, HTM, TXT, JS a další PDF 1) Zdrojové dokumenty nejvyšší kvality 2) Zdrojové dokumenty v PDF s obsahem získatelným bez OCR Vykopírovatelný PDF Nevykopírovatelný PDF Hodnocení kvality vstupních dokumentů U každé skupiny uvádím subjektivní hodnocení použitelnosti pro CAT, možnost poskytnutí slevy a náročnosti na úpravy po překladu v CAT. Pokud jde o použitelnost pro CAT, hodnotí se především to, zda se po načtení do CAT vytvoří úplné segmenty oddělené oddělovači nastavenými v CAT. CAT nástroje pro dělení textu do segmentů používají jako oddělovač tečku, vykřičník, otazník; překladatel může zvolit i jiné znaky v závislosti na struktuře vstupního textu (dvojtečku, středník apod.). Jedna věta rozdělená 1 do dvou segmentů je nežádoucí. Příklad: Engine coolant temperature sensor. Pokud CAT načte tuto větu do jednoho segmentu, je vše v pořádku. Pokud ale vytvoří segmenty dva, například Engine coolant temperature a sensor, jedná se již o závadu s dopadem na kvalitu překladové paměti, protože český překlad by měl znít Snímač teploty chladicí kapaliny motoru. Překladatel by měl tedy do jednoho segmentu napsat Snímač teploty chladicí kapaliny a do druhého motoru. Je nabíledni, že u obou segmentů dochází k zadání nesprávného překladu do paměti. CAT nástroje umožňují spojování dvou segmentů do jednoho, nicméně tato funkce se mi u některých CAT nástrojů neosvědčila.

Pokud jde o možnost poskytnutí slevy za opakování, hodnocení je velice orientační. Do možnosti poskytnutí slevy mluví mnoho faktorů: cena za překlad, důležitost zákazníka, velikost zakázky, jak složité je opakovaný text přeložit (zda zcela automaticky nebo s vynaložením úsilí) a další. Pokud by se věta Engine coolant temperature sensor objevila v CAT nástroji znovu, avšak nyní již správě jako jeden segment, tak z hlediska zákazníka je to opakování, nicméně s takovým opakováním má již překladatel práci. Taktéž, pokud by se objevila znovu ve dvou segmentech, jako např. Engine coolant a poté temperature sensor. Náročnost na úpravu textu po překladu v CAT hodnotí, do jaké míry musí překladatel věnovat (s výjimkou kontrolního čtení, oprav překlepů, oprav terminologie apod.) svůj čas na to, aby uvedl vizuální stránku dokumentu do přijatelné podoby, nejlépe do podoby odpovídající originálu. U hodnocení platí, že tři hvězdičky je nejvhodnější a jedna hvězdička je nejméně vhodné. 1) Zdrojové dokumenty nejvyšší kvality Zdrojové dokumenty nejvyšší kvality jsou ty dokumenty, které byly vytvořeny člověkem při práci s příslušnou aplikací (např. dokument DOCX v MS Word, dokument XLSX v MS Excel, dokument pages v Pages apod.) při dodržení základních typografických pravidel (automatické zalamování na konci řádku namísto stlačení klávesy enter na konci řádku, používání tabulátorů a odsazení namísto opakovaného mačkání mezerníku apod.). Překladatel nemusí provádět žádnou významnou přípravu textu k překladu pomocí CAT před překladem a ani žádné výrazné grafické úpravy po překladu. Použitelnost pro CAT: Možnost poskytnutí slevy: Náročnost na úpravy: [ Stručně o dokumentech formátu PDF Dokumenty PDF nelze v CAT nástrojích obecně zpracovávat přímo. Dokumenty PDF jsou určeny pouze ke čtení, jedná se o čistě výstupní formát. Existuje software s možností úprav jednotlivých slov, vkládání stránek, mazání stránek, vkládání poznámek, avšak přijatelný software k úpravě veškerého textu v dokumentu nikoliv. Chce-li zákazník přeložit PDF dokument, překladatel má dvě možnosti: převést PDF do DOC nebo vytvořit dokument zcela nově, ručně v aplikaci s konečným výstupem podle požadavku zákazníka. Pokud zvolí první volbu, použije k tomu převodní program (konvertor), kterých je na trhu spousta s různou kvalitou převodu. Na základě kvality PDF je nutné zvolit, zda se použije konvertor s funkcí OCR nebo bez funkce OCR. Při tvorbě zcela nového dokumentu použije obvykle MS Word, méně často MS Excel nebo MS PowerPoint či jiný formát (např. pages, numbers, keynote). 2 [

2) Zdrojové dokumenty s obsahem získatelným bez OCR Jedná se o dokumenty vyšší kvality. Výsledkem převodu je počítačem vytvořený DOC, který je formátován různými konvertory různě. Konvertory obvykle dodržují základní typografická pravidla, a proto jsou jako vstup pro CAT dokumenty DOC (a další) vhodné. Problém ale může nastat po překladu. Protože konvertory formátují text podle textu v PDF, nastavují různá odsazení zprava, zleva, délku stránky apod. podle délky slov, vět a odstavců výchozího jazyka. Protože mají různé jazyky různé délky slov, může být po překladu všechno jinak a v jazyce překladu je nutné někdy více, někdy méně provádět řadu úprav k dosažení uspokojivého vizuálního vzhledu. Pokud jsou v dokumentech fuzzy shody, překladatel musí s ohledem na slevu za opakování uvážit a zákazník akceptovat i případnou přirážku za práce související s převodem a úpravu vizálního vzhledu dokumentu po překladu. V příloze 2 je uveden příklad takového dokumentu včetně popisu úprav, které bylo nutné po překladu do češtiny provést. Rovněž je uveden příklad (Obrázek 2d) podkladu, který je vhodný tak maximálně do jedné stránky textu. Použitelnost pro CAT: Možnost poskytnutí slevy: Náročnost na úpravy: 3) Zdrojové dokumenty s obsahem získatelných pouze s OCR překlad po vizuální stránce nějakou štábní kulturu. Požadavek na slevu za opakování je akceptovatelný pouze u větších odstavců čistého a neformátovaného textu. Obecně, není-li práce zákazníkem zapla- Vynecháme-li papírový podklad k překladu, cena, věnování spousty času data miningu před jedná se o nejhorší možnou variantu pro překladem a úpravám po překladu se vyplatí tocena, zpracování v CAT. liko v případě potřeby vytvoření překladové paměti K vytěžení obsahu z PDF dokumentu je pro jisté budoucí zakázky totožného nutné použít technologii optického rozpoznávání charakteru. znaků (OCR) a výsledkem je DOC vytvořený počítačem. V příloze 3 je uveden příklad takového dovyžaduje, Na rozdíl od PDF, u kterých se OCR nekumentu včetně výsledného dokumentu po znač- toto zpracování vyžaduje většinou ných úpravách. úpravy grafického charakteru a i kontroly v případě, že dokument obsahuje číslice nebo se vyznačuje horší kvalitou vstupního textu, ještě před Použitelnost pro CAT: samotným zpracováním v CAT. Mnohokrát nejsou výstupy ani pro CAT použitelné a překladatel Možnost poskytnutí slevy: musí překládat dokument tak, jako kdyby byl podklad předán na papírovém médiu. Náročnost na úpravy: Pokud se přece jenom CAT použije, obvykle se vyžadují úpravy i po překladu, aby měl 3

Závěr Probloblematika překladů PDF souborů je složitá a neexistuje žádné řešení, které by vítězilo o dvě koňské délky nad ostatními. Ani v diskusích na profesních fórech překladatelů nejsou slyšet hlasy o kvalitním softwaru, který by umožňoval překládat PDF dokumenty přímo v CAT. Jedním řešením se může zdát Iceni Inifix, nicméně i to samo na svých stránkách s popisem funkce řešení obsahuje ve výsledném PDF souboru s překladem vizuální chybu. Co tedy s tím? Především je potřeba zdůraznit, že překladatel má právo na příplatek za přípravu PDF souborů před překladem a jejich úpravu po překladu. Jako neférový se mi jeví požadavek na slevu za opakování při zaslání PDF souboru, především je-li naskenovaný. Pokud zákazník potřebuje přeložený dokument pouze pro vlastní práci a nikoliv k externí prezentaci, zcela jistě mu bude postačovat jakýkoliv překlad, který je vizuálně jakž takž v pořádku. Pokud ale zákazník potřebuje překlad PDF souboru pro následnou prezentaci, jediným řešením je využít překladatele, který disponuje jak CAT nástrojem, tak i profesionálním DTP programem (InDesign, QuarkXPress), který dokáže nabídnout překlad a) rychleji, protože si upraví práci s překladem tak, aby výsledek překladu co nejlépe odpovídal požadavkům na vstup do DTP softwaru a b) levněji, protože není potřeba shánět grafické studio, které provede sazbu v DTP programu a navíc překladatel, který provádí i grafické zpracování v DTP, neúčtuje poplatek za manipulaci s PDF soubory před překladem, protože si zákazník kupuje dvě placené služby současně. Máte-li zájem o další informace, kontaktujte mne na 603 777 387 nebo prostřednictvím www.kroutil.cz. 4

Příloha 1 Zdrojové dokumenty nejvyšší kvality Obrázek 1a. Kvalitně připravný originál v DOC, nejlepší volba pro překlad v CAT Obrázek 1b. Výstup z CAT, žádných úprav netřeba; zákazník může žádat o slevu za opakování a solidní překladatel mu ji na vyzvání bez problémů poskytne 5

Příloha 2 Zdrojové dokumenty s obsahem získatelným bez OCR Obrázek 2a: Originál PDF, vykopírovatelný, bez použití technologie OCR Obrázek 2b: PDF po převodu do DOC pomocí Solid Documents 6

Příloha 2 Zdrojové dokumenty s obsahem získatelným bez OCR (pokračování) Text v záhlaví se převedl do textových rámečků, jejichž šířka je pro AJ v pořádku, pro češtinu už ne. Textová pole v záhlaví je potřeba změnit i opakovaně, protože po převodu do DOC vytvořil převodní program v dokumentu několik oddílů, pro které je záhlaví definováno vždy samostatně. Český text je delší než anglický. Převodní program nastavuje tvrdě hodnotu odsazení zprava, a tak se delší český text přelévá na další řádku. Obrázek 2c: Po překladu do češtiny, vyžaduje grafické úpravy popsané výše Obrázek 2d: Pouhé vykopírování a vložení do MS Word; k překladu v CAT pouze pro otrlé překladatele a na vizuální vzhled nedbající zákazníky 7

Příloha 3 Zdrojové dokumenty s obsahem získatelným pouze s OCR Obrázek 3a. Naskenovaný originál v PDF, nevykopírovatelný, středně špatná kvalita, na začátku dokumentu s ručními poznámkami Obrázek 3b. Po převodu v OCR softwaru od ABBYY, jeden z lepších a dražších, s ručně umazanými záhlavími a zápatími. Spousta chyb, ignoruje zarovnání do bloku, např. bod [0102] oproti originálu ignoruje horní index 1. Text vyžaduje intenzivní kontrolu buď před překladem nebo v průběhu překladu, což jej prodlužuje a prodražuje. 8

Příloha 3 Zdrojové dokumenty s obsahem získatelným pouze s OCR (pokračování) Obrázek 3c. Výsledek pro zákazníka Příloha 4 Vysvětlení zkratek PDF CAT OCR DOC DOCX XLS XLSX Portable Document Format, přenosný formát dokumentů Computer Aided Translation, počítačem podporovaný překlad Optical Character recognition, optické rozpoznávání znaků Formát souboru dokumentu MS Word Formát souboru dokumentu MS Word Formát souboru MS Excel Formát souboru MS Excel Právní doložka V přílohách uvedené výřezy dokumentů slouží výhradně k demonstraci vizuálního uspořádání dokumentů a jejich užití pro jakýkoliv jiný účel je přísně zakázáno. 9