Data mining pro překlady pomocí CAT nástrojů Radim Kroutil překladatel anglického jazyka s praxí od roku 1994 Září 2013 Dokumenty formátu PDF jsou standardem pro přenos informací a dokumentů, aniž by došlo k narušení vizuálního vzhledu dokumentů převedených do PDF. Text, obrázky, grafika apod. se v dokumentech PDF uzamknou a až na menší výjimky popsané níže, které jsou ale pro účely překladů zanedbatelné, není možné dokumenty PDF jakkoliv upravovat. Tento dokument popisuje situace, se kterými se překladatel běžně setkává při výkonu své práce. Jde především o takzvaný data mining, čili vytěžování dat, z PDF souborů, zejména textu, který poté překladatel importuje do CAT nástroje, ve kterém již pracuje čiště s textem, jehož formátování je omezeně vyznačeno formátovacími značkami. Rozdělení vstupních dokumentů 3) Zdrojové dokumenty v PDF s obsahem získatelným pouze s OCR. V zásadě je možné podklady pro data mining rozdělit do tří skupin: DOCX, XLSX, PPT, HTM, TXT, JS a další PDF 1) Zdrojové dokumenty nejvyšší kvality 2) Zdrojové dokumenty v PDF s obsahem získatelným bez OCR Vykopírovatelný PDF Nevykopírovatelný PDF Hodnocení kvality vstupních dokumentů U každé skupiny uvádím subjektivní hodnocení použitelnosti pro CAT, možnost poskytnutí slevy a náročnosti na úpravy po překladu v CAT. Pokud jde o použitelnost pro CAT, hodnotí se především to, zda se po načtení do CAT vytvoří úplné segmenty oddělené oddělovači nastavenými v CAT. CAT nástroje pro dělení textu do segmentů používají jako oddělovač tečku, vykřičník, otazník; překladatel může zvolit i jiné znaky v závislosti na struktuře vstupního textu (dvojtečku, středník apod.). Jedna věta rozdělená 1 do dvou segmentů je nežádoucí. Příklad: Engine coolant temperature sensor. Pokud CAT načte tuto větu do jednoho segmentu, je vše v pořádku. Pokud ale vytvoří segmenty dva, například Engine coolant temperature a sensor, jedná se již o závadu s dopadem na kvalitu překladové paměti, protože český překlad by měl znít Snímač teploty chladicí kapaliny motoru. Překladatel by měl tedy do jednoho segmentu napsat Snímač teploty chladicí kapaliny a do druhého motoru. Je nabíledni, že u obou segmentů dochází k zadání nesprávného překladu do paměti. CAT nástroje umožňují spojování dvou segmentů do jednoho, nicméně tato funkce se mi u některých CAT nástrojů neosvědčila.
Pokud jde o možnost poskytnutí slevy za opakování, hodnocení je velice orientační. Do možnosti poskytnutí slevy mluví mnoho faktorů: cena za překlad, důležitost zákazníka, velikost zakázky, jak složité je opakovaný text přeložit (zda zcela automaticky nebo s vynaložením úsilí) a další. Pokud by se věta Engine coolant temperature sensor objevila v CAT nástroji znovu, avšak nyní již správě jako jeden segment, tak z hlediska zákazníka je to opakování, nicméně s takovým opakováním má již překladatel práci. Taktéž, pokud by se objevila znovu ve dvou segmentech, jako např. Engine coolant a poté temperature sensor. Náročnost na úpravu textu po překladu v CAT hodnotí, do jaké míry musí překladatel věnovat (s výjimkou kontrolního čtení, oprav překlepů, oprav terminologie apod.) svůj čas na to, aby uvedl vizuální stránku dokumentu do přijatelné podoby, nejlépe do podoby odpovídající originálu. U hodnocení platí, že tři hvězdičky je nejvhodnější a jedna hvězdička je nejméně vhodné. 1) Zdrojové dokumenty nejvyšší kvality Zdrojové dokumenty nejvyšší kvality jsou ty dokumenty, které byly vytvořeny člověkem při práci s příslušnou aplikací (např. dokument DOCX v MS Word, dokument XLSX v MS Excel, dokument pages v Pages apod.) při dodržení základních typografických pravidel (automatické zalamování na konci řádku namísto stlačení klávesy enter na konci řádku, používání tabulátorů a odsazení namísto opakovaného mačkání mezerníku apod.). Překladatel nemusí provádět žádnou významnou přípravu textu k překladu pomocí CAT před překladem a ani žádné výrazné grafické úpravy po překladu. Použitelnost pro CAT: Možnost poskytnutí slevy: Náročnost na úpravy: [ Stručně o dokumentech formátu PDF Dokumenty PDF nelze v CAT nástrojích obecně zpracovávat přímo. Dokumenty PDF jsou určeny pouze ke čtení, jedná se o čistě výstupní formát. Existuje software s možností úprav jednotlivých slov, vkládání stránek, mazání stránek, vkládání poznámek, avšak přijatelný software k úpravě veškerého textu v dokumentu nikoliv. Chce-li zákazník přeložit PDF dokument, překladatel má dvě možnosti: převést PDF do DOC nebo vytvořit dokument zcela nově, ručně v aplikaci s konečným výstupem podle požadavku zákazníka. Pokud zvolí první volbu, použije k tomu převodní program (konvertor), kterých je na trhu spousta s různou kvalitou převodu. Na základě kvality PDF je nutné zvolit, zda se použije konvertor s funkcí OCR nebo bez funkce OCR. Při tvorbě zcela nového dokumentu použije obvykle MS Word, méně často MS Excel nebo MS PowerPoint či jiný formát (např. pages, numbers, keynote). 2 [
2) Zdrojové dokumenty s obsahem získatelným bez OCR Jedná se o dokumenty vyšší kvality. Výsledkem převodu je počítačem vytvořený DOC, který je formátován různými konvertory různě. Konvertory obvykle dodržují základní typografická pravidla, a proto jsou jako vstup pro CAT dokumenty DOC (a další) vhodné. Problém ale může nastat po překladu. Protože konvertory formátují text podle textu v PDF, nastavují různá odsazení zprava, zleva, délku stránky apod. podle délky slov, vět a odstavců výchozího jazyka. Protože mají různé jazyky různé délky slov, může být po překladu všechno jinak a v jazyce překladu je nutné někdy více, někdy méně provádět řadu úprav k dosažení uspokojivého vizuálního vzhledu. Pokud jsou v dokumentech fuzzy shody, překladatel musí s ohledem na slevu za opakování uvážit a zákazník akceptovat i případnou přirážku za práce související s převodem a úpravu vizálního vzhledu dokumentu po překladu. V příloze 2 je uveden příklad takového dokumentu včetně popisu úprav, které bylo nutné po překladu do češtiny provést. Rovněž je uveden příklad (Obrázek 2d) podkladu, který je vhodný tak maximálně do jedné stránky textu. Použitelnost pro CAT: Možnost poskytnutí slevy: Náročnost na úpravy: 3) Zdrojové dokumenty s obsahem získatelných pouze s OCR překlad po vizuální stránce nějakou štábní kulturu. Požadavek na slevu za opakování je akceptovatelný pouze u větších odstavců čistého a neformátovaného textu. Obecně, není-li práce zákazníkem zapla- Vynecháme-li papírový podklad k překladu, cena, věnování spousty času data miningu před jedná se o nejhorší možnou variantu pro překladem a úpravám po překladu se vyplatí tocena, zpracování v CAT. liko v případě potřeby vytvoření překladové paměti K vytěžení obsahu z PDF dokumentu je pro jisté budoucí zakázky totožného nutné použít technologii optického rozpoznávání charakteru. znaků (OCR) a výsledkem je DOC vytvořený počítačem. V příloze 3 je uveden příklad takového dovyžaduje, Na rozdíl od PDF, u kterých se OCR nekumentu včetně výsledného dokumentu po znač- toto zpracování vyžaduje většinou ných úpravách. úpravy grafického charakteru a i kontroly v případě, že dokument obsahuje číslice nebo se vyznačuje horší kvalitou vstupního textu, ještě před Použitelnost pro CAT: samotným zpracováním v CAT. Mnohokrát nejsou výstupy ani pro CAT použitelné a překladatel Možnost poskytnutí slevy: musí překládat dokument tak, jako kdyby byl podklad předán na papírovém médiu. Náročnost na úpravy: Pokud se přece jenom CAT použije, obvykle se vyžadují úpravy i po překladu, aby měl 3
Závěr Probloblematika překladů PDF souborů je složitá a neexistuje žádné řešení, které by vítězilo o dvě koňské délky nad ostatními. Ani v diskusích na profesních fórech překladatelů nejsou slyšet hlasy o kvalitním softwaru, který by umožňoval překládat PDF dokumenty přímo v CAT. Jedním řešením se může zdát Iceni Inifix, nicméně i to samo na svých stránkách s popisem funkce řešení obsahuje ve výsledném PDF souboru s překladem vizuální chybu. Co tedy s tím? Především je potřeba zdůraznit, že překladatel má právo na příplatek za přípravu PDF souborů před překladem a jejich úpravu po překladu. Jako neférový se mi jeví požadavek na slevu za opakování při zaslání PDF souboru, především je-li naskenovaný. Pokud zákazník potřebuje přeložený dokument pouze pro vlastní práci a nikoliv k externí prezentaci, zcela jistě mu bude postačovat jakýkoliv překlad, který je vizuálně jakž takž v pořádku. Pokud ale zákazník potřebuje překlad PDF souboru pro následnou prezentaci, jediným řešením je využít překladatele, který disponuje jak CAT nástrojem, tak i profesionálním DTP programem (InDesign, QuarkXPress), který dokáže nabídnout překlad a) rychleji, protože si upraví práci s překladem tak, aby výsledek překladu co nejlépe odpovídal požadavkům na vstup do DTP softwaru a b) levněji, protože není potřeba shánět grafické studio, které provede sazbu v DTP programu a navíc překladatel, který provádí i grafické zpracování v DTP, neúčtuje poplatek za manipulaci s PDF soubory před překladem, protože si zákazník kupuje dvě placené služby současně. Máte-li zájem o další informace, kontaktujte mne na 603 777 387 nebo prostřednictvím www.kroutil.cz. 4
Příloha 1 Zdrojové dokumenty nejvyšší kvality Obrázek 1a. Kvalitně připravný originál v DOC, nejlepší volba pro překlad v CAT Obrázek 1b. Výstup z CAT, žádných úprav netřeba; zákazník může žádat o slevu za opakování a solidní překladatel mu ji na vyzvání bez problémů poskytne 5
Příloha 2 Zdrojové dokumenty s obsahem získatelným bez OCR Obrázek 2a: Originál PDF, vykopírovatelný, bez použití technologie OCR Obrázek 2b: PDF po převodu do DOC pomocí Solid Documents 6
Příloha 2 Zdrojové dokumenty s obsahem získatelným bez OCR (pokračování) Text v záhlaví se převedl do textových rámečků, jejichž šířka je pro AJ v pořádku, pro češtinu už ne. Textová pole v záhlaví je potřeba změnit i opakovaně, protože po převodu do DOC vytvořil převodní program v dokumentu několik oddílů, pro které je záhlaví definováno vždy samostatně. Český text je delší než anglický. Převodní program nastavuje tvrdě hodnotu odsazení zprava, a tak se delší český text přelévá na další řádku. Obrázek 2c: Po překladu do češtiny, vyžaduje grafické úpravy popsané výše Obrázek 2d: Pouhé vykopírování a vložení do MS Word; k překladu v CAT pouze pro otrlé překladatele a na vizuální vzhled nedbající zákazníky 7
Příloha 3 Zdrojové dokumenty s obsahem získatelným pouze s OCR Obrázek 3a. Naskenovaný originál v PDF, nevykopírovatelný, středně špatná kvalita, na začátku dokumentu s ručními poznámkami Obrázek 3b. Po převodu v OCR softwaru od ABBYY, jeden z lepších a dražších, s ručně umazanými záhlavími a zápatími. Spousta chyb, ignoruje zarovnání do bloku, např. bod [0102] oproti originálu ignoruje horní index 1. Text vyžaduje intenzivní kontrolu buď před překladem nebo v průběhu překladu, což jej prodlužuje a prodražuje. 8
Příloha 3 Zdrojové dokumenty s obsahem získatelným pouze s OCR (pokračování) Obrázek 3c. Výsledek pro zákazníka Příloha 4 Vysvětlení zkratek PDF CAT OCR DOC DOCX XLS XLSX Portable Document Format, přenosný formát dokumentů Computer Aided Translation, počítačem podporovaný překlad Optical Character recognition, optické rozpoznávání znaků Formát souboru dokumentu MS Word Formát souboru dokumentu MS Word Formát souboru MS Excel Formát souboru MS Excel Právní doložka V přílohách uvedené výřezy dokumentů slouží výhradně k demonstraci vizuálního uspořádání dokumentů a jejich užití pro jakýkoliv jiný účel je přísně zakázáno. 9