Jak na paralelní texty s programem ParaConc



Podobné dokumenty
7. Nástroje. 7.1 Pravopis. 7.2 Jazyk. Kapitola 7: Nástroje 47. Kontrola pravopisu

ÚPRAVA BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE

PŘÍRUČKA PRO REDAKTORY UNIVERZITY PARDUBICE

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

FORMÁTOVÁNÍ ODSTAVCE

Standardně máme zapnutý panel nástrojů Formátování a Standardní.

Uživatelský manuál. A3600 DL ( Data Download)

MANUÁL K OBSLUZE REDAKČNÍHO SYSTÉMU / wordpress

a autentizovaná proxy

Obsah. 1.1 Úvod do práce s autorským nástrojem ProAuthor 4

František Hudek. březen ročník

Instalace a popis programu

Tvorba článků na knihožroutu: Slovo úvodem... 2 Přihlášení... 3 Tvorba tabulky... 5 Vložení obrázků... 8 Vložení hypertextového odkazu...

Vzdělávání v egoncentru ORP Louny

Program je určen pro děti se specifickými poruchami učení.

MS Word základy. Úvod do MS Word. Nový dokument. Vytvoření zástupce programu na ploše. Otevření dokumentu a popis prostředí: Ukládání souboru:

Rámcový manuál pro práci s programem TopoL pro Windows

KAPITOLA 3 - ZPRACOVÁNÍ TEXTU

INFORMATIKA. aplikační software pro práci s informacemi PRAŽSKÝ HRAD. Pracovní list pro žáky. Gymnázium K. V. Raise, Hlinsko, Adámkova 55

BMOF011 Aplikace MS Office (jaro 2013) Microsoft Word 2007

Import a export dat EU peníze středním školám Didaktický učební materiál

Univerzita Jana Evangelisty Purkyně v Ústí nad Labem. Jak na PDF

NOVÁ VERZE OBD A JEJÍ VYUŽÍVÁNÍ Ing. Martina Valášková

Manuál k aplikaci SDO PILOT v.0.2

Analýza dat na PC I.

Jak připravit žákům trenažer pro cvičení jednoduchých dovedností

Microsoft Word 2007 Pokročilí

Základní škola Hluk výukové texty MS Word 2007

Měření odporu spouště v1.0. návod k obsluze

Gymnázium Jana Pivečky a Střední odborná škola Slavičín. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Informační a komunikační technologie

MANUÁL VERZE 4.3 V

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT EU-OVK-VZ-III/2-ZÁ-201

Tabulkové processory MS Excel (OpenOffice Calc)

Microsoft. Word. prostředí, základní editace textu. Mgr. Jan Veverka Střední odborná škola sociální Evangelická akademie

Základní prvky internetového prohlížeče Explorer Google Chrome Mozilla Opera

Kurz Word 2000 Odrážky a číslování Kurz Word 2000 Odrážky a číslování Oddíly Záhlaví a zápatí

PRÁCE S DOKUMENTEM. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: srpen Ročník: šestý. Vzdělávací oblast: Informatika a výpočetní technika

Word 2007 Word 2007 egon. Spuštění, vzhled, zobrazení dokumentu

INSTALACE DATABÁZE ORACLE A SYSTÉMU ABRA NA OS WINDOWS

Vítězslav Bártl. září 2012

Konfigurace pracovní stanice pro ISOP-Centrum verze

Vítejte v průvodci instalace a ovládání výukového softwaru edu-learning pro českou verzi Microsoft Office 2007.

Uživatelská příručka

tohoto systému. Můžeme propojit Mathcad s dalšími aplikacemi, jako je Excel, MATLAB, Axum, nebo dokumenty jedné aplikace navzájem.

Instrukce k provádění QA kontrol pro překladatele a korektory

Popis změn verze

Stručný návod k obsluze programu

ÚPRAVA BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE

GOODWILL vyššší odborná škola, s. r. o. P. Holého 400, Frýdek-Místek

FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE

Popis postupu při zpracování atletických závodů dle programu ATLETICKÁ KANCELÁŘ ( Manuál II.část )

Kapitola 11: Formuláře 151

K 2 - Základy zpracování textu

Uživatelský manuál Radekce-Online.cz

Office podrobný průvodce. Tomáš Šimek

Použití databází. Mnoho postupů, které si ukážeme pro prací s formulářů využijeme i při návrhu tiskových sestav.

Microsoft Word základní úpravy textu

Instrukce k provádění QA kontrol pro překladatele a korektory

Úvod...12 Součásti aplikace Použité konvence... 13

SPZ Uživatelská příručka

Číslo a název šablony III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

METROLOGIC INSTRUMENTS, INC. OPTIMIZER UŽIVATELSKÁ PŘÍRUČKA

DUM 01 téma: Obecné vlastnosti tabulkového editoru, rozsah, zápis do buňky, klávesové zkratky

Word podrobný průvodce. Tomáš Šimek

PowerSwitch ver. 1.6

Parametrizace, harmonogram

Střední škola informačních technologií a sociální péče, Brno, Purkyňova 97. Vybrané části Excelu. Ing. Petr Adamec

Tvorba webových stránek

Vkládání prvků do dokumentu MS Word

Software FluidDraw přehled dodávek

1 - Prostředí programu WORD 2007

Manuál k aplikaci WANAS

František Hudek. červen ročník

BankKlient. FAQs. verze 9.50

5 Tabulky a seznamy dat Příklad 3 Excel 2010

Gabriela Janská. Středočeský vzdělávací institut akademie J. A. Komenského

Funkce Chytrý dotyk. verze 1.4. A-61629_cs

Přímý kanál pro obchodníky - Informace pro příjemce platebních karet

MS Word. verze Přehled programů pro úpravu textu

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová Ing. Miloš Uldrich

Návod na práci s redakčním systémem webu VPŠ a SPŠ MV v Praze

Práce se styly 1. Styl

Kapitola 1: Úvodní strana PARTICLER

MS Wodrd pro pokročilé

Obsah. Úvod Co je KORG KONTROL Editor?... 2 Požadavky na systém... 2 Instalace... 3

Projekt Vzdělávání dotykem CZ.1.07/1.3.00/ WORD 2013 práce s textovými soubory. Autoři: Jan Heller a David Peterka

NEJOBECNĚJŠÍ POSTUPY. STUDENTI SI SÁM ZKOUŠÍ RŮZNÉ VARIANTY PROBÍRANÉ LÁTKY. KONKRÉTNÍ PŘIPOMÍNKY POŠLETE NA

Metodický materiál. Cvičné příklady a témata pro soutěž OFFICE - ZŠ. Ing. Zdeněk Matúš, Mgr. Čestmír Glogar, 2015,

Automatický přenos dat z terminálů BM-Finger

Manuál: Editace textů v textovém editoru SINPRO Úprava tabulek a internetových odkazů, řádkování

Příklad bezprostředně navazuje na předchozí příklad č. 17. Bez zvládnutí příkladu č. 17 není možné pokračovat

Robot Lego Mindstorms NXT doplněný o kamerku a software v jazyce C#

Marek Laurenčík. Excel. práce s databázemi a kontingenčními tabulkami

Inovace výuky prostřednictvím šablon pro SŠ

Obsah. Seznam možných testů. Termíny úkolů

LabelShop 8. Stručná úvodní příručka. Quick Start Guide

Pro označení disku se používají písmena velké abecedy, za nimiž následuje dvojtečka.

TVORBA VÝROBNÍ DOKUMENTACE

Transkript:

Jak na paralelní texty s programem ParaConc verze 0.3 Alexandr Rosen alexandr.rosen@ff.cuni.cz 14. dubna 2005 1 ParaConc základní údaje program pro vytváření a prohlížení paralelních korpusů pro systém MS Windows http://www.athel.com/para.html příručka (anglicky): http://www.athel.com/paraconc.pdf 2 Instalace Předpoklady: operační systém MS Windows 95 a vyšší (včetně XP). Při instalaci ve Windows 95 je třeba minimálně 16 MB RAM, jinak 32 MB. Pro uložení vytvořeného korpusu, zpracovaného programem ParaConc, je třeba na disku prostor 2 20 MB, případně více. Soubor o velikosti asi 1,4 MB zkopírujeme kamkoli na disk (nejlépe do složky Program Files, se zástupcem na ploše). S poděkováním Martinu Sváškovi za cenné připomínky. 1

3 Můj první paralelní korpus Následuje návod, jak programem ParaConc vytvořit paralelní korpus co nejjednodušším způsobem. Postup předpokládá jednu z typických situací: máme k dispozici dva soubory ve formátu MS Word (text a jeho překlad) a pracujeme na počítači se systémem MS Windows (ověřeno pro verzi XP) a s editorem MS Word (ověřeno pro verze 2000, 2002, 2003). 3.1 Kontrola formátování Některé texty nejsou v takovém formátu, aby je bylo možné v programu ParaConc bez úprav použít. To se týká zejména nevhodně umístěných znaků konce odstavce, tabelátorů, mezer apod. Znak konce odstavce by měl v souborech oddělovat odstavce, nadpisy, položky seznamů apod. Může oddělovat i jednotlivé věty. 1 Neměl by ale oddělovat jednotlivé řádky. Chybně formátovaný text, kde znak konce odstavce leží uprostřed věty, je většinou výsledkem převodu textu z jiného formátu, který není určen pro další zpracování (pdf, HTML). Stejně tak by se uprostřed věty neměly nacházet tabelátory a mezery. Postup: 1. Otevřeme soubor v programu MS Word. 2. V nabídce na horní liště klepneme levým tlačítkem myši na Nástroje, pak na Možnosti. Vybereme kartu Zobrazení a v části Značky formátování zaškrtneme políčka Znaky tabulátoru a Konce odstavců. Výběr potvrdíme tlačítkem OK. 3. Zkontrolujeme, zda znak konce odstavce, zobrazený jako symbol, není uprostřed věty. Může stát pouze na konci věty, odstavce, nadpisu, položky výčtu nebo na prázdném řádku. 4. Podobně zkontrolujeme, zda někde uprostřed věty nestojí znak tabulátoru, zobrazený jako. Slova by od sebe neměla být oddělena víc než jednou mezerou. 5. Nevhodně umístěné znaky lze odstranit pomocí volby Úpravy/Nahradit/Více/Formát/Speciální/... 1 Pokud nechceme dělení na odstavce ignorovat, je třeba pak odstavce vyznačit jiným způsobem, např. značkami. 2

3.2 Konverze do textového formátu Z formátu MS Word (.doc) musíme oba soubory převést do textového formátu (.txt) v kódování Unicode UTF-8. Postup: 1. Otevřeme soubor v programu MS Word. 2. Klepneme na Soubor/Uložit jako. 3. V okénku Typ souboru vybereme možnost, která závisí na verzi editoru Word: Word 2000: Kódovaný text (*.txt) Word 2002/2003: Prostý text (*.txt) a Jiné kódování 4. Klepneme na Uložit. 5. Na dotaz Styly, obrázky a jiné formátování nelze uložit jako Kódovaný text. Chcete soubor... v tomto formátu uložit? odpovíme klepnutím na Ano. 6. Objeví se okno Převod souboru. Na výzvu Zvolte kódování pro uložení tohoto souboru zareagujeme zaškrtnutím možnosti Jiné kódování a v rámečku vpravo vybereme možnost Kódování Unicode (UTF-8). V rámečku Náhled: by se měl objevit text se správnými znaky. 7. Klepneme na tlačítko OK. 3.3 Označení struktury textu Před načtením textů do programu ParaConc je často vhodné v nich označit hranice sekcí (kapitol, oddílů), odstavců a vět. Toto označení se pak zachová i v souborech, které z programu ParaConc exportujeme. K označení hranic mezi úseky textu (zejména odstavci a větami) lze použít různé programové nástroje.!!! sem doplnit doporučení Jsou-li hranice mezi úseky textu vyznačené jen znaky konce odstavce ( ), při exportu (File/Export Corpus Files) je třeba zvolit možnost Alignment Style: Tags. Jinak se informace o struktuře textu ztratí. 3

3.4 Načtení textů do programu ParaConc Předpokládáme-li, že paralelní texty jsou už zarovnány po odstavcích nebo po větách pomocí znaků konec odstavce, je vhodné před jejich načtením ověřit, že obsahují stejný počet odstavců. Lze tak učinit například ve Wordu pomocí volby Nástroje/Počet slov (zobrazí se i údaj o počtu odstavců). Zvolíme-li při načítání možnost, že soubory už jsou zarovnané, ParaConc nás na nestejný počet odstavců (případně vět) neupozorní. Zvolíme-li při načítání možnost, že soubory zarovnané nejsou, ParaConc při nestejném počtu odstavců (vět) oznámí chybu. V obou případech máme možnost dělení na odstavce (věty) v ParaConku opravit. 1. Spustíme program ParaConc. 2. Klepneme na File/Load Corpus File(s). 3. Objeví se okno Load Corpus Files. 4. Počet paralelních textů v okně Parallel texts ponecháme na hodnotě 2. 5. Nejprve vybereme parametry prvního souboru: (a) Nastavíme jazyk. Pokud příslušný jazyk mezi nabízenými možnostmi nenajdeme, je třeba příslušné národní prostředí do systému doinstalovat. (Vložíme instalační CD systému Windows do mechaniky, klepneme na Start/Nastavení/Ovládací panely/místní nastavení a dále postupujeme podle pokynů.) (b) Po klepnutí na tlačítko Font vybereme písmo. Vhodné písmo může být např. Arial. Je velmi důležité zvolit správný Script. Např. pro západoevropské jazyky zvolíme Western, pro češtinu Central European. Není-li v nabídce vhodný skript, zvolíme jiné písmo a tento krok zkusíme znovu. (c) Volba Format závisí na formátu zarovnávání (Align format). i. Jsou-li texty už zarovnané (Align format: New line delimiter, Delimiter nebo Start/stop tags), stačí po klepnutí na tlačítko Format zadat pouze způsob rozpoznání hranic mezi větami: Při volbě Automatic recognition se konec věty určuje na základě interpunkce; při volbě HTML/SGML Markers se předpokládá, že každá věta je v textu vyznačena značkami, např. takto: <s>toto je první věta.</s> <s>toto je druhá věta.</s>. 4

Do políčka Start tag pak zapíšeme s, do políčka Stop tag zapíšeme /s. ii. Pokud texty zarovnané nejsou (Align format: Not aligned), je třeba po klepnutí na tlačítko Format zadat způsob, jak rozpoznat hranice mezi většími úseku textu sekce (kapitoly, oddíly), odstavci i větami. U kratších textů lze ponechat nastavení Headings: HTML/SGML Markers s nevyplněnými políčky Start tag a Stop tag (text se pak na sekce nedělí, celý se považuje za jedinou sekci). Jsou-li odstavce oddělené znakem konce odstavce, ponecháme Paragraphs: New Line Delimited. Určení způsobu oddělování vět (Sentences) je popsáno výše v bodě 5(c)i. (d) Klepneme na tlačítko Add a vybereme správný soubor. (e) Klepneme na jméno souboru v okně Load Corpus Files a klepnutím zaškrtneme UTF-8 (soubor je ve formátu Unicode UTF-8). 6. Body 5a až 5e zopakujeme pro druhý soubor. 7. Klepneme na tlačítko OK. 3.5 Úpravy segmentace a zarovnání Po klepnutí na tlačítko OK v okně Load Corpus Files se může objevit chybové hlášení o tom, že počet sekcí nebo odstavců se v obou textech liší. V takovém případě soubory nelze zarovnat a chybu je třeba opravit. 2 Postup 1. V okně Error klepneme na tlačítko Fix. 2. Objeví se dvě tabulky o dvou sloupcích. Jedna udává členění textů na sekce, druhá na odstavce. Je-li chyba v různém počtu odstavců, je navrchu tabulka s odstavci v příslušné sekci. Skládá-li se odstavec z více vět, jsou tyto věty odlišeny barevně. (Dělení na věty nemusí být vždy správné, je to výsledek dělení odstavce na věty podle zadaných kritérií.) 3. Najdeme v tabulce místo, kde na jedné straně text končí (zbývá prázdné místo), zatímco druhý sloupec pokračuje dalšími větami nebo odstavci. 2 Poznámka: Pokud jsme při načítání souborů uvedli, že jsou již zarovnané (Align format: New line delimiter, Delimiter nebo Start/stop tags), počet sekcí a odstavců se nekontroluje a rovnou se zobrazí tabulka odpovídající zarovnaným souborům. Buňky tabulky ( segmenty ) i předpokládané věty v rámci buněk lze rozdělovat a spojovat, ale věty už nelze zarovnávat automaticky (volba File/Align corpus není dostupná.) 5

Klepneme pravým tlačítkem myši na první písmeno přebývajícího textu a z místní nabídky vybereme Split paragraph (nebo Split current section, opravujeme-li dělení na sekce). Totéž opakujeme tak dlouho, až si odstavce (sekce) navzájem odpovídají. 4. Okna s tabulkami zavřeme. 5. Klepneme na File/Align Corpus. 6. Klepneme na File/View Corpus Alignment. 7. Objeví se okno Select Files to View. Klepneme na soubory, které se mají zobrazit, a pak na tlačítko Alignment. 8. Opět se objeví dvě okna, tentokrát lze v okně Alignment prohlížet a opravovat zarovnání nejen na odstavce (Alignment/Paragraphs), ale i na věty (Alignment/Aligned Sentences). (Nabídka Alignment se objeví na horní liště po klepnutí na okno Alignment. 9. Zarovnané věty lze rozdělovat nebo spojovat po klepnutí pravým tlačítkem myši do příslušného pole tabulky a volbě možnosti Split segment (věta se rozdělí v místě kurzoru) nebo Merge with Next Segment, případně Merge with Previous Segment. Jiným způsobem text upravovat nelze. 10. Zarovnanou tabulku zavřeme a práci si uložíme: File/Save Workspace. Příště už nemusíme soubory znovu načítat a zarovnávat, ale stačí uložený korpus otevřít (File/Open Workspace...). 3.6 Export textů Paraconc obsahuje funkci pro export textů korpusu: File/Export Corpus Files. V současné verzi (269) se texty ukládají v kódování ANSI, kódování UTF-8 nelze použít. Při exportu textů, v nichž jsou odstavce, případně i věty, oddělovány znakem konce odstavce, je vhodné zvolit možnost Alignment Style: Tags, jinak se informace o struktuře textu ztratí. Exportované texty lze do programu ParaConc znovu načíst jako zarovnané. 6