SKENUJTE DOSTATEČNĚ SYTĚ A KONTRASTNĚ Vyhnete se tak mnoha zbytečným nepřesnostem při následném rozpoznávání znaků.



Podobné dokumenty
MS Word základy. Úvod do MS Word. Nový dokument. Vytvoření zástupce programu na ploše. Otevření dokumentu a popis prostředí: Ukládání souboru:

6. Formátování: Formátování odstavce

K 2 - Základy zpracování textu

Práce v programu Word 2003

Formát stránky, písma, odstavce Word 2007 egon. Formát stránky a písma, okraje, odstavce, oddíly

KAPITOLA 3 - ZPRACOVÁNÍ TEXTU

Počítačová typografie

Místo úvodu. Čeho se vyvarovat. Mazání znaků

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT

Manuál k editoru TinyMCE

Styly odstavců. Word Přiřazení stylu odstavce odstavci. Změna stylu odstavce

Obsah KAPITOLA 1 Několik slov o Wordu

Požadované dovednosti v ovládání textového procesoru Microsoft Word 2013 pro předměty VA1 a VT1

Manuál k tvorbě absolventské práce

Nástrojová lišta v editačním poli

Zpracování textu. K těmto speciálním symbolům se dostaneme přes záložku Vložení, na kartě Symboly je tlačítko Symbol.

Microsoft Office Word 2003

Formátování pomocí stylů

Kontrola pravopisu. Zpracování textu

ÚPRAVA BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE

ICT nás baví. Název projektu: ICT nás baví Registrační číslo: CZ.1.07/1.3.00/

1. Otevřete dokument, který chcete číst. 2. Na kartě Zobrazení klikněte ve skupině Zobrazení dokumentů na položku Čtení na celé obrazovce.

Kurz Word 2000 souhrnné opakování

Microsoft Office Word 2003

Pracovní list č. 7. Microsoft Word 2010 odrážky a číslování. Odrážky

Word textový editor. Tlačítko Office základní příkazy pro práci se souborem. Karta Domů schránka. písmo. vyjmout. vložit kopírovat.

EU-OPVK:VY_32_INOVACE_FIL16 Vojtěch Filip, 2014

Microsoft. Word. prostředí, základní editace textu. Mgr. Jan Veverka Střední odborná škola sociální Evangelická akademie

Úvodní list. Název školy Integrovaná střední škola stavební, České Budějovice, Nerudova 59 Číslo šablony/ číslo sady Poř. číslo v sadě 19 32/10

Formátování odstavce, odrážek a číslování Návod a náhled správného řešení

ZŠ ÚnO, Bratří Čapků 1332

Základní škola Hluk výukové texty MS Word 2007

Microsoft. Word. Styly použití a definování. Mgr. Jan Veverka Střední odborná škola sociální Evangelická akademie

OpenOffice Writer, zkratkové klávesy (výběr) Vytvořil: Mgr. et Mgr. Martin Hladký, Ph.D. Datum: 9. ledna

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Dokument a jeho části oddíly, záhlaví, zápatí

INFORMATIKA WORD 2007

KAPITOLA 4 ZPRACOVÁNÍ TEXTU

Změna velikosti písmen

Obsah, oddíly, záhlaví a zápatí, číslování stránek Word egon. Obsah dokumentu, oddíly, záhlaví a zápatí, číslování

ZARÁŽKY A TABULÁTORY V MS OFFICE WORD

METODICKÝ POKYN PRÁCE S MS Word MÍRNĚ POKROČILÍ. Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.

Úprava stránek. Obsah 1. Popis ikon editoru použitých v šabloně 2. Psaní a formátování textu pro web 3. Odkazy 4. Tabulky 5. Obrázky 6.

Práce se styly 1. Styl

Úvod. Možnosti. Typ otázky r : Tuto možnost zvolte, pokud chcete převádět otázky s právě jednou správnou

MS Word. verze Přehled programů pro úpravu textu

STANDARDNÍ APLIKAČNÍ VYBAVENÍ

Microsoft Office PowerPoint 2003

INFORMATIKA 5. ROČNÍK TABULKY PROCVIČOVÁNÍ

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Základní nastavení textového editoru Word 8.0 (Microsoft Office 97)

Sada 2 Microsoft Word 2007

INFORMATIKA MS WORD TVORBA VLASTNÍHO STYLU

Formátování obsahu adminweb

INTERSTENO 2011 Paris World championship professional word processing

ZÁKLADY POŘIZOVÁNÍ TEXTU

aplikační software pro práci s informacemi

INFORMATIKA. aplikační software pro práci s informacemi TSUNAMI. Pracovní list pro žáky. Gymnázium K. V. Raise, Hlinsko, Adámkova 55

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Textové editory. Ing. Luděk Richter

Otázky neopisuj, piš odpověď!

G-Client. Import adresáře do aplikace

Microsoft Office. Word vzhled dokumentu

Vkládání prvků do dokumentu MS Word

T Y P O G R A F I E. Tvorba textových dokumentů

pro začátečníky pro pokročilé na místě (dle požadavků zákazníka)

Nástroje v InDesignu. Panel nástrojů 1. část. Nástroje otevřeme Okna Nástroje

OpenOffice.org, Writer

INFORMATIKA. aplikační software pro práci s informacemi ŠŤASTNÁ PLANETA. Pracovní list pro žáky. Gymnázium K. V. Raise, Hlinsko, Adámkova 55

Příprava dokumentů textovým procesorem II.

Číslo a název šablony III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

WORD 2007 grafický manuál

Konvertor diakritiky 3. Instalace

Textové podklady pro PC kurzy pořádané. ALTUS Training Center s.r.o / I.

Gymnázium a Střední odborná škola, Chomutovská 459, Klášterec nad Ohří ÚPRAVA SEMINÁRNÍCH PRACÍ

PDF Creator. Instalace tiskárny pro převod dokumentů do PDF

Sada 2 Microsoft Word 2007

Návod k aplikaci DPH Kontrol

EU-OPVK:VY_32_INOVACE_FIL19 Vojtěch Filip, 2014

Informace o zdroji učebního textu a poučení o jeho užívaní. Petr Broža, Libor Kříž, Roman Kučera, Pavel Nygrýn

Pracovní list VY_32_INOVACE_33_20 Databáze Databáze Databáze Projekt II. Ing. Petr Vilímek

INTERSTENO 2013Ghent Mistrovstvísvta v profesionálním word processingu

Inovace výuky prostřednictvím šablon pro SŠ

Pracovní list VY_32_INOVACE_33_19 Databáze Databáze Databáze Ing. Petr Vilímek

Microsoft. Word. Hromadná korespondence. Mgr. Jan Veverka Střední odborná škola sociální Evangelická akademie

GOODWILL vyššší odborná škola, s. r. o. P. Holého 400, Frýdek-Místek

Úvodní list. Název školy Integrovaná střední škola stavební, České Budějovice, Nerudova 59 Číslo šablony/ číslo sady 32/10. Poř.

Textový editor MS Word

Sada 2 Microsoft Word 2007

INFORMATIKA. aplikační software pro práci s informacemi ODRÁŽKY A ČÍSLOVÁNÍ. Pracovní list pro žáky. Gymnázium K. V. Raise, Hlinsko, Adámkova 55

Word základní ovládání a práce v programu I.

Tisk map z LPIS - rozšířené

Osnova kurzu OBSLUHA PC ZÁKLADNÍ ZNALOSTI. pilotního projektu v rámci I. Etapy realizace SIPVZ

Hodina 6 Stáhni a otevři dokument

ZÁKLADY PRÁCE S PC MS Word. Mgr. Petr Jakubec

Výkresy. Projekt SIPVZ D Modelování v SolidWorks. Autor: ing. Laďka Krejčí

WORD. (zobecněno pro verzi 2007)

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

Formuláře. Téma 3.2. Řešený příklad č Zadání: V databázi formulare_a_sestavy.accdb vytvořte formulář pro tabulku student.

Zá klády prá ce se styly

Transkript:

OCR Fine Reader Převod skenovaných stránek knih do znakové podoby wordovského souboru probíhá při použití OCR programu Fine Reader v následujících krocích: Sken Převod na písmena (číst) Převod do Wordu Úprava ve Wordu Při tomto procesu dochází k různým nepřesnostem, které je pak třeba ručně odstraňovat ve výsledném dokumentu. Tyto nepřesnosti jsou dvojího druhu. A. Do první kategorie patří nepřesná interpretace neostře vytištěných, slitých či zašpiněných znaků (interpret Fine Readru nerozpozná v bitmapě přesně příslušné písmeno nebo je interpretuje kupříkladu jako písmeno kurzivní místo písmeno v obyčejném řezu). S tímto druhem chyb se nedá moc dělat, pouze se můžete pokusit nastavit jiný jas či kontrast při skenování. Tyto chyby je pak třeba v textu jednu po druhé najít a ručně opravit. B. Druhou kategorii tvoří chyby systematické. Do tohoto okruhu patří následující typy chyb: 1. V českém textu (český jazyk) se chybně analyzují přehlásky (ä, ü, ö). 2. Při převodu se systematicky díky zabudovanému slovníku chybně interpetují některá slova (např. slovenské slovo ocko se objeví jako očko). 3. Jednotlivé verše se slijí do jednoho odstavce. 4. Na konci některých řádků se bůhvíproč objeví ruční zalomení řádku 5. Uvozovky a jednoduché uvozovky se převádí na horní rovné uvozovky, resp. čárku a apostrof. 6. Pomlčky se interpretují jako diviz nebo naopak dlouhá pomlčka. 7. Je-li pomlčka na začátku odstavce (někteří autoři tak uvozují přímou řeč), objeví se ve wordovském textu odstavec s odrážkou, nikoliv však samotný znak pomlčky. 8. Trojtečka je interpretována jako 3 tečky. Některé z uvedených systematických chyb lze odstranit volbou správného režimu převodu bitmapy na písmena (1. a 2.) nebo režimu převodu textu do Wordu (3. a 4.), jiné pak standardními hromadnými úpravami výsledného textu ve Wordu (4. 8.). Dále naleznete tipy pro uvedených obtíží. TIPY PRO SKENOVÁNÍ ROZDĚLENÍ DVOUSTRAN (při skenování rozevřených knížek) Nástroje Možnosti Skenovat/otevřít obrázek zaškrtnout Rozdělit dvojstrany SKENUJTE DOSTATEČNĚ SYTĚ A KONTRASTNĚ Vyhnete se tak mnoha zbytečným nepřesnostem při následném rozpoznávání znaků. RADĚJI SI VYZKOUŠEJTE CELÝ POSTUP skenu, rozpoznávání a převodu na několika málo stránkách. Ušetříte si tak zbytečný nový sken nebo spoustu úmorné práce při následném ručním odstraňování zbytečných chyb. Sledujte při tom zejména: Jak se převádějí akcentovaná písmena (zejména ú, ů, é, ě, ď, ť) Jak se převádějí přehlásky Zda se nekomolí slova Jak se zalamují řádky (případně verše) Jak se zachovává kurziva a tučný řez. V případě nedostatečnosti konverze zkuste zvýšit jas či kontrast skenování, eventuálně nastavit jiný režim rozpoznávání a převodu (viz. dále). 1

TIPY PRO ČTENÍ A PŘEVOD PŘEHLÁSKY VYTVOŘ NOVÝ JAZYK (ČESKÝ S PŘEHLÁSKAMI) Nástroje Možnosti Rozpoznávání Editovat jazyky Nový Vytvořit nový jazyk na základě existujícího jazyka Český OK Zvol jméno nového jazyka (Český s přehláskami). Následně specifikuj novou sadu rozpoznávaných znaků: Můžeš také zvolit, zda používat či nepoužívat slovník. Zvolíš-li Slovník: Žádný, neuplatní se při analýze slovník a Fine Reader si nebude vymýšlet a komolit slova. Nebude ale ani opravovat případné chyby. Klikni na tlačítko na konci řádku Abeceda. V okně s abecedou klikni na přehláskové znaky (tím je vybereš) a nakonec potvrď kliknutím na OK Zavři klávesou OK i okno Základní vlastnosti jazyka a klávesou Ukončit i Editor jazyka Definování nového jazyka platí pouze v aktuální dávce. Proto je třeba ji uložit, čímž se uloží i všechny její vlastnosti (a tedy i nový jazyk): V poli volby jazyku (na Standardní liště) zvol nový jazyk (Český s přehláskami) a ulož dávku: Soubor Uložit Dávku Kdykoliv v budoucnu budete potřebovat rozeznávat i přehlásky, otevřete uloženou dávku, zvolte příslušný jazyk (Český s přehláskami) a dál už pokračujte skenováním atd. 2

ZVOLTE SPRAVNÝ REŽIM FORÁTOVÁNÍ při převodu textu z Fine Readru do Wordu Zachování formátování stránky zachovává všechny formátové atributy, vertikální vzdálenost mezi odstavci řeší jako proklad (nikoliv prázdný odstavec). Může však špatně řešit odrážky (jako odstavce s odrážkou a nikoliv samostatné znaménko) a pomlčky. Každá stránka je samostatný oddíl (s vlastním zrcadlem tisku, počtem sloupců atd.). Často bývá problém s verši, které spojí do jedné nudle. Občas z nejasného důvodu končí sadu řádek ručním zalomením řádku (^l = Shift+Enter). Tento režim bývá výhodný spíše pro skenování menšího počtu stránek bez veršů a pomlček na začátku odstavců. Zachování typu písma zachová atributy písma (tučné, kurziva ), ne však atributy odstavců. Stránky jsou spojené do jednoho oddílu (je při kontrole třeba hledat jejich konce). Celá dávka je transformována do jednoho oddílu. Tento režim zvolte, chcete-li použít naskenovaný text k novému zlomu! Odstranit formátování zmizí veškeré atributy textu a jednotlivé řádky jsou ukončeny koncem odstavce. (Používej zejména pro verše: každý řádek zakončí koncem odstavce.) 3

ČTENÍ VERŠŮ Nastav režim zachování oddělených řádků (případně i zalomení stran) Ctrl+Shift+X (nebo Nástroje Nastavení formátů nebo Možnosti Formátování Nastavení formátů ) a zaškrtni příslušný režim Zachovat oddělovače řádků event. Zachovat zalomení stránky. Před následným čtením odstavců nezapomeň opět tento režim vypnout. Nejpříhodnější je patrně kombinace Možnosti Rozpoznávání Jednotlivý sloupec a Nastavení formátů Zachovat oddělovače řádků + Zachovat zalomení stránky. V tomto případě budou jednotlivé verše končit povelem nové řádky (^l) a sloky (následované prázdným řádkem) znakem nového odstavce (^p). Následně lze doupravit ve Wordu (^p ^p^p a ^l ^p). Jiná možnost, jak číst verše, je nastavit režimy: Možnosti Rozpoznávání Typ dokumentu: Jednoduchý text formátovaný s mezerami Nastavení formátů Zachovat oddělovače řádků + Zachovat zalomení stránky V tomto případě se nezachovají tučné a kursivní řezy. Zařídíte-li však, aby se bloky textu prostíraly přes celou stránku (a nejen přes jednotlivé sloky, přičemž by se vynechaly prázdné řádky), bude každá verš ukončen koncem odstavce a prázdné řádky budou prázdné odstavce. Bloky textu se mohou shodně nastavit na všech stránkách takto: Máš-li už nastavené nějaké bloky textu, vymaž je: vyber příslušné stránky a pak: Dávka Vymazat bloky a text (nebo Ctrl+Del) Nastav příslušný blok na jedné stránce. Ulož tento blok: Obrázek Uložit bloky a ulož si jej rozvržení bloků pod nějakým jménem. Zkopíruj blok do všech dalších vybraných stran: Obrázek Načíst bloky 4

TIPY PRO ÚPRAVU VE WORDU Chcete-li použít text pro nový zlom, odstraňte raději všechny pozůstatky dřívějšího formátování: různé velikosti písma, odsazení, zarovnání atd. (to vše se provede v rámci zlomu), odstraňte tabulátory, alespoň ze začátků odstavců. Vertikální odsazení odstavců řešte raději dodatečným ručním vložením prázdného odstavce. Proveďte proto následující akce: Sjednoť okraje stránek: spoj vše do jednoho oddílu tím, že nahradíš konce oddílu konci stránek: ^b ^m (důležité zejména v režimu Zachovat úplné uspořádání stran) Sjednoť písmo (např. na Times 12 ): Vyber vše (Ctrl+A) Formát Písmo Proložení znaků Měřítko: 100%, Mezery: normální, Umístění: normální) Sjednoť odstavce do stejné podoby (vyber vše Ctrl+A, pak Formát Odstavec Řádkování: 1, Před:0, Za: 0). Pak přesuň zarážky na měřítku tak, aby první řádek odstavce začínal asi o 5 mm vpravo a konec odstavce se kryl s koncem zrcadla. Odstraň tabulátory ze začátku odstavců: ^p^t ^p Dále proveďte následující standardní literní záměny: Odstraň náhodně vzniklá ruční zalomení řádek: ^l mezera Odstraň mezery ze začátku odstavce: ^p mezera ^p Uvozovky: " " Pravá jednoduchá uvozovky: Alt+39 mezera Alt+0145 mezera (s vypnutou náhradou automatické náhrady rovných uvozovek oblými Nástroje Možnosti automatických oprav a dále viz. obrázek) Levá jednoduchá uvozovka: mezera čárka mezera Alt+0130 (s vypnutou náhradou automatické náhrady rovných uvozovek oblými Nástroje Možnosti automatických oprav a dále viz. obrázek) Apostrofy: Alt+39 Alt+0146 (s vypnutou náhradou automatické náhrady rovných uvozovek oblými Nástroje Možnosti automatických oprav a dále viz. obrázek) Trojtečky: Alt+0133 Pomlčka: mezera diviz mezera mezera Alt+0150 mezera (eventuálně mezera diviz mezera Alt+0150) vyhoď pozůstatky po dělení na koncích řádků diviz mezera Zaměň dlouhou pomlčku na pomlčku: Alt+0151 Alt+150 Odstraň dvojité mezery (zaměň dvě mezery za jednu), opakuj. Všechny popsané wordovské úpravy lze provést najednou pomocí maker obsažených v šabloně PUMA, kterou si můžete stáhnout spolu s návodem, jak ji instalovat a používat z internetové stránky www.paseka.cz/pistorius. 5