OCR (Optical Character Recognition) metoda optického rozpoznávání znaků



Podobné dokumenty
OCR systémy. Semestrální práce z předmětu Kartografická polygrafie a reprografie. Jakub Žlábek, Zdeněk Švec. Editor: Věra Peterová. Praha, květen 2010

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Počítače a grafika. Ing. Radek Poliščuk, Ph.D. Přednáška č.7. z předmětu

Komponenty a periferie počítačů

Automatické rozpoznávání dopravních značek

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

13 Barvy a úpravy rastrového

Grafika na počítači. Bc. Veronika Tomsová

Masarykova univerzita Filozofická fakulta. POČÍTAČOVÉ VIDĚNÍ seminární práce. Adriana Babincová

- obvyklejší, výpočetně dražší - každé písmeno je definováno jako zakřivený nebo polygonální obrys

PŘEDNÁŠKA KURZU MPOV

světelný paprsek optika

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Obsah. Úvod Barevná kompozice Světlo Chromatická teplota světla Vyvážení bílé barvy... 20

VYHODNOCENÍ TESTOVÝCH FORMULÁŘŮ POMOCÍ OCR

Digitalizace Tvorba e-knih v knihovně

Výukový materiál zpracován v rámci projektu EU peníze školám

Pořízení rastrového obrazu

Systémy třídění se zaměřením na třídění poštovních zásilek na třídicích strojích

Detekce a rozpoznávání mincí v obraze

Neuronové sítě Ladislav Horký Karel Břinda

JAK VYBÍRAT TISKÁRNU?

Metody tisku CTP a CTF

Algoritmizace prostorových úloh

Porovnání obrazových souborů vzniklých digitalizací periodik a monografií

12 Metody snižování barevného prostoru

Skenery (princip, parametry, typy)

Další HW zařízení EU peníze středním školám Didaktický učební materiál

Kybernetika a umělá inteligence, cvičení 10/11

Tematická oblast: Informační a komunikační technologie (VY_32_INOVACE_09_1_IT) Autor: Ing. Jan Roubíček. Vytvořeno: červen až listopad 2013.

Rastrová reprezentace

OBRAZOVÁ ANALÝZA. Speciální technika a měření v oděvní výrobě

III/ 2 Inovace a zkvalitnění výuky prostřednictvím ICT

DATOVÉ FORMÁTY GRAFIKY, JEJICH SPECIFIKA A MOŽNOSTI VYUŽITÍ

Téma: Práce se základními objekty, výplní a obrysem

III/ 2 Inovace a zkvalitnění výuky prostřednictvím ICT

VY_32_INOVACE_INF.10. Grafika v IT

Barvy a barevné modely. Počítačová grafika

počítačová grafika Obor informatiky, který používá počítače ke zpracování informací, které následně uživatel vnímá očima.

Jasové transformace. Karel Horák. Rozvrh přednášky:

L A TEX Barevné profily tiskových zařízení (tiskárny, plotry)

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

Skenování. Ing. Jiří Nechvátal. Jihočeská vědecká knihovna v Českých Budějovicích. nechvatal@cbvk.cz

Digitalizace dat metodika

Informační a komunikační technologie 1.2 Periferie

Text úlohy. Kolik je automaticky generovaných barev ve standardní paletě 3-3-2?

OBSAH. Kontrola aktualizací... 18

5. Umělé neuronové sítě. Neuronové sítě

Konverze grafických rastrových formátů

Digitalizace a zpracování obrazu

Počítačová grafika a vizualizace I

8. přednáška z předmětu GIS1 Rastrový datový model a mapová algebra

IVT. Rastrová grafika. 8. ročník

Detekce a rozpoznávaní znaků registrační značky s využitím neuronové sítě

Univerzita Palackého v Olomouci

Základy umělé inteligence

7. Geografické informační systémy.

Rastrová grafika. Grafický objekt je zaznamenán jednotlivými souřadnicemi bodů v mřížce. pixel ( picture element ) s definovanou barvou

Roman Juránek. Fakulta informačních technologíı. Extrakce obrazových příznaků 1 / 30

Algoritmy a struktury neuropočítačů ASN - P11

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 8

DOKUMENTACE Identifikace pomocí otisků prstů

Využití metod strojového učení v bioinformatice David Hoksza

Výsledky = = width height 3 width height R + G + B ( )

Dolování z textu. Martin Vítek

Digitalizace knihovních dokumentů. Jiří Polišenský

Systémy tisku CTP a CTF

Umělá inteligence pro zpracování obrazu a zvuku

Samoučící se neuronová síť - SOM, Kohonenovy mapy

Matice přechodu. Pozorování 2. Základní úkol: Určete matici přechodu od báze M k bázi N. Každou bázi napíšeme do sloupců matice, např.

Vývoj počítačové grafiky. Tomáš Pastuch Pavel Skrbek

Popis objektů. Karel Horák. Rozvrh přednášky:

Zadání soutěžních úloh

MANUÁL JEDNOTNÉHO VIZUÁLNÍHO STYLU

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

Systémy tisku CTP a CTF

Jordanova křivka a její využití

Text úlohy. Která barva nepatří do základních barev prostoru RGB? Vyberte jednu z nabízených možností: a. Černá b. Červená c. Modrá d.

K sofistikovaným možnostem využívání starých map digitálními metodami

Úloha - rozpoznávání číslic

Seminář z informatiky

Klasifikace předmětů a jevů

ČESKÁ TECHNICKÁ NORMA

PRINCIPY POČÍTAČOVÉ GRAFIKY

Základy práce v programovém balíku Corel

TECHNICKÉ POŽADAVKY NA FORMU SDĚLENÍ OBCE SPRÁVCI REGISTRU

Digitální učební materiál

IRISPen Air 7. Stručná uživatelská příručka. (ios)

Vektorové grafické formáty

Číslo DUM: VY_32_INOVACE_04_01 Autor: Mgr. Ivana Matyášková Datum vytvoření: březen 2013 Ročník: prima Vzdělávací obor: informační technologie

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

Bezpečný digitální podpis v praxi.

ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA ELEKTROTECHNICKÁ. Katedra aplikované elektroniky a telekomunikací DIPLOMOVÁ PRÁCE

DTP 2. Radek Fiala. Podpořeno z projektu FRVŠ 584/2011. Radek Fiala DTP 2

Počítačová grafika. Studijní text. Karel Novotný

digitalizace obrazových předloh perovky

Adobe Photoshop. 1. Seznámení s programem. 1. Seznámení s programem. XMF, montážní program. Tomáš Fab. Vytvořila: Bc. Blažena Kondelíková

1. sada. 9. ročník Šifrovací tutoriál

Transkript:

OCR (Optical Character Recognition) metoda optického rozpoznávání znaků - 1 -

Úvod OCR neboli optické rozpoznávání znaků (z anglického Optical Character Recognition) je metoda, která pomocí scanneru umožňuje digitalizaci tištěných textů, s nimiž pak lze pracovat jako s normálním počítačovým textem. Počítačový program převádí obraz buď automaticky nebo se musí naučit rozpoznávat znaky. Převedený text je téměř vždy v závislosti na kvalitě předlohy třeba podrobit důkladné korektuře, protože OCR program nerozezná všechna písmena správně. OCR - zpracování textu z tištěné do elektronické podoby je použitelné pro všechny tištěné výstupy z laserových, inkoustových, termosublimačních a jehličkových tiskáren a samozřejmě pro předlohy vytištěné knihtiskem. U nevhodných předloh např. slabě vytištěných jehličkových tiskáren nebo dohromady slitých písmen se z časového hlediska vyplatí spíše přepis textu. Využívaní techniky pro nahrazení lidských činností, jako je například čtení, není již dávným snem. Za posledních několik desetiletí, využívání techniky pro čtení, postoupilo od snů k realitě. Optické rozpoznávání znaků se stává nejúspěšnější aplikací a technologií na poli rozpoznávání a umělé inteligence. Ačkoli existuje mnoho komerčních systémů vykonávajících OCR a technika dělá stále pokroky, nedokáže kompletně zastoupit člověka při čtení. Historie V době technologické revoluce kolem roku 1950, kdy se ve vývoji elektronického zpracovávání postupovalo vysokou rychlostí bylo rozpoznávání zajímavou oblastí. Ve stejný čas se technologie pro systémy čtení staly dostatečně zralé pro aplikace, a v polovině padesátých let minulého (20.) století se OCR systémy staly komerčně dostupné, což bylo velmi důležité pro urychlení rozvoje. První opravdové OCR systémy si nainstaloval Reader s Digest v roce 1954. Toto zařízení bylo užíváno pro převod ručně psaných obchodních reportů na děrné štítky, aby bylo možné tento výstup využít pro další využití v počítači. První generace OCR: Komerční systémy vyskytující se v letech od 1960 do 1965 jsou nazývány první generací OCR. Tato generace OCR systémů se dá všeobecně charakterizovat využitím pro jednoduché zpracovávání znaků. Znaky byly speciálně vyvinuty pro tyto systémy, z důvodu - 2 -

vyšší jistoty rozpoznání. Tyto znaky vypadaly velmi uměle. Začali se také objevovat systémy s více fontovou zásobou (znalostí), které byly již schopny rozpoznávat (číst) znaky napsané různými fonty. Počet fontů byl limitován typem aplikované rozpoznávací metody a rozpoznávacím vzorem, který porovnával obraz znaku s obrazem znaku z knihovny prototypů. Druhá generace OCR Čtecí systémy druhé generace se začínaly objevovat v polovině 60. let a počátku 70. let. Tyto systémy byly schopny rozpoznat běžně strojově vytisknuté texty a již měly rozpoznávací schopnosti pro ručně psaný text. Když ručně napsané znaky byly pozorně a s ohledem na možné rozpoznávání napsány, tak byly znaky převedeny na čísla a pár znaků na symboy. První slavný systém tohoto druhu je IMB 1287, který byl představen na World Fair in New York in 1965. Také v tomto čase Toshiba vyvinula první automatický třídič dopisů podle poštovních čísel a také firma Hitashi vyrobila systém o vysokém výkonu a nízké ceně. V roce 1966 po studiu OCR požadavků a potřeb byl dokončen Americký standart OCR character set OCR-A. Tento font byl velmi dobře navržen pro optické rozpoznávání, a přesto zůstal stále čitelný pro lidi. Evropský font byl také vytvořen a označen jako OCR-B, který byl mnohem čitelnější pro lidi než Americký standart OCR-A. Postupem času se vyráběly systémy schopné rozpoznávat oba standarty. Třetí generace OCR. OCR systémy třetí generace jsou z poloviny sedmdesátých let 20. století. Dovedou rozpoznávat dokumenty nižší kvality a ručně psané texty. Rozpoznávání předloh nižší kvality při současném vysokém výkonu bylo dosaženým cílem, který dramaticky pomohl přispět rozvoji hardwarové technologie. Ačkoli mnohem znalejší systémy byly již na světě, jednoúčelové OCR systémy stále byly velmi úspěšné ve své práci. OCR dneška Ačkoliv OCR systémy se staly komerčně dostupné již v 50. letech, přesto bylo celosvětově do roku 1986 prodáno pouze pár tisíc systémů. Hlavním důvodem byla dozajista jejich vysoká cena. Dnes se prodá pár tisíc systémů týdně a cena mnoha fontových OCR se stále rapidně každý rok snižuje. - 3 -

Automatická Identifikace OCR pojednává o optickém rozpoznávacím procesu. Jak ručně psané tak i tisknuté znaky mohou být rozpoznány, ale výkon přímo závisí na kvalitě vstupu. Druhy znakového rozpoznávání: On-line Off-line Samostatné znaky ručně napsáno vstup z tiskárny Ručně psané texty rozpoznávání porovnávání Čím je kvalitnější vstup znaků, tím výkonnější bude OCR systém. Pokud na vstup přijde psaný text, tak OCR systémy jsou stále vzdáleny od lidské dokonalosti ve čtení. Počítače čtou velmi rychle a technické prostředky se stále zdokonalují, a proto se technologie stále přibližuje ideálu lidského čtení. Metody OCR Principem v automatickém modelu rozpoznávání je v první řadě naučit systém základním případům, které mohou nastat a jak vypadají. V OCR jsou základními typy myšleny znaky a některé speciální symboly jako je čárka, otazník.... Učení systému se provádí dodáním příkladů znaků ve všech rozdílných typech (třídách). Podle těchto příkladů si systém vyrobí prototypy nebo popis každé třídy každého znaku. Pří rozpoznávání se každý neznámý znak porovnává s dříve opatřeným popisem a je stanovena třída, která koresponduje s tímto znakem. Ve většině komerčních systémů znakového rozpoznávání byl tréninkový proces předem uskutečněn. - 4 -

Části OCR systémů Typické OCR systémy se skládají z několika komponent. A to z komponent optického skenování (digitalizace), lokace + odstranění členitosti a defragmentace znaků, preprocessing (eliminace šumu), extrakce vzhledu a rozpoznáváni. Identita každého znaku je nalezena porovnáním extrahovaným znaků s popisem každého symbolu získaného v učící fázi. Nakonec jsou získané informace využity pro rekonstrukci slov a čísel do originálního textu. Jak funguje Nejdříve si objasněme co je to obraz. Obraz je tvořen určitým, konečným počtem bodů, zvaných pixely. Každý pixel sám o sobě nese informaci o své barvě. Tato informace je reprezentována číselnou hodnotou dané barvy v barevné tabulce, např. 8bitová data mají hodnoty 0 255 (2 8 ). Jednotlivé pixely jsou v obrázku uspořádány do dvourozměrné mřížky (matice) zvané bitmapa (rastr). Každá pixel má v této mřížce své souřadnice. Předzpracování Binární obraz Přemění obraz na dvoubitová data, tedy pouze bílá a černá (0 a 1). Toto se děje procesem takzvaného prahování, neboli je určeno, které hodnoty pixelů budou černé a které se převedou na bílé. Tato část je velmi důležitá pro následnou extrakci pomocí příznaků. Dále si musíme naskenovaný obraz vyčistit od nežádoucích efektů jako je třeba šum vzniklý při skenování, nebo rozpadlá písmenka vzniklá nekvalitní předlohou. Šumy a rozpadlá písmenka lze s poměrně velkou úspěšností odstranit pomocí filtrů jako je například VYHLAZENÍ. Vyhlazení rozdělme na dvě části a to: vyplňování a - 5 -

zužování. Vyplňování nám zacelí malé dírky v písmenech, tak aby písmeno bylo tvořeno souvislou plochou barvy. Zúžení pak ztenčí rozpoznávaný znak. Další proces, který připravuje písmo ke čtení pomocí počítače, je proces normalizace znaků, kdy po normalizaci je znak v jednotkové velikosti, sklonu a rotaci. Lokalizace a segmentace Následně počítač zkoumá rozložení textu na stránce. Je potřeba rozlišit grafiku od textu. Potom se určí pomocí histogramu kde jsou jednotlivé řádky v dokumentu. Následuje izolace jednotlivých znaků v řádcích. Znaky se lokalizují pomocí sledování spojitých komponent, neboli spojitých tmavých oblastí. Klasifikace vzorů Extrakce příznaků Tato část je nejproblematičtější částí z celého OCR. Jejím úkolem je získání základních charakteristik každého znaku. Většina metod se snaží popsat znak přímo ze skenovaného obrázku, jiné zase získávají specifické rysy, které jednotlivé znaky charakterizují. Prvně jmenovaná metoda popsání znaku přímo ze skenovaného obrázku je založená na rozložení bodů v mřížce. Tato metoda má dva zástupce a jsou jimi: rozdělení do pásem a průsečíky Rozdělení do pásem Políčko s lokalizovaným znakem je rozděleno na několik oblastí a zkoumá se histogram tmavých míst v jednotlivých oblastech znaku, jak je vidět na obrázku. Histogramy se pak porovnávají s rysy jednotlivých znaků, které vzejdou z tzv. trénovacích dat. Průsečíky Tato metoda je založena na počtu průsečíků předem zvolených vektorů v políčku se znakem. Názorně je to vidět na obrázku. Metoda rozpoznávající na základě specifických rysů je nazývána strukturální analýzou, kdy jsou jednotlivé znaky popisovány geometrickou a topologickou strukturou znaků. Tato metoda je však ještě předmětem aktivního výzkumu. V Praze 10.05.2008 Petr Vymetálek Jan Viktora - 6 -