Skenování dokumentů 2. Fáze - Zadávací dokumentace Obsahem tohoto dokumentu je zadávací dokumentace na skenovací pracoviště pro 2. fázi projektu skenování dokumentů pro IS TVP (televizních poplatků)
Obsah: 1. PŘEDMĚT ZADÁNÍ... 2 2. SKENERY... 2 3. SKENOVACÍ SW KOFAX CAPTURE 9... 3 3.1 OBECNÉ POŽADAVKY NA KONFIGURACI ŠABLON... 4 3.1.1 OBECNÝ POSTUP ZPRACOVÁNÍ... 4 3.1.2 SPOLEČNÉ TYPY POLÍ... 5 3.1.3 SPOLEČNÉ INDEXOVÁ POLE... 5 3.1.4 SPOLEČNÝ FORMÁT XML PRO METADATA... 6 4. TYPY SKENOVANÝCH DOKUMENTŮ... 6 4.1 SPECIFICKÉ ATRIBUTY DLE TYPU DOKUMENTŮ... 8 1
1. Předmět zadání Česká televize potřebovala archivovat papírové dokumenty související s agendou televizních poplatků v elektronické podobě s vazbou na informační systém tak, aby byly dokumenty patřící ke konkrétnímu poplatníkovi snadno dohledatelné. V rámci první fáze projektu implementujícího tento požadavek, která proběhla v roce 2010, se jednalo o dokumenty od České pošty (např. evidenční listy). Pro převod papírových dokumentů do elektronické podoby a následné rozpoznání (OCR) klíčových údajů byl zvolen a na jednom skenovacím pracovišti nainstalován a nakonfigurován software Kofax Capture 8.0 CZ. Předmětem zadání pro druhou fázi je upgrade a rozšíření stávajícího řešení. Konkrétně je pak po řešiteli/dodavateli požadováno: Zachování stávající objemové licence Kofax Capture 600K/yr a rozšíření licence Kofax Concurrent Station z 1ks na 4ks (jinými slovy je požadováno dodání 3ks licencí Kofax Concurrent Station) Upgrade stávajícího řešení pro dokumenty České pošty z lokální stanice s Kofax Capture 8 CS na serverové řešení s Kofax Capture 9 EN při zachování stávající funkcionality vč. zákaznického modulu SXMerge pro spojení naskenovaných dat se šablonou formuláře. Zajištění převodu licence z pracovní stanice na server. Dodávka dvou A4 skenerů - jeden s modulem imprinter, druhý s flatbat pro první skenovací pracoviště Dodávka A4 skeneru s modulem imprinter pro druhé skenovací pracoviště Dodávka 5ks náhradních inkoustových náplní k modulu imprinter Dodávka ke každému skeneru náhradní válečků (tedy 3ks) Vytvoření šablon (dávek) pro specifikované typy dokumentů. Požadován je výstup naskenovaného dokumentu do PDF/A a metadat do XML. Vytvoření a dodávka speciálního SW modulu do Kofax Capture pro zpracování dokumentů typu 29 - Složenky od České pošty Instalace a nastavení SW Kofax Capture v požadované konfiguraci na HW dodaný zadavatelem (předpokládají se dvě PC pro skenovací pracoviště a server ve virtuálním prostředí Hyper-V) 2. Skenery Předpokládá identická konfigurace PC stanice pro skenovacích pracovišť. Česká televize dodá PC zhruba v následující konfiguraci: Procesor Intel Core2Duo E8400 3Ghz RAM 4GB Disk 200 GB Operační systém: Windows 7 Professional 64bit CZ SP1 Od dodavatele je požadována dodávka dvou skenerů pro první pracoviště splňující následující parametry: 1. Skener (např. model Fi-6130 nebo funkčně ekvivaletní) Velikost papíru: A4, A5 Typ zásobníku: Zásobník pro balík dokumentů pro automatické zpracování (Automatic data feeder) Max. počet str./měsíc: 20000 Barva/černobílá: Barva Oboustranný: Nutný Požadováno OCR: Ano Flatbed: Ne Imprinter: Ano VRS software: Ano Minimální rozlišitelnost výsledku: 200DPI 2
Ultrasonická detekce slepení stránky: Ano Přeskočení prázdných stránek: Ano Vyrovnání pootočených stránek: Ano Výstup: PDF Rozhraní: USB 2. Skener (např. model Fi-6230 nebo funkčně ekvivaletní) Velikost papíru: A4, A5 Typ zásobníku: Zásobník pro balík dokumentů pro automatické zpracování (Automatic data feeder) Max. počet str./měsíc: 20000 Barva/černobílá: Barva Oboustranný: Nutný Požadováno OCR: Ano Flatbed: Ano Imprinter: Ne VRS software: Ano Minimální rozlišitelnost výsledku: 200DPI Ultrasonická detekce slepení stránky: Ano Přeskočení prázdných stránek: Ano Vyrovnání pootočených stránek: Ano Výstup: PDF Rozhraní: USB Dále je od dodavatele požadována dodávka jednoho skeneru pro druhé pracoviště splňující následující parametry: 3. Skener (např. model Fi-6130 nebo funkčně ekvivaletní) Velikost papíru: A4, A5 Typ zásobníku: Zásobník pro balík dokumentů pro automatické zpracování (Automatic data feeder) Max. počet str./měsíc: 20000 Barva/černobílá: Barva Oboustranný: Nutný Požadováno OCR: Ano Flatbed: Ne Imprinter: Ano VRS software: Ano Minimální rozlišitelnost výsledku: 200DPI Ultrasonická detekce slepení stránky: Ano Přeskočení prázdných stránek: Ano Vyrovnání pootočených stránek: Ano 3. Skenovací SW Kofax Capture 9 Je požadována dodávka skenovacího software Kofax Capture s následujícími parametry: verze 9.0 s posledním service packem anglická jazyková mutace 3
převod stávající licence Kofax Capture 600K/yr a Kofax Capture Concurrent station z pracovní stanice na server dodání 3ks licencí Kofax Capture Concurrent pro 3 skenovací pracoviště (jedno stávající a dvě nová) 3.1 Obecné požadavky na konfiguraci šablon V tomto odstavci jsou shrnuty požadavky na nastavení a konfiguraci SW Kofax Capture společné pro všechny typy dokumentů (viz 4). Tyto požadavky slouží jako společné zadání pro vytvoření požadovaných šablon (dávek, tříd dokumentů, apod.). 3.1.1 Obecný postup zpracování Pro všechny typu dokumentů platí následující principy zpracování:: 1. Skenované dokumenty lze rozdělit do dvou obecných skupin: a. Formuláře s pevným počtem stran b. Dopisy s variabilním počtem stran a oddělovací stránkou oddělující jednotlivé dokumenty 2. Každý typ dokumentu má přiřazeno jedinečné číslo DOCTYPE, které vždy obsahuje dvě numerické číslice, např. 01, 26, 10..., 3. Pro každý typ dokumentu bude vytvořena šablona - tj. skenovací dávka a třída dokumentů. Název dávky a třídy dokumentů bude totožný a bude začínat číslem <DOCTYPE> 4. Konkrétní typ dokumentu DOCTYPE vybírá pracovník skenovacího pracoviště výběrem skenovací dávky 5. Každý naskenovaný dokument bude mít registrační číslo, pod kterým bude dohledatelný originální papírový dokument v archívu. Toto registrační číslo bude buď: a. Generováno při potisku skenovaného formuláře (dokument 1a, tzv. Imprinter) b. Čteno z čárového kódu na oddělovací stránce dopisu (čárový kód, resp. oddělovací stránka bude tištěna speciální aplikací - dokumenty 1b) 6. Naskenované dokumenty budou uloženy ve formátu PDF/A do sdíleného adresáře Windows. Cesta ke sdílenému adresáři je \\scansrv\tvpscanqueue\<doctype>. Název serveru scansrv bude definován v hosts souboru operačního systému (viz C:\Windows\System32\drivers\etc\hosts). Podadresář <DOCTYPE> odpovídá číslu typu dokumentu 7. Konvence pro název vytvářeného PDF souboru je P<STATION>_<DOCID>.pdf, kde <STATION> je ID skenovacího pracoviště a <DOCID> je inkrementované číslo dokumentu 8. Ke každému PDF dokumentu bude vytvořen stejnojmenný (až na příponu.xml) XML dokument s metadaty - ten bude obsahovat společnou část pro všechny typy dokumenty a specifickou část pro konkrétní typ, obsahující rozpoznaná data, tzv. atributy. Požadovaný formát XML souboru je popsán níže. 9. Již existující skenovací služba (implementovaná v rámci 1. fáze projektu) zajistí přenos naskenovaných PDF souborů (včetně souvisejících XML metadat) umístěných ve výše zmíněném sdíleném adresáři do IS TVP (SAP). 4
3.1.2 Společné typy polí Požadována je definice následující typů polí v SW Kofax Capture. Tyto typy polí pak budou použity při definici společných indexových polí jednotlivých šablon. Název Popis Datový typ CT_DOCTYPE Typ dokumentu VARCHAR(2) CT_DOCID ID Dokumentu VARCHAR(20) CT_BATCHNAME Název dávky VARCHAR(72) CT_SCANDATE Datum skenování dokumentu DATE CT_SCANTIME Čas skenování dokumentu TIME CT_STATION Název skenovacího pracoviště VARCHAR(40) CT_OPERATOR Operátor, který provedl skenování VARCHAR(12) CT_MARK Zaškrtnuto/nezaškrtnuto VARCHAR(1) CT_VS Variabilní symbol poplatníka VARCHAR(10) CT_REGNUM Registrační číslo dokumentu (počítadlo generované imprinterem,, sekvenční registrační číslo VARCHAR(20) CT_BARCODE Čárový kód VARCHAR(50) 3.1.3 Společné indexová pole Pro všechny typy dokumentů je požadována definice následujících indexových polí na úrovni třídy dokumentů: Název Typ pole Výchozí hodnota DOCTYPE CT_DOCTYPE NN DOCID CT_DOCID {ID dokumentu} BATCHNAME CT_BATCHNAME {Jméno dávky} SCANDATE CT_SCANDATE {Aktuální datum} SCANTIME CT_SCANTIME {Aktuální čas} STATION CT_STATION {ID stanice} OPERATOR CT_OPERATOR {Jméno operátora} Obsah těchto polí je součástí společných XML metadat. 5
3.1.4 Společný formát XML pro metadata Požadovaný formát XML souborů s metadaty naskenovaného dokumentu je znázorněn na níže uvedeném příkladu. Společná část pro všechny typy dokumentů zvýrazněna. <METADATA> <DOCTYPE>${I-DOCTYPE}</DOCTYPE> <DOCID>${I-DOCID}</DOCID> <BATCHNAME>${I-BATCHNAME}</BATCHNAME> <SCANDATE>${I-SCANDATE}</SCANDATE> <SCANTIME>${I-SCANTIME}</SCANTIME> <STATION>${I-STATION}</STATION> <OPERATOR>${I-OPERATOR}</OPERATOR> <ATRIBUT1_JMENO>${I-ATRIBUT1_JMENO}</ATRIBUT1_JMENO> <ATRIBUT2_JMENO>${I-ATRIBUT2_JMENO}</ATRIBUT2_JMENO>... </METADATA> Každý typ dokumentu může obsahovat specifické atributy naplněné hodnotami z OCR rozpoznaných dat. Výčet těchto atributů je uveden v odst. 4.1. 4. Typy skenovaných dokumentů Pro každý níže uvedený typ dokumentu je požadováno vytvoření šablony v SW Kofax Capture, tzn. skenovací dávky, třídy dokumentů apod. Konvence pro název a popis šablony je uvedena v následujících tabulkách. Příklady dokumentů budou dodány v rámci implementace. Skupina formuláře: dokumenty s pevným počtem stran (1 stránka = 1 dokument) obsahuje OCR rozpoznávaná pole požadován potisk (Imprinter) DOCTYPE Název Popis 01 01 - Čestné prohlášení s oslovení 01 - Čestné prohlášení s oslovení - neevidovaní poplatníci 26 26 - PP FO, osvobození 26 - Přímý poplatník fyzická osoba - osvobození 27 27 - NP FO, čestné prohlášení 27 - Evidovaný nepoplatník fyzická osoba - čestné prohlášení 28 28 - NP PO, čestné prohlášení 28 - Evidovaný nepoplatník právnická osoba - čestné prohlášení 03 03 - PP PO, evidenční list 03 - Přímý poplatník právnická osoba - evidenční list 06 06 - PP FO, evidenční list 06 - Přímý poplatník fyzická osoba - evidenční list 6
Skupina Dopisy: dokumenty s variabilním počtem stran jednotlivé dokumenty jsou oddělené oddělovací stránkou tištěnou speciální zákaznickou aplikací oddělovací stránka není součástí naskenovaného dokumentu, ale obsahuje dva čárové kódy, které musí být OCR rozpoznány a vloženy do XML metadat jako atributy: o o BARCODE - číslo dokumentu ve spisové službě (pro doporučené dopisy) REGNUM - registrační číslo (sekvenčně rostoucí registrační číslo pro nalezení originálu naskenovaného dokumentu v papírovém archívu) konkrétní podoba oddělovací stránky bude upřesněna (dohodnuta) v průběhu implementace kromě výše zmíněných čárových kódů není požadováno rozpoznávání žádných další OCR dat všechny typy dokumentů ve skupině dopisů mají stejné typy atributů, jedinou odlišností je jiný typ dokumentu, který slouží k řešení priorit při vyřizování dokumentů v IS TVP. Jinými slovy - šablony jsou totožné, liší se obsah atribut DOCTYPE v XML metadatech a umístění PDF souboru v sdíleném adresáři typ dokumentu volí pracovník na skenovacím pracovišti při výběru skenovací dávky pokud by existovala možnost volby typu dokumentu ze skupiny dopis jiným způsobem a nebylo by nutné tak pro každý druh dopisu vytvářet samostatnou šablonu v SW Kofax Capture, bylo by to preferované řešení DOCTYPE Název Popis 30 30 - Dopis evidence dopor. 30 - Dopis evidence dopor. 31 31 - Dopis evidence norm. 31 - Dopis evidence norm. 32 32 - Odeslaný dopis dopor. 32 - Odeslaný dopis dopor. 33 33 - Odeslaný dopis norm. 33 - Odeslaný dopis norm. 34 34 - Fax evidence přijatý 34 - Fax evidence přijatý 35 35 - Fax odeslaný 35 - Fax odeslaný 36 36 - Balíček doporučený 36 - Balíček doporučený 37 37 - Dopis vymáháni dopor. 37 - Dopis vymáháni dopor. 38 38 - Dopis vymáhání norm. 38 - Dopis vymáhání norm. 39 39 - Fax vymáhání přijatý 39 - Fax vymáhání přijatý 40 40 - Dopis norm. s EL 40 - Dopis norm. s EL 41 41 - Dopis dopor. s EL 41 - Dopis dopor. s EL 42 42 - Datová zpráva přijatá 42 - Datová zpráva přijatá 43 43 - Datová zpráva odeslaná 43 - Datová zpráva odeslaná Skupina Složenky České pošty: na jednom naskenovaném listu A4 budou složenky od České pošty umístěny ve formátu: o 2 složenky na A4 o 4 složeny na A4 je požadováno vytvoření a dodání speciálního SW modulu pro Kofax Capture, který rozdělí jeden naskenovaný list A4 na více výstupních PDF souborů/ dokumentů (a jim odpovídajících XML metadat) tak, že v každé PDF souboru bude jedna složenka. Modul musí být také schopen rozpoznat prázdné místo (tj. například pokud na listu 4naA4 jsou tři složenky, tak vytvoří tři PDF soubory, nikoliv čtyři). OCR rozpoznávání dat není požadováno dokumenty s pevným počtem stran požadován potisk (Imprinter) 7
DOCTYPE Název Popis 29 29 - Složenky od ČP 2naA4 29 - Složenky od České pošty - formát 2 na A4 29 29 - Složenky od ČP 4naA4 29 - Složenky od České pošty - formát 4 na A4 4.1 Specifické atributy dle typu dokumentů Pro každý typ dokumentu jsou kromě společných atributů (viz 3.1.3) definovány i specifické atributy. Atribut je reprezentován indexovým polem a odpovídajícím typem pole na úrovní definice třídy dokumentů v SW Kofax Capture. Kromě toho je atribut zapsán pod stejnojmennou značkou v XML metadatech (viz 3.1.4). Pro typ pole platí jmenná konvence, že název typu pole začíná prefixem CT_, následovaný názvem atributu. Požadované atributy pro jednotlivé typy dokumentů jsou definovány v následující tabulce: DOCTYPE Atribut Význam 01 BARCODE Čárový kód oslovení PLATIM PRIHLASUJI NEVLASTNIM OSVOBOZEN NEZNAMY 1 - zaškrtnuto pole televizní poplatek již platím, 0 - nikoliv 1 - zaškrtnuto pole přihlašuji se do evidence, 0 - nikoliv 1 - zaškrtnuto pole nevlastním TV přijímač, 0 - nikoliv 1 - zaškrtnuto pole osvobozen, 0 - nikoliv 1 - zaškrtnuto pole neznámý adresát, 0 - nikoliv PLATIMVS VS k poli PLATIM PRIHLASUJIVS VS k poli PRIHLASUJI REGNUM Imprinter 26 VS Číslo SIPO SPLNENI 1 - zaškrtnuto pole splnění, 0 - nikoliv ZANIK 1 - zaškrtnuto pole zániku, 0 - nikoliv REGNUM Imprinter 27 REGNUM Imprinter 28 REGNUM Imprinter 03 VS Variabilní symbol PRIHLASKA 1 - zaškrtnuto pole Přihláška, 0 - nikoliv ODHLASKA 1 - zaškrtnuto pole Odhláška, 0 - nikoliv ZMENA 1 - zaškrtnuto pole Změna, 0 - nikoliv REGNUM Imprinter 06 VS Variabilní symbol SIPO Sipo PRIHLASKA 1 - zaškrtnuto pole Přihláška, 0 - nikoliv ODHLASKA 1 - zaškrtnuto pole Odhláška, 0 - nikoliv ZMENA 1 - zaškrtnuto pole Změna, 0 - nikoliv REGNUM Imprinter 8
30-42 BARCODE Čárový kód s oddělovací stránky - číslo doporučeného dopisu ve spisové službě REGNUM 29 REGNUM Imprinter Čárový kód s oddělovací stránky - sekvenční pořadové číslo 9