RETROSPEKTIVNÍ KONVERZE METODOU SKENOVÁNÍ



Podobné dokumenty
RETROKONVERZE KATALOGU KNIHOVNY PEDAGOGICKÉ FAKULTY UNIVERZITY J. E. PURKYNĚ V ÚSTÍ NAD LABEM

Automatizace knihoven PhDr. Anna Stöcklová

DigiDepot: JPEG 2000 jako ukládací formát

Tvorba kurzu v LMS Moodle

Nové aspekty zpracování knižních fondů

Doporučeno pro předpokládané využití serveru pro zpracování 2000 dokumentů měsíčně. HW: 3GHz procesor, 2 jádra, 8GB RAM

VISK 5 Národní program retrospektivní konverze katalogů knihoven ČR - RETROKON. Mgr. Nataša Mikšovská Národní knihovna ČR

Novela vyhlášky č. 259/ 2012 Sb., o podrobnostech výkonu spisové služby. Metodické setkání uživatelů spisové služby GORDIC

Výzva k podání nabídky

Software pro formování dielektrika kondenzátorů

Metodická pomůcka pro specifikaci dočasných opatření. doc. Ing. Pavel Šenovský, Ph.D. Ing. Pavlína Ježková

Souhrnná zpráva o plnění cílů retrospektivní konverze katalogů českých knihoven realizované v roce 2013 v rámci programu VISK 5 RETROKON

UniLog-D. v1.01 návod k obsluze software. Strana 1

Z papíru na web a ke čtenáři aneb Digitalizace není jen skenování. Mgr. Monika Oravová Moravskoslezská vědecká knihovna v Ostravě

Manuál pro mobilní aplikaci Patron-Pro. verze pro operační systém Symbian

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

=PREZENTACE= stručná příručka základů. (verze 2007)

Technologické postupy práce s aktovkou IS MPP

ELEKTRONICKÝ ARCHIV ZDRAVOTNICKÉ DOKUMENTACE A VIDITELNÝ

Jak pomáháme našim klientům

Výzva k podání nabídek (pro účely uveřejnění na nebo www stránkách krajů)

Pracovní setkání ASEP

EXTERNÍ PAMĚŤOVÁ MÉDIA

Portfolio úložišť WD pro datová centra Kapacitní úložiště prošlo vývojem

Evidence žádostí o finanční příspěvek

1. Podmínky chodu aplikace

ELEKTRONICKÝ ARCHIV ZDRAVOTNICKÉ DOKUMENTACE

Dlouhodobé a důvěryhodné ukládání elektronických dokumentů. Oskar Macek

Řešení pro střednědobé a dlouhodobé ukládání dokumentů ve veřejné správě

BALISTICKÝ MĚŘICÍ SYSTÉM

2.16 Digitalizace archivu stavebního úřadu

PŘÍKAZ K ZADÁNÍ SEPA PLATBY V APLIKACI MULTICASH KB

DOKUMENTACE A MANUÁLY

Odůvodnění vymezení technických podmínek podle 156 odst. 1 písm. c) zákona č. 137/2006 Sb., o veřejných zakázkách

Jak může probíhat vedení čistě elektronické zdravotní dokumentace v NIS

Opravy a prodej. Uživatelská příručka. Milan Hradecký.

Vyhledávací techniky a editace v klientovi ARL

Požadavky na systém pro automatizaci muzejní knihovny

Manuál pro mobilní aplikaci. Patron-Pro

50 Zápisník skupiny. Popis modulu

1. Pořízení dokumentu

KEO-PRAXE. Verze roku ALIS spol. s r.o., Česká Lípa, 2006, ing. Vladimír Grosmut

SYSTÉM ALEPH A JEHO APLIKACE VE VÝPŮJČNÍM PROCESU MZK

Uložení presentace do formátu pdf

Fond Vysočiny GP Informační a komunikační technologie Martina Rojková

Velká data v knihovnách Open source tools and their use in Czech libraries

Dotační program MK ČR VISK 3

Divar - Archive Player. Návod k obsluze

Envis LIMS Klient distribučního portálu

ColorNavigator Možnost snadného ručního ( okometrického ) sladění barev na monitoru s tiskem.

Návod k obsluze. Windows -komunikační software GSOFT 3050 pro ruční měřící přístroje GMH 3xxx. Verze Všeobecné informace 2

KATALOG PRODUKTŮ A SLUŽEB (stručný návod pro přispěvatele) 1. KATALOG PRODUKTŮ A SLUŽEB

Ukládání dokumentů v digitální podobě v systémech elektronické spisové služby. Martina Macek

Návod pro práci s aplikací

dodatečné informace k zadávacím podmínkám dle 49 zákona č. 137/2006 Sb., o veřejných zakázkách, ve znění pozd. předpisů

Co je nového v aplikaci PaperPort 12?

Zpravodaj. Uživatelská příručka. Verze

26 Evidence pošty. Popis modulu. Záložka Evidence pošty

Vznik a vývoj DDI. Struktura DDI. NESSTAR Systém pro publikování, prezentaci a analýzu dat. PhDr. Martin Vávra, Mgr. Tomáš Čížek

Souhrnná zpráva o plnění cílů retrospektivní konverze katalogů českých knihoven realizované v roce 2018 v rámci programu VISK 5 RETROKON

Společnost ICZ a.s. představuje řešení digitalizace dokumentů v prostředí IS RŽP. Dokument: Obchodní prezentace Důvěrnost: Veřejná

Národní digitální knihovna

LICENČNÍ PODMÍNKY SOFTWAROVÉHO PRODUKTU Platné od

Dlouhodobá ochrana digitální dokumentů. Mgr. Jaroslav Kvasnica

Helpdesk Univerzity Pardubice Návod pro uživatele

DOCUMENT MANAGEMENT TOOLKIT

bibliografických dat - Má MARC

210 mm. Rekvalifikační kurs Národní technické knihovny. Jmenná katalogizace I. Radka Římanová

Zpráva o zhotoveném plnění

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná.

Osnovy kurzů. pilotního projektu v rámci I. Etapy realizace SIPVZ. Systém dalšího vzdělávání veřejnosti. počítačová gramotnost

Digitalizace Zemských desk, železničních knih, pozemkových knih (1)

Porovnání obrazových souborů vzniklých digitalizací periodik a monografií

IRISPen Air 7. Stručná uživatelská příručka. (ios)

Naším cílem je Vaše spokojenost...

Nephele systém. Akademie výtvarných umění v Praze. Ústav teorie informace a automatizace AV ČR, v.v.i. Ústav anorganické chemie AV ČR, v.v.i.

Stručný manuál práce s e-shopem fiktivnifirmy.cz: vložení zboží do e-shopu

DOCHÁZKA. Webový prohlížeč docházky. Osoby

ORGANIZAČNÍ ŘÁD KNIHOVNY UNIVERZITY TOMÁŠE BATI VE ZLÍNĚ. Článek 1 Úvodní ustanovení. Článek 2 Základní ustanovení

Brání něco používání digitálních dokumentů ve zdravotnictví?

Pokyny pro obsluhu programu. EZZ01 File reader 1.3

Národní digitální archiv a egovernment

Agentura ochrany přírody a krajiny ČR Odbor vývoje a správy aplikací

Program. Uživatelská příručka. Milan Hradecký

Postup práce v KDS 1

LabMeredian Gravik. gravik

Po spuštění aplikace se zobrazí následující obrazovka, kde je možné zvolit dle typu "Dokumen t

SPC Měřicí stanice Nastavení driverů

Dealer Extranet 3. Správa objednávek

Níže uvedená tabulka obsahuje technické údaje a omezení aplikace Excel (viz také článek Technické údaje a omezení aplikace Excel (2007).

Souhrnná zpráva o plnění cílů retrospektivní konverze katalogů českých knihoven realizované v roce 2015 v rámci programu VISK 5 RETROKON

ZÁSADY ZPRACOVÁNÍ OSOBNÍCH ÚDAJŮ

Strojírenský průmysl. REFERENCE Červenec 2017

Uživatelská příručka pro respondenty

Souhrnná zpráva o plnění cílů retrospektivní konverze katalogů českých knihoven realizované v roce 2014 v rámci programu VISK 5 RETROKON

TECHNICKÁ DOKUMENTACE

Virtuální depozitní knihovna Nástroj pro doplňování bohemikálních konzervačních sbírek. Tomáš Foltýn & Jiří Polišenský & Radek Nepraš

CBR Test dimenzač ní čh parametrů vozovek

Transkript:

RETROSPEKTIVNÍ KONVERZE METODOU SKENOVÁNÍ Libor Thiel Firma Comdat se sídlem v Praze se specializuje na proces retrokonverzí knihovnických katalogů s maximálním využitím výpočetní techniky. Comdat dodává komplexní řešení retrokonverzí včetně specializovaného hardware a software. Software byl vyvinut za spolupráce s Národní knihovnou České republiky. Systém je navržen tak, že jednotlivé etapy technického řešení na sebe plynule navazují, ale zároveň mohou být samostatnými celky využitelnými ke zlepšení přístupu ke knižním fondům. Tento přístup přináší maximální snížení nákladů na retrokonverzi a umožňuje postupné financování projektu retrospektivní konverze v reálném časovém rozmezí. Náklady na úplnou retrokonverzi touto metodou dosahují zhruba 50% v porovnání se standardními metodami používanými v současné době. Za vstup retrokonverze je z našeho hlediska považován katalogizační lístek v celém rozsahu kvality (podkladu i záznamu) a velikosti tak jak se v knihovnách vyskytuje. Za výstup z procesu retrokonverze je považován strukturovaný tvar záznamu dle standardu UNIMARC, US MARC popřípadě jiný strukturovaný tvar záznamu. Výstupní strukturovaný tvar v sobě obsahuje všechny použitelné informace uvedené na katalogizačním lístku a je schopen přenesení do vyššího výpočetního systému jakým je např. ALEPH, BIBIS, TINLIB a pod. Specializovaný SW firmy COMDAT je vyvinut tak, aby odborná práce knihovníků mohla být prováděna s maximální efektivností a úsporou času. Celý proces retrospektivní konverze metodou COMDAT má tyto tři etapy: I. Skenování a archivace II. Přepis záznamu do textového tvaru III. Strukturování textového tvaru do formátu UNIMARC, US MARC, a pod. 213

Graf procesu retrokonverze I. SCANNOVÁNÍ a ARCHIVACE SCANNOVÁNÍ a ARCHIVACE je první etapou s těmito cíli: převedení záznamů do elektronické podoby v podobě obrázku minimální narušení provozu katalogů čitelnost elektronické podoby záznamu na úrovni původního záznamu archivace záznamů v elektronické podobě s dlouhodobou životností 214

rozhodnutí o způsobu přepisu do textového tvaru možnost využití archivovaných záznamů jako základu k jiným způsobům zpřístupnění katalogů než je úplná retrokonverze do strukturovaného UNIMARC, US MARC vytvoření jednoduché struktury záznamů na principu jeden záznam = jeden soubor II. PŘEPIS PŘEPIS je druhou etapou s tímto cílem: převod záznamů do textové podoby při zajištění přesnosti 99% III. STRUKTUROVÁNÍ STRUKTUROVÁNÍ je třetí etapou s těmito cíli: převod záznamů do strukturovaného tvaru (UNIMARC, US MARC) konečná kontrola gramatická konečná kontrola struktury popř. její změna Etapy retrokonverze I. SCANNOVÁNÍ ARCHIVACE Stručný popis metody. Archivace dokumentů prostřednictvím scannování a následného uložení nascannovaných dokumentů na magnetooptická media je metoda, která využívá moderních způsobů počítačového zpracování a ukládání obrazových informací. Metoda spočívá v sejmutí obrazu scannerem při zachování všech obrazových informací originálu a jeho převedení do elektronické podoby. Scannování a následné zobrazení dokumentů se v dnešní době vyrovnalo svou kvalitou metodám mikrofišování a ve využívání zpracovaných informací ji předčila. Vzhledem k velmi značným rozdílům v kvalitě katalogizačních lístků je nutné použít scannery jež nastavují automaticky svoje parametry v průběhu scannování. Parametry scanneru se nastavují jak v závislosti na podkladu na kterém je záznam pořízen, tak i na kvalitě záznamu samotného. Archivace je prováděna pomocí tzv. JUKE BOXů na magnetooptická media jež se vyznačují schopností archivovat velké objemy dat a to jak v podobě přepisovatelné tak v podobě (WORM) jež po jediném zapsání již nelze nikdy přepsat což výrazně zvyšuje bezpečnost uložených informací. Z takto uložených informací lze pořizovat libovolné množství kopií s minimálními náklady. Celková archivace je procesem, který není nutný z hlediska retrokonverze jako takové, ale některé knihovny ji mohou využít. Zvláště pak v případě, že lískový katalog je cenným historickým dokumentem. 215

Renomovaní výrobci magnetooptických nosičů záznamu dávají záruku na archivované informace po dobu 50 let, přičemž efektivní doba uchování informací je odhadována na dobu 100 let. Z výše uvedených skutečností vyplývá, že fyzická životnost výše uvedených medií je mnohem vyšší než předpokládaná technologická životnost tohoto principu archivace. V současné době lze jen velmi těžko odhadnout na jaké technologické úrovni bude archivace informací za dvacet let. Lze však s jistotou předpokládat přenositelnost takto pořízených záznamů na všechny nově vyvíjené systémy archivace, neboť jednou ze základních podmínek nového vývoje v této oblasti je kompatibilita se systémy předchozími. Technické zařízení nutné k retrokonverzi katalogu včetně archivace o rozsahu přibližně 3 mil. záznamů je znázorněno v následujícím schématu. 216

Pro scennování a archivaci většího počtu záznamů než 3 mil. stoupá počet scennovacích pracovišť s každý milionem o jedno pracoviště. Při scannování 3 mil. záznamů bude převedení celého katalogu do elektronické podoby trvat přibližně 6 měsíců. Tuto dobu lze zkrátit při nasazení pracovníků provádějících skenování v nepřetržitém provozu až na polovinu. Doba zpracování jednoho záznamu včetně kontroly z celého rozsahu 3 mil. záznamů je 5 vteřin se započtením času na manipulaci a času rezervního. Přičemž doba průchodu katalogizačního lístku scannerem je přibližně 0,5 vteřiny. Prakticky bylo prověřeno, že u katalogu menšího rozsahu se doba zpracování pohybuje okolo 3 vteřin. Tyto doby předpokládají scannování v místě instalace lístkového katalogu, nejhůře však ve stejné budově, přičemž doba vyřazení jednotlivého lístku z katalogu je několik desítek minut. Po této etapě se pracuje v procesu retrokonverze již jen s elektronickou podobou katalogizačního lístku. Katalog lístkový tak již nebude více obtěžován. Tento způsob tak umožňuje využívání lístkového katalogu po celou dobu retrokonverze bez jakýchkoliv omezení. Významné je také to, že nascannované záznamy jsou okamžitě k dispozici uživatelům stejně jako v lístkovém katalogu. Toto je umožněno specializovanými programy ARTIF a KATA- LOG vyvinutými firmou Comdat. Pro katalogy s rozsahem do 500 tis. katalogizačních lístků není nutné pro scannování budovat celou počítačovou síť. Postačí vybudovat jedno lokální pracoviště s externí diskovou jednotkou optického disku a scannerem vhodným pro tento účel. Takovéto pracoviště musí být vybaveno programy firmy Comdat pro tento účel. Program Comdat ARTIF Textový program speciálně vyvinutý firmou Comdat je nejdůležitějším článkem celého procesu scannování. Umožňuje jeho uživatelům přímo obsluhovat scanner, sejmuté lístky zobrazit, rozhodnout o jejich kvalitě a uložit na předem zvolené místo. 217

Po této proceduře jsou sejmuté předlohy kdykoliv přístupné pomocí dalšího programu Comdat KATALOG. Tím je zaručen kvalitní a rychlý vstup do procesu retrokonverze, který nabízí možnost dále pracovat pouze s obrazovými kopiemi původních katalogových lístků. Rozhodování o způsobu přepisu provádí obsluha na základě jednoduchého školení popřípadě zkušeností z práce s OCR softwarem. Velmi důležitým bodem první etapy je rozhodnutí obsluhy scanneru o způsobu přepisu záznamu. Po průchodu lístku scannerem se proces na okamžik zastaví a obsluha stisknutím jednoho ze dvou možných tlačítek rozhodne o tom, zda bude přepis proveden ručně nebo automaticky prostřednictvím OCR programu. 218

Zpřístupnění obrazových předloh Pro zpřístupnění obrazových předloh je použit další speciálně vyvinutý software Comdat KATALOG. Tento program je možno využít jak pro pracovníky knihovny, tak i pro běžné uživatele. Nabízí totiž možnost rychlého přístupu ke katalogizačním záznamům. Ve kterých je možno prohledávat stejně jako v klasickém katalogu, navíc je zde nabídnuta možnost vyhledání konkrétního záznamu podle jeho připojeného popisu. II. PŘEPIS V procesu přepisu do textového tvaru je využito roztřídění záznamů určených pro ruční zpracování a pro zpracování OCR. Toto roztřídění bylo provedeno během scannování a archivace viz. graf procesu retrokonverze. Přepis si klade za cíl pouze převedení záznamu do textového tvaru a to s co největší rychlostí a zároveň nejvyšší možnou přesností. V průběhu pře- 219

pisu není žádoucí jakékoliv strukturování, jež by neúměrně proces zpomalilo. Částečné strukturování v námi navrhovaném systému nemá význam pro celkovou efektivnost konverze. Ruční přepis Pro dosažení maximální efektivnosti přepisu musí mít písařka dokonale připravené podklady k přepisu. V praxi to znamená, že se písařce zobrazí jak předloha tak přepisovaný text v jednom pohledu na obrazovce k čemuž je využíván následující program vyvinutý firmou Comdat pro tento účel. Program Comdat TEXTIF Program Comdat TEXTIF 1.0 je určen pro ruční přepis předloh, které nebudou v dostatečné kvalitě pro zpracování pomocí OCR. Pro dosažení maximální efektivnosti přepisu musí mít písařka dokonale připravené podklady k přepisu. V praxi to znamená, že se písařce zobrazí jak předloha tak přepisovaný text v jednom pohledu na obrazovce. Na obrázku 220

můžete v horní části pohledu vidět obrazovou předlohu přepisovaného textu a v dolní části přepisovaný text již ve znakové (textovém) tvaru. Přepis záznamů pomocí inteligentního OCR Dobře čitelné záznamy lze zpracovávat pomocí vhodného OCR programu. Zpracování záznamů touto metodou trvá několik sekund. Tento údaj byl prověřen na významném vzorku katalogizačních lístků různé kvality. Množství záznamů, jež lze přepisovat pomocí OCR je do značné míry závislé na kvalitě převáděných záznamů. V Národní knihovně České republiky, kde průměrná kvalita katalogizačních lístků (záznamů) je poměrně nízká, bude přepisováno cca. 30 záznamů prostřednictvím OCR programu. Katalogizační lístky ručně psané a špatně čitelné nelze převést jinak než ručním přepisem. V průběhu přepisování není počítáno se strojovou kontrolou pravopisu. Zpracovávané záznamy obsahují velké množství jmen, názvů, cizích slov a pod., proto by pravopisná kontrola nebyla efektivní a celý proces by výrazně zpomalila. 221

III. Strukturování Strukturování do konečného formátu např. UNIMARC musí být provedeno profesionálním knihovníkem. K čemuž slouží program Comdat ProTag. Tagovací program Comdat ProTag Program výrazně ulehčuje poslední fázi retrokonverze. Nabízí profesionálnímu knihovníkovi možnost přímého zatřídění převedených textů (textů vzniklých použitím OCR systému nebo ručním přepisem s využitím programu TEXTIF) do strukturovaného tvaru. Tímto postupem je odborná práce knihovníka využívána s maximální efektivností. Knihovník záznamy nepřepisuje ale pouze rozhoduje o zatřídění položek v záznamu. Položky kontroluje, opravuje. Přepsané záznamy v textové podobě se přímo zobrazují v horní části obrazovky, knihovník si úseky textu, patřící k jednotlivému tagu, automaticky 222

vkládá na editační řádku a po jejich kontrole text stisknutím tlačítka příslušného tagu již zatřiďuje na určité místo v dané položce. Po odsouhlasení roztagovaného záznamu je text uložen v požadované struktuře. Strukturu a tvar záznamu lze předem definovat. Výstupní struktura tak může být ve tvaru UNIMARC, US MARC, a pod. Program Comdat ProTag je možno rozšířit o funkci automatického roztřídění zdrojového záznamu do jednotlivých složek a tagů. Na základě přesné a jednoznačné specifikace oddělovačů, používaných na katalogizačních lístcích, stanovené zadavatelem retrospektivní konverze, lze doplnit program ProTag o modul automatického tagování. Náklady Náklady na techniku pro knihovnu s počtem svazků okolo 3 mil. se pohybují v rozmezí 4 až 5mil. Kč (150.000,- až 190.000,- tis.usd) včetně nutného programového vybavení. Etapa scannování si vyžádá nasazení asi 8-10 pracovníků s dobrou znalostí práce na počítači po dobu cca. 6 měsíců. Pro knihovnu okolo 500tis. svazků jsou náklady na techniku asi 0.8 až 1 mil. Kč. (cca. 40.000,-USD) Přičemž při nižším počtu svazků tyto náklady již neklesají. 3 pracovníci po dobu 6 měsíců budou nasazeni na tuto práci. Z uvedeného technického řešení retrokonverze vyplývá, že až v poslední etapě je nutné využít odborné práce knihovníka. První dvě etapy vyžadují spolupráci knihovny při přípravě, ale není nutná jeho přímá účast v samotném průběhu etap. První dvě etapy tak lze zadat externímu dodavateli, který na sebe převezme rutinní práci spojenou se scannováním a přepisem a zároveň náročnou práci organizační jenž si realizace prvních dvou etap vyžádá. Třetí etapu pak dokončí knihovníci zadavatele. V případě, že externí dodavatel disponuje zkušeným týmem knihovníků lze celý proces retrokonverze zadat tomuto externímu dodavateli. Celkové náklady na retrokonverzi jednoho záznamu se pohybují okolo 25,-Kč, přibližně 1,- USD na záznam, což je výrazné snížení nákladů v porovnání s metodami ve světě běžně používanými. Velkou výhodou tohoto systému je i snadná lokalizace pro jiná jazyková prostředí. V současné době je připravována verze pro pro anglický, německý a polský jazyk. Hlavní výhody retrokonverze metodou skenování minimální zatížení konvertovaného lístkového katalogu v průběhu retrokonverze možnost zadat první dvě etapy retrokonverze popř. celou retrokonverzi externímu dodavateli maximální využití odborné práce knihovníků tím, že jsou ušetřeni přepisování záznamů do textové podoby a pracují se záznamem v průběhu 223

retrokonverze pouze jednou a to v konečné fázi zpřístupnění katalogu v digitální podobě již po první etapě retrokonverze snížení nákladů na úplnou retrokonverzi do standardního tvaru (např. UNIMARC, US MARC) v porovnání se současně používanými metodami výrazné zkrácení doby nutné k provedení retrokonverze v porovnání se standardními metodami 224