ProArc open source řešení pro produkci a archivaci digitálních dokumentů

Podobné dokumenty
ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

Digitalizace a digitální knihovny v České republice

České digitalizační projekty, jejich výsledky a agregace

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Editor umožní tvorbu a editaci metadat digitálních objektů, včetně importů a exportů a práci s primárními daty.

Digitalizace knihovních dokumentů. Jiří Polišenský

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Digitalizace pražské židovské literatury v Městské knihovně v Praze

Digitalizace v ČR a její podchycení v registru digitalizace. Helena Dvořáková Národní knihovna ČR

Masarykova univerzita Fakulta informatiky. Kramerius PV070. Jan Holman

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Příloha č. 1. Návrh aplikace pro správu a archivaci XML dokumentů Zpracoval: Ing. Jan Smolík, CSc

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Z papíru na web a ke čtenáři aneb Digitalizace není jen skenování. Mgr. Monika Oravová Moravskoslezská vědecká knihovna v Ostravě

Velká data v knihovnách Open source tools and their use in Czech libraries

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Digitalizace a zveřejnění sbírkových fondů paměťových institucí Zlínského kraje

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Dodatečné informace č. 2

Lenka Maixnerová, Filip Kříž, Helena Bouzková, Ondřej Horsák, Adéla Jarolímková, Eva Lesenková

DIGITALIZAČNÍ PROJEKTY KRAJE VYSOČINA. Únor 2015

Kramerius - zpřístupnění digitálních kopií v ČR

E-learningovýsystém Moodle

Národní digitální knihovna

Portál ebadatelna Zlínského kraje a zpřístupnění map. Prezentace historických map z fondu paměťových institucí Zlínského kraje

Projekt CDArcha: kooperativní zpracování datových CD disků. Zdeněk Hruška, Petr Žabička Moravská zemská knihovna v Brně AKM 2018

Zpřístupnění kulturního dědictví v digitální podobě v ČR prostřednictvím knihoven

DIGITÁLNÍ UNIVERZITNÍ REPOZITÁŘ. Andrea Fojtů Ústav výpočetní techniky UK v Praze

DIGITALIZAČNÍ PROJEKTY KRAJE VYSOČINA. Portál digitálního kulturního dědictví Kraje Vysočina. Listopad 2017

DIGITALIZOVANÉ FONDY VĚDECKÉ KNIHOVNY V OLOMOUCI A KDE JE HLEDAT. Miloš Korhoň, Jan Houserek

Od zpřístupnění rukopisů přes komerční archivy k LTP, aneb 20 let praxe s dlouhodobým uložením dat.

Národní digitální knihovna v cílové rovince

Z hlediska UKN zajímavé: stav digitalizace v G. Tabulce

Úvod...1 Instalace...1 Popis funkcí...2 Hlavní obrazovka...2 Menu...3 Práce s aplikací - příklad...5

Registr digitalizace (RD)

OptimiDoc dokáže takové dokumenty zpracovat a distribuovat napříč firmou.

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

DIGITALIZACE MORAVSKÝCH KNIHOVNÍCH SBÍREK

Repositář audiovizuálních dokumentů Akademie múzických umění v Praze..

Návrh technických pravidel pro tvorbu SIP

Systémy pro tvorbu digitálních knihoven

Digitalizace HF a jeho prezentace Dostupný z

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

ZEMĚMĚŘICKÝ ÚŘAD. Uživatelská příručka - Metadatový editor MDE. Pod Sídlištěm 9/1800, Praha 8. Verze IS nebo části IS: Účel poslední změny:

Modul MWA - Publikace a články

Databáze prodejců. Tlačítka. Vytvoří kartu nového prodejce (Alt+N); Změní vybraného prodejce Uloží nového prodejce nebo změnu (Alt+U);

STATUT FORMÁTOVÉHO VÝBORU NÁRODNÍ DIGITÁLNÍ KNIHOVNY

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Metadata a Geoportál ČÚZK. Ing. Petr Dvořáček Ing. Bohumil Vlček Zeměměměřický úřad

Ukládání a archivace dat

Nové rozhraní je optimalizované pro aktuální verze prohlížečů. Pro práci s tímto rozhraním není vhodný Internet Explorer.

On-line katalog On-line digitální knihovna

Odevzdávání a příjem e-publikací

Certifikace Národní digitální knihovny podle ISO normy Jan Mottl AiP Safe s.r.o.

Představení digitalizačních projektů Národní technické knihovny a spolupráce v rámci ebooks on Demand

ebadatelna Zlínského kraje

DIGITALIZUJEME, ZPŘÍSTUPŇUJEME, ALE VÍ O TOM NĚKDO?

Seminář pro vedoucí knihoven a SVI ústavů AV ČR. Aleph

Implementace formátu METS v Systému Kramerius

Digitální konkordance a Registr digitalizace v Manuscriptoriu,

Digitalizační centrum včetně plnění databáze rastrových map uživateli

Registrace Vyhledávání Výsledky vyhledávání

Krajská digitalizace ve Středočeském kraji aktuální stav

Dlouhodobá ochrana digitálních dat: co může vaše instituce udělat již dnes?

Česká digitální matematická knihovna

Projekt Digitalizace a ukládání ve Zlínském kraji zkušenosti, postřehy

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

Vysokoškolské kvalifikační práce na AMU:

INFORUM 2012: 18. konference o profesionálních informačních zdrojích

Seminář ASEP Kolektiv ASEP Knihovna AV ČR, v. v. i. Praha Brno

Digitalizace a vytěžování dat jako služba

Dobrý SHOP Popis produktu a jeho rozšíření

Seminář pro vedoucí knihoven a SVI ústavů AV ČR

Úvod...1 Instalace...1 Popis funkcí...2 Hlavní obrazovka...2 Menu...3 Práce s aplikací - příklad...5

2014 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní

DigiDepot: JPEG 2000 jako ukládací formát

Průvodce webovou aplikací NewtonOne

EOD Elektronické knihy na objednávku. Rostislav Krušinský

MANUSCRIPTORIUM Digitalizace rukopisů VKOL. Miloš Korhoň Vědecká knihovna v Olomouci

Česká (národní?) článková bibliografie přežitek, nebo moderní služba čtenářům?

Projekt NAKI e-deposit

NOVÉ MOŽNOSTI PŘÍSTUPU K DIGITÁLNÍ ARCHIV NLK PLNOTEXTOVÝM INFORMACÍM : Filip Kříž, Lenka Maixnerová, Ondřej Horsák, Helena Bouzková

Na vybraném serveru vytvoříme MySQL databázi. Soubory scratch.jpa, kickstart.php a en-gb.kickstart.ini nahrajeme na vybraný server.

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

ÚČAST NK ČR V PROJEKTU NORSKÉ FONDY DIGITALIZACE BOHEMIKÁLNÍCH MONOGRAFIÍ OHROŽENÝCH DEGRADACÍ PAPÍRU

Tvorba kurzu v LMS Moodle

ASPOT - Rekonstrukce zásoby lesních porostů z údajů měřených pařezů

DIGITALIZACE KNIHOVNÍCH FONDŮ V KRÁLOVÉHRADECKÉM KRAJI

Účast NK ČR v projektu Norské fondy - digitalizace bohemikálních monografií ohrožených degradací papíru. Jiří Polišenský

praktické zkušenosti z Kraje Vysočina

HLÁŠENÍ DODÁVEK LÉČIVÝCH PŘÍPRAVKŮ UVEDENÝCH NA TRH V ČR DRŽITELI ROZHODNUTÍ O REGISTRACI LP - REG13

Verze 1.x 2.x 3.x 4.x 5.x. X X X X uživatelům (správcům) systému Řazení dat v přehledech podle jednotlivých sloupců

Modul IRZ návod k použití

Stručný průvodce aplikací Sběr dat pro CEP a CEZ

UŽIVATELSKÁ PŘÍRUČKA

Vysokoškolské kvalifikační práce na AMU: od sběru dat po zpřístupnění plných verzí v elektronické formě

The bridge to knowledge 28/05/09

Transkript:

ProArc open source řešení pro produkci a archivaci digitálních dokumentů Produkční a archivační systém ProArc je volně dostupný nástroj na výrobu a editaci popisných, technických a administrativních metadat k digitalizovaným i born digital dokumentům. Systém ProArc je možné rozšířit o volitelnou komponentu pro sledování průběhu digitalizacem RDflow. ProArc je založený na Fedora Commons repository, podporuje standardy Národní knihovny ČR pro digitalizaci a je kompatibilní se systémem Kramerius. Digitální dokumenty se stávají samozřejmou součástí našich životů. Při masivním rozšíření digitalizace v knihovnách je kladen důraz nejen na samotné obrazové soubory, ale i na výrobu, úpravu a archivaci metadat digitálních dokumentů. Nelze zapomínat ani na potřebu sledování celého pracovního procesu digitalizace. Pro usnadnění těchto činností spojených s digitalizací je vyvíjen systém ProArc. Produkční a archivační systém ProArc je volně dostupný nástroj na výrobu a editaci popisných, technických a administrativních metadat k digitalizovaným i born digital dokumentům. ProArc je založený na Fedora Commons repository, podporuje standardy Národní knihovny ČR pro digitalizaci a je kompatibilní se systémem Kramerius. Systém ProArc byl vyvíjen jako součást projektu Česká digitální knihovna a nástroje pro zajištění komplexních digitalizačních procesů, jenž byl financován z Programu aplikovaného výzkumu a vývoje národní a kulturní identity (NAKI) Ministerstva kultury ČR. Po skončení tohoto projektu je ProArc i nadále vyvíjen pod záštitou Knihovny AV ČR v. v. i. v úzké spolupráci se Studijní a vědeckou knihovnou v Hradci Králové, Městskou knihovnou v Praze, knihovnou Fakulty sociálních věd Univerzity Karlovy. Analytické a programátorské práce jsou zajišťovány firmou INCAD (pobočkou Search Technologies). Systém ProArc také obsahuje volitelnou komponentu pro tvorbu pracovních úkolů a sledování jednotlivých kroků na digitální lince RDflow. Popis systému ProArc, dokumentace, instalační balíček, informace o aktuálním stavu vývoje a řešených issues jsou umístěny na adrese https://github.com/proarc/proarc/wiki. Systém ProArc je open source, který je vystavěn na volně dostupných řešeních. V nejnovější verzi 3. 2 to je úložiště Fedora Commons 3.8.1, Java Oracle JDK 1.8 a PostgreSQL 9. Systém ProArc je webová aplikace, která využívá lokální server. Pro generování grafického formátu JPEG2000 využívá v rámci standardů NDK program Kakadu, ale podporuje i užití jiných programů. Pro potřeby OCR je využit komerční ABBYY Recognition Server, který umožňuje generovat formát ALTO XML. Technickou podporu zajišťuje firma INCAD. Systém ProArc obsahuje produkční a archivační část a volitelnou komponentu RDflow. Produkční část Obr. 1 úvodní obrazovka Produkční část systému ProArc je nástrojem na výrobu a úpravu popisných, administrativních a technických metadat. Lze v něm nejen zakládat zcela nové objekty, ale i používat metadata z externích systémů (např. Aleph, Registr digitalizace, Souborný katalog Národní knihovny). Metadata jsou editovatelná jak v připravených formulářích, které odpovídají definici metadatových formátů pro digitalizaci periodik a monografií, tak i v editovatelném xml. 36

Systém ProArc automaticky generuje UUID pro jednotlivé objekty. Pro zpracování jednotlivých předloh si lze vybrat z několika profilů a modelů podle typu zpracovávaných předloh. Výběrem profilu se zvolí možnosti popisných metadat u typu strany. Základní profil Default plně odpovídá standardům NDK. Na základě požadavků badatelů, pracujících se starými tisky, vznikl volitelný profil Staré tisky, ve kterém se nachází některé specifické typy stran usnadňující badatelskou činnost (např. Dedikace). Zatím posledním profilem je Archive, který slouží ke znovunačtení souboru exportovaného z ProArcu typem exportu Archivace. Obr. 2 výběr profilů pro zpracování metadat. Volba modelu se řídí typem předlohy zakládaného objektu. Ve formuláři vybraného modelu lze tvořit metadata k jednotlivým nadřazeným objektům. S typem zvoleného modelu souvisí i možnosti exportu. K dispozici jsou tyto modely: NDK Periodikum NDK Ročník NDK Číslo NDK Příloha periodika NDK Článek NDK Obrázek/Mapa vnitřní část NDK Vícedílná monografie NDK Svazek monografie NDK Příloha monografie NDK Kapitola NDK Kartografický dokument NDK Hudebnina K4 Periodikum K4 Ročník K4 Výtisk K4 Monografie K4 Monografie volná část STT Svazek monografie STT Příloha monografie STT Strana Strana ečlánek Formuláře modelů NDK mají položky odpovídající NDK standardům a nad povinně vyplnitelnými poli (Mandatory) je prováděna validace vyplnění těchto polí. Tyto objekty jsou exportovány jako PSP balíčky, ale je u nich možný i export pro K4 v xml. Formuláře modelů K4 obsahují vybraná pole MODS. I zde probíhá validace povinných polí. Exportem je pouze xml. Formuláře modelů pro staré tisky (STT) mají položky shodné s NDK formuláři, ale protože neobsahují OCR, je u nich možný jen K4 export, obsahující xml. Do některé z příštích verzí je připravován model STT Vícedílná monografie, který umožní, stejně jako tomu je v případě NDK Vícedílné monografie, spojit jednotlivé díly starých tisků pod jeden titul. Formulář pro ečlánek má možnost volby recenzovaného/nerecenzovaného článku a obsahuje položky s povinně vyplnitelnými poli, nad kterými je prováděna validace vyplnění těchto polí. Po založení e-článku se připojí již hotová metadata z připojené databáze Knihovna AV ČR Analytika nebo je lze vyplnit ručně. V dalším kroku se přidá plný text v pdf formátu. Exportovat lze jak plný text s přidanými metadaty do Krameria, tak jen metadata formou Export CEJSH a Crossref Export. Produkce digitálních dokumentů v systému ProArc probíhá částečně automatizovaně, předností je možnost dávkových a hromadných úprav. Rychlou paginaci stran umožňuje hromadné přiřazování arabských i římských číslic, kombinací číslic a písmen nebo použití hranatých závorek. V případě foliace lze využít hromadného popisu ob stranu recto/verso (1r, 1v). ProArc tímto 37

Obr. 3 Možnosti exportů způsobem umožňuje popis stran až po osmerkách (přiřadí stejné údaje první a sedmnácté straně). Hromadně lze také měnit typy za sebou jdoucích stran (např. Obsah) i vybraných stran z celého dokumentu (např. Prázdná strana). Pracovní prostředí pro tvorbu metadat si lze přizpůsobit podle typu zpracovávaných dokumentů nebo pracovních zvyklostí. Uživatelsky příjemná je i možnost volby podbarvení jednotlivých stran. Jednotlivé strany lze přesouvat. Kontrolu umožňuje během popisu stran náhled aktuálně zpracovávané strany. Před připojením stran s popisnými metadaty k nadřazenému objektu probíhá validace vyplnění všech čísel stran. Obr. 4 Popis stran 38

Systém ProArc je vhodný i pro zpracování born digital dokumentů. Zpracované dokumenty je možné exportovat jak pro systém Kramerius, tak i jako metadata do společné bibliografické databáze akademií věd Visegradské čtyřky CEJSH. Před exportem je lze přidělit URN:NBN nejen vlastním digitalizovaným titulům, ale i předlohám zpracovávaných pro jiné knihovny. Z ProArcu lze provádět export NDK PSP (balíček plně odpovídající standardům NDK), export pro Kramerius 4 (xml), CEJSH export (e-články), export původních skenů a export pro archivaci. Archivační část U všech NDK modelů vytvořených v produkční části ProArcu lze použít export Archivace. Tím dojde k vytvoření exportního balíčku určeného pro archivaci. Výsledný formát tohoto balíčku vychází z NDK PSP, ale není totožný. Je popsán souborem mets.xml ve formátu METS. Rozpoznatelnost je možná na základě identifikátorů UUID. Fedora datastreamy jsou kopírovány do samostatných adresářů pojmenovaných podle DS ID a referencovány ze sekce mets:filesec. Popisná metadata (DC, MODS) jsou v sekci mets:dmdsec. Hierarchie digitálních objektů je rozdělena do samostatných balíků podle pravidel NDK. Vazby mezi objekty jsou popsány v sekci mets:structmap. Adresáře obsahují data: ALTO (METS ALTO soubory) AUDIT (Historie změn) FOXML (Kopie FOXML z úložiště Fedora) FULL (Img) NDK_ARCHIVAL (Img) NDK_USER (Img) PREVIEW (Img) RAW (Img původní skeny) RELS-EXT (popis vazeb RDF) TEXT_OCR (Txt) THUMBNAIL (Img) mets.xml (metadatový popis objektu) Archivační balíček lze opětovně nahrát do produkční části ProArcu pomocí modelu Archive. Jde o plnohodnotné objekty uvnitř úložiště. Po importu archivačního balíčku lze upravovat metadata, která je třeba znovu archivovat exportem, protože soubory, ze kterých byla tato data načtena, zůstanou beze změn. volitelná komponenta rdflow Ve verzi 3.1 došlo k rozšíření systému ProArc o volitelnou komponentu RDflow, která je pracovním prostředím pro sledování průběhu digitalizace. Umožňuje nejen plánování a následné sledování digitalizace zvolené předlohy, ale také sledování jednotlivých úkolů napříč všemi digitalizovanými předlohami. Výhodou této komponenty je její velká variabilnost. Toto workflow lze nakonfigurovat podle specifických potřeb jednotlivých digitalizačních linek pomocí xml. Ukázkové workflow.xml je umístěno na adrese https://github.com/proarc/proarc/wiki/popis-workflow.xml. Obr. 5 vytváření nového záměru, který se bude sledovat 39

V RDflow lze vytvářet jednotlivé Záměry. Záměr je souhrn všech akcí, které mají proběhnout na předloze. Jako předloha je brána jednotka nesoucí identifikátor shodný pro katalog, Registr digitalizace a produkční část ProArcu. K jednotlivým záměrům lze vybrat jeden z profilů. Profil je přednastavený seznam všech úkonů, které mají proběhnout na předloze při digitalizaci. Jednotlivým úkonům jsou vytvořeny předem definované úkoly. Profily lze upravovat, nově sestavovat, přidávat nebo ubírat podle potřeb jednotlivých digitalizačních linek v xml dokumentu wokrflow.xml v adresáři $PROARC_HOME. Postup pro práci s komponentou rdflow Obr. 6 ukázka části XML pro profil knav Monografie Protože se jedná o volitelnou komponentu, v základní instalaci ProArcu není a je třeba ji dodat. Přidává se xml, které obsahuje přehled všech úkolů a jejich sestavení do jednotlivých profilů. Každá digitalizační linka má své postupy digitalizace. Nejprve je třeba stanovit úkoly, jejichž plnění u jednotlivých záměrů chceme sledovat. Základem je skenování, zpracování a zveřejnění. Po vytvoření nového záměru lze sledovat jednotlivé kroky na tomto záměru. Zda je předloha již naskenována, zpracována nebo zveřejněna. Jednotlivé kroky obsahují blockery, které zabraňují vyplnění úkolů mimo stanovený postup prací. Obr. 7 Detail Správy záměrů. v levé části je seznam všech záměrů, v pravé jsou informace o vybraném záměru Další možností je sledování jednotlivých úkolů na všech záměrech. Zde je možné zjistit, kolik předloh je již naskenovaných, zpracovaných, případně zveřejněných. 40

Obr. 8 Správa úkolů. v levé části je seznam všech úkolů, v pravé jsou informace o vybraném záměru. Protože u jednotlivých úkolů mohou být přednastaveni pracovníci, je takto možné i plánování práce jednotlivců a sledování plnění úkolů. Vygenerovat lze tedy vše, co má pracovník již hotovo i počet zbývajících úkolů. Obr. 9 Správa úkolů. v levé části je seznam všech jednoho pracovníka. vpravo je vybraný záměr. Již se připravuje další verze, ve které bude upravena a rozšířena volitelná komponenta RDflow o možnost sledování digitalizace periodik a vícedílných monografiív dvouúrovňové struktuře. Bude tak možné sledovat nejen práci na celém nadřazeném titulu, ale i na jednotlivých předlohách. Zároveň tak bude možné přehlednější sledování práce na doskenech a při postupném doplňování ucelených řad periodik. Produkční část systému ProArc je velice vhodným a uživatelsky příjemným nástrojem pro výrobu metadat a jejich následného využití jak v Krameriovi, tak i ke vzájemnému sdílení s ostatními institucemi, které dodržují standardy NDK. Systém se stále vyvíjí a vylepšuje pro širší využití v praxi (např. popis starých tisků). Informace o systému ProArc jsou na https://github.com/proarc/proarc. K dispozici je i diskusní skupina na http://groups.google.com/group/proarc-users. Zdroj: Dostupné na internete: <https://github.com/proarc/proarc>. Dostupné na internete: <http://www.inforum.cz/sbornik/2015/17/>. Mgr. Martina Nezbedová nezbedova@knav.cz Knihovna Akademie věd ČR 41