Popis výzkumného záměru

Podobné dokumenty
Od zpřístupnění rukopisů přes komerční archivy k LTP, aneb 20 let praxe s dlouhodobým uložením dat.

VISK 6 Národní program digitálního zpřístupnění vzácných dokumentů

Digitalizace knihovních dokumentů. Jiří Polišenský

Technologická centra krajů a ORP

Ukládání a archivace dat

Z papíru na web a ke čtenáři aneb Digitalizace není jen skenování. Mgr. Monika Oravová Moravskoslezská vědecká knihovna v Ostravě

Doporučení pro pořizování datových souborů při digitalizaci analogových originálů

Řešení oblasti LTP v projektu NDK aneb zúročení 20 let zkušeností

Manuscriptorium - 10 let

Příloha č. 1. Návrh aplikace pro správu a archivaci XML dokumentů Zpracoval: Ing. Jan Smolík, CSc

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Účast NK ČR v projektu Norské fondy - digitalizace bohemikálních monografií ohrožených degradací papíru. Jiří Polišenský

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

DigiDepot: JPEG 2000 jako ukládací formát

Digitalizace v ČR a její podchycení v registru digitalizace. Helena Dvořáková Národní knihovna ČR

Zpráva o zhotoveném plnění

2.17 Archivace a komprimace dat

Zpřístupnění kulturního dědictví v digitální podobě v ČR prostřednictvím knihoven

Ředitel odboru archivní správy a spisové služby PhDr. Jiří ÚLOVEC v. r.

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Datové centrum a Regionální SAN kraje Vysočina. Projekt digitalizace a. Petr Pavlinec, KrÚ kraje Vysočina. Září 2009

manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com

INFORUM Špalíček digitální knihovna kramářských tisků (spalicek.net)

GIS Libereckého kraje

Projekt digitalizace a ukládání v regionech. Petr Pavlinec, KrÚ kraje Vysočina Březen 2010

DIGITALIZOVANÉ FONDY VĚDECKÉ KNIHOVNY V OLOMOUCI A KDE JE HLEDAT. Miloš Korhoň, Jan Houserek

MANUSCRIPTORIUM Digitalizace rukopisů VKOL. Miloš Korhoň Vědecká knihovna v Olomouci

Digitalizace a zveřejnění sbírkových fondů paměťových institucí Zlínského kraje

Portál ebadatelna Zlínského kraje a zpřístupnění map. Prezentace historických map z fondu paměťových institucí Zlínského kraje

REFORMÁTOVÁNÍ, DIGITÁLNÍ KNIHOVNA, KRAMERIUS PRO VÁS A TROCHU JINAK

NÁVRH NA VYHLÁŠENÍ NÁRODNÍCH PROGRAMŮ V RÁMCI STRATEGIE ÚČINNĚJŠÍ STÁTNÍ PODPORY KULTURY

NTK Discovery. Od katalogu k centralizovanému vyhledávání

Budování virtuální depozitní knihovny. Tomáš Foltýn

Doporučeno pro předpokládané využití serveru pro zpracování 2000 dokumentů měsíčně. HW: 3GHz procesor, 2 jádra, 8GB RAM

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

Sluţba Karlovarského kraje pro ukládání dokumentů a dat na území kraje

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

TECHNICKÁ SPECIFIKACE VEŘEJNÉ ZAKÁZKY

Projekt NUŠL a další projekty v ČR

Strategie budování sbírky Webarchiv u

2008 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 3.0 Česko

Národní digitální knihovna

Velká data v knihovnách Open source tools and their use in Czech libraries

Digitalizace a digitální knihovny v České republice

ebadatelna Zlínského kraje

Projekt Digitální knihovna pro šedou literaturu po prvním roce řešení

PRODUKTY. Tovek Tools

DATA ULOŽENÁ NA VĚČNÉ ČASY. (ICZ DESA / Microsoft Azure) Mikulov Michal Matoušek (ICZ) / Václav Koudele (Microsoft)

ELEKTRONICKÉ DOKUMENTY A KATASTR NEMOVITOSTÍ, DOKUMENT MANAGEMENT SYSTEM

Microsoft SharePoint Portal Server Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Muzea a digitalizace Zvukové a filmové záznamy Národní technické muzeum 24./

Digitální konkordance a Registr digitalizace v Manuscriptoriu,

Univerzální vyhledávací portál jako integrační řešení pro digitální knihovny

Koncepce Národní digitální knihovny a dlouhodobé ochrany digitálních dokumentů

Integrace datových služeb vědecko-výukové skupiny

NOVÝ FONOGRAF MARTIN MEJZR DOMINIKA MORAVČÍKOVÁ FILIP ŠÍR

PROVÁZÁNÍ ECM/DMS DO INFORMAČNÍCH SYSTÉMŮ STÁTNÍ A VEŘEJNÉ SPRÁVY

JPEG Formát pro archivaci a zpřístupnění.

Národní digitální archiv a egovernment

Silný portál. Jindřiška Pospíšilová. Pracovní skupina pro silný portál. Národní knihovna ČR

Dlouhodobé uchování a zpřístupnění digitálních dokumentů v Evropě: výsledky dotazníkového průzkumu

Digitalizace pražské židovské literatury v Městské knihovně v Praze

Ochranné reformátování. Miloš Korhoň

CASLIN SOUBORNÝ KATALOG ČESKÉ REPUBLIKY

Metodika budování sbírky Webarchivu

Projekt informačního systému pro Eklektik PRO S EK. Řešitel: Karolína Kučerová

Koncepce rozvoje knihoven ČR na léta Priorita 2: Trvalé uchování digitálních dokumentů

IT 3. Projekt centrálního zálohovacího systému v ČSOB Pojišťovně. Michal Mikulík. špička v každém směru

DOCUMENT MANAGEMENT TOOLKIT

Formáty WWW zdrojů. Mgr. Filip Vojtášek.

Jak vysoké školy pokročily ve zpřístupňování své šedé literatury

KRAJSKÉ DIGITÁLNÍ ÚLOŽIŠTĚ

CESNET. Národní e-infrastruktura. Ing. Jan Gruntorád, CSc. ředitel CESNET, z.s.p.o.

Manuscriptorium jako základ pro virtuální badatelské prostředí

The bridge to knowledge 28/05/09

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Digitální mapa veřejné správy

PRODUKTY. Tovek Tools

Autor: ing. Tomáš Psohlavec a kolektiv AiP Beroun s.r.o.

Požadavky na systém pro automatizaci muzejní knihovny

Certifikace Národní digitální knihovny podle ISO normy Jan Mottl AiP Safe s.r.o.

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

MBI - technologická realizace modelu

Grantové programy na podporu knihoven. Roman Giebisch Národní knihovna ČR

Představení e-infrastruktury CESNET Ing. Jan Gruntorád, CSc. ředitel CESNET, z.s.p.o.

CESNET, GRIDy a přenosy dat

Jádrem systému je modul GSFrameWork, který je poskytovatelem zejména těchto služeb:

Dlouhodobé a důvěryhodné uchovávání elektronických dokumentů

Možnosti využití dat RÚIAN poskytovaných VDP pomocí webových služeb

Petr Pavlinec, Kraj Vysočina Roman Kratochvíl, ICZ a. s. 2. dubna 2012 Konference ISSS 2012

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

RDF DSPS ROZVOJ PORTÁLU

DŮVĚRYHODNÁ ELEKTRONICKÁ ARCHIVACE. Petr Dolejší Senior Solution Consultant

Informace k ICT projektům Ministerstva kultury

Metodické setkání uživatelů spisové služby Gordic 11. listopadu 2014

ÚČAST NK ČR V PROJEKTU NORSKÉ FONDY DIGITALIZACE BOHEMIKÁLNÍCH MONOGRAFIÍ OHROŽENÝCH DEGRADACÍ PAPÍRU

Výzva č. 19 IOP Služby TCK. Ing. Tomáš Kuba Plzeňský kraj

Transkript:

C Popis výzkumného záměru C1. Vymezení předmětu výzkumné činnosti realizované ve výzkumném záměru Vytvoření virtuálního prostředí pro ochranu a zpřístupnění dokumentů získaných digitalizací vzácných originálů a formou povinného výtisku na fyzických médiích C2. Současný stav úrovně poznání a výzkumné činnosti, která je předmětem výzkumného záměru, z mezinárodního a národního hlediska V současné době běží ve světě řada digitalizačních programů, ale jen málo z nich řeší vše komplexně a na dobré úrovni. Většina institucí se věnuje spíše zpřístupňování a archivaci elektronických dokumentů z prostředí Internet, jen málo z nich má silný a komplexní vlastní digitalizační program, sahající od výroby dokumentů až po jejich zpřístupnění. I v těchto případech mají dobré programy řadu bílých míst zejména v kvalitě digitálního zobrazení vzácných barevných předloh nebo i v řešení struktur popisných metadat. Z projektu států G7 Bibliotheca Universalis, kde je zúčastněno kromě sedmi národních knihoven států G7 ještě sedm dalších relevantních evropských knihoven vč. Národní knihovny ČR, mají srovnatelné (v tomto případě rozsáhlejší) programy pouze Library of Congress ve Washingtonu a Bibliothèque Nationale de France v Paříži. Ostatní instituce se spíše věnují zprostředkování existujících elektronických informací nebo realizují pouze ad hoc projekty malého rozsahu. Naše soustavná orientace na vzácné historické dokumenty (rukopisy, tisky, mapy) a na dokumenty na kyselém papíře (staré noviny) je svým objemem v této skupině knihoven pozoruhodná. Národní knihovna ČR koordinuje dva národní digitalizační programy: Memoriae Mundi Series Bohemica a Kramerius, které vyprodukovaly dodnes přes 1 300 000 stran dokumentů, z nichž ca. 400 000 stran rukopisů ve velmi vysoké kvalitě, která dovoluje tisk faksimile. Historie našich digitalizačních úsilí sahá do roku 1992, rutinní provoz digitalizace rukopisů začal v r. 1996. Národní knihovna ČR byla jednou z prvních institucí v Evropě, která začala s rutinní digitalizací historických dokumentů a ve spolupráci s AIP Beroun s.r.o. vydala také první digitální produkt programu UNESCO Paměť světa (1993). Od té doby je stav našeho poznání a naší výzkumné činnosti na světové úrovni. Vyrobená data jsou zpřístupňována off-line v oddělení rukopisů a starých tisků (rukopisy na CD) a on-line z prostředí Digitální knihovny (především periodika) a databáze Memoria (www.memoria.cz rukopisy a další historické materiály). Propojení s vyššími metasystémy O naše data je velký zájem doma i v zahraničí jde především o napojení do vyšších sofistikovaných portálů, které si kladou za cíl tvorbu badatelských prostředí různě odborně zaměřených (tč. například historie, stará hudba, atp.) Toto se odráží v naší účastí v běžících mezinárodních programech VICODI nebo ECH:TOPICC, což klade velké nároky na naši datovou strukturu a na komunikační nástroje v prostředí, které se neustále mění, ve kterém se domlouvají a budou domlouvat nové metadatové a datové standardy, které mají nebo budou mít přinejmenším charakter výměnných formátů. Naše komunikační nástroje se musí vůči těmto prostředím definovat. Napojování různých zdrojů vzniklých digitalizací historických materiálů je aktuálním tématem podporovaným jak v minulém 5. rámcovém programu (právě nastartovaný projekt VICODI), tak především v nynějším 6. rámcovém programu výzkumu a vývoje Evropské unie (existující Expression of Interest, jehož jsme spolupředkladateli, týkající se spolupráce při budování společného prostředí pro zpřístupnění digitalizovaných novin). Všechny partnery v těchto projektech a v dalších čeká velké množství práce. Pokud nechtějí spolupracovat pouze jednorázově, musí se zřetelně vydefinovat na bázi vznikajících standardů pro strukturaci celých digitálních dokumentů, z nichž každý může představovat složitou strukturu, vytvářenou stovkami metadatových a datových souborů, jejichž klíčovými komponenty bývá bibliografický popis na všech hierarchických úrovních, odborné popisy jednotlivých částí a technický popis datových (většinou obrazových) souborů. Komunikační platformou se stalo jednoznačně XML a předpokládá se vývoj protokolů spolupracujících na této bázi. Například v 5. rámcovém programu se o to pokusil evropský projekt DIEPER, avšak nevyvrcholil formalizací (DTD) navrženého komunikačního formátu.

Pro sledování vývoje a reagování na změny je třeba mít silnou výzkumnou kapacitu a také kapacitu schopnou uskutečnit a aplikovat příslušné změny, které většinou ústí do migrace vyrobených dat. Ta nás například tč. čeká v oblasti digitalizovaných rukopisů při přechodu z aplikace DOBM SGML do XML. Současně dochází k obohacování struktur o nové popisné standardy na všech úrovních. Pro rukopisy resp. historické materiály existuje v Evropě výstup projektu MASTER, tj. příslušné DTD na bázi SGML TEI pro bibliografický popis rukopisů. Národní knihovna ČR jej již zavedla do praxe a zároveň začlenila i do širší struktury digitálního rukopisu. Obdobné komplexní pojetí našemu není známé, resp. nebylo nikde veřejně deklarováno. Užívaná řešení se soustřeďují především na webové zpřístupnění a pravděpodobně se nezakládají na pevně definované a deklarované SGML/XML struktuře celého dokumentu, tzn., že jsou víceméně utilitární. Náš přístup je komplexní a založený na otevřených standardech pokrývajících celou problematiku digitálního dokumentu, reprezentujícího historickou písemnou památku. Všichni budoucí partneři propojujících se iniciativ se budou muset vůči vnějšímu prostředí jednoznačně vydefinovat. Národní knihovna ČR je v řadě iniciativ tohoto typu zapojena a bude muset řešit stejně jako ostatní své zapojení. V oblasti vzácných dokumentů se tato řešení mohou lišit každopádně jiné bude pro noviny, možná hodně specifické i pro hudební dokumenty je třeba tudíž mít výzkumnou kapacitu, jak na obdobné požadavky reagovat. Zapojení do evropského projektu VICODI ukazuje, že společné projekty budou řešit nadstavbové aplikace, ale způsob propojení bude na silách každého partnera zvlášť. V této oblasti jsme spolu s několika dalšími světovými institucemi rovnocenně na počátku možné spolupráce, do níž musíme vložit velmi mnoho sil. Stávající výzkumný záměr umožní se do ní účinně zapojit. Propojení s datovými úložišti Digitální knihovny menšího rozměru nemají obyčejně problém s uložením dat pro archivaci a zpřístupnění. Většina existujících knihoven zaměřených na vzácné dokumenty se snaží pracovat s malými datovými (obrazovými) soubory, které jsou přímo zobrazitelné v oknech prohlížečů a nekladou nároky na další manipulaci (zvětšování/zmenšování obrazu a další operace). Vznikají tak na pohled efektní projekty například digitalizace starých pohlednic nebo i dalších máloformátových dokumentů vč. rukopisů. Nicméně řada větších formátů jako některé rukopisy, periodika a mapy kladou značné nároky na uložení dat a jejich zobrazení. Naše řešení předpokládá různorodost uložení obrazových dat digitální knihovna-archiv, digitální knihovna-rychlá disková pole, kapacity speciálních databázových serverů (například rukopisy) nebo prostředí Sítě národního výzkumu CESNET2 pro objemné datové soubory například historických map (Národní knihovna ČR se zapojuje též jako datový zdroj do projektu DiDaS /Distribuované datové sklady Fond rozvoje CESNET/). Naše aplikace budou muset umět s těmito datovými úložišti (často i vzdálenými) spolupracovat a zároveň spolupracovat s vyššími mezinárodními systémy dle jejich konkrétního zaměření. Způsob spolupráce na obou stranách je závislý na vývoji a ověřování technologií. V tomto můžeme být jedním z mála pracovišť v evropském měřítku, které pro specifickou oblast zpřístupnění vzácných fondů budou tyto otázky řešit. Optimalizace výroby a struktury digitálních dokumentů Ve většině případů se obdobné aktivity zaměřují na identifikační údaje (bibliografický/katalogizační záznam byť specifičtěji strukturovaný než záznamy typu MARC). Komplexní metadatové formáty pro knihovní dokumenty takřka neexistují, tj. formáty zahrnující celou hierarchii struktury dokumentu, informace o technických aspektech datových souborů a umožňující popisy dalších objektů dle nových objevujících se specifikací. Aplikované formáty musí tedy mít značnou míru obecnosti a flexibility. Náš formát DOBM (doporučený i UNESCO) tyto vlastnosti měl a svou filozofií předběhl i platformu XML. Ta je ale nyní předpokládanou standardní platformou pro výměnu dat i komunikaci mezi systémy. Na tomto základě musí dojít k dohodám o struktuře výměny dat v mezinárodním měřítku. Jistým pokusem v EU byl tzv. formát DIEPER, který bohužel po skončení projektu nevyvrcholil v příslušném DTD. Tato iniciativa bude pokračovat a my se do ní budeme zapojovat. Obdobně tomu bude i pro další typy dokumentů. Značnou aktivitu zaznamenáváme v oblasti staré hudby. V oblasti výroby a strukturace digitálních dokumentů jsme v popředí vývoje spolu s těmi institucemi, které se budou pokoušet o užší spolupráci v mezinárodním měřítku. Realizace těchto úsilí si vyžádá velké množství kapacit (dostáváme další návrhy na spolupráci s různými oborově zaměřenými programy). Odsouhlasení nového komplexního formátu pro celý digitální dokument je však jen začátek práce, která musí

zajistit implementaci tohoto formátu jak do výrobních nástrojů, tak i do nástrojů, které slouží zpřístupnění dat. Nové formáty je třeba oživit v digitalizovaných dokumentech, tzn. jde postupně o vytvoření nových komplexních prostředí zahrnujících všechny procesy manipulace především s metadaty, popisujícími digitální dokument ten má zpravidla stovky stran, reprezentovaných jednotlivými obrazy, případně plným textem. Technologie výroby digitálního dokumentu a následných operací s ním příp. i s exportem metadat do výměnných formátů je nezbytným předpokladem efektivního začleňování se do různých mezinárodních iniciativ. Například započatá migrace celých komplexních digitálních kopií rukopisů spolu s optimalizací obrazových souborů je svým rozsahem jedinečná. Zdokonalení archivačního systému a systému pro zpřístupnění digitálních dokumentů Naše digitální knihovna je v současné době především zařízením na archivaci digitálních dokumentů vzniklých na bázi vzácných fondů českých institucí v obou výše zmíněných národních programech digitalizace (Memoriae Mundi Series Bohemica a Kramerius). Její archivační charakter je dán především technologicky, neboť spočívá na magnetopáskové robotické jednotce. Ta byla pořízena ještě jako součást staršího projektu výzkumu a vývoje, zaměřeného na digitalizaci mikromédií. Jejím původním účelem tedy bylo zabezpečit uložení velkého objemu digitálních dat vznikajícího digitalizací archivních mikrofilmů vzácných a ohrožených periodik. Její kapacita je tč. několik TB a původnímu účelu velmi dobře slouží. Později vznikl nápad zpřístupňovat data z této knihovny po Internetu uživatelům. V zásadě se to povedlo, ale přístup do magnetopáskové knihovny je pomalý, čtecí mechaniky bývají zdrojem chyb a navíc dochází k přímému využívání archivních souborů v živém provozu. V r. 2001 byla digitální knihovna napadena hackerským útokem, což odložilo její uvedení do provozu naštěstí však nedošlo k průniku do archivačního systému. Stávající konstrukce digitální knihovny není bezpečná a práce s ní není ani uživatelsky přívětivá. Z tohoto důvodu bude výzkumný záměr řešit fyzické oddělení systému a dat pro zpřístupnění od jejich archivace. Jedním z velkých problémů je dodávání objemných obrazových dat a práce s nimi. Ta bývá řešena jak na straně klienta (různé zásuvné moduly, skripty), tak i na straně serveru (přizpůsobení obrazu dle přání uživatele). Digitální knihovna využívá všechny tyto možnosti a dále i různé sady obrazů téže strany (u menších formátů rukopisy) pro různý účel. Zejména však u velkých novinových formátů však je dodávání uživatelsky příjemných dat problematické: velké objemy souborů a nesnadná manipulace s obrazem v prostředí webového prohlížeče. Jako vůbec první na světě jsme aplikovali do tak složitého mechanismu dynamickou konverzi archivních dat na vyžádání do moderního formátu DjVu. Tento formát jsme si ověřili řadou testů. Nicméně rychlost konverze závisí stále na vystavení archivních obrazových dat z magnetopáskového robota na diskové pole (to má omezenou kapacitu). Naším cílem je zkonvertovat data pro uživatele do DjVu formátu a vystavit přímo na diskovém poli, které k tomuto účelu bude pořízeno z jiných prostředků před zahájením tohoto výzkumného záměru. Obrazová data ohrožených periodik v DjVu jsou několikanásobně menší než zdrojové soubory JPEG při zachování dobré kvality. Navíc uživatel získává dobrou manipulovatelnost s obrazovým souborem díky příslušnému DjVu zásuvnému modulu. V oblasti práce s digitálními kopiemi historických dokumentů jde svým objemem a zcela výlučnou záležitost. Řešení netkví pouze v datové konverzi, ale také ve vytvoření komplexního uživatelského zrcadla archivního systému. Toto řešení zvýší zájem o naše data pro mezinárodní spolupráci. Na druhé straně se bude také optimalizovat a zdokonalovat systém archivace. Personalizace virtuálního badatelského prostředí Databáze a digitální data je třeba zapojit do služby vytipovaným badatelským skupinám. Vzhledem k charakteru našich digitalizovaných dokumentů je bezesporu jednou z nich skupina badatelů v historických fondech. Těm je žádoucí nabídnout takovou službu, která dokáže nabídnout různé zdroje: nově pojaté databáze analyticky popisující významné entity fyzických dokumentů, dokumentaci k jednotlivým odborným otázkám, samotné dokumenty v obrazové podobě, ale i jejich strukturovaný text. Národní knihovna ČR je členem konsorcia TEI a pracovníci z okruhu oddělení rukopisů a starých tisků se zabývají otázkami zpřístupnění plných textů rukopisů na platformě SGML TEI. Kromě toho probíhá experimentování v OCR starých novin za účelem využití textu pro snazší orientaci v rozsáhlých sbírkách digitálních periodik. Personalizace badatelských prostředí je cílem řady zahajovaných projektů EU a také projektů, které budou teprve předloženy. I když se některých z nich účastníme (spíše jako datový zdroj), musíme vytvořit vlastní komplexní virtuální badatelské prostředí na bází našich digitálních sbírek a s využitím poznatků z řešení mezinárodních projektů. Tam jde dosud o parciálních oborové iniciativy (historie, hudba).

Předpokládáme postupné přetváření dialogu s uživatelem a vytváření co nejlepšího badatelského komfortu. Přístup k autorsky chráněným digitálním dokumentům Řada dokumentů v naší digitální knihovně nejsou volná díla z pohledu stávajícího autorského zákona. Za určitých okolností je lze zpřístupnit, ale k tomu je postupně po vyřešení mnoha nejasností třeba vytvořit automatizovaný systém clearingu, který by na požádání umožnil vážným zájemcům přístup k autorsky chráněným dílům zákonným způsobem. Řešení této etapy předpokládáme v pozdější době. Vzhledem k rozmanitosti našich dat to nebude snadná otázka a vyplatí se počkat. Není vyloučeno ani užití dílčích výsledků mezinárodních projektů, pokud pro nás budou přínosem.

C3. Vztah problematiky výzkumného záměru k výzkumnému zaměření uchazeče/vykonavatele a jeho souvislost s dlouhodobým výhledem rozvoje výzkumu a vývoje uchazeče/vykonavatele Předkládaný výzkumný záměr navazuje na řešení výzkumného záměru Digitální knihovna produkce, ochrana a zpřístupnění digitálních dokumentů (1999-2003, řešitel Adolf Knoll), ve kterém se podařilo zprovoznit Digitální knihovnu v Národní knihovně ČR především v základním archivačním režimu. Současná digitální knihovna slouží tedy primárně jako prostor pro archivaci dat z produkce národního programu hybridního reformátování (mikrofilmování a digitalizace mikromédií) dokumentů ohrožených rozpadem kyselého papíru. Záměr tyto výsledky řešení dále rozvíjí (viz C5). Od r. 1997 bylo také řešeno několik programových projektů VaV, které mají vztah k řešené problematice a na které navazujeme, a to: Archivace a zpřístupnění vzácných dokumentů s využitím digitální technologie (řešitel Adolf Knoll) Digitalizace mikromédií (řešitel Jiří Polišenský) Optimalizace archivace a zpřístupnění digitálních dat (řešitel Adolf Knoll) Optimalizace hybridní technologie reformátování ohrožených knihovních fondů (řešitel Františka Vrbenská) Dále byla Národní knihovna ČR spolunositelkou evropského projektu MASTER (Manuscript Access through STandard for Electronic Records) a je spolunositelkou běžícího projektu EU VICODI a mezinárodního projektu Eureka! ECH:TOPICC (schváleného; Národní knihovna ČR žádá o národní podporu). Noví zájemci o spolupráci v 6. rámcovém programu EU se dále objevují v oblasti zpřístupnění historických hudebních dokumentů; počítá se s naším zapojením jako hlavního partnera v evropském projektu zpřístupnění digitalizovaných novin, pokračuje naše spolupráce s Bibliotheca Universalis a s Technickou subkomisí programu Paměť světa UNESCO. Zapojujeme se do řešení projektu DiDaS (Distribuované datové sklady fond rozvoje CESNET). Naše výsledky a technologie byly také ověřeny v řadě publikačních výstupů, jako byly například katalogy arabských a perských rukopisů na CD-ROM. Řešiteli, resp. spoluřešiteli těchto projektů/záměrů byli členové řešitelského týmu předkládaného nového výzkumného záměru. Všechny projekty skončily úspěšně a jejich výsledky měly široký národní a zejména mezinárodní ohlas. Národní knihovna ČR je přirozeným řešitelem uvedených otázek pro celou ČR. Její postavení je o to významnější, že je koordinátorkou (opět konkrétně prostřednictvím dvou členů řešitelského týmu Adolfa Knolla a Jiřího Polišenského) národních projektů ochrany a digitalizace vzácných a historických fondů českých institucí: Memoriae Mundi Series Bohemica a Kramerius. Odpovídá za archivaci a badatelské zpřístupnění dat vzniklých v těchto projektech nyní přes 1 300 000 stran vzácných dokumentů. Probíhající výzkum a zejména výzkumné záměry de facto umožňují rutinní digitalizační práce provádět na vysoké úrovni a v rámci aplikace tzv. otevřených standardů. Národní knihovnou ČR vstupují národní data do vyšších systémů, kde je o ně ve světě a zejména v Evropě velký zájem. Národní knihovna ČR je považována v evropském měřítku za špičkové pracoviště, kde se řeší otázky spadající do předkládaného výzkumného záměru. O tom svědčí i pozvánky a účast na mezinárodních konferencích a zájem o školení v dané oblasti v zahraničí. C4. Dosavadní podíl uchazeče/vykonavatele na řešení problematiky výzkumného záměru v národním a mezinárodním měřítku V národním měřítku vyvinul uchazeč technologie, které umožnily spustit dva národní digitalizační programy, spočívající na společných standardech, a zahájit výstavbu digitální knihovny. Uvedených programů se účastní významné české instituce: knihovny, muzea, archivy i církevní instituce. Díky nim se daří budovat bohatý společný digitální fond vzácných rukopisů, tisků, ohrožených novinových fondů atp. Programy používají společné nástroje na tvorbu metadat i datových souborů a společné standardy, vyvinuté ve výše uvedených projektech uchazeče. Koncepce digitální knihovny zajišťuje dlouhodobou dostupnost dat vč. jejich migrace k té například začíná docházet u digitalizovaných rukopisů v této době. Koncem roku 2002 je k dispozici na 1,3 milionu stran dokumentů v obrazové podobě. Digitální dokumenty jsou uloženy na CD a v prostředí robotické knihovny. Nasazen je moderní systém dodávání dokumentů; k jeho lepšímu a flexibilnějšímu využití je třeba

však řešit některé otázky zabudované do předkládaného výzkumného záměru. Komplexnost a nástroje tvorby a strukturace digitálních dokumentů a jejich skutečné nasazení do praxe jsou přijímány s respektem v mezinárodním měřítku. O spolupráci s námi je velký zájem uchazeč je spoluřešitelem evropského standardu pro katalogizační a bibliografické zpracování rukopisů (MASTER), nadále se podílí na řešení otázky společného zpracování historických fondů v národním a nadnárodním měřítku (CEE MASTER), na řešení kontextualizace a vizualizace historických dat a informací (projekt EU VICODI), řešení vztahu ochrany a zpřístupnění historického materiálu (vliv mikroklimatu a projekt EU IDAP), pro program UNESCO Paměť světa je také řešitelem vzorového přístupu k digitalizaci historických fondů (součást doporučené bibliografie UNESCO); oceňováno a široce citováno je též testování nových kompresních algoritmů pro oblast digitálního zobrazení historických dokumentů (jednobitová kompresní schémata a komprese barevného obrazu vč. smíšené komprese tzv. Mixed Raster Content přístupu - MRC).

C5. Vymezení cílů výzkumného záměru 1. Vytvoření informačního systému digitalizovaných dokumentů, schopného spolupracovat: a. s vyššími metasystémy vytvářejícími konkrétní badatelská prostředí na světové úrovni (například evropský projekt VICODI, projekt Eureka! ECH:TOPICC, projekt G7 Bibliotheca Universalis a další) b. s datovými úložišti různého charakteru včetně vzdálených a síťových (storage/information grid), například ve spolupráci se Sítí národního výzkumu CESNET2 2. Optimalizace výroby a strukturace digitálních dokumentů ve vztahu k mezinárodním projektům a novým standardům, které teprve budou dohodnuty resp. schváleny, například v oblasti celoevropského přístupu k digitalizovaným periodikům 3. Řešení vzájemné nezávislosti uložení archivních a uživatelských kopií digitálních dokumentů za účelem trvanlivějšího a pružnějšího zpřístupnění a spolehlivé archivace: a. Vybudování a zdokonalování archivačního systému pro digitální dokumenty b. Vybudování a zdokonalování systému rychlého zpřístupnění pro digitální dokumenty c. Monitoring a dlouhodobé uchování fyzických médií, obsahujících digitální data, především vlastní produkci a audio CD (povinný výtisk). 4. Vytvoření a personalizace virtuálního badatelského prostředí na bází digitalizovaných vzácných knihovních dokumentů vč. plných textů 5. Copyright clearing pro přístup uživatele k autorsky chráněným dokumentům 6. Vybudování komplexního elektronicko-digitálního prostředí pro práci s historickými dokumenty a fondy umožňujícího jak přípravu a zpracování, tak využívání dat: a. Integrace různých typů historického materiálu v jednotném prostředí. b. Vytvoření metodologií, metodik a best practices pro práci v tomto prostředí: Vypracování komunikologických a informačních modelů pro práci s historickými dokumenty (tzv. digitální historie) Rozvinutí nelineárních struktur pro práci s historickým materiálem Vymezení pomocných věd pro práci s historickým materiálem v elektronickodigitálním prostředí Vytvoření znalostních modelů pro postižení kontinuity idejí v diskontinuitě diskursů c. Ověření paradigmatických základů pro práci s historickým materiálem v elektronickodigitálním prostředí (tzv. posthistorie)

C6. Strategie a metody řešení výzkumného záměru 1. Vytvoření informačního systému digitalizovaných dokumentů, schopného spolupracovat s dalšími systémy v mezinárodním prostředí: a. identifikační data z digitalizovaných dokumentů dle typu dokumentu vytvoří příslušné databáze, do nichž se budou údaje derivovat z digitálních kopií a ve standardech, které umožní efektivní mezinárodní spolupráci. Toto znamená přizpůsobit/migrovat již vyrobená popisná data do inovovaných formátů. V oblasti rukopisů to znamená důslednou aplikace standardu MASTER pro bibliografický záznam, což se již prakticky začíná provádět. Databáze rukopisů je již přístupná na Internetu a se stávajícími a budoucími partnery v mezinárodním prostředí bude třeba domluvit nezbytné formy komunikace. To může dodatečně zpětně ovlivnit popisnou strukturu dokumentu, například v oblasti hudebních památek. Dále to znamená realizaci intenzivního dialogu se zahraničními partnery a spoluúčast na jejich řešeních. Lze předpokládat celou řadu různých typů dokumentů i typů spolupráce. Ideálem je dosažení rychlého informačního systému, z něhož bude uživatel na vyžádání směřován do příslušných datových úložišť. Uložená data budou reprezentovat jako dosud samotný historický dokument v obrazové podobě, ale předpokládá se i strukturace plných textů například u vybraných rukopisů na bázi TEI SGML. V určité míře půjde i o zvukové soubory případně video soubory. Dále půjde i o významnou dokumentaci zkvalitňující studium pramenů, a tím i celé badatelské prostředí. b. v oblasti datových úložišť nepůjde obecně o jedno možné úložiště, ale o kombinaci vhodných úložišť: digitální knihovna, informační servery, prostředí Sítě národního výzkumu a vzdělávání CESNET2 formou sdílení distribuovaných datových skladů (storage grid). Toto rozšíření úložného prostoru a jeho diversifikace si vyžádá i řadu opatření v systémech vedoucích uživatele k vlastním datům. Samozřejmě, že bude ošetřena i míra zpřístupnění aplikací různých typů licencí. Potřebné spolupráce jsou ze strany řešitele navazovány s různými relevantními subjekty. Schematicky znázorňuje možnou spolupráci obrázek. U3 DiDas CESNET2 U1, U2, U3,, Ux - datová úložiště Virtuální integrátor mezinárodní např. ECH:TOPICC Uživatel U2 U1 Katalog http://www.memoria.cz katalog periodik Digitální knihovna http://www.cdh.nkp.cz

2. Optimalizace výroby a strukturace digitálních dokumentů ve vztahu k mezinárodním projektům a novým standardům: V 2001 byla deklarována nová obohacená struktura digitálního rukopisu formou příslušného DTD na platformě XML. Za základ byly vzaty doporučení a standardy, které byly v té době (a jsou ještě nyní) relevantní pro usnadnění mezinárodní spolupráce a dlouhodobé uchování digitálních dat. Schematicky ukazuje strukturu digitálního rukopisu obrázek. Obdobně bude třeba zpracovat i další typy dokumentů. To je možné a účelné však pouze ve vazbě na širší mezinárodní prostředí, aby obsahové standardy umožňovaly solidnější platformu pro Odstraněno: <sp> Identifikační záznam MASTER DTD Technický záznam na bázi NISO návrhu standardu a ICC profilů Popisy částí Technické popisy obrazů částí JPEG náhled JPEG uživatelský JPEG archivní MrSID (mapy) TIFF/G4 DjVu Fulltext SGML TEI výměnu/sdílení dat. Rovněž také i v případě rukopisů dojde ke přizpůsobování se určité standardizaci v oblasti segmentu popisu částí dokumentu na úrovni jednotlivých stran. Půjde pravděpodobně o ikonografii anebo další soubory objektů relevantní pro jednotlivé dílčí obory historického bádání. Předpokládáme určitá rozšíření v oblasti hudebních památek, kde je šance se začlenit do dvou mezinárodních projektů (ECH:TOPICC v rámci Eureka! a ProMUSICA, který je předkládán italskou Academia di Santa Cecilia spolu s významnými subjekty v oblasti zvukového průmyslu a staré hudby). Spolu s několika významnými evropskými knihovnami se Národní knihovna ČR hlásí jako hlavní partner zatím formou tzv. Expression of Interest ke sdílení digitalizovaných novin v evropském prostoru. Zde očekáváme vznik výměnného formátu. Další typy digitalizovaných dokumentů budou vyžadovat zapracování dalších specifik. Na naší straně půjde nejen o podílení se na těchto projektech, ale zejména na zapracování daných struktur (vč. plné implementace struktury pro rukopisy) do všech nástrojů výroby, zpracování/strukturace a zpřístupnění vznikajících dokumentů. Vyloučeno ani není, že bude třeba vyvíjet nástroje pro generování výstupů ve výměnném formátu pro některé centralizované systémy. Naše systémy dodávání dokumentů také budou muset umět spolupracovat s metasystémy historického bádání (VICODI), digitalizovaných periodik, hudebních památek (ECH:TOPICC) a dalšími v prostředí Internet. Zatím nelze plně předjímat konkrétní formy, ale ze zkušeností s evropskými projekty je známo, že bez vlastního výzkumného zázemí existujícího díky výzkumným záměrům nejsme schopni kvalitní účasti v těchto projektech ad hoc. V oblasti digitalizace mikrofilmu je celý proces napojen přímo na digitální knihovnu z důvodu výroby a zpracování obrovského množství dat. Automatizace procesu tvorby metadat by zde měla snížit vysoké objemy ruční práce a z ní vyplývající chybovosti. Část výzkumu zaměřená na úpravy obrazových souborů pro technologii OCR a vytěžování plných textů zónovým rozpoznáváním pro vytváření metadat na bázi XML byla provedena již v letech 2001 a 2002. V následující etapě je třeba vyvinout modul pro editaci dokumentů, který

umožní manipulaci s obrazovými soubory a metadaty. Realizace důsledné architektury server terminál by měla odstranit přenos velkých objemů dat po lokální síti ve výrobě a urychlit dávkové procesy prováděné s obrazovými soubory. Tím se vytvářejí předpoklady pro zvyšování výkonu po nasazení výkonnějšího serveru. Napojení externích producentů digitálních dokumentů na systémy archivace a zpřístupňování nespočívá pouze ve volbě způsobu přenosu dat na archivní úložiště, ale zejména ve standardizaci a unifikaci nástrojů, které by zaručily naprosto plynulé a automatizované archivování a zpřístupňování dokumentů digitalizovaných na různých pracovištích. Přenosy dat musí být především bezpečné, aby bylo zcela vyloučeno nebezpečí infikování datového archivu. 3. Řešení vzájemné nezávislosti uložení archivních a uživatelských kopií digitálních dokumentů: V současné době je archivace dat prováděna především v prostředí robotické knihovny na magnetických páskách. Archivovaná data jsou současně využívána a i pro zpřístupňovaní. To je však pomalé, neboť prvotní důvod vybudování systému bylo zajištění výroby a archivace vyrobených dokumentů v oblasti digitalizace mikromédií. Archivační prostředí prokázalo svou vhodnost i při sklízení českého webu. Dvojakost role robotického prostředí je do budoucna nevýhodná a neudržitelná. Přechod na off-line archivaci je základní podmínkou filozofie bezpečné centralizované archivace digitálních dokumentů. Archivace by měla být postavena na dosaženém řešení a využívat maximum stávajících technických prostředků. Došlo by tak k vytvoření skutečného referenčního archivu produkovaných digitálních dokumentů ve smyslu filozofie, o které například hovoří tzv. bílá kniha firmy Kodak. V oblasti digitalizace rukopisů referenční archiv existuje na optických discích, jejichž kvalita a integrita dat jsou pravidelně monitorovány (viz výsledky minulých projektů VaV). Zajištění dostatečného paměťového prostoru pro archivaci nebude založeno na pouhé extenzi stávajících technických prostředků, ale též na jejich optimálním využití při minimalizaci provozních nákladů. Toho lze např. dosáhnout kombinací diskového pole a robotické jednotky současně s přechodem na technologii AIT 4 (200 GB na kazetu), kdy při stejných nákladech na licence SAM FS by bylo možno dosáhnout archivní kapacity až 46 TB. Žádoucí je rovněž vytvoření aplikace specializované na archivaci digitálních dokumentů (ukládání, zálohování, obnova po havárii), která by byla důsledně propojena se souborovým systémem a plně využívala jeho možností a garantovala nezávislost dat na HW a SW. Jejím úkolem by bylo zajištění dlouhodobého uchování dat (kontrola úplnosti a integrity dat, migrace dat, konverze do vhodných formátů apod.) V oblasti kontroly integrity obsahu dat a spolupráce s partnery je třeba zajistit vývoj nástroje pro content management za účelem automatické kontroly a snadné editace obsahu archivovaných dokumentů a rovněž nástroje na řešení procesu replikace digitálních dokumentů externím partnerům pro selektivní automatizovaný přenos dat určeným partnerským institucím.

Referenční digitální archiv Administrace Disková pole pro zpřístupnění Referenční archiv mikromédií Referenční digitální archiv off-line médií (CD, mg. pásky) Oddělení zpřístupňování od archivace by mělo zajistit rychlý přístup většího počtu uživatelů ke komprimovaným digitálním dokumentům na různých lokálních systémech, nezávislost na přísných podmínkách pro archivaci, a tím širší možnost využití efektivních a flexibilních proprietárních řešení. V oblasti zpřístupnění předpokládáme diversifikaci zpřístupnění jednotlivých druhů dokumentů za účelem lepšího využití existujících prostředků a samotných vlastností dokumentů. Klíčové je především efektivní a uživatelsky příjemné dodávání vlastních dat, většinou obrazových (ale i jiných) souborů. Pokračovat musí proto testování a průzkum vlastností nových přístupů zejména ke komprimaci dat ve vazbě na jejich optimální dodávání v síti Internet. Půjde o daleko širší využití wavelet komprese a jednobitových kompresí typu JBIG2; v oblasti zvuku pak případně o aplikaci MP3pro a ve videu případně MPEG4 prostřednictvím technologie typu DivX. S tím souvisí i další konstrukce systémů pro zvládání manipulace a přenosu objemných souborů. Obecně lze přijímat opatření jak na straně dodavatele, tak i na straně klienta, případně je kombinovat. Pro různé typy dokumentů se mohou nasazené technologie a jejich kombinace různit. V současné době jako výsledek předešlého výzkumného záměru je nasazen v prostředí digitální knihovny obrazový server dodávající na vyžádání obrazová data ve formátu DjVu. Je v nezbytné míře parametrizovatelný i ze strany uživatele. Jeho efektivnějšímu využití však brání prodlevy při dodávání dat ke zpracování z magnetických pásek archivačního zařízení. Rukopisy využívají různých kvalitativních hladin obrazových sad, kde jsou mj. významné i změněné rozlišení a stupeň komprese v JPEG pro zpřístupnění. V minulém období byl vyvinut a aplikován zásuvný modul pro manipulaci s obrazem. Jeho komplexita byla vynikající, nicméně změny v obecném softwarovém prostředí omezily, resp. vyloučily, jeho použitelnost, proto musí práce v této oblasti pokračovat. Pouhá použitelnost nástrojů na straně klienta (jako optimální se jeví skripty, speciální zásuvné moduly, příp. asociované programy, pokud webové prohlížeče umožní jejich inicializaci) není sama o sobě vždy efektivní, neboť ho neušetří od přenosu často značného objemu dat. Je proto třeba ji kombinovat s opatřeními na straně dodavatele dokumentů, kde se jeví jako optimální po oddělení zpřístupňovacího systému od archivace implementace speciálně generovaných souborů. V našem případě půjde o optimalizované sady JPEG pro rukopisy (předpokládáme přegenerování aktuálních sad z archivních souborů na základě již dosažených výsledků optimalizace zobrazení JPEG v rámci skončeného projektu VaV) v kombinaci s novým Java skriptem pro zvětšování a zmenšování obrazu (ani nový Netscape od verze 7 již nepřijímá zásuvné moduly pro obrazové soubory vyčleněné pro prostředí WWW, tj. JPEG, GIF a PNG). Pro oblast historických map bude aplikována technologie MrSID, která již byla zvládnuta vč. obrazového serveru, ale nebyly technické prostředky pro její implementaci do denní praxe. Pro oblast novin a dalších velkoformátových dokumentů většinou z produkce digitalizace mikromédií se jako optimální jeví vygenerování uživatelských souborů pravděpodobně ve formátu DjVu a jejich oddělené uložení na diskových polích. Uživatelské zrcadlení archivního prostředí a možnost jeho

replikace z archivního úložiště bude třeba též řešit v předkládaném záměru. Zároveň bude vhodné řešit i vývoj nástroje pro automatický záznam složitých strukturovaných dokumentů na fyzická média pro potřeby menších institucí za účelem nahrazení ohrožených papírových dokumentů. Směry vývoje technologií do roku 2010 lze do určité míry předpokládat, nelze však dnes plně předvídat podobu budoucích nástrojů nebo výskyt nových otevřených řešení. Otázkou například zůstává, zda dojde skutečně k uživatelskému rozšíření JPEG2000 nebo zda jej čeká osud obdobný JBIG resp. JBIG2 v černobílé oblasti, resp. TIFF/JPEG pro barevný obraz. I přes skutečnost, že jde o ISO standardy, jejich aplikace je komerčně blokována a nákladnost jejich rozšíření je de facto odsuzuje k zániku. Jejich místo pak často zaujímají proprietární řešení - například formát PNG fakticky vytlačil ideu TIFF/LZW. Rovněž bude probíhat monitorování kvality fyzických médií a archivovaných dat jako trvalá součást výzkumu. Cílem je zjišťování chyb, poškození a degradace, které se následně stávají předmětem výzkumu jejich příčin. Zjištěné skutečnosti umožní zobecnit zásady správy digitálního archivu založeného na fyzických médiích. V r. 2004 bude pro tento účel nutné obnovit zařízení pro měření redundance dat a provádět měření médií. 4. Vytvoření a personalizace virtuálního badatelského prostředí Cílem je vybudování komplexního elektronicko-digitálního prostředí pro práci s historickými dokumenty a fondy umožňujícího jak přípravu a zpracování, tak využívání dat. Toto je průřezový úkol, odrážející se v předešlých technických etapách a ovlivňující je. V návaznosti na ně je k tomu třeba zajistit: Integraci informačních nástrojů a prostředků fyzické fondové a virtuální síťové knihovny prostřednictvím vzájemné konverze standardů MARC a MASTER, stanovit model minimálně informačně uspokojivého záznamu, umožnit transformaci lineárního přístupu k dokumentům na strukturální, pokusit se o adaptaci modelu FRBR; Integraci informačních nástrojů a prostředků v elektronicko-digitálním prostředí: konverze bibliografických dat DOBM do MASTER, sloučení dat reprezentujících různé typy materiálu do jednoho rozhraní, vytvoření informačního systému pro práci s různými typy materiálu, zpracovat modely pro autority, indexaci, anotaci a ontologii; Integraci digitální knihovny elektronických textů: elektronický text jakožto technický obraz, hypertextualizace, sdružené dokumenty a jejich vizualizace, kontextualizace cestou textové/obsahové a citační analýzy; Integraci vstupu do globálního síťového prostředí: spojení vnější a vnitřní sítě v jednom rozhraní, rozlišení mezi story a narrative (inspirace projektem EU CIPHER), vizuální kontextualizace (adaptace a implementace výsledků projektu VICODI), vytvoření/využití RAT (research annotation tool) a jeho veřejné využití přes hranice vlastního týmu. 5. Copyright clearing pro přístup uživatele k autorsky chráněným dokumentům Řešení této problematiky je předpokládáno v pozdějším období v návaznosti na výsledky mezinárodních projektů, které se tím hodlají zabývat (například ECH:TOPICC).

C7. Časový harmonogram řešení výzkumného záměru 2004 2005 Migrace dat digitalizovaných rukopisů na základě nového DTD, přegenerování obrazových souborů všech digitalizovaných rukopisů (ca. 400 000 archivních obrazů) do optimalizovaných uživatelských sad v JPEG. Vyřešení základního uživatelského prostředí a dodávání dat. Následná optimalizace ve vazbě na uživatele. Řešení konverze MARC-MASTER a vývoj příslušného software. Na základě migrovaných struktur rukopisů do XML integrace formátu do digitální knihovny pro účely archivace v robotickém prostředí. Monitoring dat uložených na fyzických nosičích: vlastní produkce a povinný výtisk audio CD. Realizace navržených opatření v praxi, tj. především archivní duplikace povinného výtisku. V tvorbě digitálních dokumentů byl v letech 2001 a 2002 ve spolupráci s firmou Elsyst Engeneering přizpůsobován systém Sirius pro úpravy obrazových dat a automatizovanou tvorbu metadat v oblasti digitalizace mikromédií ve formátu XML. V letech 2003 a 2004 by měl vývoj pokračovat tvorbou editačního modulu, který umožní dávkovou editaci digitálních dokumentů na úrovni obrazových souborů, metadat i komplexních dokumentů. Ve zpřístupňování digitálních dokumentů, které bude postaveno na respektování požadavků autorského zákona i předpisů EU, bude vytvořen systém, který bude obsahovat kompletní soubor komprimovaných dokumentů a z kterého se budou prováděny replikace spolupracujícím institucím. Vývoj v oblasti diskových subsystémů dává předpoklad, že bude možné zpřístupnit touto formou všechny vytvořené dokumenty. K tomu je třeba vyvinout program, který zajistí selektivní replikaci z archivního úložiště na diskové pole a bude schopen provádět kontrolu integrity dat a umožní spolehlivou správu obsahu. Systém by měl respektovat požadavky na bezpečnost a kompatibilitu s archivním úložištěm. V r. 2004 by měl být vytvořen funkční model. Tento systém předpokládá rozsáhlé datové konverze. Rukopisy, resp. produkty Memoriae Mundi Series Bohemica budou zpřístupněny v návaznosti na vlastní informační systém z jiného úložiště na základě optimalizovaných JPEG. Mapy budou zpřístupněny pomocí MrSID Image Server. V archivaci digitálních dokumentů budou formulovány požadavky na vývoj aplikace pro archivování velkého objemu dat zajišťující základní dávkové operace (export, import, kontrolu integrity, migrace, emulace, konverze do jiných formátů, selektivní replikaci na diskové pole, správu systému, správu obsahu atd.) a vybrána partnerská firma pro realizaci. Bude zpracován model pragmatické edice rukopisu (strukturovaný text) a editor pro pragmatickou edici (TEI) tyto práce budou pokračovat i v r. 2005. Předpokládá se spolupráce s mezinárodními projekty, kterou mohou ovlivnit datovou strukturu zejména v oblasti digitalizovaných periodik. Bude vytvořen systém pro zpřístupňování digitálních dokumentů z diskových polí (zejména digitalizovaná periodika) a předpokládá se jeho uvedení do provozu. Systém pro zpřístupnění rukopisů a map již bude v provozu v r. 2004. Bude pravděpodobně nezbytné zohlednit očekávaný výměnný formát pro spolupráci v oblasti digitalizovaných periodik v naší datové struktuře a především výrobních, resp. konverzních nástrojích. Forma sdílení digitalizačních úsilí v této oblasti ještě není známa: může jít jak o jednorázové generování metadat pro metasystém (dosavadní trend), tak i o jiné formy spolupráce s ním. Bude třeba vygenerovat uživatelské obrazy digitalizovaných periodik: volbou bude pravděpodobně jeden z existujících smíšených formátů, které jsou již dobře etablovány (DjVu nebo LDF). Naše datová úložiště budou muset spolupracovat s dalšími mezinárodními systémy a projekty: již nyní projekt EU VICODI (historická bádání) a pravděpodobně projekt Eureka! ECH:TOPICC (historická hudba). Způsoby spolupráce ovlivní naše nástroje. V oblasti archivace digitálních dokumentů půjde o vytvoření základního jádra systému a prověření jeho funkčnosti. Do badatelského prostředí budou začleňovány další pomocné zdroje všeho druhu.

2006 2007 V tvorbě digitálních dokumentů dojde k optimalizaci systému pro jejich tvorbu s ohledem na vývoj v oblasti skenování papírových dokumentů, v oblasti formátů (obrazových, textových a zvukových) a v oblasti tvorby elektronických dokumentů (digital born). V oblasti zpřístupňování digitalizovaných dokumentů bude optimalizován příslušný systém. Pokud dojde na mezinárodní scéně v předešlých letech v posunu v tzv. copyright clearingu za pomoci informačních technologií, dojde i u nás k příslušným implementacím (v daných projektech budeme zúčastněni) V případě příznivého vývoje v této oblasti bude řešena v síťovém prostředí archivace a zpřístupnění zvukových dokumentů došlých jako povinný výtisk. V oblasti archivace digitálních dokumentů proběhne vývoj zbývajících modulů systému pro archivaci a rovněž bude celý systém optimalizován. V oblasti personifikace badatelského prostředí dojde k vývoji a implementace RAT (research annotation tool) v síťovém prostředí Budou zpracovávány další nadstavby rozšiřující badatelské prostředí (vizualizace a kontextualizace) toto bude pokračovat i v r. 2007. Bude zpracována studie, která zajistí komplexní obnovu celého systému pro tvorbu, sběr, archivaci a zpřístupňování digitálních dokumentů v souvislosti s dostavbou Centrálního depozitáře NK ČR v Hostivaři a bude vybrán dodavatel programového vybavení. V oblasti strukturovaného textu historických dokumentů budou zpracovávány a implementovány nástroje pro textovou/obsahovou a citační analýzu (do r. 2009) 2008 Bude realizována základní část vývoje výše uvedeného systému na úrovni aplikace a navržena konfigurace platformy a hardware 2009 Bude dokončena realizace a oživení kompletního systému Budou vytvářeny a implementovány další nástroje pro zkvalitnění badatelského prostředí - data mining 2010 Bude zřízen komplexní personifikovatelný portál uživatelského badatelského rozhraní Výzkum a vývoj v pozdějších letech řešení bude více závislý na vývoji obecných softwarových a hardwarových prostředků, proto se bude řešení vždy na základě dosažených výsledků a v závislosti na vnějším prostředí postupně konkretizovat. Průběžně bude probíhat testování, průzkum a výzkum v oblasti moderních datových formátů a metod dodávání dokumentů; půjde zejména o systémy wavelet komprese, systémy smíšeného zpracování datového obsahu (Mixed Raster Content), systémy jednobitové komprese, moderní úsporné komprese zvuku nad rámec MP3 a systémy digitálního videa (zejména MPEG4 prostřednictvím technologie DivX za účelem dokumentace v badatelském prostředí). Budou zvažovány metody začlenění příslušných souborů do badatelského prostředí ať klasickou formou, tak i formou streaming video nebo audio vysílání. Průběžně bude probíhat orientování se v mezinárodních systémech, programech a projektech, jejichž cílem bude integrace digitálního obsahu. To předpokládá aktivní účast na příslušných poradách a konferencích za účelem spolupráce. Nedílnou součástí je i průběžná prezentace výsledků, která povede ke zvýšení zájmu o spolupráci s námi, Za tímto účelem je nezbytná účast na setkáních Bibliotheca Universalis (v rámci IFLA), LIBER, začlenění do vznikajících nových iniciativ v rámci 6. a posléze i 7. rámcového programu EU. Bez širokého a stabilního výzkumného zázemí není toto možné. Národní knihovna ČR je díky svým výsledkům, spočívajících nejen v množství digitalizovaných dokumentů, ale též v aplikaci moderních technologií vyhledávaným partnerem.

C8. Předpokládané výsledky řešení výzkumného záměru (včetně specifikace jejich charakteru, věcného obsahu a harmonogramu jejich předpokládaného uplatnění) informační databáze všech dokumentů produkovaných v programu Memoriae Mundi Series Bohemica v novém vnitřním XML formátu vč. celých migrovaných struktur dle nových specifikací (2004) spolupráce této databáze s datovým úložištěm optimalizovaných obrazových souborů dle technologie zabudované v programu CORES (výsledek skončeného účelového projektu) (2004) základní komfort uživatele při práci s obrazovými soubory JPEG (Java skript pro zoomování a obdobné prostředky) (2004) integrace technologie MrSID vč. obrazového serveru (2004 1. čtvrtletí 2005) konverzní nástroje MARC-MASTER pro rukopisy a tisky (2004) implementace rukopisů v XML do prostředí AIP SAFE za účelem archivace (2004) vytváření kopií povinného výtisku audio CD a pokračování monitorování off-line archivu digitálních médií (2004 2010 průběžně) tvorba editačního modulu, který umožní dávkovou editaci digitálních dokumentů na úrovni obrazových souborů, metadat i komplexních dokumentů v oblasti digitalizace mikromédií (2004) funkční model replikace archivních souborů do uživatelského modulu s předpokladem automatizované konverze DjVu (2004) formulace požadavků na vývoj aplikace pro archivování velkého objemu dat zajišťující základní dávkové operace (2004) model pragmatické edice rukopisu (plný text) a editor textu (TEI SGML) (2004) zohlednění požadavků projektu EU VICODI, případně projektu Eureka! ECH:TOPICC do datových struktur a komunikačních nástrojů (2004-2005) spolupráce na evropském projektu 6. rámcového programu na sdílení digitalizovaných periodik totéž jako v předešlém bodě pro tuto oblast včetně předpokládaného nového metadatového/výměnného formátu (2004-2005) zprovoznění systému zpřístupňování dokumentů (zejména periodik) z diskových polí po oddělení od archivního systému (2005) vytvoření jádra samostatného archivačního systému postaveného na stávajících zařízeních a nových aplikacích (2005) optimalizace archivačního systému (2006) systém pro vizualizaci a kontextualizaci vlastních databází a webového prostředí (2006-2007) nástroj propojení s širším webovým prostředím (RAT Research Annotation Tool) (2006) studie obnovy systému pro tvorbu, sběr, archivaci a zpřístupňování digitálních dokumentů (2007) základní realizace systému pro tvorbu, sběr, archivaci a zpřístupňování digitálních dokumentů (2008) systém pro citační analýzu elektronických textů (2008) systém pro textovou analýzu elektronických textů (2008) dokončení a kompletace systému pro tvorbu, sběr, archivaci a zpřístupňování digitálních dokumentů (2009) systém pro obsahovou analýzu elektronických textů (2009) systém pro data mining vlastních databází a webového prostředí (2009) integrované badatelské uživatelské rozhraní studia digitalizovaných a digitálních pramenů (2010)