Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů

Podobné dokumenty
Manuscriptorium. Návaznosti Manuscriptoria na evropské informační prostředí. Inforum Tomáš Psohlavec, AIP Beroun s.r.o

Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů

Manuscriptorium - 10 let

Digitalizace knihovních dokumentů. Jiří Polišenský

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Digitalizace v ČR a její podchycení v registru digitalizace. Helena Dvořáková Národní knihovna ČR

Digitalizace a digitální knihovny v České republice

Od zpřístupnění rukopisů přes komerční archivy k LTP, aneb 20 let praxe s dlouhodobým uložením dat.

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Linked Heritage. Koordinace standardů a technologií za účelem obohacení Europeany. Alena Součková

Z papíru na web a ke čtenáři aneb Digitalizace není jen skenování. Mgr. Monika Oravová Moravskoslezská vědecká knihovna v Ostravě

Národní knihovna ČR NEWSLETTER 1/2005

Zpřístupnění kulturního dědictví v digitální podobě v ČR prostřednictvím knihoven

Digitální konkordance a Registr digitalizace v Manuscriptoriu,

Projekt Digitální knihovna pro šedou literaturu po prvním roce řešení

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Účast NK ČR v projektu Norské fondy - digitalizace bohemikálních monografií ohrožených degradací papíru. Jiří Polišenský

Zpráva o zhotoveném plnění

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

GIS Libereckého kraje

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

České digitalizační projekty, jejich výsledky a agregace

Portál ebadatelna Zlínského kraje a zpřístupnění map. Prezentace historických map z fondu paměťových institucí Zlínského kraje

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

NOVÉ MOŽNOSTI PŘÍSTUPU K DIGITÁLNÍ ARCHIV NLK PLNOTEXTOVÝM INFORMACÍM : Filip Kříž, Lenka Maixnerová, Ondřej Horsák, Helena Bouzková

Technologická centra krajů a ORP

Zpráva ze zahraniční služební cesty

MANUSCRIPTORIUM Digitalizace rukopisů VKOL. Miloš Korhoň Vědecká knihovna v Olomouci

DIGITALIZOVANÉ FONDY VĚDECKÉ KNIHOVNY V OLOMOUCI A KDE JE HLEDAT. Miloš Korhoň, Jan Houserek

Digitalizace a zveřejnění sbírkových fondů paměťových institucí Zlínského kraje

Evropská digitální knihovna. < Prezentace k eseji pro předmět PV070 Digitální knihovny. Tomáš Drusa

VISK 6 Národní program digitálního zpřístupnění vzácných dokumentů

Národní portál pro prezentaci digitalizovaných sbírkových objektů muzeí a galerií. Marie Vítková

Koncepce rozvoje knihoven ČR na léta Priorita 2: Trvalé uchování digitálních dokumentů

Dlouhodobé uchování a zpřístupnění digitálních dokumentů v Evropě: výsledky dotazníkového průzkumu

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Lenka Maixnerová, Filip Kříž, Helena Bouzková, Ondřej Horsák, Adéla Jarolímková, Eva Lesenková

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

14690/1/07 RECH 325 ATO 145 COMPET 348 REGIO 43

Velká data v knihovnách Open source tools and their use in Czech libraries

Projekt HISPRA aneb Jak využít digitalizaci MKP v dalších knihovnách. 12. Května 2011, Jelení Hora

Řešení oblasti LTP v projektu NDK aneb zúročení 20 let zkušeností

Koncepce rozvoje knihovny v letech Knihovna VŠLG

Národní digitální archiv a egovernment

Certifikace Národní digitální knihovny podle ISO normy Jan Mottl AiP Safe s.r.o.

Národní digitální knihovna

DOCUMENT MANAGEMENT TOOLKIT

Tvůrčí prostředí Pro koho, proč, jak? Tomáš Psohlavec, AiP Beroun s.r.o. Listopad 2014

Economists Online: nový portál pro ekonomické vědy

ELEKTRONICKÉ DOKUMENTY A KATASTR NEMOVITOSTÍ, DOKUMENT MANAGEMENT SYSTEM

Dlouhodobá ochrana digitální dokumentů. Mgr. Jaroslav Kvasnica

Požadavky na systém pro automatizaci muzejní knihovny

Projekt Czechiana. Ing. Josef Praks Ministerstvo kultury České republiky. Praha, 4. listopadu 2016

ebadatelna Zlínského kraje

(Informace) RADA. Závěry Rady o digitalizaci kulturního materiálu a jeho dostupnosti on-line a o uchovávání digitálních (2006/C 297/01) 3.

Národní úložiště šedé literatury

Příprava legislativy povinného výtisku elektronických publikací v České republice (e-depozit)

Digitální knihovny v České republice

Odevzdávání a příjem e-publikací

Bohdana Stoklasová. Národní knihovna ČR

Projekt Czechiana. Aleš Vokál Ministerstvo kultury České republiky. Praha, 19. dubna 2017

Projekt NUŠL a další projekty v ČR

Máte to? Summon jako základní vyhledávací nástroj NTK

Bibliografické a rešeršní služby

DATOVÁ ARCHIVACE. Principy datové archivace a její výhody při migraci na SAP HANA. Štěpán Bouda Business Consultant

Standardy publikace a katalogizace otevřených dat

Zpráva o plnění cílů projektu VISK3. WebArchiv - vytvoření podmínek pro zpřístupnění českých webových zdrojů

Projekt NAKI e-deposit

2008 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 3.0 Česko

Ředitel odboru archivní správy a spisové služby PhDr. Jiří ÚLOVEC v. r.

Parlament České republiky POSLANECKÁ SNĚMOVNA volební období 56. USNESENÍ

Masarykova univerzita v Brně Filozofická fakulta Ústav české literatury a knihovnictví Kabinet knihovnictví

Projekt informačního systému pro Eklektik PRO S EK. Řešitel: Karolína Kučerová

Doporučeno pro předpokládané využití serveru pro zpracování 2000 dokumentů měsíčně. HW: 3GHz procesor, 2 jádra, 8GB RAM

The bridge to knowledge 28/05/09

Vývoj a využití plnotextových edic historických dokumentů v Manuscriptoriu

Silný portál. Jindřiška Pospíšilová. Pracovní skupina pro silný portál. Národní knihovna ČR

2/2006. Obsah. K připomenutí TEL-ME-MOR : pracovní proces Program projektu IST Výzvy EC (Evropská komise) Vývojové trendy

Konsolidace zálohování a archivace dat

Šedá literatura case study v ČR

Evropská digitální knihovna a autorské právo

- otevřený přístup k výsledkům vědy. Mgr. Zdeňka Firstová a Mgr. Anna Vyčítalová Univerzitní knihovna ZČU v Plzni

Datové centrum a Regionální SAN kraje Vysočina. Projekt digitalizace a. Petr Pavlinec, KrÚ kraje Vysočina. Září 2009

Slovenská spořitelna:

KRAJSKÉ DIGITÁLNÍ ÚLOŽIŠTĚ

local content in a Europeana cloud

ENRICH. Eu r o p e a n Ne t w o r k in g Re s o u r ce s a n d In f o r m a t io n co n ce r n in g Cu lt u r a l H e r it a g e

NA CESTĚ K MANUSCRIPTORIU VAŠE DOKUMENTY V MODERNÍ DIGITÁL- NÍ KNIHOVNĚ

NOVÝ FONOGRAF MARTIN MEJZR DOMINIKA MORAVČÍKOVÁ FILIP ŠÍR

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Možnosti využití dat RÚIAN poskytovaných VDP pomocí webových služeb

Institucionální rozvojový plán Ostravské univerzity pro rok 2013

DATA ULOŽENÁ NA VĚČNÉ ČASY. (ICZ DESA / Microsoft Azure) Mikulov Michal Matoušek (ICZ) / Václav Koudele (Microsoft)

Národní úložiště šedé literatury v roce 2012

TECHNICKÁ DOKUMENTACE

Digitalizace pražské židovské literatury v Městské knihovně v Praze

Transkript:

Výzkumný záměr Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Dílčí zpráva o řešení za rok 2006 Mgr. Adolf Knoll, řešitel PhDr. Zdeněk Uhlíř a PhDr. Jiří Polišenský, spoluřešitelé Národní knihovna ČR Klementinum 190 110 00 Praha 1 8. prosinec 2006 1

A. Konstatační část V letech 2004 až 2005 dochází k rychlému vývoji v oblasti dlouhodobého uchovávání digitálních dokumentů. Do provozu byl uveden systém DIAS v Nizozemské národní knihovně, který byl převzat i v Německé národní kniohovně ve Frankfurtu nad Mohanem, jež spolu s Niedersächsische Staats- und Universitätsbibliothek v Göttingen vyvíjí systém určený pro archivaci digitálních dokumentů. V rámci projektu, jehož dokončení se předpokládá v r. 2007, k němu budou doprogramovány další moduly pro ingest dat a zpřístupnění. Ve vývoji jsou však i další robustní komerční systémy KRONOS a DIGITOOL, které mohou sloužit k tomuto účelu. Ke změnám dochází i na poli standardizace digitálních dokumentů. Pro výměnu dokumentů se stále častěji používá kontejnerový formát METS a pro archivaci formát PREMIS. V oblasti bibliografických metadat se spíše než MARC 21(MARC XML) uplatňují zejména pro komunikaci formáty DublinCore a MODS. Na základě vývoje v oblasti systémů pro digitální knihovny a vzhledem k velkému objemu digitálních dokumentů bylo rozhodnuto nevyvíjet vlastní systém a zaměřit se na pořízení robustního komerčního systému, který by obsahoval potřebné nástroje pro dlouhodobou archivaci, byl v souladu s rozšířenými standardy a umožnil lepší zapojení do evropských projektů. Problematiku využití formátů METS a PREMIS již řeší jiný projekt a pořízení systému pro digitální knihovnu je zakotveno v již schválené Koncepci trvalého uchování knihovních sbírek tradičních a elektronických dokumentů v knihovnách ČR do roku 2010. V této situaci se jeví jako účelné přehodnotit cíle výzkumného záměru a více se věnovat problematice digitalizovaných historických dokumentů a systému Manuscriptorium. V r. 2006 nebylo možné řešit archivaci a zpřístupnění zvukových dokumentů v síťovém prostředí. Proběhl pouze průzkum stavu zvukových médií, který mapoval možnosti migrace jejich obsahu na Centrální datové úložiště a emulace prostředí pro jejich zpřístupnění na jiné platformě. Vzhledem k tomu, že v r. 2005 padlo rozhodnutí nevyvíjet individuální systémy pro archivaci jednotlivých typů digitálních dokumentů a pořídit Centrální datové úložiště, nebyla řešena problematika vývoje archivačního systému a jeho modulů pro Systém Kramerius. Byla pouze zpracována studie aplikace pro správu a archivaci XML dokumentů, pro které v současné době nemá NK ČR žádný nástroj. Vygenerování uživatelských obrazů ve formátu DjVu bylo realizováno v letech 2004 a 2005 a obrazy jou dostupné v Systému Kramerius. V r. 2006 bylo řešeno diferencované generování podle charakteru dokumentu (ve fotokvalitě pro obrazové publikace, třívrstvé pro převážně textové soubory) a požadavek na generování třívrstvého formátu pro DjVu byl uplatněn u dodavatele zajišťujícího konverze do formátu DjVu pro NK ČR a ostatní knihovny. V návrhu záměru jsme předpokládali v r. 2006 nákup zařízení pro automatický záznam digitálních dat na CD-R média, určená pro distribuci kopií digitalizovaných 2

dokumentů. V současné době se ale ukazuje, že výhodnější řešení je poskytovat tyto kopie prostřednictvím replikací dat přímo mezi systémy jednotlivých institucí a zpřístupňovat je v rámci lokální sítě. Je to dáno především snížením kvality médií, která mají velmi omezenou životnost a vývojem nových typů záznamových a paměťových zařízení. Dalším důvodem je přenesení těžiště digitalizace z pracoviště NK ČR na dodavatelské firmy, které jsou schopny záznam dat na média poskytovat jako službu. S rozšířením nových typů záznamových médií dané zařízení zastará a nebylo by efektivně využíváno. Uvedené investiční prostředky byly čerpány na posílení paměťové kapacity pro archivaci digitálních dokumentů (schváleno poskytovatelem). Vzhledem k tomu, že se Manuscriptorium, resp. digitální zpřístupnění rukopisů a vzácných starých tisků, stalo největší evropskou digitální knihovnou svého druhu, a to vč. úrovně zabudovaných technologií, a že se projevil zvýšený zájem řady zahraničních partnerů o budování společného virtuálního badatelského prostředí, byla provedena analýza potřeb dalšího výzkumu a vývoje pro dané prostředí (viz část B. Analytická část). Tím se rozšiřuje a zpřesňuje původní rozvaha, která ve svých hlavních principech zůstává i nadále pro oblast Manuscriptoria platná. V současné době jsou smluvními partnery Manuscriptoria kromě více než 30 českých institucí také Univerzitní knihovna Wroclaw (Polsko), Knihovna Technické univerzity v Budapešti (Maďarsko), Univerzitní knihovna Bratislava (Slovensko), Knihovna Akademie věd ve Vilniusu (Litva) a Národní knihovna Turecka v Ankaře (Turecko). Testy proběhly také v případě několika další institucí. Zájem o spolupráci dále projevily národní knihovny Islandu, Španělska, Srbska, Polska, Litvy, Itálie (Florencie), Moldávie, Kazachstánu; dále Univerzitní knihovna ve Vilniusu, Nadace Arne Magnussona v Reykjavíku, projekt Monasterium (Diecéze St. Poelten) v Rakousku, Institut kulturního dědictví v Bukurešti a Univerzitní knihovna v Bukurešti, Institut matematiky ve Vilniusu, Srbská akademie věd a umění v Bělehradě a Fakulta přírodních věd a matematiky ve Skopji. Na základě tohoto zájmu jsme se rozhodli zpracovat společný návrh projektu EU do programu econtentplus. V případě schválení tohoto evropského projektu přislíbily technickou spolupráci Oxford University Computing Services, Nordisk Forksninginstitut v Kodani, Media Communication and Intetgration Centre ve Florencii, SYSTRAN (Francie), Computer Science for the Humanities Univerzity v Kolíně nad Rýnem a Poznańskie Centrum Supekomputerowo-Sieciowe. V případě jeho neschválení bude dále pracováno s obsahovými partnery viz výše nicméně pomaleji. Z ČR by se projektu zúčastnily NK (řízení projektu), AIP Beroun a Crossczech Praha. Uvažovaní obsahoví partneři mají nestejnou úroveň rozvoje, proto je třeba se připravit na různé formy spolupráce viz Analytická část. 3

B. Analytická část V r. 2006 se projevila ta skutečnost, že se potřeby výzkumu a vývoje za účelem vybudování virtuálního badatelského prostředí ukázaly mírně odlišné od cílů, které byly stanoveny před třemi lety, kdy byl zpracován výzkumný záměr. Dochází k mnohem větší potřebě zaměřit se přímo na oblast digitální knihovny Manuscriptorium, neboť v ní se skrývá potenciál stát se mezinárodní digitální knihovnou pro oblast rukopisů. Tato skutečnost je doražena i v soupisu priorit dalšího rozvoje NK. Mezi národními knihovnami evropských zemí obsahuje Manuscriptorium nejvíce dat 1. CHART 22. Manuscripts (no. of pages) 600000 500000 400000 300000 200000 100000 0 BE BA HR CZ DK FI FR HU IS IT LT NL NO PL PT MK R R U-P U- M SP SK SL ES SE UKVA Počet digitalizovaných stran rukopisů v evropských národních knihovnách Pro spolupráci s digitální knihovnou Manuscriptorium se na podzim r. 2006 vyslovily (z knihoven, uvedených v grafu) Národní knihovny Islandu (IS), Srbska (SP), Itálie (Florencie IT), Španělska (ES), Litvy (LT) a Švédska (SE). Kromě toho se smluvním partnerem Manuscriptoria stala Národní knihovna Turecka v Ankaře a z ostatních institucí vážný zájem projevila Univerzitní knihovna ve Vilniusu. 1 MANŽUCH, Zinaida - KNOLL, Adolf Research Activities of the European National Libraries in the Domain of Cultural Heritage and ICT. TEL-ME- MOR EU project Deliverable 1.3. 62 pp. http://telmemor.net/docs/d1.3_research_activities_report.pdf 4

Nejde však jen o množství dat, ale také o stav výzkumu a vývoje v oblasti instalovaných technologií digitálních knihoven. Tam se ukazuje přední místo NK velmi zřetelně, protože z pěti technologií, zásadních v oblasti digitálních knihoven, mají ostatní evropské NK kromě Finska zavedeno méně. Šlo o sofistikované používání XML ve strukturaci digitálních dokumentů a textu, složitější záležitosti v oblasti digitálního obrazu (wavelet technologie, dynamické obrazové servery) a datová úložiště. CHART 23. Application of special technologies 5 CZ FI 4,5 4 3,5 3 2,5 2 DK FR HU IS PT NO MK SP RU-M ES 1,5 1 0,5 HR DE NL RU-P SK UK 0 Abychom lépe vyšli vstříc novým potřebám, byl zpracován dlouhodobý plán optimalizace Manuscriptoria na základě již dosažených výsledků: Jde o řešení těchto problémových okruhů: A. Nástroje pro podporu importu dat a metadat do Manuscriptoria A. 1 Upgrade programu M-TOOL 1.2 pro základní práci s UNICODE. Předpokládá se využití systémových prostředků WINDOWS, doplnění možnosti on-line testování dostupnosti obrazů odkazovaných v generovaných a vzorových XML dokumentech a optimalizace prostředí na základě zkušeností s předchozí verzí. Bude doplněno odesílání vygenerovaných nebo importovaných XML souborů do nabídky pro Manuscriptorium do FTP schránky. Verze bude volně šiřitelná bez licenčních nároků. Jde o: Vlastní upgrade programu M-TOOL 1.2. Cílem je umožnit zájemcům o spolupráci samostatné zasílání a správu zaslaných digitálních dokumentů kompatibilních s Manuscriptoriem do schránky na Internetu, automatizovaně je zkontrolovat a informovat přispívající o kompatibilitě dokumentu. Akceptovatelné omezení: Plnohodnotné zapisování textů pouze v jazycích, které jsou součástí OS instalovaného na počítači 5

On-line import do schránky Manuscriptoria Cílem je zveřejnit zaslaný a formálně kompatibilní dokument v samostatném prostředí, odvozeném od Manuscriptoria. Je třeba navrhnout a zavést do pilotního provozu automatizovanou službu Manuscriptorium kandidátů. NK získá tím možnost rozhodování o převodu vybraných dokumentů do řádného Manuscriptoria. Zřízení tzv. Manuscriptoria kandidátů Větší část těchto prací je naplánovaná na r. 2006, zatím co ověření v pilotním provozu v r. 2007 A. 2 Služby podporující vstup do Manuscriptoria ze stránek partnerů Cílem je podpořit vytvoření alternativního vstupu do Manuscriptoria ze stránek vybraného partnera. Vstup bude na stránkách partnera prezentovat nejprve podmnožinu dokumentů partnera v prostředí partnera a po žádosti uživatele o rozšířené vyhledání bude aktivováno celé Manuscriptorium. Pro realizaci záměru je nutno zajistit: Vytvoření komponent dovolujících správcům serverů samostatně vytvořit základní prostředí Manuscriptoria Ověření funkčnosti v pilotním projektu s vybraným partnerem. Předjednáno se zámeckou knihovnou Kynžvart Zveřejnění těchto komponent k volnému stažení na Internetu Podpora uživatelů školení, konzultace, on-line podpora B. Zhodnocení obsahu Manuscriptoria Je třeba podporovat a usnadnit praktické využívání Manuscriptoria v odborné praxi, přizpůsobit se účelným badatelským požadavkům umožňujícím navázat na osvědčené tradiční a také nové způsoby využívání dat shromážděných v Manuscriptoriu, poskytnout prostředky usnadňující využití Manuscriptoria ve výuce. B. 1 Tvorba tématických kolekcí Badatelé dostanou možnost vytvářet v Manuscriptoriu tématické kolekce. Jako pilotní ověření těchto nástrojů budou zavedeny kolekce základních typů dokumentů (rukopisy, prvotisky, staré tisky, mapy, později i virtuální dokumenty ) podle rozpoznatelných informací v evidenčních záznamech. Práce předpokládají: Analýzu požadavků a návrh postupu Implementaci nástrojů Vytvoření základních kolekcí dle technických předpisů B. 2 Zavedení tvorby virtuálních dokumentů Služba zavedená pro uživatele, zejména pro badatele a pedagogy. Dokumenty budou tvořeny odkazovanými částmi/stránkami jiných dokumentů v Manuscriptoriu. Formální vlastnosti těchto dokumentů budou stejné jako u běžných dokumentů v Manuscriptoriu. Budou však v samostatné kolekci. Předpokládá se: 6

Analýza požadavků na systém tvorby virtuálních dokumentů (dále VD) ve vztahu k Manuscriptoriu Customizace systému a nástrojů pro tvorbu VD Zpřístupnění nástrojů pro tvorbu VD s pilotním partnerem Pilotní práce s vybraným partnerem, ověření mechanismu tvorby VD, testování Vytvoření vzorového souboru VD Volné zveřejnění, úprava souvisejícího uživatelského rozhraní Manuscriptoria a souvisejících stránek (kolekce VD, doplnění stránek o informace o VD, propagace zejména ve školství) B. 3 Dvoustupňové vyhledávání Vyhledávání nad celým Manuscriptoriem má jinou strategii než vyhledávání uvnitř vyhledaného rozsáhlého dokumentu. Proto bude zavedeno rozšíření služby o detailní vyhledávání na úroveň jednotlivých stránek resp. textových celků rozsáhlých dokumentů, které jsou vybaveny plným textem. Není akceptovatelné sekvenční vyhledávání. Vyhledávání zachová specifické vlastnosti vyhledávání celého Manuscriptoria. Předpokládá se: Analýza služby a analýza nakládání s indexovými soubory Implementace dvoustupňového vyhledávání Vytvoření indexovaných souborů pro dokumenty s plnými texty Testování B. 4 Analýza generace alternativ dotazu Heterogenita dat v Manuscriptoriu přináší potřebu rozpoznávání vybraných typů dotazu a automatizované generace jejich pravděpodobných alternativ. Předpokládá se: Analýza množiny vzorových alternativních dotazů Implemetace uživatelského rozhraní pro alternativní dotazy B. 5 Implementace prototypu ontologií z projektu EU VICODI Využívání ontologií je metoda vyhledávání, která může přinést zajímavé výsledky vyhledávání souvisejících dokumentů. Rozsah dat uložených v Manuscriptoriu vede k myšlence tyto principy na dostupných datech ověřit. Předpokládá se: Analýza implementace prototypu ontologií z projektu EU VICODI do digitální knihovny. Výstupem bude písemný návrh řešení. B. 6 Zobecnění využívaní UNICODE v Manuscriptoriu Manuscriptorium spravuje a indexuje všechny evropské znakové sady a tuto vlastnost je možné zobecnit na plné využití UNICODE. Pro využití těchto vlastností je však třeba analyzovat nadnárodní požadavky pro zajištění co nejobecnějšího internetového vyhledávání nezávislého na omezeních operačních systémů ve všech evropských a dalších jazycích s přihlédnutím k budoucím požadavkům nových partnerů systému Manuscriptorium. Zdrojová data Manuscriptoria jsou důsledně pořizována a uchovávána v UNICODE (UTF8), v tomto smyslu je též potřeba se chovat při indexaci a řazení dat. Předpokládá se: Analýza požadavků na unicodovou indexaci v Manuscriptoriu 7

Implementace prvků unicodové indexace do systému Manuscriptorium dle předchozí analýzy a ověření použitelnosti. B. 7 Vícejazyčná podpora Vzhledem k růstu množství partnerů ze zahraniční bude třeba vytvořit vhodné nástroje, které umožní nejlépe samoobslužnou likalizaci Manuscriptoria do národních jazyků. Dále (pokud bude schválen projekt EU) dojde i k hlubšímu řešení multilingválního přístupu uživatelů do Manuscriptoria. Předpokladem úspěšného řešení řady výše uvedených okruhů bude implementace návrhu komplexního digitálního dokumentu do prostředí Manuscriptoria (tudíž ve velké míře jeho přeprogramování). Tento návrh je založen na využití XML schématu Manuscriptoria v prostředí METSů již byl zpracován v rámci řešení tohoto výzkumného záměru v dřívějším období. Rychlost prací souvisejících s výše uvedenými okruhy bude dána množstvím finančních prostředků na řešení. To vysoce překračuje možnosti výzkumného záměru, proto byl za součinnosti s dalšími 17 partnery (15 z dalších evropských zemí) zpracován návrh projektu ENRICH a podán do programu econtentplus. Rozhodnutí Evropské komise o jeho financování je očekáváno na jaře 2007. Z důvodu rozšíření Manuscriptoria byly uspořádány dva workshopy: národní (resp. česko-slovenský) a mezinárodní, které se zaměřily na využití nástroje M-TOOL. To vychází z předpokladu, že instituce mají problémy s XML strukturováním digitalizovaných rukopisů dle standardu Manuscriptoria (ale i obecně), přičemž řada z nich si chce ponechat obrazová data na svých serverech. Důležitým faktorem rozvoje Manuscriptoria je tedy distribuované uložení dat. To bylo úspěšně vyzkoušeno s Univerzitní knihovnou v Bratislavě a v rámci mezinárodního workshopu zejména s Národní knihovnou Srbska v Bělehradě. M-TOOL byl optimalizován do výše popsané úrovně verze 1. 2. 8

Kontrola XML popisu rukopisu v M-TOOL Dokumenty související s aplikací M-TOOL 1.2 a s dalšími technickými požadavky na kompatibilitu s Manuscriptoriem jsou spolu s M-TOOL volně k dispozici v sekci Download na http://www.manuscriptorium.com (viz též přílohy). V r. 2006 byly též přehodnoceny licence na přístup k Manuscriptoriu. Vzhledem k nižším cenám se je počalo dařit prodávat. Dále byla Ministerstvu školství, mládeže a tělovýchovy prodána národní licence pro plný vstup do Manuscriptoria pro školy. S tím souvisí i tvorba speciálních kolekcí pro výuku. 9

Manuscriptorium pro školy na http://skoly.manuscriptorium.com/ Manuscriptorium bylo propagováno na řadě národních a hlavně mezinárodních konferencí, viz cestovní zprávy. Kromě toho bylo jednáno na některých dalších fórech, majících souvislost s budováním digitální knihovny a souvisejícími otázkami (například: CENL, IFLA, ELPUB, UNESCO Memory of the World Sub-Committee on Technology, SEEDI, ELAG, atp.) Hlavní řešitel byl též jmenován členem poradní skupiny expertů pro digitální knihovny evropské komisařky pro informační společnost a média. Hlavní řešitel se zapojil aktivně do procesu budování evropské digitální knihovny: pracoval jako osoba odpovědná za účast NK v projektu EU TEL-ME-MOR a současně vedl výzkumnou část celého projektu. V důsledku řešení TEL-ME-MOR se obě digitální knihovny, Manuscriptorium a Kramerius, zapojily plně do Evropské knihovny TEL (The European Library http://theeuropeanlibrary.org), a to protokoly OAI-PMH, které TEL preferuje. Manuscriptorium je dále zapojena do Jednotné informační brány (Z39:50, profil MARC) a mezinárodního portálu CERL-MSS (OAI-PMH, profil MODS). Kromě toho obě digitální knihovny sloužily jako testovací prostředí projektu EU M-CAST, opět nasazením protokolů OAI-PMH. Hlavní řešitel dále získal pro NK účast v nově vzniklém projektu EU DPE (Digital Preservation Europe 6. rámcový program, IST) a podílel se na zpracování a předložení dvou nových projektů EU, majících za cíl obohacení TEL (projekt TELplus) a vytvoření tzv. network of excellence v oblasti budoucí spolupráce na Evropské digitální knihovně projekt EDLplus. Především ale předložila NK projekt ENRICH, jenž by 50% nákladů mohl napomoci realizaci výše uvedených cílů a dalších dílčích úkolů budování Manuscriptoria jako evropské digitální knihovny rukopisů. 10

V oblasti novodobých dokumentů (Kramerius) a ochrany digitálních dokumentů byly provedeny tyto práce: 1. Návrh aplikace pro archivaci XML dokumentů Každý digitalizovaný dokument obsahuje metadata v podobě XML souboru. Metadata jsou součástí databáze a v případě jejího zničení nebo poškození hrozí jejich ztráta. Zálohování XML souborů je řešeno v souborovém systému SAM FS, který však neumožňuje operativní práci s XML dokumenty. K tvorbě metadat nebo jejich editaci se používá produkční systém Sírius nebo nástroj XMetaL (editor XML dokumentů), který tvoří samostatný modul Krameria. Aplikace pro správu a archivaci XML dokumentů by měla umožnit nezávislou archivaci všech XML souborů, které jsou součástí digitalizovaných periodik a monografií. Aplikace by měla poskytnout základní evidenci souborů, umožnit vytváření nových a sledování jejich stavu. V rámci aplikace by měla být řešena práva operátorů. Aplikace by měla nahradit stávající tabulku xls, která se používá pro evidenci XML souborů v současnosti a která již nevyhovuje potřebám pracoviště. 2. Průzkum elektronických dokumentů na CD ROM a návrh emulace jejich obsahu Dlouho neřešenou problematikou v NK ČR bylo uchovávání elektronických dokumentů získávaných jako povinný výtisk, které je knihovna povinna ze zákona uchovávat trvale ve zpřístupnitelné podobě. Uchování může být ohroženo dvěma faktory, postupnou degradací nosiče, nebo zastaráním prostředků potřebných pro zobrazení (přehrání). Kvalita nosičů byla kontrolována v minulých letech společně s archivními CD-R médii vyráběnými v rámci programu Manuscriptorium s poměrně uspokojivými výsledky a počítá se s migrací zdrojových dat na Centrální datové úložiště, které by tento problém mělo pomoci vyřešit. V letošním roce byl proveden průzkum CD-ROM dokumentů, který mapoval stav médií z hlediska zastarání prostředků nutných pro jejich zpřístupnění a z hlediska možností migrace či emulace jejich obsahu na datovém úložišti. V rámci průzkumu byl také zjišťován rozsah dat obsažených na médiích, operační systémy nutné pro zpřístupnění obsahu médií, použité formáty a příp. i další specifické vlastnosti (např. ochrana proti kopírování). Průzkum probíhal ve dvou fázích. Během první fáze bylo zkontrolováno cca 5% z celkového objemu uchovávaných CD-ROM, větší pozornost byla věnována datovým médiím než zvukovým. Výsledky průzkumu jsou shrnuty v přiložené zprávě. Průzkum ukázal, že z celkového množství 578 datových médií byla 3 média nečitelná. Zvuková média byla bez závad. Z hlediska formátů byly na médiích použity nejběžnější datové, obrazové a zvukové formáty a formáty pro video. Z hlediska operačních systémů byla s výjimkou instalačních a spouštěcích médií všechna čitelná na platformě WINDOWS XP. Na základě průzkumu bylo možno odhadnout, že celkový objem dat na těchto nosičích představuje cca 5,5 až 6 TB s ročním nárůstem přibližně 0,5 TB. Cílem druhé fáze průzkumu bylo ověřit možnosti zpřístupnění médií na jiné platformě, pomocí emulace prostředí. Pro tuto fázi bylo vytipováno 300 médií, u kterých byl vytvořen ISO obraz obsahu a uložen na pevný disk. K vytváření obrazů byl použit běžný nástroj dostupný jako freeware. Obdobné nástroje byly použity pro spuštění ISO obrazu. Zpracování ISO obrazů a jejich uložení v Centrálním datovém úložišti bude velmi časově náročné. Zpřístupňování obsahu CD-ROM však touto metodou bude možné. 11

Celkově průzkum ukázal, že je třeba se touto problematikou zabývat (viz 3 nečitelná média), přičemž bude třeba řešit podchycení údajů o médiu již při jeho zařazení do sbírky (typ média - datové, zvukové, instalační, typy použitých formátů a operační systémy), což by měla řešit aplikace pro digitální knihovnu. Pro zpřístupňování ISO obrazů médií bude třeba vytvořit aplikaci, která bude zajišťovat postupné spouštění příslušného prostředí. 3. Optimalizace pravidel tvorby metadat V r. 2006 byla věnována pozornost optimalizaci pravidel hlavně z pohledu využití formalizovaných zápisů. Především byly stanoveny přesné formulace popisu stejně, jako stanovení struktury zápisu tam, kde se vyskytuje volný text, a to především s ohledem na usnadnění automatizovaných úprav v budoucnosti. Došlo k výraznému zjednodušení popisu, a tím i srozumitelnosti pro kooperující instituce. Hlavním cílem byla možnost snadnějšího zaškolování personálu a hlavně snížení chybovosti v popisu a tím i navýšení kapacity ve zpracování. Protože v letošním roce byla zahájena digitalizace monografií, vznikla nutnost vytvoření pravidel rovněž pro monografie. Jejich optimalizace by měla částečně vycházet ze zkušeností s periodiky, ale protože se zde vyskytují nové problémy, bude jejich optimalizace dokončena v r. 2007 v souvislosti s tím, jak bude narůstat potřeba digitalizace tohoto typu dokumentu. 4. Specifikace zadání pro centrální datové úložiště V r. 2006 byla upravena studie vytvořená v r. 2005 pro vybudování Centrálního datového úložiště a vytvořeno několik variant zadávací dokumentace pro výběrové řízení. Jako dodavatel Centrálního datového úložiště byla vybrána firma T-Systems. 5. DigTools pomocný pracovní nástroj pro tvorbu digitálních dokumentů V oddělení digitalizace se již několik let vyvíjí pomocný nástroj DigTools, který má usnadnit a zefektivnit některé hromadné operace. V r. 2006 byl nástroj doplněn o výpis statistiky konverzí, přerušení konverzí a automatického vypnutí konverzí. Výpočty kontrolních součtů MD5 byly upraveny pro formát kompatibilní se Sun Solária, aby bylo možno porovnávat součty vytvořené nástrojem DigTools se součty vytvářenými přímo na serveru Sun Microsystems E 450. Byla přidána nová funkce Uživatelské přejmenování, která umožňuje provádět větší spektrum různých druhů přejmenování názvů souborů. Byly přidány funkce pro třídění souborů a třídění zakázek a upraveny ve formátu používaném programem Sírius. Všechny tyto funkce usnadňují a urychlují operace hromadného zpracování dat. 6. Kvalita zdrojových obrazových souborů Kvalita zdrojových obrazových souborů je základním parametrem úspěšnosti dlouhodobé archivace dokumentů v digitální podobě. V r. 2006 různé kulturní instituce zahájily budování vlastních digitalizačních pracovišť, které budou produkovat digitální dokumenty na různých zařízeních, a proto je nutné definovat základní parametry kvality obrazových souborů pro dlouhodobou archivaci. Příloha č. 4 mapuje požadavky z hlediska nároků na kvalitu při vstupu do stávající digitální knihovny NK ČR. Ze studie vyplývá, že zdrojové obrazové soubory by měly být vytvářeny v šedé škále a konvertovány do formátu JPEG s kompresí cca. 85%. Nižší míra komprese neúměrně zvyšuje velikost obrazového souboru s minimálním přínosem pro jeho kvalitu. Naopak vyšší míra komprese již nesnižuje velikost obrazového 12

soubory a značně degraduje kvalitu. Základními parametry pro import digitálních obrazových dat jsou: - formát JPEG - šedá škála 256 odstínů - minimální barevná hloubka 24 bitů RGB (8 bitů na kanál) - 85% komprese - min. rozlišení 300 dpi V příštím roce bude třeba se touto problematikou zabývat podrobněji a prověřit možnosti použití zkušebních testovacích předloh pro diagnostiku procesu skenování. Digitální knihovna Kramerius prezentace periodik ve formátu DjVu 13

C. Návrhová část Výsledky řešení dle RIV V letech 2004 2005 bylo uplatněno osm výsledků řešení výzkumného záměru, viz tabulka, jež je výpisem za databáze RIV: 1. 2. 3. 4. 5. 6. RIV/00023221: /04:00010992 Digitized cultural heritage Druh výsledku: J - Článek v odborném periodiku, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Rok uplatnění výsledku: 2004, Rok sběru dat: 2005, Dodavatel dat: MK0 - Ministerstvo kultury, Předkladatel: Národní knihovna České republiky RIV/00023221: /04:00010994 Formát virtuální reprezentace kulturního objektu Druh výsledku: D - Článek ve sborníku, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Rok uplatnění výsledku: 2004, Rok sběru dat: 2005, Dodavatel dat: MK0 - Ministerstvo kultury, Předkladatel: Národní knihovna České republiky RIV/00023221: /04:00011001 Definice typu dokumentu pro zvukové dokumenty Druh výsledku: T - Prototyp, poloprovoz, ověřená technologie (uplatněná ve výrobě atd.), SW produkt, výsledky aplikovaného výzkumu promítnuté do právních předpisů a norem, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Rok uplatnění výsledku: 2004, Rok sběru dat: 2005, Dodavatel dat: MK0 - Ministerstvo kultury, Předkladatel: Národní knihovna České republiky RIV/00023221: /04:00011043 Definice typu dokumentu pro plné texty středověkých a raně novověkých rukopisů Druh výsledku: T - Prototyp, poloprovoz, ověřená technologie (uplatněná ve výrobě atd.), SW produkt, výsledky aplikovaného výzkumu promítnuté do právních předpisů a norem, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Rok uplatnění výsledku: 2004, Rok sběru dat: 2005, Dodavatel dat: MK0 - Ministerstvo kultury, Předkladatel: Národní knihovna České republiky RIV/00023221: /05:#0000001 M-Tool - editor Druh výsledku: T - Prototyp, poloprovoz, ověřená technologie (uplatněná ve výrobě atd.), SW produkt, výsledky aplikovaného výzkumu promítnuté do právních předpisů a norem, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Rok uplatnění výsledku: 2005, Rok sběru dat: 2006, Dodavatel dat: MK0 - Ministerstvo kultury, Předkladatel: Národní knihovna České republiky RIV/00023221: /05:#0000002 Creating Virtual Research Environment for Historical Documents Druh výsledku: D - Článek ve sborníku, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Rok uplatnění výsledku: 2005, Rok sběru dat: 2006, Dodavatel dat: MK0-14

7. 8. Ministerstvo kultury, Předkladatel: Národní knihovna České republiky RIV/00023221: /05:#0000003 Creation and Management of Digital Documents - Considerations for delicate and heritage documents. In: Digitization and Digital Libraries. Information Management Resource Kit. Lesson 4.6 Druh výsledku: A - Audiovizuální tvorba, elektronické dokumenty tj. dokumenty vydané pouze ve formě čitelné prostřednictvím počítače, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Rok uplatnění výsledku: 2005, Rok sběru dat: 2006, Dodavatel dat: MK0 - Ministerstvo kultury, Předkladatel: Národní knihovna České republiky RIV/00023221: /05:#0000004 Creation and Management of Digital Documents - Preservation of Digital Material. In: Digitization and Digital Libraries. Information Management Resource Kit. Lesson 4.7 Druh výsledku: A - Audiovizuální tvorba, elektronické dokumenty tj. dokumenty vydané pouze ve formě čitelné prostřednictvím počítače, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Rok uplatnění výsledku: 2005, Rok sběru dat: 2006, Dodavatel dat: MK0 - Ministerstvo kultury, Předkladatel: Národní knihovna České republiky Dosažené a uplatněné výsledky v r. 2006: a) Za rok 2006 se předpokládá uplatnění těchto prototypů: Verze 1.2 programu M-TOOL pro základní práci s UNICODE XML Schéma komplexního digitálního dokumentu KDD (namapování mssnkaip.xsd do METS) Automatizovaná služba Manuscriptorium kandidátů, která umožní zájemci o spolupráci s digitální knihovnou Manuscriptorium vidět svůj dokument v analogickém prostředí, jako je veřejná část badatelského prostředí Konstrukční kit pro tvorbu samostatných klonů Manuscriptoria pilotní ověření se předpokládá v r. 2007 b) Dále byly publikovány tyto příspěvky, které nejsou zaneseny v RIV: Knoll, Adolf: Doporučení pro pořizování datových souborů při digitalizaci analogových originálů (http://www.sdruk.cz/it/datasdrkitrec.pdf) Knoll, Adolf: Preservation and Access in Service of Researchers and Future Generations. In: The Best in Heritage [Proceedings of the Conference held in] Dubrovnik, Croatia, 21-23 September 2006 / Editor-in-Chief Tomislav Šola. Zagreb, European Heritage Association, 2006. 64 pp. 18-19 pp. Knoll, Adolf: Standardizing Digitization for Preservation and Access of Rare Library Materials. In: Digital Preservation of Cultural Heritage Resources: Implementation, Standardization, and Strategies. The 1st International Cultural Symposium in Celebration of UNESCO/Jikji Memory of the World Prize. Cheongju, Early Printing Museum, 2005 302 pp. Pp. 185-199 (English) and pp. 169-184 (Korean) 15

c) Kromě toho byly uspořádány v květnu národní a v červnu 2006 mezinárodní workshopy k problematice digitálního zpřístupnění rukopisů a starých tisků. Ukázka srbského rukopisu výsledek práce na mezinárodním workshopu v NK v červnu 2006 (obrazová data jsou volána přímo z NK Srbska v Bělehradu) Dosažené a neuplatněné výsledky v r. 2006 Kromě toho byly v r. 2006 předneseny výsledky řešení na různých konferencích, forma výstupů bude zřejmá teprve v budoucnu (klasický sborník, webová prezentace, žádný výstup). Téměř vždy je možné uplatnit jako elektronickou publikaci, ale v některých případech vyjde i sborník. Zkušenost ukazuje, že ne vždy organizátor splní slib a sborník z konference skutečně vydá. Jde o: zvanou přednášku Adolfa Knolla na konferenci ELAG (European Library Automation Group) v Bukurešti v dubnu 2006 pod názvem Creating an International Environment for Research in Library Materials zvanou přednášku Adolfa Knolla na konferenci SEEDI (South European Digitization Initiative) v Sofii v červnu 2006 přednášku Zdeňka Uhlíře Digital Access to the Historical Collections in the Czech Lands (Lipsko, březen 2006) přednášku Zdeňka Uhlíře Memoria Mundi Series Bohemica and Manuscriptorium (Londýn, červen 2006) přednášku Jindřicha Marka a Zdeňka Uhlíře Mezinárodní projekty a praktické otázky zpřístupňování kulturního dědictví (Banská Bystrica květen 2006) 16

přednášku Zdeňka Uhlíře The Idea of Integration of Sources of Written Heritage (Praha mezinárodní workshop v červnu 2006). Dále byl hlavní řešitel požádán o publikování v časopise Rumunské národní knihovny (písemná část referátu na ELAG); není jasné, zda vyjde. Výsledky nedosažené Jde o prototypy vznikající v průběhu řešení výzkumného záměru. Ty vyplynou z řešení témat popsaných v části C. Analytická část. Kromě toho předpokládáme další publikační a přednáškovou činnost a též uspořádání workshopu v květnu 2007 k problematice strukturování historických textů dle TEI. Prozatím má hlavní řešitel pozvání na přednášky o digitalizaci do Bělehradu a do Santiago de Compostela (výroční konference španělských knihoven, archovů a muzeí). Tyto výsledky budou průběžně upřesňovány. Další výsledky a aktivity spojené s řešením Mezinárodní aktivity Hlavní řešitel Adolf Knoll se zapojil do celé řady iniciativ, které přispívají k nově vyhlášené prioritě Národní knihovny ČR, tj. rozšíření digitální knihovny Manuscriptorium za hranice České republiky, vytvoření mezinárodní digitální knihovny rukopisů. Od r. 2006 je Adolf Knoll členem vysoké skupiny expertů na digitální knihovny (High Level Expert Group on Digital Libraries), která je poradním orgánem komisařky EU pro informační společnost a média, paní Viviane Reding. Je rovněž členem pracovní skupiny EU pro koordinaci začlenění knihoven, archivů a muzeí do Evropské digitální knihovny (poradní orgán Horsta Foerstera, ředitele skupiny Content European Commission, Information Society and Media Directorate-General); v této linii se zástupci digitalizačního střediska rukopisů (Mgr. Jindřich Marek z NK a Štěpán Černohorský z AIP), provozovaném NK a AIP Beroun, zúčastnili v Lucemburku (listopad 2006) setkání tzv. kompetenčních center EU pro digitalizaci. Věhlasu digitálního zpřístupnění dokumentů a úrovně technologického rozvoje v NK výrazně přispěla studie, uskutečněná v projektu EU TEL-ME-MOR (výzkumnou část tohoto projektu vedl Adolf Knoll), na základě údajů všech národních knihoven Evropy, které jsou členy CENL (Conference of European National Librarians). Dle studie provozuje NK největší digitální knihovnu rukopisů a v digitalizaci starých novin je na 5. místě mezi národními knihovnami v Evropě (Rada Evropy celkem 46 národních knihoven). Mgr. Jindřich Marek se zúčastnil prestižního zasedání TEI konsorcia, na jednání byly i otázky zpracování rukopisů; existuje šance, že o vývoj prostředí v této oblasti bude požádána Národní knihovna ČR. Dále jsou v návrzích opatření uvedeny práce, které bude třeba vykonat, aby se Manuscriptorium skutečně stalo evropským virtuálním prostředí pro studium rukopisů. Objem těchto prací výrazně převyšuje finanční možnosti tohoto výzkumného záměru, resp. by uskutečnění všech plánovaných činností trvalo tak dlouhou dobu, že by mohlo být kontraproduktivní. Z tohoto důvodu byl zpracován pro evropský program econtentplus návrh projektu ENRICH, v kterém by za vedení NK mělo dojít k rychlému vybudování základu evropské digitální knihovny rukopisů. 17

NK získala pro tento projekt takové obsahové partnery z evropských národních knihoven, jejichž soustředění v Manuscriptoriu by pokrylo cca. 85% digitalizovaných rukopisů z evropských národních knihoven. Pro práce v oblasti převoditelnosti dat mezi dvěma posledními platformami TEI byli získáni významní představitelé TEI konsorcia z univerzit v Oxfordu (Oxford University Computing Centre) a Kodaně; pro oblast personifikace uživatelského prostředí Středisko pro integraci médií a komunikaci z Univerzity ve Florencii, pro další oblasti vývoje pak Institut matematiky a informatiky AV z Vilniusu, společnost SYSTRAN z Francie (multilingualismus a ontologie), institut Computer Science for Humanities z Univerzity v Kolíně nad Rýnem a Poznaňské superpočítačové centrum z Polska. Výčet partnerů doplňují další obsahoví partneři z jiných typů institucí a ze zemí mimo EU (asociovaní partneři). Tato výrazná podpora svědčí o uznání dosavadních výsledků v budování virtuálního badatelského prostředí formou Manuscriptoria. V případě, že nebude projekt schválen, budou práce postupovat pomaleji a pouze ve vybraných oblastech. Do Manuscriptoria byl připojen významný zahraniční partner: Turecká národní knihovna v Ankaře dodá v první fázi cca. 10 000 záznamů o rukopisech. To znamenalo zpracovat konverze z tureckého datového formátu (vlastní formát, nikoli MARC) do MASTER. Test 1000 záznamů z poloviny listopadu 2006 dopadl k plné spokojenosti tureckého partnera, který už zaslal další část pro začlenění do Manuscriptoria. Obrazovka z testovacího prostředí Manuscriptoria záznam Turecké NK. Závěr: Návrhy opatření, zhodnocení a přehodnocení dosavadního směřování prací ve výzkumném záměru 18

Projekt výzkumného záměru byl napsán takřka před třemi lety. V současné době se ukazuje, že bude třeba přehodnotit některé úkoly uvedené v časovém harmonogramu řešení. Důvodem je především vývoj technologií v těchto oblastech: masová digitalizace a archivace digitálních dokumentů. Cíle s nimi spojené se budou realizovat do budoucna především z finančních důvodů mimo tento výzkumný záměr takto: a) masová digitalizace jde o technologicky vyřešenou záležitost pomocí nasazení automatizovaných skenerů pro běžnější papírové dokumenty (automatizované obracení stran). Touto technologií pracují v Evropě společnosti Microsoft (British Library) a Google (Bodleian Library). Zavedení technologie představuje po několik let financování v objemu 15 20 milionů Kč. Doporučení Evropské komise členským státům ze 24. srpna 2006 zavazuje státy, aby obdobná pracoviště vytvořily a provozovaly. Na doporučení pozitivně reagovala schůzka ministrů kultur členských zemí 13. listopadu 2006. b) ochrana digitálních dat bude provedena formou vybudování hromadného úložiště (datového skladu) pro národní projekty digitalizace a Web Archiv v první fázi za přispění grantu Ministerstva informatiky a dále cestou financování národní koncepce ochrany dokumentů. Jde opět o investice v řádech několika desítek milionů Kč. c) autorská práva otázky spojené s autorskými právy budou řešeny pro systém Kramerius a případně pro zpřístupnění produktů masové digitalizace v návaznosti na doporučení Evropské komise, viz výše uvedený dokument z 24. srpna 2006 a očekávaná doporučení High Level Expert Group on Digital Libraries. Zde půjde především o flexibilní vypořádávání práv v národních prostředích hlavně v oblasti tzv. orphan works. Rozvoj virtuálního badatelského prostředí se soustředí (viz šířeji B. Analytická část) na oblast rukopisů a částečně starých tisků, tj. tam, kde drží nositel výzkumného záměru evropský primát. Další práce se budou ubírat těmito směry: a) standardizace sdílených metadat konverze mezi TEI platformami TEI P4 a TEI P5 pro popis rukopisů (pouze pokud bude schválen projekt ENRICH) implementace OAI-PMH harvesteru do Manuscriptoria implementace METS kontejnerizace schématu Manuscriptoria optimalizace a zevšeobecnění práce s UNICODE v Manuscriptoriu b) personalizace prostředí Manuscriptoria pro uživatele analýza potřeb a tvorba tématických kolekcí umožnění tvorby virtuálních dokumentů uživateli Manuscriptoria použitím dekompozice a reformulace digitálních objektů typologizace bibliografického vyhledávání a zavedení hloubkového vyhledávání (metadat + fulltext) c) personalizace prostředí Manuscriptoria pro přispěvatele on-line verze nástrojů pro strukturování metadat a dat digitalizovaných rukopisů 19

zavedení nástrojů pro užití velkých externích datových sad z produkce partnerů Manuscriptoria d) multilingvální a uživatelský přívětivý přístup k Manuscriptoriu Uvedené a další úkoly jsou též obsahem navrhovaného projektu EU ENRICH v případě jeho schválení bude příspěvek EU pouze 50%, takže výzkumný záměr se bude podílet na činnostech majících charakter VaV, zatím co spolufinancování dalších činností půjde z rozpočtu NK a dalších partnerů projektu (celkem 17 plných partnerů z mnoha evropských zemí). Pokud nebude ENRICH schválen, budou řešeny jen vybrané úkoly. Cílem všech těchto iniciativ je mezinárodní rozšíření digitální knihovny Manuscriptorium, což je jednou ze základních priorit rozvoje NK. OAI zdroj Digitální knihovna Jednotranná sklizeň ze strany Manuscriptoria Vzájemná sklizeň Manusrip torium Upload nebo sklizeň metadat Vzdálená obrazová databanka Další zdroje Off-line příspěvky a transformace Upload metadat a obrazů Vzdálená obrazová databanka OAI pro TEL OAI pro CERL-MSS Diagram vnější komunikace Manuscriptoria s dalšími digitálními zdroji Vzhledem ke skutečnosti, že, jak bylo uvedeno výše, se v oblasti digitalizace novodobých dokumentů rýsuje robustní a dlouhodobě pojaté řešení archivace digitálního obsahu navrhujeme dále se touto problematikou nezabývat a zaměřit se na podpůrný vývoj v následujících dílčích oblastech: 1. Migrace obsahu fyzických médií CD-ROM a DVD na centrální datové úložiště. V r. 2007 by měla být provozně ověřena metoda uvedená v Příloze č. 2. 2. Definice vstupních kvalitativních parametrů pro import digitálních obrazových souborů do Národní digitální knihovny. Bude třeba navrhnout postup vyhodnocování kvality obrazových souborů podle zadaných parametrů, příp. doporučit testovací obrazec pro diagnostiku procesu skenování. 3. Zabývat se automatizací vstupních operací na počátku digitalizace, tj. navrhnout způsob automatizace tvorby skenovacích dávek jako výstup z knihovního systému ALEPH a jejich evidence v průběhu přípravných fází reformátování (generování podkladů pro bibliografické zpracování, hlídání duplicit, evidence fází přípravných 20

prací, generování předávacích protokolů atd.) formou rozšíření funkcionality stávajících systémů (Sírius, nebo aplikace pro evidenci a archivaci XML dokumentů). 4. Zvyšování efektivity hromadných operací s daty rozšiřováním funkcionality nástroje DigTools. Řešitelský tým Je nezbytné posílit řešitelský tým směrem k Manuscriptoriu; proto navrhujeme rozšíření o pracovnici oddělení rukopisů a starých tisků PhDr. Renatu Modrákovou. Předpokládaná část úvazku pro řešení VZ by byla 40% a pracovnice by se věnovala zpracování/tvorbě metadat pro oblast rukopisů a starých tisků. 21