Příloha č. 1 Návrh aplikace pro správu a archivaci XML dokumentů Zpracoval: Ing. Jan Smolík, CSc Praha, listopad 2006
Obsah: I. Specifikace zadání II. Popis řešení II.1 Popis výchozího stavu II.2 Způsob práce II.3 Vzhled řešení II.4 Datová struktura II.5 Programované funkce II.6 Technické informace III. Harmonogram a způsob realizace
I. Specifikace zadání Pronájem aplikace vytvořené nebo upravené pro potřeby Národní knihovny ČR, která bude provozována na serveru NK ČR s operačním systémem DEBIAN. Cílem řešení je vytvořit databázové prostředí pro archivaci XML dokumentů, evidenci digitalizovaných materiálů a řízení výroby digitalizace (evidence zakázek, sledování jejich stavu, úkolů a postupu prací na jednotlivých zakázkách). II. Popis řešení II.1 Popis výchozího stavu Stávající evidence digitalizovaných materiálů je v tabulkách MS Excel. XLS soubor 20 sloupců, cca 10 tisíc záznamů. XML soubory velikosti 1-100 MB. Rozsah dat : 20GB v XML. Ostatní evidence v papírové podobě. Data uložená v excelových tabulkách budou vygenerována / znovu zapsána do databáze prostřednictvím webového rozhraní aplikace. Struktura vstupních dat: Digitalizované periodikum Obsahuje údaje o digitalizovaném časopisu, novinách či jiném periodickém dokumentu. Digitalizovaná monografie Obsahuje údaje o digitalizované knize, či jiném neperiodickém dokumentu. XML soubor Obsahuje údaje o XML dokumentu vytvářeném podle definice DTD pro periodika nebo monografie. Součástí jsou odkazy na obrazové a textové soubory. Zakázky Obsahuje údaje o dávce během digitalizace dokumentu a jeho další existence. Číslo zakázky tvoří část jedinečného identifikátoru dokumentů a jednotlivých souborů (digitálních objektů). Osoby Obsahuje údaje o operátorech s uvedením jimi prováděných činností v procesu digitalizace. Úkol Obsahuje údaje o činnostech v procesu digitalizace. Digitalizované periodikum Číslo záznamu Název ruční vstup systémem generovaná číselná řada s prefixem PE, bez ruční editace ISSN ruční vstup, zapisuje se včetně pomlčky
Poznámka XML soubory Zakázka vytvořená na základě ISSN, možný i ruční vstup ručně vytvořená Digitalizovaná monografie Číslo záznamu Název ruční vstup Jméno autora Příjmení autora systémem generovaná číselná řada s prefixem MO, bez ruční editace ruční vstup ruční vstup Poznámka ruční vstup XML soubory Zakázka ručně vytvořená ručně vytvořená XML soubor XML soubor bindata Jméno souboru systémem doplněné jméno souboru, bez ručního vstupu Velikost XML souboru (kb) number systémem doplněná velikost XML souboru, bez ručního vstupu Datum uložení date systémem doplněné datum založení záznamu, bez ručního vstupu Uložil systémem doplněný login uživatele, který záznam založil, bez ručního vstupu Rozsah doplněné z XML, bez ručního vstupu Celkový počet IMG Zakázky Číslo zakázky Počet obrázků number opakované pole systémem doplněný počet odkazů na obrázky v XML souboru, bez ručního vstupu data získaná z XML souboru, bez ručního vstupu
Zakázky Číslo zakázky String systémem generovaná pětimístná číselná řada s možností ručního vstupu, kontrola jedinečnosti Stav Digitalizovaný dokument Reference Rozsah String ruční vstup Velikost zakázky (MB) Number stav záznamu může nabývat hodnot "Aktivní" a "Dokončen" výběr ze záznamů agend "Digitalizované periodikum" a "Digitalizovaná monografie" ruční vstup Sigla vlastníka String ruční vstup Sigla spoluvlastníka String ruční vstup Zpracovatel String ruční vstup Úkol Poznámka String ruční vstup přidružené záznamy z agendy Úkol Datum založení Date systémem doplněné datum založení záznamu, bez ručního vstupu Založil systémem doplněný "uživatel", bez ručního vstupu Datum dokončení date systémem doplněné datum dokončení záznamu, závislé na obsahu pole Stav Dokončil systémem doplněný "uživatel, závislé na obsahu pole Stav Osoby Úkol Příjmení ruční vstup Jméno ruční vstup Úkol Typ práce integer/combobox integer/combobox přidružené záznamy z agendy Úkol ruční vstup, může nabývat hodnot "Archivace, "Konverze FREE", "Konverze PROFI", "OCR", "Ořez", "Skenování", "Tvorba metadat", "Zpřístupnění"
Stav Osoba (Příjmení, Jméno) integer/combobox reference Poznámka ruční vstup stav záznamu může nabývat hodnot "Aktivní" a "Dokončen", ruční vstup výběr ze záznamů agendy Osoba Datum založení date systémem doplněné datum založení záznamu, bez ručního vstupu Založil systémem doplněný "uživatel", bez ručního vstupu Datum dokončení date systémem doplněné datum dokončení záznamu, závislé na obsahu pole Stav Dokončil systémem doplněný "uživatel", závislé na obsahu pole Stav Zakázka reference výběr ze záznamů agendy Zakázky II.2 Způsob práce Zápis dat o digitalizovaném periodiku Uživatel otevře agendu "Digitalizované periodikum", založí nový záznam a vyplní formulář. Zápis dat o digitalizované monografii Uživatel otevře agendu "Digitalizovaná monografie", založí nový záznam a vyplní formulář. Zápis dat o zakázce A) Uživatel otevře agendu "Zakázky", založí nový záznam a vyplní formulář. Vytvoří vazbu na záznam o digitalizovaném dokumentu. B) Otevře agendu "Digitalizované periodikum" (resp. "Digitalizovaná monografie"), najde záznam daného dokumentu a založí novou zakázku. Import XML souboru Uživatel otevře agendu "XML soubory", založí nový záznam a pomocí dialogu vloží XML soubor. "OnUpdate" se vyplní popisná data převzetím z XML (Název souboru, Velikost souboru, Rozsah, Celkový počet IMG, Zakázka, Počet obrázků).vytvoří se na existující zakázky na základě čísla zakázky. Doporučená velikost na server služby <5 MB [může být větší 10 MB = 2min. Uložení na server] Offline editace XML Uživatel má možnost vyzvednout zvolený XML soubor pro editaci. Po skončení editace znovu naimportuje XML soubor. Při každé změně souboru budou popisná data automaticky aktualizována. II.3 Vzhled řešení Řešení bude koncipováno jako webové formuláře. II.4 Datová struktura
II.5 Programované funkce Automatické doplnění popisných polí v agendě "XML soubor" a agendě Zakázky na základě analýzy XML. pole Rozsah Celkový počet IMG Zakázka.Číslo zakázky (opakované) Zakázka.Počet obrázků (opakované) Titul.ISSN zdroj údajů Informace z atributu <PeriodicalVolumeDate>. Položky budou odděleny středníkem ";". Počet výskytů odkazu na obrázek<pageimage...> v celém XML souboru. Prvních pět číslic názvu obrázku<pageimage...> Počet obrázků s daným číselným prefixem zakázky. Automatická na agendu Digitalizované periodikum vytvořená na základě ISSN <ISSN>. V případě, že nebude nalezen odpovídající Titul, bude uživatel informován a údaje budou zapsány do poznámky. Kontrola jedinečnosti zakázek. Při založení zakázky systém zkontroluje zda neexistuje jiná zakázka na stejná čísla periodika a monografie. O výsledku kontroly upozorní uživatele.
Export XML souboru jako celek nebo po částech (ročník, výtisk u periodik, volné části u monografií) Sloučení XML do jednoho souboru. Slučovat u periodik výtisky do ročníků, ročníky do titulů, u monografií volné části do titulů. Sledování stavu Úkolů a Zakázek. Automatické doplnění data dokončení úkolu, resp. zakázky a uživatele, který stav změnil. Přidělování práv operátorům. II.6 Technické informace NK ČR preferuje AMD procesor, OS DEBIAN, v případě využití HW NK ČR. Ověřovací část proběhne na serveru NK ČR v Centrálním depozitáři v Hostivaři. Aplikace bude podporovat webové prohlížeče MSIE, Mozilla FireFox. III. Harmonogram a způsob realizace Předpokládané časové nároky na vytvoření aplikace a její implementaci: Do 4 týdnů od rozhodnutí o dodavateli vytvořit či přizpůsobit aplikaci a realizovat její prezentaci na zařízení dodavatele. Do 6 týdnů od rozhodnutí provést implementaci v NK ČR a zaškolení operátorů. Cena zařízení by se měla odvíjet od způsobu realizace. V podstatě jsou dvě varianty, příp. jejich kombinace. Vzhledem k dalším záměrům NK ČR není třeba aplikaci pořizovat jako investici, je možné ji získat pronájmem. Varianty Uchazeč může nabídnout následující varianty: pronájem aplikace, pronájem aplikace a HW, provoz v prostorách NK ČR pronájem aplikace a HW, provoz v prostorách dodavatele U navržených variant by měl dodavatel vyčíslit konečnou cenu pronájmu jednotlivě za aplikaci, HW a příp. rozdíl v ceně u provozu v NK ČR a ve vlastních prostorách.