Implementace formátu METS v Systému Kramerius



Podobné dokumenty
Digitalizace knihovních dokumentů. Jiří Polišenský

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Příloha č. 1. Návrh aplikace pro správu a archivaci XML dokumentů Zpracoval: Ing. Jan Smolík, CSc

Digitalizace a digitální knihovny v České republice

České digitalizační projekty, jejich výsledky a agregace

The bridge to knowledge 28/05/09

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

DIGITÁLNÍ UNIVERZITNÍ REPOZITÁŘ. Andrea Fojtů Ústav výpočetní techniky UK v Praze

Vytvoření portálu odboru strukturálních fondů Ministerstva vnitra a zajištění jeho hostingu na serveru dodavatele

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Definice metadatových formátů pro digitalizaci periodik pro ANL

Projekt CDArcha: kooperativní zpracování datových CD disků. Zdeněk Hruška, Petr Žabička Moravská zemská knihovna v Brně AKM 2018

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Digitální archiv: standardy, koncepce, postupy

Digitalizace a zveřejnění sbírkových fondů paměťových institucí Zlínského kraje

Digitalizace v ČR a její podchycení v registru digitalizace. Helena Dvořáková Národní knihovna ČR

Projekt NUŠL a další projekty v ČR

Nové směry v dlouhodobém uchovávání digitálních dokumentů v mezinárodním kontextu

Z papíru na web a ke čtenáři aneb Digitalizace není jen skenování. Mgr. Monika Oravová Moravskoslezská vědecká knihovna v Ostravě

Nové standardy digitálních knihoven pro dlouhodobou ochranu

Digitalizace HF a jeho prezentace Dostupný z

2008 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 3.0 Česko

Česká digitální matematická knihovna

Specifikace předmětu plnění Datová tržiště

Technické a funkční požadavky

Sluţba Karlovarského kraje pro ukládání dokumentů a dat na území kraje

ebadatelna Zlínského kraje

Účast NK ČR v projektu Norské fondy - digitalizace bohemikálních monografií ohrožených degradací papíru. Jiří Polišenský

On-line katalog On-line digitální knihovna

Ukládání a archivace dat

Požadavky na systém pro automatizaci muzejní knihovny

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Co je (staro)nového v DSpace

MODS a další metadatová schémata v oblasti digitalizace dokumentů. Pavla Švástová Moravská zemská knihovna

Zpráva o zhotoveném plnění

Národní elektronický nástroj. Import profilu zadavatele do NEN

2014 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní

Kramerius - zpřístupnění digitálních kopií v ČR

Problematika tvorby SIP balíčků

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

ProArc open source řešení pro produkci a archivaci digitálních dokumentů

Vysokoškolské kvalifikační práce na AMU: od sběru dat po zpřístupnění plných verzí v elektronické formě

Přenos VŠKP pomocí protokolu OAI-PMH. 1. OAI-PMH The Open Archives Initiative Protocol for Metadata Harvesting

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Portál ebadatelna Zlínského kraje a zpřístupnění map. Prezentace historických map z fondu paměťových institucí Zlínského kraje

Digitalizace, popis pomocí metadat a jejich formáty. Digitization, metadata description and metadata formats

Národní digitální archiv a egovernment

Definice metadatových formátů pro digitalizaci monografií

Kooperační systém článkové bibliografie, báze ANL, báze ANL FULL budoucnost? NKČR 2011, únor. Ivana Anděrová, oddělení analytického zpracování

Technologická centra krajů a ORP

DIGITALIZACE MORAVSKÝCH KNIHOVNÍCH SBÍREK

GIS a správa majetku a dokumentů

Dlouhodobá ochrana digitálních dokumentů a projekt NDK

Editor umožní tvorbu a editaci metadat digitálních objektů, včetně importů a exportů a práci s primárními daty.

Novela autorského zákona a možnosti nových služeb knihoven v digitálním prostředí

Správa VF XML DTM DMVS Datový model a ontologický popis

Masarykova univerzita Fakulta informatiky. Kramerius PV070. Jan Holman

STATUT FORMÁTOVÉHO VÝBORU NÁRODNÍ DIGITÁLNÍ KNIHOVNY

Rosetta nástroj pro dlouhodobé uložení digitálních objektů

Zpřístupňování evškp : co je nového v ČR

RDF DSPS ROZVOJ PORTÁLU

Výměnný formát XML DTM DMVS PK

Elektronické zdroje a digitální knihovny pro zrakově postižené

Novinky v ASEPu a zkušenosti s vkládáním plných textů

Metadata a Geoportál ČÚZK. Ing. Petr Dvořáček Ing. Bohumil Vlček Zeměměměřický úřad

Digitální konkordance a Registr digitalizace v Manuscriptoriu,

Seminář pro vedoucí knihoven a SVI ústavů AV ČR

EXTRAKT z mezinárodní normy

Digitální knihovny v České republice

1. Integrační koncept

GIS Geografické informační systémy

ODBORNÁ KNIHOVNA ČESKÉ POJIŠŤOVNY ONLINE SW ŘEŠENÍ AIP SAFE

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ SPOLEČNOST DECADIC PROJEKT FRAMETRIX

Krajská digitalizace ve Středočeském kraji aktuální stav

Digitální knihovny v České republice

Systémy pro tvorbu digitálních knihoven

Vysokoškolské kvalifikační práce na AMU:

Logický datový model VF XML DTM DMVS

Příloha č. 1. k zadávací dokumentaci veřejné zakázky DATOVÝ SKLAD. Technická specifikace

Návrh technických pravidel pro tvorbu SIP

Dlouhodobá ochrana digitální dokumentů. Mgr. Jaroslav Kvasnica

Spolupráce Národního úložiště šedé literatury (NUŠL) a ústavů AV ČR

Odevzdávání a příjem e-publikací

Technická dokumentace

Univerzální vyhledávací portál jako integrační řešení pro digitální knihovny

Autorský zákon a knihovny - možnosti pro budoucnost. Vít Richter vit.richter@nkp.cz Praha, UISK, FFUK

Projekt NAKI e-deposit

Řešení oblasti LTP v projektu NDK aneb zúročení 20 let zkušeností

NOVÉ MOŽNOSTI PŘÍSTUPU K DIGITÁLNÍ ARCHIV NLK PLNOTEXTOVÝM INFORMACÍM : Filip Kříž, Lenka Maixnerová, Ondřej Horsák, Helena Bouzková

Transkript:

Implementace formátu METS v Systému Kramerius Jiří Polišenský * Polisensky.Jiri@cdh.nkp.cz Abstrakt: Kontejnerový formát METS se stává standardem rozsáhlých digitálních archivů a prostředkem pro hromadné poskytování digitálního obsahu. Kromě něj byly v rámci realizace programového projektu Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací kyselého papíru implementovány v Systému Kramerius i formáty MARC 21 pro bibliografická metadata, PREMIS a MIX pro oblast technických a administrativních metadat. Těmito kroky se vytváří předpoklady pro standardizaci Národní digitální knihovny, pro využití nástrojů dlouhodobé archivace digitálních dokumentů a rozsáhlou mezinárodní spolupráci. Předmětem příspěvku je popis rozsahu implementace uvedených formátů. Klíčová slova: digitalizace, formáty, standardizace 1 Úvod Implementace formátu METS v Systému Kramerius byla řešena jako součást realizace programového projektu Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru. Výsledkem realizace je doplnění funkcionality Systému Kramerius o možnost exportovat digitální dokumenty, zejména jejich metadata, v tomto formátu. Metadatový formát METS (Metadata Encoding and Transmission Standard 1 ) představuje standardizovaný formát XML určený pro výměnu komplexních digitálních objektů mezi systémy. Z tohoto důvodu se jeví jako perspektivní formát pro Národní digitální knihovnu. Jedná se o kontejnerový formát, který může obsahovat data v různých formátech (např. popisná metadata ve formátech MARC21, MARC XML, Dublin Core, MODS ad.). Při implementaci bylo třeba provést analýzu stávajících používaných standardů a formátů a navrhnout formáty pro jednotlivé sekce. Na realizaci projektu se podíleli pracovníci Národní knihovny ČR, Knihovny Akademie věd ČR a firma Qbizm. Tento příspěvek je příkladem šablony pro články do sborníku AKP. S cílem usnadnit vydavateli sborníku jeho vydání v jednotné úpravě a stylu, jsou autoři příspěvků žádáni, aby se laskavě řídili následujícími doporučeními. Systém Kramerius využívá vlastní formát pro popisná metadata založený na standardu XML a definicích (DTD) pro jednotlivé typy dokumentů (periodika a monografie). Podkladem pro popisná metadata byl katalogizační formát UNIMARC, rozšířený o technické údaje charakterizující proces digitalizace a rozsáhlý popis struktury dokumentu. Vzhledem k tomu, že v tomto formátu již bylo vytvořeno velké množství digitálních dokumentů, bylo třeba při dalším rozšíření funkcionality dbát na zpětnou kompatibilitu. Tím byly limitovány změny nad rámec stávajícího formátu. * Národní knihovna ČR, Klementinum 190, 110 00 Praha 1 1

2 Struktura dokumentů Na počátku implementace bylo třeba rozhodnout o obecné struktuře dokumentů. Metadata ve stávajícím formátu tvoří jediný soubor XML pro daný dokument jak monografii, tak periodikum. Toto pravidlo však nebylo možné uplatnit při tvorbě METS souborů a bylo nutné dokumenty rozčlenit na samostatné celky. Stávající členění je dané definicí typu dokumentu (DTD) pro monografie a periodika formátu NK ČR: Monograph Monograph, MonographUnit, Monograph Part, MonographPage, Volume, PeriodicaItem, Part, Page V případě formátu METS se využívá mnohem více popisných a identifikačních údajů na různých úrovních struktury. Takto vytvořený XML soubor ve formátu METS by svým rozsahem znemožňoval využívání běžných pracovních stanic proto bylo nutné použít více samostatných vnořených souborů na nižších úrovních struktury. Pro monografie se tak budou vytvářet samostatné soubory pro úroveň Monograph a MonographPart. Při exportu do formátu METS se nebude vytvářet úroveň MonographUnit. Tím se struktura monografie přibližuje dalším evropským projektům. Pro periodika budou platit čtyři úrovně, Volume, Item, Part. 3 Datové sekce Data ve formátu METS budou obsahovat kořenový element a šest sekcí dat: sekci hlavička HdrSec sekci popisných metadat dmdsec sekci administrativních metadat amdsec sekci souborů filesec strukturální mapě structmap sekci strukturálních odkazů structlink 3.1 Sekce hlavičky hdrsec Sekce hlavičky obsahuje následující atributy: datum vytvoření agent role (např. CREATOR) agent typ (např. ORGANIZATION) agent jméno (např. ABA 001) 3.2 Sekce popisných metadat dmdsec Popisná metadata obsahují katalogizační údaje a budou generována ve formátu MARC 21 (MARC XML), dále ve formátu DublinCore (DC) v nejvyšších úrovních Monograph a a DC terms na ostatních úrovních. DC terms budou sloužit k propojení nižších úrovní na vyšší. Pro potřeby generování popisných metadat byla zpracována převodní tabulka mezi formátem MARC21 a DTD pro periodika a monografie. Pro úplnost formátu METS bude nutné některé popisné elementy doplňovat z katalogizačních záznamů. Oddíly jsou číslovány (použijte pro ně styly Nadpis 1, Nadpis 2 a Nadpis 3). 2

3.3 Sekce administrativních metadat admsec Administrativní metadata jsou technické údaje o digitálních objektech nebo právech a událostech, která se k nim vztahují. Sekce administrativních metadat se dále člení do čtyř částí: techmd (technická metadata) se bude používat pro uložení administrativních metadat jednotlivých stránek. Pro každou stránku budou vytvořena dvě techmd, první bude obsahovat technická metadata o vlastním souboru ve formátu PREMIS Object, druhá bude obsahovat některé další údaje, které nelze vyjádřit ve formátu PREMIS Object. Pro tato data se použije formát MIX, rightsmd bude používána pro uložení metadat o administrativních a legislativních právech. I tato část se dále dělí na PREMISRights (administrátorská oprávnění) a METSRigts (legislativní práva), sourcemd slouží pro uložení metadat o původci údajů obsažených v METS dokumentu, digiprovmd bude v Systému Kramerius využívána pro uložení údajů o událostech spojených s jednotlivými objekty. Pro tento typ údajů bude využita část formátu PREMIS Events. 3.4 Sekce souborů filesec Sekce souborů obsahuje 4 skupiny (filegrp) podle typů souborů URL odkazy do Krameria, na všechny úrovně METS odkazy na soubory METS vyšších a nižších úrovní IMAGE odkaz na zdroj obrazové reprezentace dané stránky (odkaz na documentservlet) TXT odkaz na zdroj textové reprezentace dané stránky (odkaz na documentservlet) 3.5 Strukturální mapa structmap Strukturální mapa definuje hierarchickou strukturu dokumentu a slouží k navigaci v něm. Tato sekce tvoří základní prvek každého METS souboru. V Systému Kramerius budou využívány dva strukturní elementy definované atributem TYPE: structmap logical a structmap pages. 3.6 Strukturální odkazy structlink Tato sekce slouží k propojování jednotlivých elementů METS dokumentu, zejména k propojení logické a fyzické struktury. Následující tabulka schematicky znázorňuje použití jednotlivých sekcí (kontejnerů) formátu METS pro monografie: Sekce subsekce Monograph Monograph Part Monograph Page (míněno konkrétní reprezentace) je součástí Monograph a MonographPart 3

Kořenový zkratka = m zkratka = mcp element metshdr Ano Ano DmdSec AmdSec MARC21 DC (pokud nevznikla z MonographUnit) DC-term TechMD PREMIS(object) PREMIS(object) PREMIS(object) MIX RightsMD SourceMD Ano DigiprovMD PREMIS (events) PREMIS (events) PREMIS (events) FileSec Use = url Monograph Part MonographPage Use = mets Part Monograph Use = txt Pro reprezentace Pro reprezentace Url na dokumentservlet, který vrátí txt reprezentaci stránky Use = image Pro reprezentace Pro reprezentace Url na dokumentservlet, který vrátí image reprezentaci stránky StructMap Type = logical mets : (Part*) url : (Monograph) Type =pages seznam stránek seznam stránek StructLink Strukturní link z div sekce monograph na všechny stránky ve fyzické mapě Strukturní linky z div sekce každé Part na stránky ve fyzické mapě patřící Part Obdobným způsobem se vytváří dokumenty METS pro periodika. Opět jsou data sdružena do kořenového elementu a šesti sekcí. Počet úrovní vnoření je vyšší (, Volume, Item, Part). Použití jednotlivých sekcí pro periodika znázorňuje následující tabulka: 4

Sekce kořenový element subsekce Volume Item Part zkratka=p zkratka=pv zkratka=pi zkratka=pcp Ano Ano Ano Ano Page (míněno konkrétní reprezentace) je součástí předchozích úrovní) metshdr DmdSec TechMD RightsMD MARC21 DC DC-term MARC21 DC-term DC-term PREMIS(object) PREMIS(object) PREMIS(object) PREMIS(object) PREMIS (object) MIX Ano Ano Ano Ano Ano SourceMD PREMIS (events) PREMIS (events) PREMIS (events) PREMIS (events) PREMIS (events) AmdSec FileSec DigiprovMD Use = url Use = Url do Krameria na Volume t Volume Item Part Volume Volume Url do Krameria na Page 5

Part Part Item Item Use = txt Use = image mets : ( Volume) mets : ( Part, Item) mets : ( Part) Url na dokumentservlet, který vrátí txt reprezentaci stránky Url na dokumentservlet, který vrátí image reprezentaci stránky Type = logical url: ( Volume) Mets : url: ( Item) Mets : Mets : (Page) (Page) (Page) StructMap StructLink Type =pages Strukturní link z div sekce monograph na všechny stránky ve fyzické mapě Strukturní linky z div sekce každé Part na stránky ve fyzické mapě patřící Part Strukturní link z div sekce monograph na všechny stránky ve fyzické mapě Strukturní linky z div sekce každé Part na stránky ve fyzické mapě patřící Part 6

4 Požadavky na rozšíření stávajícího DTD Rozšíření Systému Kramerius o kontejnerový formát METS přináší některé problémy, které nelze řešit v rámci stávajícího standardu NK ČR a vyžadují rozšíření DTD pro monografie a periodika. Vždy je však třeba dbát o zachování kompatibility s již zhotovenými dokumenty. 4.1 Rozšíření stránek o index stránky Rozšíření stávajícího standardu o element PageIndex umožní řešit problémy s nekompatibilitou mezi logickou a fyzickou strukturou ústící při vytváření struktury dokumentu v účelová řešení. Index stránky zabezpečuje jednoznačné rozlišení stránek (elementy Page/MonographPage) uvnitř importovaného souboru. Unikátnost musí být zabezpečena v případě periodika na úrovni Volume a Item, v případě monografie pak na úrovni Monograph a MonographUnit. 4.2 Rozšíření Part o výčet stránek Stávající DTD pro monografie a periodika neumožňuje specifikovat stránky na úrovni Part výčtem, ale pouze odkazuje na první stranu kde vnitřní část začíná. To neumožňuje popsat situace, kdy např. článek v novinách začíná na str. 1 a pokračuje na str. 3. Dalším problémem je nemožnost přesně určit začátek logické jednotky, který se dohledává pomocí elementu PageNumber, který reprezentuje logické číslování, nikoliv index stránky uvnitř fyzické jednotky. Specifikace všech stran výčtem s použitím elementu PageIndex tyto problémy odstraní.toto řešení si vyžádalo modifikaci uživatelského rozhraní. 4.3 Rozšíření DTD monografií o element UniqueIdentifier Tento nový element je nutný při importu administrativním metadat do Systému Kramerius. UniqueIdentifier, bude sloužit pro provázání dané úrovně monografie s příslušnými administrativními metadaty, která se k němu vztahují. Pro zachování zpětné kompatibility bude volitelný. 5 Administrativní metadata a jejich implementace v Systému Kramerius Oblast administrativních metadat včetně technických tvoří množství nových popisných elementů, které představují velký problém z hlediska stávajícího DTD a Systému Kramerius. Protože se jedná o poměrně novou oblast metadat, se kterou nejsou dostatečně dlouhodobé zkušenosti, je předpoklad, že budou procházet změnami, které by znamenaly časté inovace DTD a Systému Kramerius. To by přinášelo poměrně značné finanční nároky a problémy s udržováním zpětné kompatibility apod. Během realizace projektu bylo zvoleno řešení externího importu. V rámci realizace projektu budou importní možnosti Krameria rozšířeny o import administrativních metadat, která se načtou a budou transformována do formátu METS. Výhody řešení jsou v nízkých nákladech na rozšíření a uchovávání dalších technických metadat např. pro zvukové záznamy, video apod. Technická metadata nejsou určena uživatelům, ale pouze správcům a administrátorům systémů pro potřeby dlouhodobé archivace. Proto jejich uchovávání mimo funkční části Systému Kramerius nebudou způsobovat problémy uživatelům systému. 6 Vygenerování METS dokumentu Dokumenty METS bude možné získávat ze Systému Kramerius několika způsoby: 7

on-line generováním jednoho METS souboru a následným generováním ostatních relevantních METS souborů pomocí klientské aplikace, uživatelským generováním METS dokumentu dané úrovně, pomocí utility pro hromadné stažení METS dokumentů daného podstromu, pomocí harvestovacího protokolu OAI-PMH. 7 GDZ dokument format for monographs, multivolumes and periodicals based on the Metadata Encoding and Transmission Standard (METS) Niedersächsische Staats- und Universitätsbliothek realizuje téměř shodný projekt jehož cílem je také implementace formátu METS pro monografie a periodika. Bohužel nejsou výstupy tohoto projektu běžně veřejně dostupné, proto je obtížné se o detailech řešení dovědět více informací. Výstupem projektu by měla být implementace formátu METS v systému Agora, který se používá pro tvorbu a zpřístupnění digitálních dokumentů. Během analýzy byly prověřovány možnosti převzetí formátu a zvažována míra shody i existující rozdíly. Jak se ukázalo, je vývoj limitován historií systému Agora a existencí starších formátů GDZ a Dieper. Stejné limity platí i v případě Systému Kramerius. Požadavek zachování zpětné kompatibility nutí k vlastnímu vývoji, který tento požadavek naplní. Předpokládáme, že implementace formátu METS u obou systémů zabezpečí vzájemnou interoperabilitu a usnadní příp. výměnu dokumentů mezi nimi. 8 Závěr V dalších krocích bude třeba zajistit rozšíření produkčního systému Sírius o vytváření (generování) administrativních metadat, definovat profil METS a zajistit jeho registraci prostřednictvím Kongresové knihovny. Implementace formátu METS v Systému Kramerius, využití formátu MARC 21 pro popisná metadata a doplnění administrativních metadat s využitím formátů PREMIS-Object a MIX umožní naplnit požadavky obecného konceptu archivace definovaného systémem OAIS. Tím se vytváří základ standardizace Národní digitální knihovny. Spolu s vybudováním Centrálního datového úložiště a pořízením speciálního systému pro dlouhodobou archivaci digitálních objektů, které se plánuje na přelomu let 2008 a 2009, to jsou nezbytné kroky na cestě k vytvoření tzv. trusted repository který by měl být nástrojem pro dlouhodobé dochování digitálních dokumentů. WWW odkazy 1. http://www.loc.gov/standards/mets/ 8