Implementace formátu METS v Systému Kramerius Jiří Polišenský * Polisensky.Jiri@cdh.nkp.cz Abstrakt: Kontejnerový formát METS se stává standardem rozsáhlých digitálních archivů a prostředkem pro hromadné poskytování digitálního obsahu. Kromě něj byly v rámci realizace programového projektu Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací kyselého papíru implementovány v Systému Kramerius i formáty MARC 21 pro bibliografická metadata, PREMIS a MIX pro oblast technických a administrativních metadat. Těmito kroky se vytváří předpoklady pro standardizaci Národní digitální knihovny, pro využití nástrojů dlouhodobé archivace digitálních dokumentů a rozsáhlou mezinárodní spolupráci. Předmětem příspěvku je popis rozsahu implementace uvedených formátů. Klíčová slova: digitalizace, formáty, standardizace 1 Úvod Implementace formátu METS v Systému Kramerius byla řešena jako součást realizace programového projektu Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru. Výsledkem realizace je doplnění funkcionality Systému Kramerius o možnost exportovat digitální dokumenty, zejména jejich metadata, v tomto formátu. Metadatový formát METS (Metadata Encoding and Transmission Standard 1 ) představuje standardizovaný formát XML určený pro výměnu komplexních digitálních objektů mezi systémy. Z tohoto důvodu se jeví jako perspektivní formát pro Národní digitální knihovnu. Jedná se o kontejnerový formát, který může obsahovat data v různých formátech (např. popisná metadata ve formátech MARC21, MARC XML, Dublin Core, MODS ad.). Při implementaci bylo třeba provést analýzu stávajících používaných standardů a formátů a navrhnout formáty pro jednotlivé sekce. Na realizaci projektu se podíleli pracovníci Národní knihovny ČR, Knihovny Akademie věd ČR a firma Qbizm. Tento příspěvek je příkladem šablony pro články do sborníku AKP. S cílem usnadnit vydavateli sborníku jeho vydání v jednotné úpravě a stylu, jsou autoři příspěvků žádáni, aby se laskavě řídili následujícími doporučeními. Systém Kramerius využívá vlastní formát pro popisná metadata založený na standardu XML a definicích (DTD) pro jednotlivé typy dokumentů (periodika a monografie). Podkladem pro popisná metadata byl katalogizační formát UNIMARC, rozšířený o technické údaje charakterizující proces digitalizace a rozsáhlý popis struktury dokumentu. Vzhledem k tomu, že v tomto formátu již bylo vytvořeno velké množství digitálních dokumentů, bylo třeba při dalším rozšíření funkcionality dbát na zpětnou kompatibilitu. Tím byly limitovány změny nad rámec stávajícího formátu. * Národní knihovna ČR, Klementinum 190, 110 00 Praha 1 1
2 Struktura dokumentů Na počátku implementace bylo třeba rozhodnout o obecné struktuře dokumentů. Metadata ve stávajícím formátu tvoří jediný soubor XML pro daný dokument jak monografii, tak periodikum. Toto pravidlo však nebylo možné uplatnit při tvorbě METS souborů a bylo nutné dokumenty rozčlenit na samostatné celky. Stávající členění je dané definicí typu dokumentu (DTD) pro monografie a periodika formátu NK ČR: Monograph Monograph, MonographUnit, Monograph Part, MonographPage, Volume, PeriodicaItem, Part, Page V případě formátu METS se využívá mnohem více popisných a identifikačních údajů na různých úrovních struktury. Takto vytvořený XML soubor ve formátu METS by svým rozsahem znemožňoval využívání běžných pracovních stanic proto bylo nutné použít více samostatných vnořených souborů na nižších úrovních struktury. Pro monografie se tak budou vytvářet samostatné soubory pro úroveň Monograph a MonographPart. Při exportu do formátu METS se nebude vytvářet úroveň MonographUnit. Tím se struktura monografie přibližuje dalším evropským projektům. Pro periodika budou platit čtyři úrovně, Volume, Item, Part. 3 Datové sekce Data ve formátu METS budou obsahovat kořenový element a šest sekcí dat: sekci hlavička HdrSec sekci popisných metadat dmdsec sekci administrativních metadat amdsec sekci souborů filesec strukturální mapě structmap sekci strukturálních odkazů structlink 3.1 Sekce hlavičky hdrsec Sekce hlavičky obsahuje následující atributy: datum vytvoření agent role (např. CREATOR) agent typ (např. ORGANIZATION) agent jméno (např. ABA 001) 3.2 Sekce popisných metadat dmdsec Popisná metadata obsahují katalogizační údaje a budou generována ve formátu MARC 21 (MARC XML), dále ve formátu DublinCore (DC) v nejvyšších úrovních Monograph a a DC terms na ostatních úrovních. DC terms budou sloužit k propojení nižších úrovní na vyšší. Pro potřeby generování popisných metadat byla zpracována převodní tabulka mezi formátem MARC21 a DTD pro periodika a monografie. Pro úplnost formátu METS bude nutné některé popisné elementy doplňovat z katalogizačních záznamů. Oddíly jsou číslovány (použijte pro ně styly Nadpis 1, Nadpis 2 a Nadpis 3). 2
3.3 Sekce administrativních metadat admsec Administrativní metadata jsou technické údaje o digitálních objektech nebo právech a událostech, která se k nim vztahují. Sekce administrativních metadat se dále člení do čtyř částí: techmd (technická metadata) se bude používat pro uložení administrativních metadat jednotlivých stránek. Pro každou stránku budou vytvořena dvě techmd, první bude obsahovat technická metadata o vlastním souboru ve formátu PREMIS Object, druhá bude obsahovat některé další údaje, které nelze vyjádřit ve formátu PREMIS Object. Pro tato data se použije formát MIX, rightsmd bude používána pro uložení metadat o administrativních a legislativních právech. I tato část se dále dělí na PREMISRights (administrátorská oprávnění) a METSRigts (legislativní práva), sourcemd slouží pro uložení metadat o původci údajů obsažených v METS dokumentu, digiprovmd bude v Systému Kramerius využívána pro uložení údajů o událostech spojených s jednotlivými objekty. Pro tento typ údajů bude využita část formátu PREMIS Events. 3.4 Sekce souborů filesec Sekce souborů obsahuje 4 skupiny (filegrp) podle typů souborů URL odkazy do Krameria, na všechny úrovně METS odkazy na soubory METS vyšších a nižších úrovní IMAGE odkaz na zdroj obrazové reprezentace dané stránky (odkaz na documentservlet) TXT odkaz na zdroj textové reprezentace dané stránky (odkaz na documentservlet) 3.5 Strukturální mapa structmap Strukturální mapa definuje hierarchickou strukturu dokumentu a slouží k navigaci v něm. Tato sekce tvoří základní prvek každého METS souboru. V Systému Kramerius budou využívány dva strukturní elementy definované atributem TYPE: structmap logical a structmap pages. 3.6 Strukturální odkazy structlink Tato sekce slouží k propojování jednotlivých elementů METS dokumentu, zejména k propojení logické a fyzické struktury. Následující tabulka schematicky znázorňuje použití jednotlivých sekcí (kontejnerů) formátu METS pro monografie: Sekce subsekce Monograph Monograph Part Monograph Page (míněno konkrétní reprezentace) je součástí Monograph a MonographPart 3
Kořenový zkratka = m zkratka = mcp element metshdr Ano Ano DmdSec AmdSec MARC21 DC (pokud nevznikla z MonographUnit) DC-term TechMD PREMIS(object) PREMIS(object) PREMIS(object) MIX RightsMD SourceMD Ano DigiprovMD PREMIS (events) PREMIS (events) PREMIS (events) FileSec Use = url Monograph Part MonographPage Use = mets Part Monograph Use = txt Pro reprezentace Pro reprezentace Url na dokumentservlet, který vrátí txt reprezentaci stránky Use = image Pro reprezentace Pro reprezentace Url na dokumentservlet, který vrátí image reprezentaci stránky StructMap Type = logical mets : (Part*) url : (Monograph) Type =pages seznam stránek seznam stránek StructLink Strukturní link z div sekce monograph na všechny stránky ve fyzické mapě Strukturní linky z div sekce každé Part na stránky ve fyzické mapě patřící Part Obdobným způsobem se vytváří dokumenty METS pro periodika. Opět jsou data sdružena do kořenového elementu a šesti sekcí. Počet úrovní vnoření je vyšší (, Volume, Item, Part). Použití jednotlivých sekcí pro periodika znázorňuje následující tabulka: 4
Sekce kořenový element subsekce Volume Item Part zkratka=p zkratka=pv zkratka=pi zkratka=pcp Ano Ano Ano Ano Page (míněno konkrétní reprezentace) je součástí předchozích úrovní) metshdr DmdSec TechMD RightsMD MARC21 DC DC-term MARC21 DC-term DC-term PREMIS(object) PREMIS(object) PREMIS(object) PREMIS(object) PREMIS (object) MIX Ano Ano Ano Ano Ano SourceMD PREMIS (events) PREMIS (events) PREMIS (events) PREMIS (events) PREMIS (events) AmdSec FileSec DigiprovMD Use = url Use = Url do Krameria na Volume t Volume Item Part Volume Volume Url do Krameria na Page 5
Part Part Item Item Use = txt Use = image mets : ( Volume) mets : ( Part, Item) mets : ( Part) Url na dokumentservlet, který vrátí txt reprezentaci stránky Url na dokumentservlet, který vrátí image reprezentaci stránky Type = logical url: ( Volume) Mets : url: ( Item) Mets : Mets : (Page) (Page) (Page) StructMap StructLink Type =pages Strukturní link z div sekce monograph na všechny stránky ve fyzické mapě Strukturní linky z div sekce každé Part na stránky ve fyzické mapě patřící Part Strukturní link z div sekce monograph na všechny stránky ve fyzické mapě Strukturní linky z div sekce každé Part na stránky ve fyzické mapě patřící Part 6
4 Požadavky na rozšíření stávajícího DTD Rozšíření Systému Kramerius o kontejnerový formát METS přináší některé problémy, které nelze řešit v rámci stávajícího standardu NK ČR a vyžadují rozšíření DTD pro monografie a periodika. Vždy je však třeba dbát o zachování kompatibility s již zhotovenými dokumenty. 4.1 Rozšíření stránek o index stránky Rozšíření stávajícího standardu o element PageIndex umožní řešit problémy s nekompatibilitou mezi logickou a fyzickou strukturou ústící při vytváření struktury dokumentu v účelová řešení. Index stránky zabezpečuje jednoznačné rozlišení stránek (elementy Page/MonographPage) uvnitř importovaného souboru. Unikátnost musí být zabezpečena v případě periodika na úrovni Volume a Item, v případě monografie pak na úrovni Monograph a MonographUnit. 4.2 Rozšíření Part o výčet stránek Stávající DTD pro monografie a periodika neumožňuje specifikovat stránky na úrovni Part výčtem, ale pouze odkazuje na první stranu kde vnitřní část začíná. To neumožňuje popsat situace, kdy např. článek v novinách začíná na str. 1 a pokračuje na str. 3. Dalším problémem je nemožnost přesně určit začátek logické jednotky, který se dohledává pomocí elementu PageNumber, který reprezentuje logické číslování, nikoliv index stránky uvnitř fyzické jednotky. Specifikace všech stran výčtem s použitím elementu PageIndex tyto problémy odstraní.toto řešení si vyžádalo modifikaci uživatelského rozhraní. 4.3 Rozšíření DTD monografií o element UniqueIdentifier Tento nový element je nutný při importu administrativním metadat do Systému Kramerius. UniqueIdentifier, bude sloužit pro provázání dané úrovně monografie s příslušnými administrativními metadaty, která se k němu vztahují. Pro zachování zpětné kompatibility bude volitelný. 5 Administrativní metadata a jejich implementace v Systému Kramerius Oblast administrativních metadat včetně technických tvoří množství nových popisných elementů, které představují velký problém z hlediska stávajícího DTD a Systému Kramerius. Protože se jedná o poměrně novou oblast metadat, se kterou nejsou dostatečně dlouhodobé zkušenosti, je předpoklad, že budou procházet změnami, které by znamenaly časté inovace DTD a Systému Kramerius. To by přinášelo poměrně značné finanční nároky a problémy s udržováním zpětné kompatibility apod. Během realizace projektu bylo zvoleno řešení externího importu. V rámci realizace projektu budou importní možnosti Krameria rozšířeny o import administrativních metadat, která se načtou a budou transformována do formátu METS. Výhody řešení jsou v nízkých nákladech na rozšíření a uchovávání dalších technických metadat např. pro zvukové záznamy, video apod. Technická metadata nejsou určena uživatelům, ale pouze správcům a administrátorům systémů pro potřeby dlouhodobé archivace. Proto jejich uchovávání mimo funkční části Systému Kramerius nebudou způsobovat problémy uživatelům systému. 6 Vygenerování METS dokumentu Dokumenty METS bude možné získávat ze Systému Kramerius několika způsoby: 7
on-line generováním jednoho METS souboru a následným generováním ostatních relevantních METS souborů pomocí klientské aplikace, uživatelským generováním METS dokumentu dané úrovně, pomocí utility pro hromadné stažení METS dokumentů daného podstromu, pomocí harvestovacího protokolu OAI-PMH. 7 GDZ dokument format for monographs, multivolumes and periodicals based on the Metadata Encoding and Transmission Standard (METS) Niedersächsische Staats- und Universitätsbliothek realizuje téměř shodný projekt jehož cílem je také implementace formátu METS pro monografie a periodika. Bohužel nejsou výstupy tohoto projektu běžně veřejně dostupné, proto je obtížné se o detailech řešení dovědět více informací. Výstupem projektu by měla být implementace formátu METS v systému Agora, který se používá pro tvorbu a zpřístupnění digitálních dokumentů. Během analýzy byly prověřovány možnosti převzetí formátu a zvažována míra shody i existující rozdíly. Jak se ukázalo, je vývoj limitován historií systému Agora a existencí starších formátů GDZ a Dieper. Stejné limity platí i v případě Systému Kramerius. Požadavek zachování zpětné kompatibility nutí k vlastnímu vývoji, který tento požadavek naplní. Předpokládáme, že implementace formátu METS u obou systémů zabezpečí vzájemnou interoperabilitu a usnadní příp. výměnu dokumentů mezi nimi. 8 Závěr V dalších krocích bude třeba zajistit rozšíření produkčního systému Sírius o vytváření (generování) administrativních metadat, definovat profil METS a zajistit jeho registraci prostřednictvím Kongresové knihovny. Implementace formátu METS v Systému Kramerius, využití formátu MARC 21 pro popisná metadata a doplnění administrativních metadat s využitím formátů PREMIS-Object a MIX umožní naplnit požadavky obecného konceptu archivace definovaného systémem OAIS. Tím se vytváří základ standardizace Národní digitální knihovny. Spolu s vybudováním Centrálního datového úložiště a pořízením speciálního systému pro dlouhodobou archivaci digitálních objektů, které se plánuje na přelomu let 2008 a 2009, to jsou nezbytné kroky na cestě k vytvoření tzv. trusted repository který by měl být nástrojem pro dlouhodobé dochování digitálních dokumentů. WWW odkazy 1. http://www.loc.gov/standards/mets/ 8