Návrh technických pravidel pro tvorbu SIP Použití některých elementů XML schématu dle přílohy 3 národního standardu pro elektronické systémy spisové služby verze: 7 Národní standard pro elektronické systémy spisové služby (dále jen NSESSS) vydaný na základě 70 odst. 2 zákona č. 499/2004 Sb., o archivnictví a spisové službě a o změně některých zákonů, ve znění pozdějších předpisů a zveřejněný ve Věstníku Ministerstva vnitra, částka 64/2012 s účinností od 11. července 2012 zahrnuje ve svých přílohách 1 až 5 specifikace XML schémata (XSD), na jejichž základě probíhá komunikace nejen mezi elektronickými systémy spisové služby vzájemně, ale i s příslušným digitálním archivem. Zprovoznění národního digitálního archivu a s ním spojené provádění výběru archiválií z elektronických systémů spisových služeb včetně přejímání digitálních dokumentů přineslo řadu poznatků technického charakteru, z nichž některé jsou zásadní. Z těchto důvodů vznikl tento návrh technických pravidel, které vysvětlují některá různě chápaná ustanovení XML schématu dle přílohy 3 NSESSS za účelem zpřehlednění a zjednodušení vytváření SIP. Ke změně XML schématu dle přílohy 3 NSESSS těmito pravidly nedochází. Návrh byl zpracován ve spolupráci s Archivem hlavního města Prahy na základě zkušeností s balíčky SIP, které Národní archiv dosud obdržel. Ukazuje se, že některá ustanovení přílohy č. 3 Národního standardu pro elektronické systémy spisové služby (NSESSS) nebyla správně pochopena, nebo by bylo vhodné je na základě praktických zkušeností upravit. Cílem je vytvořit pravidla pro vytvoření SIP dle přílohy č. 3 NSESSS, která zpřehlední a zjednoduší vytváření SIP a zvýší jejich kvalitu při zachování použití stávajícího schématu METS. Záměrem je, po projednání s dodavateli elektronických systémů spisových služeb, implementovat upravená pravidla do validátoru SIP provozovaného Národním archivem (NA), a po jejich ověření v praxi je zakotvit v novele přílohy č. 3 NSESSS. Přehled návrhů změn 1. Výklad popisu prvků schématu XML za účelem vytvoření datového balíčku SIP přílohy č. 3 NSeSSS... 1 2. Použití elementu <mets:flocat>... 1 3. Vazba mezi komponentou a počítačovým souborem... 3 4. Struktura balíčku SIP (včetně přípony)... 4 5. Konstrukce SIP pro skartační řízení... 5
1. Výklad popisu prvků schématu XML za účelem vytvoření datového balíčku SIP dle přílohy č. 3 NSESSS Ustanovení v části Popis prvků schématu XML za účelem vytvoření datového balíčku SIP v příloze č. 3 NSESSS (strany 34-40) je třeba brát jako závazná. Pokud je u elementu uveden atribut, jde o prvek s povinným výskytem. Jestliže je u hodnoty atributu uvedeno, že jeho konstrukce není předepsána, znamená to, že hodnota není definována pravidly a že je možné ji vyplnit jakkoli s omezením pouze na validitu hodnoty proti schématu METS. Naopak popis výchozí hodnota atributu je znamená, že uváděná hodnota je jediná přípustná a musí být v dokumentu XML výslovně uvedena. 2. Použití elementu <mets:flocat> Příloha č. 3 v současné době předpokládá pro uložení komponenty použití elementu <mets:fcontent> s kódováním Base64 binárních dat komponenty. Takováto konstrukce se ukazuje jako nevhodná, protože je technicky a časově náročná pro zpracování a současně představuje nárůst velikosti. Naopak není využívána hlavní přednost tohoto řešení v možnosti snadného přenosu prostřednictvím protokolů určených pro předávání pouze tisknutelných znaků (např. HTTP). Navrhujeme proto namísto elementu <mets:fcontent> použít pro zaznamenání komponenty element <mets:flocat> s připojením odkazu na binární data komponenty. Do elementu <mets:mets> bude nutné přidat atribut xmlns:xlink s hodnotou "http://www.w3.org/1999/xlink", aby bylo možné zaznamenat formálně správný odkaz na komponentu a aby zůstala zachována validita prvku proti schématu METS. <mets:mets xmlns:nsesss="http://www.mvcr.cz/nsesss/v2" xmlns:mets="http://www.loc.gov/mets/" xmlns:xsi="http://www.w3.org/2001/xmlschema-instance" xmlns:xlink="http://www.w3.org/1999/xlink" OBJID="NA_3be8aa2e-0ba9-42d4-96e6-20794f3ceeae" LABEL="Schéma XML pro předávání dokumentů a jejich metadat do archivu Submission Information Package (SIP)" xsi:schemalocation="http://www.loc.gov/mets/ http://www.loc.gov/standards/mets/mets.xsd http://www.mvcr.cz/nsesss/v2 http://www.mvcr.cz/nsesss/v2/nsesss.xsd">... </mets:mets> Kořenový element METS po uvedené změně obsahuje tyto globální atributy: <mets:mets> NE xsi:schemalocation zaznamenává dvojici údajů, která spojuje adresu (URI) deklarovaného jmenného prostoru s umístěním příslušného schématu XML. Výchozí hodnota atributu je "http://www.loc.gov/mets/ http://www.loc.gov/standards/mets/mets.xsd http://www.mvcr.cz/nsesss/v2 http://www.mvcr.cz/nsesss/v2/nsesss.xsd". OBJID identifikuje balíček SIP. Jde o jedinečný identifikátor balíčku SIP v rámci původce. Jeho konstrukce není předepsána. strana 2/6
LABEL uvádí popis použití dokumentu XML. Výchozí hodnota atributu je "Datový balíček pro předávání dokumentů a jejich metadat do archivu Submission Information Package (SIP)". xmlns:xsi zaznamenává adresu (URI) jmenného prostoru schématu XML. Tento jmenný prostor je identifikován prostřednictvím URL. Výchozí hodnota je "http://www.w3.org/2001/xmlschema-instance". xmlns:nsesss zaznamenává adresu (URI) jmenného prostoru schématu NSESSS verze 2.0. Výchozí hodnota je "http://www.mvcr.cz/nsesss/v2". xmlns:mets zaznamenává adresu (URI) jmenného prostoru schématu METS. Výchozí hodnota je "http://www.loc.gov/mets/". xmlns:xlink zaznamenává adresu (URI) jmenného prostoru schématu XML. Tento jmenný prostor je identifikován prostřednictvím URL. Jeho hodnota je "http://www.w3.org/1999/xlink". <mets:flocat> má následující podobu <mets:flocat> NE xlink:type uvádí typ odkazu. Výchozí hodnota atributu je "simple". xlink:href jedná se o relativní cestu ke komponentě. Vlastní komponenty se nalézají v adresáři s názvem komponenty. Tento adresář je na stejné úrovni hierarchie jako mets.xml (viz bod 4). Název komponenty může obsahovat číslice a znaky A-Z, a-z, pomlčka a podtržítko. Název nesmí obsahovat znaky s diakritikou a mezery a může být dlouhý maximálně 255 znaků. Regex:(?:^[a-zA-Z0-9][a-zA-Z0-9-_]*)(?:\.[a-zA-Z0-9]+)*. LOCTYPE jeho hodnota je "URL" <mets:flocat LOCTYPE="URL" xlink:type="simple" xlink:href="komponenty/nejaky_soubor.pdf" /> strana 3/6
3. Vazba mezi metadaty komponenty a komponentou (tagy <nsesss:komponenta> a <mets:file>) Vazbu mezi metadaty komponenty v XML a příslušnou komponentou (počítačovým souborem) nelze v současné podobě přílohy 3 NSESSS jednoznačně zaznamenat. Z tohoto důvodu je navrhujeme v elemetu <mets:file> pomocí atributu DMDID zaznamenat přímo ID příslušné komponenty vnořené uvnitř sekce <mets:dmdsec>. Současně by bylo vhodné vypustit atribut OWNERID, který je v rámci schématu METS volitelný. Následná podoba elementu <mets:file>: <mets:file> ID identifikuje komponentu. Jde o jedinečný identifikátor komponenty v rámci dokumentu XML. Jeho konstrukce není předepsána. MIMETYPE zaznamenává určení typu a formátu souboru podle internetového standardu MIME. DMDID zaznamenává vazbu mezi popisnými a administrativními metadaty komponenty. Obsahuje hodnotu atributu ID elementu <nsesss:komponenta> příslušné komponenty. CHECKSUMTYPE zaznamenává hashovací algoritmus pro tvorbu otisku (hash) komponenty. CHECKSUM zaznamenává otisk (hash) komponenty. SIZE zaznamenává velikost komponenty v bytech. CREATED zaznamenává datum vytvoření komponenty ve formě, která je dána normou ISO 8601. <nsesss:komponenta ID="NA12345678"> <mets:file ID="F123456" DMDID="NA12345678".> Obdobně by měla být vazba zaznamenána uvnitř sekce <mets:structmap>. <mets:structmap > tak bude mít následující podobu: <mets:div> TYPE zaznamenává typ objektu nebo entity. Nejvyšší entitou je "spisový plán", dále "věcná skupina", "typový spis", "součást", "díl", "spis", "dokument" a nejnižší entitou je "komponenta". strana 4/6
DMDID zaznamenává vazbu mezi popisnými a strukturálními metadaty komponenty Obsahuje hodnotu atributu ID elementu příslušné entity uvnitř sekce <mets:dmdsec>. <nsesss:komponenta ID="NA12345678"> <mets:file ID="F123456".> <mets:structmap> <mets:div DMDID="NA3544" TYPE="spisový plán"> <mets:div DMDID="NA-4" TYPE="věcná skupina"> <mets:div DMDID="SP123456" TYPE="spis"> <mets:div DMDID="D123456" TYPE="dokument"> <mets:div DMDID="NA12345678" TYPE="komponenta"> <mets:fptr FILEID="F123456"/> </mets:structmap> 4. Podoba balíčku SIP Použití elementu <mets:flocat> vyžaduje standardizaci struktury balíčku SIP, neboť tento již nemusí být tvořen jedním počítačovým souborem. Navrhujeme proto balíček SIP definovat jako adresář (složku), jehož název bude jedinečný v rámci daného exportu (např. pro jedno skartační řízení), který by vždy obsahoval podadresář komponenty a soubor mets.xml. Soubor mets.xml obsahuje metadata a je vytvořen dle 3. přílohy NSESSS. Podadresář pro binární data komponent obsahuje všechny komponenty reprezentující citované v souboru mets.xml. Adresář celého SIP by byl následně komprimován metodou ZIP do výsledného souboru s identickým názvem, jako má adresář celého SIP. Příklad adresářové struktury SIP jedinecny_nazev_sip_adreare [dir] -komponenty [dir] -nazev_souboru_pdfa.pdf -mets.xml Po komprimaci ( zabalení ): jedinecny_nazev_sip_adresare.zip -jedinecny_nazev_sip_adresare [dir] -komponenty [dir] -nazev_souboru_pdfa.pdf -mets.xml strana 5/6
5. Konstrukce balíčku SIP pro skartační řízení Balíček SIP pro skartační řízení musí obsahovat metadata, ale nemusí obsahovat komponenty. Je proto tvořen z úplného SIP (obsahujícího komponenty) prostým vypuštěním sekce <mets:flocat> a obsahu adresáře komponenty (adresář bude prázdný). Aby bylo možné při zpracování zjistit, že jde o SIP pro skartační řízení a nikoli neúplný balíček SIP, uvede se v atributu LABEL elementu <mets:mets> hodnota Datový balíček pro provedení skartačního řízení. < mets:mets > má pak tuto podobu: <mets:mets> NE xsi:schemalocation zaznamenává dvojici údajů, která spojuje adresu (URI) deklarovaného jmenného prostoru s umístěním příslušného schématu XML. Výchozí hodnota atributu je "http://www.loc.gov/mets/ http://www.loc.gov/standards/mets/mets.xsd http://www.mvcr.cz/nsesss/v2 http://www.mvcr.cz/nsesss/v2/nsesss.xsd". OBJID identifikuje balíček SIP. Jde o jedinečný identifikátor balíčku v rámci původce. Jeho konstrukce není předepsána. LABEL uvádí popis použití dokumentu XML. Výchozí hodnota atributu je "Datový balíček pro předávání dokumentů a jejich metadat do archivu Submission Information Package (SIP)" pro kompletní SIP, nebo Datový balíček pro provedení skartačního řízení v případě SIP pro skartační řízení. xmlns:xsi zaznamenává adresu (URI) jmenného prostoru schématu XML. Tento jmenný prostor je identifikován prostřednictvím URL. Výchozí hodnota je "http://www.w3.org/2001/xmlschema-instance". xmlns:nsesss zaznamenává adresu (URI) jmenného prostoru schématu NSESSS verze 2.0. Výchozí hodnota je "http://www.mvcr.cz/nsesss/v2". xmlns:mets zaznamenává adresu (URI) jmenného prostoru schématu METS. Výchozí hodnota je "http://www.loc.gov/mets/". xmlns:xlink zaznamenává adresu (URI) jmenného prostoru schématu XML. Tento jmenný prostor je identifikován prostřednictvím URL. Jeho hodnota je "http://www.w3.org/1999/xlink". strana 6/6