Návrh opatření pro prodloužení životnosti obsahu CD a DVD disků ve sbírkách NK



Podobné dokumenty
Projekt CDArcha: kooperativní zpracování datových CD disků. Zdeněk Hruška, Petr Žabička Moravská zemská knihovna v Brně AKM 2018

Digitalizace knihovních dokumentů. Jiří Polišenský

Z papíru na web a ke čtenáři aneb Digitalizace není jen skenování. Mgr. Monika Oravová Moravskoslezská vědecká knihovna v Ostravě

Projekt NAKI e-deposit

Velká data v knihovnách Open source tools and their use in Czech libraries

Elektronické publikace v NK ČR. Mgr. Martin Žížala Národní knihovna ČR

Formáty a dlouhodobé uložení: Identifikace, extrakce a validace

Aktuální stav a vývoj e-publikací a projektu NAKI

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

Projekt Digitalizace a ukládání ve Zlínském kraji zkušenosti, postřehy

Odevzdávání a příjem e-publikací

Příprava legislativy povinného výtisku elektronických publikací v České republice (e-depozit)

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

Zpřístupnění kulturního dědictví v digitální podobě v ČR prostřednictvím knihoven

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Jinonické informační pondělky. Filip Šír

Digitalizace v ČR a její podchycení v registru digitalizace. Helena Dvořáková Národní knihovna ČR

Digitální knihovny v České republice

Digitalizace a digitální knihovny v České republice

Dlouhodobá ochrana digitálních dat: co může vaše instituce udělat již dnes?

Lenka Maixnerová, Filip Kříž, Helena Bouzková, Ondřej Horsák, Adéla Jarolímková, Eva Lesenková

e-pv_kalkulace nákladů pro NK - osobní náklady

Příloha č. 1. Návrh aplikace pro správu a archivaci XML dokumentů Zpracoval: Ing. Jan Smolík, CSc

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Digitální knihovny v České republice

Řešení oblasti LTP v projektu NDK aneb zúročení 20 let zkušeností

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Doporučení pro pořizování datových souborů při digitalizaci analogových originálů

K PROBLEMATICE SPISOVÉ SLUŽBY v elektronické podobě

Digitalizace pražské židovské literatury v Městské knihovně v Praze

Národní digitální knihovna

Dlouhodobé uchování a zpřístupnění digitálních dokumentů v Evropě: výsledky dotazníkového průzkumu

Muzea a digitalizace Zvukové a filmové záznamy Národní technické muzeum 24./

Městská knihovna v Praze

Dodatečné informace č. 2

K PROBLEMATICE SPISOVÉ SLUŽBY v elektronické podobě

Od zpřístupnění rukopisů přes komerční archivy k LTP, aneb 20 let praxe s dlouhodobým uložením dat.

ProArc open source řešení pro produkci a archivaci digitálních dokumentů

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Dlouhodobá ochrana digitálních dokumentů a projekt NDK

Příloha č. 2 Analýza problematiky dlouhodobé archivace a zpřístupnění CD ROM v podmínkách NK ČR

DIGITALIZAČNÍ PROJEKTY KRAJE VYSOČINA. Únor 2015

Koncepce rozvoje knihoven ČR na léta Priorita 2: Trvalé uchování digitálních dokumentů

Editor umožní tvorbu a editaci metadat digitálních objektů, včetně importů a exportů a práci s primárními daty.

DigiDepot: JPEG 2000 jako ukládací formát

Definice - dokument:

Účast NK ČR v projektu Norské fondy - digitalizace bohemikálních monografií ohrožených degradací papíru. Jiří Polišenský

NOVÝ FONOGRAF MARTIN MEJZR DOMINIKA MORAVČÍKOVÁ FILIP ŠÍR

Řešení pro střednědobé a dlouhodobé ukládání dokumentů ve veřejné správě

Digitální konkordance a Registr digitalizace v Manuscriptoriu,

AKVIZICE. Doplňování neperiodické literatury

České digitalizační projekty, jejich výsledky a agregace

ÚČAST NK ČR V PROJEKTU NORSKÉ FONDY DIGITALIZACE BOHEMIKÁLNÍCH MONOGRAFIÍ OHROŽENÝCH DEGRADACÍ PAPÍRU

Metodika budování sbírky Webarchivu

Zpracování fondů.

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Projekt NUŠL a další projekty v ČR

Dlouhodobá ochrana digitální dokumentů. Mgr. Jaroslav Kvasnica

Silný portál. Jindřiška Pospíšilová. Pracovní skupina pro silný portál. Národní knihovna ČR

Definice - dokument:

2014 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní

Požadavky na systém pro automatizaci muzejní knihovny

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR

Seminář pro vedoucí knihoven a SVI ústavů AV ČR. Aleph

dodavatele rekonstrukce prostor záložního pracoviště NDA [2], tak nacházet by se mělo pravděpodobně v okolí Hluboké nad Vltavou.

DIGITALIZOVANÉ FONDY VĚDECKÉ KNIHOVNY V OLOMOUCI A KDE JE HLEDAT. Miloš Korhoň, Jan Houserek

Novinky v e-zdrojích NLK. Adéla Jarolímková, NLK

2008 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 3.0 Česko

ZÍSKÁVÁNÍ INFORMACÍ I.

Dlouhodobé a důvěryhodné uchovávání elektronických dokumentů

INFORUM 2012: 18. konference o profesionálních informačních zdrojích

Elektronické zdroje a digitální knihovny pro zrakově postižené

Bibliografické a rešeršní služby

Autorský zákon a knihovny - možnosti pro budoucnost. Vít Richter vit.richter@nkp.cz Praha, UISK, FFUK

Informatika základní pojmy

Péče o knihovní fond

KRAJSKÉ DIGITÁLNÍ ÚLOŽIŠTĚ

Práce s obrazovým materiálem CENTRUM MEDIÁLNÍHO VZDĚLÁVÁNÍ. Akreditované středisko dalšího vzdělávání pedagogických pracovníků

STATUT FORMÁTOVÉHO VÝBORU NÁRODNÍ DIGITÁLNÍ KNIHOVNY

Přístup k národnímu webovému archivu. Tomáš Síbek a Lukáš Gruber

JUDr. Alena Kučerová Úřad pro ochranu osobních údajů OCHRANA OSOBNÍCH ÚDAJŮ V PROCESU DIGITALIZACE ZDRAVOTNICKÉ DOKUMENTACE

Projekt Digitální knihovna pro šedou literaturu po prvním roce řešení

Modul MWA - Publikace a články

NOVÉ MOŽNOSTI PŘÍSTUPU K DIGITÁLNÍ ARCHIV NLK PLNOTEXTOVÝM INFORMACÍM : Filip Kříž, Lenka Maixnerová, Ondřej Horsák, Helena Bouzková

Obsah. Úvodem 9 Kapitola 1 Jaký počítač a jaký systém? 11. Kapitola 2 Obrázky a fotografie 21

Zpracování dokumentů. PhDr. Libuše Machačová Vědecká knihovna v Olomouci

DŮVĚRYHODNÁ ELEKTRONICKÁ SPISOVNA

ANL+ Veronika Ševčíková Národní knihovna ČR

NDK a LTP naše požadavky a skutečnost. Jan Hutař

Strategie budování sbírky Webarchiv u

Novela autorského zákona a možnosti nových služeb knihoven v digitálním prostředí

Informační vzdělávání PdF

DIGITÁLNÍ UNIVERZITNÍ REPOZITÁŘ. Andrea Fojtů Ústav výpočetní techniky UK v Praze

Jak pomáháme našim klientům

SLOHOVÁ VÝCHOVA Mgr. Soňa Bečičková

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Dlouhodobá archivace digitálních dat

KDE A JAK HLEDAT KONKRÉTNÍ DOKUMENT

Transkript:

Návrh opatření pro prodloužení životnosti obsahu CD a DVD disků ve sbírkách NK Mgr. Jan Hutař; Mgr. Marek Melichar Manažerské shrnutí Národní knihovna má ve svých sbírkách tisíce nosičů elektronických dat typu CD a DVD nebo jiných. Ročně získává Národní knihovna do svého fondu v rámci povinného výtisku přes tisíc dokumentů v elektronické formě, a to jak jako součást či přílohu tištěných publikací, tak jako jednotlivé dokumenty (viz [s.a.] Evidence ISO Obrazů v rámci Registru Digitalizace). Tato média mají velmi různorodý obsah (audiovizuální obsahy, texty, software a aplikace). Vzhledem k tomu, že jsou tyto nosiče ohroženy fyzickou degradací, je žádoucí připravit a zveřejnit strategii dlouhodobé ochrany tohoto typu dokumentů a obsah těchto médií převést na úložiště NK. Cílem převodu by mělo být zajištění dlouhodobé dostupnosti obsahu těchto médií, příprava těchto dat pro další zpřístupnění přímo z úložiště a také tato data připravit pro vstup do LTP systému budovaného v rámci projektu NDK. Základní průzkum kvality těchto médií provedla firma INCAD s poměrně dobrými výsledky. (Méně než 1 procentu nepoužitelných nosičů). Tento text navrhuje základ strategie pro převod výše zmíněných nosičů na úložiště (archiv NK). Základními principy strategie pro dlouhodobou ochranu jsou a) vytvoření výchozí metodiky selekce medií určených k dalšímu zpracování, b) využití doporučení zahraničních knihoven, které již podobné operace prováděly, c) explicitní vyjmenování formátů, které je NK schopna zpracovat a ochraňovat, d) zveřejnění pracovního postupu převodu dat, jejich validace a doplnění dostatečných metadat. Stávající situace Národní knihovna má ve svých fondech tisíce nosičů CD, DVD, a také stovky magnetofonových pásek. Jedná se jak o samostatné dokumenty s vlastním záznamem v katalogu, tak o různé typy příloh (ke knihám, periodikům apod.). Pracovníci OSOF provedli testovací převod části těchto nosičů na úložiště s cílem zjistit kvalitu těchto nosičů. Na úložiště bylo převedeno cca 1TB dat, ze dvou signatur (GD, ZC). Data obsahují jak zvukové dokumenty, tak ISO image surových dat. Média byla vybrána s cílem zjistit procento vadných nebo nečitelných CD/DVD nosičů. Data (soubory ISO nebo složky) jsou pojmenovány číslem signatury. Jiná metadata, ani popisná ani technická, v tomto projektu nevznikala a nejsou s objekty uložena. Ukázalo se, že procento nečitelných nebo vadných nosičů je velmi nízké. (viz [s.a.] Evidence ISO Obrazů v rámci Registru Digitalizace). 1

V testovacím převodu se negenerovaly, nezaznamenávaly se žádné informace o validaci převodu. Z hlediska použití pro uživatele a pro potřeby dlouhodobé ochrany jsou tato data (ISO image) bez metadat a údajích o převodu z fyzického nosiče prakticky nepoužitelná. 1) CD a DVD nosiče ve sbírkách NK Typy záznamu v katalogu - samostatný záznam - záznam jako elektronický zdroj, který není online. Týká se všech typů dokumentů (zvuk, video, ale i CD-ROM, DVD-ROM) - záznam CD jako přílohy monografie - někdy samostatná jednotka, někdy jen záznam v poli 300 - záznam CD jako přílohy periodika - pouze zmínka v poli 5xx Kolika dokumentů/nosičů se problém týká? Přesné zjištění skutečného počtu položek CD a DVD vyžaduje složitější analýzu knihovního katalogu. Orientačně jsme zjistili: - položky v katalogu NKC označené jako zvukový záznam (16809), - videozáznam (497), - CD-ROM přes 3 tisíce, - DVD určitě také stovky Dále analogová média: 3500 gramofonových desek, magnetické pásky a kazety. Dokumenty na CD/DVD nosičích se do NK dostávají dvěma cestami: 1. jako povinný výtisk nastane v případě, že a. CD/DVD má ISBN/ISSN (např. elektronické encyklopedie apod.) b. jde o součást periodika nebo monografie, která přijde jako povinný výtisk 2. na dobrovolné bázi do NK přijde nezanedbatelné množství datových nosičů (audio a audio-vizuálních), které jejich producenti posílají dobrovolně, ačkoliv tyto dokumenty jsou vyjmuty z povinného výtisku (viz Zákon o neperiodických publikacích 37/1995 Sb. paragrafu 1 článek 3a) Má smysl zveřejňovat seznam převedených dokumentů/nosičů zveřejnit v RD.CZ? Zveřejnění v RD.CZ má smysl, pokud jsme schopni data správně identifikovat, pokud budou uložena s metadaty a někde zpřístupněna pro ostatní knihovny nebo čtenáře. Pokud má RD.CZ sloužit svému účelu (zabránit redundantnímu zpracování dokumentů) měli bychom být schopni ISO image a další kopie CD a DVD poskytnout dalším institucím nebo je nabízet nějak online. Pokud nebudeme ISO image zpřístupňovat a mají sloužit pouze náhradě existujících nosičů, je registrace RD.CZ podle nás zbytečná. Každá instituce si bude vytvářet sama své ISO image ze CD/DVD nosičů a povede si interní evidenci. 2

2) Návrh mechanismu selekce materiálu pro archivaci V současnosti neexistuje jasná strategie, která by říkala, jak se dokumenty k převodu na úložiště vybírají. Vychází se pouze z předpokladu, že všechny nosiče CD/DVD, které jsou v NK uloženy, jsou povinným výtiskem a je nutno je ochránit. Bylo by dobré si ujasnit, zda chceme například zvukové dokumenty v budoucnu někdy zpřístupnit z úložiště koncovým uživatelům. Pokud ne, a převod na úložiště (v podobě ISO image nebo zvukových souborů) má sloužit pouze jako zdroj pro náhradu poškozených nebo jinak degradovaných nosičů, bylo by dobré analyzovat, které nosiče je třeba převádět přednostně z důvodu velké obrátkovosti při půjčování nebo vzhledem k jejich stáří a jiným rizikům. Převod nosičů na úložiště pouze pro zajištění náhrady existujících nosičů je z hlediska dlouhodobé archivace velmi krátkozraká strategie. Bez patřičných popisných metadat, bookletů a alespoň základních technických metadat popisujících jak způsob převodu na úložiště, tak validace a použité nástroje, se vystavujeme budoucím ztrátám dat. Dalším důvodem je, že CD/DVD nosiče se nebudou využívat věčně, tj. v určitém okamžiku bude možnost vytvoření fyzického CD/DVD z ISO image naprosto zbytečná. Naše snaha by měla jít spíše směrem uložení dat na úložišti a dlouhodobé ochrany těchto dat, ať už ISO image nebo zvukových souborů. Samozřejmě za předpokladu, že máme odpovídající metadata. V NK by měla vzniknout explicitní a veřejná strategie nakládání s tímto druhem materiálu. Měla by být stanovena jasná selekční kritéria pro nosiče, které je třeba zachovat, nastaveno workflow, které bude umožňovat převod CD a DVD s metadaty, validaci, a skutečnou správu těchto dat. Základními principy strategie dlouhodobé archivace obsahu CD a DVD v NK by měly být: - selekce materiálu - stanovení cíle strategie převodu na úložiště, který by měl být v souladu s cíli instituce - využití zkušeností a doporučení zahraničních archivů a projektů - explicitní vyjmenování konkrétních typů formátu a jejich verzí, které bude NK archivovat - zveřejnění pracovních postupů, metodiky selekce materiálů, technologie a postupu převodu na úložiště Návrh kritérií selekce (tematické okruhy): 1) Uživatelské hledisko - selekce nosičů, které jsou pro uživatele potenciálně nejzajímavější, a které si uživatelé skutečně půjčují. 2) Hledisko obsahu - některé typy CD a DVD má smysl archivovat pro jejich obsah, i když nebudou nikdy velmi často půjčovány. Některé z těchto dokumentů mohou patřit mezi born digital dokumenty. Jde především o elektronické publikace sborníků z konferencí, nebo přílohy ke sborníkům, některé části příloh k časopisům nebo monografiím. Lze předpokládat, že tyto digital born nemají tištěnou kopii a je tedy prvořadým úkolem je ochránit. 3) Ochranné hledisko z technického hlediska má smysl a lze ochraňovat jen některé typy obsahu na CD a DVD. Silně komprimované zvukové záznamy (WMA, MP3 aj.), které na 3

discích ve sbírkách NK někdy jsou, má smysl archivovat asi jen u mluveného slova 1, ovšem u vážné hudby je archivace takových souborů zbytečná (předpokládá se existence stejných dokumentů v lepší kvalitě jinde archiv rozhlasu, vydavatele apod.). Existuje ale velká množina nosičů, které obsahují software, databáze, aplikace, hry, návody k softwaru apod. Není v silách ani cílem NK nosiče obsahující software dostatečně dlouhodobě uchránit. Tento typ obsahu není uživatelsky dlouhodobě zajímavý, není zajímavý ani z hlediska cílů a povinností NK. Převod technicky neudržovatelného typu obsahu na úložiště NK je podle nás zbytečný, prostá archivace ISO image takových CD není adekvátní komplexnosti jejich obsahu. 4) Hledisko autorsko-právní - je třeba mít jasno, zda u daného typu obsahu máme právo ho v budoucnu z úložiště přímo zpřístupnit, nebo vyrábět další kopie. 5) Hledisko povinnosti uchování audio nebo audio-vizuálních děl ve sbírkách NK bylo by vhodné rozhodnout, zda pokud jsou audio dokumenty (CD, kazety) do NK dodány na dobrovolném základě, je opravdu potřeba je dlouhodobě uchovávat a vynakládat finance na něco, co má dělat např. jiná instituce. Nevíme, zda existuje nějaká zákonná povinnost toto dělat, pokud ne, bylo by dobré zamyslet se nad vynakládáním financí na tyto účely (katalogizace, ochrana, převody na jiný formát). Např. v katalogu NK v předmětovém hesle Populární písně 2001-2010 je 1740 záznamů v NKC. Nutnost uchovávat tyto CD je u mnoha titulů přinejmenším diskutabilní (pokud nepřišly jako povinný výtisk). Zákon o neperiodických publikacích 37/1995 Sb. říká v paragrafu 1 článku 3a) doslova: Tento zákon se nevztahuje na tyto neperiodické publikace: a) rozmnoženiny audiovizuálních děl. Samozřejmě pokud má nosič (CD/DVD, kazeta aj.) číslo ISBN nebo ISSN, tak je součástí povinného výtisku a NK má povinnost je uchovávat a chránit. Nevíme ovšem, jak bude vypadat povinný výtisk za několik let, NK může dostat za povinnost shromažďovat a chránit např. hudební nosiče. 3) Doporučené postupy převodu - workflow Obecně dle typologie nosičů typ obsahu CD/ DVD nosiče zpracování validace metadata další doporučené součásti archivní jednotky 1. Software - instalační CD/DVD k softwaru nearchivovat, nepřevádět na úložiště NA NA NA 2. Software - přílohy k nearchivovat, NA NA NA 1 lze nabízet uživatelům jako audio knihy apod. 4

časopisům nepřevádět na úložiště, případně archivovat výběrově 2 3. Audio - vysoká kvalita (klasické lisované CD) Převod do bezkompresního WAV 1. validace pomocí WAV JHOVE 2. kontrola obsahu s popisem v záznamu v katalogu NK popisná, vzniku a obsahu, 4. Audio - komprimovaný (WMA, MP3 apod.) Převádět mluvené slovo, ostatní nikoli > zachování původního formátu, případná normalizace validace původního nebo nového formátu formátu popisná, vzniku a obsahu, 5. Video DVD, BD (blue ray) převod do ISO image Linux validace ISO souboru popisná a obsahu a vzniku, 6. Video - jiné formáty (AVI, MPEG aj.) 1) převod do ISO image 2) archivace zdrojového formátu videa Linux validace ISO souboru; validace formátu video popisná a obsahu a vzniku, 7. Texty (PDF, TXT apod.) Zvážit možnosti: 1) převod do ISO image 2) archivace zdrojových souborů v balíku 3) pokud Linux validace ISO image; validace původních formátů; validace nových popisná a obsahu a vzniku, 2 přílohy k časopisům na CD/DVD nosičích obsahují demo verze SW, ostré verze SW apod. Tyto verze jsou nahrazovány novými verzemi, které jsou zveřejněné v následujících číslech/přílohách. Zcela jistě nechceme uchovávat všechny, a není asi třeba uchovávat SW vůbec. POZOR přílohy časopisů vedle SW obsahují velmi často i textové dokumenty (v HTML, flash animacích apod.) tady by stálo za to tyto dokumenty uchovat. V těchto případech postupovat jako pro typ dokumentů Text viz tabulka. 5

obsahuje pouze MS WORD nebo PDF nebo TXT tak bude lepší normalizace do PDF/A a uložení v úložišti formátů - 8. Komplexní dokumenty (texty, interlinked HTML, flash prezentace apod.) převod do ISO image Linux validace ISO image; popisná a obsahu a vzniku, Technické parametry workflow pro převod na úložiště a metadata, převod do LTP systému Navrhovaná workflow pro převod do ISO image musí vždy produkovat - tzv. hybrid ISO image. - log file popisující proces kopírování a kontrolu dat - seznam obsahu CD/DVD - složek a souborů Názvy CD/DVD je potřeba při převodu změnit navrhujeme použít ččnb do názvu ISO image. Předpokladem je, že v okamžiku migrace do ISO už metadata z katalogu k dispozici. Typ - Video DVD, video jiné formáty, případně texty (převod do ISO image) Intelektuální entita, balík vzniklý převodem obsahuje: 1) metadata - Popisná - stahování z Alephu, konvertovaná do jednoduchého záznamu MODS (obsahuje také seznam obsahu CD/DVD názvy stop, seznam souborů apod.) - Technická (PREMIS popis vzniku software, nastavení převodu + metadata o formátu ISO) 2) data - ISO Image kopie file systému CD podle standardu ISO 9660 Dostupné nástroje na tvorbu ISO image: na linuxu - CDRtools a jeho příkazy: - mkisofs výroba ISO image příkaz na stažení ISO z média v mechanice PC - isoinfo a isovfy pro verifikaci ISO Image - unix diff pro srovnání zdroje CD s ISO obrazem - validace 3) další součásti intelektuální entity/balíčku 6

- Sken obalu, bookletu (jpg), 300DPI, příslušná technická metadata pro obrazový soubor, alespoň výstup JHOVE XML (obsahuje md5, formáty apod.) - log file popisující proces kopírování a kontrolu dat - seznam obsahu CD/DVD - složek a souborů (TXT nebo XML) 4) 5) identifikátory (stáhnout ččnb s bibliografickým záznamem, signatura, URN:NBN) Nástroje pro validaci, extrakci metadat: - CDRtools http://cdrecord.berlios.de/private/cdrecord.html - EXACT FILE http://www.exactfile.com (checksumy) - Exif tool - diff Typ - Audio Pouze zachování formátů nebo převod do jiných formátů. Nevzniká ISO image. Pro všechny typy audio obsahu bez ohledu na nosiče. Balík obsahuje: 1) metadata - Popisná - stahování z Alephu, konverze do jednoduchého záznamu MODS (obsahuje také seznam obsahu CD/DVD názvy stop, seznam souborů apod.) - Technická extrakce (NZME 3, Exif tool, FITs aj.) - Technická (PREMIS popis vzniku software, nastavení převodu, validace pro nové i původní formáty dat) 2) data Doporučení Loc.gov 4 pro převod zvukových formátů - Vysoká sampling rate - Linearní PCM bez komprese - Vyšší data rate (128kbits) a vyšší - Doporučené formáty pro náš případ nejlépe (WAVE-LPCM, WAVE Audio File Format with LPCM Audio 5, případně mp3 6 ) 3) další součásti intelektuální entity/balíčku - Sken obalu, bookletu (jpg), 300DPI, příslušná technická metadata pro zvukový soubor, alespoň výstup JHOVE XML (obsahuje md5, formáty apod.) 4) (pro všechny soubory v intelektuální entitě tj. včetně skenu bookletu, obalu) 3 http://meta-extractor.sourceforge.net/ 4 http://www.digitalpreservation.gov/formats/content/sound_preferences.shtml#device 5 http://www.digitalpreservation.gov/formats/fdd/fdd000002.shtml 6 http://www.digitalpreservation.gov/formats/fdd/fdd000105.shtml 7

5) identifikátory (stáhnout ččnb s bibliografickým záznamem, signatura, URN:NBN) Typ Texty, hyperlinked text (normalizace do archivních formátů) Pro všechny typy obsahu bez ohledu na nosiče. Následné uložení v úložišti NK jako jednotlivé soubory. 1) metadata - Popisná - stahování z Alephu, konverze do MODS - Technická extrakce pomocí nástroje JHOVE - Technická (PREMIS popis vzniku software, nastavení převodu, validace pro nové i původní formáty dat) 2) data - normalizace do PDF/A, nebo do jiného archivního formátu 3) další součásti intelektuální entity/balíčku - Sken obalu, bookletu (jpg) pokud existuje a má určitou vypovídací hodnotu - 300DPI, příslušná technická metadata pro zvukový soubor, alespoň výstup JHOVE XML (obsahuje md5, formáty apod.) 4) (pro všechny soubory v intelektuální entitě tj. včetně skenu bookletu pokud nějaký existoval) 5) identifikátory (stáhnout ččnb s bibliografickým záznamem, signatura, URN:NBN) Nástroje pro validaci, extrakci metadat: - NZME - http://meta-extractor.sourceforge.net/ - Exif tool - http://www.sno.phy.queensu.ca/~phil/exiftool/ - FITs - http://code.google.com/p/fits/ - JHOVE - http://hul.harvard.edu/jhove/ 4) Zpřístupnění Dlouhodobým cílem aktivit na uchování obsahu CD/DVD by nemělo být zpětné vytváření fyzických nosičů (stejně jako z digitalizovaných obrazů netiskneme knihy), ale zpřístupnění v elektronické podobě! ISO image i další data by měla být ukládána s dostatečnými metadaty, tak aby bylo možno v budoucnu zajistit jejich vyhledání a zpřístupnění. Zvukové soubory a textové soubory by bylo možné pravděpodobně zpřístupnit po nějakém dalším vývoji v systému Kramerius nebo v jiném systému. Existují také open-source content management systémy pro správu zvukového obsahu. Problém bude působit zpřístupnění ISO 8

image. Jednou z možností je zcela jistě emulace HW a SW (tj. mechaniky a prostředí ke spuštění obsahu ISO image) viz projekt KEEP http://www.keep-project.eu. Otázky k dořešení: - jak ISO image z úložiště zpřístupnit? - v jakém systému? - jak se uživatel dostane k informaci, že se obsah CD dá někde půjčit? Z jakého systému? - zpřístupnění ve studovně a/nebo doma všem? - CD burn on demand? 5) Možnosti využití současného archivu (k prosinci 2010 cca 500 ISO souborů, 500 CD s hudbou) Současná data a ISO image vytvořené firmou INCAD lze použít pouze pro zpětné vypálení CD/DVD disků. A to podle excelové tabulky, která spojuje datový soubor na úložišti NK a katalogizační záznam v katalogu NK. Pro zpřístupnění uživatelům v podobě dat je nutné postupovat dle údajů v tabulce doporučené postupy (technologie a standardy) pro jednotlivé typy CD/DVD obsahů, tj. doplnit metadata, kontroly, validace apod. V podstatě to znamená udělat práci znovu. 6) obsahy CD/DVD v LTP systému a možnosti řešení V rámci workflow pro vstup do LTP systému NDK by Transformační modul/ nebo ingest fáze 1 měl z každého ISO image vytvořit archivní intelektuální entitu, která by odpovídala jedné ze specifikací v části 3 tohoto dokumentu a byla pak zabalena do formátu pro LTP systém. V další fázi zpracování v LTP systému by měla být doplněna další technická metadata. Protože k již existujícím datům neexistuje dostatečná dokumentace, technická metadata ani, bude nemožné doplnit vše. Data vzniklá v testu firmy INCAD navrhujeme vložit, tak jak jsou a generovat technická metadata a v druhé fázi vstupu dat do LTP. Nezbytné ovšem bude alespoň doplnění základních popisných metadat a vygenerování ch součtů. Validace pomocí nástrojů typu JHOVE nebo NZME může proběhnout uvnitř LTP systému. Nově vznikající data (ISO image a další soubory) by měla vznikat už takovým postupem, který by umožnil zjednodušit zpracování v transformačním modulu a LTP systému viz část 3 tohoto dokumentu. V případě, že by tvorba ISO image byla součástí projektu NDK, tak by jedno z možných workflow Transformačního modulu pro nové zpracování CD a DVD mohlo dělat následující kroky (kopíruje část 3 tohoto dokumentu) 7 : - přečtení čarového kódu - stažení záznamu z katalogu, jeho uložení do MODS XML, validace - založení složky dokumentu 7 v případě, že tvorba ISO image nebude součástí NDK, lze toto workflow provádět odděleně od projektu NDK v rámci jiné aktivity 9

- stažení ISO image - mksofs - validace ISO - isoinfo, resp isovfy - porovnání ISO souboru s obsahem CD/DVD programem diff - generování ch součtů - připojení doplňujících dat (sken bookletu v jpg) - doplnění metadat (struktura CD/DVD - seznam souborů a složek na file systému CD/DVD) - doplnění metadat (PREMIS - vznik dokumentu) - zabalení do formátu pro LTP systému - spuštění workflow pro vstup do LTP systému Vzhledem k tomu, že ISO image jsou v současné politice NK jen záloha na opětovné vytvoření fyzického CD/DVD, nebudou na stávajících a pokud se nezmění politika NK, tak ani na nově vzniklých ISO souborech v rámci LTP systému prováděny žádné akce dlouhodobé ochrany, stejně jako např. na ALTO XML souborech. Tj. je otázkou, zda ISO image mají vůbec v LTP končit v archivním modulu, nebo zda mají být uloženy např. v pracovním prostoru. 6) Závěr Problematika zachování obsahů CD/DVD disků je velmi komplexní. Je třeba rozhodnout, co je cílem této aktivity. Od toho se odvíjí další možné postupy. Obsahy lze uchovat jako ISO image (data, video) a jako soubory WAV nebo jiné (audio, texty, PDF apod.). Je třeba zvážit, jaké typy obsahu mát smysl dlouhodobě archivovat. Software, složité aplikace jako jsou elektronické hry, asi nemá smysl ukládat vůbec, protože nejsme schopni zajistit ani jejich ochranu ani zpřístupnění (pokud nás k tomu nezavazuje zákonná povinnost). Pro audiovizuální nebo audio obsah existují doporučení k archivaci, doporučené formáty a metadata, a doporučené nástroje pro validaci. Technicky není problém navrhnout workflow pro převod tohoto typu dat, ovšem aby archivace byla smysluplná, musí být data doprovázena popisnými a technickými metadaty, převod validován a dobře dokumentován. Především zvukové záznamy představují pro NK zásadní potenciál k rozvíjení dalších služeb uživatelům knihovny, ovšem jakékoli zpřístupňování se bez metadat neobejde. Politika uchování a zacházení s obsahy CD/DVD by měla vycházet ze strategie NK ČR. 10