Katalogizace v knize Národní knihovna České republiky WebArchiv : úvod, cíle, podmínky, realita. -- Praha : Národní knihovna České republiky, 2005. -- 11 s. ISBN 80-7050-479-X 1. internetové zdroje Česko 2. archivace dokumentů 3. zpřístupňování dokumentů 4. informační technologie 5. knihovnické zákonodárství 6. informační publikace WEBARCHIV MDT: 002.1:004.738.5 * 005.921.1 * 024.5/.6:002.1 * 004 * 021.89 * (437.3) * (036) ÚVOD, CÍLE, PODMÍNKY, REALITA Národní knihovna ČR http://www.webarchiv.cz ISBN 80-7050-479-X Praha 2005 Národní knihovna České republiky 2
PROČ VZNIKL WEBARCHIV? Archivace elektronických online zdrojů je celosvětovým trendem. Neexistuje totiž jiná cesta, jak zachránit tyto netištěné informace kulturní a historické hodnoty pro další generace, než tato. Proto se o to snaží i Národní knihovna ČR. Národní knihovna ČR je depozitní knihovnou, odpovědnou za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví. Tyto dokumenty jsou uchovávány v národním konzervačním fondu. V konzervačním fondu jsou uchovávány a v České národní bibliografii dosud registrovány pouze klasické dokumenty (tištěné, zvukové atd.). Cílem projektu WebArchiv je zajistit trvalý (dlouhodobý) přístup také k "domácím" elektronickým zdrojům publikovaným v síti Internet. Až 90 % z těchto dokumentů existuje pouze v elektronické podobě (periodika, monografie, konferenční příspěvky, výzkumné a jiné zprávy, akademické práce, WWW stránky, dokumenty státní správy atd.). JAK VZNIKL WEBARCHIV? WebArchiv je projekt, který zastřešuje snahu o dlouhodobé uchování a zpřístupnění online dostupných elektronických informačních zdrojů. částečné grantové podpory Ministerstva kultury ČR, ve spolupráci s Moravskou zemskou knihovnou v Brně a Ústavem výpočetní techniky Masarykovy univerzity v Brně. Díky menším grantovým podporám Ministerstva kultury ČR se daří projekt i nadále rozvíjet a postupně připravovat podmínky pro uvádění výsledků výzkumu do každodenní praxe. CÍLE WEBARCHIVU zajistit pokud možno trvalý přístup k domácím elektronickým zdrojům publikovaným v síti Internet připravit podmínky pro získávání, zpracování, archivaci a ochranu online přístupných elektronických zdrojů zajistit zpřístupnění zdrojů z digitálního archivu za podmínek respektujících autorské právo stanovit kritéria výběru zdrojů pro národní bibliografii zajistit technické a programové řešení indexace a archivace elektronických online zdrojů zajistit, implementovat a udržovat standardy pro budoucí čitelnost zdrojů a pro vyhledávání v síti vytvořit podmínky pro kooperaci centrálních, regionálních a specializovaných knihoven, resp. informačních pracovišť a propojení s vydavateli elektronických zdrojů WebArchiv vznikl v rámci programového projektu výzkumu a vývoje "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet". Projekt byl řešen od roku 2000 v Národní knihovně ČR za 3 4
WEBARCHIV KRITÉRIA VÝBĚRU ZDROJŮ, POVINNÝ VÝTISK A AUTORSKÝ ZÁKON Archivace webu je velmi komplexní činnost náročná v každém ze svých aspektů. Zmíníme se proto jen o některých (zvýrazněným se věnujeme dále). 1. Aspekty technické Neustálý růst nároků na rozvoj HW i SW Tlak na rozšiřování úložné kapacity digitálního archivu Nutnost zabezpečení archivu proti ztrátám dat Sofistikované zpřístupnění zdrojů z digitálního archivu 2. Aspekty knihovnické výběr zdrojů popis zdrojů (aplikace formátů typu MARC, Dublin Core) registrace v České národní bibliografii 3. Aspekty legislativní povinný výtisk autorské právo KRITÉRIA VÝBĚRU WEBOVÝCH ZDROJŮ Vzhledem k tomu, že množství dokumentů přístupných online je obrovské a publikace zveřejňované na Internetu jsou velmi rozdílné kvality, je třeba pro účely tvorby archivu webových zdrojů aplikovat určitá kritéria výběru tak, aby byly uchovávány dokumenty, jež mají dokumentární hodnotu pro současné i budoucí generace. Technicko-knihovnická kritéria, podle nichž jsou vybírány webové zdroje určené pro uložení v archivu a pro zpracování do České národní bibliografie (ČNB), byla stanovena na základě zkušeností s dosavadním řešením projektu WebArchiv (s přihlédnutím k obdobným zahraničním projektům). Pro výběr zdrojů se aplikují oba přístupy výběrová archivace (s vyšším podílem intelektuální práce), kdy se sklízejí (takto se označuje proces stahování dat z prostředí Internetu) a archivují pouze dokumenty vybrané podle určitých kritérií (viz dále) plošná archivace (převážně automatický proces - harvesting), kdy se sklízí např. celá národní doména, (u nás tedy doména.cz). Při plošné sklizni (harvestingu) je nutné stanovit pouze kritéria technické povahy (1. přístup; 2. protokol; 3. formát a 4. uložení). KRITÉRIA VÝBĚROVÉ ARCHIVACE Pro účely registrace v ČNB a souběžné uchování v digitálním archivu je důležité vybírat zdroje významné z hlediska kulturně historického. K tomu slouží kritéria výběru. 1. Obsah Webové zdroje odborného, uměleckého a zpravodajskopublicistického zaměření (výjimečně administrativního 5 6
zaměření). Vynechány jsou prezentace soukromých osob a institucí, nesplňující zmíněná kritéria. 2. Typ zdroje Periodika, monografie, konferenční příspěvky, výzkumné a jiné zprávy, akademické práce aj. O tom, zda bude konkrétní webový zdroj zařazen do archivu, je rozhodnuto individuálně podle toho, zda je významný z obsahového hlediska. 3. Původ Unikátní zdroje zpřístupněné pouze na webu. 4. Přístup Volně přístupné webové zdroje, které lze považovat za samostatné publikační jednotky. 5. Formát Formáty, které jsou zobrazovány webovými prohlížeči bez nutnosti instalace plug-inu. Lze ale archivovat i webové zdroje v proprietárních formátech, které se staly standardy elektronického publikování (např. PDF). Empiricky bylo zjištěno, že asi 96% ze všech dokumentů na webu je uloženo v jednom ze tří formátů: HTML (včetně ASP a PHP), GIF a JPEG. 6. Uložení Webové zdroje zpřístupněné na serverech spadajících do domény prvního řádu.cz i dalších domén (např..org,.com), pokud jsou registrovány fyzickou nebo právnickou osobou se sídlem v ČR. Jako bohemikální produkce se mohou archivovat i webové zdroje českých autorů či zdroje v češtině, které jsou na zahraničních serverech. 7 7. Komunikační protokoly Podporovány jsou protokoly http (případně https), omezeně ftp. CO MÁME ZA SEBOU Oblast IT k projektu WebArchiv zajišťuje externě spolupracující Ústav výpočetní techniky Masarykovy univerzity v Brně. Průběžně probíhá testování SW nástrojů s využitím HW pořízeného v rámci finančních možností. Jedná se zejména o aplikace pro stahování, archivaci a indexaci/zpřístupnění webových stránek. V rámci pilotního projektu proběhl v roce 2001 první pokus o testovací sklizeň (harvest) domény.cz. Jednalo se o test omezený co do rozsahu, přesto při něm bylo získáno 100 GB dat (po kompresi). Přestože sklízení domény nemohlo být z technických příčin dokončeno, získané zkušenosti nám umožnily připravit se lépe na další sklizeň. Ta následovala v roce 2002. V rámci této sklizně bylo alespoň jednou navštíveno přes 33.000 domén druhé úrovně (zhruba jedna čtvrtina tehdejšího počtu v doméně.cz), z 10.493.102 URL bylo staženo přes 10 milionů dokumentů a velikost takto získaného archivu dosáhla po kompresi 253 GB. Pro omezený výkon sklízecího serveru a také kvůli srpnovým záplavám nemohla být tato sklizeň dokončena. Na náhradním hardwaru jsme provedli alespoň malou tematickou sklizeň zaměřenou na povodňové zpravodajství. V rámci sklizně březen - říjen 2004 (v roce 2003 sklizeň neproběhla) bylo z 38.564.316 URL staženo 32,5 milionu souborů a byl tak vytvořen archiv o celkové velikosti 1 TB (s kompresí 611 GB). Všechny tyto sklizně byly 8
prováděny pomocí programu NEDLIB Harvester při hloubce zanoření až 25-50 odkazů. Od poloviny roku 2004 pak bylo provedeno několik sklizní hlavních stránek většiny českých domén pomocí nového harvesteru Heritrix. V současné době je ve WebArchivu uloženo asi 1,7 TB dat, což představuje asi 26 milionů archivovaných unikátních dokumentů. Snažíme se, aby sklizně celé domény.cz probíhaly pokud možno jednou ročně, zdroje na které máme uzavřeny s vydavateli smlouvy pro zpřístupňování jsou sklízeny přibližně čtyřikrát do roka. Počet sklizní je do jisté míry limitován výkonem serverů, kapacitou úložného prostoru a funkčností používaného softwaru, který se průběžně vyvíjí. V příštím roce by všechna data měla být uložena na novém digitálním úložišti dat Národní knihovny ČR, které by mělo i do budoucna zaručovat dostatek úložného prostoru pro další rozšiřování archivu. CO NÁS TRÁPÍ Současná legislativa, která neumožňuje či zpochybňuje oprávnění depozitních knihoven vytvářet konzervační sbírku v digitálním archivu a tyto dokumenty dále veřejně zpřístupňovat. POVINNÝ VÝTISK ELEKTRONICKÝCH /ONLINE/ PUBLIKACÍ Problematika povinného výtisku je charakterizována dvěma různými postoji a zájmy. Prvním je zájem (depozitních) knihoven, které chtějí národní produkci, a to právě i v oblasti online zdrojů, systematicky shromažďovat tak, aby byla k dispozici současným i budoucím generacím. Naproti tomu je tu zájem vydavatelů, kteří argumentují tím, že by to narušilo jejich komerční zájmy v přístupu k jejich online zdrojům. V současné době platí v České republice dva zákony o povinném výtisku: 1. zákon č. 37/1995 Sb. "o neperiodických publikacích" neperiodické publikace = rozmnoženiny literárních, vědeckých a uměleckých děl určené k veřejnému šíření povinnost vydavatele bezplatně a na svůj náklad odevzdat z každého vydání neperiodické publikace do 30 dnů ode dne vydání stanovený počet publikací stanoveným příjemcům zákon lze při jeho volném výkladu aplikovat pro potřebu elektronických publikací včetně publikací 9 10
11 přístupných online, jelikož dle jeho znění zahrnuje rozmnoženiny literárních, vědeckých a uměleckých děl určené k veřejnému šíření, tj. forma nosiče zde zmíněna není. Problémem ovšem zůstává fakt, že zákon se vztahuje pouze na monografické publikace, kterých na Internetu mnoho nenajdeme. 2. zákon č. 46/2000 Sb. "o právech a povinnostech při vydávání periodického tisku a o změně některých dalších zákonů" (tiskový zákon) periodický tisk = noviny, časopisy a jiné tiskoviny vydávané pod stejným názvem, se stejným obsahovým zaměřením a v jednotné grafické úpravě nejméně dvakrát v kalendářním roce povinnost vydavatele bezplatně na svůj náklad z každého vydání periodického tisku do 7 dnů ode dne jeho vydání zajistit dodání stanoveného počtu výtisků stanoveným příjemcům jak už sám název zákona napovídá, o tzv. netištěných publikacích, tedy ani elektronických zdrojích zde nemůže být řeč, přestože by sem tyto zdroje z hlediska svých vlastností nejlépe spadaly. Právo knihoven na povinný výtisk elektronických dokumentů není ve stávajících zákonech o povinném výtisku zaneseno. Možnosti jak zahrnout online dokumenty jsou v zásadě dvě: 1. přímé jednání s vydavateli a uzavírání dohod pro jejich online dokumenty 2. prováděcí vyhláška k platným zákonům o PV fyzických dokumentů nebo novelizace stávajících zákonů nebo vytvoření nového zákona Novelizace zákonů Děl publikovaných elektronickou cestou denně přibývá a pro jejich trvalé uchování je novela zákona o povinném výtisku nutností. Národní knihovna, která má za úkol uchovávat národní kulturní dědictví, usiluje proto o novelizaci potřebné legislativy. Příklady podobných opatření nalezneme v ostatních zemích (např. Velká Británie, Německo, Rakousko, Francie, Švédsko či Finsko). AUTORSKÝ ZÁKON požadavek knihoven: umožnit uživatelům přístup k online zdrojům a pořizování kopií požadavek vydavatelů (autorů): předejít zneužití autorských děl jejich uživateli (tj. neoprávněné využívání, kopírování ) potřeba nalézt rovnováhu potřeba rozboru platných AZ, příp. následná novelizace nebo vytvoření nového zákona. Důležitým předpisem, dle kterého se musíme při tvorbě, resp. zpřístupňování archivu řídit, je autorský zákon (z. 21/2000 Sb.). V něm je z hlediska cílů projektu WebArchiv důležité zejména oprávnění knihoven vytvářet rozmnoženiny děl pro své archivní a konzervační účely ( 37); není zde však zakotvena možnost zpřístupnit je veřejnosti. Tím by účel WebArchivu pozbýval smyslu. V současné době (říjen 2005) je v prvním parlamentním čtení novela autorského zákona, která do značné míry 12
vychází knihovnám vstříc, i když ne zcela podle jejich představ. Podle návrhu, který může být ještě pozměněn, mohou knihovny, ale třeba i muzea a archivy, zhotovovat rozmnoženinu díla a tu pak zpřístupňovat v nehmotné podobě veřejnosti na určených terminálech umístěných ve svých objektech, a to výhradně pro účely výzkumu a studia. Toto ustanovení by platilo i pro již sklizené webové dokumenty, které by se mohly lokálně zpřístupnit. NÁHRADNÍ ŘEŠENÍ Z výše uvedených legislativních důvodů jsme přistoupili k oslovování jednotlivých vydavatelů a uzavírání smluv o poskytování elektronických online zdrojů. Ve smlouvě vydavatel souhlasí mj. se zpřístupněním svých zdrojů uložených v archivu a současně s tím, že zajistí informování autorů o této skutečnosti. Není to však řešení ideální, poněvadž je časově velmi náročné. V rámci našich personálních kapacit je možné tímto způsobem oslovit několik desítek, možná stovek vydavatelů. ZPŘÍSTUPNĚNÍ WEBARCHIVU WebArchiv jako takový může v současné situaci (viz výše) zpřístupňovat veřejně pouze tu část, lépe řečeno ty zdroje, na které má uzavřenu smlouvu s jednotlivými vydavateli. Pokud bude schválena novela AZ, zejména 37 týkající se zpřístupňování rozmnoženin děl, budou všechny archivované dokumenty uložené v našem digitálním archivu zpřístupněny na určených terminálech lokálně a vyhledávání bude možné na základě URL a času. Skupina archivovaných zdrojů, na které máme uzavřené smlouvy s jejich vydavateli je nyní veřejně přístupná přes stránky WebArchivu viz www.webarchiv.cz. Pro tento účel byl implementován fulltextový vyhledávač WERA. 13 14
Ukázka fulltextového vyhledávače WERA (Web archive Access), který je nyní využíván pro zpřístupnění archivovaných dokumentů. Systém umožňuje mimo jiné fulltextové vyhledávání a zohledňuje změny (verze) dokumentů v čase. 15 16
Nositel projektu: Národní knihovna ČR Spolupráce na projektu: Moravská zemská knihovna v Brně Hlavní řešitel projeku: Ludmila Celbová ludmila.celbova@nkp.cz Spoluřešitel projeku: Petr Žabička zabak@mzk.cz Spolupracovníci: Markéta Bilinová marketa.bilinova@nkp.cz Jan Hutař jan.hutar@nkp.cz Lenka Jelínková lenka.jelinkova@nkp.cz Markéta Škodová marketa.skodova@nkp.cz Filip Vojtášek filip.vojtasek@aip.cz Adresa: Národní knihovna ČR Klementinum 190 110 00 Praha 1 tel.: 221 663 256 e-mail: webarchiv@nkp.cz WebArchiv : úvod, cíle, podmínky, reality Kolektiv Oddělení elektronických online zdrojů NK ČR Vydavatel: Národní knihovna České republiky, 2005 Grafický návrh a příprava pro tisk: Jan Krejčí Tisk: Studio Kalamář, Praha Distribuce: Národní knihovna České republiky oddělení prodeje a expedice Štěrboholská 55, 102 00 Praha 15 Tel.: 420 281 013 230 E-mail: mirosovsky.ivo@cdh.nkp.cz 17 18