Zpráva o plnění cílů projektu VISK3 WebArchiv - vytvoření podmínek pro zpřístupnění českých webových zdrojů (knihovnické, legislativní a technické aspekty) Předkládá: Národní knihovna České republiky Zpracovala: Ludmila Celbová, řešitelka projektu Praha, leden 2003
Zpráva o plnění cílů projektu VISK 1. Název projektu WebArchiv - vytvoření podmínek pro zpřístupnění českých webových zdrojů (knihovnické, legislativní a technické aspekty) 2. Název a adresa žadatele/předkladatele zprávy Národní knihovna České republiky, Klementinum 190, 110 01 Praha 1 3. Hodnocení plnění cílů projektu specifikace Tabulka Cíl Zajištění legislativních aspektů souvisejících s automatickým stahováním a archivací internetových zdrojů v digitálním archivu a jejich zpřístupňováním Stahování domácích elektron. zdrojů (harvester) a společně s digitalizovanými dokumenty ukládání do digit. archivu NK ČR s využitím softwarových nástrojů vyvinutých v rámci výše zmíněného předcházejícího projektu VaV Další vývoj stávajících používaných softwarových produktů Zajištění převodu metadatových záznamů (soubor kvalifikovaných prvků Dublin Core), uložených v archivovaných elektronických zdrojích vybraných podle stanovených kritérií, do záznamů ve strukturovaném formátu typu MARC a zpřístupnění těchto konvertovaných záznamů v databázích NK ČR Využití bibliografických záznamů ve formátu typu MARC pro tvorbu České nár. bibliografie vzdálených elektron. zdrojů realizováno (termín) XI/2002 průběžně V/02 XII/02 průběžně V/02 XII/02 dostupnost výsledku (místo) Vzorové smlouvy s vydavateli - prezentace projektu: http:// webarchiv.nkp.cz Server WebArchiv přístup z limitovaných IP adres nerealizováno (důvod) poznámka Na web. stránce vystavena vzorová smlouva a přehled vydavatelů, kteří uzavřeli s NK smlouvu. Viz Komentář b. 1 Viz Komentář b.3 Funkčnost SW Viz Komentář b.3 Zadání pro konverzi připraveno pouze zčásti; vzhledem k omezenému přídělu finančních prostředků došlo k časovému posunu části prací na r. 2003. Vzhledem k omezenému přídělu finanč. prostředků došlo k čas. posunu prací na r. 2003. Vyžaduje práci knihovníka i programátora. Viz Komentář b.2 Vyžaduje práci knihovníka i programátora, resp. tvůrce SW pro ČNB. Viz Komentář b.2 2
Vytvoření vyhledávací infrastruktury pro WebArchiv (ke zpřístupňování stažených dokumentů v jejich kontextu), mj. podporující vyhledávání přes Z39.50 Průběžně rok 2002, pokrač. 2003 Viz Komentář b.3 Zpřístupňování primárních el. zdrojů uložených na původní adrese URL prostřednictvím databází NK ČR XI-XII/2002 Testovací databáze DCB v systému Aleph v NK Databáze DCB není zatím veřejně přístupná. Viz Komentář b.2 Zpřístupňování primárních el. zdrojů změněných nebo zmizelých z původní adresy URL prostřednictvím digitálního archivu, kde podmínkou zpřístupnění je zajištění respektování autorských práv Průběžně rok 2002, pokrač. 2003 Prezentace na konf. Knihovny současnosti Seč, září 2002 Na konferenci ukázka přístupu do archivu uložených web. stránek ze srpnových povodní viz též Komentář b.2, 3 Zpřístupňování sekundárních zdrojů a v souladu s dodržováním autorských práv i primárních elektronických zdrojů v rámci Jednotné informační brány. Vzhledem k výměně SW i HW pro JIB došlo k čas. posunu prací na r. 2003 Viz Komentář b. 2 Komentář Pro řešení projektu v roce 2002 v rámci programu VISK3 byla schválena finanční částka ve výši pouze necelé poloviny z požadovaných prostředků. Tím bylo třeba hledat náhradní řešení jak v oblasti investic, zejména výběru serveru, tak i v oblasti služeb. To znamená, že původně plánované práce bylo možno provést pouze v omezeném rozsahu, a to jak práce v oblasti ICT (zajišťované pracovníky ÚVT MU v Brně), tak i práce v oblasti legislativní a knihovnické, realizované téměř výhradně využitím kapacity pracovníků Národní knihovny ČR ve 4. čtvrtletí roku 2002 (vytvořeno 1 systemizované místo pro práci s elektronickými online zdroji). Část prací bylo nutné přesunout na začátek roku 2003, a to jak z důvodů personálních, tak i technických (investice bylo možno pořídit až koncem roku 2002 viz dále v odstavci Technické řešení). Knihovnické činnosti a legislativa 1) Zásadním úkolem, bez něhož nelze výsledky dosavadního řešení aplikovat v praxi, bylo vyřešit legislativní problémy související a) s oprávněním získávat a archivovat zdroje publikované na Internetu (obdoba institutu povinného výtisku) a b) se zpřístupňováním dokumentů uložených v digitálním archivu (dodržování ustanovení autorského zákona, zejména pokud jde o půjčování a další využívání dokumentů). Vzhledem k tomu, že v akvizici elektronických internetových zdrojů (tedy zdrojů přístupných online, nikoliv publikovaných na fyzickém nosiči) a při ukládání zdrojů do digitálního archivu (obdoba konzervačního fondu) se nemůže Národní knihovna ČR jako instituce pověřená registrací a trvalým uchováním národní publikační produkce opřít o zákony týkající se povinného výtisku, jako je tomu v případě tradičních druhů dokumentů, bylo třeba v rámci projektu připravit ve spolupráci s právníky náhradní řešení. Byla připravena vzorová smlouva o poskytování elektronických online zdrojů, podle níž se uzavírají smlouvy s jednotlivými vydavateli ochotnými s Národní knihovnou spolupracovat. Ke konci roku 2002 byla uzavřena nebo připravena smlouva s 15 3
vydavateli. Podle smlouvy udílí vydavatel souhlas s tím, že umožní vkládání metadat podle schématu Dublin Core do zdrojového kódu vybraných zdrojů publikovaných na jeho webových stránkách, a dále aby NK tyto zdroje stahovala, ukládala do digitálního archivu a v zabezpečených podmínkách zpřístupňovala oprávněným uživatelům. Po získání zkušeností s touto činností, ověření technických, legislativních, organizačních a jiných podmínek bude možné navrhnout změny či doplňky zákonů týkajících se povinného výtisku. Bohužel získat české vydavatele internetových zdrojů ke spolupráci v této oblasti je práce nesmírně náročná na vysvětlování problematiky, přesvědčování o užitečnosti této činnosti a vyžaduje od řešitelů značnou trpělivost a čas. V současné době předpokládáme, že v prvních letech se bude pohybovat počet získaných vydavatelů řádově v desítkách a počet internetových zdrojů takto uvolněných pro činnosti spojené s archivací ve stovkách. 2) Na základě zkušeností získaných při zpracování širokého repertoáru webových zdrojů v rámci programového projektu výzkumu a vývoje v letech 2000 2001 bylo rozhodnuto, aby v první skupině zdrojů určených pro dlouhodobou archivaci byly výhradně zastoupeny seriály různého typu (včetně oborových tzv. zpravodajských serverů a portálů) a webové stránky. Problematika seriálovosti byla totiž v poslední době zejména v souvislosti s internetovými zdroji zcela nově pojata. Vznikla nová kategorie informačních zdrojů označených jako pokračující informační zdroje, která zahrnuje skupinu seriálů (postupně vydávané) a skupinu integrujících zdrojů (webovská sídla, databáze). Toto nové pojetí přispělo jednak k ujasnění kategorií dokumentů pro výběr ke zpracování, jednak k možnosti logičtějšího zpracování bibliografických záznamů. Takto vybrané zdroje jsou také vhodné ke zpřístupnění přes tématickou informační bránu. Internetové zdroje, pro které byla s vydavatelem uzavřena smlouva opravňující Národní knihovnu k jejich získávání, archivaci atd., jsou v současné době popisovány v testovací bázi DCB systému Aleph v NK ČR. V bázi byly nejprve nadefinovány údaje popisu ve formátu Dublin Core, avšak vzhledem k tomu, že pracovní a finanční kapacity nestačily ani pro definici konverzních tabulek (mapování údajů), ani pro následnou přípravu konverzního programu, přešlo se koncem roku na přípravu popisu ve formátu UNIMARC. Formát UNIMARC, který je v současné době zatím stále ještě hlavním, resp. jediným formátem pro bibliografický popis v České republice, nebyl ovšem na rozdíl od formátu MARC21 aktuálně doplňován pro potřeby popisu elektronických dokumentů, zejména dokumentů přístupných online (což byl jeden z hlavních důvodů pro rozhodnutí o přechodu na MARC21 v ČR), takže řešitelé musí upravovat formát lokálně tak, aby bylo možné online zdroje popsat v souladu s aktualizovanými pravidly popisu a zapsat potřebné údaje tak, aby byly záznamy výhledově mezinárodně směnitelné (např. pro poskytování do OCLC, pro zpřístupňování elektronických zdrojů v tématických branách aj.). Prostřednictvím bibliografických záznamů uložených v systému Aleph jsou pomocí odkazů přímo zpřístupňovány zdroje na stávající adrese URL; v případě, že popsaný zdroj již na své původní adrese URL není přístupný, bude oprávněným uživatelům zpřístupněn původní (již nepřístupný) zdroj na adrese uložení v digitálním archivu. Pokud jde o využití bibliografických záznamů ve formátu UNIMARC pro tvorbu České národní bibliografie, vzhledem k časovému posunu prací spojených s přípravou záznamů a vzhledem k nedostatku finančních prostředků pro úhradu souvisejících programátorských prací nebylo možno tento úkol splnit. V této práci bude třeba pokračovat počátkem roku 2003 za úhrady z finančních prostředků rozpočtu NK, event. navazujícího projektu. Pokud jde o zpřístupňování sekundárních zdrojů i primárních elektronických zdrojů v rámci Jednotné informační brány, byly zkušebně uloženy záznamy v polovině roku 2002. Na podzim byla zakoupena nová verze programu a celý systém instalován na nový server, takže nebylo možno ve využívání JIB pokračovat. S dalším řešením těchto 4
činností se počítá ihned počátkem roku 2003. Bez ošetření legislativy by tak jako tak nebylo možné vytypované elektronické zdroje regulérně zpřístupňovat. Technické řešení 3) Práce na projektu WebArchiv pokračovaly v roce 2002 i přes ukončení dvouletého projektu Národní knihovny ČR "Registrace, ochrana a zpřístupňování domácích elektronických zdrojů v síti Internet" (VaV 2000-2001), a sice v rámci projektu ÚVT MU na řešení příbuzné problematiky. Ve 2. pololetí získala Národní knihovna grantové prostředky z programu MK ČR VISK3, které byly využity především pro pořízení výkonnějšího serveru, ale také pro rozšíření kapacity páskového robota NK. Po úpravách harvesteru, daných zkušenostmi z předchozího roku (především odstranění nalezených chyb, ale byly také zdokonaleny konfigurační skripty harvesteru tak, že nyní je možno prostřednictvím www rozhraní jednotlivého sběru i spouštět, přerušovat a ukončovat) byla na jaře 2002 spuštěna nová sklizeň celé domény.cz. Na rozdíl od předchozího roku byly tentokrát okrajové podmínky nastaveny šířeji stahují se i URL s parametrem, díky čemuž je možné pokrýt většinu zdrojů seriálového charakteru, maximální hloubka zanoření byla zvětšena z 25 na 50 odkazů. To mělo samozřejmě za následek výrazný nárůst objemu stahovaných dat. Během sklizně se bohužel ukázalo, že s rostoucí velikostí archivu začíná být výkonnost používaného serveru (PC architektura, IDE disky) limitujícím faktorem. Bylo proto nutné doporučit vhodnou platformu pro další provozování harvesteru. Na základě množství dostupných prostředků i na základě HW platforem, které NK provozuje, byly vytipovány tři platformy, které by pro další provoz harvesteru připadaly v úvahu. Těmito platformami byly: Compaq ProLiant 380 (Linux), Sun Enterprise 250 (Solaris) a Compaq AlphaServer (Tru64 Unix). Během příprav na jejich testování (srpen 2002) došlo bohužel v Praze k záplavám, které na několik týdnů vyřadily celou infrastrukturu NK (včetně Centrálního depozitáře v Hostivaři, kde je umístěn server projektu) z provozu. Před vypnutím proudu v NK stihli pracovníci ÚVT MU přerušit sběr, nedošlo tak naštěstí k závažnějším problémům. Díky tomu, že v době povodní měli pracovníci v Brně k dispozici servery na testování, byl proveden speciální, rozsahem omezený sběr několika tisíc dokumentů ze zpravodajských serverů zaměřených na povodně Samotné testování mělo dvě části jednak obecné otestování výpočetního výkonu serveru jednotným testem (UNIXbench) a jednak ověření výkonu skutečným provozem harvesteru na jednotlivých strojích. Při testech se jednoznačně ukázalo, že z dostupných serverů bude nejvhodnější volbou platforma Intel/Linux (nejlepší poměr cena/výkon, i nejlepší absolutní výkon z testovaných serverů). Jako optimální varianta pořízení serveru bylo zvoleno využití serveru původně pořízeného v NK pro řešení projektu Jednotná informační brána. K instalaci nového serveru došlo v prosinci 2002. Parametry serveru pro harvesting: Compaq DL380, CPU: 2 x Pentium III 930 MHz, paměť: 4 GB RAM, rychost síťového rozhraní: 100 Mb/s; disky: 9 GB pro systém + 1 disk 72 GB; OS: Red Hat Linux 7.1 Krátce po opětovném zpřístupnění serveru byly získány informace o možné závažné chybě harvesteru v určitých situacích mělo docházet k chybnému výpočtu kontrolního součtu dokumentu, krátce nato byla uvolněna i oprava této chyby. Bylo nutné proto přistoupit k časově náročné kontrole všech stažených souborů a opravě jak uložených metadat, tak (v případě přerušené sklizně domény.cz) i údajů v databázích harvesteru. Až po skončení oprav mohlo dojít k opětovnému provedení sběru, přerušenému v létě. 5
Pro usnadnění sledování verzí byl na serveru webarchivu zprovozněn systém cvs (Concurrent Version System). Je navíc možné, že finský vývojový tým harvesteru umožní ostatním uživatelům přímou spolupráci na vývoji harvesteru tímto způsobem, což by zefektivnilo budoucí vývoj (odpadlo by odesílání zdrojových kódů do Finska a čekání na jejich implementaci do oficiální verze). Na serveru projektu byl také nainstalován news server, který by mohl být využit k archivaci diskusních skupin, vytipovaných Národní knihovnou jako zajímavých z hlediska zachování národního dědictví. Byly také provedeny malé úpravy ve skriptech generátoru metadat a URN. I jejich zdrojové kódy byly předány zpět do Finska. V oblasti zpřístupnění obsahu archivu veřejnosti pokračují práce na studentském projektu na indexaci a zpřístupnění vytvářeného archivu na MFF UK s výhledem dokončení v roce 2003. V průběhu roku byly však také zveřejněny první informace o výsledku vývoje v rámci projektu Nordic Web Archive. Norská národní knihovna připravila uživatelské webové rozhraní pro prezentaci dokumentů obsažených v archivu, které na pozadí využívá obecný indexační a vyhledávací systém. Toto rozhraní bude příští rok díky grantu, který tato knihovna získala z projektu NORDUNET, uvolněno jako open source podobně jako NEDLIB Harvester, což nám otevře řadu nových možností při dalším řešení projektu. V průběhu letošního roku se ukázalo, že využití páskového robota NK přináší spolu s výhodami i nezanedbatelné množství nevýhod. Mezi ně patří: relativní pomalost, nedostatečná úložná kapacita a vysoká cena jejího rozšiřování, časté výpadky dané různými problémy, které nutně nesouvisí se samotným robotem, ale spíše s nedostatkem financí na provoz a údržbu celého hardwarového vybavení NK, které ale v souhrnu znamenají nezanedbatelné časové ztráty. Proto byly na konci letošního roku učiněny i první kroky pro navázání možné spolupráce s CESNET s cílem získat pro stahovaná data velkokapacitní úložiště například v rámci nějakého datového gridu. Zprávu předkládá: PhDr. Vojtěch Balík, ředitel NK ČR Zprávu připravila: Mgr. Ludmila Celbová, řešitelka projektu V Praze dne 15. ledna 2003 6