DIGITÁLNÍ KNIHOVNY TEORIE A PRAXE Mirosav Bartošek Ústav výpočetní techniky, Masarykova universita bartosek@ics.muni.cz Obsah 1. Úvod 1.1 Co je to digitání knihovna? 1.2 Krátce z historie 1.3 Proč digitání knihovny 1.4 Aktuání stav, havní současné aktivity a zdroje informací 2. Kíčové obasti výzkumu a praxe digitáních knihoven 3. Obecný rámec a architektura digitání knihovny 3.1 Kahn-Wienského architektura 3.2 Začenění do právního a sociáního prostředí 3.3 Hierarchická abstrakce inteektuáního día (mode IFLA) 4. Jména a identifikátory 4.1 Koncept URN 4.2 Kasické identifikátory: ISBN, ISSN, SICI/BICI, ISTC 4.3 PURL perzistentní URL 4.4 Systém handes 4.4 DOI Digita Object Identifier 5. Metadata 5.1 Úvod a stručný přehed 5.2 Dubin Core 5.3 Metadata Kongresové knihovny 5.4 Standardy vycházející ze struktury MARC 5.5 XML a RDF 6. Interoperabiita 6.1 Úvod a stručný přehed 6.2 Protoko Z39.50 6.3 Open Archives Initiative (OAI) 6.4 Stanfordský InfoBus 6.5 OpenURL a SFX 7. Gobání vyhedávání zdrojů 7.1 Úvod a stručný přehed 7.2 Digitání knihovny a internetové vyhedávače 8. Stručné poznámky k daším obastem digitáních knihoven 8.1 Inteektuání vastnictví a ekonomika 8.2 Douhodobé uchovávání digitání informace 9. Vybrané programy a projekty 9.1 Digita Library Initiative Phase 1 9.2 Digita Library Initiative Phase 2 9.3 Eectronic Library Programme (elib) 9.4 Nationa Digita Library Program (NDLP) 9.5 Ostatní Literatura 1 Úvod 1.1 Co je to digitání knihovna? Přestože pojem digitání knihovna (ang. digita ibrary) patří v posedních etech k těm nejfrekventovanějším, panuje řada nejasností, co vastně tento termín obnáší. Jednou z příčin tohoto stavu je skutečnost, že obsah pojmu digitání knihovna se průběžně vyvíjí tak, jak se vyvíjí jeho technoogická zákadna, výpočetní technika. Jiný důvod souvisí s tím, že probematikou digitáních knihoven se zabývá mnoho různorodých odborných komunit, z nichž každá si vytváří vastní nápň tohoto pojmu v souadu se svým zaměřením: z pohedu databázového speciaisty představuje digitání knihovna informační systém využívající architekturu federativních databází, pro odborníky zabývající se hypertextem a šířením informací je to jen jedna z nadstavbových apikací webu, knihovník vidí v digitání knihovně daší krok v automatizaci na cestě od knihovny anaogové (papírové) přes automatizovanou či hybridní (fyzické sbírky s automatizovaným kataogem) až po digitání (většina či veškeré informace a sužby knihovny jsou eektronické). V neposední řadě přispívá ke zmatení pojmů i skutečnost, že pojmem digitání knihovna jsou někdy označovány systémy, které přinejmenším z pohedu informačního speciaisty představují úpně jiné entity (např. soubory agoritmů a procedur, systémy na správu dokumentů apod.). S masovým rozšířením internetu po nástupu webových technoogií se objeviy i představy, že ceý internet, resp. web jsou vastně jednou digitání knihovnou. S tím však odborníci z obasti informační vědy nesouhasí. Cyford Lynch, jeden z předních amerických informačních speciaistů, připomíná, že web neby pro podporu organizovaného pubikování a vyhedávání informací vůbec navržen. Výstižně to charakterizova Car Lagoze: Athough the internet provides access to an enormous amount of information, the current state-of-the-art fas far short of what is commony viewed as a ibrary service that is, reativey easy navigation of and access to a set of documents that are part of a coection. The notion of a coection is important in that it impies that the set of documents was not seected haphazardy, but by some trusted intermediary. Current users of the internet confront an information space where the quaity of documents is far from reiabe, faciities for ocating documents are primitive, and access to a specific document frequenty means wading through a Tower of Babe of architecture dependencies and fie formats. 1) [47] Přestože od zveřejnění tohoto názoru upynuo již někoik et a vývoj např. v obasti tzv. sémantického webu dosáh od té doby pozoruhodných výsedků, má výše uvedená charakteristika stáe svou patnost. Co tedy jsou ony digitání knihovny? Z mnoha desítek existujících definic uveďme aespoň dvě. První z nich je vemi obecná a pochází z počítačového prostředí: Digitání knihovna je spravovaná sbírka informací spou s odpovídajícími sužbami, přičemž informace jsou uoženy v digitání podobě a jsou dostupné prostřednictvím sítě. [4] Kíčovými sovy v definici jsou: spravovaná sbírka informací (coection), sužby, informace v digitání podobě, přístup prostřednictvím sítě. To, že jde o sbírku informací, která je nějakým systematickým způsobem spravována, NÁRODNÍ KNIHOVNA, 15, 2004, č. 4 233
řízena, má v definici zásadní význam. Proud dat zasíaný družicí na Zemi není knihovnou. Avšak tatáž data, jakmie jsou systematicky uspořádána, stávají se sbírkou v digitání knihovně. Podobně máokdo bude považovat za digitání knihovnu databázi obsahující finanční záznamy jedné spoečnosti; ae soubor takových záznamů z mnoha spoečností již může být částí nějaké digitání knihovny. Druhá charakteristika pochází z prostředí knihoven a naznačuje, že digitání knihovna v tomto chápání je především knihovnou; vychází z tradičních knihovních funkcí, jako je výběr, zpřístupnění a uchovávání materiáu, a zdůrazňuje, že digitání knihovny budou vždy budovány tak, aby soužiy konkrétní komunitě uživateů (představa všeobjímající univerzání digitání knihovny není v praxi reáná): Digitání knihovny jsou organizace, které poskytují zdroje (včetně speciaizovaného personáu) umožňující provádět výběr, strukturování a zpřístupnění sbírek digitáních prací, tyto práce dáe distribuovat, udržovat jejich integritu a douhodobě uchovávat a to vše s ohedem na snadné a ekonomické využití určitou komunitou nebo množinou komunit uživateů. [80] Z mnoha definic a projektů vypývají určité spoečné zákadní znaky digitáních knihoven: pro digitání knihovnu není kíčovou otázkou digitaizace fyzického materiáu, nýbrž organizace eektronické sbírky za účeem epšího přístupu; digitání knihovna obvyke není jedna uzavřená entita (pro zdůraznění tohoto aspektu mnozí autoři používají zásadně a výhradně množné číso digitání knihovny); informační zdroje tvořící digitání knihovnu jsou heterogenní (způsobem uožení (organizací, správou) objektů a použitými patformami), dynamické (začeňováním a vyřazováním komponent do/ze struktury digitání knihovny) a mutimediání (povahou dat); reaizace digitání knihovny vyžaduje technoogie pro propojení různých (autonomně spravovaných) informačních komponent; toto propojení musí být pro uživatee transparentní; cíem je zajistit uživatei jednotný (koherentní) přístup k reevantním digitáním informacím bez ohedu na jejich formu, formát, způsob a místo uožení. Na vývoji a nasazení digitáních knihoven v praxi se podíí zejména dvě skupiny odborníků. První z nich jsou informační profesionáové (včetně knihovníků, nakadateů a široké skupiny poskytovateů informací, jako jsou např. indexační a abstraktové sužby). Druhou skupinu tvoří počítačoví speciaisté a vývojáři internetu. 1.2 Krátce z historie Vize digitáních knihoven provází v různých podobách větší část historie výpočetní techniky. Podstatný pokrok však v této obasti nasta až počátkem 90. et minuého stoetí, kdy prudký rozvoj informačních a komunikačních technoogií umožni začít v praxi reaizovat představy teoretiků a efektivně zpřístupňovat první sibné výsedky širokému okruhu uživateů. V iteratuře jsou nejčastěji uváděni dva průkopníci, kteří nejvíce inspirovai generace výzkumníků a propagátorů digitáních knihoven. Prvním z nich je Vannevar Bush, profesor MIT a ředite amerického Národního úřadu pro vědecký výzkum a vývoj v období 2. světové váky. Ve svém vizionářském čánku As We May Think pubikovaném v roce 1945 [13] se zabýva probémem efektivnějšího automatizovaného zpracování odborných informací ( our methods of transmitting and reviewing the resuts of research are generations od and by now are totay inadequate for their purpose 2) ). Anayzova potenciání možnosti, které pro získávání, ukádání a vyhedávání informací nabízeo využití soudobých (anaogových, ještě nikoiv digitáních) technoogií a nastíni vizi systému využívajícího fotografické postupy a kompresi dat pomocí mikrofimů. Bushem navržený systém Memex koncepčně odpovídá dnešnímu osobnímu počítači, v němž jsou informace provázány asociativními vazbami, a je tak předchůdcem hypertextu a koncepce dnešního webu. Druhou často citovanou osobností je J. C. R. Lickider, který v 60. etech minuého stoetí studova na MIT možnosti transformace knihoven s využitím digitáních počítačů (na rozdí od Bushe, který ačkoiv již čísicové počítače zna vycháze ještě z anaogových technoogií). V roce 1965 pubikova knihu Libraries of the Future, v níž identifikova výzkum a vývoj potřebný k reaizaci skutečně použitené digitání knihovny a nastíni vizi digitání knihovny po 30 etech tedy v roce 1994. V obecné rovině jsou jeho předpovědi pozoruhodně přesné a mnohé z nich se vypniy, i když ne vždy v jím očekávané podobě; Lickider cekově výrazně podceni výsedky, kterých se dá dosáhnout využitím hrubé výpočetní síy, a naopak přeceni pokroky zaožené na rozvoji uměé inteigence a počítačových metod zpracování přirozeného jazyka. V 60. etech se také objevují první významné praktické výsedky v nasazení výpočetní techniky pro zpracování informací v knihovnách, mezi které bezesporu patři jednak vývoj formátu MARC (Machine Readabe Cataoguing) v americké Kongresové knihovně (Library of Congress), který standardizuje strukturu bibiografického záznamu v eektronické podobě, a využití tohoto formátu pro sdíenou kataogizaci knihoven v systému OCLC, jednak rozvoj onine knihovních kataogů (knihovníky označovaných termínem OPAC, Onine Pubic Access Cataogue). Navzdory všem překážkám vypývajícím z tehdejších technických omezení podnítiy tyto první výsedky řadu optimistických předpovědí. Jeden příkad za všechny: A. L. Samue předpovída v roce 1964, že papírové knihovny do 20 et zaniknou [69]. Důvody, proč se většina předpovědí ze 60. et nenapnia, byy samozřejmě různé; často však mezi ty havní patřiy důvody finanční. Pro vypnění Samueovy vize by byo třeba zdigitaizovat zhruba 100 miionů tituů knih, přičemž údaje z amerického prostředí [14] uvádějí cenu digitaizace v rozmezí 2 6 USD za stránku 3) ; ještě mnohem větší nákady by ovšem byy třeba na kompenzace autorských práv. Počátkem 90. et začíná v obasti digitáních knihoven skutečný boom. Zásuhu na tom měa skutečnost, že technoogický pokrok ve všech třech obastech, které jsou pro digitání knihovny kritické a které zahrnují computing (výpočetní a krátkodobá i douhodobá paměťová kapacita), communications (gobání síť a přenosová kapacita) a content (množství informace v digitání podobě), dosáh dostatečně vysokého stupně při rozumně nízké jednotkové ceně a široké všeobecné dostupnosti, což umožnio začít reaizovat projekty reagující na skutečné potřeby uživateů. To vše odstartovao prudký rozvoj v obasti digitaizace, eektronického pubikování a šíření informa- 234 NÁRODNÍ KNIHOVNA, 15, 2004, č. 4
cí, což přineso i nový impus pro výzkum a vývoj v obasti digitáních knihoven (dašími výraznými podněty byo ceosvětové masové rozšíření webových technoogií a všeobecná potřeba efektivnějšího sdíení vědeckých poznatků). Vyspěé země podpořiy tento trend zřízením štědře dotovaných programů na podporu výzkumu a vývoje (nejvýznamnějším z nich by americký program DLI-1 (Digita Library Initiative Phase 1) a na něj v současnosti navazující DLI-2), ae i prakticky orientovaných projektů (např. britský program elib). Podrobněji se o nich zmíníme v závěru příspěvku. 1.3 Proč digitání knihovny Počáteční představa digitání knihovny vycházea z koncepce kasické knihovny a bya orientována především na digitaizaci existujících sbírek jako nástroje pro zepšení kasických knihovních sužeb, a to zejména v násedujících obastech: vzdáený a nepřetržitý přístup k informacím; efektivnější metody vyhedávání (např. pnotextové); epší využití fondu (souběžný přístup k jednomu a témuž dokumentu); sdíení informací mezi různými knihovnami; dokonaejší ochrana fondu (nahrazení zranitených fyzických objektů digitáními). Záhy se však ukázao, že potenciání možnosti digitáních knihoven jdou nad rámec možností kasických knihoven s fyzickými dokumenty a projevují se např. možnostmi neomezené gobání integrace digitáních repozitářů v ceosvětovém měřítku, novými formami a formáty informací, možností permanentní aktuaizace informace uožené v digitání knihovně nebo zcea novými typy sužeb (přeformátováváním dokumentů on-fy do různých formátů či dokonce jazykových verzí, vytvářením sožených dě, vyjednáváním autorských a přístupových práv aj.). Přes tyto a daší odišnosti (provozně ani organizačně nemusí mít digitání a kasické knihovny vůbec nic spoečného) mají oba typy knihoven principiáně řadu shodných rysů: 1. systematicky budovanou sbírku datových objektů; 2. obsahovou anaýzu datových objektů ve sbírkách a z ní vypývající soubory metadatových struktur (kataogy, rejstříky, indexy, tezaury); 3. množinu sužeb (přístupové metody, správa dat, akvizice, vyhodnocování, referenční sužby, SDI); 4. tematické zaměření; 5. sedování kvaity; 6. douhodobé uchovávání materiáu. Metody a postupy kasických knihoven jsou za mnoho staetí svého vývoje dobře propracovány a tvoří uceený, efektivně fungující systém. Digitání knihovny však přinášejí nové výzvy a probémy, pro jejichž řešení neze často kasické postupy použít vůbec nebo jen ve vemi omezené míře. Po počátečním optimismu z první pooviny 90. et se ukázao, že probém budování funkčních digitáních knihoven je mnohem sožitější, než se zdáo. Principiáním probémem a zákadem všech obtíží je nedostatečně propracovaná technoogie na straně jedné a nepřipravené spoečenské prostředí zahrnující sožitý kompex navzájem provázaných probémů z obasti ekonomické, právní, sociání a etické na straně druhé. To, na co měy kasické knihovny douhá staetí, musí digitání knihovny řešit za pochodu a během někoika máo et. 1.4 Aktuání stav, havní současné aktivity a zdroje informací V obasti digitáních knihoven probíhá v současnosti veké množství aktivit jak v zákadním a apikovaném výzkumu (vůdčí roi v tomto směru hrají zejména Spojené státy americké s množstvím nejrůznějších odborných aktivit především na univerzitách a ve vekých výzkumných knihovnách v čee s Kongresovou knihovnou), tak i v praxi, kde existují stovky vemi rozsáhých a ambiciózních projektů zaměřených na digitaizaci či budování konkrétních digitáních knihoven poskytujících cenné informace a sužby přísušným komunitám, nebo na impementaci nových prototypů ověřujících v praxi nové přístupy, potřeby a chování uživateů. Oproti situaci z konce minuého stoetí je u těchto projektů znát posun od experimentování k budování obecné infrastruktury. Ačkoiv dosud neexistuje žádné univerzání a všeobecně přijaté řešení digitání knihovny a v mnoha směrech chybí potřebná gobání infrastruktura, která by umožnia škáovat a propojovat znaostní sítě reprezentované jednotivými digitáními knihovnami obdobně, jako je tomu dnes u komunikačních sítí reprezentovaných internetem a webem, je již k dispozici řada zákadních technoogických kamenů v podobě standardů (Z39.50, OAI, Dubin Core, Handes, DOI) a voně dostupných nástrojů pro impementaci zákadních funkcí digitáních knihoven (za všechny uveďme systém Greenstone z University of Waikato na Novém Zéandu [33] a systém DSpace vyvinutý ve spoupráci MIT a HP Labs [83]). Vemi často se výzkum v obasti digitáních knihoven překrývá s jinými obastmi, kupříkadu eektronickým obchodováním (metadata, interoperabiita, bezpečnost, autorská a vastnická práva). Dění v obasti digitáních knihoven mapuje řada časopisů, konferencí, speciaizovaných workshopů a také courseware kurzů na vysokých škoách [31]. Mezi nejvýznamnější časopisy patří: D-Lib Magazine [16] eektronický časopis zaměřený havně na prakticky orientovaný výzkum v obasti digitáních knihoven; vychází měsíčně od roku 1995 v CNRI s podporou DARPA. Je voně dostupný na webu a v současnosti je patrně nejprestižnějším zdrojem odborných informací o dění v obasti digitáních knihoven. Internationa Journa on Digita Libraries kasický tištěný časopis z nakadateství Springer-Verag. Speciaizuje se spíše na teoretický výzkum, vychází od roku 1997, bohuže však s nepravidenou periodicitou. Ariadne [2] eektronický časopis pro informační speciaisty zejména z Veké Británie. Informuje o aktivitách z obasti digitáních knihoven, vydává ho čtvrtetně UKOLN (UK Office for Library and Information Networking); voně dostupný na webu. RLG DigiNews [68] eektronický časopis zaměřený na obast digitaizace a uchovávání digitání informace. Je vydáván Corneovou univerzitou ve spoupráci s organizací Research Libraries Group (RLG) sdružující koem 160 výzkumně zaměřených knihoven, archivů a daších paměťových institucí převážně z USA. Vychází dvakrát měsíčně, je voně dostupný na webu. Probematice digitáních knihoven bya věnována také některá speciání čísa časopisů přehedově zaměřených na informační technoogie, jako Communications of the NÁRODNÍ KNIHOVNA, 15, 2004, č. 4 235
ACM (vrací se k digitáním knihovnám vždy pravideně po 3 etech, viz čísa z dubna 1995 a 1998 a května 2001) nebo IEEE Computer. Z nejvýznamnějších odborných konferencí je třeba uvést od roku 1996 pravideně každoročně pořádané konference ADL Advances in Digita Libraries (IEEE) a ACM Conference on Digita Libraries (od roku 2001 pořádané spoečně pod názvem JCDL Joint Conference on Digita Libraries) a evropskou konferenci ECDL European Conference on Research and Advanced Technoogy for Digita Libraries. Z metazdrojů zahrnujících různé projekty digitáních knihoven vyberme např.: IFLA Eectronic Coections [39] Berkeey Digita Library Sunsite [11] ARL Digita Initiatives Database [3] Obasti digitáních knihoven se věnuje i řada monografií. Práce [48] je prakticky zaměřená přehedová pubikace a popisuje spíše technické aspekty digitáních knihoven, kniha [4] má povahu obecné přehedové encykopedie ceé obasti, [84] přináší rozbor jednotivých obastí při návrhu a reaizaci digitání knihovny a způsob jejich řešení v systému Greenstone. Řada daších monografií se věnuje již konkrétním díčím aspektům digitáních knihoven, jako jeden příkad za mnohé uveďme [45] se zaměřením na probematiku digitaizace obrazové informace. 2 Kíčové obasti výzkumu a praxe digitáních knihoven Termín digitání knihovny je typicky zastřešující pojem. Probematika digitáních knihoven a aspekty jejich reaizace jsou totiž natoik široké, že se s trochou nadsázky dá říci, že pod tento pojem ze zahrnout téměř cokoiv z mnoha obastí počítačové vědy (databáze, informační systémy, uměá inteigence, počítačové sítě, bezpečnost), ae navíc i mnoho aspektů z řady spoečenských věd (z knihovní a informační vědy, práva, ekonomie, socioogie, psychoogie, ingvistiky). Takové bezbřehé pojetí nám však příiš nepomůže. Zaměříme-i se na obasti, které jsou pro digitání knihovny skutečně kíčové, dostaneme násedující obrázek (adaptováno de [71]); obasti popisované v daší části našeho příspěvku jsou označeny hvězdičkou: 3 Obecný rámec a architektura digitání knihovny K tomu, aby moh vzniknout gobání systém kooperujících digitáních knihoven, je třeba vytvořit a uvést do života potřebnou gobání informační infrastrukturu. Obecná architektura digitání knihovny navržená na dostatečně vysoké úrovni abstrakce umožňuje formaizovat představy o funkcích a fungování digitáních knihoven a současně identifikovat middeware internetu potřebný pro reaizaci distribuovaných digitáních informačních sužeb (všechny dnešní systémy digitáních knihoven jsou reaizovány ve webovém prostředí internetu). 3.1 Kahn-Wienského architektura Nejpropracovanější obecnou architekturu digitáních knihoven podai Kahn a Wiensky [44]; experimentání systém vycházející z této architektury by pak reaizován např. v rámci projektu Nationa Digita Library Project v Kongresové knihovně [6]. Zákadním prvkem architektury je digitání objekt, datová struktura pro zákadní samostatně použitenou informační jednotku tvořená dvěma zákadními částmi: obsahem (content) a kíčovými metadaty (tvořenými gobáním jednoznačným identifikátorem digitáního objektu, označovaným jako hande, a dašími bíže nespecifikovanými neměnnými metaúdaji, např. autor ). Obsahem digitáního objektu může být sekvence bitů reprezentující konkrétní digitání materiá (může být zahrnut i ve vícero formách), množina jiných datových objektů (sožený objekt), množina identifikátorů objektů (metaobjekt), případně jiné datové typy mode tak poskytuje dostatečnou fexibiitu pro reprezentaci ibovoně sožitých informačních objektů a vztahů mezi nimi. Digitání objekty mohou být buď proměnivé (obsah objektu ze měnit i po jeho uožení do repozitáře ať již jde o jednorázové změny nebo přímo dynamické informační objekty), nebo fixní. Schéma jednoduchého digitáního objektu ukazuje násedující obrázek: Pode typu materiáu mohou být digitání objekty rozděeny do kategorií (např. text formátovaný pomocí SGML, počítačový program, digitaizovaný zvuk) a pro každou kategorii mohou být stanovena pravida pro převod materiáu do jednotivých typů digitáních objektů, struktura metadat apod. Tak je tomu např. v reaizovaném systému [6]; obecná architektura ovšem úmysně s žádnými specifickými typy materiáů nepracuje, aby udržea co nejvyšší míru obecnosti, neomezovaa či nepředjímaa budoucí technoogický vývoj a ponechávaa dostatečnou míru fexibiity pro konkrétní impementace. Digitání objekty jsou uoženy v repozitářích, které mají přiřazeno jednoznačné gobání jméno. Repozitář umožňuje řízený přístup k digitáním objektům v něm uoženým. Pro každý digitání objekt udržuje dva typy metadatových záznamů. Prvním z nich je záznam vastností ob- 236 NÁRODNÍ KNIHOVNA, 15, 2004, č. 4
jektu (properties record) obsahující údaje např. o autorských právech a podmínkách pro zpřístupnění digitáního objektu, technické vastnosti jako formáty a přístupové protokoy, bibiografické údaje nebo administrativní data (např. datum/čas uožení objektu do repozitáře). Druhým je transakční záznam (transaction og) zaznamenávající veškeré transakce repozitáře týkající se daného digitáního objektu. Spou s neměnnými a na repozitáři nezávisými kíčovými metadaty tvoří tyto dva záznamy zákadní metadatový popis digitáního objektu. Každý repozitář komunikuje s okoím prostřednictvím jednoduchého repozitářového přístupového protokou RAP (Repository Access Protoco) umožňujícího ukádání a zpřístupnění digitáních objektů, případně i daší operace to vše při zajištění odpovídajícího zabezpečení. Digitání knihovna může sestávat z mnoha repozitářů různých typů. Daší komponentou architektury je tzv. hande-system soužící jako gobání distribuovaný směrovací mechanismus, který pro digitání objekt identifikovaný svým identifikátorem vrátí seznam repozitářů, které tento objekt udržují. Hande-system by v praxi úspěšně reaizován v Corporation for Nationa Research Initiatives (CNRI) a patří dnes mezi jedny z nejpropracovanějších a v projektech digitáních knihoven nejužívanějších systémů pro gobání identifikaci a směrování informačních objektů na internetu [36]. Podrobnější popis je uveden níže v kapitoe o identifikátorech. Schéma kooperace jednotivých komponent digitání knihovny je naznačeno na obrázku: 1. search: uživate specifikuje svůj požadavek přes inteigentní koncové uživateské rozhraní, které jej přeformuuje na dotaz pro gobání vyhedávací systém, jenž vrátí seznam informačních zdrojů spňujících požadavek uživatee; 2. seect: uživate vybere ze seznamu informační zdroj, který chce získat; 3. retrieve1: uživateské rozhraní předá identifikaci digitáního objektu odpovídajícího zvoenému informačnímu zdroji gobánímu směrovacímu systému a získá identifikaci přísušného repozitáře; 4. retrieve2: přes přísušný protoko RAP si vyžádá potřebný digitání objekt z repozitáře; 5. dispay: získaný objekt zobrazí uživatei. Z diskusí o výše naznačené obecné architektuře vypynua řada podmínek kíčových pro její reaizaci v praxi [7]. V daším textu rozebereme aespoň tři z nich: (a) technický návrh musí být začeněn do konkrétního právního a sociáního prostředí; (b) uživateé požadují inteektuání día a nikoiv digitání objekty; (c) kíčovými stavebními boky informační infrastruktury jsou jména a identifikátory. 3.2 Začenění do právního a sociáního prostředí První informační systémy na internetu byy vytvořeny konkrétními odbornými a vědeckými komunitami s ohedem na jejich vastní potřeby; primárním cíem bya rychá, efektivní a zejména bezpatná výměna informací. Mnohé z těchto systémů jsou vemi úspěšné dodnes a dáe se rozvíjejí (jako dva příkady z obasti eektronického pubikování připomeňme historický systém RFC používaný IETF a novější preprintový systém ArXiv.org [8] soužící ceosvětové komunitě fyziků). Situace u obecných digitáních knihoven je ae mnohem sožitější, neboť aby byy v praxi použitené, musí respektovat mnohem širší ekonomický, sociání a právní kontext. Typickým příkadem jsou hudební día, jež představují živobytí skadateů i hudebníků, kteří vyžadují popatky za jejich používání (stejně tak i nahrávací studia). Taková día se mohou stát součástí digitání knihovny pouze a jen tehdy, pokud digitání knihovna nebude ohrožovat ekonomické zájmy jejich původců a zprostředkovateů. Legisativní rámec upravující způsob kasického vytváření, pubikování a využívání inteektuáních výtvorů, který zahrnuje množství sožitě provázaných konceptů od autorského práva, provedení día, voného užití día, soukromí, ochrany osobnosti až po komunikační zákony, daně, národní bezpečnost aj., se utváře vemi douhou dobu tak, aby vyváži zájmy všech subjektů (zájem autorů tvořit, vydavateů vydávat, uživateů día využívat, spoečnosti ochraňovat produktivní prostředí a zajišťovat bezpečnost). Digitání pubikování a šíření informací, nebude-i právně vhodně ošetřeno, představuje pro tento sožitě vyvážený systém hrozbu s mnoha potenciáně obrovskými dopady (de [4] představuje informační a zábavní průmys asi 5 % ekonomiky USA; radikání změna technoogie může znamenat obrovské ekonomické změny vedoucí až k zániku vekých firem a ceých odvětví, a to i s přísušnými sociáními dopady v komerční i nekomerční sféře). Právní situace týkající se digitáních knihoven je o to sožitější, že vzhedem k jejich gobánímu charakteru nestačí upravit a apikovat národní egisativu, ae je třeba dojednat, vytvořit a uvést do života odpovídající egisativu na mezinárodní úrovni. Havní probém spočívá v tom, že vytvoření potřebného egisativního, spoečenského a ekonomického prostředí není již probém technoogický, ae spoečenský, a jako takový je mnohem sožitější a časově mnohem náročnější. Zkušenost také ukazuje, že neze předvídat všechny aspekty vývoje, že nejprve musí ve spoečnosti vzniknout určité vzorce chování, které ze později právně kodifikovat. 3.3 Hierarchická abstrakce inteektuáního día (mode IFLA) Digitání objekty jsou sice zákadními stavebními kameny obecné architektury digitání knihovny, uživateé ae obvyke potřebují odkazovat na informační zdroje na vyšší úrovni abstrakce. Navržená architektura umožňuje NÁRODNÍ KNIHOVNA, 15, 2004, č. 4 237
reprezentovat ibovoně sožité objekty a vztahy mezi nimi, pro její napnění je však třeba apikovat nějakou všeobecně přijatenou a dostatečně obecnou abstrakci informačních objektů. Nejrozšířenější a nejvyužívanější kategorizace informačních objektů pochází ze studie Functiona Requirements for Bibiographic Records (FRBR) [41] organizace IFLA (Internationa Federation of Library Associations and Institutions) z roku 1998 a rozišuje čtyři úrovně: dío (work) inteektuání či uměecký výtvor jako abstraktní koncept (Homérova Iiada, Beethovena 5. symfonie, operační systém Unix apod.); vyjádření (expression) konkrétní reaizace, časoprostorová fixace daného día (např. Iiada bya nejprve reaizována ústním podáním, poté formou písemného zápisu; symfonie může být reaizována jako zápis partitury nebo jako některé z mnoha jejich hudebních provedení); projev (manifestation) fyzické ztěesnění nějakého vyjádření daného día (např. text Iiady může být projeven v někoika různých rukopisech nebo v různých knižních vydáních; určité provedení symfonie může být zaznamenáno na hudební CD nebo na videokazetě jako záznam teevizního přenosu); jednotka (item) jeden (z potenciáně mnoha) exempářů daného projevu, kopie (např. jeden výtisk daného vydání knihy, konkrétní výtisk podepsaný autorem, kopie souboru apod.). Stručně vyjádřeno: dío je reaizováno prostřednictvím jednoho či více vyjádření, to je převedeno do fyzické podoby v jednom či někoika různých projevech, ty jsou pak rozmnoženy v jedné či mnoha jednotkách. Praktické zkušenosti ukazují, že tento čtyřúrovňový mode je schopen pně postihnout všechny aspekty uživateských zájmů o informační objekty nejen v obasti digitáních knihoven, ae i v ostatních obastech (např. eektronickém obchodu). Navíc, na rozdí od jiných modeů v jiných komunitách, nechybí knihovnám jasně propracovaný systém jeho upatňování (např. přesný překad día je považován za jeho nové vyjádření, zatímco voný překad může být novým díem; podobně je za nové dío považována změna žánru, např. dramatizace určité novey). Přesné rozišování různých abstrakcí informačních objektů je užitečné a v některých případech dokonce zcea zásadní nejen v obasti digitáních knihoven (pro vyhedávání, odkazování, správu vastnických a autorských práv); obast eektronického obchodování je toho typickým příkadem (viz např. [38]). 4 Jména a identifikátory Čím více se při výměně informací (resp. obchodu) snižuje potřeba fyzického kontaktu mezi uživateem informace a jejím poskytovateem (resp. mezi kupujícím a prodávajícím), tím víc roste potřeba schopnosti věci jednoznačně pojmenovávat a identifikovat. Schopnost jednoznačně gobáně identifikovat informační objekty (a tuto identifikaci dynamicky jednoznačně propojit s informačním objektem nacházejícím se kdekoiv v gobání síti) je zcea zásadní pro nasazení jakéhokoiv distribuovaného gobáního informačního systému. 4.1 Koncept URN Stávající internet zatím nenabízí dostatečně univerzání, všeobecně podporovaný a rozšířený identifikační systém pro informační objekty, který by spňova zákadní požadavky zformuované již počátkem 90. et pro koncepci URN (Uniform Resource Name) [76], a to: gobání rozsah: dané jméno je ceosvětově jednoznačné a nezávisé na okaci; perzistence: přiděené jméno trvá na věky, i po zaniknutí popisované entity; škáovatenost: jméno musí být použitené pro jakýkoiv představitený typ entity; egacy support: systém musí podporovat existující identifikační systémy; rozšiřitenost: musí být umožněno budoucí rozšíření identifikačního schématu Stávající URL tyto požadavky nespňuje, neboť identifikuje okaci, nikoiv entitu (inteektuání obsah). Smysem návrhu URN je naopak identifikovat entitu bez ohedu na její momentání umístění; musí ovšem existovat tzv. směrovací mechanismus, který pro zadané URN zjistí aktuání umístění entity tímto URN identifikované. Syntaxe URN je násedující: URN:nid:nss kde nid (Namespace Identifier) je identifikátor určitého identifikačního systému (např. DOI, viz níže) a nss (Namespace-specific String) je konkrétní identifikátor v daném systému. Jak je vidět, URN není zaoženo na jediném identifikačním systému, ae naopak poskytuje zastřešení pro neomezený počet schémat spňujících stanovené podmínky (zahrnujících i popis technik pro reaizaci směrovacího mechanismu viz RFC-2611). Přestože obecná idea URN je jasná a také návrh jeho infrastruktury by nedávno již dokončen, impementace gobáních řešení na internetu jsou zatím omezené. Příčinou jsou tyto skutečnosti: gobání směrovací systém pro URN (na bázi DNS) ještě není rozšířen v ceém internetu; stávající webové prohížeče zatím nepodporují URN tak, jak podporují URL; panují nejasnosti, kdy a kterým entitám URN přiděovat (probém verzí, různých formátů, úrovní); probém jednoduchého (singe-point) nebo násobného (mutipe) směrování: směrovací mechanismy vycházející ze současné webové technoogie vracejí jediné URL, zatímco sužby zaožené na URN mohou obecně vyžadovat identifikaci více instancí entity či více jí odpovídajících sužeb; v neposední řadě jde o otázku finanční: identifikátory URN jsou sice zdarma, ae budování a udržování směrovacích sužeb nikoiv nákady jsou obrovské a někdo je musí uhradit. Knihovny se probémem identifikace fyzických informačních zdrojů zabývají již douho; popišme současný stav a nástroje, které jsou k dispozici i digitáním knihovnám [34]. 4.2 Kasické identifikátory: ISBN, ISSN, SICI/BICI, ISTC Již zhruba 30 et používají knihovny a nakadateé identifikaci ISBN (Internationa Standard Book Number), ISSN (Internationa Standard Seria Number) a daší identifikátory k identifikaci tištěných pubikací neboi projevu día (v terminoogii modeu FRBR). Digitání knihovny a eektronické pubikování však vyžadují kompexnější ví- 238 NÁRODNÍ KNIHOVNA, 15, 2004, č. 4
cevrstvou identifikaci, počínaje samotnými autory a konče těmi nejmenšími jednotkami informací, s nimiž ze v internetu samostatně manipuovat a prodávat je, jako jsou např. čánky v časopisech. Současný stav v obasti standardů je násedující: a) autoři: ISADN (Internationa Standard Authority Data Number) umožňuje jednoznačně identifikovat každého autora. Zatím v praxi nereaizováno (již někoik et se diskutuje o otázce skutečné potřebnosti a technické reaizovatenosti tohoto identifikátoru). b) dío: ISTC (Internationa Standard Textua Work Code) pro textová día. ISAN (Internationa Standard Audiovisua Number) pro audiovizuání día. ISWC (Internationa Standard Musica Work Code) pro hudební día. Standardy ISAN a ISWC jsou již někoik et patnými standardy ISO; práce na ISTC postoupiy v září 2004 do závěrečné schvaovací fáze. c) projev: ISBN, ISSN, ISMN a daší identifikátory, které se využívají již douhou dobu. d) komponenta: SICI (Seria Item and Contribution Identifier) pro čánky. BICI (Book Item and Component Identifier) pro kapitoy v knize, obrázky, poznámky apod. Norma SICI existuje jako standard ANSI/NISO již od roku 1996, ae zatím se v praxi moc nevyužívá; má však budoucnost. BICI by v pozici pracovního návrhu a jeho daší osud je nejasný. Popis správy vybraných standardů dobře charakterizuje rozdíné přístupy ke koncepci identifikátorů: ISBN Internationa Standard Book Number Čísa ISBN přiděují nakadateé. Pode normy ISO 2108-1978 začíná číso ISBN vždy zkratkou ISBN násedovanou 10místným čísem rozděeným do čtyř boků proměnivé déky odděených spojovníkem, např. ISBN 80-00-01978-9. První bok přiděuje mezinárodní agentura ISBN a identifikuje zemi, v níž nakadate působí (0 a 1 angická obast, 80 ČR a SR). Druhý bok přiděuje národní agentura ISBN a identifikuje nakadatee. Může mít déku 2 6 čísic; čím větší nakadate, tím kratší je jeho číso. Třetí bok přiděuje nakadate a určuje konkrétní vydání knihy či její formy; déka je voena tak, aby ceková déka čísa ISBN bya deset znaků. Posední bok tvoří kontroní čísice, která se vypočítává z předchozích devíti cifer pode moduu 11 s využitím váhových koeficientů. Národní agentura shromažduje informace o všech přiděených ISBN v dané zemi. ISBN je příkadem tzv. inteigentního či soženého identifikátoru, který kromě vastní identifikace nese ještě daší expicitní informaci (země, nakadate). Systém je u kasických fyzických informačních zdrojů vemi úspěšný, ae v digitáním světě má probémy: 1. na internetu může být nakadateem kdokoiv, což vede k exponenciánímu nárůstu požadavků na nakadateská čísa; částečně se to dá řešit vyčeněním vyhrazených identifikátorů pro knihy pubikované jednotivci, ae obecně není tento systém pro potřeby webu dostatečně fexibiní; 2. dramatický nárůst pubikací po vzniku eektronického pubikování a také to, že ISBN je často přiděováno i menším informačním jednotkám než kniha, vede k tomu, že ve vemi krátké době (odhaduje se do roku 2010) se prostor ISBN číse vyčerpá. Z výše uvedených důvodů vyžaduje systém ISBN důkadnou revizi, a to nejpozději do roku 2006. Přitom jakákoiv změna dosavadního systému bude mít obrovské dopady s vekými nákady na knihovní a informační sektor, srovnatenými s nákady na řešení probému Y2K. Přijaté řešení (které není sice koncepční, ae umožní získat čas) je rozšíření ISBN na 13 čísic tím, že na jeho začátek bude přidán kód EAN 978 (knihy), používaný ceosvětově v obchodu pro označování zboží čárovými kódy. Po dohodě s EAN bude využit pro ISBN i druhý prefix 979 (hudebniny) a čísený prostor ISBN se tak téměř zdvojnásobí. ISSN Internationa Standard Seria Number Na rozdí od ISBN je číso ISSN (ISO norma 3297-1998) tzv. houpý či jednoduchý identifikátor, který v sobě nenese žádnou sémantiku. Má tvar 8 cifer rozděených do dvou boků po čtyřech cifrách odděených spojovníkem, např. ISSN 0885-2308. Posedním znakem je kontroní znak (obdobně jako u ISBN). Všechna čísa ISSN jsou přiděována a centráně spravována Mezinárodním centrem pro ISSN; v současnosti obsahuje jeho databáze 1,1 miionu záznamů (ceková kapacita je 10 miionů). Spou s každým přiděeným ISSN je v databázi uožen metadatový záznam o přísušném periodiku či seriáové pubikaci. Eektronické časopisy zatím kapacitu ISSN vážněji neohrožují (ročně se zatím přiděuje koem 50 000 číse), probém je však s vemi krátkým poočasem jejich rozpadu. Navíc eektronické časopisy nemusí být vydávány v ročnících, svazcích a jednotivých čísech, takže pode posedních aktuaizací kataogizačních pravide může být za kandidáta na přiděení čísa ISSN považována každá webová stránka, v jejímž rámci jsou shromažďovány nové dokumenty. SICI Seria Item and Contribution Identifier I když je SICI americkou normou již od pooviny 90. et (ANSI/NISO Z39.56, viz [59]), zatím se příiš nevyužívá. Důvodem může být jak neexistence jeho podoby v mezinárodní ISO normě, tak skutečnost, že mezi nakadatei je zatím o něm poměrně maé povědomí a může jim připadat poměrně sožitý. Chybí také mezinárodní centrum, které by využívání tohoto standardu dostatečně propagovao. Příkad: čánek Marka Needemana Computing resources for an onine cataog 10 years ater pubikovaný v časopise Information technoogy and ibraries, svazek 11, číso 2 (červen 1992), str. 168, bude mít SICI: 0730-9295(199206)11:2<168:CRFAOC>2.0.TX;2-# Identifikátor je tvořen ISSN čísem časopisu násedovaným údaji o číse, údaji o čánku (první písmena sov z názvu) a kontroní částí (verze standardu 2.0, typ zdroje je tištěný text TX). SICI je příkadem identifikátoru, který může být pně vypočítán, tj. automaticky vygenerován přímo z čánku nebo jeho metadat. Identifikátor BICI vypadá podobně, jeho standardizace ae ještě není dokončena. ISTC Internationa Standard Textua Work Code Pode pracovní verze návrhu standardu tvoří číso ISTC šestnáct hexadecimáních cifer rozděených do čtyř boků, např.: ISTC 0A9-2002-12B4A105-6 NÁRODNÍ KNIHOVNA, 15, 2004, č. 4 239
První bok představuje identifikátor některé registrační agentury (kterých může být až 4096). Každá z nich může přiděit až miiardu číse každým rokem až do roku 9999. Jedním z požadavků na agenturu je schopnost vytvářet a udržovat metadata pro día; přirozenými kandidáty se tak stávají např. národní knihovny (množství všech existujících textových inteektuáních výtvorů zahrnujících mj. i čánky, básně, eseje či jejich komponenty je obrovské a jejich kompetní kataogizace je nepředstaviteně náročný úko). Druhý bok představuje rok, třetím je identifikátor día a posedním kontroní čísice. Fungování a rozvoj ceého systému bude koordinovat mezinárodní registrační autorita; výběrové řízení na ni vyhráo v étě 2004 konsorcium CISAC / Niesen BookData / R.R. Bowker. Kromě dosud uvedených identifikačních schémat existují mnohá daší, ať již ve formě oficiáních, nebo faktických standardů (jakým je také PII Pubisher Item Identifier), viz např. [64]. Pro všechny výše uvedené příkady identifikátorů ze na internetu impementovat přísušný gobání směrovací systém s využitím koncepce URN. U houpých identifikátorů typu ISSN (identifikátor nenese sám o sobě žádnou informaci o tom, kde hedat informaci o informačním objektu) je k tomu zapotřebí gobání centrání databáze; naproti tomu směrování ISBN ze postavit na distribuovaném systému např. národních bibiografií (databází bibiografických záznamů při národních knihovnách mapujících knižní produkci daného národa či země). Vede výše uvedených identifikátorů vycházejících primárně ze světa kasických dokumentů existuje někoik systémů vytvořených již přímo pro internetové zdroje. Zmíníme stručně tři z nich: PURL, Hande a DOI. 4.3 PURL perzistentní URL Tento systém [66] reaizovaný organizací OCLC by jedním z prvních pragmatických řešení vyvinutých pro knihovnicko-informační komunitu s cíem využít to, co již současný internet nabízí (http a URL), a přitom co nejjednodušším způsobem odstranit zákadní probém s identifikací pomocí URL závisost identifikace zdroje na jeho umístění. PURL je URL poskytující nepřímou adresaci zdroje. Princip je vemi jednoduchý: informační zdroj na internetu dostane přiděený identifikátor PURL např. ve tvaru http://pur.occ.org/cataog/item1 a teprve na této adrese je uoženo skutečné URL zdroje. Funkčně je tedy PURL normáním URL, které však neodkazuje přímo na umístění zdroje, nýbrž na zprostředkující směrovací sužbu. Ta propojí identifikátor PURL se skutečným URL a vrátí ho kientovi. Kient pak dokončí URL transakci standardním způsobem (přes http příkaz redirect). Pokud se změní umístění zdroje, změní jeho správce hodnotu uoženou na adrese http://pur.occ.org/cataog/item1, ae samotné PURL (externí jméno) se nikdy nemění. Uživateé se mohou voně zaregistrovat na PURL serveru a poté si vytvářet vastní identifikátory PURL, mohou dokonce voně stahovat přísušný software a instaovat vastní směrovací PURL server. 4.4 Systém handes Technoogii známou pod názvem handes [36] vyvinua CNRI jako součást obecné architektury digitání knihovny pro jednoznačnou identifikaci digitáních objektů [44]. Ačkoiv by tento systém vyvinut nezávise na konceptu URN, je s ním kompatibiní a ze ho považovat za vůbec první systém URN použitý v obasti digitáních knihoven. Současná verze systému je zaožena na protokou HTTP s identifikátorem voženým do dokumentu ve formě hypertextové vazby odkazující na směrovací server systému hande. Identifikátor hande má násedující tvar: hd:cnri.dib/magazine kde první část (prefix cnri.dib) je tzv. pojmenovávací autorita, která je přiděována hierarchicky (nejvyšší úroveň cnri je přiděována centrání autoritou, zbyá část již okáně). Část za omítkem je ibovoný řetěz znaků jedinečný v rámci dané pojmenovávací autority. Architektura systému hande je dvojúrovňová jeden gobání registr a neomezený počet okáních serverů; z důvodů epší výkonnosti a epší dostupnosti sužeb je impementována jako distribuovaný systém s decentraizovanou administrací (gobání registr identifikátorů tak není centraizován fyzicky, nýbrž virtuáně). Každá z jeho komponent může být rozprostřena mezi více počítačů a data mohou být automaticky repikována, k dispozici je řada sužeb cache. Pro maximání využití a přímé směrování identifikátorů (včetně násobného směrování) je třeba instaovat do uživateského webového prohížeče přísušný software ve formě pug-in (jsou voně k dispozici); prostřednictvím proxy serverů ze systém používat i s neadaptovanými prohížeči, avšak s neúpnou funkčností. Systém je vemi propracovaný; jeho sabá stránka však spočívá v tom, že se jej nepodařio prosadit jako internetový standard (patrně havně proto, že IETF nechtěo připustit rozmnožování různých koncepcí směrovacích sužeb a podporuje pouze vastní koncept v podobě URN). Nicméně řada současných, vemi úspěšných systémů je na handes zaožena; jmenujme aespoň program Kongresové knihovny NDLP [51], NCSTRL distribuovanou digitání knihovnu technických zpráv z obasti počítačové vědy [57] a iniciativu amerických nakadateů DOI. 4.5 DOI Digita Object Identifier V roce 1996 vznika z popudu Asociace amerických nakadateů iniciativa DOI [23], jejímž cíem byo vytvořit systém pro identifikaci digitáních objektů (prací chráněných autorským zákonem) pro potřeby komerčních vydavateů. Vznik systém, který je od roku 1998 dáe rozvíjen mezinárodní nadací Internationa DOI Foundation (IDF). Jako směrovací mechanismus identifikátorů DOI je využíván systém hande popsaný výše. Syntaxe DOI bya specifikována normou ANSI/NISO Z39.84-2000. Příkad: doi:10.1006/123456 Prefix 10.1006 sestává z konstanty 10 (souží k odišení DOI od ostatních impementací systému hande), za níž po tečce náseduje numerický identifikační kód registrující organizace (1006 je např. kód Academic Press). Sufix za omítkem obsahuje identifikátor digitáního objektu a může jím být cokoiv za předpokadu, že v rámci dané registrující organizace bude jednoznačný. To dává registrující organizaci možnost použít voně ibovoné identifikační systémy jak gobání, např. doi:10.1000/isbn1-900512-44-0, tak i okání (to je zásadní rozdí oproti koncepci URN, která použití každého 240 NÁRODNÍ KNIHOVNA, 15, 2004, č. 4
identifikačního systému umožňuje pouze tehdy, pokud byo stanoveným postupem standardizováno v internetové komunitě). Číso DOI identifikuje dío, nikoiv projev día (viz mode FRBR výše), takže tištěná verze čánku a jeho digitání kopie mají totéž číso. Systém DOI je sině centraizovaný; každá registrující organizace musí všechna jí vydaná DOI čísa registrovat u (zatím jediné) registrační agentury, směrování probíhá přes tuto centrání databázi (http://dx.doi.org/10.1000/isbn-1-900512-44-0). Zajímavým rysem je, že povinnou součástí registrace čísa DOI (kromě stavových dat specifikujících umístění objektu) je také předání metadat DOI popisujících daný objekt; ta pak mohou být vrácena jako výsedek procesu směrování, když není možno zpřístupnit objekt samotný, např. z icenčních důvodů. V současné verzi poskytuje DOI pouze perzistentní identifikátory (čii v zásadě totéž, co mnohem jednodušší PURL), ae IDF má ambice rozvinout ho do kompexního systému na podporu řízení správy vastnických a autorských práv. Všeobecně se zatím nepředpokádá, že by se DOI mě rozvinout ve všeobecně použitené řešení pro identifikaci jakýchkoiv typů dokumentů na internetu, a to zejména z důvodů ekonomických (systém není dostupný bezpatně, patí se jak za registraci registrující organizace, tak i za každé zaregistrované číso DOI). Nicméně k dnešnímu datu se jedná o systém vemi úspěšný a v praxi opravdu fungující. V poovině roku 2004 byo v systému zaregistrováno přes 250 registrujících organizací (nakadateů). V systému CrossRef [15], který využívá DOI pro vytváření citačních vazeb v obasti vědeckých pubikací (citation-inking) a zpřístupňování pných textů, byo v té době aktivních 700 subjektů (přes 450 knihoven) a přiděeno více než 12 miionů číse DOI čánkům z 10 000 tituů periodik. Od června 2001 jsou k dispozici nástroje umožňující reaizovat vícenásobné směrování číse DOI. 5 Metadata Obecně jsou metadata informace o informacích; v kontextu digitáních knihoven je ze charakterizovat jako počítačově zpracovatené strukturované informační objekty popisující vastnosti jiných informačních objektů. Protože metadata jsou kíčovou komponentou pro obrovskou škáu veice různorodých sužeb (vyhedávání informačních zdrojů a jejich výběr, autentizaci, interoperabiitu, správu vastnických práv, douhodobou archivaci a řadu daších), existuje vemi mnoho různých metadatových schémat. 5.1 Úvod a stručný přehed Kasické knihovny jsou od počátku své existence postaveny na vytváření a využívání metadat (bibiografických záznamů) a totéž patí i pro knihovny digitání. Avšak mezi bibiografickými metadaty v kasických knihovnách a síťovými metadaty pro digitání síťové prostředí je jeden zákadní koncepční rozdí: zatímco bibiografický záznam usiuje o kompetní popis zdroje, síťová metadata jsou speciaizovaná pokrývají vždy jen určitou část, jen některé aspekty zdroje. Tento rozdí je dán dvěma faktory: za prvé organizačním modeem používaným při tvorbě metadat (u kasických knihoven je to jedna centrání autorita, např. národní knihovna, zatímco u digitáních knihoven jde o řadu různých komunit pracujících nezávise na sobě a pode svých specifických potřeb). Za druhé je zde jiný mode přístupu k samotnému zdroji: protože v kasické knihovně neměi uživateé metadat obvyke přímý přístup k informačnímu zdroji, musei být schopni učinit své rozhodnutí o užitečnosti zdroje výhradně na zákadě znaosti jeho metadat. V digitáním síťovém prostředí jsou naproti tomu často zdroje dostupné přímo, uživate je může bezprostředně prohížet, což eiminuje potřebu kompexního popisu. Stejně tak je možné snadno zpřístupňovat různá metadata daného zdroje a nové technoogie na bázi RDF nabízí možnost je vzájemně propojovat, kombinovat a dynamicky tak vytvářet sožitější popisy pode aktuání potřeby. Metadata ze kasifikovat pode různých hedisek. Z hediska jejich obecného použití se obvyke děí na metadata popisná (souží k obecnému popisu zdroje za účeem jeho vyhedání, identifikace a seekce), strukturání (zachycují formát a strukturu zdroje za účeem jeho správného uožení a zobrazování) a administrativní (souží ke správě zdroje, včetně řízeného přístupu a archivace). Jiná typoogie může rozčeňovat metadatová schémata pode bohatosti jejich struktury a míry detainosti popisu: od jednoduchých často proprietárních schémat s jednoduchými nepříiš strukturovanými formáty (např. automaticky generovaná metadata internetových vyhedávačů) až po veké propracované mezinárodní standardy typu MARC nebo značkovací systémy typu TEI [74]. Zatímco popisná metadata bývají často uožena v kataozích a indexech udržovaných vně repozitářů s digitáními objekty, strukturání a administrativní data bývají naopak často vožena přímo do digitáního objektu. V tomto příspěvku se zmíníme o některých přístupech z obasti popisných metadat. Zájemce o probematiku metadat pro účey douhodobé archivace odkazujeme na [22], příkadem z obasti správy vastnických a autorských práv je DOI [24], domovská stránka iniciativy INDECS INteroperabiity of Data in E-Commerce Systems [38] zase poskytuje dobrý vstupní bod pro studium probematiky metadat v obasti eektronického obchodování. Ze zástupců metadat pro netextové dokumenty zmiňme aespoň standard MPEG-7, Mutimedia Content Description Interface [56]. Podrobný přehed popisných metadat ze naézt v [18] a [72], rozsáhý seznam internetových zdrojů na téma metadat s odkazy na různá metadatová schémata je udržován na [40] a anaýzu výzkumných témat v obasti metadat podává [28]. Havním účeem síťových popisných metadat je zepšit přesnost vyhedávání a výběru digitáních informačních zdrojů ve srovnání s tím, co dnes nabízí internetové vyhedávače (veká úpnost (reca), maá přesnost (precision)). Prvním pokusem v tomto směru by návrh RFC- 1807 (Bibiographica Format for Technica Reports) využitý např. v DIENST [19], protokou a impementaci systému distribuovaných serverů digitáních knihoven použitém v řadě projektů digitáních knihoven. Nejznámějším a patrně nejperspektivnějším formátem v této obasti je však standard Dubin Core. 5.2 Dubin Core Kasická bibiografická metadata vycházející např. ze standardu MARC jsou příiš sožitá a pravida pro jejich použití (nejčastěji Angoamerická kataogizační pravida AACR2) příiš kompikovaná na to, aby je by schopen používat i někdo jiný než jen profesionání kataogizátoři. Naproti tomu metadata generovaná automaticky interne- NÁRODNÍ KNIHOVNA, 15, 2004, č. 4 241