Digitální knihovny: principy a problémy Jaroslav Pokorný MFF UK Katedra softwarového inženýrství Praha email: pokorny@ksi.mff.cuni.cz J. Pokorný, Knihovny 01 1
Úvod digitální knihovna - od r. 1994 (elektronická knihovna, virtuální knihovna) vize: J.C.R. Licklider, 1965 rozvoj: knihy (Fox, Arms, ) časopisy (D-Lib Magazine, Int. J. on DL) konference (ACM Int. Conf. on DL) předmět výuky J. Pokorný, Knihovny 01 2
Úvod? digitální knihovna jako disciplína knihovníci: další krok v automatizaci knihoven databázisti: architektura federativních databází propagátoři hypertextu: aplikace hypertextové technologie informatici: aplikace workflow systémů propagátoři Webu: Web je digitální knihovna J. Pokorný, Knihovny 01 3
Obsah vymezení pojmu digitální knihovny komponenty digitální knihovny architektura digitální knihovny budování digitální knihovny od digitální knihovny k automatizované digitální knihovně závěr J. Pokorný, Knihovny 01 4
Vymezení pojmu DK Co je společné mnoha definicím: DK není jednotlivá entita DK vyžaduje technologii umožňující propojit několik informačních zdrojů propojení mezi více DK a informačními službami má být pro uživatele transparentní cílem budování DK je univerzální přístup k informačním zdrojům a službám J. Pokorný, Knihovny 01 5
Vymezení pojmu DK Zde: DK je řízená kolekce informací spolu s jistými službami, přičemž tyto informace jsou uloženy v digitální formě a jsou přístupné po síti Lépe: systém DK J. Pokorný, Knihovny 01 6
Umístění digitální knihovny ve výpočetním a komunikačním prostoru komunikace (průchodnost, konektivita) trajektorie v technologii digitálních knihoven: intelektuální přístup ke globálně distribuovaným informacím digitální obsah počítačové zpracování (flops) méně více (původ: S. Griffin, NSF) J. Pokorný, Knihovny 01 7
Komponenty digitální knihovny elementy data metadata procesy doména fyzické, digitální, hybridní knihovny přístup: onl-line přes knihovnu, přímo, na CD- ROM (např. ACM a IEEE Digital libraries) J. Pokorný, Knihovny 01 8
Komponenty digitální knihovny data metadata procesy objekty převedené z fyzických zdrojů kniha, časopis, video statický index, tezaurus, klasifikace, prostorové umístění akvizice dat, katalogizace, vyhledávací služby, výpůjční služby nové digitální objekty hypertextová kniha, počítačový program, vizualizace vědeckých dat, elektronický časopis dynamický index, profily uživatelů, anotace zdrojů, tématické portály, ontologie fulltextové vyhledávání, perzonalizace nabídek přírůstků, výběr pomocí agentů J. Pokorný, Knihovny 01 9
Architektura digitální knihovny klasické konceptuální schéma knihovník uživatel tvůrce informací/ vydavatel server digitální knihovny klient digitální knihovny J. Pokorný, Knihovny 01 10
Architektura digitální knihovny brány procesor pro MM/ HT SŘBD uživatelská rozhraní manažer pracovních toků vyhledávací stroje, klasifikátory, data, MM Info repozitář manažer práv přístupu J. Pokorný, Knihovny 01 11
Architektura digitální knihovny konceptuální schéma s distribuovanými informačními zdroji knihovník uživatel tvůrce informací/ vydavatel tvůrce informací/ vydavatel server digitální knihovny klient digitální knihovny tvůrce informací/ vydavatel Internet J. Pokorný, Knihovny 01 12
Architektura digitální knihovny kooperace na různých úrovních Úroveň federace Způsob kooperace striktní standardy Příklad MARC, Z39.50 sklízení dat shromažďování dat vyhledávací middelware DK nabízí základní metadata, protokol, registraci DK nekooperují; vyhledávání pomocí služeb zdroje s metadaty jsou volně zapojovány do sítě otevřené archivy vyhledávací stroje Z93.50, XML, RDF, SDLIP J. Pokorný, Knihovny 01 13
Federace autonomní DK založené na standardech a dohodách standardy a dohody: technické: formáty, protokoly, systémy ochrany, apod. obsahové: data a metadata (včetně sémantiky) organizační : přístup, služby, placení, autentizace, apod. Př.: Z39.50 a MARC federace jsou potřebné, ale velmi náročné a dost řídké J. Pokorný, Knihovny 01 14
Sklízení dat DK: poskytují stručná metadata pro každý prvek dat (např. Dublin Core) podporují jednoduchý protokol pro přístup k metadatům automatičtí ženci: sklízejí metadata automaticky budují se automatické služby Př.: Open Archives Initiative J. Pokorný, Knihovny 01 15
Shromažďování dat služby pro otevřený přístup k informacím dokonce i když jejich poskytovatelé se nedohodnou na standardech vyhledávací robot shromažďuje informace, které jsou otevřené k přístupu a indexuje je možné jsou automatizované služby (např. ResearchIndex) Př.: Internet Archive, Google J. Pokorný, Knihovny 01 16
Vyhledávací middleware uživatel ontologie dotaz odpověď mediátor 3 ontologie 3 mediátor 1 mediátor 2 ontologie 1 ontologie 2 repozitář 1 repozitář 2 Z 39.50, XML, RDF informační zdroj 1 informační zdroj 2 SDLIP J. Pokorný, Knihovny 01 17
Model 5S Societies Scenarios Spaces Structures Streams J. Pokorný, Knihovny 01 18
Model 5S Společenství: interakce lidí (, počítačů) Scénáře: služby, funkce, operace, metody Prostory: domény + omezení (např. vzdálenost, sousedství): 2D, vektory, pravděpodobnost Struktury: relace, stromy, uzly a hrany Proudy: posloupnosti prvků (text, audio, video, síťový provoz) J. Pokorný, Knihovny 01 19
5S: kombinace Společenství + Scénáře = uživatelský model Společenství + Scénáře + Prostory = uživatelské rozhraní Proudy + Struktury = značkování Proudy + Struktury + Scénáře = objekt Struktury + Scénáře = SŘBD J. Pokorný, Knihovny 01 20
DK zkracuje řetěz mezi autorem a čtenářem autor editor Recenzent vydavatel A&I akvizice knihovna čtenář J. Pokorný, Knihovny 01 21
Přechod od klasické knihovny k digitální vybudování technické infrastruktury (sítě, technika) konstrukce digitálních kolekcí (skenování, tvorba metadat, popis zdrojů a jeho kódování, ontologie), přehodnocení některých klasických knihovnických služeb, případně zavedení zcela nových, které vyžaduje nový způsob zpracování. s technologickými problémy se spojují i problémy metodologické a ryze informatické Nové standardy: DC, XML, RDF Další problémy: jména digitálních objektů J. Pokorný, Knihovny 01 22
Absorbování nových forem reprezentace informací do DK objevování informací pomocí Webu: konkurence knihovně nebo její nový element? anonymní uživatel (knihovny): Dříve jsem používal Inspec. Nyní místo toho používám Google. proč? širší záběr (šedá literatura, multimediální informace) lepší řazení bezprostřední přístup k informacím (např. otevřený přístup k publikaci) J. Pokorný, Knihovny 01 23
Absorbování nových forem reprezentace informací do DK webové vyhledávací služby mají mnoho slabin -- výběr je velmi libovolný -- indexování je nahrubo -- žádné řízení autorit -- detekce duplicit slabá -- nízká přesnost (ale vysoká úplnost!) mnoha uživatelům to vyhovuje... J. Pokorný, Knihovny 01 24
Absorbování nových forem reprezentace informací do DK webové vyhledávání: výběr každé webové stránky indexování každého slova opakuje se každý měsíc rysy: hrubá síla jednoduché algoritmy + škálovatelná výpočetní kapacita J. Pokorný, Knihovny 01 25
Absorbování nových forem reprezentace informací do DK archivace a konzervace Př.: Internet Archive měsíčně, webový robot sbírá každou otevřenou webovou stránku včetně obrázků webové stránky jsou konzervovány pro příští generace soubory jsou dostupné akademickým institucím Problémy: dynamika Webu (poločas rozpadu webové stránky je 2 roky) J. Pokorný, Knihovny 01 26
Absorbování nových forem reprezentace informací do DK vazby pomocí odkazů Př.: ResearchIndex (CiteSeer, ScienceIndex) tvorba: plně automatická otevřený přístup ke všemu z informatiky služba zdarma kontrast k Web of Science tvorba: kombinace automatických prostředků a odborníků omezený počet časopisů velmi drahé J. Pokorný, Knihovny 01 27
Od DK k automatizované digitální knihovně Změny: v kvalitě knihovnických služeb v kvantitě knihovnických služeb nové ekonomické modely pojem automatizované digitální knihovny J. Pokorný, Knihovny 01 28
Vědecké knihovny jsou drahé Každá z těchto knihoven stojí více než skenování všech jejich knih J. Pokorný, Knihovny 01 29
Vědecké knihovny jsou drahé materiál knihovny budovy a zařízení personál J. Pokorný, Knihovny 01 30
Potenciál digitálních knihoven otevřený přístup materiál budovy a zařízení personál J. Pokorný, Knihovny 01 31
4 ekonomické modely Otevřený přístup Příklad: televizní vysílání reklama externí financování komerční televize veřejno-právní televize Omezený přístup předplatné zaplať za použití kabelová televize zaplať za pořad J. Pokorný, Knihovny 01 32
Příklady staré knihy v tisku (předplatné) Medline (zaplať za použití) časopisy (předplatné) Westlaw (zaplať za použití) Inspec (předplatné) nové Amazon.com (reklama) Grateful Med (externí) archivy eprint (externí) Legal Information Institute (externí) Google (reklama) J. Pokorný, Knihovny 01 33
Náklady na automatizované digitální knihovny společnost Google 5.5 milionů vyhledávání denně 85 lidí (polovina technický personál, 14 má PhD v informatice) 2,500 PC pod Linuxem, s 80 terabytes na discích Internet Archive 7 lidí + podpora od Alexa J. Pokorný, Knihovny 01 34
O budoucnosti otevřeného přístupu Dominantní silou bude tlak autorů, který zdůrazňuje spíše otevřený přístup než uzavřený. bude působit více ekonomických modelů současně otevřený přístup bude možná ke všem vědeckým či odborným informacím nejčastější ekonomický model: informace budou publikovány organizací, která je produkuje Organizace, které budou produkovat informace budou univerzity, konference, laboratoře, společnosti atd. J. Pokorný, Knihovny 01 35
Potenciál automatizovaných digitálních knihoven otevřený přístup? materiál buildings počítače & & facilities sítě personál J. Pokorný, Knihovny 01 36
Nové role vědeckých knihoven Akademické knihovny a asociace by měly poskytovat podporu pro otevřený přístup k informacím: -- zakládat standardy pro kvalitu výstupů výzkumu -- udržovat lokální archivy -- dlouhodobě pečovat o digitální informace a chránit je Důsledek: obnovení primární funkce - být vzdělávací institucí J. Pokorný, Knihovny 01 37
6 trendů místo závěrů Z konference Asociace amerických knihoven, 2000: Jak zajistit věrohodnost a prestiž digitálních informačních zdrojů? Jak prohledávat digitální kolekce, které jsou ve více jazycích? Jak integrovat digitální kolekce, aby samy poskytovaly uživateli další nabídku možností vztažených k jeho problému? Jak perzonalizovat služby podle profilu a zájmu uživatele? Jak organizovat, aby informace samy hledaly svého uživatele? J. Pokorný, Knihovny 01 38