Tomáš Drusa

Podobné dokumenty
Evropská digitální knihovna. < Prezentace k eseji pro předmět PV070 Digitální knihovny. Tomáš Drusa

local content in a Europeana cloud

The bridge to knowledge 28/05/09

Linked Heritage. Koordinace standardů a technologií za účelem obohacení Europeany. Alena Součková

local content in a Europeana cloud

On-line katalog On-line digitální knihovna

Masarykova univerzita Fakulta informatiky. Kramerius PV070. Jan Holman

Text Encoding Initiative TEI

ZPRAVODAJ.

Otevřená data veřejné správy

manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com

API AIS ČR Technická specifikace

Zpráva o zhotoveném plnění

dodavatele rekonstrukce prostor záložního pracoviště NDA [2], tak nacházet by se mělo pravděpodobně v okolí Hluboké nad Vltavou.

Co je (staro)nového v DSpace

Význam a způsoby sdílení geodat. Ing. Petr Seidl, CSc. ARCDATA PRAHA, s.r.o.

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Systémy pro tvorbu digitálních knihoven

MODS a další metadatová schémata v oblasti digitalizace dokumentů. Pavla Švástová Moravská zemská knihovna

Doporučení OpenAIRE 1.1. Doporučení OpenAIRE pro poskytovatele dat

Vsoučasné době se v souvislosti

Digitalizace a digitální archiv Státního oblastního archivu v Třeboni

Digitální knihovny v České republice

Přenos VŠKP pomocí protokolu OAI-PMH. 1. OAI-PMH The Open Archives Initiative Protocol for Metadata Harvesting

Vysokoškolské kvalifikační práce na AMU:

DART - Europe E-theses Portal

Elektronické informační zdroje (VIKBA25)

Projekt Digitální knihovna pro šedou literaturu po prvním roce řešení

Digitální knihovny v České republice

Manuscriptorium - 10 let

Repositář audiovizuálních dokumentů Akademie múzických umění v Praze..

Pravidla OpenAIRE 1.1. Pravidla pro poskytovatele dat v informačním prostoru OpenAIRE

Univerzální vyhledávací portál jako integrační řešení pro digitální knihovny

Kooperace vysokých škol v oblasti standardizace multimediálních zdrojů

INSPIRE Open Data a Open Services. Ing. Michal Med

Sémantický web 10 let poté

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Digitalizace knihovních dokumentů. Jiří Polišenský

Manuscriptorium. Návaznosti Manuscriptoria na evropské informační prostředí. Inforum Tomáš Psohlavec, AIP Beroun s.r.o

Digitalizace a digitální knihovny v České republice

Elektronické informační zdroje (VIKBA25)

Sémantická interoperabilita v rámci iniciativ EU

Popis a zpřístupnění záznamů performativního umění - výzvy a možná řešení. Bohuš Získal, CESNET / NFA

Digitální konkordance a Registr digitalizace v Manuscriptoriu,

Dlouhodobá ochrana digitální dokumentů. Mgr. Jaroslav Kvasnica

Manuscriptorium v roce 2013

CrossRef využití DOI pro citation-linking u vědeckých publikací

Metadata. podmínka naplnění požadavků a očekávání INSPIRE. INSPIRE a GII/SDI, Praha,

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

Základy práce s informačními zdroji

bibliografických dat - Má MARC

Obsah přednášky. Představení webu ASP.NET frameworky Relační databáze Objektově-relační mapování Entity framework

PŘÍLOHA C Požadavky na Dokumentaci

Národní technické specifikace. služeb nad prostorovými daty a metadaty

Národní portál pro prezentaci digitalizovaných sbírkových objektů muzeí a galerií. Marie Vítková

Správa VF XML DTM DMVS Datový model a ontologický popis

ANL+ Veronika Ševčíková Národní knihovna ČR

Open Bibliography Data. ( Matouš Jobánek

METADATOVÝ PORTÁL A KATALOGOVÉ SLUŽBY. Štěpán Kafka

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Specifikace software pro NUŠL

ICOLC 13 th Fall Meeting

Jaká data veřejné správy ČR jsou otevřená?

DML-CZ zpracování článků z retro-born-digital období

Systém pro poloautomatické propojení textů se zdroji

DIGITÁLNÍ UNIVERZITNÍ REPOZITÁŘ. Andrea Fojtů Ústav výpočetní techniky UK v Praze

Identifikátor evropské judikatury ECLI Nejvyšší soud Úsek místopředsedy Nejvyššího soudu Oddělení dokumentace a analytiky judikatury ČR (ODAJ)

Příspěvek do sborníku. Kamrádková, Kateřina Pospíšilíková, Věra

Europeana Cloud: nové řešení pro efektivní předávání a využívání dat Petra Pejšová, Národní technická knihovna

CDS Invenio v NTK. V NTK využíváme CDS Invenio pro repozitář šedé literatury v rámci projektu NUŠL

InternetovéTechnologie

Kramerius - zpřístupnění digitálních kopií v ČR

Digitální knihovny: principy a problémy Jaroslav Pokorný MFF UK Katedra softwarového inženýrství Praha

Informační systém pro vedení živnostenského rejstříku IS RŽP

Máte to? Summon jako základní vyhledávací nástroj NTK

1. Integrační koncept

Stav implementace perzistentních identifikátorů v NK ČR a výhled do budoucna. Jan Hutař Marek Melichar Ladislav Cubr

7. října 2008, Systémy pro zpřístupňování evškp Miroslav Křipač Michal Brandejs, Jitka Brandejsová, Jan Kasprzak, Martin Stančík

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

Metadatový standard EVSKP-MS verze 1.1 pro popis VŠKP a standardy související

Příloha E.6. Záznam metadat ve schématu Dublin Core ve struktuře Resource Description Framework

OpenGrey. Petra Pejšová, NTK, ČR Christiane Stock, INIST-CNRS, Francie

České digitalizační projekty, jejich výsledky a agregace

Digitální knihovny některých zemí

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Vyhledávání a georeferencování map

The Australian Research Repositories Online to the World

Vyhledávání na Internetu

Dokumentační služba projektu Medigrid : dokumentování sémantiky lékařských dat

Technologie digitálních knihoven

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

Evropská digitální knihovna a autorské právo

Využití informačních technologií v cestovním ruchu P1

1. Úvod Vztah k OAI-PMH Terminologie

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ

Požadavky pro výběrová řízení TerraBus ESB/G2x

Role knihoven v konceptu ehealth. Mgr. Adam Kolín ÚISK

Transkript:

Esej pro předmět PV070 Digitální knihovny Evropská digitální knihovna <http://www.europeana.eu> Tomáš Drusa 9. 12. 2009 3. ročník Login: xdrusa UČO: 256167

Úvod Europeana [1] je projekt Evropské unie s cílem je vytvořit webový portál, ze kterého by bylo možné procházet digitální dokumenty všech typů vztahující se k Evropskému kulturnímu dědictví a vyhledávat v nich. Nejde tedy o digitální knihovnu v plném slova smyslu, ale o specifický typ vyhledavače, který pracuje nad centrální databází metadat objektů. Objekty samy se ale nacházejí v on-line repositářích mnoha jednotlivých evropských kulturních institucí, které jsou do projektu zapojeny. Projekt je stále ve stádiu betaverze. Spuštěn byl v listopadu 2008, kdy pracoval nad dvěma miliony digitálních objektů; plné spuštění bylo určeno na rok 2010, s cílem dosáhnout v té době deseti miliónů objektů. Zázemí Projekt je podporován Evropskou unií, která jej financuje a zaštiťuje. Z programů econtent- Plus (do r. 2008) a Information and Communications Technologies Policy Support Programme (ICT-PSP) *2+ do ní je investováno kolem 2 milionů eur ročně; další miliony jsou vyčleněny na podporu digitalizace a zpřístupňování obsahu on-line v zemích Unie. Formální sdružení stojící za Europeanou je Evropský spolek digitálních knihoven (European Digital Library Foundation), založený 8. listopadu 2007. Fakticky Europeana sídlí v prostorách Holandské národní knihovny v Haagu. Problémy se spuštěním Krátce po spuštění betaverze ve čtvrtek 20. 11. 2008 okolo 11. hodiny web Europeany zkolaboval z důvodu přílišné zátěže. Tři v Nizozemí umístěné servery, na kterých služba běžela, byly testovány na zátěž až pět milionů přístupů za hodinu a nepředpokládalo se, že by jí mělo být dosaženo. V den spuštění se ale zátěž pohybovala okolo deseti milionů přístupů v hodině, ve špičce pak dosahovala asi třinácti milionů, tj. přibližně 3700 požadavků za vteřinu. Během čtyř hodin tak byla předstihnuta návštěvnost stránek Evropské knihovny za celý rok. Ani nouzové navýšení kapacity na cca 8 milionů přístupů nepomohlo a portál musel být odstaven kvůli rozšíření serverové kapacity. Znovuspuštěna byla Europeana až koncem roku 2008, nyní se čtyřnásobnou kapacitou měla by tedy zvládat přes pět a půl tisíce požadavků za vteřinu [3]. - 1 -

Principy, myšlenky, cíle Jedním z principů je postavení prostoru metadat Europeany jako sémantického webu, ve kterém se kromě klasického katalogového vyhledávání dají sledovat i vztahy a podobnosti objektů. To by, spolu s navázáním objektů na časové a zeměpisné údaje, mělo umožnit přirozené vyhledávání pomocí otázek kdo, kde, kdy a co. Provázání má být realizováno technologií RDF a návrh je v souladu s iniciativou Open Linked Data, která se snaží přiblížit vizi Tima Berners-Leeho o budoucím webu. Vyhledávání má dva režimy: jednoduchý fulltextový, á la Google, a rozšířený, který umožňuje navolit několik parametrů a vyhledávání přesněji vymezit. Ambicí je autorů je postavit jednotný vyhledávácí jazyk, který bude sloužit jak uživatelům, tak i aplikacím třetích stran a vnitřním rutinám systému. Tato část v demoverzi nijak dobře nefunguje a i v dokumentaci se autoři vyjadřují nejasně mluví o indexování obsahů, podobnostním vyhledávání a dotazování sémantické sítě pomocí SPARQL, konkrétní popis však chybí. Zřejmě tedy jde o dosud nedořešené téma. Celý portál má být ze zadání přístupný ve všech jazycích Unie. Není ovšem dosud jisté, nakolik hluboko půjde tato mezijazykovost vývojáři prezentují čtyři navrhované úrovně nadjazykovosti portálu, od prostého překladu uživatelského rozhraní (což je současný stav portálu), přes překlad vyhledávaných termínů (nahlížený jako rozumně realizovatelný kompromis) až po úplné překládání včetně nalezených metadat či dokonce dokumentů (které je shledáno náročným a v praxi dosud nepříliš použitelným). Dalším principem je Europeana jako mocná platforma, jejíž obsah je poskytovaný a udržovaný institucemi. Europeana podporuje myšlenku sdružování primárních zdrojů pod agregační autority, například na národní úrovni, které by určily data vhodná k zařazení a předpřipravily je např. vyloučením duplicit, zjednoznačněním apod. Až tito agregátoři by pak měli svá data poskytovat do evropské digitální knihovny (mimo jiné právě na vznik takových center jsou určeny dotace programu ICT-PSP). Zejména u poskytovatelů větších, dobře spravovaných kolekcí lze data poskytovat i přímo. Základním kamenem je protokol OAI-PMH, který je od poskytovatelů vyžadován. Europeana využívá jeho možností, sklízí periodicky a inkrementálně, s občasným úplným refreshem navzdory úporné práci se mi nepodařilo zjistit na jaké intervaly jsou tyto procesy nastaveny. Systém má ovšem být schopen zpracovat celou řadu dalších používaných metadatových schémat, doplnit jejich údaji případné mezery a zejména pomocí nich vyhledávat (TEL, METS, EAD, EBU Core, Im-mix, CIDOC CRM, MODS, MARCXML, MPEG-21, CDWA, Dismarc, museumdat a Moreq2). Zde je požadováno po poskytovatelích obsahu, aby vypracovali jednoznačný popis převodu metadat ze svých systémů zápisu do ESE. Komponenta Europeany SPM poté vybere příslušný algoritmus podle zdroje příchozích dat a výstupem jsou metadata ve formátu ESE v databázi Europeany. Europeana sama podporuje celou řadu externích služeb a UDDI registr, např. protokoly OAI-PMH, XML-RPC, SRU-CQL. - 2 -

Europeana Semantic Elements a ESE XML Schema Vývojáři Europeany nazývají její vnitřní metadatové schéma Europeana Semantic Elements, zkráceně ESE [4]. Není to nic jiného než Dublin Core rozšířený o několik nových značek. Z Dublin Core je podporováno všech 15 značek, navíc je převzata značka provenance ze skupiny dcterms. Kromě těchto jsou definovány nové značky ve jmenném prostoru europeana. Source Element Element Refinement(s) Title Alternative Creator Subjekt Description tableofcontents Publisher Contributor Date created; issued Type Format extent; medium Identifier Source Langure isversionof; hasversion; isreplacedby; replaces; Relation isrequiredby; requires; ispartof; haspart; isreferencedby; references; isformatof; hasformat; conformsto Coverage spatial; tempoval Rights terms Prohnance Europeana Unstored Europeana Object Europeana Provider Europeana Type Europeana isshownby; isshownat Europeana Country Europeana hasobject Europeana Langure Europeana usertag Europeana Uri Europeana Year Europeana pracuje se čtyřmi typy digitálních objektů (europeana:type) textové, obrazové, zvukové a videa. Informace europeana:isshownat obsahuje URL stránky, na které je objekt vystaven svou domovskou institucí, zatímco isshownby odkazuje přímo na soubor s daty (obrázek, zvukový soubor apod.). Prvky object a booleovský přepínač hasobject se používají pro práci s náhledovými miniaturami. Usertag je určen pro data registrovaných uživatelů, se kterými se počítá do budoucna. Někdy by se mohlo zdát, že se metadata překrývají, ale není tomu tak např. dc:language a europeana:language. V těchto případech je striktně řečeno, co který obsahuje. Tag unstored pak slouží pro uložení informací, které nespadají do žádné škatulky. Součástí dokumentace je i detailní návod, který dělí metadata dle důležitosti a popisuje, co do kterého elementu patří [5]. Pro validaci XML je k dispozici XML Schema soubor [6] na adrese <http://www.europeana.eu/schemas/ese/ese-v3.2.xsd>. - 3 -

Obsah Při spuštění portálu autoři zveřejnili statistiky; obsah ohodnotili slovy více než dva milióny digitálních objektů. Zdaleka největším přispěvatelem byla Francie, odkud pocházela více než polovina obsahu. Následovaly Velká Británie a Nizozemí s deseti procenty, Finsko s osmi a Švédsko se sedmi. Mnoho států se pak pohybuje mezi půl procentem a procentem, a velká skupina států (kam patří i ČR) nepřispívá ani desetinu procenta [1]. V současnosti se autoři chlubí již 4.6 miliony objektů, bohužel bez podrobností. Jedinou zapojenou organizací z České republiky je Národní knihovna, a to nikoliv jako přispěvatel, ale partner a národní autorita [7]. Díla, která do Evropské digitální knihovny přispěla (např. ilustrace z Vyšehradského kodexu nebo Labyrintu světa a ráje srdce) mají jako poskytovatele uvedenu Evropskou knihovnu. Názor autora Projekt evropské digitální knihovny Europeana má veliké ambice, které se mu zatím nedaří příliš naplnit. Autoři si vytkli mnoho obtížných cílů, které budou jen s obtížemi plnit. Při čtení technických deliverables máte pocit, že vše musí být skvělé; o to tvrdší je potom realita. Současná betaverze disponuje zejména nepřívětivým vyhledáváním a špatnou češtinou, která je plná špatně užitých výrazů i prostých překlepů a působí dojmem na poslední chvíli psaného referátu. Také pochybuji, že by se snad podařilo dodržet termín a během jediného roku rozrůst kolekci na všude proklamovaných deset miliónů děl. Přesto, pokud se autorům podaří splnit jen třetinu z vytčených cílů, půjde bezesporu o úspěch. Jednotlivé myšlenky jsou přínosné a funkční, jen jak už to s vyšlapáváním nových cest bývá uvést je do praxe bude stát více dřiny, času a peněz, než se čekalo. - 4 -

Reference Rozcestník oficiální technické dokumentace projektu: <http://version1.europeana.eu/web/europeana-project/technicaldocuments/>.) Hlavní zdroj: Europeana Outline Functional Specification For development of an operational European Digital Library (Deliverable 2.5). Dostupné jako PDF na: <http://version1.europeana.eu/c/document_library/get_file?uuid=a9e29cb4-a9b3-462a-a43d- 0b480c677088&groupId=10602>. [1] MEMO/08/724. EUROPEANA Europe s Digital Library: Frequently Asked Questions. EUROPA PRESS RELEASES [on-line]. 20. listopadu 2008 [cit. 2. 12. 2009+. Dostupné jako PDF na: <http://europa.eu/rapid/pressreleasesaction.do?reference=memo/08/724&format=pdf&aged=0&l anguage=en&guilanguage=cs>. [2] econtentplus [on-line]. [cit. 2. 12. 2009+. Dostupné na: <http://ec.europa.eu/information_society/activities/econtentplus/index_en.htm>. [3] MEMO/08/733. Europeana website overwhelmed on its first day by interest of millions of users. EUROPA PRESS RELEASES [on-line]. 21. listopadu 2008 [cit. 2. 12. 2009+. Dostupné jako PDF na: <http://europa.eu/rapid/pressreleasesaction.do?reference=memo/08/733&format=pdf&aged=0&l anguage=en&guilanguage=cs>. [4] Europeana Semantic Elements specifications v3.2.1. 06/11/2009. Dostupné on-line na: <http://version1.europeana.eu/c/document_library/get_file?uuid=c56f82a4-8191-42fa-9379-4d5ff8c4ff75&groupid=10602>. [5] Metadata Mapping & Normalisation Guidelines for the Europeana Prototype v1.2. 07/08/2009. Dostupné on-line na: <http://version1.europeana.eu/c/document_library/get_file?uuid=58e2b828- b5f3-4fe0-aa46-3dcbc0a2a1f0&groupid=10602>. [6] About the ESE v3.2 XML Schema. 07/08/2009. Dostupné on-line na: <http://version1.europeana.eu/c/document_library/get_file?uuid=104614b7-1ef3-4313-9578-59da844e732f&groupid=10602>. [7] Europeana Partners (seznam partnerů a přispěvatelů portálu). *cit. 9. 12. 2009+ Dostupné na: <http://www.europeana.eu/portal/partners.html >. - 5 -

Metadata (RDF, Dublin Core): <?xml version="1.0"?> <rdf:rdf xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcq="http://purl.org/dc/documents/rec/dcmes-qualifiers- 20000711.htm"> <rdf:description rdf:about="europeana"> <dc:title> Europeana </dc:title> <dc:creator> <rdf:bag> <rdf:li> Tomáš Drusa </rdf:li> <rdf:li> <dcq:creatortype>personalname</dcq:creatortype> <rdf:value>drusa, Tomáš</rdf:value> </rdf:li> <rdf:li> <dcq:creatortype>corporatename</dcq:creatortype> <rdf:value>faculty of Informatics, Masaryk University, Brno</rdf:value> </rdf:li> <rdf:li> <dcq:creatortype>address</dcq:creatortype> <rdf:value>256167@mail.muni.cz</rdf:value> </rdf:li> </rdf:bag> </dc:creator> <dc:subject> Europeana </dc:subject> <dc:date> <dcq:datetype>created</dcq:datetype> <dcq:datescheme>w3c-dtf</dcq:datescheme> <rdf:value>2009-12-09</rdf:value> </dc:date> - 6 -

<dc:type> <dcq:typesheme>mitype</dcq:typesheme> <rdf:value>text</rdf:value> </dc:type> <dc:format> <dcq:formatsheme>imt</dcq:formatsheme> <rdf:value>application/pdf</rdf:value> </dc:format> <dc:format> <dcq:formattype>medium</dcq:formattype> <rdf:value>computerfile</rdf:value> </dc:format> <dc:format> <dcq:formattype>extent</dcq:formattype> <rdf:value>7</rdf:value> </dc:format> <dc:identifier> <dcq:sourcescheme>url</dcq:sourcescheme> <rdf:value>http://www.europeana.eu</rdf:value> </dc:identifier > <dc:language> <dcq:languagescheme>rfc3066</dcq:languagescheme> <rdf:value>cze</rdf:value> </dc:language> <dc:rights>cc by</dc:rights> </rdf:rdf> - 7 -