Ochrana a trvalé zpřístupnění webových zdrojů jako součásti národního kulturního dědictví

Rozměr: px
Začít zobrazení ze stránky:

Download "Ochrana a trvalé zpřístupnění webových zdrojů jako součásti národního kulturního dědictví"

Transkript

1 Ochrana a trvalé zpřístupnění webových zdrojů jako součásti národního kulturního dědictví Průběžná zpráva realizace projektu v roce 2008 Jméno řešitele: Ing. Libor Coufal Národní knihovna České republiky Klementinum Praha listopadu 2008

2 A KONSTATAČNÍ ČÁST... 3 A.1 REŠERŠE... 3 A.2 SOUČASNÝ STAV VE SVĚTĚ A V ČR... 4 A.3 VSTUPNÍ DATA A CÍL... 7 B ANALYTICKÁ ČÁST... 9 B.1 VLASTNÍ ŘEŠENÍ... 9 B.1.1 VÝZKUM APLIKACE METODY KONSPEKT PRO VYHLEDÁVÁNÍ ZDROJŮ V ARCHIVU... 9 B.1.2 LOKALIZACE A TESTOVÁNÍ NOVÝCH (VERZÍ) SW NÁSTROJŮ B.1.3 VÝZKUM MOŽNOSTI CELOPLOŠNÉHO SKLÍZENÍ BOHEMIKÁLNÍCH ZDROJŮ UMÍSTĚNÝCH MIMO DOMÉNU.CZ B.1.4 MOŽNOSTI PRŮBĚŽNÉ ANALÝZY SKLIZNĚ B.1.5 PODKLADY PRO AKTUALIZACI LEGISLATIVY K POVINNÉMU VÝTISKU SÍŤOVÝCH PUBLIKACÍ B.2 PŘÍNOS ŘEŠITELŮ B.3. POSUN ZNALOSTÍ C NÁVRHOVÁ ČÁST C.1 VÝSLEDKY ŘEŠENÍ C.2 ZÁVĚR C.3 NÁVRHY OPATŘENÍ D RESUMÉ A KLÍČOVÁ SLOVA E.1 RESUMÉ A KLÍČOVÁ SLOVA V ČEŠTINĚ E.2 RESUMÉ A KLÍČOVÁ SLOVA V ANGLIČTINĚ /ABSTRACT AND KEY WORDS IN ENGLISH/

3 A KONSTATAČNÍ ČÁST A.1 Rešerše Publikační a přednášková činnost v roce 2008: A digital archive of Czech documents published on internet. Praha : Národní knihovna ČR, s. Leták. CELBOVÁ, Ludmila, et al. Archivace webu. Praha : Národní knihovna ČR, 2008 [vyjde v průběhu prosince]. CELBOVÁ, Ludmila. Český web a povinný výtisk jde to spolu dohromady? Knihovna plus [online]. 2008, č. 1 [vyjde v průběhu prosince]. Dostupný z WWW: < ISSN COUFAL, Libor. Living web archives. In: Knihovny současnosti 2008 [online]. Brno : Sdružení knihoven ČR, 2008 [cit ]. Dostupný z WWW: < Digitální archiv českých dokumentů publikovaných v prostředí sítě Internet. Praha : Národní knihovna ČR, s. Leták. GRUBER, Lukáš. Creative Commons a česká legislativa. In: Creative Commons konference a anti-copyright hysteria.sk. Praha : DigiLab AVU, 2008 [cit ]. Dostupný z WWW: < GRUBER, Lukáš. Creative Commons a šedá literatura. In: Seminář ke zpřístupňování šedé literatury 2008 [online]. Brno : Vysoké učení technické v Brně, 2008 [cit ]. Dostupný z WWW: < GRUBER, Lukáš. Licence Creative Commons a perspektiva jejich zavedení do českého prostředí. Ikaros [online]. 2008, roč. 12, č. 3 [cit ]. Dostupný z WWW: < URN-NBN:cz-ik4612. ISSN GRUBER, Lukáš. Úvod k licencím Creative Commons. In: Seminář IVIG 2008 [online]. Praha : Odborná komise pro informační vzdělávání a informační gramotnost na vysokých školách, 2008 [cit ]. Dostupný z WWW: < GRUBER, Lukáš; SÍBEK, Tomáš. Přístup k národnímu webovému archivu. In: 9. konference Archivy, knihovny, muzea v digitálním světě Praha : Svaz knihovníků 3

4 a informačních pracovníků České republiky, 2008 [cit ]. Dostupný z WWW: < HUTAŘ, Jan; MELICHAR, Marek; CUBR, Ladislav. Persistentní identifikátory v NK rok poté? In: Knihovny současnosti 2008 [online]. Brno : Sdružení knihoven ČR, [cit ]. Dostupné z WWW: < HUTAŘ, Jan; MELICHAR, Marek; CUBR, Ladislav. Stav implementace perzistentních identifikátorů v NK ČR a výhled do budoucnosti. In: 1. ročník semináře zaměřeného na problematiku uchovávání a zpřístupňování šedé literatury, [online]. Praha : Státní technická knihovna, 2008 [cit ]. Dostupné z WWW: < ISSN VLČEK, Ivan. Identification and archiving of the czech web outside the national domain. In: IWAW : 8th international web archiving workshop : Aaarhus, Denmark, 18th & 19th September 2008 [online]. Aaarhus : IWAW, 2008 [cit ]. Dostupný z WWW: < WebArchiv : [příspěvek sestříhaný z rozhoru s Liborem Coufalem]. Odpolední Radiožurnál s Hankou Sháněčovou [rozhlasový pořad] Dostupný z WWW: < WebArchiv ČR : [rozhovor s Liborem Coufalem a Petrem Krčmářem]. Třetí dimenze [rozhlasový pořad] Dostupný z WWW: < A.2 Současný stav ve světě a v ČR V roce 2008 se řešitelé projektu aktivně zapojili do účasti na dvou významných výzkumných aktivitách s mezinárodní účastí. Národní knihovna ČR je od roku 2007 členem mezinárodního konsorcia IIPC. V roce 2008 se zástupci NK ČR podíleli v rámci tohoto konsorcia zejména na činnosti v pracovní skupině Preservation, která se zaměřuje na doporučení pro trvalé uchování webových archivů vycházející z existujících standardů pro uchování digitálních dokumentů. Vzhledem k rozmístění členů pracovní skupiny mezi několika kontinenty je velmi obtížné najít vhodný způsob komunikace. V roce 2008 se podařilo zorganizovat dvě pracovní setkání, jedno v rámci dubnového výročního zasedání IIPC v Canbeře v Austrálii a druhé při příležitosti konference ipres v říjnu v Londýně. Mimo to se v průběhu roku uskutečnilo několik telekonferencí. Hlavním výstupem činnosti této nové pracovní skupiny bylo stanovení sedmi prioritních témat pro další práci: diskuze cílů uchování, včetně filozofických otázek, akceptovatelné úrovně ztráty a vztahu k institucionálním akvizičním politikám, rozvoj praktických znalostí a schopností personálu v oblasti uchování, 4

5 vhodnost jednotlivých strategií pro uchování, jako jsou konverze formátů a emulace, pro webové archivy, monitorování vývoje a stavu technického prostředí webu, problematika dlouhodobého uchování v souvislosti s novým archivačním formátem WARC, metadata pro dlouhodobé digitální uchování, pracovní postupy v oblasti dlouhodobého uchování. Národní knihovna ČR se spolu s několika dalšími institucemi zapojila do práce na dokumentaci technologických závislostí na webu. V rámci tohoto pracovního úkolu bude vytvořen datový model pro popis a ustanoven mechanismus pro pravidelné monitorování technického prostředí webu. Výsledky monitoringu budou volně k dispozici a dlouhodobě spravovány, aby mohly sloužit jako základ pro následné rozhodování a konkrétní kroky při dlouhodobém uchování. Monitoring prostředí bude zahrnovat: běžné souborové formáty na webu, formáty pro archivaci webu, webové prohlížeče a jejich závislosti, závislosti mezi prohlížeči a formáty. V rámci tohoto pracovního úkolu budou prozkoumány existující přístupy k modelování technických prostředí a jejich závislostí, jako je např. GDRF nebo PRONOM. Pokud se tyto přístupy ukáží jako užitečné, budou využity a popřípadě rozšířeny. Výsledky monitoringu budou nezávislé na zvolené strategii uchování a umožní podporu jak emulace, tak migrace formátů. Kromě jiného budou také identifikovat formáty, vyskytující se běžně ve webových archivech budovaných na konci 20. století, které jsou nedostatečně podporovány nebo vykazují jiné problémy, a budou obsahovat doporučení pro popis jejich závislostí. První testovací monitoring proběhne v roce Na výročním zasedání IIPC v Canbeře bylo jedním z velmi diskutovaných témat možnost sklízení webu mimo národní doménu (tzv. top level domain TLD). Ukazuje se, že se jedná o velmi aktuální téma, zejména pro národní knihovny provádějící celoplošné sklizně svých národních domén. Národní knihovna ČR se touto tématikou zabývá již několik let a je pravděpodobně první institucí, která se v této oblasti může pochlubit praktickými výsledky. V letošním roce byl ukončen vývoj první verze přídavného modul Heritrixu WebAnalyzer a byl vyzkoušen v rámci první testovací sklizně mimo doménu.cz s velmi uspokojivými výsledky. Tyto výsledky byly v září prezentovány na každoročním semináři International Web Archiving Workshop (IWAW) 2008 v dánském Aarhusu. Prezentace se setkala s velkým ohlasem a Národní knihovna ČR byla oslovena několika zájemci o spolupráci a také s nabídkou na vedení mezinárodního projektu v rámci IIPC v roce

6 Druhou z těchto aktivit je účast na projektu Living Web Archives (LiWA). [1] Jde o mezinárodní evropský výzkumný projekt zaměřený specificky na archivaci webu. Projekt je financován Evropským společenstvím z prostředků 7. rámcového programu. Doba trvání projektu je 36 měsíců, od února 2008 do ledna Projektu LiWA se účastní 8 partnerů, výzkumných institucí a webových archivů, z pěti evropských zemí: Velké Británie, Maďarska, Německa, Nizozemska a České republiky. Koordinátorem projektu je Leibniz Universität Hannover, Das Forschungszentrum L3S [2] (Německo). Dále se projektu účastní Max-Planck-Institut für Informatik [3] (Německo), Magyar Tudományos Akadémia, Számítástechnikai És Automatizálási Kutatóintézet [4] (Maďarsko), European Archive [5] (Nizozemsko), Hanzo Archives Ltd. [6] (VB) a Stichting Nederlands Instituut voor Beeld en Geluid [7] (Nizozemsko). Za Českou republiku se projektu kromě Národní knihovny ČR účastní také druhý z partnerů projektu WebArchiv, Moravská zemská knihovna. Hlavní motivací projektu je neustálý vývoj a zdokonalování technologií používaných pro tvorbu webových stránek. Nástroje pro sklízení webu byly vyvinuty v jeho počátcích v 90. letech 20. století a byly založeny na tehdejším stavu technologií, zejména na extrakci odkazů z prostého HTML. Současné webové stránky ale ve stále větší míře využívají moderní technologie, jako jsou např. databáze, skriptovací jazyky, Flash nebo multimédia. Vývoji těchto technologií je nutné permanentně přizpůsobovat harvestery, aby bylo možno moderní webové stránky sklízet v patřičné kvalitě. Ovšem s tím, jak se webové technologie stávají stále sofistikovanějšími, narážejí harvestery na skryté hranice svých technických možností. Prostá evoluce již není dostačující a je třeba vyvinout nové, revoluční přístupy ke sklízení webu. Druhým důvodem pro vznik LiWA je to, že webové archivy jsou budovány s dlouhodobou perspektivou, typicky minimálně v řádu několika desetiletí. Během takto dlouhého období je pochopitelně logické očekávat značný posun ve společnosti, zejména pokud jde o vývoj jazyka, respektive používané terminologie. To bude mít samozřejmě vliv na používání webových archivů budoucími uživateli. Aby byla zachována jejich dlouhodobá smysluplná využitelnost, musí webové archivy začít průběžně podchycovat a dokumentovat sémantickou a terminologickou evoluci

7 Předmětem výzkumu projektu LiWA jsou tyto čtyři oblasti: Kompletnost obsahu webových archivů pokročilá extrakce odkazů (jiných než HTML, např. z java skriptu), archivace skrytého webu, automatické vyplňování webových formulářů, sklízení jiných protokolů než http (např. protokoly pro streamované video). Filtrace nepodstatného obsahu (šumu) identifikace a redukce spamu, obcházení webových pastí, detekce změn a duplikátů. Časová koheze zlepšení temporální skladby archivu pomocí metody datování, identifikace, analýza a korekce časových mezer, zajištění konzistence v rámci federovaných webových archivů. Sémantický vývoj a dlouhodobá interpretovatelnost zajištění dlouhodobé využitelnosti webových archivů podchycením terminologické a sémantické evoluce. Cílem LiWA je vyvinout novou generaci technologií pro archivaci webu, která zvýší kvalitu webových archivů a jejich dlouhodobou využitelnost. To se projeví v dlouhodobé interpretovatelnosti, zvýšené důvěryhodnosti a rozmanitosti obsahu webových archivů. Výstupem projektu bude sada inovativních služeb pro sklízení, uchování a obohacení obsahu webu, dále 2 demo aplikace (streaming a sociální web) a integrované referenční open source řešení pro archivaci webu kompatibilní s výsledky práce IIPC. A.3 Vstupní data a cíl Rámcovým cílem projektu je hlouběji se zabývat aspekty ochrany a trvalého zpřístupnění webových zdrojů, a to jak z hlediska vývoje informačních technologií, tak i z hlediska legislativního. Tento cíl má směřovat k efektivnímu zpřístupňování online zdrojů jak prostřednictvím sekundárních souborů informací, tak i přímým přístupem do primárních zdrojů uložených v digitálním archivu. Výzkum byl v roce 2008 zaměřen na následující oblasti: Výzkum aplikace Konspektu pro vyhledávání zdrojů v archivu. Lokalizace a testování nových (verzí) SW nástrojů. Výzkum možností sklízení bohemikálních zdrojů umístěných mimo doménu.cz. Výzkum možností optimalizace dohledu nad probíhajícími sklizněmi. Výzkum je postaven na práci s daty uloženými do archivu webu v letech , tzn. s daty z celoplošných sklizní z let 2001, 2002, 2004, 2005, 2006 a 2007 a z výběrových i tematických sklizní celkový objem vstupních dat pro letošní rok 8,8 TB. Do roku 2007 byl roční nárůst dat značně limitován kapacitou úložného prostoru používaného hardware. Od roku 2007 jsme počítali s využitím kapacity datového úložiště, pořízeného Národní knihovnou ČR z grantových prostředků Ministerstva informatiky ČR. To byl také jeden z důvodů razantního rozšíření počtu výběrových sklizní během roku. Dále byly od roku 2008 plánovány dvě celoplošné sklizně české národní domény.cz ročně. Bohužel, ani v roce 2008 se nepodařilo včas zajistit dostatečnou kapacitu úložiště. 7

8 Ke dni podání této zprávy činí celkový objem nekomprimovaných dat WebArchivu po provedení osmi výběrových sklizní cca 11 TB, přičemž do konce roku 2008 zbývá uskutečnit ještě jednu výběrovou a jednu celoplošnou sklizeň. Vzhledem k tomu, že výzkum v oblasti archivace webu je náročný na kapacitu hardwaru (jak úložnou, tak výpočetní), a ani testování se neobejde bez testů na reálných (tedy extrémně velkých) objemech dat, byly v letošním roce zakoupeny dva servery s velkým vlastním diskovým prostorem (24x 1 TB hrubé úložné kapacity v každém serveru). Jeden z těchto serverů nahradil nejstarší z nyní používaných serverů projektu, je umístěn v Brně a používán primárně k testování sklízení webu. Druhý je pak umístěn v budově depozitáře Národní knihovny ČR v Hostivaři a bude sloužit především k testování fulltextové indexace velkých objemů dat, zároveň ale i k dočasnému ukládání dat pořízených na druhém serveru v Brně v okamžicích, kdy není dostatek volného úložného prostoru na centrálním datovém úložišti. V současné době jsou již k dispozici i 1,5 TB disky testované k použití v diskových polích a dá se předpokládat, že jejich kapacity dále porostou a bude možné v případě potřeby relativně nízkým nákladem zdvojnásobit úložnou kapacitu obou serverů. Při takto velkých objemech dat ovšem stoupá riziko dvojího selhání (selhání jednoho disku v době, kdy probíhá zotavení systému z výpadku jiného disku stejné RAID skupiny). Proto byl na obou systémech realizován RAID6 (2x12 disků) a celková úložná kapacita každého serveru je tak cca 20TB. 8

9 B ANALYTICKÁ ČÁST B.1 Vlastní řešení B.1.1 Výzkum aplikace metody Konspekt pro vyhledávání zdrojů v archivu V loňském roce byl vyvinut nástroj řešící zpřístupnění webových zdrojů podchycených v knihovnickém systému Aleph formou předmětově organizovaného rozcestníku, strukturovaného podle metodiky Konspekt. Jde o nástroj využívající OAI-PMH rozhraní Alephu k získávání záznamů o webových zdrojích ve formátu MARC. Právě OAI-PMH rozhraní na straně Alephu však bylo nejproblematičtější částí nasazení tohoto nástroje. Situaci nakonec vyřešil přechod Alephu na verzi 18 a s tím spojený přechod na zcela jinou implementaci OAI data provideru. Obr. 1 Oborové členění zdrojů dle Konspektu XML soubor vytvořený po stažení aktualizovaných dat prostřednictvím OAI je pomoci XSL šablony posléze transformován na XHTML strukturu, která je použita ve webové prezentaci projektu. Na stránce je použita funkcionalita skrývání jednotlivých kategorií a plynulého přecházení mezi nimi, což je zajištěno kombinací JavaScriptu a kaskádových 9

10 stylů. Zobrazení hlavních kategorií navíc ukazuje počet zdrojů v jednotlivých kategoriích a ukazuje tak například že nejméně početná je nyní kategorie Matematika a nejvíce je zastoupena kategorie Geografie, geologie. Dokončený nástroj je v ostré verzi provozován na adrese a jeho kód je odladěn v nejběžnějších verzích internetových prohlížečů. B.1.2 Lokalizace a testování nových (verzí) SW nástrojů Průběžně probíhalo testování a implementace nových verzí softwarových nástrojů. Heritrix Heritrix zůstává i nadále klíčovým nástrojem pro sklízení webu. Nejvýznamnější z našeho pohledu je samozřejmě to, že došlo ke schválení formátu WARC coby ISO standardu. Nyní již existuje finální verze textu normy DIS (popisující WARC 0.18, která ale bude přejmenována na 1.0). Ta řeší poslední připomínky, ale je již schválena všemi členy ISO. V letošním roce byly postupně testovány tři verze Heritrixu: Verze Přidána podpora WARC formátu (umožňuje uchovávání více metadat, informace o deduplikaci apod.). Tato podpora přešla ze stavu Experimental do stavu Final a to pro verzi WARC Přidán modul TopmostAssignedSurtQueueAssignmentPolicy. Tento modul umožňuje řazení jednotlivých front pro sklízení podle nejvyšší domény dané země. Zlepšení výstupních zpráv vhodných k analýze. Odstraněna chyba OutOfMemory (vyčerpání paměti), která vznikala při dlouhých frontách (zásadní při celoplošných sklizních). Verze WARC podpora verze Modul extrahující odkazy ze souborů typu Flash nyní podporuje velikost větší než 64KB. Lepší zpracování odkazů generovaných JavaScriptem pokud se v řetězci nachází " je s odkazem zacházeno jako s absolutním, místo relativního. Podpora direktiv "Crawl-Delay" a "Allow" v souboru, který omezuje přístup robotů na stránku (robots.txt). Heritrix v2 Nová vývojová větev Heritrixu přináší tyto zásadní změny: Striktní oddělení sklízecího robota a ovládacího rozhraní (to umožňuje sklízet na více strojích a ovládat vše z jednoho webového rozhraní). Nový formát a systém práce se soubory obsahující nastavení robota (převzato z projektu Spring), umožňuje dynamickou konfiguraci. Jemnější granularita při nastavení specifických pravidel pro domény a adresy. 10

11 Nový systém řazení front, který porovnává nastavenou důležitost tu je možné přiřadit na různých úrovních objektů. Nová vývojová větev sebou přínáší i řadu změn, které budou znamenat ruční práci při převádění souborů s nastavením ze starší verze. Druhým nejistým faktorem je i formát tohoto souboru, který se podle okolností bude měnit ve verzi 2.2. Tím pádem je v tuto chvíli efektivnější počkat na ustálení nové verze, protože práce, která by se nyní musela investovat je větší, než konečný přínos pro projekt. WebCurator Nadále sledujeme vývoj systému Web Curator Tool, který vznikl ve spolupráci Národní knihovny Nového Zélandu a Britské knihovny. Verze Přidána a upravena především funkcionalita týkající se správy uložených smluv, vydavatelů a celkově upraveno uživatelské rozhraní. Verze Integrován Heritrix a Wayback 1.2. Vylepšena práce s výstupními logy. Opraveno několik zásadních chyb (i bezpečnostních děr). Netarchive Suite Jak již bylo zmíněno v loňském roce, je tento dánský systém našim podmínkám mnohem blíže a stává se základem nové, zcela přepracované verze nástroje WA Admin. Verze Podpora přístupu skrze protokol HTTPS (zlepšení bezpečnosti). Podpora TLD složené ze dvou částí (např. co.uk). Oddělení Heritrixu, nyní je kontrolován skrze JMX lze ho tedy ovlivnit i z jiné aplikace. Verze Podpora správce zabezpečení (konfigurovatelný skrze conf/security.policy a zvyšující bezpečnost především archivovaných souborů). Zjednodušené skripty pro instalaci je méně časově náročné instalovat software na více strojů. Nahrazení původních profilů pro Heritrix profily, které používají modul DecidingScope (nynější standard pro Heritrix viz výše, je možné využít WebAnalyzer). Přidána možnost nastavení datové velikosti tematické sklizně (např. 500MB na množinu semínek). Odstraněn limit 2GB souborů a OutOfMemory vyjímek při dlouhých frontách. 11

12 WA Admin v2.0 Tento systém je vyvíjen jako náhrada stávajícího systému pro správu zdrojů a vydavatelů, vyvinutého a udržovaného v minulých letech. Současný systém již nevyhovuje ani technickým, ani obsahovým požadavkům. Došlo proto k přepracování datového modelu a systém by měl umožňovat i propojení s Netarchive Suite. Ten je napsán jako sestava nezávislých modulů, které spolu komunikují pomocí JMS zpráv, neměl by proto být velký problém propojit tuto aplikaci s (WAA 2.0). Principielně bude funkcionalita WAA oddělena od NS a po vytvoření nového zdroje a nadefinování příslušných pravidel pro sklízení (podle API) bude tento celek zaslán a vložen do NS přes JMS kanál. WA Admin v2.0 je zatím ve fázi vývoje, další informace včetně obrázku datového modelu viz příloha a Wayback Během roku 2008 došlo k vydání dvou významných oficiálních verzí Waybacku a to konkrétně verze 1.2 a v závěru roku také nové verze 1.4. Mezi hlavní novinky ve verzi 1.2 patřila podpora WARC formátu a zpracování nekoprimovaných souborů. V souvislosti s WARC formátem byl přidán experimentální mód zpracování deduplikovaných záznamů. Ty jsou označeny v průběhu sklízení jako duplicitní pomocí speciálního pluginu do Heritrixu. Kompletně přepracováno bylo i parsování sklizených URL, které je možno v této verzi plně konfigurovat a koncipovat jako samostatný plugin. Velmi užitečnou funkcí, kterou vývojáři Internet Archive přidali, je zlepšení přehrávácího módu, konkrétně vykreslování javascriptu, rozdělení stránky použitím komponent a také vkládání kaskádových stylů. Spolu tímto bylo vyřešeno také mnoho chyb, které jsou detailněji popsány v release notes. K zlepšení celkového zobrazení výsledku přispěl i tzv. kalendářový pohled, ve kterém má uživatel zobrazeny výsledky podobně jako originální Wayback na stránkách IA. Tento pohled je možné do stránek přidat buď jako javascript nebo non-javascript komponentu. Stejně tak překládání URL je možné provádět na straně serveru a ne pomocí javascriptu, což vede ke zkvalitnění přepisu odkazů. V polovině roku se podařilo verzi 1.2 upravit a nasadit produkčně pro WebArchiv.cz. Zároveň byly v naší spolupráci opraveny některé zásadní chyby, které se týkaly jednak lokalizace aplikace (zpracování UTF-8, diakritika v požadavku, apod.) a také přenosových hodnot v http protokolu, tyto opravy vyústily mimo jiné do vydání mezi-verze Spolu s touto verzí byl také otestován distribuovaný přístup k ARC souborům. Tím, jak jejich počet postupně roste, bude nutné řešit jejich uložení napříč několika servery. Jak se ukázalo, je tento přístup v technické rovině poměrně bezproblémový, čili jej bude možné v budoucnu snadno nasadit. 12

13 Další oficiální vydání Waybacku 1.4 přínáší četné změny, které jsou spojeny s migrací předchozích verzí. V této verzi došlo ke kompletnímu přepsání modulu pro generování výsledných stránek a také modulu pro přístup k samotným souborům. K rozšíření došlo také u modulu řízení práv, kde je možné lépe kontrolovat přístup k jednotlivým komponentám. Obecně lze říci, že se tato verze ve velké míře zaměřila na refaktoring stávajícího kódu a snaží se tak zvýšit efektivitu a předejít mnoha chybám. Velmi významnou součástí této verze je také konečně česká lokalizace, která je oficiálně zahrnuta. V současné době je verze 1.4 pouze v testování, nicméně tato verze bude v dalším období upravena pro WebArchiv a nasazena do produkčního prostředí. Wera Pro fulltextové vyhledávání a zobrazování dokumentů se dříve používalo webové aplikace Wera. Mezi její klady patří možnost zobrazení časové osy daného dokumentu, která je už dnes obsažena i ve Waybacku. Wera ale není aplikace, která si fulltextový index sama vytváří. Ten se musí vytvořit pomocí nástroje NutchWAX, popsaného níže. K jejím slabým stránkám však patří problémy s javascriptem a kódováním u některých stránek. Její vývoj byl již ukončen a nadále se přechází k Waybacku jako vyhledávacímu a zpřístupňujícímu softwaru. Přes původní předpoklady se proto WERA nebude nadále používat a další výzkum se soustředí na možnosti integrace fulltextového indexu přímo do systému Wayback. NutchWAX Tento nástroj je pouhou nadstavbou modulárního systému Nutch (software vyvinutý pro stahování a zpracování velkého množství stránek/dokumentů). NutchWAX umí fulltextově indexovat dokumenty uložené v tzv. ARC formátu (archivace probíhá nástrojem Heritrix) a v nové verzi umí již zpracovávat i formát WARC. Při indexaci používá nástroj Hadoop, který je popsán níže. Indexace spočívá v přidání specifických metadat do indexovaných dokumentů. Ty jsou využívány při vyhledávání dokumentů tzv. query-nutchwax pluginem. Další důležitý plugin je urlfilter, který umí vyloučit dokumenty na základě URL a času při importu, což je první fáze indexace. NutchWAX rovněž podporuje velké množství druhů dokumentů. Např. HTML, javascript, pdf, dokumenty MS Office (Word, Excel, Powerpoint), zip, rtf ale i mp3. Samozřejmostí jsou textové dokumenty. Celý nástroj je široce škálovatelný. Pro jeho konfiguraci je však velice užitečné znát konfigurační možnosti Nutche. Hadoop Tento nástroj plní funkci distribuovaného filesystému. Umožňuje zpracovávat velké množství dat na více stanicích současně v tzv. clusteru. Ten se skládá ze dvou druhů stanic: masters a slaves. 13

14 Master tyto stanice představuje tzv. namenode, který řídí filesystém a přístup k souborům (operace open, close, rename, ), a jobtracker, který plánuje a distribuuje úlohy na jednotlivých stanicích (slaves). Slaves sem patří tzv. datanode řídící úložiště na slavech a tasktracker vykonávající jednotlivé úlohy zadávané jobtrackerem. Samotný Hadoop je velmi konfigurovatelný. Za jediný větší problém lze považovat jen to, že připojení mezi stanicemi se vytváří pomocí ssh protokolu a nepředpokládá se žádné zadávání hesla nebo certifikátu. Je nutné počítat i s tím, že komunikace mezi stanicemi běží na vyhrazených portech a musí se s ní při sestavování bezpečnostní politiky počítat. Na tento fakt jsme při řešení projektu naráželi v situacích, kdy jsme se pokoušeli takový cluster zprovoznit na větším množství počítačů počítačové studovny Masarykovy univerzity, kde právě komunikace přes různé firewally byla největší překážkou. B.1.3 Výzkum možnosti celoplošného sklízení bohemikálních zdrojů umístěných mimo doménu.cz Modul Heritrixu WebAnalyzer, který byl veřejně představen na IWAW 2008 v Aarhusu, je již hotový a funkční v rámci určitých omezení, identifikovaných během vývoje a testů v Heritrixu. Je nutné zjednodušit používání modulu WebAnalyzer tak, aby i neznalý uživatel byl schopný jednoduše a rychle spustit a nakonfigurovat modul pro své potřeby. Jako nejlepší řešení se nabízí integrace ovládání tohoto modulu do ovládacího rozhraní Heritrixu. Možnosti této integrace právě zkoumáme, a pokud se ukáže, že je navržené řešení technicky průchozí, bude implementováno. Popis modulu WebAnalyzer Základní podstata WebAnalyzeru se v současné implementaci oproti situaci před rokem nezměnila. Proces identifikace bohemikálního zdroje na základě bodového ohodnocení vychází z parametrů nastavených uživatelem. Ten si musí sám definovat bodovou hranici pro jednotlivé vlastnosti, což nemusí být vždy ideální. Proces vyhodnocování by mohl být zlepšen komplexnějším řešením, které by ulehčilo postup a logiku ohodnocení analyzovaných dokumentů. Analýzy výskytu českých slov, českých míst a českých URL fungují správně, ale řešení vyhledávání, které se v těchto případech používá, by mohlo byt dále vylepšené tak, aby se zvýšila jeho efektivita a rychlost. Konkrétní metoda optimalizace zatím není stanovena a jednotlivé možnosti jsou nyní diskutovány s dalšími odborníky. Po stanovení nejvhodnějšího řešení budou tyto analýzy implementovány na základě nového, efektivnějšího návrhu. Popis integrace do Heritrixu Jak již bylo naznačeno v předchozí zprávě, současná verze systému používá tři moduly, které WebAnalyzeru umožňují zapamatovat si kontext ostatních stránek, ve kterém se posuzovaná stránka nachází. To znamená, že systém je schopný pomocí těchto modulů 14

15 archivovat bohemikální stránku spolu s jejími podstránkami a to až do určité úrovně. Hodnotu této úrovně si může uživatel nastavit před spuštěním Heritrixu v konfiguračním souboru. Tento přístup umožňuje definovat, kdy má archivace bohemikální domény skončit. Plány do budoucna Současná verze systému se ukázala jako stabilní a funkční při testování menšího počtu URL. Ještě do konce roku 2008 bude spuštěn nový rozsáhlý test, který potvrdí, zda je systém opravdu stabilní a robustní při analýzách velkého počtu URL. Systém byl prezentován na letošním workshopu k archivaci webu IWAW 2008 v dánském Aarhusu ( Odezva ostatních účastníků byla velmi pozitivní, protože systém je možné využít i pro účely identifikace národních webů jiných národů. Jednoznačným závěrem je na systému dále pracovat. Především je nutné navrhnout a implementovat nové ovládací rozhraní systému, které umožní jednoduchou konfiguraci a manipulaci s modulem WebAnalyzer v rámci systému Heritrix. Systém by se mohl v budoucnosti rozšířit o funkci identifikace jazyka a také by bylo vhodné standardizovat kritéria a způsob vyhodnocování analyzovaných stránek. Další podrobnosti viz B.1.4 Možnosti průběžné analýzy sklizně V této oblasti platí závěry loňského roku. Aktuální monitoring selektivních sklizní probíhá následující formou: Každé semínko má nastaven limit objektů. Po vyčerpání tohoto limitu je Heritrix pozastaven a domény, které mají nevyčerpané fronty, jsou uloženy do režimu hibernace. Administrátor má nyní možnost prohlížet v logu jednotlivé fronty a zjišťovat případné pasti a nedostatky. Po nastavení dodatečných pravidel zvýší limit o 5000 a pokračuje ve sklízení. Tento proces iterativně provádí až do limitu Tento postup je však náročný na čas operátora sklizně a jen velmi obtížně je možné jej aplikovat na celoplošnou sklizeň, čítající stovky tisíc domén. Možným řešením by mohlo být využití přístupu obdobného tomu realizovanému v nástroji WebAnalyzer tedy logování všech informací o průběhu sklizně do databáze a vytváření zpětných vazeb nad takto získanými daty. B.1.5 Podklady pro aktualizaci legislativy k povinnému výtisku síťových publikací Ve výroční zprávě za rok 2007 byla jako jeden z výsledků řešení projektu charakterizována legislativa týkající se publikací zpřístupňovaných na webu (síťových publikací) a zmíněna příprava podkladů ke změně české legislativy týkající se povinného výtisku publikací. Důvody, proč je potřeba aktualizovat legislativu k povinnému odevzdávání publikací se zaměřením na síťové dokumenty, jsou následující: 15

16 V současné době, tj. po novele autorského zákona z roku 2006, mají sice depozitní instituce možnost vytvářet kopie dokumentů pro své archivní a konzervační potřeby, nikde ale není zakotvena tak jako v případě všech ostatních hmotných druhů dokumentů povinnost vydavatelů své produkty knihovnám odevzdávat. Na první pohled se může zdát, že tato skutečnost není významná, protože si knihovna či další vzdělávací instituce vyjmenované v autorském zákonu mohou stáhnout z webu jakýkoliv dokument (resp. zhotovit rozmnoženinu díla) kdykoliv podle svých potřeb. Právně neošetřena ovšem zůstává část dokumentů licencovaných či těch, které mají přístup k obsahu webové stránky podmíněn registrací apod. Je proto více než vhodné, aby bylo stahování takto chráněných síťových dokumentů v blízké době zaštítěno legislativou k povinnému výtisku. Pokud jde o dostupnost národní produkce publikací odborné i laické komunitě a rovný přístup k informacím uchovávaným ve webovém archivu, není ani tato otázka zcela vyřešena v novele autorského zákona z roku Citováno z autorského zákona: Do práva autorského nezasahuje knihovna, archiv, muzeum, galerie, škola, vysoká škola... zpřístupňuje-li dílo, včetně zhotovení jeho rozmnoženiny nezbytné pro takové zpřístupnění, které je součástí jeho sbírek a jehož užití není předmětem prodejních nebo licenčních podmínek,... jednotlivcům ze strany veřejnosti prostřednictvím k tomu určených technických zařízení umístěných v jeho objektech, a to výhradně pro účely výzkumu nebo soukromého studia takových osob, a zamezí-li takovým osobám zhotovit rozmnoženinu díla... V podkladech k připravovanému zákonu o povinných síťových publikacích jsou pro přístup k datům rozlišovány a) rozmnoženiny volně přístupných povinných síťových publikací a b) rozmnoženiny publikací zveřejněných v síti internet pro uživatele na základě zvláštních přístupových oprávnění. Snahou řešitelů projektu WebArchiv v Národní knihovně ČR je vyhnout se nelogičnosti, kdy podle znění autorského zákona v 37 odst. 1c) může knihovna (a další instituce) zpřístupnit rozmnoženiny všech děl pouze prostřednictvím k tomu určených technických zařízení umístěných v jeho objektech to znamená rozmnoženiny i těch děl, k nimž vydavatel původně na webu poskytl volný přístup a samozřejmě počítá s dodržováním autorských práv při jejich využití. Toto ustanovení je sice v českém autorském zákonu uvedeno na základě doporučení evropské směrnice [8], ta ovšem značně zaostává za současným prudkým nárůstem nelicencovaných publikací na internetu. Národní legislativy řady zemí berou tento stav v potaz a umožňují širší přístup uživatelů webového archivu k nelicencovaným zdrojům, přičemž v případě Slovinska [9] se dokonce jedná o členskou zemi EU. 8 Directive 2001/29/EC of the European Parliament and of the Council of 22 May 2001 on the harmonisation of certain aspects of copyright and related rights in the information society. Official Journal of the European Communities. 2001, L167, s Dostupné též na www: < 9 Republika Slovenija Zakon o obveznem izvodu publikacij (ZOIPub). In: Uradni list Republike Slovenije. 2006, Št. 69, s Dostupné též na www: < 16

17 Návrh změny legislativy Návrh legislativy upravující povinné odevzdávání síťových publikací (tj. dokumentů šířených v současné době v prostředí sítě internet, zejména webu) byl připravován tak, aby mohl výhledově sloužit jak knihovnám coby institucím odpovědným za účinnou ochranu dat a poskytování přístupu k nim, tak i (budoucím) uživatelům archivu webových zdrojů. Podklady k návrhu nového zákona byly předloženy odboru umění a knihoven Ministerstva kultury ČR v únoru 2008 jako základ pro úpravu legislativy týkající se povinného odevzdávání síťových elektronických dokumentů. Creative Commons Na základě několika setkání s odborníky na Autorské právo v prostředí informačních technologií z roku 2007, pokračovali řešitelé ve snaze zavést do českého prostředí licence Creative Commons. Creative Commons (CC) je označení pro veřejné licence, na jejichž základě definuje vlastník autorských práv podmínky užití svého díla třetí osobou. Smyslem CC je poskytnout autorům možnost zpřístupnit své dílo za liberálnějších podmínek než umožňuje pojetí tzv. copyrightu a vytvořit tak optimální podmínky pro efektivní využití informací, zejména v oblasti vědy a výzkumu. Schéma nabízí celkem šest různých podob licencí, které jsou rozlišeny dle stupně možností nakládat s dílem. Z tohoto pohledu se licence CC jeví jako srozumitelný a lehce aplikovatelný prostředek pro získání souhlasu držitele autorských práv s archivací a online zpřístupněním webového dokumentu. V dubnu byla oficiálně vytvořena pracovní skupina pro překlad a implementaci CC do českého prostředí poté, co byla provedena analýza právního rámce jejich zakotvení v českém autorskoprávním řádu. Skupinu formálně tvoří občanské sdružení Iuridicum Remedium, Národní knihovna ČR (zastoupená projektem WebArchiv), Filozofická fakulta UK, Sdružení nezávislých autorů a Společnost pro autorské právo a informační technologie. Dohled nad aktivitami skupiny má Odbor autorského práva při Ministerstvu kultury ČR. Od svého vzniku se pracovní skupině podařilo realizovat několik důležitých kroků. Nejprve byly navázány kontakty s organizací Creative Commons, která proces implementace CC licence koordinuje. Poté byl vytvořen první překlad textu licence, ve kterém byly zohledněny náležitosti českého autorskoprávního prostředí. Tento text byl poté vystaven veřejnému připomínkovému řízení na webu pracovní skupiny ( které již skončilo. V současné době posuzuje organizace Creative Commons (do anglického jazyka zpět přeložený) první návrh české verze licence. Přestože je pracovní skupina zhruba v třetině své cesty, předpokládáme nasazení české verze CC licence do provozu (vytváření licencí online) během příštího roku. 17

18 Vedle této primární činnosti bylo upořádáno několik besed, přednášek a školení za účelem propagace CC jako prostředku publikování s otevřeným přístupem. Licence Creative Commons zaznamenaly v posledních letech celosvětový bouřlivý vývoj. Obrovský nárůst objemu informací komunikovaných v elektronickém prostředí, zejména s přihlédnutím k mohutnému rozvoji internetové sítě, vedlo mnohé země k rozhodnutí implementovat CC jako specifický typ licence do národní legislativy a reagovat tak na odlišnosti elektronického publikování oproti tištěnému modelu. K dnešnímu dni jsou CC implementovány a používány v 50 státech, z toho 26 evropských, přičemž v největší míře jsou aplikovány na webové zdroje. 18

19 B.2 Přínos řešitelů Nejvýznamnějším přínosem řešitelů pro řešení projektu v letošním roce bylo bezesporu dokončení první verze nástroje WebAnalyzer pro automatizované sklízení webu mimo národní doménu. Tento nástroj byl experimentálně otestován v českých podmínkách pro sklízení bohemikálních zdrojů mimo doménu.cz. Prezentace nástroje a výsledky testu vyvolaly značný ohlas a zájem v mezinárodní komunitě webových archivů. Pro příští rok předpokládáme jednak nasazení této verze v ostrém provozu a také práci na dalším vývoji tohoto nástroje ve spolupráci s IIPC. Dalším významným přínosem pro řešení projektu bylo zapojení do mezinárodní spolupráce v rámci IIPC a projektu LiWA. Prostřednictvím těchto aktivit mají řešitelé možnost aktivně se účastnit na vývoji nových nástrojů a řešení pro dlouhodobé uchování a zpřístupnění webových zdrojů. V legislativní oblasti byl řešiteli v NK ČR vypracován návrh (důvodová zpráva a paragrafový návrh zákona) na změnu legislativy k povinnému výtisku, resp. povinnému odevzdávání online zdrojů k archivaci. Návrh byl v první polovině roku 2008 předán na Ministerstvo kultury ČR k legislativnímu řízení. Řešitelé projektu byli také iniciátory vzniku pracovní skupiny pro český překlad licencí Creative Commons a jejich zakotvení do právního rámce ČR. První návrh české verze je připraven a je v současnosti v procesu posuzování organizací Creative Commons. Předpokládáme, že konečná česká verze bude k dispozici v prvním pololetí B.3. Posun znalostí V roce 2008 byl vyvinut a otestován modul WebAnalyzer pro sklízení mimo národní doménu.cz. Testování tohoto modulu nám umožňuje, kromě vyzkoušení funkčnosti vlastního nástroje, také získat lepší představu o rozsahu českého webu mimo národní doménu a kapacitních a technických nárocích na jeho pravidelné sklizně. Je zvažováno nasazení nástroje tohoto typu i pro tématické sklizně. Dále pokračoval vývoj nového systému pro správu zdrojů a vydavatelů WA Admin v2.0. Na základě podrobné analýzy uživatelských požadavků byla připravena podrobná specifikace systému včetně datového modelu. Vývoj systému bude dokončen v roce 2009 a systém bude integrován do infrastruktury WebArchivu. Byla opět lokalizována a testována řada nových SW nástrojů, resp. nových verzí. Výzkumný tým nadále průběžně sleduje vývoj SW nástrojů v rámci IIPC, které jsou okamžitě po jejich uvolnění zkoumány po stránce vhodnosti začlenění do infrastruktury WebArchivu a implementovány. I přes uvolnění dvou nových verzí systému Wayback zůstávají stále nejproblematičtější aplikací nástroje pro vyhledávání. 19

20 C NÁVRHOVÁ ČÁST C.1 Výsledky řešení Výsledky dosažené a dosud neuplatněné Následující výsledky řešení dosažené v roce 2008 budou zavedeny do evidence RIV v roce D Článek ve sborníku VLČEK, Ivan. Identification and archiving of the czech web outside the national domain. In: IWAW : 8th international web archiving workshop : Aaarhus, Denmark, 18th & 19th September 2008 [online]. Aaarhus : IWAW, 2008 [cit ]. Dostupný z WWW: < B Odborná kniha CELBOVÁ, Ludmila, et al. Archivace webu. Praha : Národní knihovna ČR, 2008 [vyjde v průběhu prosince]. S - Prototyp, metodika, vzorek, software, výsledky apl. výzkumu promítnuté do práv. předpisů a norem, užitný vzor VLČEK, Ivan. WebAnalyzer [software]. C.2 Závěr V rámci řešení projektu výzkumu a vývoje byly plánované úkoly pro rok 2008 splněny a podařilo se významně pokročit v řešení problematiky ochrany a trvalého zpřístupnění webových zdrojů. 20

21 C.3 Návrhy opatření 1. Pokračovat v řešení projektu v roce 2009 s cílem trvalého uložení a zpřístupnění českých webových zdrojů v souladu s platnou legislativou. 2. Pokračovat v přípravě začlenění licencí Creative Commons do českého právního řádu. 3. Aktivní účast na vývoji nových nástrojů a řešení pro dlouhodobé uchování a zpřístupnění webových zdrojů v rámci konsorcia IIPC a projektu LiWA. 4. Další testování aplikace pro sklízení zdrojů mimo doménu.cz s cílem jejího nasazení v rámci celoplošných sklizní v průběhu roku Testování automatizovaných přístupů k tematickým sklizním včetně výzkumu možností efektivního zpřístupnění. 6. Využití zobrazení zdrojů pomocí metody Konspektu pro zpřístupnění archivovaných zdrojů. 7. Dokončení vývoje nového WA Admin, který by měl umožnit snazší a dokonalejší správu zdrojů, automatizaci procesů a propojení se softwarovými nástroji pro sklízení. 8. Testování fulltextové indexace na velkých objemech dat. 9. Pokračovat v rozvoji infrastruktury WebArchivu s využitím vlastními silami vyvinutých i převzatých nástrojů. 21

22 D RESUMÉ A KLÍČOVÁ SLOVA E.1 Resumé a klíčová slova v češtině Projekt se zabývá problematikou, která je nejen v České republice, ale i v zahraničí stále předmětem výzkumu a vývoje. Jedná se o proces archivace, který lze vnímat jako pracovní proces, při kterém jsou webové zdroje vybírány, shromažďovány, chráněny a konečně poskytovány uživatelům. V institucích odpovědných za uchování kulturního dědictví (knihovny, muzea) se stále hledá optimální cesta k realizaci provozního řešení archivace webových zdrojů ve své teritoriální či odborné oblasti. Vedle komplexní problematiky informačních technologií je třeba zejména pro zpřístupnění dat z digitálního archivu řešit také legislativní problematiku. V roce 2008 se řešitelé projektu aktivně zapojili do činnosti pracovních skupin Preservation a Access v rámci IIPC a do nového evropského výzkumného projektu Living web archives (LiWA). Byl vyvinut modul WebAnalyzer pro automatizované sklízení webu mimo národní doménu. Průběžně pokračovalo testování a implementace nových verzí softwarových nástrojů. Byly připraveny podklady k řešení legislativy povinného odevzdávání síťových dokumentů a pro implementaci licencí Creative Commons do českého právního řádu. Klíčová slova archivace webu; výzkum a vývoj; softwarové nástroje; sklízení; sbírky; povinný výtisk; Creative Commons E.2 Resumé a klíčová slova v angličtině /Abstract and key words in English/ The project deals with a topic which is still subject of research and development, not only in the Czech Republic but also in other countries. The archiving process can be seen as a working process in which web resources are selected, acquired, preserved and made accessible to users. Institutions responsible for preserving cultural heritage (libraries, museums, etc.) are still in a process of developing the best production solutions for archiving web resources in their respective geographical or subject areas. In addition to the complex technological issues, legal issues must be also dealt with, especially in the area of public access to the archived digital data. In 2008, the members of the project team actively participated in the Preservation and Access working groups within IIPC as well as in a new European research project Living web archives (LiWA). A new module for automated harvesting of the web outside national domain was developed. Testing and implementation of new versions of deployed software tools continued throughout the year. Background materials for a new legal-deposit legislation incorporating online publications and for implementing Creative Commons licences were also prepared. Key words web archiving; research and development; software tools; harvesting; collections; legal deposit; Creative Commons 22

Přístup k národnímu webovému archivu. Tomáš Síbek a Lukáš Gruber

Přístup k národnímu webovému archivu. Tomáš Síbek a Lukáš Gruber Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber Archivace webu Proč a jak? Technické řešení Legislativní překážky Návrh zákona o povinných síťových publikacích problematika viděna z pohledu

Více

Strategie budování sbírky Webarchiv u

Strategie budování sbírky Webarchiv u Strategie budování sbírky Webarchiv u aktualizované znění Autoři: Datum: Mgr. Jaroslav Kvasnica, Mgr. Barbora Rudišinová, Mgr. Marie Haškovcová, Mgr. Monika Holoubková, Mgr. Markéta Hrdličková září 2017

Více

Metodika budování sbírky Webarchivu

Metodika budování sbírky Webarchivu Metodika budování sbírky Webarchivu Autoři: Bjačková Barbora, Kvasnica Jaroslav Datum vytvoření: 4. 2. 2015 Terminologie: archivace webu proces sběru, ukládání, trvalého uchovávání a zpřístupňování webových

Více

webových zdrojů Mgr. Jan HUTAŘ Bc.. Lukáš JKA Mgr. Ludmila CELBOVÁ http://www.webarchiv.cz

webových zdrojů Mgr. Jan HUTAŘ Bc.. Lukáš JKA Mgr. Ludmila CELBOVÁ http://www.webarchiv.cz Vyhledávání v archivu českých webových zdrojů Mgr. Jan HUTAŘ Bc.. Lukáš MATĚJKA JKA Mgr. Ludmila CELBOVÁ Proč vznikl WebArchiv? archivace elektronických online zdrojů je celosvětovým trendem Potřeba zachránit

Více

Zpráva o zhotoveném plnění

Zpráva o zhotoveném plnění Zpráva o zhotoveném plnění Aplikace byla vytvořena v souladu se Smlouvou a na základě průběžných konzultací s pověřenými pracovníky referátu Manuscriptorium. Toto je zpráva o zhotoveném plnění. Autor:

Více

2008 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 3.0 Česko

2008 Dostupný z  Licence Creative Commons Uveďte autora-zachovejte licenci 3.0 Česko Tento dokument byl stažen z Národního úložiště šedé literatury (NUŠL). Datum stažení: 18.01.2017 Projekt NUŠL a další projekty v ČR Pejšová, Petra 2008 Dostupný z http://www.nusl.cz/ntk/nusl-41957 Dílo

Více

Národní úložiště šedé literatury

Národní úložiště šedé literatury Národní úložiště šedé literatury 4. ročník Semináře ke zpřístupňování šedé literatury 25. října 2011 Praha, Česká republika Petra Pejšová petra.pejsova@techlib.cz Přehled O projektu Cíle Výsledky Zahraniční

Více

Budoucnost českého webového archivu

Budoucnost českého webového archivu Budoucnost českého webového archivu Jaroslav Kvasnica Národní knihovna České republiky jaroslav.kvasnica@nkp.cz INFORUM 2015: 21. ročník konference o profesionálních informačních zdrojích Praha, 26. -

Více

WEBARCHIV ÚVOD, CÍLE, PODMÍNKY, REALITA. http://www.webarchiv.cz. Katalogizace v knize Národní knihovna České republiky

WEBARCHIV ÚVOD, CÍLE, PODMÍNKY, REALITA. http://www.webarchiv.cz. Katalogizace v knize Národní knihovna České republiky Katalogizace v knize Národní knihovna České republiky WebArchiv : úvod, cíle, podmínky, realita. -- Praha : Národní knihovna České republiky, 2005. -- 11 s. ISBN 80-7050-479-X 1. internetové zdroje Česko

Více

Šedá literatura case study v ČR

Šedá literatura case study v ČR Šedá literatura case study v ČR Petra Pejšová Národní technická knihovna, Praha Digitálná knižnica 10. listopadu 2015 Creative Commons Uveďte původ-neužívejte dílo komerčně-zachovejte licenci 4.0 Mezinárodní

Více

Velká data v knihovnách Open source tools and their use in Czech libraries

Velká data v knihovnách Open source tools and their use in Czech libraries Velká data v knihovnách Open source tools and their use in Czech libraries Petr Žabička www.mzk.cz Obsah 1. Úvod 2. Souborný katalog 3. Obálky knih 4. Digitalizace 5. Digital born dokumenty 6. WebArchiv

Více

The bridge to knowledge 28/05/09

The bridge to knowledge 28/05/09 The bridge to knowledge DigiTool umožňuje knihovnám vytvářet, administrovat, dlouhodobě uchovávat a sdílet digitální sbírky. DigiTool je možno využít pro institucionální repozitáře, sbírky výukových materiálu

Více

PŘÍLOHA C Požadavky na Dokumentaci

PŘÍLOHA C Požadavky na Dokumentaci PŘÍLOHA C Požadavky na Dokumentaci Příloha C Požadavky na Dokumentaci Stránka 1 z 5 1. Obecné požadavky Dodavatel dokumentaci zpracuje a bude dokumentaci v celém rozsahu průběžně aktualizovat při každé

Více

P@wouk nástroj pro jednoduchou správu a vedení agendy studentských počítačových sítí na kolejích SU OPF Karviná Ing.

P@wouk nástroj pro jednoduchou správu a vedení agendy studentských počítačových sítí na kolejích SU OPF Karviná Ing. P@wouk nástroj pro jednoduchou správu a vedení agendy studentských počítačových sítí na kolejích SU OPF Karviná Ing. Tomáš Petránek tomas@petranek.eu Karviná, 21. 10. 2011 Obsah prezentace 1. Okolnosti

Více

Zpráva o plnění cílů projektu VISK3. WebArchiv - vytvoření podmínek pro zpřístupnění českých webových zdrojů

Zpráva o plnění cílů projektu VISK3. WebArchiv - vytvoření podmínek pro zpřístupnění českých webových zdrojů Zpráva o plnění cílů projektu VISK3 WebArchiv - vytvoření podmínek pro zpřístupnění českých webových zdrojů (knihovnické, legislativní a technické aspekty) Předkládá: Národní knihovna České republiky Zpracovala:

Více

Možnosti využití dat RÚIAN poskytovaných VDP pomocí webových služeb

Možnosti využití dat RÚIAN poskytovaných VDP pomocí webových služeb Možnosti využití dat RÚIAN poskytovaných VDP pomocí webových služeb Ing. Radek Augustýn Výzkumný ústav geodetický, topografický a kartografický, v.v.i. Zdiby Abstrakt V návaznosti na zpřístupnění dat Registru

Více

TECHNICKÁ SPECIFIKACE VEŘEJNÉ ZAKÁZKY

TECHNICKÁ SPECIFIKACE VEŘEJNÉ ZAKÁZKY Příloha č. 3 k č.j. MV-159754-3/VZ-2013 Počet listů: 7 TECHNICKÁ SPECIFIKACE VEŘEJNÉ ZAKÁZKY Nové funkcionality Czech POINT 2012 Popis rozhraní egon Service Bus Centrální Místo Služeb 2.0 (dále jen CMS

Více

10 LET S ŠEDOU LITERATUROU NA UNIVERZITĚ TOMÁŠE BATI VE ZLÍNĚ

10 LET S ŠEDOU LITERATUROU NA UNIVERZITĚ TOMÁŠE BATI VE ZLÍNĚ 10 LET S ŠEDOU LITERATUROU NA UNIVERZITĚ TOMÁŠE BATI VE ZLÍNĚ Ing. Lukáš Budínský Prezentace je dostupná pod licencí Creative Commons, licence: CC-BY-SA-4.0 (http://creativecommons.org/licenses/by-sa/4.0/

Více

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem

Více

Příprava legislativy povinného výtisku elektronických publikací v České republice (e-depozit)

Příprava legislativy povinného výtisku elektronických publikací v České republice (e-depozit) Příprava legislativy povinného výtisku elektronických publikací v České republice (e-depozit) Mezi realitou a zbožným přáním 25.4. 2017 INFOS 2017 Vít Richter Národní knihovna ČR Pohled zpět 1781 Karel

Více

Dlouhodobá ochrana digitální dokumentů. Mgr. Jaroslav Kvasnica

Dlouhodobá ochrana digitální dokumentů. Mgr. Jaroslav Kvasnica Dlouhodobá ochrana digitální dokumentů Mgr. Jaroslav Kvasnica Obsah přednášky 1. Digitální dokument a metadata 2. Dlouhodobá ochrana digitálních dokumentů 3. Webová archivace Digitální dokument Digitální

Více

Projekt NUŠL a další projekty v ČR

Projekt NUŠL a další projekty v ČR Projekt NUŠL a další projekty v ČR Petra Pejšová Státní technická knihovna p.pejsova@stk.cz, Osnova Základní informace o projektu Projektový tým Harmonogram Výstupy Vymezení NUŠL Dotazníkové šetření Metadata

Více

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP Seminář pro vedoucí knihoven asviústavů AV ČR ASEP 5. 5. 2016 ASEP bibliografická databáze repozitář Online katalog Repozitář Analytika ASEP Novinky ASEP Evidence výsledků vědecké práce ústavů AV ČR od

Více

Doporučeno pro předpokládané využití serveru pro zpracování 2000 dokumentů měsíčně. HW: 3GHz procesor, 2 jádra, 8GB RAM

Doporučeno pro předpokládané využití serveru pro zpracování 2000 dokumentů měsíčně. HW: 3GHz procesor, 2 jádra, 8GB RAM 1. Doporučené SW a HW nároky Doporučeno pro předpokládané využití serveru pro zpracování 2000 dokumentů měsíčně. HW: 3GHz procesor, 2 jádra, 8GB RAM SW: Microsoft Windows 7, Microsoft Windows 8 Microsoft

Více

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH TEXTŮ ČESKÝCH LÉKAŘSKÝCH A ZDRAVOTNICKÝCH ČASOPISŮ Konference Knihovny současnosti 2010 Lenka Maixnerová, Filip Kříž, Ondřej Horsák Úvod V roce 2004 zapojení do programu

Více

Národní úložiště šedé literatury v roce 2012

Národní úložiště šedé literatury v roce 2012 Národní úložiště šedé literatury v roce 2012 5. ročník Semináře ke zpřístupňování šedé literatury 23. října 2012 NTK, Praha, Česká republika Petra Pejšová petra.pejsova@techlib.cz Přehled Obhajoba projektu

Více

Certifikace Národní digitální knihovny podle ISO normy 16363. Jan Mottl AiP Safe s.r.o.

Certifikace Národní digitální knihovny podle ISO normy 16363. Jan Mottl AiP Safe s.r.o. Certifikace Národní digitální knihovny podle ISO normy 16363 Jan Mottl AiP Safe s.r.o. Proč? Ve smlouvě na dodávku NDK je certifikace požadována v Příloze č.1 Specifikace plnění smlouvy, v kapitole 1.10.

Více

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ Pavel Kocourek, Incad Praha Přestože mnohé knihovny v České republice digitalizují své dokumenty a další se na to chystají, neprobíhá

Více

manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com

manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com manuscriptorium Manuscriptorium v Evropě manuscriptorium a ENRICH Manuscriptorium evropská digitální knihovna psaného kulturního dědictví obsahuje rukopisy, inkunábule, staré tisky (do r. 1800), mapy,

Více

Digitální knihovny v České republice

Digitální knihovny v České republice Digitální knihovny v České republice PhDr. Martina Machátová Moravská zemská knihovna v Brně Tel.: 541 646 170 E-mail: machat@mzk.cz Aktualizace: 19. května 2019 Digitální knihovna Definice 1,,Integrovaný

Více

Odevzdávání a příjem e-publikací

Odevzdávání a příjem e-publikací Odevzdávání a příjem e-publikací v rámci projektu NAKI Správa elektronických publikací v síti knihoven ČR Mgr. Martin Žížala Oddělení doplňování domácích dokumentů NK ČR Elektronické publikace Vývoj počtu

Více

Projekt Digitální knihovna pro šedou literaturu po prvním roce řešení

Projekt Digitální knihovna pro šedou literaturu po prvním roce řešení Projekt Digitální knihovna pro šedou literaturu po prvním roce řešení Petra Pejšová Státní technická knihovna, Osnova Trochu historie Základní informace o projektu Harmonogram Výstupy Návaznosti na další

Více

Olga Rudikova 2. ročník APIN

Olga Rudikova 2. ročník APIN Olga Rudikova 2. ročník APIN Redakční (publikační) systém neboli CMS - content management system (systém pro správu obsahu) je software zajišťující správu dokumentů, nejčastěji webového obsahu. (webová

Více

Digitální knihovny v České republice

Digitální knihovny v České republice Digitální knihovny v České republice PhDr. Martina Machátová Moravská zemská knihovna v Brně Tel.: 541 646 170 E-mail: machat@mzk.cz Aktualizace: 19. prosince 2016 Digitální knihovna Definice 1 Integrovaný

Více

Osobní archivy publikovaných odborných prací v medicíně jako součást Digitální knihovny NLK

Osobní archivy publikovaných odborných prací v medicíně jako součást Digitální knihovny NLK Osobní archivy publikovaných odborných prací v medicíně jako součást Digitální knihovny NLK Adéla Jarolímková, Národní lékařská knihovna Toto dílo dílo podléhá licenci Creative Commons Uveďte autora- Zachovejte

Více

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková 1. Hrozba ztráty tištěných dokumentů způsobená degradací kyselého papíru, který se používal téměř 150 let a poškozením dokumentů častým používáním

Více

Projekt NAKI e-deposit

Projekt NAKI e-deposit Projekt NAKI e-deposit Správa elektronických publikací v síti knihoven ČR Mgr. Martin Žížala Národní knihovna ČR Základní info 4-letý projekt (2012-2015), grantová podpora MK ČR (program aplikovaného výzkumu

Více

Přidružené publikace v České republice

Přidružené publikace v České republice Přidružené publikace v České republice Petra Pejšová a Hana Vyčítalová Národní technická knihovna, Praha Seminář ke zpřístupňování šedé literatury, 23. října 2013 6. Ročník Semináře ke zpřístupňování šedé

Více

Formy komunikace s knihovnami

Formy komunikace s knihovnami Formy komunikace s knihovnami Současné moderní prostředky Jiří Šilha a Jiří Tobiáš, Tritius Solutions a.s., Brno Osnova Základní požadavky na komunikaci s knihovnami Historie komunikace s knihovnami Confluence

Více

MBI - technologická realizace modelu

MBI - technologická realizace modelu MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,

Více

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů Martin Lhoták Knihovna AV ČR, v. v. i. Archivy, knihovny, muzea v digitálním světě 2013 Výzkumný

Více

Požadavky na systém pro automatizaci muzejní knihovny

Požadavky na systém pro automatizaci muzejní knihovny Požadavky na systém pro automatizaci muzejní knihovny aneb Pohled zvenčí Petr Žabička Moravská zemská knihovna v Brně zabak@mzk.cz Obsah Knihovny muzeí a galerií Katalogy knihoven Standardizace Výběr knihovního

Více

Budování virtuální depozitní knihovny. Tomáš Foltýn

Budování virtuální depozitní knihovny. Tomáš Foltýn Budování virtuální depozitní knihovny Tomáš Foltýn Motivace: platná legislativa ČR předepisuje knihovnám trvale uchovávat knižní sbírky garance trvalého uchování knižního dědictví ANO či NE? NE! Není přesný

Více

MATLABLINK - VZDÁLENÉ OVLÁDÁNÍ A MONITOROVÁNÍ TECHNOLOGICKÝCH PROCESŮ

MATLABLINK - VZDÁLENÉ OVLÁDÁNÍ A MONITOROVÁNÍ TECHNOLOGICKÝCH PROCESŮ MATLABLINK - VZDÁLENÉ OVLÁDÁNÍ A MONITOROVÁNÍ TECHNOLOGICKÝCH PROCESŮ M. Sysel, I. Pomykacz Univerzita Tomáše Bati ve Zlíně, Fakulta aplikované informatiky Nad Stráněmi 4511, 760 05 Zlín, Česká republika

Více

Integrace datových služeb vědecko-výukové skupiny

Integrace datových služeb vědecko-výukové skupiny České vysoké učení technické v Praze Fakulta elektrotechnická Software Engineering & Networking Projekt Fondu rozvoje sdružení CESNET-513/2014/1 HS: 13144 / 830 / 8301442C Integrace datových služeb vědecko-výukové

Více

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Česká digitální knihovna agregace digitálního obsahu českých knihoven Česká digitální knihovna agregace digitálního obsahu českých knihoven Martin Lhoták Knihovna AV ČR, v. v. i. Národní agregátor ve světě eculture, Praha, 14. 7. 2015 Výzkumný projekt financovaný z programu

Více

Akademické publikování a autorské právo. Lucie Straková Martin Loučka Konference OpenAlt

Akademické publikování a autorské právo. Lucie Straková Martin Loučka Konference OpenAlt Akademické publikování a autorské právo Lucie Straková Martin Loučka Konference OpenAlt 4. 11. 2017 Stručný přehled přednášky Vznik a publikace díla Přístup k výsledkům vědy a výzkumu Použití výjimek Možné

Více

Národní portál pro prezentaci digitalizovaných sbírkových objektů muzeí a galerií. Marie Vítková www.esbirky.cz

Národní portál pro prezentaci digitalizovaných sbírkových objektů muzeí a galerií. Marie Vítková www.esbirky.cz Národní portál pro prezentaci digitalizovaných sbírkových objektů muzeí a galerií Marie Vítková www.esbirky.cz Historie esbírek Současný stav Budoucnost Historie? esbírky 2010 Nárůst počtu předmětů 2011-2014

Více

Národní úložiště šedé literatury Otevřené repozitáře, 13. 5. 2015 Petra Pejšová a Hana Vyčítalová Creative Commons Uveďte původ-neužívejte dílo komerčně-zachovejte licenci 4.0 Mezinárodní Přehled o projektu

Více

Ukládání a archivace dat

Ukládání a archivace dat Ukládání a archivace dat vzniklých digitalizací v Digitálním archivu SOA v Třeboni Základní cíle projektu Vytvořit systém, který bude zaštiťovat postupy spojené s digitalizací archivních materiálů vytváření

Více

Experimentální systém pro WEB IR

Experimentální systém pro WEB IR Experimentální systém pro WEB IR Jiří Vraný Školitel: Doc. RNDr. Pavel Satrapa PhD. Problematika disertační práce velmi stručný úvod WEB IR information retrieval from WWW, vyhledávání na webu Vzhledem

Více

Sdílení výukových materiálů. Inovativní podpora výuky a provozu. Ochrana dat. Moderní interaktivní výuka. Příprava vyučujících

Sdílení výukových materiálů. Inovativní podpora výuky a provozu. Ochrana dat. Moderní interaktivní výuka. Příprava vyučujících Inovativní podpora výuky a provozu Sdílení výukových materiálů Ochrana dat Moderní interaktivní výuka Příprava vyučujících 1 OBSAH STRATEGIE ICT... 3 1. ZÁKLADNÍ ÚDAJE O ŠKOLE... 3 ZÁKLADNÍ ÚDAJE O ŠKOLE...

Více

Nové funkce a technologie v současných a budoucích verzích Invenia. Jiří Kunčar

Nové funkce a technologie v současných a budoucích verzích Invenia. Jiří Kunčar Nové funkce a technologie v současných a budoucích verzích Invenia Jiří Kunčar jiri.kuncar@cern.ch Obsah úvod vývojový proces verze novinky nové technologie závěr CERN European Organization for Nuclear

Více

Národní elektronický nástroj. Import profilu zadavatele do NEN

Národní elektronický nástroj. Import profilu zadavatele do NEN Národní elektronický nástroj Import profilu zadavatele do NEN V 1.2 2014 Obsah 1 Cíl...... 2 2 Nutné podmínky k umožnění importu profilu zadavatele...... 2 3 Povinnosti zadavatele dle metodiky k vyhlášce

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních

Více

Přístupy k řešení a zavádění spisové služby

Přístupy k řešení a zavádění spisové služby Přístupy k řešení a zavádění spisové služby Miroslav Kunt Praha, 22. 3. 2016 Výběr SSl důležité okolnosti Je potřeba zájem vedení organizace, kompetentní pracovníci spisové služby, co největší přiblížení

Více

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav. ProArc open source řešení pro produkci a archivaci digitálních dokumentů Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.cz INFORUM 2015: 21. ročník konference o profesionálních informačních

Více

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba 1. 1. Správa podnikového obsahu (Enterprise Content Management ECM) Strategie, metody a nástroje

Více

DOCUMENT MANAGEMENT TOOLKIT

DOCUMENT MANAGEMENT TOOLKIT DOCUMENT MANAGEMENT TOOLKIT SPRÁVA DOKUMENTŮ V MODERNÍM PODNIKOVÉM PROSTŘEDÍ Zpracování dokumentů prochází v dnešním firemním světě významnými změnami. Firmy jsou nuceny řešit řadu problémů, které s sebou

Více

Jak pomáháme našim klientům

Jak pomáháme našim klientům Jak pomáháme našim klientům Praha 6. 10. 2015 Bc. Ludmila Stuchlá Lékařská knihovna Fakultní nemocnice Ostrava Fakultní nemocnice Ostrava Lékařská knihovna FN Ostrava Lékařská knihovna FN Ostrava Počet

Více

Jak na CrossRef, DOI, CrossCheck, OJS a další? Lenka Němečková Věra Pilecká Ústřední knihovna ČVUT

Jak na CrossRef, DOI, CrossCheck, OJS a další? Lenka Němečková Věra Pilecká Ústřední knihovna ČVUT Jak na CrossRef, DOI, CrossCheck, OJS a další? Lenka Němečková Věra Pilecká Ústřední knihovna ČVUT Proč CrossRef, DOI, CrossCheck a OJS? Základní mezinárodní standardy odborného publikování Téměř nutnost

Více

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech Výsledky a perspektivy dalšího vývoje Struktura příspěvku Definice projektu Základní data z historie projektu Základní

Více

Evropská digitální knihovna a autorské právo

Evropská digitální knihovna a autorské právo Evropská digitální knihovna a autorské právo Inforum 2008 Praha, 28. 30. května 2008 Mgr. Adéla Faladová, odbor autorského práva Ministerstva kultury Evropská digitální knihovna (EDK) Cíl: zpřístupnit

Více

přes webový prohlížeč pomocí P@wouka Ing. Tomáš Petránek tomas@petranek.eu

přes webový prohlížeč pomocí P@wouka Ing. Tomáš Petránek tomas@petranek.eu Open Sourceřešení správy studentských počítačových sítí na kolejích SU OPF Karviná aneb cesta, jak efektivně administrovat síť a její uživatele přes webový prohlížeč pomocí P@wouka Ing. Tomáš Petránek

Více

Konsolidace zálohování a archivace dat

Konsolidace zálohování a archivace dat České vysoké učení technické v Praze Fakulta elektrotechnická Katedra počítačové grafiky a interakce Závěrečná zpráva projektu 493/2013/1 Konsolidace zálohování a archivace dat Řešitel: Jan Kubr Spoluřešitel:

Více

Dlouhodobé uchování a zpřístupnění digitálních dokumentů v Evropě: výsledky dotazníkového průzkumu

Dlouhodobé uchování a zpřístupnění digitálních dokumentů v Evropě: výsledky dotazníkového průzkumu Dlouhodobé uchování a zpřístupnění digitálních dokumentů v Evropě: výsledky dotazníkového průzkumu zpracovali Anna Nerglová a Jan Hutař Národní knihovna ČR anna.nerglova@nkp.cz jan.hutar@nkp.cz V rámci

Více

I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í

I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í Číslo jednací zadavatele: 11070/2008-42 I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í Příloha číslo 1: Technická specifikace k veřejné zakázce Vytvoření, údržba a rozvoj informačního systému

Více

Koncepce rozvoje knihoven ČR na léta 2011-2015. Priorita 2: Trvalé uchování digitálních dokumentů

Koncepce rozvoje knihoven ČR na léta 2011-2015. Priorita 2: Trvalé uchování digitálních dokumentů Koncepce rozvoje knihoven ČR na léta 2011-2015 Priorita 2: Trvalé uchování Koncepce rozvoje knihoven ČR na léta 2011-2015 Priorita 2: Trvalé uchování 1. Vytvořit národní koncepci dlouhodobé ochrany digitálních

Více

Open Bibliography Data. ( Matouš Jobánek

Open Bibliography Data. (  Matouš Jobánek Open Bibliography Data (http://openbiblio.net/) Matouš Jobánek Brno, podzim 2011 1. 12. 2011 Úvod V průběhu několika posledních let došlo ve společnosti k významnému rozšíření okruhu znalostí, které jsou

Více

Modul MWA - Publikace a články

Modul MWA - Publikace a články Modul MWA - Publikace a články Stávající webová aplikace ČMI podporuje prostředníctvím Modulu RIV publikaci výstupů vykazovaných v Rejstříku informací o výsledkcích (dále jen RIV). Nový modul Publikace

Více

2010 Dostupný z

2010 Dostupný z Tento dokument byl stažen z Národního úložiště šedé literatury (NUŠL). Datum stažení: 15.01.2017 Národní úložiště šedé literatury (NUŠL) Pejšová, Petra; Fürstová, Iveta 2010 Dostupný z http://www.nusl.cz/ntk/nusl-41950

Více

Otevřený přístup (Open Access) v Akademii věd ČR

Otevřený přístup (Open Access) v Akademii věd ČR Otevřený přístup (Open Access) v Akademii věd ČR Iva Burešová buresova@knav.cz Úvodní část tohoto článku čtenáře stručně seznamuje s Politikou otevřeného přístupu Akademie věd České republiky (AV ČR),

Více

Virtuální depozitní knihovna Nástroj pro doplňování bohemikálních konzervačních sbírek. Tomáš Foltýn & Jiří Polišenský & Radek Nepraš

Virtuální depozitní knihovna Nástroj pro doplňování bohemikálních konzervačních sbírek. Tomáš Foltýn & Jiří Polišenský & Radek Nepraš Virtuální depozitní knihovna Nástroj pro doplňování bohemikálních konzervačních sbírek Tomáš Foltýn & Jiří Polišenský & Radek Nepraš Projekt NAKI DF12P01OVV007 Vytvoření kooperativního systému pro budování

Více

Microsoft SharePoint Portal Server 2003. Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR

Microsoft SharePoint Portal Server 2003. Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR Microsoft SharePoint Portal Server 2003 Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR Přehled Země: Česká republika Odvětví: Velkoobchod Profil zákazníka

Více

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR Bod programu: Věcné zpracování (možnosti obohacování dříve dodaných záznamů) Marie.Balikova@nkp.cz Pracovní skupina pro SK, 7.3.

Více

Identifikátor evropské judikatury ECLI Nejvyšší soud Úsek místopředsedy Nejvyššího soudu Oddělení dokumentace a analytiky judikatury ČR (ODAJ)

Identifikátor evropské judikatury ECLI Nejvyšší soud Úsek místopředsedy Nejvyššího soudu Oddělení dokumentace a analytiky judikatury ČR (ODAJ) Identifikátor evropské judikatury ECLI Nejvyšší soud Úsek místopředsedy Nejvyššího soudu Oddělení dokumentace a analytiky judikatury ČR (ODAJ) Konference České právo a informační technologie 2015 Právnická

Více

Indexace pro souborová uložiště a Vyhledávací centrum

Indexace pro souborová uložiště a Vyhledávací centrum Indexace pro souborová uložiště a Vyhledávací centrum Obsah I. Úvod... 2 II. Cíl dokumentu... 2 III. Fáze projektu... 2 IV. Popis jednotlivých fází projektu... 2 1. Fáze 1. - Analýza... 2 2. Fáze 2. -

Více

Otevřená data veřejné správy

Otevřená data veřejné správy Hradec Králové, 7. - 8. 4. 2014 Otevřená data veřejné správy Dušan Chlapek Fakulta informatiky a statistiky, Vysoká škola ekonomická v Praze Obsah 1. Co jsou otevřená data 2. Aktivity v oblasti otevřených

Více

Vzdělávací obsah vyučovacího předmětu

Vzdělávací obsah vyučovacího předmětu V.9.3. Vzdělávací obsah vyučovacího předmětu Vzdělávací oblast: Inormatika a informační a komunikační technologie Vyučovací předmět: Informatika Ročník: 1. ročník + kvinta chápe a používá základní termíny

Více

Digitalizace a zveřejnění sbírkových fondů paměťových institucí Zlínského kraje

Digitalizace a zveřejnění sbírkových fondů paměťových institucí Zlínského kraje Digitalizace a zveřejnění sbírkových fondů paměťových institucí Zlínského kraje Realizované projekty Digitalizace pořízení digitálních fondů Krajský digitální repozitář (KDR) systém pro uložení digitálního

Více

Informační systém pro správu sbírek idemus. Popis projektu vývoje nové generace informačního systému pro správu sbírek idemus

Informační systém pro správu sbírek idemus. Popis projektu vývoje nové generace informačního systému pro správu sbírek idemus Informační systém pro správu sbírek idemus Popis projektu vývoje nové generace informačního systému pro správu sbírek idemus Projekt vývoje nové generace informačního systému pro správu sbírek idemus si

Více

Ředitel odboru archivní správy a spisové služby PhDr. Jiří ÚLOVEC v. r.

Ředitel odboru archivní správy a spisové služby PhDr. Jiří ÚLOVEC v. r. VMV čá. 65/2012 (část II) Oznámení Ministerstva vnitra, kterým se zveřejňuje vzorový provozní řád archivu oprávněného k ukládání archiválií v digitální podobě Ministerstvo vnitra zveřejňuje na základě

Více

Národní digitální knihovna

Národní digitální knihovna Národní digitální knihovna Úskalí udržitelnosti a rozvoje v praxi Petr Kukač Konference CDA, 8. 11. 2018 Poslání, úkol, význam Digitalizovat moderní bohemikální produkci: ve finále až 310 milionů stran

Více

České internetové medicínské zdroje v Národní lékařské knihovně

České internetové medicínské zdroje v Národní lékařské knihovně České internetové medicínské zdroje v Národní lékařské knihovně Kateřina Štěchovská Národní lékařská knihovna, Praha stechovs@nlk.cz INFORUM 2005: 11. konference o profesionálních informačních zdrojích

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

TECHNICKÁ DOKUMENTACE

TECHNICKÁ DOKUMENTACE TECHNICKÁ DOKUMENTACE Dle ustanovení 44 a násl. zákona č. 137/2006 Sb., o veřejných zakázkách (dále jen zákon ) Název veřejné zakázky: Druh veřejné zakázky: Druh zadávacího řízení Obchodní společnost nebo

Více

Uvažujete o změně automatizovaného knihovního systému?

Uvažujete o změně automatizovaného knihovního systému? Uvažujete o změně automatizovaného knihovního systému? Eva Cerniňáková Seminář Regionální funkce knihoven, Pardubice 25.-26. 10. 2017 Knihovní softwary v ČR Komerční S otevřeným zdrojovým kódem (též open

Více

Představení systému. rev. 2.5. (únor 2014)

Představení systému. rev. 2.5. (únor 2014) Představení systému rev. 2.5. (únor 2014) Actavia obecně Actavia je moderní informační systém pro redakce vědeckých časopisů. Základy nejstarších modulů byly položeny již v minulém století, od té doby

Více

ebadatelna Zlínského kraje

ebadatelna Zlínského kraje ebadatelna Zlínského kraje Portál pro zpřístupnění digitálního obsahu paměťových institucí Zlínského kraje Ing. Vítězslav Mach, Krajský úřad Zlínského kraje, oddělení informatiky PhDr. Blanka Rašticová,

Více

DATOVÁ ARCHIVACE. Principy datové archivace a její výhody při migraci na SAP HANA. Štěpán Bouda Business Consultant

DATOVÁ ARCHIVACE. Principy datové archivace a její výhody při migraci na SAP HANA. Štěpán Bouda Business Consultant DATOVÁ ARCHIVACE Principy datové archivace a její výhody při migraci na SAP HANA Štěpán Bouda Business Consultant stepan.bouda@sabris.com KVÍZ Kdo uvažuje o migraci ERP na Suite on SAP HANA? Kdo uvažuje

Více

Systémy pro tvorbu digitálních knihoven

Systémy pro tvorbu digitálních knihoven Systémy pro tvorbu digitálních knihoven Vlastimil Krejčíř, krejcir@ics.muni.cz Ústav výpočetní techniky, Masarykova univerzita, Brno INFORUM 2006, Praha Obsah přednášky Úvod Fedora DSpace EPrints CDSware

Více

2014 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní

2014 Dostupný z  Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní Tento dokument byl stažen z Národního úložiště šedé literatury (NUŠL). Datum stažení: 29.01.2017 Zpřístupňování informačních zdrojů včetně šedé literatury v Zeměměřičské knihovně Drozda, Jiří; Synková,

Více

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových

Více

PhDr. Jindra Planková, Ph.D. Ústav informatiky, FPF Slezská univerzita v Opavě

PhDr. Jindra Planková, Ph.D. Ústav informatiky, FPF Slezská univerzita v Opavě PhDr. Jindra Planková, Ph.D. Ústav informatiky, FPF Slezská univerzita v Opavě Zajištění otevřeného a volného přístupu k plným textům na veřejném internetu, dovolující uživatelům číst, stáhnout, kopírovat,

Více

Otevřená a propojitelná data ve veřejné správě Národní katalog otevřených dat

Otevřená a propojitelná data ve veřejné správě Národní katalog otevřených dat Otevřená a propojitelná data ve veřejné správě Národní katalog otevřených dat Dušan Chlapek, Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze, Tomáš Kroupa, Ministerstvo vnitra - Odbor

Více

IntraVUE 2.0.3 Co je nového

IntraVUE 2.0.3 Co je nového IntraVUE 2.0.3 Co je nového Michal Tauchman Pantek (CS) s.r.o. Červen 2008 Strana 2/8 Úvod IntraVUE je diagnostický a podpůrný softwarový nástroj pro řešení komunikačních problémů, vizualizaci a dokumentaci

Více

DESET LET S THESES.CZ Ing. Jitka Brandejsová

DESET LET S THESES.CZ Ing. Jitka Brandejsová DESET LET S THESES.CZ Ing. Jitka Brandejsová OBECNÉ KONCEPTY Plagiát vs. software pro detekci podobností Cílem je kvalitnější vzdělání Schopnost práce s textem. Schopnost práce s citacemi. Akademická čest

Více

Informace k ICT projektům Ministerstva kultury

Informace k ICT projektům Ministerstva kultury Informace k ICT projektům Ministerstva kultury Ing. Josef Praks Ředitel Odboru projektového řízení a informačních technologií 19. konference Archivy, knihovny, muzea v digitálním světě 2018 Praha 28. a

Více

Primo Central. Martin Vojnar MULTIDATA Praha s.r.o.

Primo Central. Martin Vojnar MULTIDATA Praha s.r.o. Primo Central Martin Vojnar MULTIDATA Praha s.r.o. www.multidata.cz Kapitola 1: místo činu V roli knihovny sbírá dokumenty zpřístupňuje je uživatelům pečuje o své uživatele stejně jako o své sbírky? co

Více

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER váš partner na cestě od dat k informacím globtech spol. s r.o. karlovo náměstí 17 c, praha 2 tel.: +420 221 986 390 info@globtech.cz

Více