Velká data v knihovnách Open source tools and their use in Czech libraries



Podobné dokumenty
Česká digitální knihovna agregace digitálního obsahu českých knihoven

Příprava legislativy povinného výtisku elektronických publikací v České republice (e-depozit)

Z papíru na web a ke čtenáři aneb Digitalizace není jen skenování. Mgr. Monika Oravová Moravskoslezská vědecká knihovna v Ostravě

Vyhledávání na portálu Knihovny.cz

Digitalizace a digitální knihovny v České republice

Digitalizace v ČR a její podchycení v registru digitalizace. Helena Dvořáková Národní knihovna ČR

Federativní autentizace v portálu Knihovny.cz, mojeid, IdP sociálních služeb, požadované atributy u Knihovny.cz

Projekt CDArcha: kooperativní zpracování datových CD disků. Zdeněk Hruška, Petr Žabička Moravská zemská knihovna v Brně AKM 2018

Seminář pro vedoucí knihoven a SVI ústavů AV ČR. Aleph

CO NOVÉHO V PROJEKTU OBÁLKYKNIH.CZ

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

Zapojování knihoven do Centrálního portálu knihoven. Petr Žabička, Moravská zemská knihovna v Brně

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

Projekt NAKI e-deposit

Národní digitální knihovna

Digitalizace knihovních dokumentů. Jiří Polišenský

České digitalizační projekty, jejich výsledky a agregace

Silný portál. Jindřiška Pospíšilová. Pracovní skupina pro silný portál. Národní knihovna ČR

Novinky v projektu OBÁLKYKNIH.cz

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Zpřístupnění kulturního dědictví v digitální podobě v ČR prostřednictvím knihoven

Seminář pro vedoucí knihoven a SVI ústavů AV ČR

ZPŘÍSTUPNĚNÍ KARTOGRAFICKÝCH MATERIÁLŮ A DALŠÍ VÝSLEDKY PROJEKTU TEMAP

Obsah. MZK a fonotéka - východiska Co jsme doposud udělali Co je skryto za portálem Další kroky

Obsah. MZK a fonotéka - východiska Co jsme doposud udělali Co se skrývá za branou portálu Budoucnost a další možné kroky

Krajská digitalizace ve Středočeském kraji aktuální stav

Datové centrum a Regionální SAN kraje Vysočina. Projekt digitalizace a. Petr Pavlinec, KrÚ kraje Vysočina. Září 2009

Vyhledávání a georeferencování map

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR

Centrální portál knihoven a knihovní systémy. Petr Žabička, Moravská zemská knihovna v Brně

Odevzdávání a příjem e-publikací

Přístup k národnímu webovému archivu. Tomáš Síbek a Lukáš Gruber

Metodika budování sbírky Webarchivu

Centrální portál knihoven

DIGITALIZAČNÍ PROJEKTY KRAJE VYSOČINA. Únor 2015

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Elektronické publikace v NK ČR. Mgr. Martin Žížala Národní knihovna ČR

Seminář pro vedoucí knihoven asviústavů AV ČR ASEP

webových zdrojů Mgr. Jan HUTAŘ Bc.. Lukáš JKA Mgr. Ludmila CELBOVÁ

Máte to? Summon jako základní vyhledávací nástroj NTK

Projekt HISPRA aneb Jak využít digitalizaci MKP v dalších knihovnách. 12. Května 2011, Jelení Hora

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

Strategie budování sbírky Webarchiv u

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

WEBARCHIV ÚVOD, CÍLE, PODMÍNKY, REALITA. Katalogizace v knize Národní knihovna České republiky

Masarykova univerzita Fakulta informatiky. Kramerius PV070. Jan Holman

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Projekt digitalizace a ukládání v regionech. Petr Pavlinec, KrÚ kraje Vysočina Březen 2010

2014 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní

Národní digitální knihovna v cílové rovince

Obálky knih.cz - rozvoj projektu v roce 2016

Účast NK ČR v projektu Norské fondy - digitalizace bohemikálních monografií ohrožených degradací papíru. Jiří Polišenský

Příloha č. 1. Návrh aplikace pro správu a archivaci XML dokumentů Zpracoval: Ing. Jan Smolík, CSc

Nové nástroje pro staré mapy

Jan Pokorný MULTIDATA Praha PRIMO. od čtenářského OPAC ke čtenářskému portálu

Kramerius - zpřístupnění digitálních kopií v ČR

ebadatelna Zlínského kraje

Virtuální národní fonotéka. Archivy, knihovny, muzea v digitálním světě 2013 Filip Šír a Petr Žabička

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Koncept projektu Obálky knih.cz podpora obálek a obsahů vícesvazkových děl a periodik

Ukládání a archivace dat

A DALŠÍ VÝSLEDKY PROJEKTU TEMAP. Petr Žabička, Moravská zemská knihovna v Brně

Certifikace Národní digitální knihovny podle ISO normy Jan Mottl AiP Safe s.r.o.

Česká (národní?) článková bibliografie přežitek, nebo moderní služba čtenářům?

ANL+ a AMGK+ aneb malé indexy v obrazech. Martin Vojnar

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Elektronické služby v kontextu Koncepce rozvoje knihoven ČR na léta

DIGITALIZOVANÉ FONDY VĚDECKÉ KNIHOVNY V OLOMOUCI A KDE JE HLEDAT. Miloš Korhoň, Jan Houserek

Digitální knihovny v České republice

Vyhledávání v souborných katalozích

Virtuální depozitní knihovna Nástroj pro doplňování bohemikálních konzervačních sbírek. Tomáš Foltýn & Jiří Polišenský & Radek Nepraš

Zpracování dokumentů. PhDr. Libuše Machačová Vědecká knihovna v Olomouci

Novinky na portálu Knihovny.cz

Představení digitalizačních projektů Národní technické knihovny a spolupráce v rámci ebooks on Demand

DIGITALIZAČNÍ PROJEKTY KRAJE VYSOČINA. Portál digitálního kulturního dědictví Kraje Vysočina. Listopad 2017

Seznámení s přípravou platformy pro zajištění služeb dodávaní dokumentů včetně MVS: ZÍSKEJ - I

Stav implementace perzistentních identifikátorů v NK ČR a výhled do budoucna. Jan Hutař Marek Melichar Ladislav Cubr

O Národní digitální knihovně. Jan Mottl AiP Safe s.r.o.

Novinky v e-zdrojích NLK. Adéla Jarolímková, NLK

Linked Heritage. Koordinace standardů a technologií za účelem obohacení Europeany. Alena Součková

e-pv_kalkulace nákladů pro NK - osobní náklady

Souhrnná zpráva o plnění cílů retrospektivní konverze katalogů českých knihoven realizované v roce 2013 v rámci programu VISK 5 RETROKON

Co od nás uslyšíte. představíme:

Informační vzdělávání PdF

Digitální knihovny v České republice

ProArc open source řešení pro produkci a archivaci digitálních dokumentů

Lenka Maixnerová, Filip Kříž, Helena Bouzková, Ondřej Horsák, Adéla Jarolímková, Eva Lesenková

210 mm ISBN. International Standard Book Number (Mezinárodní standardní číslo knihy)

Aktuální stav a vývoj e-publikací a projektu NAKI

Projekt Digitalizace a ukládání ve Zlínském kraji zkušenosti, postřehy

Portál Knihovny.cz. Ing. Petr Žabička Moravská zemská knihovna v Brně. Bibliotheca academica, Plzeň

Bibliografické a rešeršní služby

Open Bibliography Data. ( Matouš Jobánek

Souborný katalog ČR pro veřejné knihovny Veřejné knihovny pro Souborný katalog ČR

Příprava Centrálního portálu českých knihoven

Práce s identitami na portálu knihovny.cz. Petr Žabička Moravská zemská knihovna v Brně

Digitální knihovna MZK a mobilní aplikace Kramerius Královéhradecká knihovnická konference

2008 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 3.0 Česko

DIGITÁLNÍ UNIVERZITNÍ REPOZITÁŘ. Andrea Fojtů Ústav výpočetní techniky UK v Praze

Transkript:

Velká data v knihovnách Open source tools and their use in Czech libraries Petr Žabička www.mzk.cz

Obsah 1. Úvod 2. Souborný katalog 3. Obálky knih 4. Digitalizace 5. Digital born dokumenty 6. WebArchiv 7. Centrální portál knihoven 8. Závěr

Informace a knihovny Knihovny mají tisícilenou tradici uchovávání, zpracování, vyhledávání a zpřístupňování informací na analogových nosičích...... a relativně krátkou dobu i informací v podobě digitální.

Bibliografický záznam Bibliogafický standard MARC vznikl v 60. letech... Z39.2 -> ISO 2709: Documentation Format for bibliographic information interchange on magnetic tape...a stále se nemá k odchodu do důchodu http://marc-must-die.info/

Bibliografický záznam Bibliogafický standard MARC vznikl v 60. letech... Z39.2 -> ISO 2709: Documentation Format for bibliographic information interchange on magnetic tape...a stále se nemá k odchodu do důchodu http://marc-must-die.info/ Problém: setrvačnost Cca 1 milion knihoven Miliardy bibliografických záznamů (převážně v MARCu)

Bibliografikcý záznam ČR: téměř 10 tis. knihoven Souborný katalog ČR: 384 knihoven 12,8 mil. svazků = 5,8 mil. titulů Největší knihovny mají do databázové podoby převedeno jen cca 50% svých lístkových katalogů Kvalita záznamů odpovídá kvalitě katalogizačních záznamů...

Souborný katalog ČR

Souborný katalog ČR Roční přírůstek: zasláno cca 1,3 mil. záznamů 200 tis. nepřijato kvůli chybám 745 tis. úspěšně automaticky deduplikováno (SK nedrží jednotlivé dodané záznamy, jen 640 tis. připsáno 85 tis. přepsáno 400 tis. přidáno jako nové ruční práce: 25 tis. deduplikováno, 50 tis. Smazáno

Souborný katalog ČR Problém: jak identifikovat záznamy stejných knih vzniklé v různých knihovnách? Absence identifikátorů (ISBN v ČR až od 1989) Rozdíly ve způsobu zápisu (+překlepy) Rozdíly v přístupu ke katalogizaci (vícesvazková díla, přívazky apod.) Chyby v identifikátorech uvedených v záznamu Stávající deduplikační procedury nelze vyladit lépe chybovost vs. úspěšnost propojení významný podíl ruční práce

ObalkyKnih.cz Zdroj pro obohacování záznamů v katalozích Poskytují náhledy obálek a obsahy knih knihovnám v celé ČR Nově i sdílené komentáře a hodnocení 917 719 obálek a 115 143 obsahů (25.11.) českých a zahraničních publikací. Zdroje: nakladatelé, knihkupci, knihovny cca 1 TB dat Provozuje Jihočeská vědecká knihovna

ObalkyKnih.cz Převažuje kooperativní skenování (skenovací klient vyvinutý MZK, komunikace přes API) 200-300 nahraných titulů / den 4 GB dat obálek / den OCR obsahů zajišťuje server Využíváno více než 180 knihovnami Datový tok 20 Mbit/s 1,5 mil. požadavků za den (17 za sekundu) Open source systém, otevřený vývoj

ObalkyKnih.cz Problém: jak propojit naskenované či stažené obálky se záznamy v knihovním katalogu Role identifikátorů: ISBN, ISSN, EAN OCLC number číslo České národní bibliografie (ččnb) přiděluje Národní knihovna ČR nutná zpětná synchronizace katalogů přes souborný katalog ČR

Digitalizace V ČR knihovnami naskenováno přes 34 mil. stran dokumentů přes 120 tis. svazků cca 10% celkové produkce vydané u nás koordinace prostřednictvím Registru digitalizace digitální knihovna Kramerius (free, open source) Jpeg 2000 + IIPImage; OCR: ALTO XML (ABBYY) Solr (Lucene) index, Fedora Repository digitální produkce (dobrovolně poskytovaná) převažuje pdf, jinak problém s DRM MZK vyvíjí open source klient pro Android

Digitalizace Národní digitální knihovna (NK + MZK) Od konce 2012 skenováno cca 50 tis. stran denně Ukládání v lossless jpeg2000 (LTO5 robot) Zpřístupnění v lossy jpeg2000 (1:8 1:20) 25 mil. stran v Krameriu = 220 GB Solr fulltext index 25 mil. stran v Krameriu = 1,8 TB Fedora (OCR+metadata) 25 mil. stran v Krameriu = 725 GB Postgres (triplet vazby) V současnosti: 94000 monografií, 1025 periodik Stále roste Konce projektu: 2014 + 5 let udržitelnost (financování?)

Digitalizace Problémy: jak dokumenty organizovat, zpřístupňovat jak provádět aktualizace (např. nové verze OCR z lossless obrazových dat) jak dokumenty třídit z věcného hlediska (nedostatečná metadata) jak dokumenty dlouhodobě uchovávat (digital preservation) jak nacházet/opravovat chyby v OCR automatická konverze do epub apod. autorský zákon

Digital born Problémy: Digitální dokumenty na fyzických nosičích ve fondu knihoven (min. desítky tisíc nosičů, převážně CD, DVD) Jak je spolehlivě přenést do digital preservation systému (včetně např. CD audio, DVD apod.) Velká roztříštěnost formátů Jak uchovávat software? Co ebooky s DRM? Elektronický povinný výtisk...?

WebArchiv Archiv českého webu od roku 2001 (Internet Archive od 1996) Open source nástroje pro sklízení, indexaci, zpřístupnění Archivní formát arc, od 2012 warc (ISO 28500) arc cca 100 MB, warc cca 1 GB Smlouvy o zpřístupnění (4200 webů) Primárně doména.cz (přes 1 mil. domén)

WebArchiv Sklízení českého webu Heritrix 3, distribuovaně, deduplikace v rámci 1 roku 87 TB v archivu, 626000 arc + 39000 warc souborů Celkem 1,2 mld. URL Uloženo na GPFS, úvahy + menší testy Hadoop Není fulltextová indexace 10-15 domén na 1 celoplošnou sklizeň domény.cz Cca 5000 dotazů na doménu 9 crawlerů vytvoří 10 TB archiv během 5,5 dne

WebArchiv Problémy: Sklizně umírají na nedostatek místa nebo málo RAM Sklízení mimo doménu.cz nutnost dokončení vývoje WebAnalyzeru Tvorba fulltextu při ukládání do stávajícího LTP systému = desítky let pro uložení stávajícího archivu Pro zpřístupňování archivu nutné diskové úložiště Jak archiv otevřít pro výzkum Hledání pilotních záměrů pro jeho využití

Centrální portál knihoven Plánovaný portál pro zpřístupnění zdrojů knihoven Integrace metadat a ideálně i plných textů Předpokládané zahájení vývoje 2015 v MZK Na bázi open source systému VuFind (jádro Solr index) Obdoba finna.fi Integrace zdrojů zejména velkých knihoven Praktické testy: VuFind.mzk.cz CistBrno.cz NarodniFonoteka.cz HistorickeFondy.cz

Centrální portál knihoven Očekávané výzvy: Správa sklízení značného množství zdrojů dat a metadat Integrace různorodých zdrojů a jejich specifik časová osa (vydání, platnost, o době) plné texty vs. Metadata geografické hledání (mapy, místa vydání, o místě) smysluplné fasety (filtry) obohacení záznamů o relevantní služby (přístup k dokumentu, digitalizace na vyžádání apod.) Deduplikace (i na úrovni díla (?)) Jak legálně vytvářet a prohledávat fulltextový index zdroje, jehož plný text není možné získat (např. normy)?

atd. atd. Děkuji za pozornost! Petr Žabička petr.zabicka@mzk.cz www.mzk.cz