Staré tisky digitalizované v rámci projektu Google Books zpřístupněné v Manuscriptoriu: výsledky, zkušenosti, plány



Podobné dokumenty
Tvůrčí prostředí Pro koho, proč, jak? Tomáš Psohlavec, AiP Beroun s.r.o. Listopad 2014

Digitální konkordance a Registr digitalizace v Manuscriptoriu,

Manuscriptorium - 10 let

České digitalizační projekty, jejich výsledky a agregace

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Manuscriptorium. Návaznosti Manuscriptoria na evropské informační prostředí. Inforum Tomáš Psohlavec, AIP Beroun s.r.o

Digitalizace a digitální knihovny v České republice

Zpráva o zhotoveném plnění

MANUSCRIPTORIUM Digitalizace rukopisů VKOL. Miloš Korhoň Vědecká knihovna v Olomouci

Vývoj a využití plnotextových edic historických dokumentů v Manuscriptoriu

Účast NK ČR v projektu Norské fondy - digitalizace bohemikálních monografií ohrožených degradací papíru. Jiří Polišenský

NA CESTĚ K MANUSCRIPTORIU VAŠE DOKUMENTY V MODERNÍ DIGITÁL- NÍ KNIHOVNĚ

Manuscriptorium v roce 2013

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Autor: ing. Tomáš Psohlavec a kolektiv AiP Beroun s.r.o.

Kartotéky Augusta Sedláčka

Manuscriptorium v roce 2013

Z papíru na web a ke čtenáři aneb Digitalizace není jen skenování. Mgr. Monika Oravová Moravskoslezská vědecká knihovna v Ostravě

Digitalizace a zveřejnění sbírkových fondů paměťových institucí Zlínského kraje

Digitalizace knihovních dokumentů. Jiří Polišenský

Máte to? Summon jako základní vyhledávací nástroj NTK

Portál ebadatelna Zlínského kraje a zpřístupnění map. Prezentace historických map z fondu paměťových institucí Zlínského kraje

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com

Pro malé i obří projekty

Zpřístupnění děl nedostupných na trhu v digitální podobě

Tomáš Klimek, Referát Manuscriptorium, NKČR Olga Čiperová, AiP Beroun s.r.o.

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

Manuscriptorium jako základ pro virtuální badatelské prostředí

Zpřístupnění kulturního dědictví v digitální podobě v ČR prostřednictvím knihoven

On-line katalog On-line digitální knihovna

REFORMÁTOVÁNÍ, DIGITÁLNÍ KNIHOVNA, KRAMERIUS PRO VÁS A TROCHU JINAK

Nové služby veřejných knihoven v digitálním prostředí (zpřístupnění děl nedostupných na trhu) Knihovny současnosti 2017 Olomouc

Projekt HISPRA aneb Jak využít digitalizaci MKP v dalších knihovnách. 12. Května 2011, Jelení Hora

Příloha č. 1. Návrh aplikace pro správu a archivaci XML dokumentů Zpracoval: Ing. Jan Smolík, CSc

INFORUM Špalíček digitální knihovna kramářských tisků (spalicek.net)


Digitální kartotéky jako badatelské prostředí

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Ukládání a archivace dat

Staré mapy TEMAP - elearning

ebadatelna Zlínského kraje

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Digitalizace v ČR a její podchycení v registru digitalizace. Helena Dvořáková Národní knihovna ČR

Pedagogická knihovna ZČU

Obsah. Úvodem 9 Kapitola 1 Jaký počítač a jaký systém? 11. Kapitola 2 Obrázky a fotografie 21

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

co uživatel? Vilém Sklenák Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství

DIGITALIZACE DOKUMENTŮ

Národní digitální knihovna a digitalizace v muzeích a galeriích

Digitální knihovny v České republice

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Stav digitalizace jednotlivých fondů Národní knihovny České republiky

Tvorba vlastního obsahu v Manuscriptoriu. Olga Čiperová, AiP Beroun s.r.o

Bc. Martin Majer, AiP Beroun s.r.o.

Nápověda pro aplikaci Manuscriptorium Kandidátů (M-Can)

Velká data v knihovnách Open source tools and their use in Czech libraries

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

Technologická centra krajů a ORP

Popis a zpřístupnění záznamů performativního umění - výzvy a možná řešení. Bohuš Získal, CESNET / NFA

AiP Beroun, autor: Ing. Tomáš Psohlavec

OptimiDoc dokáže takové dokumenty zpracovat a distribuovat napříč firmou.

Výměnný formát XML DTM DMVS PK

Centrální portál knihoven a knihovní systémy. Petr Žabička, Moravská zemská knihovna v Brně

Informační zdroje pro výzkum v ČR (Informace o výsledku závěrečného vyhodnocení programu INFOZ)

ÚČAST NK ČR V PROJEKTU NORSKÉ FONDY DIGITALIZACE BOHEMIKÁLNÍCH MONOGRAFIÍ OHROŽENÝCH DEGRADACÍ PAPÍRU

Jak upéct a nespálit grant v oblasti digitalizace v ČR?

Mobilní aplikace pro prezentaci kulturního dědictví paměťových institucí

Digitalizace historických dokumentů NK ČR v r / Národní knihovna ČR projekt úspěšně realizován

Od zpřístupnění rukopisů přes komerční archivy k LTP, aneb 20 let praxe s dlouhodobým uložením dat.

Historické fondy MZK a. spolupráce. Jitka Machová Moravská zemská knihovna v Brně machova@mzk.cz

Virtuální depozitní knihovna Nástroj pro doplňování bohemikálních konzervačních sbírek. Tomáš Foltýn & Jiří Polišenský & Radek Nepraš

Ing. Věra Svobodová. Ústav vědecko-pedagogických informací a služeb. E- knihy na MENDELU

Do knihovny skrze webový prohlížeč

Virtuální depozitní knihovna

INTERNETOVÁ DATABÁZE KRAMÁŘSKÝCH TISKŮ

KATALOG JIHOMORAVSKÝCH HISTORICKÝCH SBÍREK V MORAVSKÉ ZEMSKÉ KNIHOVNĚ V BRNĚ

Grantové programy na podporu knihoven. Roman Giebisch Národní knihovna ČR

Jak pomáháme našim klientům

Národní digitální knihovna

Česká (národní?) článková bibliografie přežitek, nebo moderní služba čtenářům?

Sluţba Karlovarského kraje pro ukládání dokumentů a dat na území kraje

Virtuální národní fonotéka. Archivy, knihovny, muzea v digitálním světě 2013 Filip Šír a Petr Žabička

Úpravy Datum Verze Typ Autor Revize staršího dokumentu StP Úpravy ŠČ, FS D v 01 Finalizace StP, FS, SC, JK

v praxi českých knihoven Václav Jansa ÚISK FF UK

Zpřístupnění děl nedostupných na trhu v digitální podobě

FOTOARCHIV ČGS. Pavel Bokr Tamara Sidorinová.

Digitální knihovny v České republice

Národní knihovna ČR. stručná historie organizace hlavní úkoly a poslání otázky. Hanuš Hemola. Národní knihovna ČR

Bibliografické a rešeršní služby

DATA ARTICLE. AiP Beroun s.r.o.

VYHLEDÁVÁNÍ PLNÝCH TEXTŮ Mgr. Adam Kolín, NLK

Přístupové body v systému DigiArchiv. Ing. Martin Hankovec, Státní oblastní archiv v Třeboni

EOD Elektronické knihy na objednávku. Rostislav Krušinský

Aplikace pro průzkum fyzického stavu novodobých knihovních fondů. Tomáš Foltýn & Anna Vandasová & Petra Vávrová &Tereza Jamborová

Souhrnná zpráva o plnění cílů retrospektivní konverze katalogů českých knihoven realizované v roce 2013 v rámci programu VISK 5 RETROKON

Digitalizace pražské židovské literatury v Městské knihovně v Praze

Koncepce trvalého uchování a zpřístupnění tradičních textových dokumentů. Tomáš Foltýn

Formulace cílů výzkumu na r ve vazbě na dotaci z NNV

Transkript:

Staré tisky digitalizované v rámci projektu Google Books zpřístupněné v Manuscriptoriu: výsledky, zkušenosti, plány Tomáš Psohlavec, AiP Beroun s.r.o. Květen 2015

Projekt NKČR Hromadná digitalizace historických a vzácných dokumentů ve spolupráci se společností Google Jde o staré tisky různých oborů, tj. kromě církevní literatury jsou to tisky z oblasti přírodních věd (matematika, fyzika, astrologie, astronomie, medicína, botanika, alchymie, počátky chemie), dále právo, geografie, cestopisy, romány, hry, ale i gramatiky, slabikáře, kuchařky, zemědělské příručky apod. Z hlediska jazykového převažují latinské, německé a české tisky, jsou však zastoupeny i jiné evropské jazyky.

Co se děje s dokumenty v projektu Google Books Výběr dokumentu (datace, dochování) Restaurování Vytvoření popisu (není-li) Převoz Digitalizace Vrácení Zpřístupnění

Co se děje s dokumenty v projektu Google Books

Měsíčně prohlédnuto 1 200 1 500 svazků Polovina odesílaného objemu je opravována. Foto E. Hodíková, NKP

V drtivé většině případů se jedná o drobné opravy (zpracovávány jsou dobře dochované exempláře) Foto E. Hodíková, NKP

V rámci jednoho transportu je převezeno 2 500 8 000 svazků. Foto E. Hodíková, NKP

V rámci jednoho transportu je převezeno 2 500 8 000 svazků. Foto Štěpán Černohorský, AiP Beroun

Projekt v číslech Trvání: 2011-2016 Časové zařazení dokumentů: 1501 1880 Aktuálně zpracováno: Digitalizováno 51 599 dokumentů Z toho pro Manuscriptorium: 40 000 dokumentů (produkce do roku 1800) Aktuálně již v Manuscriptoriu: 21 635 dokumentů (import pokračuje) Plán pro rok 2015: Dalších cca 20 000 dokumentů

Produkce Google Books v kontextu kompletního obsahu Manuscriptoria 46 000+ 379 000+ 11 000 000+ komplexních digitálních dokumentů popisných záznamů obrazů stran

Produkce Google Books v kontextu kompletního obsahu Manuscriptoria 20+ zemí 100+ poskytovatelů obsahu Obsahem přispívají nejvýznačnější správci digitálních dokumentů, jako jsou národní knihovny, univerzitní knihovny a jiné typy institucí. Z hlediska Manuscriptoria je Google Books jedním z mnoha zdrojů

Dvě fáze integrace do Manuscriptoria Fáze 2014 (realizováno): Stahování produkce z Google Výroba konverzních mapování dle definice VISK6 (= Manuscriptorium Compatible) Výroba konverzní aplikace a provedení konverze Nahrávání komplexních digitálních dokumentů do CDÚ NKČR Provedení importu do Manuscriptoria Fáze 2015 (plán): Rozšířit funkcionalitu Manuscriptoria pro hledání nad OCR a jeho zobrazování Rozšířit funkcionalitu aplikací Manuscriptoria Připravit infrastrukturu v NKČR (pozicované texty jsou objemné, cca 2x 250 GB dat fulltextů) Propojení s Alephem NKČR

Co se děje s dokumenty v projektu Google Books

Ukázky, zkušenosti, kvalita

Teyné Rady Ssubarta dobře mjniené wolánj na wssecky sedláky (Google Books)

Teyné Rady Ssubarta dobře mjniené wolánj na wssecky sedláky (Manuscriptorium)

Kvalita OCR u produkce Google Books Relativně dosti chybové (s ohledem na objem a rychlost je zřejmě málo prostoru pro optimalizaci) Využitelné pro usnadnění hledání, v lepších případech i pro další práci s textem

OCR: Directorium Divini Officii Secundum Ritum Sacri et Canonici Ordinis Praemonstratensis Latinsky, latinkou - použitelné

OCR: Directorium Divini Officii Secundum Ritum Sacri et Canonici Ordinis Praemonstratensis

OCR: Directorium Divini Officii Secundum Ritum Sacri et Canonici Ordinis Praemonstratensis

OCR: Directorium Divini Officii Secundum Ritum Sacri et Canonici Ordinis Praemonstratensis

OCR: Das Ander Teil der Böhmischen Chronica VVenceslai Hagecii Německy, švabachem - použitelné?

OCR: Das Ander Teil der Böhmischen Chronica VVenceslai Hagecii

OCR: Teyné Rady Ssubarta dobře mjniené

OCR: Teyné Rady Ssubarta dobře mjniené Česky, frakturou OCR obsah prakticky nepoužitelný

OCR: Teyné Rady Ssubarta dobře mjniené

OCR vs. Plné texty Edice plných textů vznikají nákladnou ruční prací (znalostní požadavky, časové nároky, finanční nároky) Velmi vysoká kvalita samozřejmostí Často opatřené poznámkovým aparátem, výkladem, překladem Jen několik stovek dokumentů

OCR vs. Plné texty

OCR vs. Plné texty

OCR vs. Plné texty

Kvalita skenování Obrazová kvalita je relativně nízká Neřeší se vyrovnání Neřeší se správný ořez Neřeší se barevná kalibrace

Kvalita výstupů vs. konečný užitek: pozitiva jednoznačně převažují V souvislosti s projektem nárůst produkce popisů Množství dokumentů restaurováno Digitální informace se dostávají k badatelům Obrazy jsou minimálně dobře čitelné OCR ve většině případů minimálně pomůže vyhledatelnosti Nic nebrání kvalitní výběrové digitalizaci speciálních exemplářů zpřístupnění je zdarma zakotveno ve smlouvě, je to podmínka pro obě strany a je to podmínka Google

Manuscriptorium je projekt Národní knihovny České republiky (www.nkp.cz). Manuscriptorium technicky zajišťuje AiP Beroun s.r.o. (www.aipberoun.cz). Děkuji za pozornost! Tomáš Psohlavec, AiP Beroun s.r.o. (tomas.psohlavec@aipberoun.cz)

Kontakty 1. Obecné informace: info@manuscriptorium.com 2. Agregace, koordinace obsahu: zdenek.uhlir@nkp.cz 3. Agregace, technické otázky: tomas.psohlavec@aipberoun.cz 4. Uživatelská podpora, podpora partnerům: michal.zyka@aipberoun.cz