DIGITALIZACE Synergie archivních institucí a poskytovatelů služeb v přípravné fázi digitalizace fondů Ústí nad Labem 4. září 2013 scanservice a.s. Náchodská 2397/23 193 00 Praha 9 ing. Miroslav Khodl technologický konzultant miroslav.khodl@scanservice.cz
Co lze očekávat od masivní digitalizace Kalkulovaný počet stran Maximální počet svazků: 120 180 stran / hodinu / os. velikost, stav -> skener (RKS, M) Průměrná skenovací rychlost pro bezproblémové svazky (1sken = 2 st.) 180 700 stran / hod Písmo Gotika : Latinka Ruční zpracování gotického OCR Hranice pro manuální zpracování: 70 % gotika, 30 % latinka (častý a nepředpokládaný mix) 5 28 min /stránku (cca 11 000 znaků A3+) od 10-20 % gotika od 5-10 % latinka Prioritizace M+P na úkor ostatních 2
IDEÁLY versus REALITA Zdigitalizujeme všechen uměnovědní fond Zeměkoule (Europeana apod.) Zdigitalizujeme veškeré písemnosti obývaného regionu a sem tam přidáme vybraný 3D objekt, hudbu Zkusíme zajistit financování pro ohrožené fondy a vzácnosti Abychom stihli využít prostředky, vybereme cokoliv snadno a rychle digitalizovatelného, protože čas a množství jsou měřenými jednotkami Nemusíme nic moc chystat, Zhotovitel je tu od toho psaný i sázený, hudební, fotografický, malířský, architektonický, sběratelský knihovny, muzea, galerie, archivy, soukromé sbírky a jejich kombinace příprava dle podmínek finančního donátora (IOP, granty, sponzoring, výhodné smlouvy ) Několik desítek ročníků seriálových titulů s velkým počtem stran, sebrané spisy, slovníky vydané koncem 20. století mnohdy fatální stav připravenosti, díla nevhodná pro průmyslové zpracování, typově neodpovídající zadání 3
IDEÁLY versus REALITA Všechny tituly chceme digitalizovat na nejméně 600 dpi (pokud se vyskytne obrázek) Máme napočítáno přesně 350 000 stránek, ale když na to příjde, můžeme jakékoli množství přidat nebo ubrat při zachování vysoutěžené ceny Podmínka účasti ve výběrovém řízení: dodávka pro vždy platných licencí na technologie (M$, Kakadu, ocr, db ) Další z podmínek: projekt musí plně odpovídat standardu NDK, ale navíc chceme (dodávku PS_tiff, pdf, aby se obrázky nedaly stáhnout z internetu ) workflow na zakázku umí zpravidla jednu hodnotu rozlišení, více průchodů je užíváné zejména kvůli typologii svazků dodavatelé zaměstnávají lidi, platí amortizace strojů a aby přežili, zpracovávají paralelně větší množství zakázek. Větší změna bývá špatně v každém případě klíčový používaný a osvědčený SW je zpravidla placen ročně nebo cpp, svobodný SW zatím pokulhává kombinace mnohdy technicky protichůdných požadavků, např. strojové OCR dle NDK a chybovost pod např. 5 % OCR 4
IDEÁLY versus REALITA Digitalizujte periodika a monografie, ale naceňte nám stránky podle A3, A2, A1 (ale nikoli dle PLOCHY těchto formátů) Další z podmínek: projekt musí plně odpovídat standardu NDK, ale dodáme vám sbírkové předměty nebohemikální provenience a evidované navíc nejlépe pouze jako sbírkový předmět Domněnka manažerů: Národní knihovna definuje bezchybné standardy pro každou digitalizaci který účastník běžně pracuje s novinami přesných A formátů nechť zvedne ruku, dokud si jej nevšimnu ;) užitečnější je zadání rozsahu skladby a Naskenovat lze prakticky vše včetně díry obklopené kovovým masivem, spojitost se standardy NDK ovšem očekáváme začátkem roku 3024 Zkušenost: NK definuje pro vnitřní systém digitalizace své de-facto podnikové standardy, navenek fungují jako doporučení. Závaznost plyne spíše ze záměru užití LTP. Každý reálná proces obsahuje chyby a jejich odstraňováním se vyvíjí. 5
IDEÁLY versus REALITA Se svazky nemusíme už nic dělat, jsou v technicky dobrém stavu. Když dodáme předlohy na kyselém papíře, zajístíte odkyselení. Nevíme ale, kolika stránek se to týká, nicméně cena je konečná a neměnná,poraďte si Cena za znovuvyvázání svazku je moc velká, ústav na ni nemá, raději nebudeme rozvolňovat těsná vazba ve hřbetu znamožní kvalitní celostránkový sken, sníží se kvalita OCR a chybí sloupce písmen v obraze pro LTP i K4/5 Součástí přípravy Zadavatele musí být posouzení vhodnosti rozvolnit. N.C. ;) Cílem digitalizace je krom úschovy a zpřístupnění právě odstavení originálu z procesu výpůjček, stačí tedy uložit do archivního boxu např. z produkce EMBy 6
Mántry řídících pracovníků KNIŽNÍ SKENOVÁNÍ Mántrou projektových pracovníků jsou harmonogramy, přičemž Zhotovitelům není prakticky nikdy dopředu znám stav příprav na straně Objednatele. Mnohdy ani ředitelé zúčastněných institucí nevědí nic o tom, že se počítá se zápůjčkou jejich fondu Harmonogam je pomůcka pro dynamické řízení projektu, nikoli konstanta. Aktualizujte beze strachu a podle vzájemné potřeby! Nevyžadujte vrácení fondu do 4-6 týdnů, není-li to zhola nezbytné. Díky chybám v číslování je fyzická předloha dobrou pomůckou a v případě poškození skenu nezbytností. Děje se to, kdyby ne, neexistovaly by procesy toto řešící! Platíme vám dost. (Všechny projekty IOP, VISK apod. jsou hrazeny po úplné akceptaci části nebo celého díla. Zhotovitel nese náklady ke své tíži i několik měsíců po finální předávce, zálohy neexistují.) 7
Mántry řídících pracovníků KNIŽNÍ SKENOVÁNÍ Lidí je všude dostatek, nákup technologií je důležitější. Neobydlený dům vlhne od základů, nepracující technologie je mrtvá už při nákupu. Tuto práci může dělat skoro každý. -> Odbornost a dostatečná kapacita budoucího personálu KDJ či osob zpřístupňujících statisíce PSP balíčků s jednotlivými výstupy monografií a periodik je podmínkou nutnou. Dokud byla produkce spíše testem možností, mohli být tyto práce vykonávány bokem. Údržba a správa rostoucí digitální knihovny je kvalifikovaná práce na pomezí knihovníka programátora pracovníka IT Digitalizace znamená naskenovat, nafotit, popsat a vrátit. -> Spektrum přípravných prací je mnohem širší. Je například nutné dohodnout pojištění děl, hranice odpovědností, závozy, počítat s průběžnou údržbou, s vymezením prostor na velmi dlouhou dobu (přestěhování technologie v podobě tunového skeneru je noční můra), s rozvolněním děl, očistou od prachu apod., s popisem děl po přejímce list po listu, popřípadě i s dobou pro nákup a vyzkoušení nových technologií (např. zpracování RTG snímků, skleněných desek s požadavkem na >10 tisíc dpi, letecké snímkování, prostorové 3D skeny apod.) 8
JAK LZE SPOLUPRACOVAT NA DÁLKU dynamika nestíhaných projektů 9
Knižní skenery 4DigitalBook co by měl vědět projekťák MINI-DL-i & Scan2Page - vytěžování strojů 2x A3 2 x A2+ 10
Knižní skenery 4DigitalBook KNIŽNÍ SKENOVÁNÍ Kniha založená v knižní kolébce mapy a volné nadrozměrné přílohy se skenují na průtahovém skeneru A0 leckdy prohlášeny za vhodné pro robotické zpracování i v případě složených leporel apod. přílohy 11
Řešení Scan4Book 6 bodů zapamatování Procesy pro digitalizaci monografií a periodik dle NDK 2012 Založení zakázky Safebook Zakázka = monografie nebo svazek periodik = čárový kód Protokoly, fyzický stav svazků Logování operací OCR ScanBus + Abbyy SDK Rozpoznání textu pomocí OCR Tvorba ALTO XML (boxing), TXT (fulltext) Výpočty úspěšnosti rozpoznání znaků a slov Pořízení obrazů Skenování pomocí aplikace pro obsluhu knižního skeneru Vložení naskenovaných obrazů do zakázky, přiřazení profilů s metadaty pomocí aplikace ScanPortal. MDE Safebook MDE: paginace, určení typu stran, rekatalogizace Doplnění popisných metadat Rozdělení svazku na intelektuální entity Přesun a mazání stran Začlenění obrázků po importu, sloučení Kontroly - prevalidace PT ScanBus Návrh a manuální korekce úprav obrazů Ořez, vyrovnání textu, snížení průsvitu PSP Safebook Získání URN:NBN z Resolveru Kompletace PSP dle NDK 2012 Verifikace validátorem NDK 12
Přehled svazků (knihovny, archivy) KNIŽNÍ SKENOVÁNÍ Hmotnost a velikost svazků obvyklé podmínky pro skenování: do 10 cm výšky hřbetu a 10 kg R E A L I T A 13
Příprava projektu: 2-3 roky, synergie ve fázi příprav Co předchází výběru svazků pro digitalizaci fyz. příprava a založení do RD vyhledání zdrojů v katalozích i fyzicky zjištění stavu a úplnosti knihovních, archivních a sbírkových fondů akviziční činnost pro kompletaci sbírek doplnění identifikátorů (ččnb, kde lze) prostřednictvím NK předání dat Registru digitalizace, příznak připravenosti vyjednání zápůjček od archivních institucí vyjednání zápůjček od mimoregionálních institucí fyzická příprava vybraných děl k určeným datům na místa svozu po spuštění pr. 14
Přehled svazků (knihovny, archivy) KNIŽNÍ SKENOVÁNÍ Svazek periodika s přílohou snadno opomenutelnou při robotickém skenování 15
Přehled svazků (knihovny, archivy) Svazky periodik: a. se všitou reklamou b. se dvěma deníky a občasnými přílohami KNIŽNÍ SKENOVÁNÍ a) reklama na šicí stroje (neřezáno) b) dvojí nepravidelně se střídající ččnb 16
Přehled svazků (knihovny, archivy) KNIŽNÍ SKENOVÁNÍ Vzhled některých stránek Tmavé oblasti na okrajích - průhledná páska 17
Přehled svazků (knihovny, archivy) KNIŽNÍ SKENOVÁNÍ Není Palcát jako Palcát aneb změna formátu během roku vhodné upozornit v poznámce o knize 18
Přehled svazků (knihovny, archivy) Monografie má smysl skenovat v barvě; (u periodik na denní bázi jde spíše o nejasné autoritativní kompetence ) 19
Přehled svazků (knihovny, archivy) Dlooouuuhéééé a šíroké stránky 20
Děkujeme za pozornost Ústí nad Labem 4. září. 2013 SYNERGIE = Ten umí to a ten zas tohle, a všichni dohromady uděláme moc 21