RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury 1775-1945 Vojtěch Malínek, Ústav pro českou literaturu AV ČR, v. v. i.
RETROSPEKTIVNÍ BIBLIOGRAFIE ČESKÉ LITERATURY 1775-1945 lístková kartotéka zpracovávána od 30. let cca 525 zpracovaných titulů novin a časopisů vycházejících na území českých zemí v češtině i němčině cca 1,65 mil. excerpt primární i sekundární článková bibliografie (tj. včetně beletrie a překladů + neliterární texty českých literátů; široké přesahy do příbuzných oborů: divadlo, žurnalistika, historie...) promyšlené řazení, dodnes živá autorská, odkazová, předmětová, dešifrační a dešifrátová část; ikonické katalogy; odkaz na týž článek může být v kartotéce opakovaně (různá kritéria)
http://retrobi.ucl.cas.cz/retrobi/katalog/listek/08f52d88327df54ab8aff94c85717200.wicket-5
SYSTÉM RETROBI grantový projekt: Digitalizace lístkového katalogu Retrospektivní bibliografie české literatury 1775-1945 poskytovatel dotace: MŠMT doba řešení: 10/2009-12/2011 cíl: digitalizace kartotéky + vývoj vhodného software pro její prezentaci http://retrobi.ucl.cas.cz/
SYSTÉM RETROBI Problémy při zpracování dat 1) různorodá kvalita (strojopis, rukopis, barevný inkoust, průklepy, různé druhy a tloušťky papíru...) 2) oboustranné a vícelístkové lístky a jejich spárování 3) mechanická příprava a kontrola lístků 4) detekce prázdných stran 5) napojení na OCR přepisy a databázové struktury 6) volba grafického formátu vhodného pro OCR rekognoskaci, webovou aplikaci a archivaci 7) volba skeneru 8) nastavení Fine Readeru 9) kontrola integrity dat Formát výstupu: Objem zpracovávaných dat: oboustranný barevný TIFF, 600 dpi (26 MB) cca 90 TB, záloha cca 20 TB (tif), 1 TB (png)
SYSTÉM RETROBI Nástroj 1 detekce prázdných stran spárování víceobrázkových lístků přejmenování souboru na tvar zkratka části katalogu-název skupiny-pořadové číslo lístkupořadové číslo obrázku, tj. např. 0234582.tif O-Čapek, Karel 1930-224-2.tif automatizovaná kontrola vstupních a výstupních dat ruční kontroly sudých stran (otáčení lístků, makulatury)
SYSTÉM RETROBI Nástroj 2 spojení lístků s jejich OCR textovým přepisem v jednu databázovou položku (jedno- i vícelístkové lístky) konverze tiffů na záložní png (z 26 MB na 1 MB) a prohlížecí png na web (do 50 kb) export dat do webové aplikace separována stromová struktura jako členicí kostra možnost uploadu tiffů i png kontrola integrity dat (obrázky bez txt atp.) kontrolní log
SYSTÉM RETROBI Webová aplikace 1) Prohlížení oskenovaných obrázků 2) Fulltextové vyhledávání 3) Uživatelské nástroje 4) Nástroje pro uživatelskou editaci 5) Nástroje pro administrátorskou editaci 6) Administrátorské rozhraní pro správu dat a uživatelských účtů
SYSTÉM RETROBI Prohlížení oskenovaných obrázků průchod katalogem zobrazení variantních podob lístku zobrazení OCR přepisů zobrazení vyplněných datových struktur (OCR přepis, jeho korekce, segmentace, položkový rozpis) http://retrobi.ucl.cas.cz/retrobi/rejstrik
SYSTÉM RETROBI Fulltextové vyhledávání vyhledávací engine Lucene vyhledává fráze či řetězce možnost využití divokých karet hledání abecedního / číselného intervalu jednoduchý i kombinovaný dotaz s logickými operátory omezení na část/i katalogu omezení dle kvality textového přepisu, popř. na konkrétní položku omezení na schránku možnost rozlišovat velká a malá písmena připraveny algoritmy pro položkové vyhledávání
SYSTÉM RETROBI Nástroje pro uživatelskou editaci možnost editace OCR textů možnost segmentace OCR textů zkvalitnění vyhledávání generován text ve formátu normovaného bibliografického zápisu
SYSTÉM RETROBI Uživatelské nástroje možnost vytváření vlastních rešerší (schránka) možnost ukládat vlastní schránky (na vlastní PC i v rámci aplikace) možnost přidat vlastní komentář systém uživatelských hlášení
SYSTÉM RETROBI Nástroje pro administrátorskou editaci funkce pro uživatele s oprávněním editor možnost položkového rozpisu možnost hromadné editace dat možnost změny statutu lístku možnost generovat krycí lístek možnost měnit obrazové soubory u lístku
SYSTÉM RETROBI Administrátorský modul evidence a správa uživatelských hlášení (včetně automatických hlášek o přepisu) evidence a správa uživatelských účtů evidence a správa doprovodných textů (nápovědy, legendy atp.) možnost vytvořit rejstříky pro jednotlivá pole kontrolní csv logy
SYSTÉM RETROBI Statistiky a zkušenosti spuštěn na jaře 2012 200 registrovaných uživatelů cca 700 unikátních uživatelů/měsíc cca 50 návštěv/den cca 10 000 přepsaných lístků projekt bibliografie Arne Nováka http://knihovna.phil.muni.cz/arne-novak modifikace pro jiné kartotéky
RETROSPEKTIVNÍ BIBLIOGRAFIE ČESKÉ LITERATURY 1775-1945 Počet excerpčních lístků v Retrospektivní bibliografii Počet stránek lístku AUT ODK PT DE IA IO IAn. ID IP Celkem 1 640442 667129 62800 101906 6155 27930 353 33 426 1507174 2 31671 19525 3568 2848 106 411 1 0 5 58135 3 666 338 28 2 0 0 0 0 1 1035 4 168 249 12 3 0 0 0 0 0 432 5 13 1 0 0 0 0 0 0 0 14 6 17 0 1 1 0 0 0 0 0 19 7 a více 9 17 0 0 0 0 0 0 0 26 Celkem 672986 687259 66409 104760 6261 28341 354 33 432 1566835
RETROSPEKTIVNÍ BIBLIOGRAFIE ČESKÉ LITERATURY 1775-1945 Statistiky Rok Počet záznamů 1830 130 1848 13 526 1900 8 321 1920 17 986 1930 44 159 1945 3 753 Osoba Karel Hynek Mácha Božena Němcová Karel Čapek Počet záznamů 2727 2931 4946
DEN S RETROSPEKTIVNÍ BIBLIOGRAFIÍ ČESKÉ LITERATURY 11. prosince 2012 Ústav pro českou literaturu AV ČR, v. v. i. Na Florenci 3/1420, Praha 1 představení systému odborný seminář kulatý stůl http://www.ucl.cas.cz/
SYSTÉM RETROBI Děkuji za pozornost. Web: Email: http://retrobi.ucl.cas.cz/ retrobi@ucl.cas.cz Kontakty: Ústav pro českou literaturu AV ČR Středisko literárněvědných informací