Zpráva o zhotoveném plnění



Podobné dokumenty
manuscriptorium Manuscriptorium v Evropě Manuscriptorium.com

Manuscriptorium v roce 2013

Manuscriptorium v roce 2013

PRODUKTY. Tovek Tools

Digitální kartotéky jako badatelské prostředí

PRODUKTY. Tovek Tools

On-line katalog On-line digitální knihovna

Digitální konkordance a Registr digitalizace v Manuscriptoriu,

Bc. Martin Majer, AiP Beroun s.r.o.

Manuscriptorium - 10 let

The bridge to knowledge 28/05/09

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

SRSW4IT Inventarizační SW. Prezentace aplikace. Vedoucí DP: ing. Lukáš Macura Autor: Bc. Petr Mrůzek

Tvůrčí prostředí Pro koho, proč, jak? Tomáš Psohlavec, AiP Beroun s.r.o. Listopad 2014

Vytvoření portálu odboru strukturálních fondů Ministerstva vnitra a zajištění jeho hostingu na serveru dodavatele

DATA ARTICLE. AiP Beroun s.r.o.

Pro malé i obří projekty

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

Nápověda pro aplikaci Manuscriptorium Kandidátů (M-Can)

RD.CZ : EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

Digitalizace a digitální knihovny v České republice

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

Máte to? Summon jako základní vyhledávací nástroj NTK

AiP Beroun, autor: Ing. Tomáš Psohlavec

PŘÍLOHA C Požadavky na Dokumentaci

Pilotní řešení. AiP Beroun, autor Mgr. Olga Čiperová

Příloha č. 1. k zadávací dokumentaci veřejné zakázky DATOVÝ SKLAD. Technická specifikace

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Manuál pro implementaci aplikace Na poštu

Vyhledávání na portálu Knihovny.cz

Business Intelligence

Manuscriptorium jako základ pro virtuální badatelské prostředí

RD.CZ EVIDENCE DIGITALIZOVANÝCH DOKUMENTŮ A SLEDOVÁNÍ PROCESU ZPRACOVÁNÍ

financnasprava.sk Portál Technologie Microsoft zjednodušují komunikaci občanů s Finanční správou SR a činí výběr daní transparentnějším.

NEJVYŠŠÍ SPRÁVNÍ SOUD

Versiondog Co je nového

DAN EST FIN FRA IR NEM NIZ POR RAK RUM SLO SWE VB CZ 0% 0% 0% 50% 0% 0% 0% 0% 0% 0% 0% 0% 100% 0%

TECHNICKÁ SPECIFIKACE VEŘEJNÉ ZAKÁZKY

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

Autor: ing. Tomáš Psohlavec a kolektiv AiP Beroun s.r.o.

Staré tisky digitalizované v rámci projektu Google Books zpřístupněné v Manuscriptoriu: výsledky, zkušenosti, plány

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

MBI - technologická realizace modelu

ZÁVAZNÉ FUNKČNÍ A TECHNICKÉ POŽADAVKY ZADAVATELE NA PROTOTYP

ODBORNÁ KNIHOVNA ČESKÉ POJIŠŤOVNY ONLINE SW ŘEŠENÍ AIP SAFE

Specifikace požadavků. POHODA Web Interface. Verze 1.0. Datum: Autor: Ondřej Šrámek

Indexace pro souborová uložiště a Vyhledávací centrum

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

Vývoj a využití plnotextových edic historických dokumentů v Manuscriptoriu

Tvorba vlastního obsahu v Manuscriptoriu. Olga Čiperová, AiP Beroun s.r.o

GIS v montérkách. Dalkia implementuje ArcGIS for Smartphone. Mgr. Ivana Niedobová Ing. Stanislav Šplíchal 21/11/2013

Centrální portál knihoven

Semestrální práce: Mashup. Observatory Star Explorer

Ředitel odboru archivní správy a spisové služby PhDr. Jiří ÚLOVEC v. r.

Produktový list Zboží.cz. PPC reklama Internetová reklama placená za proklik

Vyhledávač datových referencí. Dokumentace

Systém JSR představuje kompletní řešení pro webové stránky malého a středního rozsahu.

PRODUKTY Tovek Server 6

Manuscriptorium. Návaznosti Manuscriptoria na evropské informační prostředí. Inforum Tomáš Psohlavec, AIP Beroun s.r.o

NA CESTĚ K MANUSCRIPTORIU VAŠE DOKUMENTY V MODERNÍ DIGITÁL- NÍ KNIHOVNĚ

Lenka Maixnerová, Alena Šímová, Helena Bouzková, Filip Kříž, Ondřej Horsák, Marie Votípková. Národní lékařská knihovna, Praha, Česká republika

Úvod. Klíčové vlastnosti. Jednoduchá obsluha

Budování virtuální depozitní knihovny. Tomáš Foltýn

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

ebadatelna Zlínského kraje

Microsoft SharePoint Portal Server Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR

Reranking založený na metadatech

06/03/15. Exekuce ios. Deliverable 01. Vojtěch Micka mickavoj Naim Ashhab ashhanai

DESET LET S THESES.CZ Ing. Jitka Brandejsová

Správa VF XML DTM DMVS Datový model a ontologický popis

Tomáš Klimek, Referát Manuscriptorium, NKČR Olga Čiperová, AiP Beroun s.r.o.

Kartotéky Augusta Sedláčka

Nové funkce a technologie v současných a budoucích verzích Invenia. Jiří Kunčar

INFORUM Špalíček digitální knihovna kramářských tisků (spalicek.net)

Popis egon služ by. E231 - rppvypisseznamukonunazadost. Název dokumentu: Popis egon služeb Verze: Datum aktualizace: Správa základních registrů

RDF DSPS ROZVOJ PORTÁLU

Aplikace pro elektronicke odesla nı da vky Listu o prohlı dce zemr ele ho a dals ı ch da vek do NZIS.

Co je (staro)nového v DSpace

Geis Point Plugin Map

Digitalizace a Digitální archiv Státního oblastního archivu v Třeboni po čtyřech letech. Výsledky a perspektivy dalšího vývoje

Přístupové body v systému DigiArchiv. Ing. Martin Hankovec, Státní oblastní archiv v Třeboni

Interaktivní Úřední deska (IUD) popis systému

univerzální konektor pro napojení internetových obchodů a dalších aplikací na systém Altus Vario.

ANL+ Veronika Ševčíková Národní knihovna ČR

14 Deník poradny. Popis modulu. Záložka Deník poradny

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Přizpůsobení Layoutu aplikace. Základní moduly a funkčnost aplikace

Možnosti využití dat RÚIAN poskytovaných VDP pomocí webových služeb

Představuje. Technický Informační Systém nové generace

Co nového ve spisové službě? Národní standard pro elektronické systémy spisové služby a jeho optimalizace

Webová stránka. Matěj Klenka

Specifikace rozhraní. Oznamovací povinnost podle zákona č. 307/2013 Sb., ve znění pozdějších předpisů. Martin Falc, SW architekt.

Nové rozhraní je optimalizované pro aktuální verze prohlížečů. Pro práci s tímto rozhraním není vhodný Internet Explorer.

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Nasazení mobilního GIS

Transkript:

Zpráva o zhotoveném plnění Aplikace byla vytvořena v souladu se Smlouvou a na základě průběžných konzultací s pověřenými pracovníky referátu Manuscriptorium. Toto je zpráva o zhotoveném plnění. Autor: Ing. Tomáš Psohlavec, AiP Beroun s.r.o. Obsah Cíle projektu... 1 Dosažená Funkcionalita konvenční hledání... 1 Specifické funkce konvenčního vyhledávání... 3 Výsledky vyhledávání... 3 Dosažená Funkcionalita - porovnávání s uživatelským textem... 4 Technické předpoklady funkčnosti řešení... 4 Interakce s API pro porovnávání plných textů... 4 Požadavky na vstupní data (plné texty)... 5 Dostupnost aplikace... 6 Uživatelské rozhraní... 6 Web Services pro porovnání... 6 Závěr... 6

Cíle projektu Cílem projektu bylo vytvoření samostatné on-line prezentační databáze s uživatelským rozhraním, ve kterém budou zajištěny funkce vyhledávání nad plnými texty, jakož i funkce porovnávání uživatelského textu s plnými texty dostupnými v databázi. Záměrem řešení je zapojit do poloprovozu této databáze API projektu porovnávání plných textů historických dokumentů (dále jen API pro porovnávání), které pro tyto potřeby vytvářela v rámci institucionárního výzkumu Národní knihovna České Republiky. Cílem bylo vytvořit samostatně funkční databázi jako integrovanou součást souboru služeb, které Manuscriptorium nabízí koncovým uživatelům. To znamená, že databáze je vytvořena tak, že obslužné aplikace disponují vlastním uživatelským rozhraním a používají databázi struktury optimalizované pro plné texty a oddělené od ostatních databází systému Manuscriptoria. Zároveň to znamená, že uživatelské rozhraní je vizuálně shodné s prostředím Manuscriptoria a že v uživatelském rozhraní bude možno využívat fragmenty obsahu hlavních databází Manuscriptoria (například obrazy), jak je popsáno níže. Dosažená Funkcionalita konvenční hledání Obrázek 1: volba pro konvenční vyhledávání Aplikace zajišťuje vyhledávání na úrovni na úrovni fragmentů textu. Oproti předběžným analýzám, které uvažovaly vyhledávání na úrovni jednotlivých stran textu, je výsdledné řešení schopno vyhledávat na jemnější úrovni na úrovni jednotlivých odstavců textu. Indexovanými záznamy v databázi plných textů jsou tedy odstavce a vyhledaným elementem je odstavec. Odstavce jsou při indexaci sdružovány podle své délky do jednotlivých záznamů. Jedním záznamem je tedy jeden nebo několik málo odstavců. 1

Obrázek 2: výsledky vyhledávání Vytvořená aplikace však podporuje také zobrazování typu 1 záznam = 1 odstavec (pokud by data měla být v budoucnu indexována tímto způsobem. Testování aplikace však ukazuje, že aktuální způsob je optimální z hlediska výkonu i srozumitelné z hlediska práce uživatele). Analýza dostupného obsahu vyloučila možnost strukturovat databázi způsobem 1 záznam = 1 dokument, neboť součástí databáze mohou být i extrémně dlouhé dokumenty (například přepis bible). Při předání aplikace je k dispozici plnohodnotné fulltextové vyhledávání. Nicméně aplikace je vytvořena tak, že v případě potřeby lze vyhledávání omezit následujícími položkami (lze v případě potřeby konfigurovat i vytvářet další, zde nevyjmenované, vyhledávací položky). Očekáváme, že tato konfiguraci bude upravována dle zkušeností z poloprovozu (předpokládáme do 30. 6. 2012). Místní identifikátor Kód fyzického umístění Datum poslední modifikace Cesta k souboru Zkratka profilu Titul, Signatura, Knihovna Kód jazyka Text 2

Databáze podporuje vyhledávání ve variantních zápisech textů (různočtení) a to nejen v režimu vyhledávání samostatných slov, ale také v režimu slov v udaném pořadí a vzdálenosti. Obrázek 3: výsledek vyhledání s výskytem různočtení Specifické funkce konvenčního vyhledávání V souladu se zaměřením obsahu databáze a s ohledem na možné způsoby vzniku textových dat (ruční přepis, OCR a podobně) vyhledávání využívá specifické technologie: tolerance chybně přepsaných slov a grafemické vyhledávání. Tyto funkce žádoucím způsobem rozšiřují výsledky vyhledávání tím, že tolerují určitou míru chyb (tolerance - jeden chybný znak) nebo definované grafemické varianty zápisu (grafémy). Grafémy jsou konfigurovatelné a způsob jejich nastavení bude laděn za pomoci zkušeností a zpětné vazby od odborných uživatelů během poloprovozu. Výsledky vyhledávání Výsledkem vyhledávání, jak již bylo uvedeno, je seznam relevantních odstavců, ve kterých se hledané výrazy vyskytují. Možnost prolistovat textová data daného dokumentu jako celku po jednotlivých stránkách je zajištěna kontextovými odkazy, které využívají pokročilé zobrazení textových dokumentů v Manuscriptoriu (včetně například edic, poznámek, různočtení) a při zobrazení plného textu jsou kompletně převzata pravidla zobrazení, jak byla dosud využívána při zobrazení plných textů v Manuscriptoriu (návaznost na prototyp z VaV 2007). Prezentační databáze plných textů je vzájemně propojena s ostatními databázemi systému Manuscriptoria. To umožňuje propojit výsledky vyhledávání s ostatními informacemi v systému. Proto je po vyhledávání, kromě možnosti zobrazit plný text, k dispozici také kontextový odkaz vedoucí na existující popis či digitální kopii relevantního dokumentu. Je tak zajištěno simultánní zobrazení obrazových dat, pokud ta jsou pro daný dokument a jeho zobrazovanou stránku v Manuscriptoriu dostupná. Propojení opačným směrem, pokud jsou k popisům či faksimiliím k dispozici plné texty v databázi fulltextů, je také zajištěno. 3

Přestože systém pro dané informace používá oddělené databáze, procesy zpracování i aplikace, podařilo se zachovat podstatnou část vizuální podoby práce s plnými texty, pokud jde o jejich zobrazení a logiku uživatelského interface. Uživatel nepostřehne, že jeho požadavky nad příbuznými informacemi vykonávají dvě nezávislé obslužné aplikace. Dosažená Funkcionalita - porovnávání s uživatelským textem Cílem implementace bylo zprovoznit koncovým uživatelům vybrané základní funkce popsané ve Zprávě ke smlouvě Smlouva o spolupráci ve výzkumu a vývoji Zdokonalení virtuálního badatelského prostředí Manuscriptoria Využití srovnávání fulltextů pro vyhledávání v Manuscriptoriu z roku 2011, konkrétně porovnávání uživatelského textu s fulltexty aktuálně dostupnými v Manuscriptoriu. Aplikace byla vytvořena tak, že využívá API, které je dostupné jako Web Services. Uživatel má k dispozici interface umožňující vložit uživatelský text, který v Manuscriptoriu nemusí být obsažen a může požádat systém o nalezení podobností v plných textech, které v Manuscriptoriu obsaženy jsou. Uživatelským textem může být jak plain-text v UTF-8 vkládaný prostřednictvím formuláře v interface nebo XML validní dle XML schématu TEI P5 ENRICH schema. V souladu s možnostmi API pro porovnání plných textů jsou výsledky porovnání s daným uživatelským textem uživateli přehledně vizualizovány včetně informace o míře vzájemné shody. Pro danou dvojici podobných textů je možno vybrat detailní zobrazení, které srozumitelně vizualizuje podobnou část. Uživatel snadno může posoudit, zda podobný text je hledaným textem a může s ním dále pracovat pomocí obvyklých nástrojů Manuscriptoria. Technické předpoklady funkčnosti řešení Celé řešení předpokládá synchronizaci obsahu databáze plných textů a databáze, se kterou pracuje aplikace pro porovnávání plných textů. Databáze NKCatalog, se kterou pracuje aplikace pro porovnávání plných textů, bude do budoucna vhodnou formou přebírat data z databáze plných textů za účelem předzpracování a to včetně platných identifikátorů. Provoz - přebírání dat a work-flow aktualizace databází obou aplikací, bude dojednán v průběhu poloprovozu. V současnosti jsou připraveny exportní moduly, které fulltextová data připravují k importu do databáze, se kterou pracuje API pro porovnávání plných textů. Synchronizací obou databází je umožněno popsané řešení. Interakce s API pro porovnávání plných textů Mezi oběma aplikacemi jsou během porovnávání předávána nikoliv kompletní XML data, ale pouze identifikátory XML dat obsažených v obou databázích. Komunikace s API pro porovnávání je vedena pomocí Web Services a pro poloprovoz je bezestavová. 4

API podporuje dvě funkce: 1. Funkce, která vrací seznam podobných plných textů. Vrácen je seznam identifikátorů používaných v databázi plných textů, informace o míře shody pro každý identifikátor a dále veškeré další informace potřebné pro vizualizaci. Parametry funkce jsou následující: uživatelský text, jazyk, formát, maximální počet shod. 2. Funkce, která vrací informace o míře shody a podklady pro vizualizaci při porovnání dvou konkrétních textů. Není vraceno kompletní XML, ale podklady potřebné pro vizualizaci. Parametry funkce jsou následující: uživatelský text, identifikátor vybraného textu z databáze plných textů, jazyk uživatelského textu. Obrázek 4: Schéma systému Požadavky na vstupní data (plné texty) Aby byla umožněna základní funkčnost celého systému, musí platit následující: Vstupní data jsou předávána ke zpracování do Manuscriptoria ve formě XML, jednotlivé XML soubory jsou validní podle formátu TEI P5 ENRICH schema. Text ve vstupních datech je strukturován v souladu se schématem na úroveň odstavců textu. Každý plný text je opatřen identifikačními informacemi v souladu s obecně platnými minimálními požadavky systému Manuscriptorium (country, settlement, repository, idno v msdesc/msidentifier). Každý plný text je opatřen informací o jazyce textových dat. Pokud je v plném textu použito více jazyků, bude součástí metadat indikace jazyka dané části textu. 5

Dostupnost aplikace Uživatelské rozhraní Kompletní systém aplikací je v okamžiku předávání veřejně přístupný také jako služba na http://www.dbase.cz/manuscriptorium/apps/ftts/index.php. Na uvedeném URL bude služba přístupná do 31. 12. 2012. K 1. 1. 2013, po zapracování případných připomínek ze strany Zadavatele, přesune Řešitel aplikace i s databázemi na produkční servery systému Manuscriptorium, kde bude systém provozovat v souladu se Smlouvou. Aplikace bude dostupná odkazem z webového rozhraní systému Manuscriptoria. Web Services pro porovnání Web Sservices pro porovnání jsou dostupné pouze na základě domluvy s Národní knihovnou České republiky pro vyprané IP adresy. Závěr Vytvořená aplikace zatím završuje práci předchozích etap vývoje a výzkumu. Během poloprovozu budou sbírány informace, na jejichž základě může dále dojít k další optimalizaci, převedení do plného provozu nebo vývoji, v závislosti na zkušenostech odborných uživatelů aplikace. 6