Aplikace vytěžování dat



Podobné dokumenty
Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

POPIS FORMÁTU CSV PRO ZADÁNÍ HROMADNÉ PLATBY A EXPORTU POHYBŮ NA/ Z BANKOVNÍHO ÚČTU 1 ZÁKLADNÍ POPIS 2 2 PŘÍKLAD IMPORTNÍHO SOUBORU HROMADNÉ PLATBY 2

Co nového ve spisové službě? Národní standard pro elektronické systémy spisové služby a jeho optimalizace

Uživatelská příručka SBOX

MOJESODEXO.CZ ZADÁVÁNÍ OBJEDNÁVEK PAPÍROVÝCH PRODUKTŮ. Uživatelský manuál

Uživatelská příručka pro ředitele škol

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Postupy práce se šablonami IS MPP

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Internetový obchod ES Pohoda Web Revolution

ZEMĚMĚŘICKÝ ÚŘAD. Uživatelská příručka - Metadatový editor MDE. Pod Sídlištěm 9/1800, Praha 8. Verze IS nebo části IS: Účel poslední změny:

Osnova kurzu OBSLUHA PC ZÁKLADNÍ ZNALOSTI. pilotního projektu v rámci I. Etapy realizace SIPVZ

Příloha 1 Specifikace předmětu plnění

ZZVDPN20 v1.0 Žádost o změnu způsobu výplaty při DPN

OptimiDoc dokáže takové dokumenty zpracovat a distribuovat napříč firmou.

Engineering report. Engineering report. Obsah:

Nápověda pro vyplnění elektronického formuláře Oznámení o provedení asanace vytěženého jehličnatého dříví

DATABÁZE MS ACCESS 2010

Návrh funkcí webových služeb (WS) pro komunikaci mezi Informačním systémem datových schránek (ISDS) a spisovými službami (SS)

ipko biznes Formáty importu dat ELIXIR-O

E R B I N T E R N E T - B A N K A H ROMADNÉ

Příprava dat v softwaru Statistica

PLÁN ZIMNÍ ÚDRŽBY. Uživatelská dokumentace Originál Datum: 7. září 2015 Verze: 1.0

PŘÍKAZ K ZADÁNÍ SEPA PLATBY V APLIKACI MULTICASH KB

Česká pošta - podání on-line

MS Word. verze Přehled programů pro úpravu textu

OpenOffice Writer, zkratkové klávesy (výběr) Vytvořil: Mgr. et Mgr. Martin Hladký, Ph.D. Datum: 9. ledna

Práce s texty, Transformace rastru, Připojení GPS

UŽIVATELSKÁ PŘÍRUČKA PRO INTERNETBANKING PPF banky a.s.

Dávky zahraničních příkazů ve formátu Multicash

NOVINKY V INTERNETOVÉM BANKOVNICTVÍ PRO PODNIKATELE ÚNOR 2019 SEZNAMTE SE S NOVINKAMI, KE KTERÝM JSTE NÁS INSPIROVALI.

8.2 Používání a tvorba databází

Název atributu Popis Dat. typ Délka Povinnost Kontroly Element Hodnota Sekce na Pole na formuláři/

Návod na základní používání Helpdesku AGEL

xrays optimalizační nástroj

47 Mapování přístupnosti

Chybová hlášení METODIKA MET-01/2014. SZR-56-1/OPICT-2013 počet stran 28 přílohy 0. Nahrazuje:

Specifikace předmětu plnění Datová tržiště

2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

Kontrolní hlášení DPH (CZ) od verze Klient 5.12.a

Webové služby DPD. Verze

Manuscriptorium v roce 2013

MBI - technologická realizace modelu

Aplikace Moje DPD Přidání bankovního účtu pro odplacení dobírkové částky

Aplikace pro srovna ní cen povinne ho ruc ení

Modul IRZ návod k použití

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

T6: Program MS Excel II. (standard) Určeno pro získání standardní úrovně znalostí (2 4 hodiny)

Jazz EDI GI Příručka uživatele

Flexi uživatelská příručka verze 2.1

Národní šetření výsledků žáků v počátečním vzdělávání

Uživatelský manuál

UŽIVATELSKÁ PŘÍRUČKA ČSOB BUSINESSBANKING 24 POPIS FORMÁTU TXT

Možnosti tisku v MarushkaDesignu

UŽIVATELSKÁ PŘÍRUČKA PRO INTERNETOVÉ BANKOVNICTVÍ PPF banky a.s.

Předmluva k druhému vydání 13. Úvod 17. ČÁST 2 Vytváření dokumentů XML 65

Národní elektronický nástroj. Import profilu zadavatele do NEN

Rozdílová dokumentace k ovládání IS KARAT.net

Novinky ISÚI a VDP verze 2.1 (aktualizováno dne 13. prosince 2016)

ABBYY Automatizované zpracování dokumentů

AC FORM FILLER. aplikace pro podání žádosti o poskytnutí finančního příspěvku. Verze 1.0

Uživatelský návod pro zpracování geometrických plánů na webu

Příloha č. 1. k zadávací dokumentaci veřejné zakázky DATOVÝ SKLAD. Technická specifikace

Návod Démos24plus verze 2012

Popis produktu IDFU. Řešení součinnosti s oprávněnými osobami verze 2. Aegis s.r.o.

Část 3 Manuál pro správce

VÝPOČET ODDLUŽENÍ: REFAKTORIZACE ZÁLOŽKY... 1 DATOVÁ SCHRÁNKA FORMÁT ZFO... 3 DATOVÁ SCHRÁNKA ÚPRAVA FUNKČNOSTI TLAČÍTKA OZNAČIT JAKO PŘEČTENÉ...

l Kontakt s klientem SSP Popis automatizované komunikace s ÚP ČR v součinnosti a exekuci

M4 PDF rozšíření. Modul pro PrestaShop.

[RDM] STRUČNÁ UŽIVATELSKÁ PŘÍRUČKA. CENTRÁLNÍ REGISTR PODPOR MALÉHO ROZSAHU - de minimis

l Kontakt s klientem SSP Popis automatizované komunikace s ÚP ČR v součinnosti a exekuci

Popis a ovládání. Aplikace 602XML Filler

1 Import platebních příkazů

Allegro release ( do )

ŘEŠENÍ PRO ŘÍZENÍ FIREM Jednání. JRV.CZ s.r.o. RosaData Jednání. Uživatelský manuál. Jiří Rouča [Vyberte datum.] JRV.CZ s.r.o. Bulharská Brno

Popis výměnného formátu XML

Datové modelování II

PRODUKTY. Tovek Tools

Představuje. Technický Informační Systém nové generace

Český účetní standard č. 708 Odpisování dlouhodobého majetku

Personální evidence zaměstnanců

DUM 06 téma: Tvorba makra pomocí VBA

Dávky tuzemských a zahraničních příkazů ve formátu TXT

VYTVÁŘENÍ DATABÁZÍ, VKLÁDÁNÍ ÚDAJŮ

Neuronové časové řady (ANN-TS)

UŽIVATELSKÁ PŘÍRUČKA PRO INTERNETBANKING PPF banky a.s.

NOVINKY v PROGRAMU DOCHÁZKA ADS

Příručka pro editaci kontaktů na eagri

Constructo. Uživatelská příručka

PŘÍLOHA C Požadavky na Dokumentaci

Co je nového ve verzi PROFIT-SQL Build z

Technický popis struktury ABO formátu pro programátory

MANUÁL K PROGRAMU JEDNODUCHÝ SKLAD (VER-1.2)

MOJESODEXO.CZ MOJESODEXO.CZ. Uživatelský manuál. Verze aplikace: Aktualizováno: :05. Strana 1 / 1

Transkript:

Aplikace vytěžování dat Funkcionalita aplikace Tato sekce popisuje stavájící funkcionalitu aplikace. Stav projektu Aplikace je v současnosti ve fázi prototypu, který lze v relativně krátkém čase 2 měsíců nasadit pro produkce. Chybí dodělat klíčovou vlastnost čtění dat z PDF souborů. Zbytek vlastností je na dodělky drobnějšího charakteru a na odladění s dotestovaním. V současnosti je nutné určit, jak se bude projekt používat. Jak se bude komunikovat s okolím. Je třeba obdržet nějaká testovací data v řádu 14 dní. Dále je třeba domluvit i finační stránku projektu. Konkrétní vlastnosti a jejich stav popíši v sekci Popis jednotlivých částí aplikace. Co aplikace umí Účelem aplikace je vytěžení textových dat z PDF nebo plaintext dokumentů. Vytěžená data mohou být předána ve zvoleném formátu. Co aplikace nemá z pohledu jejího návrhu umět Pro začátek neplánuji nějakou větší integraci s OCR aplikací. Není v plánu, aby aplikace dělala s rozpoznanými daty nějaké výpočty. Popis jednotlivých částí aplikace Obsahuje stručný popis funkčnosti a screenshoty aplikace. Editor šablon

Základní komponentou aplikace je editor rozpoznávacích šablon. Editor umožňuje: tvorbu rozpoznávací šablony visuální náhled vytěžených dat určení klasifikace šablony tvorbu jednotlivých entit šablony. tvorba masek a označování textu labelů jednotlivých entit s nabídnutím vytvoření entity daného datového typu. Entitu je možné vytvořit v samostatném panelu. editaci rozpoznávacích parametrů entit náhled vytěžených dat v GUI náhled dat v XML formátu náhled XML dat rozpoznávací šablony editace atributu šablony a entity(jméno, popis, dlouhý popis, identifikátor) Náhled editoru editace prvku entity

Náhled rozpoznaných dat v editoru

Náhled rozpoznaných dat v interním XML formátu Editor šablon editace rozpoznávacích parametrů tabulky

Editor šablon XML formát rozpoznávací šablony

Pro tvorbu rozpoznacích šablon se používají kolekce předdefinovaných datových typů. Jednotlivé prvky entit sestavujeme z povolených prvků předdefinovaných datových typů. Pro prvky faktury používáme datové typy určené pro faktury, například pro dodejky můžeme použít jiné datové typy. Tím je zaručeno, že použijeme prvky s dohodnotými identifikátory a určenou četností výskytu a tyto prvky a jejich identifikátory bude možné použít pro tvorbu výstupního formátu dat pro export. Přehled rozpoznávacích šablon Je možná tvorba šablon zcela od začátku, klon šablony, editace šablony, smazání šablony, pokud není přiřazena již nějaké rozpoznávací úloze.

Uživatel má k dispozici přehled dávek se soubory k rozpoznání. Editor dávek

Uživatel si může vytvářet dávku souborů/dokumentů k rozpoznání. Zároven může přejít na visuální editor, kde uvidí konkrétní rozpoznaná data.

Každá rozpoznávací šablona má svoji interní dávku. Tvůrce rozpoznávací šablony si může oveřit funkcionalitu rozpoznávací šablony.

Konktétní rozpoznávače dat Rozpoznávání a validace dat Aplikace v současnosti umožňuje rozpoznávat a validovat tyto datové typy: Jméno rozpoznávače Validace Poznámka Číslo celé, desetiny, znaménka Řetězec i víceřádkový, i ze slovníku IČ DIČ

rodné číslo bankovní účet variabilní symbol konstantní symbol specifický symbol IBAN SWIFT kód množství-číslo částka-číslo procentická hodnota měrná jednotka měnová jednotka množství a měrná jednotka částka a měnová jednotka částka za počet měrných jednotek číslo, předčíslí, kód banky zjednodušená validace-povolené znaky celé, desetiny, znaménka celé, desetiny, znaménka první celé slovo, slovník první celé slovo, slovník např 10,00-Kč 10,00-Kč/kg nebo 10Kč/2 balení datum 20.10.1976,20/10/76 poštovní adresa NE PSČ, č.p.,č.o,ulice, obec, část obce, jméno subjektu email www-adresa hodnota ze slovníku telefonní číslo nalezený řetězec v textu musí být v určené kolekci slov/textu Rozpoznávání tvarů Většina základních entit v aplikaci má tvar. Aplikace umí rozpoznávat následující tvary: Tvar Jednořádková entita Cluster Tabulky Poznámka label+hodnota vpravo, vlevo, nahoře, dole obdélníková oblast vyplňovaná podle počtu bílých míst na okrajích. Možno provádět rozšiřování iterací daným směrem(vlevo, vpravo, dolů, nahoru). Vyhledání nejbližšího nebílého obdělníku daným směrem. Do brzského budoucna pod úhlem. Řádky směrem dolů a vpravo. Vyhledání jmen sloupců. Nepovinné sloupce.

Uživatelský definovaná entita. Virtuální entita. Vícenásobné tabulky-na více stránek. Vlastnost do budoucna. Uživatel může označit obdélníkou oblast s textem. Entita sloužící pro tvorbu výsledné struktury. Nemá reálný tvar a neaplikují se na tento tvar žádné rozpoznávače.