Vysoká škola ekonomická v Praze

Save this PDF as:
 WORD  PNG  TXT  JPG

Rozměr: px
Začít zobrazení ze stránky:

Download "Vysoká škola ekonomická v Praze"

Transkript

1 Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií Student: Vedoucí bakalářské práce : Oponent bakalářské práce : Radim Bukovský Ing. David Slánský doc. Ing. Jan Pour, CSc. TÉMA BAKALÁŘSKÉ PRÁCE Vliv číselníků na kvalitu firemních dat ROK : 2009

2 Prohlášení Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze kterých jsem čerpal. V Praze dne podpis 1

3 Poděkování Rád bych na tomto místě poděkoval všem, kteří mi buď přímo nebo nepřímo pomáhali v tom, abych získal cenné znalosti a zkušenosti a ty pak mohl promítnout do práce, kterou právě čtete. Díky jejich radám, připomínkám a názorům, které zaměstnávaly mé myšlení více než půl roku, jsem získal přehled o tom, co se skrývá pod termíny Data Quality a Data Cleansing. Děkuji zejména Davidovi Slánskému a to nejen za vedení této práce. Díky Davidovi jsem poznal společnost Adastra s.r.o. 1 a Ataccama Software s.r.o. 2 Právě v Ataccamě jsem strávil v roce 2008 šest velmi zajímavých měsíců. Pracoval jsem tam na pozici analytika datových zdrojů (Data Source Analyst). Dále děkuji svému bývalému přímému nadřízenému Markovi Poláškovi (Vice president, Products) za příležitost poznat oblast, o kterou jsem se zajímal. Nemohu rovněž opomenout poděkovat Jiřímu Jarošovi (Deliver Manager), člověku, který se mnou byl nejvíce v kontaktu během mého působení v Ataccamě. Jiří byl takovým mým koučem a pod jeho vedením jsem se mnohému užitečnému naučil. Za to mu patří velký dík. Děkuji také všem ostatním bývalým kolegům z Ataccamy a Adastry za projevenou podporu, za důvěru, za možnost spolupracovat se zkušeným týmem vývojářů a implementátorů. 1 Adastra s.r.o Ataccama Software s.r.o. - 2

4 Cíl Cílem bakalářské práce je seznámit čtenáře s hlavními úlohami, vlastnostmi a důležitostí číselníků při zajišťování kvality dat ve firemních databázích. Na téma bude pohlíženo jak z pohledu implementátora datové kvality, tak i jeho zákazníka. Abstrakt Tato práce je určena všem zájemcům o informace z oblasti datové kvality (konkrétněji z oblast čištění dat). Každý, kdo má zájem se dozvědět něco více o číselnících, které do datové kvality neodmyslitelně patří, je vítán. Bude mu nabídnuto nahlédnutí do kuchyně lidí pracujících nejen na jejich tvorbě a správě, ale také na jejich reálném nasazení na konkrétních projektech. Také se zde dozvíte detaily o tom, jak mohou číselníky skrze datovou kvalitu pomoci firmám k nižším nákladům a jak dokáží vyvolat lepší dojem ve svých klientech. Klíčová slova: Číselníky, čištění dat, data, datová kvalita Goal The goal of this bachelor s thesis is to introduce readers to main roles and the importance of etalons in data cleansing procedures in company databases. The subject of the thesis will be viewed from both the data quality implementator and its customer sides. Abstract This thesis is dedicated to all persons who are interested in information of the data quality (especially the Data Cleansing). Everyone who wants to get to know more about etalons, the essential part of the data quality, is welcomed. The insight into everyday activities of people working not only on creating and administrating of etalons but also implementing them on particular projects is prepared for everyone. The reader will also gain detailed knowledge of how etalons could help companies with decreasing their costs and how etalons can make better impression to company s clients through the data quality. Key words: Data, Data Cleansing, Data Quality, Etalons 3

5 Obsah 1 Úvod Datová kvalita v dnešní době Důležitost datové kvality Konsolidovaná budoucnost Datová kvalita a zákazníci firem Příležitost nebo hrozba? Klientská data Číselníky a datová kvalita Proč číselníky a datová kvalita? Definování základních pojmů Číselník Datová kvalita Software datové kvality Nekvalitní data Čištění dat Zlepšování datové kvality Anonymní údaj Osobní údaj Implementační tým Číselníky Vznik číselníků Vlastnosti číselníků Popis Zdroj

6 3.2.3 Struktura Formát Kvalita záznamů Důvěryhodnost Úplnost Verzování Datum aktualizace Velikost Historie Umístění Zdroje číselníků Bezplatné Placené Vlastní (interní) Správa číselníků Časté problémy s daty a jejich řešení Přepisování dat Nestrukturovaná data Pomocné hodnoty Neúplnost záznamů, zkratky Formáty záznamů Duplicitní data Další postřehy z praxe Přínosy kvalitních číselníků pro implementátora Přínosy kvalitních číselníků pro zákazníka

7 5.3 Jména a příjmení = snadné řešení? Možnost vzniku chyb při čištění Práce s anonymními a osobními údaji Závěr Seznamy Slovník pojmů Seznam zkratek Seznam obrázků Seznam tabulek Zdroje Literatura Internet Přílohy Tudy cesta nevede Ataccama - Data Quality Center (DQC)

8 1 Úvod 1.1 Datová kvalita v dnešní době Téma datové kvality je v posledních několika letech velmi diskutované a s postupem času o něm budeme určitě slýchávat ještě více. Zpracovává se čím dál větší množství dat a proto logicky dochází i k výskytu většího množství chyb při jejich zpracování a manipulaci s nimi. Pokud bude podíl nekvalitních dat na celkových firemních datech významný, pak jsou data jako celek nepoužitelná a mnohdy je pak lepší pořídit data nová, nežli se zabývat jejich čištěním. Stále častěji se setkáváme s otázkami pokládanými vlastníky a manažery firem, které mohou být podobné následujícím: Jak definujeme kvalitu dat, se kterými pracujeme? Jak poznáme rozdíl mezi kvalitními a nekvalitními daty? Disponuje naše firma kvalitními daty? Co můžeme udělat pro to, aby naše data byla více kvalitní? Jak můžeme zajistit kvalitu na rozumné úrovni a za rozumnou cenu? Jak a o kolik nám kvalitní data sníží náklady? Jaký je finanční i nefinanční přínos udržování dat na kvalitní úrovni? Odpovědi na tyto otázky je vhodné znát, pokud to s monitorováním a zlepšováním datové kvality uvnitř firmy myslíme opravdu vážně. Pokud je neznáme, znamená to, že nemáme datovou kvalitu ve firmě pod kontrolou a že nemáme ani ponětí o tom, jak by jí šlo zlepšit. Kde není identifikován aktuální stav, nemohou být definovány ani kroky vedoucí ke zlepšení stávající situace. 1.2 Důležitost datové kvality Myslím si, že potřeba udržovat datovou kvalitu na přijatelné úrovni je pro firmy ze všech oblastí podnikání velice důležitá a časem na ní bude kladen ještě větší důraz. Ten, kdo jí udržovat nebude, bude brzy zahlcen špinavými a mnohdy nepoužitelnými daty, jejichž množství bude v čase dále narůstat. Zejména pokud má firma větší počet klientů a potřebuje u nich udržovat aktuální a kvalitní záznamy, implementaci datové kvality se nemůže vyhnout. Lze namítnout opak. Ano jistě, ale vzhledem k tomu, jaké problémy jí to dříve či později způsobí, se jí rozhodně ignorace udržování kvalitních dat nevyplatí a to zejména z hlediska zbytečně vysokých nákladů a oslabení konkurenceschopnosti, což může mít fatální následky. 7

9 Data Warehouse Institute zveřejnil v roce 2004 zprávu 3, která obsahuje informaci o tom, že 11 procent společností má konsolidovaná data napříč celou společností. Není toto číslo poměrně malé? Zbývající společnosti nepotřebují udržovat kvalitu dat? Možná nyní bude toto procento o něco vyšší, ale dříve či později se bude muset důsledně starat o svá data každá firma, která chce být na trhu úspěšná. Proto se domnívám, že společnosti zabývající se datovou kvalitou mají nyní velmi dobrou příležitost k tomu, aby se prosadily a vešly do povědomí co možná nejvíce firem, potenciálních zákazníků. 1.3 Konsolidovaná budoucnost Ve firmách dochází stále častěji k tomu, že jsou data z různých zdrojů transformována do centrálního úložiště, kde jsou uložena jako jediná verze pravdy. Obr.1 Systém SFA [DYCHÉ, 2006, str.12] 4 3 [10] ECKERSON W., In Search of a Single Version of the Truth 4 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s

10 Přístup, který se začíná v dnešní době uplatňovat, je reprezentován například systémy SFA (Sales Force Automation Systems) 5. Jedná se o systémy, které potřebují být plněny daty z jiných, primárních, systémů (viz obrázek na předchozí straně) a to tak, aby dokázaly zajistit centralizované vyhledávání kontaktů, řízené zpracování příležitostí pomocí obchodních cyklů (Pipeline Management) 6 a reportovací funkce. 7 Všechna data v tomto systému musí být čištěna a unifikována. Ve spojení s integrací dílčích systémů společnosti do jednoho celku se setkáváme s pojmem Customer Data Integration (CDI). Je to soubor procesů, řízení, automatizace a schopností nutných ke standardizaci a integraci zákaznických dat pocházejících z různých zdrojů. 8 Data Cleansing je součástí CDI. 1.4 Datová kvalita a zákazníci firem Vzpomínám si na případ starý několik let, kdy mi přišel do schránky dopis, kde bylo chybně uvedeno jméno a nepřesně napsaná adresa. Jakmile jsem ho dostal do ruky, samozřejmě jsem si toho ihned všiml. Psaní přišlo od jedné společnosti zabývající se reklamou. O to více mě chyby překvapily. Předpokládám, že jsem nebyl jediný, komu přišla obálka nadepsaná v podobné kvalitě. Zamyslel jsem se. Jak je možné, že si taková, poměrně velká, společnost může dovolit udělat takovou botu? Jsou nějaké postupy, které by šly použít k tomu, aby se takovéto chyby nestávaly či byly co nejvíce minimalizovány? O pár let později jsem se seznámil s IT oblastí označovanou jako Data Quality a v tu chvíli jsem si uvědomil, kde byl tenkrát ten pověstný zakopaný pes. Jistě se řada z vás setkala s podobnými chybami. Jak takové nepřesnosti zapůsobí na adresáta, který je mnohdy zároveň i odesílatelovým klientem? Takový přístup je krajně neprofesionální a vzbuzuje silnou představu laxního chování společnosti vůči svým klientů. K dobrému jménu společnosti to rozhodně nepřispěje. Posuďte sami, jaký to na nás, zákazníky, dělá dojem? 5 [20] Wikipedia, Sales force management system 6 [14] Toolbox for IT, Pipeline Management 7 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s

11 Ztotožňuji se s tvrzením 9, že podpora zákazníka a komunikace s ním je účinná pouze do té míry, do jaké má společnost přístup ke konzistentním a přesným datům o svých zákaznících. V návaznosti na to bych rád upozornil na výzkum společnosti Gartner z roku , který prokázal, že kvalita CRM je pouze tak vysoká, jak je vysoká kvalita dat, se kterými CRM pracuje. Přitom služeb CRM v roce 2005 využívalo ve svých firmách zhruba 75 procent dotázaných řídících pracovníků 11, což malý podíl rozhodně není. 1.5 Příležitost nebo hrozba? Ve kvalitě dat lze vidět jak hrozby, tak ale i příležitosti. Ten, kdo se zodpovědně věnuje budování čistoty ve svých datech bude později odměněn v podobě omezení problémů uvedených výše. Kdo bude kvalitu dat úspěšně ignorovat může být posléze ignorován vlastními klienty. Zde vzniká prostor pro společnosti zabývající se poskytováním řešení v oblasti datové kvality. Jejich práce spočívá v aplikování postupů, softwarových nástrojů a know-how na zákazníkova data (databáze) takovým způsobem, aby zajistili určitou, smluvně ošetřenou, úroveň kvality výstupu. Tímto výstupem jsou pročištěná data a různé druhy statistik obsahující přehledy o datech (kolik záznamů bylo opraveno a v jakých atributech, statistiky konsolidace, množství nepoužitelných dat a další). Klient pak vidí, co se s daty dělo a v jaké formě je dostal na výstupu (například v oblasti zákaznických dat vidí, kolik klientů lze jednoznačně identifikovat, kolik z nich identifikovat nelze atd.). Přestože jsme momentálně ve světové finanční krizi, tak si myslím, že na poptávku po produktech datové kvality to nebude mít negativní vliv, spíše naopak. Je pravdou, že je snaha snižovat náklady všude, kde to jde, ale na druhou stranu si chtějí společnosti v tomto nelehkém období minimálně udržet své stávající klienty. Některé z nich jsou ovšem odhodláni i k získávání některých klientů svých konkurentů. A právě při všech těchto aktivitách je nutné dbát zejména na kvalitu klientských dat. Díky pročištění klientských dat se opraví překlepy, duplicity, nejednoznačné záznamy a podobně. To pak vede k tomu, že je umožněno snížit počet záznamů o klientech ve firemní 9 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s [12] NELSON, S. a další, Gartner Research report, Customer Data Quality and Integration 11 [3] Bain & Company s 2005 Management Tools survey 10

12 databázi a tím ke snížení nákladů například na rozesílání poštovních zásilek atd. Zvýšením kvality dat tak získáme významné úspory z pohledu nákladů. 1.6 Klientská data Aby bylo možné zjišťovat, zda jsou klientská data v pořádku z hlediska překlepů či existence (jména, příjmení, adresy, telefonní předvolby ), je třeba údaje z databází kontrolovat proti kvalitně sestaveným seznamům. Takovým seznamům se říká číselníky (etalony). Číselníky tvoří databázi určitých položek stejného charakteru (např. ženská jména, mužská jména, města, PSČ). Mohou být získávány a upravovány z veřejně dostupných zdrojů, placených zdrojů či z interních zdrojů společnosti a následně v kombinaci se vhodným softwarem použity k čištění dat z databází klientů. Klientská data jsou nejčastějším druhem čištěných dat. 1.7 Číselníky a datová kvalita Tímto se dostávám k tomu, o čem tato práce vlastně je. Pojednává o tom, jakou roli hraje úloha číselníků při zajišťování datové kvality. Na téma bude pohlíženo zároveň ze dvou úhlů pohledu. První z nich představuje pohled dodavatele (implementátora) datové kvality, který má mimo jiné na starosti sestavování a udržování číselníků. Bude probrána problematika tvorby číselníků, jejich správy a použití na projektech. Dočtete se zde také o příkladech z praxe a možná budete překvapeni, že některé věci, které by se mohly zdát na první pohled jasné a snadno řešitelné, mohou být skutečným oříškem. Druhým pohledem je pohled firmy, kde byla/je/bude datová kvalita implementována. Povíme si o tom, jaké pro ní bude mít praktické pozitivní přínosy. 1.8 Proč číselníky a datová kvalita? Rozhodl jsem se věnovat tuto práci právě číselníkům a datové kvalitě, protože věřím, že je to zajímavé a velice důležité téma nejen pro současnost, ale zejména pro budoucnost. Společnosti by měly přistupovat zodpovědně k datům, jelikož veliká část jejich bohatství je právě v nich. Zhruba půl roku jsem pracoval ve společnosti Ataccama Software s.r.o., kde jsem získal mnoho nových poznatků zejména z oblasti Data Cleansing, se kterými budou seznámeni čtenáři této práce. Naprostá většina prezentovaných informací pochází z mých vlastních zkušeností načerpaných v praxi. 11

13 2 Definování základních pojmů 2.1 Číselník Číselník (List Of Values, Etalon) je soubor dat určitého charakteru (jména, názvy ulic ) určený pro použití v určitém čase a prostoru (firma, stát ) sestavovaný za účelem jednoznačné identifikace dat v jiných souborech a databázích. Jedná se o určitý seznam neduplicitních hodnot (pokud možno co nejúplnější), které mohou být použity k ověřování dat z jiných zdrojů (například klientských databází). 2.2 Datová kvalita Obr.2 Číselník zemí 12 [autor] Klasická definice datové kvality (Data Quality, DQ): Data splňují atributy, kterými jsou přesnost, úplnost, včasnost, jedinečnost a konzistentnost. Pokud pojmeme datovou kvalitu šířeji, pak můžeme říci, že datová kvalita je určitou funkcí definice dat, jejich prezentace a dat samotných [7] Český statistický úřad, Číselník zemí 13 [13] PIRKL David, VŠE, prezentace: Kvalita dat Obr.3 Datová kvalita [autor] 12

14 Definice zahrnuje nejen definici dat, ale také specifikaci příslušné oblasti, do které patří, obchodní pravidla (Business Rules), která určují data a v neposlední řadě sem patří také procesy datové kvality. Data reprezentují obsah a ten je charakterizován dvěmi základními složkami - úplností a správností. Pro prezentaci dat je klíčová jejich dostupnost, včasnost a jednoznačnost. 14 Všechny tři oblasti datové kvality musejí být na kvalitní úrovni. 2.3 Software datové kvality Software datové kvality je program, jehož pomocí probíhá zvyšování datové kvality. Může obsahovat například komponenty a pravidla na čištění či obohacování dat. Software dokáže pracovat s daty, která je třeba parsovat, čistit a unifikovat (jedná se zejména o klientská data). K tomu může využívat externí zdroje (například číselníky). Příkladem softwaru datové kvality je Data Quality Center 15 (DQC), který vyvíjí společnost Ataccama Software s.r.o (produkt dříve označován jako Purity pod hlavičkou Adastra s.r.o.). Ukázku softwaru můžete nalézt mezi přílohami této práce. 2.4 Nekvalitní data Nekvalitní data (Dirty Data 16 nebo Bad Data 17 ) jsou taková data, která nesplňují atributy (specifikace), nebo u nich nelze zaručit správnou interpretaci či nejsou žádným způsobem vhodná pro náš byznys. Problémy s daty mohou být dvojího druhu obsahové a strukturální. Co se týká obsahu dat, problémy mohou nastat například z důvodů chybějících hodnot, chybně zanesených dat, překlepů, dat mimo danou doménu či nelegální datovou kombinací. 18 Rodné číslo Jméno Adresa Pavel Kopáč Dělnická 154, P7, Tomáš Chytrý Vysoko3kolská 34, Brno - město error U Dubu 5, Polní Tab.1 Ukázka obsahově nekvalitních dat [autor] 14 [13] PIRKL David, VŠE, prezentace: Kvalita dat 15 [8] Data Quality Center, popis produktu, květen [18] Wikipedia, Dirty Data 17 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s [13] PIRKL David, VŠE, prezentace: Kvalita dat 13

15 Strukturální problémy s daty se mohou týkat zejména entitní integrity (Entitní integrita zajišťuje jednoznačné určení každého řádku v rámci tabulky (primární klíč) [Databázový svět, 2004]) a referenční integrity (Referenční integrita sleduje cizí klíče. Atribut nebo skupina atributů tvořící v jiné tabulce (relaci) primární klíč nemůže nabývat nepřípustných hodnot. [Databázový svět, 2004] ). 19 V datech se mohou nacházet také problémy v oblasti migrace a integrace v podobě duplicitních nebo chybějících záznamů. Rovněž může docházet k výskytu chyb při typové konverzi. Definice a standardy představují další oblast, ve které se setkáváme s problémy často způsobenými dvojznačností obchodních pravidel nebo existencí více formátů pro stejné atributy. Dále se zde mohou vyskytnout nesrovnalosti spojené s různým významem přiřazovaným stejně pojmenovaným atributům, s více kódy s totožným významem nebo s více informacemi v jednom atributu Čištění dat Čištění dat (Data Cleansing, nebo také Data Scrubbing) je činnost zahrnující nalezení a opravení (či odstranění) špatných nebo nepřesných záznamů ze souboru záznamů, tabulky nebo databáze. Využívá se zejména v databázích, kde slouží k identifikaci nekompletních, nepřesných, nerelevantních atd. částí, které jsou následně nahrazovány, modifikovány či odstraněny. Po čištění je soubor dat konzistentní ve vztahu s ostatními soubory dat v systému. 21 Je to proces zajišťující správnost a přesnost dat. 22 Při čištění dat je využíváno číselníků. 2.6 Zlepšování datové kvality Zlepšování datové kvality (Data Quality Improvement) je proces zvyšování kvality dat na úroveň požadovanou pro podporu informačních potřeb organizace [9] Databázový svět, Vyvíjíme databázový a informační systém VIII. 20 [13] PIRKL David, VŠE, prezentace: Kvalita dat 21 [17] Wikipedia, Data Cleansing 22 [22] wisegeek, What is Data Cleansing? 23 [13] PIRKL David, VŠE, prezentace: Kvalita dat 14

16 2.7 Anonymní údaj Anonymní údaje, jimiž jsou ty, které v původním tvaru nebo po provedeném zpracování nelze vztáhnout k určenému či určitelnému subjektu údajů (např. osobní údaje zařazené do velkých statistických souborů, které jsou zbaveny jména, příjmení a rodného čísla). [Businessinfo, 2009] Osobní údaj Osobním údajem se rozumí jakákoliv informace týkající se určeného nebo určitelného subjektu údajů. Subjekt údajů se považuje za určený nebo určitelný, jestliže lze subjekt údajů přímo či nepřímo identifikovat zejména na základě čísla, kódu nebo jednoho či více prvků, specifických pro jeho fyzickou, fyziologickou, psychickou, ekonomickou, kulturní nebo sociální identitu. [Businessinfo, 2009] Implementační tým Implementační tým (implementátoři) je částí pracovního týmu. Má na starost zavedení (implementaci) řešení datové kvality u zákazníka. Je zodpovědný za koordinaci projektu aplikace datové kvality. Nemá tedy na starost vývoj softwarových nástrojů. 24 [4] Businessinfo, Ochrana osobních údajů 25 [4] Businessinfo, Ochrana osobních údajů 15

17 3 Číselníky 3.1 Vznik číselníků Na počátku vzniku nového číselníku existuje potřeba kontroly opakujících se hodnot v databázích klientů. Abychom mohli kontrolovat data, říci které záznamy jsou s největší pravděpodobností špatné a které nikoliv, potřebujeme je mít s čím porovnávat. Právě to je úloha číselníků. Obr.4 Proces vzniku číselníku [autor] Tato potřeba je sdělena člověku, který se stará o číselníky (bývá to buď tzv. správce číselníků a nebo jiná pověřená osoba z implementačního týmu). Tento kolega přijme požadavek jako výzvu a jeho úkolem je definovat dle požadavků číselník, který bude potřeba vytvořit. Dále je nutné zmapovat všechny možné dostupné zdroje, ze kterých by šlo požadovaný číselník sestavit. Analyzují se jak volně dostupné zdroje, tak i zdroje placené (jde v převážné většině o internetové zdroje či zdroje poskytované firmami k jejichž nabídce se prostřednictvím internetu dostaneme). Správce číselníku pomocí analýzy učiní určitý závěr sdělující možnost (popřípadě nemožnost) sestavit nový číselník. Analýza zahrnuje nejen uvážení toho, zda využít zdroje placené či dostupné zdarma, ale také je nutné zohlednit časové hledisko. Jak rychle potřebujeme mít číselník k dispozici? Pokud nás tlačí čas, 16

18 můžeme využít služeb o něco dražšího poskytovatele, který je schopný nám dodat data prakticky okamžitě po obdržení platby. Poté, co jsou vybrány zdroje, ze kterých bude tvůrce číselníku čerpat, stanoví se struktura číselníku (definování sloupců), která je následně plněna daty. Tímto způsobem vznikne nový číselník, který může být později rozšiřován dle potřeby. 3.2 Vlastnosti číselníků U číselníků je třeba sledovat řadu jejich vlastností. Pokud bychom měli pouze databázi, kde by byly číselníky uvedeny pouze jako seznam, nic by nám to neřeklo a nikdo by se v nich nevyznal. Nepřehlednost by pak vzrůstala nejen s tím, kolik bychom měli číselníků vztahujících se k určité problematice (např. číselníky jmen osob, číselníky PSČ ), ale také s počtem teritoriálních oblastí, kde bychom služby datové kvality nabízeli (ČR, Bulharsko, Kanada, USA ) Popis Je nezbytné vědět, jaké informace se v konkrétním číselníku nacházejí. Popis by měl být shrnutý do několika málo vystihujících vět, aby člen implementačního týmu pracující na projektu, byl rychle obeznámen s tím, co číselník obsahuje a byl schopen podle popisku poznat, zda se mu hodí či nikoliv, aniž by musel tento soubor otevírat (číselník bývá sestavován buď správcem číselníků a nebo jiným členem implementačního týmu). Příliš dlouhý popis je naopak kontraproduktivní, jelikož by bylo pro implementátora rychlejší soubor s číselníkem prozkoumat přímo jeho otevřením. Popis číselníků by měl být veden ve vhodném jazyce (popřípadě ve více jazycích) s ohledem na vnitřní prostředí implementátorské firmy (na zaměstnance, kteří s nimi budou pracovat). V dnešní době, kdy firmy zaměstnávají i množství zahraničích pracovníků, by měl být popis číselníků veden především v angličtině. V případě oblasti IT je angličtina nejvhodnějším jazykem. Tento (majoritní) jazyk lze doplnit podle potřeby lokálním (např. češtinou), ale ten by neměl obsahovat rozdílné či dokonce konfliktní informace se záznamy v angličtině. Při volbě jazyků je důležité myslet na budoucnost. Přestože například nyní ve firmě nepůsobí žádný cizojazyčný zaměstnanec, neznamená to, že se to nemůže v brzké době změnit. Dalším důvodem, proč udržovat popisky v anglickém jazyce, je potenciální možnost prodeje společnosti jinému vlastníkovi. Informace, které budou zaznamenány v angličtině 17

19 budou mít pro něho určitě vyšší hodnotu. Zejména pokud se bude jednat o zahraničního investora Zdroj Vždy potřebujeme vědět, odkud jsme určitý číselník, nebo jeho část, získali. Je to důležité nejen pro pozdější aktualizace, ale také pro definování důvěryhodnosti číselníku, který se odvozuje právě podle jeho zdroje. Každý číselník může mít jeden či více zdrojů a to jak závislých, tak i nezávislých. Zdrojem může být například nějaké volně přístupné webové rozhraní, ftp server či konkrétní firma disponující daty, která potřebujeme. Kromě zdroje firmy jako celku je dobré zaznamenat ke zdroji číselníku například také to, s jakou konkrétní osobou bylo o poskytnutí číselníků vyjednáváno. Pokud má společnost, ze které chceme data získat, více konzultantů, nalezneme tak snáze toho, s kým jsme před časem komunikovali a vyhneme se tak ztrátě času vysvětlováním něčeho, co již jednou vysvětlováno bylo. U firem, od kterých plánujeme nakupovat data, je důležité si pečlivě ověřit, zda vůbec existují. V praxi to znamená ověřit si minimálně jejich sídlo a oblast působnosti. Ideální způsob ovšem spočívá v telefonickém kontaktu. Nemusí být nijak dlouhý, stačí pár minut. Toto ověření zdroje pracuje i v náš prospěch, protože tím vzbudíme větší důvěryhodnost nás samotných. Tím se nám může také otevřít více prostoru pro vyjednávání Struktura U číselníků je dobré zanechávat popis struktury dat, která se v něm nachází. Základní informace se týkají použitých datových typů. Dále je vhodné vědět, zda jsou hodnoty v číselnících zapsány s diakritikou či bez ní (např. v případě češtiny) a nebo zda jsou psány latinkou či pomocí azbuky (ruština). Musíme dávat pozor na správné kódování příslušného jazyka. Můžeme se setkat například i se jmény v různých abecedních přepisech současně. Popis struktury číselníku je velice důležitý v případě, že má být využit v praxi a je snaha napojit číselník na software datové kvality. Pokud bude struktura špatně popsána, mohou se nám data natažená do softwaru datové kvality poměrně snadno rozsypat a dostaneme nesmyslný výstup. 18

20 Kromě toho je popis struktury potřebný také pro případné transformace jednoho číselníku do jiného číselníku (číselníků) či při dělení jednoho číselníku do více číselníků Formát Formát souborů číselníku může být různý. Číselníky se nejčastěji se vyskytují v souborech textových a databázových (txt, csv, xls ). Některé druhy DQ software umí pracovat se svými vlastními formáty, které jsou pro zpracování dat optimální. Podle formátu číselníku se určuje postup, jakým bude číselník natažen do softwaru datové kvality, pomocí kterého se budou data čistit. Je vhodné oddělovat surové číselníky (číselníky získané z různých zdrojů) a číselníky předpřipravené (obsahují data získaná z více zdrojů v jednom souboru a jsou ve formátu, se kterým dokáže DQ software nejlépe pracovat zde je důležitá zejména rychlost zpracování) Kvalita záznamů Kvalita záznamů v číselnících se určuje podle toho, zda jsou jednotlivé položky zapsány stejným způsobem (např. všechny záznamy jsou uvedeny malými písmeny vs. některé záznamy jsou uvedeny malými a některé velkými písmeny) a jestli jsou zapsány korektně (zjišťujeme, zda opravdu všechny záznamy do číselníku patří a zda neobsahují překlepy či jiné chyby). Záznamy v číselníku mohou být původem z rozdílných zdrojů, proto je důležité při přidávání dalších položek dbát na datovou konzistenci. Musíme dávat pozor na to, aby se nám do číselníku nedostala data, která tam nemají co dělat. Kvalita záznamů bývá mnohdy lepší u komerčních produktů, než u volně dostupných, ale pravidlem to být vždy nemusí (například když firma prodává číselník získaný spojením dat z několika zdrojů dohromady bez dostatečně kladeného důrazu na vytvoření konzistentního celku) Důvěryhodnost Důvěryhodnost číselníku odvozujeme většinou od důvěryhodnosti zdroje, od kterého daný číselník pochází. Pokud jsou jeho záznamy sestaveny z rozdílných zdrojů, postupujeme obezřetně. Je vhodné nemíchat záznamy z důvěryhodných zdrojů se záznamy zdrojů výrazně nižší důvěryhodnosti. V takové situaci lze doporučit vytvoření číselníku samostatného, odděleného. 19

21 Za důvěryhodné lze pokládat číselníky získané z vládních organizací a ze společností, o kterých lze získat pozitivní reference (většinou z internetu či od jejich zákazníků). Vhodné je pátrat i po tom, z jakých zdrojů společnost, od které chceme nakoupit číselníky, čerpala svá data. Od těchto zdrojů rovněž odvozujeme celkovou důvěryhodnost výsledného číselníku (tzv. důvěryhodnost druhého stupně). Je třeba dávat pozor na jeden důležitý fakt. Důvěryhodnost číselníků nezaručuje kvalitu jejich záznamů. Nicméně u důvěryhodnějších zdrojů je vyšší pravděpodobnost dosažení kvalitnějších dat. Odlišná situace může platit u důvěryhodnosti druhého stupně. Zde nastává nejen otázka, ze kterých zdrojů bylo primárně čerpáno, ale také jakým způsobem upravil náš zdroj jeho primárně získaná data. Nejsou data příliš změněna oproti původnímu zdroji? Nejsou informace obsažené v nich příliš osekané (např. seznam měst ze kterého byly odstraněny geografické souřadnice)? Není do dat, do číselníků, zanesena nečistota (špatně provedenou integrací primárních zdrojů )? Úplnost Některé číselníky (zejména ty menších rozsahů, kterými jsou například akademické tituly) lze dostat do stádia, kdy budou s největší pravděpodobností úplné. Jiné, rozsáhlejší číselníky, do takového stádia v podstatě nikdy nedostaneme vzhledem k velkému počtu rozdílných položek (například křestní jména a příjmení v USA a Kanadě). U takových číselníků dochází k neustálému rozšiřování počtu položek a úplnost je těžké odhadovat. Mnohdy neexistují žádné přímé informace o tom,do jaké míry je konkrétní číselník úplný. Je úplný ze sedmdesáti nebo čtyřiceti procent? Nevíme. Jak tomuto nedostatku čelit? Poměrně těžko, ale určité odhady lze provádět pomocí využití mnoha různých nepřímých informací, pokud se jim věnuje dostatek času. Nicméně otázkou je, zda je pro nás důležitější práce na tom, abychom získali obsáhlejší číselník a nebo po týdnech či měsících shromažďování informací zjistili, že máme pokryto zhruba šedesát procent výskytu místo sedmdesáti, který jsme předpokládali Verzování Verzování je důležité z hlediska přehledu o vývoji číselníku. Kromě toho, že vidíme jaká verze je aktuální, můžeme vystopovat i změny, které proběhly mezi jednotlivými verzemi. 20

22 Starší verze je vhodné skladovat odděleně, ale nicméně tak, aby k nim byl v případě potřeby dostatečně rychlý přístup. Starší verze číselníků mohou být vyhledávány, pokud je podezření na chybu v nové verzi a tuto skutečnost je třeba ověřit pomocí předchozí verze. Dále bývají používány při testování nových verzích DQ softwarových nástrojů (zda lze k nové verzi DQ úspěšně připojit a využít i starší verze číselníků) Datum aktualizace U každého číselníku potřebujeme znát datum, kdy byl naposledy aktualizován, kdy byly do něho přidány či z něho odebrány některé záznamy (přidány nově zjištěné, odstraněny ty co již neplatí). Tady si s verzováním nevystačíme. Datum aktualizace nám většinou řekne více než číslo verze. Člena implementačního týmu na projektu spíše uspokojí informace o tom, že byl číselník aktualizován zhruba před dvěma týdny nežli fakt, že se jedná o verzi dvanáct Velikost U číselníků je důležité vědět nejen to, kolik má záznamů, ale také jeho velikost a to z toho důvodu, aby bylo možné předem odhadnout, jak bude dlouho zpracováván příslušným softwarem datové kvality. Nutno podotknout, že velikost číselníků se může značně lišit v závislosti na typu souborů, ve kterých jsou uloženy Historie Praxe ukázala, že je dobré zaznamenávat historii používání jednotlivých číselníků. Ze záznamů je pak na první pohled vidět, kdy, kde, kým a za jakým účelem byl číselník použit. Tyto historické záznamy je vhodné opatřit také poznámkami, ve kterých se uživatel číselníku vyjádří k jeho obsahu. Může zde doporučit jeho rozšíření, vyzdvihnout jeho kvalitu či ho označit za nevhodný a nevyužitelný. Pomocí evidované historie lze dohledat, který kolega s určitým číselníkem pracoval a v případně dotazů ho máme možnost kontaktovat. Odpadá tak proces zdlouhavého vyptávání se kdo, kdy a při jaké příležitosti určitý číselník použil Umístění Vždy musí být jasné, kde je fyzicky číselník umístěn (server, médium). Musí být vždy zajištěna jeho dostupnost v aktuální verzi. Při práci na projektech v terénu není čas řešit 21

23 zbytečné problémy týkající se umístění (vhodné je mít číselníky uloženy i na záložním serveru, stejně jako ostatní data, kdyby se na primárním vyskytl problém s dostupností). 3.3 Zdroje číselníků Bezplatné Některé číselníky jsou dostupné zcela zdarma z externích zdrojů. Nejčastějším zdrojem bezplatných číselníků je internet. Při troše hledání lze najít zajímavé, zdarma dostupné informace a seznamy, které můžeme pro vytváření číselníků použít. V České republice jsou skrze státní správu poskytovány rozsáhlé registry, statistiky a databáze, které lze využívat. Dle zkušeností, které jsem získal při komunikaci s některými úřady států uvnitř i vně EU, si odvažuji říci, že co se týká oblasti dostupnosti základních informací o obyvatelstvu a územních registrů, jsme na tom velice slušně. Kromě toho jsou tyto zmíněné informace poskytovány našimi úřady bez úplaty. V následujících odstavcích uvádím nejzajímavější bezplatné zdroje dat v ČR. Český statistický úřad (ČSÚ) Jedním z cenných zdrojů číselníků a podkladů k nim je bezpochyby Český statistický úřad. Poskytuje například registr ekonomických subjektů na území ČR (RES) a číselníky samosprávních jednotek (obce, městské části, správní obvody hl.m. Prahy atd.). Ministerstvo vnitra České republiky (MV ČR) MV ČR poskytuje na svých stránkách seznamy jmen a příjmení osob (včetně četností), kteří žijí na území ČR. Tento seznam je ročně aktualizován a je vhodný jako základ k sestavování číselníku jmen a příjmení osob v rámci České republiky. Obr.5 Četnost příjmení mužů v ČR k [autor] 26 [11] Ministerstvo vnitra ČR, Četnost příjmení mužů v ČR k

24 Česká pošta (ČP) Pošta poskytuje volně stažitelné podklady pro sestavení poštovních směrovacích čísel a seznamy poštovních míst v ČR. Obr.6 Číselník pošt 27 [autor] Ministerstvo práce a sociálních věcí ČR (MPSV ČR) Velice důležitým zdrojem pocházejícím od tohoto ministerstva je bezesporu územně identifikační registr adres České republiky označovaný zkratkou UIR-ADR. Obsahuje seznamy objektů, obcí, částí obcí, obvodů, okresů, krajů, ulic a tak podobně. Pomocí těchto podkladů lze sestavovat tzv. adresní body, které jednoznačně identifikují vchod do domu. Cílem je, získat seznam všech adresních bodů a tento seznam pravidelně aktualizovat. Každý týden jsou v registru prováděny aktualizace. V případě potřeby lze dohledat i starší verze registrů, které jsou rovněž dostupné pomocí webového rozhraní. Data registru jsou dostupná i na kompaktních discích. Česká národní banka (ČNB) Z webových zdrojů ČNB lze využít například seznam bankovních institucí působících na našem území. Obr.7 Číselník bankovních ústavů 28 [autor] 27 [6] Česká pošta, Seznam poštovních míst v ČR. 28 [5] Česká národní banka, Číselník účastníků platebního styku v České republice 23

25 Kromě samotných názvů jsou zde také uvedeny jejich bankovní předvolby, BANIS 29 a SWIFT 30 kódy Placené Pokud je třeba zajistit číselníky velkých rozsahů či číselníky špatně dostupných informací, je třeba využít placených služeb. Příkladem placených informací jsou databáze firem, geografické souřadnice, seznamy ulic, měst a další. Spolupráce s firmami zabývající se tvorbou geografického softwaru je velice vhodná zejména při budování číselníků adresních bodů v oblastech, kde není možné získat data jiným způsobem (například z pošt nebo úřadů). Nesmíme ovšem předpokládat, že placená data jsou vždy kvalitnější, než ta, která jsou volně dostupná na internetu (pokud dostupná jsou). Někdy tomu tak nebývá. V praxi se například ukázalo, že data z celostátní pošty určité země byla nejrozsáhlejší, nejlevnější a obsahovala nejvíce informací. Ale na jejich přeměnu do použitelné formy, aby mohly být využity DQ softwarem, bylo potřeba provést mnoho transformací a úprav. Některé společnosti prodávají data za vyšší částky, jenže jsou už předem oholená (to může být výhoda, ale i nevýhoda). V tomto případě se ukázalo, že by nebylo od věci si pár set EUR připlatit Vlastní (interní) Uvnitř společnosti můžeme tvořit vlastní číselníky. Tvoříme zejména takové, které buď neexistují a nebo jsou zbytečně drahé na to, aby byly nakupovány od nějakého zdroje. Výhodou je, že máme sestavené určité seznamy, které konkurence nemá, ale na druhou stranu nás to stojí náklady v podobě lidí, kteří se na tvorbě číselníků podílejí. 3.4 Správa číselníků Číselníky je třeba spravovat, aby byla zachována jejich co nejvyšší možná úroveň. V tom, co není kvalitně spravováno, se začínají vyskytovat, dříve či později, problémy. Za účelem správy číselníků je vhodné zavést funkci jeho správce. Zejména pokud pracujeme na více projektech najednou a s větším počtem číselníků. Správce číselníku by měl mít přehled o všech číselnících, které se ve firmě vyskytují. Měl by být schopen spolupracovat se členy 29 BANIS - Identifikační kód bank v ČR. Je čtyřmístný, uvádí se za číslem účtu (za lomítkem). 30 SWIFT - Identifikuje banku, slouží k přesnému směřování platby v mezinárodním platebním styku. 24

26 implementačního týmu pracujících na projektech. Správce vytváří podporu (support) pro implementační tým v oblasti číselníků a je zodpovědný za jejich stav a používání. Na pozici správce je třeba umístit pečlivého a komunikativního člověka se smyslem pro detail. 25

27 4 Časté problémy s daty a jejich řešení 4.1 Přepisování dat Nejvíce chyb vzniká při přepisování do počítače za přítomnosti lidského faktoru. Problémy s těmito chybami jsou viditelné zejména v prostředí Call center. Může docházet jak k překlepům (Bukovskž, Sl8nský), tak i k přeslechům (Dukovský), či chybám v transkripci (Bukowski) nebo chybám, kdy jsou zadány údaje do špatné oblasti formuláře (například jméno místo příjmení, nebo rodné číslo místo příjmení). Stává se také, že zadávající osoba uvede do databáze záměrně či nezáměrně nesmyslné údaje (například jméno: zemřel dne či? ). Rovněž se zde vyskytují problémy s diakritickými znaménky. Rodné číslo Jméno Adresa? Radim Bukovskž Bukolská 773/8, Praha 8, Visa electron David Sl8nský Jan Nemakačenko Podstoly Pami Vladimíř Novák Dělnická 154 Tab.2 Chyby v přepisu dat [autor] V praxi se člověk setkává s mnoha různými překlepy či přeslechy. Jeden z mých oblíbených záznamů, který se vyskytl u jednoho klienta v databázi, se týkal názvu slovenské obce Pod 100 Lipami, která byla v klientských datech uvedena pod řetězcem Podstoly pami. Nevím, jakého umělce v Call-centru napadla tato dvě netradiční slova, ale je jasné, že společnost tato kreativita příliš nepotěšila. Opravování takových druhů datové nečistoty lze provádět poměrně snadno pomocí pravidel implementovaných v DQ softwaru, příslušných číselníků a replacementů (replacement je zvláštní případ číselníku, kde jsou definovány dvě hodnoty pokud je první z nich nalezena v databázi, je nahrazena druhou uvedenou). Napřed je zjišťováno, zda daný řetězec může být jménem či příjmením (a s jakou pravděpodobností) a poté může být chybně zadaný údaj upraven (například Bukovskž na Bukovský). Můžeme ovšem narazit na některá méně používaná jména (jako například mužské jméno Vladimíř), která by mohla být při neznalosti českých jmen považována za překlep a mohla by být nesprávně opravena (v tomto případě na poměrně známé jméno Vladimír). Při sestavování číselníků a replacementů proto musíme postupovat obezřetně. 26

28 4.2 Nestrukturovaná data Data jsou do informačního systému společnosti zadávána často nestrukturovaně. Celá adresa se mnohdy vyskytuje v jediném řádku, občas i se souvisejícím jménem zákazníka. Je nutné je separovat a každý údaj porovnávat s číselníky a ověřovat po částech jejich správnost. Mezi záznamy v databázi můžeme nacházet řetězce znaků, které tam jsou navíc. Jedná se buď o nesmyslné poznámky (?, qwertz ) nebo o hodnoty, které patří do jiné části databáze (například se mohou vyskytovat tituly či rodná čísla v částech vyhrazených pouze jménům). V takovém případě je nutné vzít celý řetězec obsažený v záznamu a roztrhat ho na jednotlivé části podle separačních pravidel (pravidla dokáží například identifikovat, zda je část řetězce jméno, příjmení, adresa a nebo nesmysl). Takové údaje je nutno zařadit tam, kam patří, popřípadě je zcela odstranit. Některé dílčí řetězce jsou kontrolovány pomocí přímého porovnávání s číselníkem (jména, adresy, telefonní předvolby ). Rodné číslo Křestní jméno Příjmení Město Bukovský Radim Bukolská 773/8, Praha, qwertz Tomáš Chytrý Vysokoškolská 34? Jan Nemakačenko Praha Dělnická Tab.3 Nestrukturovaná data [autor] 4.3 Pomocné hodnoty V datech se mohou vyskytovat automaticky (nebo ručně) zadávané hodnoty, které jsou pouze pomocné a nemají žádný význam (například se jedná o data jako ). Tyto hodnoty je třeba identifikovat jako pomocné a v žádném případě s nimi nepracovat jako se skutečnými. Takový přístup by mohl způsobit komplikace a nesrovnalost. Na pomocné hodnoty je dobré mít také nějakou formu číselníku. Nemusíme pak neustále myslet na to, že bychom mohli na některou z nich zapomenout. 4.4 Neúplnost záznamů, zkratky Problémem je i neúplnost záznamů a výskyt zkratek. Při absenci základních identifikačních hodnot se stává neúplný záznam neidentifikovatelným. Zkratky se snažíme převádět do 27

29 standardizovaných názvů. 31 To ovšem není vždy jednoduché, zkratky jsou mnohdy ošemetnou záležitostí. Představuje zkratka J. A. Komenský opravdu Jana Amose Komenského? V tomto případě je to poměrně zřejmé, ale co takový P. Novák. Je pan Novák křestním jménem Petr, Pavel, Prokop a nebo mu říkají úplně jinak? Problém zkratek se vyskytuje zejména u adres a pak také u křestních jmen. U názvů ulic nebo náměstí můžeme využívat sady replacementů, které nám převádí různá tvary jednoho zeměpisného místa na jednotný, standardizovaný název. Není výjimkou, že k jednomu náměstí či ulici existují desítky variant zápisu. I s nimi se musí dokázat experti na datovou kvalitu vyrovnat. Pokud bereme v úvahu zkratky křestních jmen složené pouze z prvního písmene, tak se jedná o zkratky v podstatě neidentifikovatelné. Rodné číslo Křestní jméno Příjmení Adresa R. Bukovský Bukolská 773/8, Praha, Tomáš Praha Kateřina Veliká Náb. Kpt. Jaroše Antonín Kulatý U Libeň. Zám. 3, P8, Tab.4 Neúplnost záznamů, zkratky [autor] 4.5 Formáty záznamů Různé formáty záznamů mohou být také problémem. Například rodné číslo lze napsat mnoha způsoby. My ho ovšem potřebujeme upravit do standardizovaného tvaru a to hned poté, co budou jednotlivé části rodného čísla identifikovány. U rodného čísla může být část s uvedeným rokem narození porovnána s datem narození. Rodné číslo může být zapsáno například jako /5430, nebo Další problémy se vyskytují v podobě nestandardních formátů dat, hodin, letopočtů atd. Můžeme se setkat s ekvivalentními zápisy téhož: 11. prosince 2005, 11. pros. 05, , a podobně. Víme, že jde o stejný den, ale musíme to naučit rozeznávat i náš software a to i za přispění číselníků. 4.6 Duplicitní data Pokud pracujeme s daty, nevyhneme se problémům způsobenými duplicitními daty. Představme si, že máme databázi v níž máme jednoho klienta zaznamenaného vícekrát a nebo 31 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s

30 více databází s identickým klientem, ale o souvislostech mezi záznamy nevíme. Duplicitní data (záznamy) nemusejí být na první pohled zřejmá. Vezměme si například dva záznamy téhož klienta. V prvním z nich bude uvedeno jméno, příjmení, rodné číslo, telefonní spojení, a adresa. Ve druhém bude uvedeno pouze město, ulice a rodné číslo. Tyto všechny tři položky se budou v obou případech shodovat. Vidíme, dle rodného čísla, že se jedná o duplicitní záznamy, i když na první pohled to nemuselo být tak zřejmé. Rodné číslo Jméno Adresa Kateřina Veliká , Praha 7, Nábř. Kpt. Jaroše Kateřina Veliká Nábřeží Kapitána Jaroše 7, Praha 7, Tomáš Šilhavý U Libeňského zámku 5, Praha 8, Tomáš Šilhavý U Libeňského zámku 5, Praha 8 Tab.5 Duplicitní data [autor] Předcházející tabulka obsahuje na první pohled dvě osoby, z nichž je každá uvedena duplicitně. Jenže na druhý, pozornější pohled, si může bystřejší pozorovatel všimnout určité nejednoznačnosti. Zatímco řádky s Tomášem Šilhavým se téměř shodují (kromě PSČ), záznamy Kateřiny Veliké se shodovat zcela nemusejí. Není zde totiž shoda v rodném čísle, které je používáno jako jedinečný identifikátor osoby. S největší pravděpodobností bychom se při sloučení těchto záznamů nedopustili chyby, pokud by ovšem na dané adrese nesídlilo více Kateřin Velikých. 29

31 5 Další postřehy z praxe 5.1 Přínosy kvalitních číselníků pro implementátora Číselníky jsou bohatstvím a pro společnost zabývající se čištěním dat (DQ společnosti) představují jeden ze základních pilířů, na kterých staví svoji existenci. Pomocí kvalitně poskytovaných služeb si firma buduje image a pověst v odvětví, ve kterém se pohybuje, v oblasti, kde se snaží generovat zisk. Pokud firma, kde bylo čištění dat implementováno, bude s výsledkem spokojena, je velmi pravděpodobné, že využije ověřené služby znovu. Firmy stále pracují s množstvím dat a proto jejich čištění nemohou považovat pouze za jednorázovou akci, pokud je chtějí mít v co nejlepším pořádku. Důležité je si uvědomit, že pouze spokojený zákazník se znovu vrátí a na to se soustředit. Kvalitní číselníky mohou také znamenat pro firmu otevření nových možností. Například se může jednat o spolupráci s firmami zabývajícími se geografickou činností. Geografické společnosti mohou poskytovat implementátorovi datové kvality podklady pro tvorbu číselníků (např. územního registru) z vlastních zdrojů (disponují seznamy ulic, měst atd.). DQ společnosti si ze získaných informací vybudují číselníky příslušné oblasti a ty se stanou součástí jejich majetku. Na oplátku mohou DQ společnosti nabídnout svému obchodnímu partnerovi například službu takového typu, že se zaváží k hledání nesrovnalostí v jimi dodávaných geografických datech (duplicity, chybějící záznamy ). O zjištěných skutečnostech pak budou podávány více či méně pravidelné reporty. Taková spolupráce se jeví jako oboustranně výhodná. Zde je velice důležitá, již dříve zmiňovaná, pověst mající vliv na důvěryhodnost a to nejen z pohledu firmy zajišťující datovou kvalitu (poskytuje kontrolu dat), ale také geografické společnosti (poskytuje data pro tvorbu číselníku). Výsledná vyčištěná data budou tak kvalitní, jak kvalitní budou číselníky a algoritmy, které se při čištění použijí. Bez číselníků můžeme sice aplikovat různá pravidla (např. využívání různých paternů, třídících algoritmů), ale nemáme roztříděné hodnoty s čím porovnat a ověřit tak jejich správnost. U některých hodnot, jako je třeba datum, není třeba používat žádné číselníky, ale naopak například u adres či jmen se jejich použití nevyhneme. Z pohledu číselníků je rovněž důležitá jejich rozmanitost. Čím více budeme mít číselníků z různých oblastí podnikání a veřejné správy (územní registry, zdravotnictví, finanční sféra...), 30

32 tím získáme širší spektrum potenciálních zákazníků, ze kterých můžeme vybírat. Zde ovšem pozor na to, aby nebyla kvalita jednotlivých číselníků vykoupena jejich vyšší kvantitou. Je lepší disponovat menším počtem kvalitních číselníků. Proto je dobré postupovat důkladně a nejprve se zaměřit na klíčové číselníky (používané na většině projektů) a nechat si záležet na jejich sestavení. Pokud se nám ovšem podaří vybudovat široké spektrum kvalitních číselníků, bude to jednoznačně silnou konkurenční výhodou a přínosem pro celou firmu. 5.2 Přínosy kvalitních číselníků pro zákazníka Jaký je pozitivní dopad na činnost společnosti, kde bylo použito řešení datové kvality za použití číselníků? Každá společnost by se měla zajímat o to, jaký má skutečný počet zákazníků a jaké je jejich složení. Pokud bude tyto informace znát, může s nimi pracovat. Lze pak lépe zacílit reklamní kampaně, akční nabídky či jiné aktivity zaměřené na konkrétní, předem definovanou, oblast klientů. Pokud bude provedeno čištění klientských dat, tak určitě dojde k redukci nákladů (dojde například k omezení duplicitních záznamů a odstranění neidentifikovatelných klientů). Budou odstraněni přebyteční klienti, kterým by byly zbytečně rozesílány letáky, pozvánky či by byli kontaktováni několikrát po sobě. Nejen, že jim samotným by to nebylo příjemné, ale firmu by to stálo plno peněz, času a také by utrpěla její image. Sjednocená forma jmen, příjmení, názvů měst, ulic a jiných veřejných prostranství umožní perfektní přehled o klientech. Přínos číselníků, skrze čištění dat, je také v tom, že klient vidí situaci, ve které byl před a ve které je po provedení aplikace čištění dat. Z toho může usoudit, jak kvalitní klientská data používá a používal. Může analyzovat, jaké druhy dat jsou v databázi nejšpinavější a díky tomu může učinit příslušná opatření, aby byla zajištěna vyšší úroveň datové čistoty. Například ošetřit určitým způsobem zadávání hodnot do formulářů by mohlo tomuto problému pomoci. A co třeba zavedení kontroly vstupních dat ještě před tím, než jsou uloženy do hlavních databází? Poznání nejčastějších zdrojů a možných příčin zbytečných nečistot může pomoci firmám tyto negativní vlivy omezit například i vhodným upravením určitých interních procesů. 31

33 Díky realizaci čištění dat za pomoci číselníků se můžeme také dozvědět, co všechno víme o našich zákaznících. Jaká je úplnost informací o našich klientech? Známe kromě jmen našich klientů i jejich rodná čísla, telefonní čísla či adresy? Každá firma si nemůže zajišťovat datovou kvalitu sama, jelikož na to nemá potřebný know-how, personál, nástroje, technologie a ani finanční prostředky. Velké množství zdrojů a uložišť, nejen s klientskými daty, je nutno sjednocovat do jednoho konzistentního celku, na který je třeba aplikovat přístupy vedoucí ke zlepšování datové kvality. 5.3 Jména a příjmení = snadné řešení? Pokud nezasvěcenému člověku řeknete, že se zabýváte tím, že čistíte křestní jména a příjmení, může nabýt dojmu, že přeci nejde o nic složitého a sofistikovaného, na co by se měla soustředit zvýšená pozornost. Jenže opak je mnohdy pravdou. Ta nejzapeklitější úskalí a ty nejtemnější kouty odhalíte teprve když do této oblasti proniknete hlouběji. Vezměme si například již dříve zmiňovaný případ pana Vladimíře. S tímto jménem se můžeme setkat velmi zřídka, přesto existuje. Nemůžeme ho automaticky opravovat na Vladimíra. Odhalování takových rozlišností je někdy velice namáhavé. Nalezené nejednoznačné hodnoty je třeba ověřovat. Například tím, že se informujeme na příslušném úřadu, zda opravdu evidují osobu méně obvyklého křestního jména či příjmení. V rozsáhlejších databázích, kde máme desítky až stovky tisíc záznamů o klientech se můžeme setkat s mnoha podezřelými jmény, které bychom měli analyzovat a následně určit, s jakou pravděpodobností se jedná o správně uvedené jméno či chybný údaj (buď je údaj špatně zadaný (překlep) a nebo zcela špatný). Domnívám se, že oblast čištění jmen a příjmení je v České republice lépe zvládnutelná, než v jiných zemích jako jsou např. Spojené státy. Nejen proto, že české úřady nabízí možnost firmám i jednotlivcům získat seznamy jmen v poměrně dostupné formě a v přijatelné kvalitě, ale také proto, že na našem území nežije vysoký počet přistěhovalců s různými jmennými nuancemi. S tím souvisí také problematika jmen z globálního hlediska. Lze vůbec řešit jména v jednom, celosvětovém, číselníku? Myslím si, že v takovém rozsahu je to nemožné. Zvláště u národů, kteří používají v jazyce diakritická znaménka či jiné znaky. Pokud se takový člověk odstěhuje do jiné země, lze předpokládat, že se jeho jméno může změnit (například, že bude 32

34 v novém prostředí velice obtížně vyslovitelné či zaznamenatelé). Znám například jednoho amerického brokera původem z České republiky, který se jmenuje James Kuzel. Můžeme mít současně v naší zemi Jakuba Kužela a v USA Jamese Kuzela. Proto nemůžeme z globálního pohledu říci, že jedno ze jmen je zapsáno špatně, když existují obě. Nelze pak využít metody replacemnetů na hodnoty Kužel a Kuzel. Pokud bychom uvažovali pouze Českou republiku, budeme mít automaticky u jména Kuzel podezření na chybu v diakritice. U některých jmen, zejména čistě anglických, se s tímto problémem prakticky nesetkáváme. Nesrovnalosti také nastávají, pokud jsou jména psána v rozdílných abecedách (latinka, cyrilice ). Zde je nutné udržovat číselníky v několika různých abecedních variantách. Dalším oříškem, se kterým se musí tvůrce číselníku jmen vypořádat, je určování křestních jmen a příjmení. Pokud si například z databáze vybereme řetězec Tomáš Pavel, tak je problém na světě. Byl zadán vstup ve tvaru nejprve křestního jména a pak příjmení? Je křestní jméno zkoumaného Tomáš nebo Pavel? Pokud nemáme další informace, podle kterých můžeme tuto nejasnost objasnit, můžeme se spolehnout pouze na statistické hodnoty. Můžeme například využít četností výskytů určitých křestních jmen a příjmení, pokud nám jsou známy. Můžeme také pracovat s poznatky, zda se vícekrát vyskytuje jméno Tomáš Pavel (kde Tomáš je křestní) a nebo Pavel Tomáš. Tyto odhady jsou ovšem nepřesné a proto je vhodné ověřovat konkrétní výskyt nerozhodnutelných kombinací pomocí nějakého důvěryhodného zdroje. Samostatným úkolem k řešení je také existence více než dvoučlenných jmen (Anna Nicole Smith či Catherine Zeta Jones). Zde je třeba využívat složitějších paternů (vzorů složení jména), a mít již i vytipované určité kombinace víceslovných jmen, které se mohou v praxi vyskytovat častěji (příkladem je spojení křestních jmen Anna Marie). Při čištění (kontrole) dat mohou být využívány jak číselníky křestních jmen a příjmení, ale také číselníky, které jsou určeny pouze pro víceslovná jména. Po přečtení několika předcházejících odstavců, které jistě nejsou zcela vyčerpávající, si již sami dokážete představit, že vlastnit a spravovat kvalitní číselník jmen není v žádném případě legrace. Pokud si připomeneme, že nejčastěji čištěnými daty jsou data klientů, kterými disponuje každá společnost, uvědomíme si, jak jsou právě tyto číselníky důležité pro společnosti poskytující řešení v oblasti datové kvality. 33

35 5.4 Možnost vzniku chyb při čištění Jak to tak bývá, pokud se něco dělá, tak by se to mělo dělat s rozvahou. V opačném případě se můžeme dostat do nemalých problémů. U čištění dat to platí naprosto spolehlivě. Je důležité přistupovat ke svěřeným datům zodpovědně, s rozmyslem a nějakým tím předem promyšleným postupem. Pojďme si říci, kterých dvou základních chyb se můžeme při čištění dopustit. Do první kategorie chyb patří taková chyba, kdy se nám nepodařilo opravit (vyčistit) záznam, který jsme vyčistit měli. Pokud se nám těchto chyb začíná objevovat větší množství, tak jsou s velkou pravděpodobností způsobeny příliš opatrnými či nedostatečnými pravidly pro čištění. Druhá kategorie chyb, která bývá mnohem hůře akceptována, než je tomu v případě kategorie první, spočívá v tom, že je opraven záznam, jež být opraven neměl. Tento druh chyb se velice špatně odhaluje. Při nastavení příliš agresivních postupů v čištění může navenek výstup způsobit iluzí, že bylo vyčištěno a upraveno do korektní podoby velké množství záznamů. To je ale pouze klam. Při neopatrném čištění dochází ke znehodnocení dat, které bývá většinou již nevratné, pokud není nějakým způsobem zaznamenáváno (logováno). Pokud pracujeme s číselníky, budeme se neustále pohybovat v prostoru mezi těmito dvěmi kategoriemi chyb. Se snižováním pravděpodobnosti výskytu chyby první kategorie se současně zvyšuje pravděpodobnost výskytu chyby druhé kategorie. Naším cílem je snažit se postupnými kroky odstraňovat chyby první kategorie a vyvarovat se chybám té druhé. 5.5 Práce s anonymními a osobními údaji Soubory údajů týkajících se klientů můžeme rozdělit do skupin, které se od sebe liší tím, zda lze podle nich identifikovat konkrétního jedince. Pokud nelze provést jednoznačnou identifikaci člověka podle dostupných údajů, pak se jedná o údaje anonymní. Za anonymní údaj se považují nejen samostatné křestní jména a příjmení, ale také celá jména, kterých se v daném výběru vyskytuje větší množství. Pokud je v něm pouze jeden zástupce, pak se již o anonymní údaj nejedná, jelikož jedinec je jménem přesně identifikován. Zajímavý moment ovšem nastává v okamžiku, pokud by žily dvě osoby stejného jména na jedné adrese (bylo by známo a dle číselníku ověřeno křestní jméno, příjmení a adresa). Pokud nebudou tito lidé odlišeni (např. rodným číslem) nelze tuto 34

36 identifikaci považovat za jednoznačnou. Ovšem v tomto případě nelze mluvit ani o tom, že by byl jedinec zcela anonymní. Názory na tuto problematiku se různí. Osobně považuji za osobní údaj takový údaj, který je spojen s jasným, jedinečným, identifikátorem konkrétní osoby (viz dále). Jestliže je společně se jménem, bez závislosti na počtu jeho výskytů ve sledovaném celku, uveden údaj jednoznačně ukazující na konkrétního člověka (rodné číslo), pak se jedná o jednoznačně identifikovanou osobu, která již může být nazvána klientem. Na reálných projektech pracujeme s reálnými daty. Data z některých projektů, pokud s tím klient souhlasí, mohou být anonymizována (tím se znemožní jednoznačná identifikace osob). Anonymní data pak můžeme používat například k testování číselníků, jednotlivých verzí DQ software či budování jejich nových komponent. Anonymní data mají výhodu oproti smyšleným datům zejména v tom, že reprezentují určitou reálnou situaci a i bez jednoznačně určených osob jsou pro různé účely použitelná. Tisíce reálných klientů reprezentujících určitou část populace jsou mnohem lepším materiálem, než desetitisíce náhodně vygenerovaných hodnot. Pokud budeme pomocí dat testovat funkčnost jednotlivých částí software, můžeme narazit na problémy, které bychom jinak neobjevili (nebo objevili, ale až na projektu u zákazníka s reálnými daty, což je už ale pozdě). Lze tak odhalit problémy například při identifikaci jmen (nepřesnosti v napojení ověřovacího číselníku), parsování adres (chyby v paternech adres) a tak podobně. 35

37 6 Závěr Cílem této bakalářské práce bylo představit zájemcům o informace z oblasti čištění dat vlastnosti a role číselníků v souvislosti se zvyšováním datové kvality a ukázat jejich důležitost z pohledu implementátora datové kvality a jeho zákazníka. Čtenáři byli nejprve seznámeni s důležitostí kvality dat v současné době. Uvedl jsem, že otázka datové kvality může být zároveň hrozbou i příležitostí. Nic v životě není pouze dobré či špatné, ale vždy záleží na úhlu pohledu který z naší pozice zaujímáme k dané oblasti. Z každé situace bychom si měli vzít to pozitivní a snažit se toho využít. Bereme datovou kvalitu jako hrozbu? Máme strach ze znečištěných dat? Jsou naši operátoři v call centrech pro databáze datovou pohromou? Zbavme se hrozby tím, že si zajistíme spolupráci s kvalitní firmou, která se nám o kvalitu dat postará. Poté se můžeme dostat do pozice, kdy naše data jsou kvalitnější než u konkurence. Dokud nepochopíme, že se musíme zabývat naším primárním podnikatelským cílem a ostatní úkoly, na jejichž realizaci neefektivně plýtváme prostředky, nebude náš byznys efektivní. Naučme se spolupracovat a vhodně outsourcovat produkty a služby, které jsou pro nás důležité, ale nejsou předmětem našeho podnikání. Jádro práce tvoří kapitoly věnované číselníkům (vznik, vlastnosti, správa) a postřehům z praxe, které se jich bezprostředně týkají. V datech dochází ke vzniku různých druhů nečistot, kterým se preventivně nedá zcela vyhnout, ale které jsou následně odstranitelné. Byly zde probrány například nejčastější problémy, se kterými se při práci daty (zejména klientskými) setkáváme, a návrhy jejich možných řešení za využití číselníků. Řekli jsme si pár odstavců o tom, jaké mají číselníky reálné přínosy pro implementátora datové kvality a jeho zákazníka. Stále si musíme uvědomovat, že se nemůžeme starat pouze o to, jaké máme zisky nyní, ale i jaký máme potenciál k udržení či růstu zisků v letech následujících. Kromě zisků musíme brát ohled také na image, kterou si každá firma buduje a prostřednictvím datové kvality také ovlivňuje. Každá firma stojí na tom, jaké má zákazníky a kolik jich je. Musíme vždy respektovat zákazníka a zajímat se o to, jak vypadáme v jeho očích a zda existuje něco, co by toto vnímání mohlo dostat na lepší úroveň. Ať už se jedná o zákazníka implementátorské společnosti, který očekává kvalitní pročištění svých dat a nebo zákazníka tohoto zákazníka očekávajícího při obchodní korespondenci korektně uvedené své jméno a adresu. 36

38 Některé oblasti čištění dat nemusejí na první pohled vypadat nijak složitě, ale při podrobnějším zkoumání je můžeme shledat poměrně náročnými na kvalitní řešení. Takovou oblastí jsou například jména a to zejména v případě, že s nimi pracujeme v globálním měřítku. Důležité je také nezapomínat na to, že při čištění vznikají dva druhy chyb. Při čištění rozsáhlejšího počtu záznamů se jim prakticky nelze vyhnout. Není možné je zcela eliminovat, ale pouze minimalizovat. Co říci zcela na závěr? Potřeba čistit data v databázích firem vzniká u čím dál většího množství firem a nejinak tomu bude i v následujících letech. Význam této potřeby bude postupem času narůstat a s tím bude narůstat i hodnota a prestiž společností, které budou schopny nabízet kvalitní řešení v oblasti datové kvality za rozumné ceny. Pokud přijmeme zmíněné tvrzení a jsme si vědomi existence tohoto trendu, kterého jsme již součástí, pak nemůžeme opomenout zmínit důležitost role číselníků při čištění dat. Čím budou použity kvalitnější číselníky, tím budou data čistší a zákazníci spokojenější. S kvalitnějšími daty ke světlejším zítřkům! 37

39 7 Seznamy 7.1 Slovník pojmů Pojem Business Rules Call centrum Customer Data Integration Customer Relationship Management Čištění dat Datové tržiště Datový sklad Jméno Klientská data Konsolidace Parsing Patern Význam [zdroj] Business Rules je soubor metod nebo návodů týkajících se firemních dat a chodu byznysu. Pomocí nich jsou řízeny byznysové operace. [ [1] DYCHÉ, 2006, str. 272] Call centrum (Call Center) je centralizovanou organizační jednotku firmy zabezpečující hromadné zpracování příchozích a ochozích telefonních hovorů. [ [15] Wikipedia] Customer Data Integration (CDI) je soubor procesů, řízení, automatizace a schopností nutných ke standardizaci a integraci zákaznických dat pocházejících z různých zdrojů. [ [1] DYCHÉ, 2006, str. 34] Customer Relationship Management (CRM) je databázová technologie využívaná společnostmi za účelem podpory procesů zajišťujících shromažďování, zpracování a využití informací o svých zákaznících. [Wikipedia]. CRM je infrastrukturou umožňující zobrazení a ovlivňování hodnoty zákazníka. Má za úkol motivovat zákazníky k dalšímu nákupu. [ [1] DYCHÉ, 2006, str. 274] Proces, jehož úkolem je standardizovat hodnoty z databází oproti záznamům v číselnících. Záměrem je odstranit ze záznamů nesmyslné hodnoty, překlepy, zkratky a jiné. [autor] Podmnožina datového skladu adresující potřeby specifických předmětných oblastí podniku nebo uspokojující potřeby jednotlivých částí organizace. [ [2] NOVOTNÝ a kol., 2005, str. 250] Kopie transakčních dat speciálně strukturovaných pro dotazování a reportování. (Ralph Kimball) [ [2] NOVOTNÝ a kol., 2005, str. 250] Označení pro kombinaci křestního jména a příjmení. [autor] Data o klientech společnosti zahrnující zejména jejich jména, adresy, telefonní a ové kontakty a další. [autor] V Data Cleansing můžeme chápat konsolidaci jako seskupení, spojení více záznamů vztahujících se k jednomu objektu do jediného záznamu (například se v databázi vyskytuje 5 záznamů jednoho klienta a my z nich potřebujeme udělat jeden). Konsolidace dat může být chápána jako soubor aktivit čištění dat a unifikace. Nejčastěji procházejí konsolidací klienti (jména, rodná čísla, IČO, tituly ) a adresy (PSČ, města, ulice...). [autor] Parsing = syntaktická analýza. Je to proces analýzy posloupnosti formálních prvků s cílem určit jejich gramatickou strukturu vůči předem dané (byť ne nutně explicitně vyjádřené) formální gramatice. [ [19] Wikipedia] Parsing je rovněž označení pro použití programu za účelem dekompozice řetězce znaků na jednotlivé části. [ [1] DYCHÉ, 2006, str. 279] Patern (pattern) znamená určitý vzor popisující strukturu dat. V oblasti datové kvality se setkáváme například s paterny adres (jedná se o vzory toho, jak může být adresa zapsána pozice města, PSČ, ulice, popisného čísla, orientačního čísla v určitém řetězci). [autor] 38

40 Replacement Řetězec Unifikace Jde o je zvláštní případ číselníku, kde jsou definovány dvě hodnoty - pokud je první z nich nalezena v databázi, je nahrazena druhou uvedenou. [autor] Řetězec (String) je skupina znaků. [ [21] Wikipedia] Unifikace představuje proces seskupení více záznamů pod jeden. Tento záznam obsahuje identifikační číslo, kterým je jednoznačně identifikován. [autor] 7.2 Seznam zkratek Zkratka Význam CDI CRM DQ DQC Customer Data Integration Customer Relationship Management Data Quality Data Quality Center (název softwaru datové kvality od společnosti Ataccama Software s.r.o.) 7.3 Seznam obrázků Obrázek Název Strana Obr.1 Systém SFA 8 Obr.2 Číselník zemí 12 Obr.3 Datová kvalita 12 Obr.4 Proces vzniku číselníku 16 Obr.5 Četnost příjmení mužů v ČR k Obr.6 Číselník pošt 23 Obr.7 Číselník bankovních ústavů 23 Obr.8 Tudy cesta nevede 43 Obr.9 DQC Seznam tabulek Tabulka Název Strana Tab.1 Ukázka obsahově nekvalitních dat 13 39

41 Tab.2 Chyby v přepisu dat 26 Tab.3 Nestrukturovaná data 27 Tab.4 Neúplnost záznamů, zkratky 28 Tab.5 Duplicitní data 29 40

42 8 Zdroje 8.1 Literatura [1] DYCHÉ, Jill; LEVY, Evan. Customer Data Integration Reaching a Single Version of Truth. Hoboken: John Wiley & Sons, Inc., ISBN [2] NOVOTNÝ, Ota; POUR Jan; SLÁNSKÝ David. Business Intelligence : Jak využít bohatství ve vašich datech. Praha: Grada, ISBN Internet [3] Bain & Co. Bain & Company s 2005 Management Tools survey, Dostupné na ools.pdf [4] BusinessInfo (www.businessinfo.cz). Ochrana osobních údajů, Dostupné na [5] Česká národní banka. Číselník účastníků platebního styku v ČR, aktualizováno Dostupné na ody_bank_cr.pdf [6] Česká pošta. Seznam poštovních míst v ČR, aktualizováno Dostupné na [7] Český statistický úřad. Číselník zemí, aktualizováno v roce 2007 (označení CZEM 2007). Dostupné na [8] Data Quality Center. Popis produktu DQC společnosti Ataccama Software s.r.o., aktualizace květen Dostupné na [9] Databázový svět (www.dbsvet.cz). Vyvíjíme databázový a informační systém VIII., Dostupné na [10] ECKERSON, Wayne. In Search of a Single Version of the Truth: Strategies for Consolidating Analytic Silos, srpen Dostupné na 41

43 [11] Ministerstvo vnitra ČR. Četnost příjmení mužů v ČR k Dostupné na [12] NELSON, S.; SINGHAL, R.; JANOWSKI, W.; FREY N. Gartner Research report, Customer Data Quality and Integration: The Foundation of Successful CRM, Dostupné na [13] PIRKL David, prezentace na téma Kvalita dat, VŠE, květen Dostupné na [14] Toolbox for IT (www.toolbox.com). Pipeline Management, editováno Dostupné na [15] Wikipedia: otevřená encyklopedie [online]. Call Center, editováno Dostupné na [16] Wikipedia: otevřená encyklopedie [online]. Customer Relationship Management, edit Dostupné na [17] Wikipedia: otevřená encyklopedie [online]. Data Cleansing, editováno Dostupné na [18] Wikipedia: otevřená encyklopedie [online]. Dirty Data, editováno Dostupné na [19] Wikipedia: otevřená encyklopedie [online]. Parsing, editováno Dostupné na [20] Wikipedia: otevřená encyklopedie [online]. Sales force management system, editováno Dostupné na [21] Wikipedia: otevřená encyklopedie [online]. String, editováno Dostupné na [22] wisegeek (www.wisegeek.com). What is Data Cleansing?, aktualizováno Dostupné na 42

44 9 Přílohy 9.1 Tudy cesta nevede Názorný příklad toho, co mohou způsobit nekvalitní data. Tuto zásilku jsem obdržel od jedné zahraniční společnosti koncem května tohoto roku. V posledním řádku si můžeme všimnout telefonního čísla, které bylo ovšem v databázi odesílatele zapsáno v exponenciálním tvaru, přičemž byla navíc ještě poslední číslice zaokrouhlena. Vypadá tato zásilka profesionálně? Opravdu je tak těžké si takové základní nedostatky ohlídat? Stačilo by, kdyby byl řetězec znaků obsahující telefonní číslo testován například podle číselníku na mezinárodní telefonní předvolbu. V tom případě by se ihned ukázala chyba a mohlo by se předejít podobnému paskvilu. Předpokládám, že to nebyl úmyslný čin spáchaný za účelem pobavení matematicky zdatných poštovních doručovatelek. Obr.8 Tudy cesta nevede [autor] 43

45 9.2 Ataccama - Data Quality Center (DQC) Obr.9 DQC [autor] 44

Moderní metody automatizace a hodnocení marketingových kampaní

Moderní metody automatizace a hodnocení marketingových kampaní Moderní metody automatizace a hodnocení marketingových kampaní SAS CI Roadshow 2014 24/09/2014 Vít Stinka Agenda Představení společnosti Unicorn Systems Aliance Unicorn Systems a SAS Celkový koncept Customer

Více

S M Ě R N I C E č. 6/2014 ministra financí ------------------------------------------------------------------------

S M Ě R N I C E č. 6/2014 ministra financí ------------------------------------------------------------------------ MINISTERSTVO FINANCÍ Praha 1, Letenská 15 V Praze dne 12. prosince 2014 Č.j.: MF 69 949/2014/4703-2 S M Ě R N I C E č. 6/2014 ministra financí ------------------------------------------------------------------------

Více

Uživatelský manuál: Modul Nové kontakty

Uživatelský manuál: Modul Nové kontakty Uživatelský manuál: Modul Nové kontakty Se zapnutím nových kontaktů souvisí nasazení nové aplikace Těžká podatelna a nový formulář pro evidenci externí písemnosti (dokumentu). Zapnutí nových kontaktů lze

Více

Vykazování dat o poskytovaných sociálních službách

Vykazování dat o poskytovaných sociálních službách Vykazování dat o poskytovaných sociálních službách (verze dokumentu 1.4) Odpovědná osoba: Ing. Radomír Martinka V Praze dne: 24.4.2014 Klasifikace: CHRÁNĚNÉ OKsystem s.r.o. Na Pankráci 125, 140 21 Praha

Více

replacementy parsovací algoritmy patern isticí skóre isticí kód párovacím klí hierarchické unifikace Obrázek 1:. P íklad - konfigurace

replacementy parsovací algoritmy patern isticí skóre isticí kód párovacím klí hierarchické unifikace Obrázek 1:. P íklad - konfigurace Správa telefonních seznamů není triviální záležitost Pavel Kmínek Ataccama Software 1. S konsolidovanými daty jsme silnější Správa telefonních seznamů představuje pro telekomunikační společnosti nesnadný

Více

EKONOMICKÝ A LOGISTICKÝ SOFTWARE. Luhačovice 24.10.2013

EKONOMICKÝ A LOGISTICKÝ SOFTWARE. Luhačovice 24.10.2013 EKONOMICKÝ A LOGISTICKÝ SOFTWARE Luhačovice 24.10.2013 CRM řízení vztahů se zákazníky CRM - je zkratka z anglického Customer Relationship Management a označují se tak systémy pro řízení vztahů se zákazníky.crm

Více

Transformace dílčích datových zdrojů na jednotnou datovou platformu kontaminovaných míst, analýza potřeb uživatelů a vývoj aplikací

Transformace dílčích datových zdrojů na jednotnou datovou platformu kontaminovaných míst, analýza potřeb uživatelů a vývoj aplikací Transformace dílčích datových zdrojů na jednotnou datovou platformu kontaminovaných míst, analýza potřeb uživatelů a vývoj aplikací Jiří Šíma, AQUATEST a.s. Zpracovatelé a součinnost AQUATEST a.s. ARCDATA

Více

Zákaznická SW řešení Obecný úvod

Zákaznická SW řešení Obecný úvod Zákaznická SW řešení Obecný úvod Verze 2015-04-10 Obsah 1 Úvod...3 2 Tisk přepravních štítků z vlastního SW...4 2.1 Přepravní štítek...4 2.2 Datový soubor MPSEXPDATA...4 2.3 Identifikace klienta...5 2.4

Více

Pavel Martinec 4.A 2011/2012

Pavel Martinec 4.A 2011/2012 Pavel Martinec 4.A 2011/2012 Tato úloha se skládala z několika částí: 1) Získávání informací 2) Instalace operačního systému 3) Konfigurace serverů 4) Testování propojení Bod 1: Získávání informací I když

Více

Ředitel odboru archivní správy a spisové služby PhDr. Jiří ÚLOVEC v. r.

Ředitel odboru archivní správy a spisové služby PhDr. Jiří ÚLOVEC v. r. VMV čá. 65/2012 (část II) Oznámení Ministerstva vnitra, kterým se zveřejňuje vzorový provozní řád archivu oprávněného k ukládání archiválií v digitální podobě Ministerstvo vnitra zveřejňuje na základě

Více

SPECIFIKA CERTIFIKACE PODLE ČSN EN ISO 9001:2001 V ORGANIZACÍCH, KTERÉ SE ZABÝVAJÍ VÝVOJEM SOFTWARE

SPECIFIKA CERTIFIKACE PODLE ČSN EN ISO 9001:2001 V ORGANIZACÍCH, KTERÉ SE ZABÝVAJÍ VÝVOJEM SOFTWARE SPECIFIKA CERTIFIKACE PODLE ČSN EN ISO 9001:2001 V ORGANIZACÍCH, KTERÉ SE ZABÝVAJÍ VÝVOJEM SOFTWARE Václav Šebesta Ústav informatiky Akademie věd ČR, e-mail: vasek@cs.cas.cz Abstrakt Jestliže ještě před

Více

Registr pojištěnců veřejného zdravotního pojištění. Ing. Radek Papp vedoucí projektu

Registr pojištěnců veřejného zdravotního pojištění. Ing. Radek Papp vedoucí projektu Registr pojištěnců veřejného zdravotního pojištění Ing. Radek Papp vedoucí projektu O registrech obecně Registry mají sloužit lidem, nikoliv lidé registrům Registry jsou databáze a souhrny údajů Sbírat

Více

CRM pro neziskovky, o. s. Zpráva o činnosti 2012

CRM pro neziskovky, o. s. Zpráva o činnosti 2012 Zpráva o činnosti 2012 CRM pro neziskovky, o. s. www.crmproneziskovky.cz Obsah 1. Organizace... 2 2. Poslání... 2 3. Historie... 2 4. Organizační struktura... 2 5. Vznik sdružení 2012... 2 6. Činnost sdružení...

Více

Prohlášení o ochraně osobních údajů

Prohlášení o ochraně osobních údajů Prohlášení o ochraně osobních údajů v souvislosti s internetovými stránkami MyLyconet Verze souboru: 3.00 (květen 2014) Ochrana Vašich osobních údajů je pro společnost Lyoness a majitele těchto internetových

Více

Jednoznačná identifikace jako předpoklad funkčního e-health. Martin Pavlík

Jednoznačná identifikace jako předpoklad funkčního e-health. Martin Pavlík Jednoznačná identifikace jako předpoklad funkčního e-health Martin Pavlík Růst nároků na IT Stárnoucí populace Rostoucí náklady Nedostatek pracovníků Větší nároky na IT Izolovaná datová sila Pacientská

Více

Procesní modelování agend (PMA)

Procesní modelování agend (PMA) Procesní modelování agend (PMA) 22. 01. 2015 Strana 1 Procesní modelování agend (PMA) Podklady pro konferenci Řízení informatiky v soukromém a veřejném sektoru Pořádané ČSSI a itsmf dne 22.-23.ledna 2015

Více

Český telekomunikační úřad Praha 31. ledna 2003 se sídlem Sokolovská 219, Praha 9 Č.j.: 6569/2003-610

Český telekomunikační úřad Praha 31. ledna 2003 se sídlem Sokolovská 219, Praha 9 Č.j.: 6569/2003-610 Český telekomunikační úřad Praha 31. ledna 2003 se sídlem Sokolovská 219, Praha 9 Č.j.: 6569/2003-610 Český telekomunikační úřad (dále jen Úřad ) jako příslušný orgán státní správy podle 95 bodu 6 písm.

Více

1) Má Váš orgán platnou informační koncepci dle zákona 365/2000 Sb.? ano

1) Má Váš orgán platnou informační koncepci dle zákona 365/2000 Sb.? ano Pokyny pro vyplnění: a) na otázky uvedené v tomto dotazníku by měli být schopni odpovědět minimálně vedoucí pracovníci v oblasti informačních technologií, b) v případě, že některá z požadovaných informací

Více

Administrativní pokyny pro aplikaci Madridské dohody o mezinárodním zápisu známek a Protokolu k této dohodě. (ve znění platném k 1.

Administrativní pokyny pro aplikaci Madridské dohody o mezinárodním zápisu známek a Protokolu k této dohodě. (ve znění platném k 1. Administrativní pokyny pro aplikaci Madridské dohody o mezinárodním zápisu známek a Protokolu k této dohodě (ve znění platném k 1. lednu 2008) OBSAH První část: Definice Kapitola 1: Zkrácené výrazy,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1

Více

Jednoznačná identifikace jako předpoklad funkčního e-health. Matěj Adam

Jednoznačná identifikace jako předpoklad funkčního e-health. Matěj Adam Jednoznačná identifikace jako předpoklad funkčního e-health Matěj Adam Izolovaná datová sila Pacientská data jsou v izolovaných systémech Problém se ale týká i dalších entit: Zdravotničtí pracovníci Dodavatelé

Více

APLIKACE PRÁVNÍCH PŘEDPISŮ

APLIKACE PRÁVNÍCH PŘEDPISŮ APLIKACE PRÁVNÍCH PŘEDPISŮ Vzdělávací materiál ke kurzu Mezinárodní marketing Slezská univerzita v Opavě, OPF v Karviné Okresní hospodářské komora Karviná 2010-2013 Shrnutí let 2000-2011 v r. 2000 vydáno

Více

ROZDÍLY V NÁVRZÍCH RELAČNÍCH A OBJEKTOVÝCH DATABÁZÍ A JEJICH DŮSLEDKY PRO TRANSFORMACI MODELŮ

ROZDÍLY V NÁVRZÍCH RELAČNÍCH A OBJEKTOVÝCH DATABÁZÍ A JEJICH DŮSLEDKY PRO TRANSFORMACI MODELŮ ROZDÍLY V NÁVRZÍCH RELAČNÍCH A OBJEKTOVÝCH DATABÁZÍ A JEJICH DŮSLEDKY PRO TRANSFORMACI MODELŮ RELATIONAL AND OBJECT DATABASES DESIGN DIFFERENCES AND IT S IMPLICATIONS TO MODEL TRANSFORMATION Vít Holub

Více

Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie. Předmět: PLIN08 Projekty II. Semestr: Jaro 2015

Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie. Předmět: PLIN08 Projekty II. Semestr: Jaro 2015 Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie Předmět: PLIN08 Projekty II Semestr: Jaro 2015 Vedoucí projektu: Mgr. Marek Grác, Ph.D. Úkolem tohoto projektu bylo vytvořit

Více

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER váš partner na cestě od dat k informacím globtech spol. s r.o. karlovo náměstí 17 c, praha 2 tel.: +420 221 986 390 info@globtech.cz

Více

OSOBA JEDNAJÍCÍ ZA SPRÁVCE ČÍSELNÍKU NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP)

OSOBA JEDNAJÍCÍ ZA SPRÁVCE ČÍSELNÍKU NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP) OSOBA JEDNAJÍCÍ ZA SPRÁVCE ČÍSELNÍKU NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP) Obsah Úvod...2 Co je ISDP...2 Jaké jsou funkce ISDP...2 Slovník pojmů...2 Dílčí DP...2 DS...2 ISDP...2

Více

Manažerský GIS. Martina Dohnalova 1. Smilkov 46, 2789, Heřmaničky, ČR MartinaDohnalova@seznam.cz

Manažerský GIS. Martina Dohnalova 1. Smilkov 46, 2789, Heřmaničky, ČR MartinaDohnalova@seznam.cz Manažerský GIS Martina Dohnalova 1 1 VŠB TU Ostrava, HGF, GIS, Smilkov 46, 2789, Heřmaničky, ČR MartinaDohnalova@seznam.cz Abstrakt. Téma této práce je manažerský GIS, jehož cílem je vytvořit prostředek,

Více

KDE KOUPIT TY NEJLEPŠÍ DATABÁZE?

KDE KOUPIT TY NEJLEPŠÍ DATABÁZE? KDE KOUPIT TY NEJLEPŠÍ DATABÁZE? Praha, 16. dubna 2010 Úvod - obsah Hodnocení kvality dat mýty a realita Význam DM roste získávání nových zákazníků, i CRM K čemu se DM pouţívá? Zdroje dat: vlastní x veřejné

Více

Relační databáze. V dnešní době existuje řada komerčních DBMS, nejznámější jsou:

Relační databáze. V dnešní době existuje řada komerčních DBMS, nejznámější jsou: Relační databáze Pojem databáze, druhy databází Databází se myslí uložiště dat. V době začátků využívání databází byly tyto členěny hlavně hierarchicky, případně síťově (rozšíření hierarchického modelu).

Více

Slovenská spořitelna:

Slovenská spořitelna: Případová studie Slovenská spořitelna: Microsoft Dynamics CRM pro správu klientů ze segmentu malých a středních podniků Jak jsme Slovenské spořitelně usnadnily a zefektivnily práci s klienty ze segmentu

Více

Základní registry ve veřejné správě

Základní registry ve veřejné správě Základní registry ve veřejné správě Obsah kurzu Úvod Informační systém základních registrů (ISZR) Přínosy ZR Bezpečnost ISZR Agendové informační systémy (AIS) Postup implementace základních registrů Registr

Více

DMS - řízená dokumentace, archiv a co dále? ICT ve zdravotnictví 2014

DMS - řízená dokumentace, archiv a co dále? ICT ve zdravotnictví 2014 DMS - řízená dokumentace, archiv a co dále? ICT ve zdravotnictví 2014 Praha 17.09.2014 Jiří Voves Proč otazník v názvu přednášky? Nové technologie Nové přístrojové vybavení Nové postupy Nová data Data

Více

Požadavky na data a informace k hodnocení klastrové excelence. (Bronze Label of Management Excellence minimum requirments)

Požadavky na data a informace k hodnocení klastrové excelence. (Bronze Label of Management Excellence minimum requirments) Požadavky na data a informace k hodnocení klastrové excelence (Bronze Label of Management Excellence minimum requirments) Pro zapojení se do daného projektu resp. do benchmarkingové databáze je nutné provést

Více

PORTÁLOVÉ ŘEŠENÍ PERSONÁLNÍHO INFORMAČNÍHO SYSTÉMU

PORTÁLOVÉ ŘEŠENÍ PERSONÁLNÍHO INFORMAČNÍHO SYSTÉMU PORTÁLOVÉ ŘEŠENÍ PERSONÁLNÍHO INFORMAČNÍHO SYSTÉMU Ing. Bc. Jaroslav Šmarda Vema, a. s. www.vema.cz e-mail: smarda@vema.cz Klíčová slova Informační systém pro řízení lidských zdrojů, portál, personální

Více

INFORMAČNÍ SYSTÉM VEŘEJNÉ SPRÁVY A JEHO VZTAH K OSTATNÍM INFORMAČNÍM SYSTÉMŮM

INFORMAČNÍ SYSTÉM VEŘEJNÉ SPRÁVY A JEHO VZTAH K OSTATNÍM INFORMAČNÍM SYSTÉMŮM INFORMAČNÍ SYSTÉM VEŘEJNÉ SPRÁVY A JEHO VZTAH K OSTATNÍM INFORMAČNÍM SYSTÉMŮM Vladimír Šmíd Masarykova univerzita v Brně, Žerotínovo nám. 9, 601 77 Brno, ČR e-mail: smid@rect.muni.cz Abstrakt V roce 2000

Více

CA Business Service Insight

CA Business Service Insight SPECIFIKACE PRODUKTU: CA Business Service Insight CA Business Service Insight agility made possible Díky produktu CA Business Service Insight budete vědět, které služby jsou v rámci vaší společnosti využívány,

Více

Trendy v (mobilní) Business Inteligence v ČR dotazníkové šetření

Trendy v (mobilní) Business Inteligence v ČR dotazníkové šetření Trendy v (mobilní) Business Inteligence v ČR dotazníkové šetření Vytvořil: Distribuce dokumentu: Česká asociace pro finanční řízení Controller Institut elektronicky na finanční a controllingové specialisty

Více

Indexace pro souborová uložiště a Vyhledávací centrum

Indexace pro souborová uložiště a Vyhledávací centrum Indexace pro souborová uložiště a Vyhledávací centrum Obsah I. Úvod... 2 II. Cíl dokumentu... 2 III. Fáze projektu... 2 IV. Popis jednotlivých fází projektu... 2 1. Fáze 1. - Analýza... 2 2. Fáze 2. -

Více

Projekt Datové schránky. Zdeněk Zajíček náměstek ministra vnitra

Projekt Datové schránky. Zdeněk Zajíček náměstek ministra vnitra Projekt Datové schránky Zdeněk Zajíček náměstek ministra vnitra ZÁKON O egovernmentu Zákon č. 300/2008 Sb., o elektronických úkonech a autorizované konverzi dokumentů Schválen PS PČR 25.6. 2008 Schválen

Více

České Budějovice. 2. dubna 2014

České Budějovice. 2. dubna 2014 České Budějovice 2. dubna 2014 1 IBM regionální zástupci - Jihočeský kraj Michal Duba phone: +420 737 264 058 e-mail: michal_duba@cz.ibm.com Zdeněk Barlok phone: +420 731 435 534 e-mail: zdenek_barlok@cz.ibm.com

Více

Management. Rozhodování. Ing. Vlastimil Vala, CSc. Ústav lesnické a dřevařské ekonomiky a politiky

Management. Rozhodování. Ing. Vlastimil Vala, CSc. Ústav lesnické a dřevařské ekonomiky a politiky Management Rozhodování Ing. Vlastimil Vala, CSc. Ústav lesnické a dřevařské ekonomiky a politiky Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU

Více

Využití technologie k dosažení nových obchodních příležitostí

Využití technologie k dosažení nových obchodních příležitostí Využití technologie k dosažení nových obchodních příležitostí Tomáš Kadlec Agenda 1. Zákaznicky orientované IT Komplikace s tradičním IT Centric Pricing and Billing Příklady použití nástroje a benefity

Více

Manažerský informační systém na MPSV. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV

Manažerský informační systém na MPSV. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV Manažerský informační systém na MPSV Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV Konference ISSS-2009 Hradec Králové Aldis 6. dubna 2009 MIS na MPSV časové údaje projektu Vytvoření MIS MPSV

Více

Příručka pro editaci kontaktů na eagri

Příručka pro editaci kontaktů na eagri Obsah Úvod... 1 Uživatel a subjekt... 1 Kontakty... 1 Validace hodnoty kontaktu... 2 GPS souřadnice... 3 Certifikát... 3 Datová schránka... 4 Adresy... 4 Změna PSČ v primární adrese a speciální PSČ...

Více

STUDIE NÁVRATNOSTI PRO SAFETICA INSIGHT

STUDIE NÁVRATNOSTI PRO SAFETICA INSIGHT STUDE NÁVRATNOST PRO SAFETCA NSGHT 1 SHRNUTÍ Hlavní finanční výhoda spojená s používáním Safetica nsight je eliminace neefektivně vynaloženého pracovního času, který zaměstnanci tráví soukromými záležitostmi

Více

QAD CRM. Vladimír Bartoš. konzultant

QAD CRM. Vladimír Bartoš. konzultant QAD CRM Vladimír Bartoš konzultant Integrace QAD CRM QAD EA Artikly Adresy Nabídky Prodejní objednávky Instalovaná báze Servisní volání Servisní kontrakty Servisní nabídky Nabídky volání Měny Uživatelé

Více

Results of innovation of the course Application software

Results of innovation of the course Application software Zkušenosti z inovace předmětu Aplikační programové vybavení Results of innovation of the course Application software Miroslav Cepl *, Ondřej Popelka Abstrakt Článek popisuje postup a průběžný výsledek

Více

Nová dimenze rozhodovacího procesu

Nová dimenze rozhodovacího procesu Nová dimenze rozhodovacího procesu Marek Matoušek Pavel Mašek Data, nebo INFORMACE Využití dostupných firemních dat Několik systémů, mnoho různých dat Různé divize, různé potřeby Potřeba integrace dat

Více

Vyřizování elektronických podání, podnětů a jiných písemností podle správního řádu s důrazem na vyřizování úkonů bez uznávaného elektronického podpisu

Vyřizování elektronických podání, podnětů a jiných písemností podle správního řádu s důrazem na vyřizování úkonů bez uznávaného elektronického podpisu Odbor legislativy a koordinace předpisů Vyřizování elektronických podání, podnětů a jiných písemností podle správního řádu s důrazem na vyřizování úkonů bez uznávaného elektronického podpisu Podání obecně

Více

Spuštění základních registrů. ing. Ondřej Felix CSc. hlavní architekt egovernmentu MV ČR

Spuštění základních registrů. ing. Ondřej Felix CSc. hlavní architekt egovernmentu MV ČR Spuštění základních registrů ing. Ondřej Felix CSc. hlavní architekt egovernmentu MV ČR Agenda Jak se to dělá a bude dělat Současný stav Vládní nařízení Registrace agend Připojení AIS Inicialní definice

Více

Zároveň společně probereme vlastnosti, které jsou orientované na zákazníka firmy, a zjistíme, zda je máte v pořádku právě vy.

Zároveň společně probereme vlastnosti, které jsou orientované na zákazníka firmy, a zjistíme, zda je máte v pořádku právě vy. V tomto materiálu se Vám pokusíme povědět o základních elementech a praktických aspektech procesu řízení vztahů se zákazníky (CRM, customer relationship management) a zákaznické zkušenosti (CEM, customer

Více

Kamzasportem.cz databáze sportovních zařízení v České republice technické specifikace projektu

Kamzasportem.cz databáze sportovních zařízení v České republice technické specifikace projektu Kamzasportem.cz databáze sportovních zařízení v České republice technické specifikace projektu Obsah dokumentu Tento dokument obsahuje technické specifikace a základní smluvní a platební informace pro

Více

Informační systém evidence obyvatel

Informační systém evidence obyvatel Informační systém evidence obyvatel Informační systém evidence obyvatel, upravený zákonem č. 133/2000 Sb., o evidenci obyvatel a rodných číslech a o změně některých zákonů (zákon o evidenci obyvatel),

Více

Výstupy soustavy statistických registrů napojené na ZR-RÚIAN

Výstupy soustavy statistických registrů napojené na ZR-RÚIAN Výstupy soustavy statistických registrů napojené na ZR-RÚIAN Ing. Zdeňka Udržalová oddělení statistických územních jednotek odbor statistických registrů (prezentováno na konferenci INSPIRUJME SE, 25.-26.11.2014)

Více

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL.S R. O.

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL.S R. O. VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL.S R. O. Mgr. Evgeniya Pavlova Rozvojová strategie podniku ve fázi stabilizace Diplomová práce 2013 Rozvojová strategie podniku ve fázi stabilizace Diplomová práce

Více

Dokumentace. k modulu. podnikový informační systém (ERP) ARES

Dokumentace. k modulu. podnikový informační systém (ERP) ARES Dokumentace k modulu podnikový informační systém (ERP) Využití systému v Money Administrativní registr ekonomických subjektů je informační systém, který eviduje všechny subjekty registrované v České republice,

Více

KAPITOLA 2 - ZÁKLADNÍ POJMY INFORMAČNÍCH A KOMUNIKAČNÍCH TECHNOLOGIÍ

KAPITOLA 2 - ZÁKLADNÍ POJMY INFORMAČNÍCH A KOMUNIKAČNÍCH TECHNOLOGIÍ KAPITOLA 2 - ZÁKLADNÍ POJMY INFORMAČNÍCH A KOMUNIKAČNÍCH TECHNOLOGIÍ KLÍČOVÉ POJMY Internet World Wide Web FTP, fulltext e-mail, IP adresa webový prohlížeč a vyhledávač CÍLE KAPITOLY Pochopit, co je Internet

Více

POUČENÍ o registrech Sdružení SOLUS

POUČENÍ o registrech Sdružení SOLUS POUČENÍ o registrech Sdružení SOLUS I. ÚVOD [Společnost] je členem sdružení SOLUS, zájmového sdružení právnických osob, IČ 69346925 (též jen SOLUS nebo jen Sdružení SOLUS ). Jednotliví členové sdružení

Více

Oznámení FATCA. FATHLA - Struktura vět. FATHLA - e-přílohy. Zkratka: FATHLA Verze: 01.01 Ze dne: XX.XX.XXXX

Oznámení FATCA. FATHLA - Struktura vět. FATHLA - e-přílohy. Zkratka: FATHLA Verze: 01.01 Ze dne: XX.XX.XXXX Oznámení FATCA Zkratka: FATHLA Verze: 01.01 Ze dne: XX.XX.XXXX Následující popis obsahuje specifikaci struktury souboru konkrétní písemnosti. Další informace lze získat v dokumentu Obecný popis struktury

Více

Nejednotnost datových zdrojů systémů zdravotních a sociálních služeb překážka k optimalizaci těchto služeb

Nejednotnost datových zdrojů systémů zdravotních a sociálních služeb překážka k optimalizaci těchto služeb Nejednotnost datových zdrojů systémů zdravotních a sociálních služeb překážka k optimalizaci těchto služeb Zdeněk Kadlec, náměstek ministryně práce a sociálních věcí Optimalizace sítě zdravotních a sociálních

Více

Soukromí a bezpečnost v IT, ochrana dat na internetu

Soukromí a bezpečnost v IT, ochrana dat na internetu Soukromí a bezpečnost v IT, ochrana dat na internetu Katedra softwarového inženýrství Fakulta informačních technologií ČVUT Alžběta Krausová, 2011 Právo a Informatika, BI-PAI, 09/2011, Přednáška 9 https://edux.fit.cvut.cz/courses/bi-pai

Více

Oznámení profilu Zadavatele

Oznámení profilu Zadavatele Oznámení profilu Zadavatele Vydání Schváleno Ministerstvem pro místní rozvoj České republiky dne 17.7.2015 Verze v03.1 Účinnost 03.12.2012 Verze v03.2 Účinnost 08.02.2013 Verze v03.3 Účinnost 14.07.2014

Více

Základní registry veřejné správy RÚIAN a ISÚI

Základní registry veřejné správy RÚIAN a ISÚI Základní registry veřejné správy RÚIAN a Jiří Formánek Český úřad zeměměřický a katastrální (ČÚZK) RÚIAN registr územní identifikace Projekt Vybudování Registru územní identifikace, adres a nemovitostí

Více

Parlament se usnesl na tomto zákoně České republiky:

Parlament se usnesl na tomto zákoně České republiky: Strana 3258 Sbírka zákonů č. 263 / 2011 263 ZÁKON ze dne 29. července 2011, kterým se mění zákon č. 365/2000 Sb., o informačních systémech veřejné správy a o změně některých dalších zákonů, ve znění pozdějších

Více

Ochrana osobních údajů

Ochrana osobních údajů 1 Ochrana osobních údajů vnitřní předpis závazný pro zaměstnance, vázané zástupce a ostatní spolupracující osoby společnosti 2 Úvodní ustanovení 1. Tento vnitřní předpis je vydán v souladu se zákonem č.

Více

Metodika SWOT analýzy

Metodika SWOT analýzy Metodika SWOT analýzy Praha, 7. 1. 2011, 23:42 Strategické řízení firmy využívá pro svá rozhodování několik analýz. K těm nejvíce známým patří SWOT analýza. Její význam je neoddiskutovatelný, neboť její

Více

Case Study. Google Apps: Krok do 21. století. Kterých témat se case study týká?

Case Study. Google Apps: Krok do 21. století. Kterých témat se case study týká? Case Study Google Apps: Krok do 21. století Kterých témat se case study týká? Změna firemní kultury Vysoké nároky na funkcionalitu Úspora firemních nákladů 1 Kdo je ANNONCE? 2 Výchozí podmínky Annonce

Více

Návod jak nejen reference získat, ale i efektivně využít. Publikace je chráněna autorským právem Pavel Fara 2013

Návod jak nejen reference získat, ale i efektivně využít. Publikace je chráněna autorským právem Pavel Fara 2013 Návod jak nejen reference získat, ale i efektivně využít. Publikace je chráněna autorským právem Pavel Fara 2013 1 Určitě sami dobře víte, že lidé neradi dávají doporučení na finanční zprostředkovatele.

Více

A05 Stanovení způsobů ověření Praktické předvedení praktická neznamená jen manuální nebo ruční

A05 Stanovení způsobů ověření Praktické předvedení praktická neznamená jen manuální nebo ruční A05 Stanovení způsobů ověření Způsob ověření se stanovuje pro každé jednotlivé kritérium. Určuje, jakým postupem je kritérium ověřováno. Základní způsoby ověření jsou: - praktické předvedení - písemné

Více

Provozní dokumentace. Seznam datových schránek. Příručka pro statutárního zástupce

Provozní dokumentace. Seznam datových schránek. Příručka pro statutárního zástupce Provozní dokumentace Seznam datových schránek Příručka pro statutárního zástupce Vytvořeno dne: 2. 8. 2011 Aktualizováno: 28. 11. 2011 Verze: 1.2 2011 MVČR Obsah Příručka pro statutárního zástupce 1 Úvod...3

Více

WEBFILTR. Kernun Clear Web. Český nebo zahraniční filtr? Radek Nebeský, TNS / Seminář WEBFILTR Kernun / Praha 6. února 2013. www.kernun.

WEBFILTR. Kernun Clear Web. Český nebo zahraniční filtr? Radek Nebeský, TNS / Seminář WEBFILTR Kernun / Praha 6. února 2013. www.kernun. WEBFILTR Kernun Clear Web Český nebo zahraniční filtr? Radek Nebeský, TNS / Seminář WEBFILTR Kernun / Praha 6. února 2013 Profil společnosti TNS Lokální bezpečnost je budoucnost! Rizika ve světě IT se

Více

Vykazování dat prostřednictvím SDNS Web Services

Vykazování dat prostřednictvím SDNS Web Services Sekce informatiky Odbor projektování a správy IS Vykazování dat prostřednictvím SDNS Web Services Uživatelská příručka (procesní pohled) verze 1.1 Autoři: Michal Wokoun Jiří Smolík 15. února 2008 Verze

Více

VIZE INFORMATIKY V PRAZE

VIZE INFORMATIKY V PRAZE VIZE INFORMATIKY V PRAZE Václav Kraus, ŘED INF MHMP 1 / 30. 4. 2009 PRAHA MĚSTO PRO ŽIVOT Město mezinárodně uznávané, ekonomicky prosperující a úspěšné. Město bezpečné a přívětivé, město sebevědomých a

Více

Balíček vzorové dokumentace pro projektové manažery ve školství v rámci projektu PM 250+

Balíček vzorové dokumentace pro projektové manažery ve školství v rámci projektu PM 250+ Balíček vzorové dokumentace pro projektové manažery ve školství v rámci projektu PM 250+ Co je Balíček a k čemu slouží Jedná se o sadu 23 formulářů pro podporu řízení projektů ve školách a školských zařízeních.

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

STANOVISKO č. 2/2014 červenec 2014 1

STANOVISKO č. 2/2014 červenec 2014 1 Pplk. Sochora 27, 170 00 Praha 7, Tel.: 234 665 111, Fax: 234 665 444; e-mail: posta@uoou.cz STANOVISKO č. 2/2014 červenec 2014 1 Dynamický biometrický podpis z pohledu zákona o ochraně osobních údajů

Více

POPTÁVKOVÝ DOKUMENT NA DODAVATELE IS/IT Předmět poptávky Integrovaný IS, podložený podrobnou studií, pro částečné řízení výroby, správy zakázek dodavatelů, subdodavatelů, výrobních dokumentů a vnitropodnikovou

Více

Systém elektronického rádce v životních situacích portálu www.senorady.cz

Systém elektronického rádce v životních situacích portálu www.senorady.cz Systém elektronického rádce v životních situacích portálu www.senorady.cz Obec Senorady Miroslav Patočka 2006 Obsah: 1. Úvodní informace 1.1 Informace pro uživatele 1.1.1 Přístupnost HTML, PDA, WAP, XML

Více

ČESKÁ NÁRODNÍ BANKA. 1 Systém základních registrů se skládá z registru obyvatel (ROB), který zahrnuje české fyzické osoby a cizince

ČESKÁ NÁRODNÍ BANKA. 1 Systém základních registrů se skládá z registru obyvatel (ROB), který zahrnuje české fyzické osoby a cizince ČESKÁ NÁRODNÍ BANKA I n f o r m a c e o připravovaných změnách v povolovacích a registračních činnostech v souvislosti se základními registry --------------------------------------------------------------------------------------------------------------

Více

SOUHLAS SE ZPRACOVÁNÍM OSOBNÍCH ÚDAJŮ A POSKYTNUTÍ INFORMACÍ A POUČENÍ O PRÁVECH SUBJEKTU ÚDAJŮ

SOUHLAS SE ZPRACOVÁNÍM OSOBNÍCH ÚDAJŮ A POSKYTNUTÍ INFORMACÍ A POUČENÍ O PRÁVECH SUBJEKTU ÚDAJŮ SOUHLAS SE ZPRACOVÁNÍM OSOBNÍCH ÚDAJŮ A POSKYTNUTÍ INFORMACÍ A POUČENÍ O PRÁVECH SUBJEKTU ÚDAJŮ 1. ÚVODNÍ INFORMACE Hlavní město Praha (dále jen Město ) provozuje Pražské centrum kartových služeb (dále

Více

KOMENTÁTOR ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP)

KOMENTÁTOR ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP) KOMENTÁTOR ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP) Obsah Úvod...3 Co je ISDP...3 Jaké jsou funkce ISDP...3 Slovník pojmů...3 Dílčí DP...3 DS...3 ISDP...3 JeDP...3 OS...3 SlDP...3

Více

Projekt Datové schránky. Zdeněk Zajíček náměstek ministra vnitra

Projekt Datové schránky. Zdeněk Zajíček náměstek ministra vnitra Projekt Datové schránky Zdeněk Zajíček náměstek ministra vnitra ZÁKON O egovernmentu Zákon č. 300/2008 Sb., o elektronických úkonech a autorizované konverzi dokumentů Schválen PS PČR 25.6. 2008 Schválen

Více

Martin Jakubička Ústav výpočetní techniky MU, Fakulta Informatiky MU Osnova Ohlédnutí za minulým rokem Úvod do problematiky Správa aktiv Ohlédnutí za minulým rokem loňský příspěvek zaměřen na specifikaci,

Více

SOUBOR OTÁZEK PRO INTERNÍ AUDIT (Checklist)

SOUBOR OTÁZEK PRO INTERNÍ AUDIT (Checklist) SOUBOR OTÁZEK PRO INTERNÍ AUDIT (Checklist) Oblast 1. STRATEGICKÉ PLÁNOVÁNÍ Jsou identifikovány procesy v takovém rozsahu, aby byly dostačující pro zajištění systému managementu jakosti v oblasti vzdělávání?

Více

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D. Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky Ing. Jan Ministr, Ph.D. I. Úvod Agenda II. Customer Intelligence (CI),zpracování dat z Internetu III. Analýza obsahu IV.

Více

Směrnice pro nakládání s osobními údaji. Městský úřad Vamberk

Směrnice pro nakládání s osobními údaji. Městský úřad Vamberk Směrnice pro nakládání s osobními údaji Městský úřad Vamberk Copyright Pro IT, a. s., 2010 Obsah 1. Úvodní ustanovení... 3 2. Citlivé údaje... 4 3. Pověřené osoby... 5 4. Bezpečnost informací... 6 4.1.

Více

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů 7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů Verze dokumentu: 1.0 Autor: Jan Lávička, Microsoft Časová náročnost: 30 40 minut 1 Cvičení 1: Vyhledávání informací v

Více

The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into

The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material,

Více

PALSTAT s.r.o. systémy řízení jakosti PALSTAT CAQ verze. 3.00.01.09 Kontakty 08/2010. 1 Obsah

PALSTAT s.r.o. systémy řízení jakosti PALSTAT CAQ verze. 3.00.01.09 Kontakty 08/2010. 1 Obsah 1 Obsah 1 Obsah... 1 2 Úvod a spouštění SW Palstat CAQ... 2 2.1.1 Návaznost na další SW moduly Palstat CAQ... 2 2.2 Přihlášení do programu... 2 2.2.1 Stanovení přístupu a práv uživatele... 2 2.2.2 Spuštění

Více

Persistentní identifikátory pro NUŠL rozhodovací kritéria

Persistentní identifikátory pro NUŠL rozhodovací kritéria Persistentní identifikátory pro NUŠL rozhodovací kritéria Úvod Webové technologie otevřely obrovské možnosti v oblasti dostupnosti elektronických informací a způsobily tak revoluční změny ve způsobech,

Více

DATABÁZE A SYSTÉMY PRO UCHOVÁNÍ DAT 61 DATABÁZE - ACCESS. (příprava k vykonání testu ECDL Modul 5 Databáze a systémy pro zpracování dat)

DATABÁZE A SYSTÉMY PRO UCHOVÁNÍ DAT 61 DATABÁZE - ACCESS. (příprava k vykonání testu ECDL Modul 5 Databáze a systémy pro zpracování dat) DATABÁZE A SYSTÉMY PRO UCHOVÁNÍ DAT 61 DATABÁZE - ACCESS (příprava k vykonání testu ECDL Modul 5 Databáze a systémy pro zpracování dat) DATABÁZE A SYSTÉMY PRO UCHOVÁNÍ DAT 62 Databáze a systémy pro uchování

Více

Studie efektivity EDI komunikace 2011. Průzkum mezi uživateli Systému GS1 v České republice

Studie efektivity EDI komunikace 2011. Průzkum mezi uživateli Systému GS1 v České republice Studie efektivity EDI komunikace 2011 Průzkum mezi uživateli Systému GS1 v České republice 2 Efektivní přenos a zpracování dokladů v rámci jednotlivých obchodních transakcí je cílem GS1 v oblasti elektronické

Více

Základní registry ČR

Základní registry ČR Základní registry ČR RNDr. Petr Tiller Igos Consulting a.s. Projekt Informační systém základních registrů (registrační číslo: CZ.1.06/1.1.00/03.05891) byl spolufinancován z prostředků Evropské unie, Evropského

Více

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské

Více

Střední průmyslová škola strojnická Olomouc tř.17. listopadu 49. Výukový materiál zpracovaný v rámci projektu Výuka moderně

Střední průmyslová škola strojnická Olomouc tř.17. listopadu 49. Výukový materiál zpracovaný v rámci projektu Výuka moderně Střední průmyslová škola strojnická Olomouc tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/34.0205 Šablona: VI/2 Sada: 2 Číslo

Více

ISZR a samospráva v roce 0

ISZR a samospráva v roce 0 ISZR a samospráva v roce 0 Podpora "statutára" orgánu veřejné moci (OVM) při naplňování povinností vyplývajících ze Zákonů o základních registrech Vladimír Dvořák ředitel divize Podnikové aplikace a služby

Více

45 Plánovací kalendář

45 Plánovací kalendář 45 Plánovací kalendář Modul Správa majetku slouží ke tvorbě obecných ročních plánů činností organizace. V rámci plánu je třeba definovat oblasti činností, tj. oblasti, ve kterých je možné plánovat. Každá

Více

24-2-2 PROMĚNNÉ, KONSTANTY A DATOVÉ TYPY TEORIE DATUM VYTVOŘENÍ: 23.7.2013 KLÍČOVÁ AKTIVITA: 02 PROGRAMOVÁNÍ 2. ROČNÍK (PRG2) HODINOVÁ DOTACE: 1

24-2-2 PROMĚNNÉ, KONSTANTY A DATOVÉ TYPY TEORIE DATUM VYTVOŘENÍ: 23.7.2013 KLÍČOVÁ AKTIVITA: 02 PROGRAMOVÁNÍ 2. ROČNÍK (PRG2) HODINOVÁ DOTACE: 1 24-2-2 PROMĚNNÉ, KONSTANTY A DATOVÉ TYPY TEORIE AUTOR DOKUMENTU: MGR. MARTINA SUKOVÁ DATUM VYTVOŘENÍ: 23.7.2013 KLÍČOVÁ AKTIVITA: 02 UČIVO: STUDIJNÍ OBOR: PROGRAMOVÁNÍ 2. ROČNÍK (PRG2) INFORMAČNÍ TECHNOLOGIE

Více