Vysoká škola ekonomická v Praze

Rozměr: px
Začít zobrazení ze stránky:

Download "Vysoká škola ekonomická v Praze"

Transkript

1 Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií Student: Vedoucí bakalářské práce : Oponent bakalářské práce : Radim Bukovský Ing. David Slánský doc. Ing. Jan Pour, CSc. TÉMA BAKALÁŘSKÉ PRÁCE Vliv číselníků na kvalitu firemních dat ROK : 2009

2 Prohlášení Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze kterých jsem čerpal. V Praze dne podpis 1

3 Poděkování Rád bych na tomto místě poděkoval všem, kteří mi buď přímo nebo nepřímo pomáhali v tom, abych získal cenné znalosti a zkušenosti a ty pak mohl promítnout do práce, kterou právě čtete. Díky jejich radám, připomínkám a názorům, které zaměstnávaly mé myšlení více než půl roku, jsem získal přehled o tom, co se skrývá pod termíny Data Quality a Data Cleansing. Děkuji zejména Davidovi Slánskému a to nejen za vedení této práce. Díky Davidovi jsem poznal společnost Adastra s.r.o. 1 a Ataccama Software s.r.o. 2 Právě v Ataccamě jsem strávil v roce 2008 šest velmi zajímavých měsíců. Pracoval jsem tam na pozici analytika datových zdrojů (Data Source Analyst). Dále děkuji svému bývalému přímému nadřízenému Markovi Poláškovi (Vice president, Products) za příležitost poznat oblast, o kterou jsem se zajímal. Nemohu rovněž opomenout poděkovat Jiřímu Jarošovi (Deliver Manager), člověku, který se mnou byl nejvíce v kontaktu během mého působení v Ataccamě. Jiří byl takovým mým koučem a pod jeho vedením jsem se mnohému užitečnému naučil. Za to mu patří velký dík. Děkuji také všem ostatním bývalým kolegům z Ataccamy a Adastry za projevenou podporu, za důvěru, za možnost spolupracovat se zkušeným týmem vývojářů a implementátorů. 1 Adastra s.r.o Ataccama Software s.r.o

4 Cíl Cílem bakalářské práce je seznámit čtenáře s hlavními úlohami, vlastnostmi a důležitostí číselníků při zajišťování kvality dat ve firemních databázích. Na téma bude pohlíženo jak z pohledu implementátora datové kvality, tak i jeho zákazníka. Abstrakt Tato práce je určena všem zájemcům o informace z oblasti datové kvality (konkrétněji z oblast čištění dat). Každý, kdo má zájem se dozvědět něco více o číselnících, které do datové kvality neodmyslitelně patří, je vítán. Bude mu nabídnuto nahlédnutí do kuchyně lidí pracujících nejen na jejich tvorbě a správě, ale také na jejich reálném nasazení na konkrétních projektech. Také se zde dozvíte detaily o tom, jak mohou číselníky skrze datovou kvalitu pomoci firmám k nižším nákladům a jak dokáží vyvolat lepší dojem ve svých klientech. Klíčová slova: Číselníky, čištění dat, data, datová kvalita Goal The goal of this bachelor s thesis is to introduce readers to main roles and the importance of etalons in data cleansing procedures in company databases. The subject of the thesis will be viewed from both the data quality implementator and its customer sides. Abstract This thesis is dedicated to all persons who are interested in information of the data quality (especially the Data Cleansing). Everyone who wants to get to know more about etalons, the essential part of the data quality, is welcomed. The insight into everyday activities of people working not only on creating and administrating of etalons but also implementing them on particular projects is prepared for everyone. The reader will also gain detailed knowledge of how etalons could help companies with decreasing their costs and how etalons can make better impression to company s clients through the data quality. Key words: Data, Data Cleansing, Data Quality, Etalons 3

5 Obsah 1 Úvod Datová kvalita v dnešní době Důležitost datové kvality Konsolidovaná budoucnost Datová kvalita a zákazníci firem Příležitost nebo hrozba? Klientská data Číselníky a datová kvalita Proč číselníky a datová kvalita? Definování základních pojmů Číselník Datová kvalita Software datové kvality Nekvalitní data Čištění dat Zlepšování datové kvality Anonymní údaj Osobní údaj Implementační tým Číselníky Vznik číselníků Vlastnosti číselníků Popis Zdroj

6 3.2.3 Struktura Formát Kvalita záznamů Důvěryhodnost Úplnost Verzování Datum aktualizace Velikost Historie Umístění Zdroje číselníků Bezplatné Placené Vlastní (interní) Správa číselníků Časté problémy s daty a jejich řešení Přepisování dat Nestrukturovaná data Pomocné hodnoty Neúplnost záznamů, zkratky Formáty záznamů Duplicitní data Další postřehy z praxe Přínosy kvalitních číselníků pro implementátora Přínosy kvalitních číselníků pro zákazníka

7 5.3 Jména a příjmení = snadné řešení? Možnost vzniku chyb při čištění Práce s anonymními a osobními údaji Závěr Seznamy Slovník pojmů Seznam zkratek Seznam obrázků Seznam tabulek Zdroje Literatura Internet Přílohy Tudy cesta nevede Ataccama - Data Quality Center (DQC)

8 1 Úvod 1.1 Datová kvalita v dnešní době Téma datové kvality je v posledních několika letech velmi diskutované a s postupem času o něm budeme určitě slýchávat ještě více. Zpracovává se čím dál větší množství dat a proto logicky dochází i k výskytu většího množství chyb při jejich zpracování a manipulaci s nimi. Pokud bude podíl nekvalitních dat na celkových firemních datech významný, pak jsou data jako celek nepoužitelná a mnohdy je pak lepší pořídit data nová, nežli se zabývat jejich čištěním. Stále častěji se setkáváme s otázkami pokládanými vlastníky a manažery firem, které mohou být podobné následujícím: Jak definujeme kvalitu dat, se kterými pracujeme? Jak poznáme rozdíl mezi kvalitními a nekvalitními daty? Disponuje naše firma kvalitními daty? Co můžeme udělat pro to, aby naše data byla více kvalitní? Jak můžeme zajistit kvalitu na rozumné úrovni a za rozumnou cenu? Jak a o kolik nám kvalitní data sníží náklady? Jaký je finanční i nefinanční přínos udržování dat na kvalitní úrovni? Odpovědi na tyto otázky je vhodné znát, pokud to s monitorováním a zlepšováním datové kvality uvnitř firmy myslíme opravdu vážně. Pokud je neznáme, znamená to, že nemáme datovou kvalitu ve firmě pod kontrolou a že nemáme ani ponětí o tom, jak by jí šlo zlepšit. Kde není identifikován aktuální stav, nemohou být definovány ani kroky vedoucí ke zlepšení stávající situace. 1.2 Důležitost datové kvality Myslím si, že potřeba udržovat datovou kvalitu na přijatelné úrovni je pro firmy ze všech oblastí podnikání velice důležitá a časem na ní bude kladen ještě větší důraz. Ten, kdo jí udržovat nebude, bude brzy zahlcen špinavými a mnohdy nepoužitelnými daty, jejichž množství bude v čase dále narůstat. Zejména pokud má firma větší počet klientů a potřebuje u nich udržovat aktuální a kvalitní záznamy, implementaci datové kvality se nemůže vyhnout. Lze namítnout opak. Ano jistě, ale vzhledem k tomu, jaké problémy jí to dříve či později způsobí, se jí rozhodně ignorace udržování kvalitních dat nevyplatí a to zejména z hlediska zbytečně vysokých nákladů a oslabení konkurenceschopnosti, což může mít fatální následky. 7

9 Data Warehouse Institute zveřejnil v roce 2004 zprávu 3, která obsahuje informaci o tom, že 11 procent společností má konsolidovaná data napříč celou společností. Není toto číslo poměrně malé? Zbývající společnosti nepotřebují udržovat kvalitu dat? Možná nyní bude toto procento o něco vyšší, ale dříve či později se bude muset důsledně starat o svá data každá firma, která chce být na trhu úspěšná. Proto se domnívám, že společnosti zabývající se datovou kvalitou mají nyní velmi dobrou příležitost k tomu, aby se prosadily a vešly do povědomí co možná nejvíce firem, potenciálních zákazníků. 1.3 Konsolidovaná budoucnost Ve firmách dochází stále častěji k tomu, že jsou data z různých zdrojů transformována do centrálního úložiště, kde jsou uložena jako jediná verze pravdy. Obr.1 Systém SFA [DYCHÉ, 2006, str.12] 4 3 [10] ECKERSON W., In Search of a Single Version of the Truth 4 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s

10 Přístup, který se začíná v dnešní době uplatňovat, je reprezentován například systémy SFA (Sales Force Automation Systems) 5. Jedná se o systémy, které potřebují být plněny daty z jiných, primárních, systémů (viz obrázek na předchozí straně) a to tak, aby dokázaly zajistit centralizované vyhledávání kontaktů, řízené zpracování příležitostí pomocí obchodních cyklů (Pipeline Management) 6 a reportovací funkce. 7 Všechna data v tomto systému musí být čištěna a unifikována. Ve spojení s integrací dílčích systémů společnosti do jednoho celku se setkáváme s pojmem Customer Data Integration (CDI). Je to soubor procesů, řízení, automatizace a schopností nutných ke standardizaci a integraci zákaznických dat pocházejících z různých zdrojů. 8 Data Cleansing je součástí CDI. 1.4 Datová kvalita a zákazníci firem Vzpomínám si na případ starý několik let, kdy mi přišel do schránky dopis, kde bylo chybně uvedeno jméno a nepřesně napsaná adresa. Jakmile jsem ho dostal do ruky, samozřejmě jsem si toho ihned všiml. Psaní přišlo od jedné společnosti zabývající se reklamou. O to více mě chyby překvapily. Předpokládám, že jsem nebyl jediný, komu přišla obálka nadepsaná v podobné kvalitě. Zamyslel jsem se. Jak je možné, že si taková, poměrně velká, společnost může dovolit udělat takovou botu? Jsou nějaké postupy, které by šly použít k tomu, aby se takovéto chyby nestávaly či byly co nejvíce minimalizovány? O pár let později jsem se seznámil s IT oblastí označovanou jako Data Quality a v tu chvíli jsem si uvědomil, kde byl tenkrát ten pověstný zakopaný pes. Jistě se řada z vás setkala s podobnými chybami. Jak takové nepřesnosti zapůsobí na adresáta, který je mnohdy zároveň i odesílatelovým klientem? Takový přístup je krajně neprofesionální a vzbuzuje silnou představu laxního chování společnosti vůči svým klientů. K dobrému jménu společnosti to rozhodně nepřispěje. Posuďte sami, jaký to na nás, zákazníky, dělá dojem? 5 [20] Wikipedia, Sales force management system 6 [14] Toolbox for IT, Pipeline Management 7 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s

11 Ztotožňuji se s tvrzením 9, že podpora zákazníka a komunikace s ním je účinná pouze do té míry, do jaké má společnost přístup ke konzistentním a přesným datům o svých zákaznících. V návaznosti na to bych rád upozornil na výzkum společnosti Gartner z roku , který prokázal, že kvalita CRM je pouze tak vysoká, jak je vysoká kvalita dat, se kterými CRM pracuje. Přitom služeb CRM v roce 2005 využívalo ve svých firmách zhruba 75 procent dotázaných řídících pracovníků 11, což malý podíl rozhodně není. 1.5 Příležitost nebo hrozba? Ve kvalitě dat lze vidět jak hrozby, tak ale i příležitosti. Ten, kdo se zodpovědně věnuje budování čistoty ve svých datech bude později odměněn v podobě omezení problémů uvedených výše. Kdo bude kvalitu dat úspěšně ignorovat může být posléze ignorován vlastními klienty. Zde vzniká prostor pro společnosti zabývající se poskytováním řešení v oblasti datové kvality. Jejich práce spočívá v aplikování postupů, softwarových nástrojů a know-how na zákazníkova data (databáze) takovým způsobem, aby zajistili určitou, smluvně ošetřenou, úroveň kvality výstupu. Tímto výstupem jsou pročištěná data a různé druhy statistik obsahující přehledy o datech (kolik záznamů bylo opraveno a v jakých atributech, statistiky konsolidace, množství nepoužitelných dat a další). Klient pak vidí, co se s daty dělo a v jaké formě je dostal na výstupu (například v oblasti zákaznických dat vidí, kolik klientů lze jednoznačně identifikovat, kolik z nich identifikovat nelze atd.). Přestože jsme momentálně ve světové finanční krizi, tak si myslím, že na poptávku po produktech datové kvality to nebude mít negativní vliv, spíše naopak. Je pravdou, že je snaha snižovat náklady všude, kde to jde, ale na druhou stranu si chtějí společnosti v tomto nelehkém období minimálně udržet své stávající klienty. Některé z nich jsou ovšem odhodláni i k získávání některých klientů svých konkurentů. A právě při všech těchto aktivitách je nutné dbát zejména na kvalitu klientských dat. Díky pročištění klientských dat se opraví překlepy, duplicity, nejednoznačné záznamy a podobně. To pak vede k tomu, že je umožněno snížit počet záznamů o klientech ve firemní 9 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s [12] NELSON, S. a další, Gartner Research report, Customer Data Quality and Integration 11 [3] Bain & Company s 2005 Management Tools survey 10

12 databázi a tím ke snížení nákladů například na rozesílání poštovních zásilek atd. Zvýšením kvality dat tak získáme významné úspory z pohledu nákladů. 1.6 Klientská data Aby bylo možné zjišťovat, zda jsou klientská data v pořádku z hlediska překlepů či existence (jména, příjmení, adresy, telefonní předvolby ), je třeba údaje z databází kontrolovat proti kvalitně sestaveným seznamům. Takovým seznamům se říká číselníky (etalony). Číselníky tvoří databázi určitých položek stejného charakteru (např. ženská jména, mužská jména, města, PSČ). Mohou být získávány a upravovány z veřejně dostupných zdrojů, placených zdrojů či z interních zdrojů společnosti a následně v kombinaci se vhodným softwarem použity k čištění dat z databází klientů. Klientská data jsou nejčastějším druhem čištěných dat. 1.7 Číselníky a datová kvalita Tímto se dostávám k tomu, o čem tato práce vlastně je. Pojednává o tom, jakou roli hraje úloha číselníků při zajišťování datové kvality. Na téma bude pohlíženo zároveň ze dvou úhlů pohledu. První z nich představuje pohled dodavatele (implementátora) datové kvality, který má mimo jiné na starosti sestavování a udržování číselníků. Bude probrána problematika tvorby číselníků, jejich správy a použití na projektech. Dočtete se zde také o příkladech z praxe a možná budete překvapeni, že některé věci, které by se mohly zdát na první pohled jasné a snadno řešitelné, mohou být skutečným oříškem. Druhým pohledem je pohled firmy, kde byla/je/bude datová kvalita implementována. Povíme si o tom, jaké pro ní bude mít praktické pozitivní přínosy. 1.8 Proč číselníky a datová kvalita? Rozhodl jsem se věnovat tuto práci právě číselníkům a datové kvalitě, protože věřím, že je to zajímavé a velice důležité téma nejen pro současnost, ale zejména pro budoucnost. Společnosti by měly přistupovat zodpovědně k datům, jelikož veliká část jejich bohatství je právě v nich. Zhruba půl roku jsem pracoval ve společnosti Ataccama Software s.r.o., kde jsem získal mnoho nových poznatků zejména z oblasti Data Cleansing, se kterými budou seznámeni čtenáři této práce. Naprostá většina prezentovaných informací pochází z mých vlastních zkušeností načerpaných v praxi. 11

13 2 Definování základních pojmů 2.1 Číselník Číselník (List Of Values, Etalon) je soubor dat určitého charakteru (jména, názvy ulic ) určený pro použití v určitém čase a prostoru (firma, stát ) sestavovaný za účelem jednoznačné identifikace dat v jiných souborech a databázích. Jedná se o určitý seznam neduplicitních hodnot (pokud možno co nejúplnější), které mohou být použity k ověřování dat z jiných zdrojů (například klientských databází). 2.2 Datová kvalita Obr.2 Číselník zemí 12 [autor] Klasická definice datové kvality (Data Quality, DQ): Data splňují atributy, kterými jsou přesnost, úplnost, včasnost, jedinečnost a konzistentnost. Pokud pojmeme datovou kvalitu šířeji, pak můžeme říci, že datová kvalita je určitou funkcí definice dat, jejich prezentace a dat samotných [7] Český statistický úřad, Číselník zemí 13 [13] PIRKL David, VŠE, prezentace: Kvalita dat Obr.3 Datová kvalita [autor] 12

14 Definice zahrnuje nejen definici dat, ale také specifikaci příslušné oblasti, do které patří, obchodní pravidla (Business Rules), která určují data a v neposlední řadě sem patří také procesy datové kvality. Data reprezentují obsah a ten je charakterizován dvěmi základními složkami - úplností a správností. Pro prezentaci dat je klíčová jejich dostupnost, včasnost a jednoznačnost. 14 Všechny tři oblasti datové kvality musejí být na kvalitní úrovni. 2.3 Software datové kvality Software datové kvality je program, jehož pomocí probíhá zvyšování datové kvality. Může obsahovat například komponenty a pravidla na čištění či obohacování dat. Software dokáže pracovat s daty, která je třeba parsovat, čistit a unifikovat (jedná se zejména o klientská data). K tomu může využívat externí zdroje (například číselníky). Příkladem softwaru datové kvality je Data Quality Center 15 (DQC), který vyvíjí společnost Ataccama Software s.r.o (produkt dříve označován jako Purity pod hlavičkou Adastra s.r.o.). Ukázku softwaru můžete nalézt mezi přílohami této práce. 2.4 Nekvalitní data Nekvalitní data (Dirty Data 16 nebo Bad Data 17 ) jsou taková data, která nesplňují atributy (specifikace), nebo u nich nelze zaručit správnou interpretaci či nejsou žádným způsobem vhodná pro náš byznys. Problémy s daty mohou být dvojího druhu obsahové a strukturální. Co se týká obsahu dat, problémy mohou nastat například z důvodů chybějících hodnot, chybně zanesených dat, překlepů, dat mimo danou doménu či nelegální datovou kombinací. 18 Rodné číslo Jméno Adresa Pavel Kopáč Dělnická 154, P7, Tomáš Chytrý Vysoko3kolská 34, Brno - město error U Dubu 5, Polní Tab.1 Ukázka obsahově nekvalitních dat [autor] 14 [13] PIRKL David, VŠE, prezentace: Kvalita dat 15 [8] Data Quality Center, popis produktu, květen [18] Wikipedia, Dirty Data 17 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s [13] PIRKL David, VŠE, prezentace: Kvalita dat 13

15 Strukturální problémy s daty se mohou týkat zejména entitní integrity (Entitní integrita zajišťuje jednoznačné určení každého řádku v rámci tabulky (primární klíč) [Databázový svět, 2004]) a referenční integrity (Referenční integrita sleduje cizí klíče. Atribut nebo skupina atributů tvořící v jiné tabulce (relaci) primární klíč nemůže nabývat nepřípustných hodnot. [Databázový svět, 2004] ). 19 V datech se mohou nacházet také problémy v oblasti migrace a integrace v podobě duplicitních nebo chybějících záznamů. Rovněž může docházet k výskytu chyb při typové konverzi. Definice a standardy představují další oblast, ve které se setkáváme s problémy často způsobenými dvojznačností obchodních pravidel nebo existencí více formátů pro stejné atributy. Dále se zde mohou vyskytnout nesrovnalosti spojené s různým významem přiřazovaným stejně pojmenovaným atributům, s více kódy s totožným významem nebo s více informacemi v jednom atributu Čištění dat Čištění dat (Data Cleansing, nebo také Data Scrubbing) je činnost zahrnující nalezení a opravení (či odstranění) špatných nebo nepřesných záznamů ze souboru záznamů, tabulky nebo databáze. Využívá se zejména v databázích, kde slouží k identifikaci nekompletních, nepřesných, nerelevantních atd. částí, které jsou následně nahrazovány, modifikovány či odstraněny. Po čištění je soubor dat konzistentní ve vztahu s ostatními soubory dat v systému. 21 Je to proces zajišťující správnost a přesnost dat. 22 Při čištění dat je využíváno číselníků. 2.6 Zlepšování datové kvality Zlepšování datové kvality (Data Quality Improvement) je proces zvyšování kvality dat na úroveň požadovanou pro podporu informačních potřeb organizace [9] Databázový svět, Vyvíjíme databázový a informační systém VIII. 20 [13] PIRKL David, VŠE, prezentace: Kvalita dat 21 [17] Wikipedia, Data Cleansing 22 [22] wisegeek, What is Data Cleansing? 23 [13] PIRKL David, VŠE, prezentace: Kvalita dat 14

16 2.7 Anonymní údaj Anonymní údaje, jimiž jsou ty, které v původním tvaru nebo po provedeném zpracování nelze vztáhnout k určenému či určitelnému subjektu údajů (např. osobní údaje zařazené do velkých statistických souborů, které jsou zbaveny jména, příjmení a rodného čísla). [Businessinfo, 2009] Osobní údaj Osobním údajem se rozumí jakákoliv informace týkající se určeného nebo určitelného subjektu údajů. Subjekt údajů se považuje za určený nebo určitelný, jestliže lze subjekt údajů přímo či nepřímo identifikovat zejména na základě čísla, kódu nebo jednoho či více prvků, specifických pro jeho fyzickou, fyziologickou, psychickou, ekonomickou, kulturní nebo sociální identitu. [Businessinfo, 2009] Implementační tým Implementační tým (implementátoři) je částí pracovního týmu. Má na starost zavedení (implementaci) řešení datové kvality u zákazníka. Je zodpovědný za koordinaci projektu aplikace datové kvality. Nemá tedy na starost vývoj softwarových nástrojů. 24 [4] Businessinfo, Ochrana osobních údajů 25 [4] Businessinfo, Ochrana osobních údajů 15

17 3 Číselníky 3.1 Vznik číselníků Na počátku vzniku nového číselníku existuje potřeba kontroly opakujících se hodnot v databázích klientů. Abychom mohli kontrolovat data, říci které záznamy jsou s největší pravděpodobností špatné a které nikoliv, potřebujeme je mít s čím porovnávat. Právě to je úloha číselníků. Obr.4 Proces vzniku číselníku [autor] Tato potřeba je sdělena člověku, který se stará o číselníky (bývá to buď tzv. správce číselníků a nebo jiná pověřená osoba z implementačního týmu). Tento kolega přijme požadavek jako výzvu a jeho úkolem je definovat dle požadavků číselník, který bude potřeba vytvořit. Dále je nutné zmapovat všechny možné dostupné zdroje, ze kterých by šlo požadovaný číselník sestavit. Analyzují se jak volně dostupné zdroje, tak i zdroje placené (jde v převážné většině o internetové zdroje či zdroje poskytované firmami k jejichž nabídce se prostřednictvím internetu dostaneme). Správce číselníku pomocí analýzy učiní určitý závěr sdělující možnost (popřípadě nemožnost) sestavit nový číselník. Analýza zahrnuje nejen uvážení toho, zda využít zdroje placené či dostupné zdarma, ale také je nutné zohlednit časové hledisko. Jak rychle potřebujeme mít číselník k dispozici? Pokud nás tlačí čas, 16

18 můžeme využít služeb o něco dražšího poskytovatele, který je schopný nám dodat data prakticky okamžitě po obdržení platby. Poté, co jsou vybrány zdroje, ze kterých bude tvůrce číselníku čerpat, stanoví se struktura číselníku (definování sloupců), která je následně plněna daty. Tímto způsobem vznikne nový číselník, který může být později rozšiřován dle potřeby. 3.2 Vlastnosti číselníků U číselníků je třeba sledovat řadu jejich vlastností. Pokud bychom měli pouze databázi, kde by byly číselníky uvedeny pouze jako seznam, nic by nám to neřeklo a nikdo by se v nich nevyznal. Nepřehlednost by pak vzrůstala nejen s tím, kolik bychom měli číselníků vztahujících se k určité problematice (např. číselníky jmen osob, číselníky PSČ ), ale také s počtem teritoriálních oblastí, kde bychom služby datové kvality nabízeli (ČR, Bulharsko, Kanada, USA ) Popis Je nezbytné vědět, jaké informace se v konkrétním číselníku nacházejí. Popis by měl být shrnutý do několika málo vystihujících vět, aby člen implementačního týmu pracující na projektu, byl rychle obeznámen s tím, co číselník obsahuje a byl schopen podle popisku poznat, zda se mu hodí či nikoliv, aniž by musel tento soubor otevírat (číselník bývá sestavován buď správcem číselníků a nebo jiným členem implementačního týmu). Příliš dlouhý popis je naopak kontraproduktivní, jelikož by bylo pro implementátora rychlejší soubor s číselníkem prozkoumat přímo jeho otevřením. Popis číselníků by měl být veden ve vhodném jazyce (popřípadě ve více jazycích) s ohledem na vnitřní prostředí implementátorské firmy (na zaměstnance, kteří s nimi budou pracovat). V dnešní době, kdy firmy zaměstnávají i množství zahraničích pracovníků, by měl být popis číselníků veden především v angličtině. V případě oblasti IT je angličtina nejvhodnějším jazykem. Tento (majoritní) jazyk lze doplnit podle potřeby lokálním (např. češtinou), ale ten by neměl obsahovat rozdílné či dokonce konfliktní informace se záznamy v angličtině. Při volbě jazyků je důležité myslet na budoucnost. Přestože například nyní ve firmě nepůsobí žádný cizojazyčný zaměstnanec, neznamená to, že se to nemůže v brzké době změnit. Dalším důvodem, proč udržovat popisky v anglickém jazyce, je potenciální možnost prodeje společnosti jinému vlastníkovi. Informace, které budou zaznamenány v angličtině 17

19 budou mít pro něho určitě vyšší hodnotu. Zejména pokud se bude jednat o zahraničního investora Zdroj Vždy potřebujeme vědět, odkud jsme určitý číselník, nebo jeho část, získali. Je to důležité nejen pro pozdější aktualizace, ale také pro definování důvěryhodnosti číselníku, který se odvozuje právě podle jeho zdroje. Každý číselník může mít jeden či více zdrojů a to jak závislých, tak i nezávislých. Zdrojem může být například nějaké volně přístupné webové rozhraní, ftp server či konkrétní firma disponující daty, která potřebujeme. Kromě zdroje firmy jako celku je dobré zaznamenat ke zdroji číselníku například také to, s jakou konkrétní osobou bylo o poskytnutí číselníků vyjednáváno. Pokud má společnost, ze které chceme data získat, více konzultantů, nalezneme tak snáze toho, s kým jsme před časem komunikovali a vyhneme se tak ztrátě času vysvětlováním něčeho, co již jednou vysvětlováno bylo. U firem, od kterých plánujeme nakupovat data, je důležité si pečlivě ověřit, zda vůbec existují. V praxi to znamená ověřit si minimálně jejich sídlo a oblast působnosti. Ideální způsob ovšem spočívá v telefonickém kontaktu. Nemusí být nijak dlouhý, stačí pár minut. Toto ověření zdroje pracuje i v náš prospěch, protože tím vzbudíme větší důvěryhodnost nás samotných. Tím se nám může také otevřít více prostoru pro vyjednávání Struktura U číselníků je dobré zanechávat popis struktury dat, která se v něm nachází. Základní informace se týkají použitých datových typů. Dále je vhodné vědět, zda jsou hodnoty v číselnících zapsány s diakritikou či bez ní (např. v případě češtiny) a nebo zda jsou psány latinkou či pomocí azbuky (ruština). Musíme dávat pozor na správné kódování příslušného jazyka. Můžeme se setkat například i se jmény v různých abecedních přepisech současně. Popis struktury číselníku je velice důležitý v případě, že má být využit v praxi a je snaha napojit číselník na software datové kvality. Pokud bude struktura špatně popsána, mohou se nám data natažená do softwaru datové kvality poměrně snadno rozsypat a dostaneme nesmyslný výstup. 18

20 Kromě toho je popis struktury potřebný také pro případné transformace jednoho číselníku do jiného číselníku (číselníků) či při dělení jednoho číselníku do více číselníků Formát Formát souborů číselníku může být různý. Číselníky se nejčastěji se vyskytují v souborech textových a databázových (txt, csv, xls ). Některé druhy DQ software umí pracovat se svými vlastními formáty, které jsou pro zpracování dat optimální. Podle formátu číselníku se určuje postup, jakým bude číselník natažen do softwaru datové kvality, pomocí kterého se budou data čistit. Je vhodné oddělovat surové číselníky (číselníky získané z různých zdrojů) a číselníky předpřipravené (obsahují data získaná z více zdrojů v jednom souboru a jsou ve formátu, se kterým dokáže DQ software nejlépe pracovat zde je důležitá zejména rychlost zpracování) Kvalita záznamů Kvalita záznamů v číselnících se určuje podle toho, zda jsou jednotlivé položky zapsány stejným způsobem (např. všechny záznamy jsou uvedeny malými písmeny vs. některé záznamy jsou uvedeny malými a některé velkými písmeny) a jestli jsou zapsány korektně (zjišťujeme, zda opravdu všechny záznamy do číselníku patří a zda neobsahují překlepy či jiné chyby). Záznamy v číselníku mohou být původem z rozdílných zdrojů, proto je důležité při přidávání dalších položek dbát na datovou konzistenci. Musíme dávat pozor na to, aby se nám do číselníku nedostala data, která tam nemají co dělat. Kvalita záznamů bývá mnohdy lepší u komerčních produktů, než u volně dostupných, ale pravidlem to být vždy nemusí (například když firma prodává číselník získaný spojením dat z několika zdrojů dohromady bez dostatečně kladeného důrazu na vytvoření konzistentního celku) Důvěryhodnost Důvěryhodnost číselníku odvozujeme většinou od důvěryhodnosti zdroje, od kterého daný číselník pochází. Pokud jsou jeho záznamy sestaveny z rozdílných zdrojů, postupujeme obezřetně. Je vhodné nemíchat záznamy z důvěryhodných zdrojů se záznamy zdrojů výrazně nižší důvěryhodnosti. V takové situaci lze doporučit vytvoření číselníku samostatného, odděleného. 19

21 Za důvěryhodné lze pokládat číselníky získané z vládních organizací a ze společností, o kterých lze získat pozitivní reference (většinou z internetu či od jejich zákazníků). Vhodné je pátrat i po tom, z jakých zdrojů společnost, od které chceme nakoupit číselníky, čerpala svá data. Od těchto zdrojů rovněž odvozujeme celkovou důvěryhodnost výsledného číselníku (tzv. důvěryhodnost druhého stupně). Je třeba dávat pozor na jeden důležitý fakt. Důvěryhodnost číselníků nezaručuje kvalitu jejich záznamů. Nicméně u důvěryhodnějších zdrojů je vyšší pravděpodobnost dosažení kvalitnějších dat. Odlišná situace může platit u důvěryhodnosti druhého stupně. Zde nastává nejen otázka, ze kterých zdrojů bylo primárně čerpáno, ale také jakým způsobem upravil náš zdroj jeho primárně získaná data. Nejsou data příliš změněna oproti původnímu zdroji? Nejsou informace obsažené v nich příliš osekané (např. seznam měst ze kterého byly odstraněny geografické souřadnice)? Není do dat, do číselníků, zanesena nečistota (špatně provedenou integrací primárních zdrojů )? Úplnost Některé číselníky (zejména ty menších rozsahů, kterými jsou například akademické tituly) lze dostat do stádia, kdy budou s největší pravděpodobností úplné. Jiné, rozsáhlejší číselníky, do takového stádia v podstatě nikdy nedostaneme vzhledem k velkému počtu rozdílných položek (například křestní jména a příjmení v USA a Kanadě). U takových číselníků dochází k neustálému rozšiřování počtu položek a úplnost je těžké odhadovat. Mnohdy neexistují žádné přímé informace o tom,do jaké míry je konkrétní číselník úplný. Je úplný ze sedmdesáti nebo čtyřiceti procent? Nevíme. Jak tomuto nedostatku čelit? Poměrně těžko, ale určité odhady lze provádět pomocí využití mnoha různých nepřímých informací, pokud se jim věnuje dostatek času. Nicméně otázkou je, zda je pro nás důležitější práce na tom, abychom získali obsáhlejší číselník a nebo po týdnech či měsících shromažďování informací zjistili, že máme pokryto zhruba šedesát procent výskytu místo sedmdesáti, který jsme předpokládali Verzování Verzování je důležité z hlediska přehledu o vývoji číselníku. Kromě toho, že vidíme jaká verze je aktuální, můžeme vystopovat i změny, které proběhly mezi jednotlivými verzemi. 20

22 Starší verze je vhodné skladovat odděleně, ale nicméně tak, aby k nim byl v případě potřeby dostatečně rychlý přístup. Starší verze číselníků mohou být vyhledávány, pokud je podezření na chybu v nové verzi a tuto skutečnost je třeba ověřit pomocí předchozí verze. Dále bývají používány při testování nových verzích DQ softwarových nástrojů (zda lze k nové verzi DQ úspěšně připojit a využít i starší verze číselníků) Datum aktualizace U každého číselníku potřebujeme znát datum, kdy byl naposledy aktualizován, kdy byly do něho přidány či z něho odebrány některé záznamy (přidány nově zjištěné, odstraněny ty co již neplatí). Tady si s verzováním nevystačíme. Datum aktualizace nám většinou řekne více než číslo verze. Člena implementačního týmu na projektu spíše uspokojí informace o tom, že byl číselník aktualizován zhruba před dvěma týdny nežli fakt, že se jedná o verzi dvanáct Velikost U číselníků je důležité vědět nejen to, kolik má záznamů, ale také jeho velikost a to z toho důvodu, aby bylo možné předem odhadnout, jak bude dlouho zpracováván příslušným softwarem datové kvality. Nutno podotknout, že velikost číselníků se může značně lišit v závislosti na typu souborů, ve kterých jsou uloženy Historie Praxe ukázala, že je dobré zaznamenávat historii používání jednotlivých číselníků. Ze záznamů je pak na první pohled vidět, kdy, kde, kým a za jakým účelem byl číselník použit. Tyto historické záznamy je vhodné opatřit také poznámkami, ve kterých se uživatel číselníku vyjádří k jeho obsahu. Může zde doporučit jeho rozšíření, vyzdvihnout jeho kvalitu či ho označit za nevhodný a nevyužitelný. Pomocí evidované historie lze dohledat, který kolega s určitým číselníkem pracoval a v případně dotazů ho máme možnost kontaktovat. Odpadá tak proces zdlouhavého vyptávání se kdo, kdy a při jaké příležitosti určitý číselník použil Umístění Vždy musí být jasné, kde je fyzicky číselník umístěn (server, médium). Musí být vždy zajištěna jeho dostupnost v aktuální verzi. Při práci na projektech v terénu není čas řešit 21

23 zbytečné problémy týkající se umístění (vhodné je mít číselníky uloženy i na záložním serveru, stejně jako ostatní data, kdyby se na primárním vyskytl problém s dostupností). 3.3 Zdroje číselníků Bezplatné Některé číselníky jsou dostupné zcela zdarma z externích zdrojů. Nejčastějším zdrojem bezplatných číselníků je internet. Při troše hledání lze najít zajímavé, zdarma dostupné informace a seznamy, které můžeme pro vytváření číselníků použít. V České republice jsou skrze státní správu poskytovány rozsáhlé registry, statistiky a databáze, které lze využívat. Dle zkušeností, které jsem získal při komunikaci s některými úřady států uvnitř i vně EU, si odvažuji říci, že co se týká oblasti dostupnosti základních informací o obyvatelstvu a územních registrů, jsme na tom velice slušně. Kromě toho jsou tyto zmíněné informace poskytovány našimi úřady bez úplaty. V následujících odstavcích uvádím nejzajímavější bezplatné zdroje dat v ČR. Český statistický úřad (ČSÚ) Jedním z cenných zdrojů číselníků a podkladů k nim je bezpochyby Český statistický úřad. Poskytuje například registr ekonomických subjektů na území ČR (RES) a číselníky samosprávních jednotek (obce, městské části, správní obvody hl.m. Prahy atd.). Ministerstvo vnitra České republiky (MV ČR) MV ČR poskytuje na svých stránkách seznamy jmen a příjmení osob (včetně četností), kteří žijí na území ČR. Tento seznam je ročně aktualizován a je vhodný jako základ k sestavování číselníku jmen a příjmení osob v rámci České republiky. Obr.5 Četnost příjmení mužů v ČR k [autor] 26 [11] Ministerstvo vnitra ČR, Četnost příjmení mužů v ČR k

24 Česká pošta (ČP) Pošta poskytuje volně stažitelné podklady pro sestavení poštovních směrovacích čísel a seznamy poštovních míst v ČR. Obr.6 Číselník pošt 27 [autor] Ministerstvo práce a sociálních věcí ČR (MPSV ČR) Velice důležitým zdrojem pocházejícím od tohoto ministerstva je bezesporu územně identifikační registr adres České republiky označovaný zkratkou UIR-ADR. Obsahuje seznamy objektů, obcí, částí obcí, obvodů, okresů, krajů, ulic a tak podobně. Pomocí těchto podkladů lze sestavovat tzv. adresní body, které jednoznačně identifikují vchod do domu. Cílem je, získat seznam všech adresních bodů a tento seznam pravidelně aktualizovat. Každý týden jsou v registru prováděny aktualizace. V případě potřeby lze dohledat i starší verze registrů, které jsou rovněž dostupné pomocí webového rozhraní. Data registru jsou dostupná i na kompaktních discích. Česká národní banka (ČNB) Z webových zdrojů ČNB lze využít například seznam bankovních institucí působících na našem území. Obr.7 Číselník bankovních ústavů 28 [autor] 27 [6] Česká pošta, Seznam poštovních míst v ČR. 28 [5] Česká národní banka, Číselník účastníků platebního styku v České republice 23

25 Kromě samotných názvů jsou zde také uvedeny jejich bankovní předvolby, BANIS 29 a SWIFT 30 kódy Placené Pokud je třeba zajistit číselníky velkých rozsahů či číselníky špatně dostupných informací, je třeba využít placených služeb. Příkladem placených informací jsou databáze firem, geografické souřadnice, seznamy ulic, měst a další. Spolupráce s firmami zabývající se tvorbou geografického softwaru je velice vhodná zejména při budování číselníků adresních bodů v oblastech, kde není možné získat data jiným způsobem (například z pošt nebo úřadů). Nesmíme ovšem předpokládat, že placená data jsou vždy kvalitnější, než ta, která jsou volně dostupná na internetu (pokud dostupná jsou). Někdy tomu tak nebývá. V praxi se například ukázalo, že data z celostátní pošty určité země byla nejrozsáhlejší, nejlevnější a obsahovala nejvíce informací. Ale na jejich přeměnu do použitelné formy, aby mohly být využity DQ softwarem, bylo potřeba provést mnoho transformací a úprav. Některé společnosti prodávají data za vyšší částky, jenže jsou už předem oholená (to může být výhoda, ale i nevýhoda). V tomto případě se ukázalo, že by nebylo od věci si pár set EUR připlatit Vlastní (interní) Uvnitř společnosti můžeme tvořit vlastní číselníky. Tvoříme zejména takové, které buď neexistují a nebo jsou zbytečně drahé na to, aby byly nakupovány od nějakého zdroje. Výhodou je, že máme sestavené určité seznamy, které konkurence nemá, ale na druhou stranu nás to stojí náklady v podobě lidí, kteří se na tvorbě číselníků podílejí. 3.4 Správa číselníků Číselníky je třeba spravovat, aby byla zachována jejich co nejvyšší možná úroveň. V tom, co není kvalitně spravováno, se začínají vyskytovat, dříve či později, problémy. Za účelem správy číselníků je vhodné zavést funkci jeho správce. Zejména pokud pracujeme na více projektech najednou a s větším počtem číselníků. Správce číselníku by měl mít přehled o všech číselnících, které se ve firmě vyskytují. Měl by být schopen spolupracovat se členy 29 BANIS - Identifikační kód bank v ČR. Je čtyřmístný, uvádí se za číslem účtu (za lomítkem). 30 SWIFT - Identifikuje banku, slouží k přesnému směřování platby v mezinárodním platebním styku. 24

26 implementačního týmu pracujících na projektech. Správce vytváří podporu (support) pro implementační tým v oblasti číselníků a je zodpovědný za jejich stav a používání. Na pozici správce je třeba umístit pečlivého a komunikativního člověka se smyslem pro detail. 25

27 4 Časté problémy s daty a jejich řešení 4.1 Přepisování dat Nejvíce chyb vzniká při přepisování do počítače za přítomnosti lidského faktoru. Problémy s těmito chybami jsou viditelné zejména v prostředí Call center. Může docházet jak k překlepům (Bukovskž, Sl8nský), tak i k přeslechům (Dukovský), či chybám v transkripci (Bukowski) nebo chybám, kdy jsou zadány údaje do špatné oblasti formuláře (například jméno místo příjmení, nebo rodné číslo místo příjmení). Stává se také, že zadávající osoba uvede do databáze záměrně či nezáměrně nesmyslné údaje (například jméno: zemřel dne či? ). Rovněž se zde vyskytují problémy s diakritickými znaménky. Rodné číslo Jméno Adresa? Radim Bukovskž Bukolská 773/8, Praha 8, Visa electron David Sl8nský Jan Nemakačenko Podstoly Pami Vladimíř Novák Dělnická 154 Tab.2 Chyby v přepisu dat [autor] V praxi se člověk setkává s mnoha různými překlepy či přeslechy. Jeden z mých oblíbených záznamů, který se vyskytl u jednoho klienta v databázi, se týkal názvu slovenské obce Pod 100 Lipami, která byla v klientských datech uvedena pod řetězcem Podstoly pami. Nevím, jakého umělce v Call-centru napadla tato dvě netradiční slova, ale je jasné, že společnost tato kreativita příliš nepotěšila. Opravování takových druhů datové nečistoty lze provádět poměrně snadno pomocí pravidel implementovaných v DQ softwaru, příslušných číselníků a replacementů (replacement je zvláštní případ číselníku, kde jsou definovány dvě hodnoty pokud je první z nich nalezena v databázi, je nahrazena druhou uvedenou). Napřed je zjišťováno, zda daný řetězec může být jménem či příjmením (a s jakou pravděpodobností) a poté může být chybně zadaný údaj upraven (například Bukovskž na Bukovský). Můžeme ovšem narazit na některá méně používaná jména (jako například mužské jméno Vladimíř), která by mohla být při neznalosti českých jmen považována za překlep a mohla by být nesprávně opravena (v tomto případě na poměrně známé jméno Vladimír). Při sestavování číselníků a replacementů proto musíme postupovat obezřetně. 26

28 4.2 Nestrukturovaná data Data jsou do informačního systému společnosti zadávána často nestrukturovaně. Celá adresa se mnohdy vyskytuje v jediném řádku, občas i se souvisejícím jménem zákazníka. Je nutné je separovat a každý údaj porovnávat s číselníky a ověřovat po částech jejich správnost. Mezi záznamy v databázi můžeme nacházet řetězce znaků, které tam jsou navíc. Jedná se buď o nesmyslné poznámky (?, qwertz ) nebo o hodnoty, které patří do jiné části databáze (například se mohou vyskytovat tituly či rodná čísla v částech vyhrazených pouze jménům). V takovém případě je nutné vzít celý řetězec obsažený v záznamu a roztrhat ho na jednotlivé části podle separačních pravidel (pravidla dokáží například identifikovat, zda je část řetězce jméno, příjmení, adresa a nebo nesmysl). Takové údaje je nutno zařadit tam, kam patří, popřípadě je zcela odstranit. Některé dílčí řetězce jsou kontrolovány pomocí přímého porovnávání s číselníkem (jména, adresy, telefonní předvolby ). Rodné číslo Křestní jméno Příjmení Město Bukovský Radim Bukolská 773/8, Praha, qwertz Tomáš Chytrý Vysokoškolská 34? Jan Nemakačenko Praha Dělnická Tab.3 Nestrukturovaná data [autor] 4.3 Pomocné hodnoty V datech se mohou vyskytovat automaticky (nebo ručně) zadávané hodnoty, které jsou pouze pomocné a nemají žádný význam (například se jedná o data jako ). Tyto hodnoty je třeba identifikovat jako pomocné a v žádném případě s nimi nepracovat jako se skutečnými. Takový přístup by mohl způsobit komplikace a nesrovnalost. Na pomocné hodnoty je dobré mít také nějakou formu číselníku. Nemusíme pak neustále myslet na to, že bychom mohli na některou z nich zapomenout. 4.4 Neúplnost záznamů, zkratky Problémem je i neúplnost záznamů a výskyt zkratek. Při absenci základních identifikačních hodnot se stává neúplný záznam neidentifikovatelným. Zkratky se snažíme převádět do 27

29 standardizovaných názvů. 31 To ovšem není vždy jednoduché, zkratky jsou mnohdy ošemetnou záležitostí. Představuje zkratka J. A. Komenský opravdu Jana Amose Komenského? V tomto případě je to poměrně zřejmé, ale co takový P. Novák. Je pan Novák křestním jménem Petr, Pavel, Prokop a nebo mu říkají úplně jinak? Problém zkratek se vyskytuje zejména u adres a pak také u křestních jmen. U názvů ulic nebo náměstí můžeme využívat sady replacementů, které nám převádí různá tvary jednoho zeměpisného místa na jednotný, standardizovaný název. Není výjimkou, že k jednomu náměstí či ulici existují desítky variant zápisu. I s nimi se musí dokázat experti na datovou kvalitu vyrovnat. Pokud bereme v úvahu zkratky křestních jmen složené pouze z prvního písmene, tak se jedná o zkratky v podstatě neidentifikovatelné. Rodné číslo Křestní jméno Příjmení Adresa R. Bukovský Bukolská 773/8, Praha, Tomáš Praha Kateřina Veliká Náb. Kpt. Jaroše Antonín Kulatý U Libeň. Zám. 3, P8, Tab.4 Neúplnost záznamů, zkratky [autor] 4.5 Formáty záznamů Různé formáty záznamů mohou být také problémem. Například rodné číslo lze napsat mnoha způsoby. My ho ovšem potřebujeme upravit do standardizovaného tvaru a to hned poté, co budou jednotlivé části rodného čísla identifikovány. U rodného čísla může být část s uvedeným rokem narození porovnána s datem narození. Rodné číslo může být zapsáno například jako /5430, nebo Další problémy se vyskytují v podobě nestandardních formátů dat, hodin, letopočtů atd. Můžeme se setkat s ekvivalentními zápisy téhož: 11. prosince 2005, 11. pros. 05, , a podobně. Víme, že jde o stejný den, ale musíme to naučit rozeznávat i náš software a to i za přispění číselníků. 4.6 Duplicitní data Pokud pracujeme s daty, nevyhneme se problémům způsobenými duplicitními daty. Představme si, že máme databázi v níž máme jednoho klienta zaznamenaného vícekrát a nebo 31 [1] DYCHÉ, J., LEVY, E., Customer Data Integration Reaching a Single Version of Truth, s

30 více databází s identickým klientem, ale o souvislostech mezi záznamy nevíme. Duplicitní data (záznamy) nemusejí být na první pohled zřejmá. Vezměme si například dva záznamy téhož klienta. V prvním z nich bude uvedeno jméno, příjmení, rodné číslo, telefonní spojení, a adresa. Ve druhém bude uvedeno pouze město, ulice a rodné číslo. Tyto všechny tři položky se budou v obou případech shodovat. Vidíme, dle rodného čísla, že se jedná o duplicitní záznamy, i když na první pohled to nemuselo být tak zřejmé. Rodné číslo Jméno Adresa Kateřina Veliká , Praha 7, Nábř. Kpt. Jaroše Kateřina Veliká Nábřeží Kapitána Jaroše 7, Praha 7, Tomáš Šilhavý U Libeňského zámku 5, Praha 8, Tomáš Šilhavý U Libeňského zámku 5, Praha 8 Tab.5 Duplicitní data [autor] Předcházející tabulka obsahuje na první pohled dvě osoby, z nichž je každá uvedena duplicitně. Jenže na druhý, pozornější pohled, si může bystřejší pozorovatel všimnout určité nejednoznačnosti. Zatímco řádky s Tomášem Šilhavým se téměř shodují (kromě PSČ), záznamy Kateřiny Veliké se shodovat zcela nemusejí. Není zde totiž shoda v rodném čísle, které je používáno jako jedinečný identifikátor osoby. S největší pravděpodobností bychom se při sloučení těchto záznamů nedopustili chyby, pokud by ovšem na dané adrese nesídlilo více Kateřin Velikých. 29

31 5 Další postřehy z praxe 5.1 Přínosy kvalitních číselníků pro implementátora Číselníky jsou bohatstvím a pro společnost zabývající se čištěním dat (DQ společnosti) představují jeden ze základních pilířů, na kterých staví svoji existenci. Pomocí kvalitně poskytovaných služeb si firma buduje image a pověst v odvětví, ve kterém se pohybuje, v oblasti, kde se snaží generovat zisk. Pokud firma, kde bylo čištění dat implementováno, bude s výsledkem spokojena, je velmi pravděpodobné, že využije ověřené služby znovu. Firmy stále pracují s množstvím dat a proto jejich čištění nemohou považovat pouze za jednorázovou akci, pokud je chtějí mít v co nejlepším pořádku. Důležité je si uvědomit, že pouze spokojený zákazník se znovu vrátí a na to se soustředit. Kvalitní číselníky mohou také znamenat pro firmu otevření nových možností. Například se může jednat o spolupráci s firmami zabývajícími se geografickou činností. Geografické společnosti mohou poskytovat implementátorovi datové kvality podklady pro tvorbu číselníků (např. územního registru) z vlastních zdrojů (disponují seznamy ulic, měst atd.). DQ společnosti si ze získaných informací vybudují číselníky příslušné oblasti a ty se stanou součástí jejich majetku. Na oplátku mohou DQ společnosti nabídnout svému obchodnímu partnerovi například službu takového typu, že se zaváží k hledání nesrovnalostí v jimi dodávaných geografických datech (duplicity, chybějící záznamy ). O zjištěných skutečnostech pak budou podávány více či méně pravidelné reporty. Taková spolupráce se jeví jako oboustranně výhodná. Zde je velice důležitá, již dříve zmiňovaná, pověst mající vliv na důvěryhodnost a to nejen z pohledu firmy zajišťující datovou kvalitu (poskytuje kontrolu dat), ale také geografické společnosti (poskytuje data pro tvorbu číselníku). Výsledná vyčištěná data budou tak kvalitní, jak kvalitní budou číselníky a algoritmy, které se při čištění použijí. Bez číselníků můžeme sice aplikovat různá pravidla (např. využívání různých paternů, třídících algoritmů), ale nemáme roztříděné hodnoty s čím porovnat a ověřit tak jejich správnost. U některých hodnot, jako je třeba datum, není třeba používat žádné číselníky, ale naopak například u adres či jmen se jejich použití nevyhneme. Z pohledu číselníků je rovněž důležitá jejich rozmanitost. Čím více budeme mít číselníků z různých oblastí podnikání a veřejné správy (územní registry, zdravotnictví, finanční sféra...), 30

32 tím získáme širší spektrum potenciálních zákazníků, ze kterých můžeme vybírat. Zde ovšem pozor na to, aby nebyla kvalita jednotlivých číselníků vykoupena jejich vyšší kvantitou. Je lepší disponovat menším počtem kvalitních číselníků. Proto je dobré postupovat důkladně a nejprve se zaměřit na klíčové číselníky (používané na většině projektů) a nechat si záležet na jejich sestavení. Pokud se nám ovšem podaří vybudovat široké spektrum kvalitních číselníků, bude to jednoznačně silnou konkurenční výhodou a přínosem pro celou firmu. 5.2 Přínosy kvalitních číselníků pro zákazníka Jaký je pozitivní dopad na činnost společnosti, kde bylo použito řešení datové kvality za použití číselníků? Každá společnost by se měla zajímat o to, jaký má skutečný počet zákazníků a jaké je jejich složení. Pokud bude tyto informace znát, může s nimi pracovat. Lze pak lépe zacílit reklamní kampaně, akční nabídky či jiné aktivity zaměřené na konkrétní, předem definovanou, oblast klientů. Pokud bude provedeno čištění klientských dat, tak určitě dojde k redukci nákladů (dojde například k omezení duplicitních záznamů a odstranění neidentifikovatelných klientů). Budou odstraněni přebyteční klienti, kterým by byly zbytečně rozesílány letáky, pozvánky či by byli kontaktováni několikrát po sobě. Nejen, že jim samotným by to nebylo příjemné, ale firmu by to stálo plno peněz, času a také by utrpěla její image. Sjednocená forma jmen, příjmení, názvů měst, ulic a jiných veřejných prostranství umožní perfektní přehled o klientech. Přínos číselníků, skrze čištění dat, je také v tom, že klient vidí situaci, ve které byl před a ve které je po provedení aplikace čištění dat. Z toho může usoudit, jak kvalitní klientská data používá a používal. Může analyzovat, jaké druhy dat jsou v databázi nejšpinavější a díky tomu může učinit příslušná opatření, aby byla zajištěna vyšší úroveň datové čistoty. Například ošetřit určitým způsobem zadávání hodnot do formulářů by mohlo tomuto problému pomoci. A co třeba zavedení kontroly vstupních dat ještě před tím, než jsou uloženy do hlavních databází? Poznání nejčastějších zdrojů a možných příčin zbytečných nečistot může pomoci firmám tyto negativní vlivy omezit například i vhodným upravením určitých interních procesů. 31

33 Díky realizaci čištění dat za pomoci číselníků se můžeme také dozvědět, co všechno víme o našich zákaznících. Jaká je úplnost informací o našich klientech? Známe kromě jmen našich klientů i jejich rodná čísla, telefonní čísla či adresy? Každá firma si nemůže zajišťovat datovou kvalitu sama, jelikož na to nemá potřebný know-how, personál, nástroje, technologie a ani finanční prostředky. Velké množství zdrojů a uložišť, nejen s klientskými daty, je nutno sjednocovat do jednoho konzistentního celku, na který je třeba aplikovat přístupy vedoucí ke zlepšování datové kvality. 5.3 Jména a příjmení = snadné řešení? Pokud nezasvěcenému člověku řeknete, že se zabýváte tím, že čistíte křestní jména a příjmení, může nabýt dojmu, že přeci nejde o nic složitého a sofistikovaného, na co by se měla soustředit zvýšená pozornost. Jenže opak je mnohdy pravdou. Ta nejzapeklitější úskalí a ty nejtemnější kouty odhalíte teprve když do této oblasti proniknete hlouběji. Vezměme si například již dříve zmiňovaný případ pana Vladimíře. S tímto jménem se můžeme setkat velmi zřídka, přesto existuje. Nemůžeme ho automaticky opravovat na Vladimíra. Odhalování takových rozlišností je někdy velice namáhavé. Nalezené nejednoznačné hodnoty je třeba ověřovat. Například tím, že se informujeme na příslušném úřadu, zda opravdu evidují osobu méně obvyklého křestního jména či příjmení. V rozsáhlejších databázích, kde máme desítky až stovky tisíc záznamů o klientech se můžeme setkat s mnoha podezřelými jmény, které bychom měli analyzovat a následně určit, s jakou pravděpodobností se jedná o správně uvedené jméno či chybný údaj (buď je údaj špatně zadaný (překlep) a nebo zcela špatný). Domnívám se, že oblast čištění jmen a příjmení je v České republice lépe zvládnutelná, než v jiných zemích jako jsou např. Spojené státy. Nejen proto, že české úřady nabízí možnost firmám i jednotlivcům získat seznamy jmen v poměrně dostupné formě a v přijatelné kvalitě, ale také proto, že na našem území nežije vysoký počet přistěhovalců s různými jmennými nuancemi. S tím souvisí také problematika jmen z globálního hlediska. Lze vůbec řešit jména v jednom, celosvětovém, číselníku? Myslím si, že v takovém rozsahu je to nemožné. Zvláště u národů, kteří používají v jazyce diakritická znaménka či jiné znaky. Pokud se takový člověk odstěhuje do jiné země, lze předpokládat, že se jeho jméno může změnit (například, že bude 32

34 v novém prostředí velice obtížně vyslovitelné či zaznamenatelé). Znám například jednoho amerického brokera původem z České republiky, který se jmenuje James Kuzel. Můžeme mít současně v naší zemi Jakuba Kužela a v USA Jamese Kuzela. Proto nemůžeme z globálního pohledu říci, že jedno ze jmen je zapsáno špatně, když existují obě. Nelze pak využít metody replacemnetů na hodnoty Kužel a Kuzel. Pokud bychom uvažovali pouze Českou republiku, budeme mít automaticky u jména Kuzel podezření na chybu v diakritice. U některých jmen, zejména čistě anglických, se s tímto problémem prakticky nesetkáváme. Nesrovnalosti také nastávají, pokud jsou jména psána v rozdílných abecedách (latinka, cyrilice ). Zde je nutné udržovat číselníky v několika různých abecedních variantách. Dalším oříškem, se kterým se musí tvůrce číselníku jmen vypořádat, je určování křestních jmen a příjmení. Pokud si například z databáze vybereme řetězec Tomáš Pavel, tak je problém na světě. Byl zadán vstup ve tvaru nejprve křestního jména a pak příjmení? Je křestní jméno zkoumaného Tomáš nebo Pavel? Pokud nemáme další informace, podle kterých můžeme tuto nejasnost objasnit, můžeme se spolehnout pouze na statistické hodnoty. Můžeme například využít četností výskytů určitých křestních jmen a příjmení, pokud nám jsou známy. Můžeme také pracovat s poznatky, zda se vícekrát vyskytuje jméno Tomáš Pavel (kde Tomáš je křestní) a nebo Pavel Tomáš. Tyto odhady jsou ovšem nepřesné a proto je vhodné ověřovat konkrétní výskyt nerozhodnutelných kombinací pomocí nějakého důvěryhodného zdroje. Samostatným úkolem k řešení je také existence více než dvoučlenných jmen (Anna Nicole Smith či Catherine Zeta Jones). Zde je třeba využívat složitějších paternů (vzorů složení jména), a mít již i vytipované určité kombinace víceslovných jmen, které se mohou v praxi vyskytovat častěji (příkladem je spojení křestních jmen Anna Marie). Při čištění (kontrole) dat mohou být využívány jak číselníky křestních jmen a příjmení, ale také číselníky, které jsou určeny pouze pro víceslovná jména. Po přečtení několika předcházejících odstavců, které jistě nejsou zcela vyčerpávající, si již sami dokážete představit, že vlastnit a spravovat kvalitní číselník jmen není v žádném případě legrace. Pokud si připomeneme, že nejčastěji čištěnými daty jsou data klientů, kterými disponuje každá společnost, uvědomíme si, jak jsou právě tyto číselníky důležité pro společnosti poskytující řešení v oblasti datové kvality. 33

35 5.4 Možnost vzniku chyb při čištění Jak to tak bývá, pokud se něco dělá, tak by se to mělo dělat s rozvahou. V opačném případě se můžeme dostat do nemalých problémů. U čištění dat to platí naprosto spolehlivě. Je důležité přistupovat ke svěřeným datům zodpovědně, s rozmyslem a nějakým tím předem promyšleným postupem. Pojďme si říci, kterých dvou základních chyb se můžeme při čištění dopustit. Do první kategorie chyb patří taková chyba, kdy se nám nepodařilo opravit (vyčistit) záznam, který jsme vyčistit měli. Pokud se nám těchto chyb začíná objevovat větší množství, tak jsou s velkou pravděpodobností způsobeny příliš opatrnými či nedostatečnými pravidly pro čištění. Druhá kategorie chyb, která bývá mnohem hůře akceptována, než je tomu v případě kategorie první, spočívá v tom, že je opraven záznam, jež být opraven neměl. Tento druh chyb se velice špatně odhaluje. Při nastavení příliš agresivních postupů v čištění může navenek výstup způsobit iluzí, že bylo vyčištěno a upraveno do korektní podoby velké množství záznamů. To je ale pouze klam. Při neopatrném čištění dochází ke znehodnocení dat, které bývá většinou již nevratné, pokud není nějakým způsobem zaznamenáváno (logováno). Pokud pracujeme s číselníky, budeme se neustále pohybovat v prostoru mezi těmito dvěmi kategoriemi chyb. Se snižováním pravděpodobnosti výskytu chyby první kategorie se současně zvyšuje pravděpodobnost výskytu chyby druhé kategorie. Naším cílem je snažit se postupnými kroky odstraňovat chyby první kategorie a vyvarovat se chybám té druhé. 5.5 Práce s anonymními a osobními údaji Soubory údajů týkajících se klientů můžeme rozdělit do skupin, které se od sebe liší tím, zda lze podle nich identifikovat konkrétního jedince. Pokud nelze provést jednoznačnou identifikaci člověka podle dostupných údajů, pak se jedná o údaje anonymní. Za anonymní údaj se považují nejen samostatné křestní jména a příjmení, ale také celá jména, kterých se v daném výběru vyskytuje větší množství. Pokud je v něm pouze jeden zástupce, pak se již o anonymní údaj nejedná, jelikož jedinec je jménem přesně identifikován. Zajímavý moment ovšem nastává v okamžiku, pokud by žily dvě osoby stejného jména na jedné adrese (bylo by známo a dle číselníku ověřeno křestní jméno, příjmení a adresa). Pokud nebudou tito lidé odlišeni (např. rodným číslem) nelze tuto 34

36 identifikaci považovat za jednoznačnou. Ovšem v tomto případě nelze mluvit ani o tom, že by byl jedinec zcela anonymní. Názory na tuto problematiku se různí. Osobně považuji za osobní údaj takový údaj, který je spojen s jasným, jedinečným, identifikátorem konkrétní osoby (viz dále). Jestliže je společně se jménem, bez závislosti na počtu jeho výskytů ve sledovaném celku, uveden údaj jednoznačně ukazující na konkrétního člověka (rodné číslo), pak se jedná o jednoznačně identifikovanou osobu, která již může být nazvána klientem. Na reálných projektech pracujeme s reálnými daty. Data z některých projektů, pokud s tím klient souhlasí, mohou být anonymizována (tím se znemožní jednoznačná identifikace osob). Anonymní data pak můžeme používat například k testování číselníků, jednotlivých verzí DQ software či budování jejich nových komponent. Anonymní data mají výhodu oproti smyšleným datům zejména v tom, že reprezentují určitou reálnou situaci a i bez jednoznačně určených osob jsou pro různé účely použitelná. Tisíce reálných klientů reprezentujících určitou část populace jsou mnohem lepším materiálem, než desetitisíce náhodně vygenerovaných hodnot. Pokud budeme pomocí dat testovat funkčnost jednotlivých částí software, můžeme narazit na problémy, které bychom jinak neobjevili (nebo objevili, ale až na projektu u zákazníka s reálnými daty, což je už ale pozdě). Lze tak odhalit problémy například při identifikaci jmen (nepřesnosti v napojení ověřovacího číselníku), parsování adres (chyby v paternech adres) a tak podobně. 35

37 6 Závěr Cílem této bakalářské práce bylo představit zájemcům o informace z oblasti čištění dat vlastnosti a role číselníků v souvislosti se zvyšováním datové kvality a ukázat jejich důležitost z pohledu implementátora datové kvality a jeho zákazníka. Čtenáři byli nejprve seznámeni s důležitostí kvality dat v současné době. Uvedl jsem, že otázka datové kvality může být zároveň hrozbou i příležitostí. Nic v životě není pouze dobré či špatné, ale vždy záleží na úhlu pohledu který z naší pozice zaujímáme k dané oblasti. Z každé situace bychom si měli vzít to pozitivní a snažit se toho využít. Bereme datovou kvalitu jako hrozbu? Máme strach ze znečištěných dat? Jsou naši operátoři v call centrech pro databáze datovou pohromou? Zbavme se hrozby tím, že si zajistíme spolupráci s kvalitní firmou, která se nám o kvalitu dat postará. Poté se můžeme dostat do pozice, kdy naše data jsou kvalitnější než u konkurence. Dokud nepochopíme, že se musíme zabývat naším primárním podnikatelským cílem a ostatní úkoly, na jejichž realizaci neefektivně plýtváme prostředky, nebude náš byznys efektivní. Naučme se spolupracovat a vhodně outsourcovat produkty a služby, které jsou pro nás důležité, ale nejsou předmětem našeho podnikání. Jádro práce tvoří kapitoly věnované číselníkům (vznik, vlastnosti, správa) a postřehům z praxe, které se jich bezprostředně týkají. V datech dochází ke vzniku různých druhů nečistot, kterým se preventivně nedá zcela vyhnout, ale které jsou následně odstranitelné. Byly zde probrány například nejčastější problémy, se kterými se při práci daty (zejména klientskými) setkáváme, a návrhy jejich možných řešení za využití číselníků. Řekli jsme si pár odstavců o tom, jaké mají číselníky reálné přínosy pro implementátora datové kvality a jeho zákazníka. Stále si musíme uvědomovat, že se nemůžeme starat pouze o to, jaké máme zisky nyní, ale i jaký máme potenciál k udržení či růstu zisků v letech následujících. Kromě zisků musíme brát ohled také na image, kterou si každá firma buduje a prostřednictvím datové kvality také ovlivňuje. Každá firma stojí na tom, jaké má zákazníky a kolik jich je. Musíme vždy respektovat zákazníka a zajímat se o to, jak vypadáme v jeho očích a zda existuje něco, co by toto vnímání mohlo dostat na lepší úroveň. Ať už se jedná o zákazníka implementátorské společnosti, který očekává kvalitní pročištění svých dat a nebo zákazníka tohoto zákazníka očekávajícího při obchodní korespondenci korektně uvedené své jméno a adresu. 36

38 Některé oblasti čištění dat nemusejí na první pohled vypadat nijak složitě, ale při podrobnějším zkoumání je můžeme shledat poměrně náročnými na kvalitní řešení. Takovou oblastí jsou například jména a to zejména v případě, že s nimi pracujeme v globálním měřítku. Důležité je také nezapomínat na to, že při čištění vznikají dva druhy chyb. Při čištění rozsáhlejšího počtu záznamů se jim prakticky nelze vyhnout. Není možné je zcela eliminovat, ale pouze minimalizovat. Co říci zcela na závěr? Potřeba čistit data v databázích firem vzniká u čím dál většího množství firem a nejinak tomu bude i v následujících letech. Význam této potřeby bude postupem času narůstat a s tím bude narůstat i hodnota a prestiž společností, které budou schopny nabízet kvalitní řešení v oblasti datové kvality za rozumné ceny. Pokud přijmeme zmíněné tvrzení a jsme si vědomi existence tohoto trendu, kterého jsme již součástí, pak nemůžeme opomenout zmínit důležitost role číselníků při čištění dat. Čím budou použity kvalitnější číselníky, tím budou data čistší a zákazníci spokojenější. S kvalitnějšími daty ke světlejším zítřkům! 37

39 7 Seznamy 7.1 Slovník pojmů Pojem Business Rules Call centrum Customer Data Integration Customer Relationship Management Čištění dat Datové tržiště Datový sklad Jméno Klientská data Konsolidace Parsing Patern Význam [zdroj] Business Rules je soubor metod nebo návodů týkajících se firemních dat a chodu byznysu. Pomocí nich jsou řízeny byznysové operace. [ [1] DYCHÉ, 2006, str. 272] Call centrum (Call Center) je centralizovanou organizační jednotku firmy zabezpečující hromadné zpracování příchozích a ochozích telefonních hovorů. [ [15] Wikipedia] Customer Data Integration (CDI) je soubor procesů, řízení, automatizace a schopností nutných ke standardizaci a integraci zákaznických dat pocházejících z různých zdrojů. [ [1] DYCHÉ, 2006, str. 34] Customer Relationship Management (CRM) je databázová technologie využívaná společnostmi za účelem podpory procesů zajišťujících shromažďování, zpracování a využití informací o svých zákaznících. [Wikipedia]. CRM je infrastrukturou umožňující zobrazení a ovlivňování hodnoty zákazníka. Má za úkol motivovat zákazníky k dalšímu nákupu. [ [1] DYCHÉ, 2006, str. 274] Proces, jehož úkolem je standardizovat hodnoty z databází oproti záznamům v číselnících. Záměrem je odstranit ze záznamů nesmyslné hodnoty, překlepy, zkratky a jiné. [autor] Podmnožina datového skladu adresující potřeby specifických předmětných oblastí podniku nebo uspokojující potřeby jednotlivých částí organizace. [ [2] NOVOTNÝ a kol., 2005, str. 250] Kopie transakčních dat speciálně strukturovaných pro dotazování a reportování. (Ralph Kimball) [ [2] NOVOTNÝ a kol., 2005, str. 250] Označení pro kombinaci křestního jména a příjmení. [autor] Data o klientech společnosti zahrnující zejména jejich jména, adresy, telefonní a ové kontakty a další. [autor] V Data Cleansing můžeme chápat konsolidaci jako seskupení, spojení více záznamů vztahujících se k jednomu objektu do jediného záznamu (například se v databázi vyskytuje 5 záznamů jednoho klienta a my z nich potřebujeme udělat jeden). Konsolidace dat může být chápána jako soubor aktivit čištění dat a unifikace. Nejčastěji procházejí konsolidací klienti (jména, rodná čísla, IČO, tituly ) a adresy (PSČ, města, ulice...). [autor] Parsing = syntaktická analýza. Je to proces analýzy posloupnosti formálních prvků s cílem určit jejich gramatickou strukturu vůči předem dané (byť ne nutně explicitně vyjádřené) formální gramatice. [ [19] Wikipedia] Parsing je rovněž označení pro použití programu za účelem dekompozice řetězce znaků na jednotlivé části. [ [1] DYCHÉ, 2006, str. 279] Patern (pattern) znamená určitý vzor popisující strukturu dat. V oblasti datové kvality se setkáváme například s paterny adres (jedná se o vzory toho, jak může být adresa zapsána pozice města, PSČ, ulice, popisného čísla, orientačního čísla v určitém řetězci). [autor] 38

40 Replacement Řetězec Unifikace Jde o je zvláštní případ číselníku, kde jsou definovány dvě hodnoty - pokud je první z nich nalezena v databázi, je nahrazena druhou uvedenou. [autor] Řetězec (String) je skupina znaků. [ [21] Wikipedia] Unifikace představuje proces seskupení více záznamů pod jeden. Tento záznam obsahuje identifikační číslo, kterým je jednoznačně identifikován. [autor] 7.2 Seznam zkratek Zkratka Význam CDI CRM DQ DQC Customer Data Integration Customer Relationship Management Data Quality Data Quality Center (název softwaru datové kvality od společnosti Ataccama Software s.r.o.) 7.3 Seznam obrázků Obrázek Název Strana Obr.1 Systém SFA 8 Obr.2 Číselník zemí 12 Obr.3 Datová kvalita 12 Obr.4 Proces vzniku číselníku 16 Obr.5 Četnost příjmení mužů v ČR k Obr.6 Číselník pošt 23 Obr.7 Číselník bankovních ústavů 23 Obr.8 Tudy cesta nevede 43 Obr.9 DQC Seznam tabulek Tabulka Název Strana Tab.1 Ukázka obsahově nekvalitních dat 13 39

41 Tab.2 Chyby v přepisu dat 26 Tab.3 Nestrukturovaná data 27 Tab.4 Neúplnost záznamů, zkratky 28 Tab.5 Duplicitní data 29 40

42 8 Zdroje 8.1 Literatura [1] DYCHÉ, Jill; LEVY, Evan. Customer Data Integration Reaching a Single Version of Truth. Hoboken: John Wiley & Sons, Inc., ISBN [2] NOVOTNÝ, Ota; POUR Jan; SLÁNSKÝ David. Business Intelligence : Jak využít bohatství ve vašich datech. Praha: Grada, ISBN Internet [3] Bain & Co. Bain & Company s 2005 Management Tools survey, Dostupné na ools.pdf [4] BusinessInfo ( Ochrana osobních údajů, Dostupné na [5] Česká národní banka. Číselník účastníků platebního styku v ČR, aktualizováno Dostupné na ody_bank_cr.pdf [6] Česká pošta. Seznam poštovních míst v ČR, aktualizováno Dostupné na [7] Český statistický úřad. Číselník zemí, aktualizováno v roce 2007 (označení CZEM 2007). Dostupné na [8] Data Quality Center. Popis produktu DQC společnosti Ataccama Software s.r.o., aktualizace květen Dostupné na [9] Databázový svět ( Vyvíjíme databázový a informační systém VIII., Dostupné na [10] ECKERSON, Wayne. In Search of a Single Version of the Truth: Strategies for Consolidating Analytic Silos, srpen Dostupné na 41

43 [11] Ministerstvo vnitra ČR. Četnost příjmení mužů v ČR k Dostupné na [12] NELSON, S.; SINGHAL, R.; JANOWSKI, W.; FREY N. Gartner Research report, Customer Data Quality and Integration: The Foundation of Successful CRM, Dostupné na [13] PIRKL David, prezentace na téma Kvalita dat, VŠE, květen Dostupné na [14] Toolbox for IT ( Pipeline Management, editováno Dostupné na [15] Wikipedia: otevřená encyklopedie [online]. Call Center, editováno Dostupné na [16] Wikipedia: otevřená encyklopedie [online]. Customer Relationship Management, edit Dostupné na [17] Wikipedia: otevřená encyklopedie [online]. Data Cleansing, editováno Dostupné na [18] Wikipedia: otevřená encyklopedie [online]. Dirty Data, editováno Dostupné na [19] Wikipedia: otevřená encyklopedie [online]. Parsing, editováno Dostupné na [20] Wikipedia: otevřená encyklopedie [online]. Sales force management system, editováno Dostupné na [21] Wikipedia: otevřená encyklopedie [online]. String, editováno Dostupné na [22] wisegeek ( What is Data Cleansing?, aktualizováno Dostupné na 42

44 9 Přílohy 9.1 Tudy cesta nevede Názorný příklad toho, co mohou způsobit nekvalitní data. Tuto zásilku jsem obdržel od jedné zahraniční společnosti koncem května tohoto roku. V posledním řádku si můžeme všimnout telefonního čísla, které bylo ovšem v databázi odesílatele zapsáno v exponenciálním tvaru, přičemž byla navíc ještě poslední číslice zaokrouhlena. Vypadá tato zásilka profesionálně? Opravdu je tak těžké si takové základní nedostatky ohlídat? Stačilo by, kdyby byl řetězec znaků obsahující telefonní číslo testován například podle číselníku na mezinárodní telefonní předvolbu. V tom případě by se ihned ukázala chyba a mohlo by se předejít podobnému paskvilu. Předpokládám, že to nebyl úmyslný čin spáchaný za účelem pobavení matematicky zdatných poštovních doručovatelek. Obr.8 Tudy cesta nevede [autor] 43

45 9.2 Ataccama - Data Quality Center (DQC) Obr.9 DQC [autor] 44

Datová kvalita. RNDr. Ondřej Zýka

Datová kvalita. RNDr. Ondřej Zýka Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích

Více

Datová kvalita. RNDr. Ondřej Zýka

Datová kvalita. RNDr. Ondřej Zýka Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích

Více

EKONOMICKÝ A LOGISTICKÝ SOFTWARE. Luhačovice 24.10.2013

EKONOMICKÝ A LOGISTICKÝ SOFTWARE. Luhačovice 24.10.2013 EKONOMICKÝ A LOGISTICKÝ SOFTWARE Luhačovice 24.10.2013 CRM řízení vztahů se zákazníky CRM - je zkratka z anglického Customer Relationship Management a označují se tak systémy pro řízení vztahů se zákazníky.crm

Více

Základní registry. Kvalita dat a jejich čištění v základních registrech veřejné správy. Připraveno pro konferenci ISSS. Ing.

Základní registry. Kvalita dat a jejich čištění v základních registrech veřejné správy. Připraveno pro konferenci ISSS. Ing. Základní registry Kvalita dat a jejich čištění v základních registrech veřejné správy Připraveno pro konferenci ISSS Ing. Jiří Vácha Hradec Králové, 6.4.2009 Adastra Group Agenda Základní teze datové kvality

Více

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) Marketingová komunikace Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) 2. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Minulé soustředění úvod

Více

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3aph) 2. a 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Co nás čeká: 2. soustředění 16.1.2009

Více

Uživatelský manuál: Modul Nové kontakty

Uživatelský manuál: Modul Nové kontakty Uživatelský manuál: Modul Nové kontakty Se zapnutím nových kontaktů souvisí nasazení nové aplikace Těžká podatelna a nový formulář pro evidenci externí písemnosti (dokumentu). Zapnutí nových kontaktů lze

Více

Moderní metody automatizace a hodnocení marketingových kampaní

Moderní metody automatizace a hodnocení marketingových kampaní Moderní metody automatizace a hodnocení marketingových kampaní SAS CI Roadshow 2014 24/09/2014 Vít Stinka Agenda Představení společnosti Unicorn Systems Aliance Unicorn Systems a SAS Celkový koncept Customer

Více

Záznamy o činnostech zpracování osobních údajů

Záznamy o činnostech zpracování osobních údajů Záznamy o činnostech zpracování osobních údajů vydané v souladu s Nařízením (EU) 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů (GDPR), níže uvedeným správcem osobních údajů

Více

Účinnost Tato vyhláška nabývá účinnosti dnem 1. ledna 2007.

Účinnost Tato vyhláška nabývá účinnosti dnem 1. ledna 2007. VYHLÁŠKA 442/2006 Sb. ze dne 31. srpna 2006, kterou se stanoví struktura informací zveřejňovaných o povinném subjektu způsobem umožňujícím dálkový přístup Ministerstvo informatiky stanoví podle 21 odst.

Více

Obsah. Zpracoval:

Obsah. Zpracoval: Zpracoval: houzvjir@fel.cvut.cz 03. Modelem řízený vývoj. Doménový (business), konceptuální (analytický) a logický (návrhový) model. Vize projektu. (A7B36SIN) Obsah Modelem řízený vývoj... 2 Cíl MDD, proč

Více

VYHLÁŠKA ze dne. 2006, kterou se stanoví struktura informací zveřejňovaných o povinném subjektu způsobem umožňujícím dálkový přístup

VYHLÁŠKA ze dne. 2006, kterou se stanoví struktura informací zveřejňovaných o povinném subjektu způsobem umožňujícím dálkový přístup VYHLÁŠKA ze dne. 2006, kterou se stanoví struktura informací zveřejňovaných o povinném subjektu způsobem umožňujícím dálkový přístup Ministerstvo informatiky stanoví podle 21 odst. 3 písm. a) a b) zákona

Více

l Kontakt s klientem SSP Popis automatizované komunikace s ÚP ČR v součinnosti a exekuci

l Kontakt s klientem SSP Popis automatizované komunikace s ÚP ČR v součinnosti a exekuci l Kontakt s klientem SSP automatizované komunikace s ÚP ČR v součinnosti a exekuci Obsah: 1. SEZNAM POUŽITÝCH ZKRATEK... 3 2. POPIS SLUŽBY... 4 2.1 Forma a struktura rozhraní... 4 2.2 Dostupnost služby...

Více

Databázové systémy. Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz

Databázové systémy. Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz Databázové systémy Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz Vývoj databázových systémů Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace 60.-70. léta Program Komunikace Výpočty

Více

Primární klíč, cizí klíč, referenční integrita, pravidla normalizace, relace

Primární klíč, cizí klíč, referenční integrita, pravidla normalizace, relace Téma 2.2 Primární klíč, cizí klíč, referenční integrita, pravidla normalizace, relace Obecný postup: Každá tabulka databáze by měla obsahovat pole (případně sadu polí), které jednoznačně identifikuje každý

Více

Jak chytře čistit data

Jak chytře čistit data Jak chytře čistit data Případová studie řešení v České pojišťovně Data Quality at a Glance 20.4.2010 vladimir.kyjonka@cze.sas.com O co šlo Česká pojišťovna Hodně historických dat Data v historickém stavu

Více

Částka 12 Ročník Vydáno dne 7. srpna O b s a h : ČÁST NORMATIVNÍ

Částka 12 Ročník Vydáno dne 7. srpna O b s a h : ČÁST NORMATIVNÍ Částka 12 Ročník 2001 Vydáno dne 7. srpna 2001 O b s a h : ČÁST NORMATIVNÍ 5. Opatření České národní banky č. 5 ze dne 1. srpna 2001, kterým se stanoví metodika předkládání vybraných údajů bankami a pobočkami

Více

Předmět úpravy. Struktura informací zveřejňovaných o povinném subjektu

Předmět úpravy. Struktura informací zveřejňovaných o povinném subjektu 442/2006 Sb. VYHLÁŠKA Ministerstva informatiky ze dne 31. srpna 2006, kterou se stanoví struktura informací zveřejňovaných o povinném subjektu způsobem umožňujícím dálkový přístup ve znění vyhlášky č.

Více

Registr pojištěnců veřejného zdravotního pojištění. Ing. Radek Papp vedoucí projektu

Registr pojištěnců veřejného zdravotního pojištění. Ing. Radek Papp vedoucí projektu Registr pojištěnců veřejného zdravotního pojištění Ing. Radek Papp vedoucí projektu O registrech obecně Registry mají sloužit lidem, nikoliv lidé registrům Registry jsou databáze a souhrny údajů Sbírat

Více

Transformace dílčích datových zdrojů na jednotnou datovou platformu kontaminovaných míst, analýza potřeb uživatelů a vývoj aplikací

Transformace dílčích datových zdrojů na jednotnou datovou platformu kontaminovaných míst, analýza potřeb uživatelů a vývoj aplikací Transformace dílčích datových zdrojů na jednotnou datovou platformu kontaminovaných míst, analýza potřeb uživatelů a vývoj aplikací Jiří Šíma, AQUATEST a.s. Zpracovatelé a součinnost AQUATEST a.s. ARCDATA

Více

PŘIHLÁŠKA K REGISTRACI

PŘIHLÁŠKA K REGISTRACI 13Reg5125_4.pdf Než začnete vyplňovat tiskopis, přečtěte si, prosím, pokyny. Finančnímu úřadu pro / Specializovanému finančnímu úřadu Územní pracoviště v, ve, pro Daňové identifikační číslo skupiny Otisk

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních

Více

INFORMAČNÍ SYSTÉMY (IS) Ing. Pavel Náplava Katedra počítačů K336, ČVUT FEL Praha 2004/2005

INFORMAČNÍ SYSTÉMY (IS) Ing. Pavel Náplava Katedra počítačů K336, ČVUT FEL Praha 2004/2005 INFORMAČNÍ SYSTÉMY (IS) Ing. Pavel Náplava Katedra počítačů K336, ČVUT FEL Praha 2004/2005 AGENDA definice IS, zavedení pojmů možnosti a rozdělení typická struktura technologie nasazení praktická ukázka

Více

JAK ČÍST ZÁZNAM O VYUŽÍVÁNÍ ÚDAJŮ V REGISTRU OBYVATEL

JAK ČÍST ZÁZNAM O VYUŽÍVÁNÍ ÚDAJŮ V REGISTRU OBYVATEL JAK ČÍST ZÁZNAM O VYUŽÍVÁNÍ ÚDAJŮ V REGISTRU OBYVATEL Název dokumentu: Jak číst záznam o využívání údajů v registru obyvatel Verze: 1.8 Autor: Správa základních registrů Datum aktualizace: 25. 2. 2014

Více

Pokyn pro obecní úřady obcí s rozšířenou působností

Pokyn pro obecní úřady obcí s rozšířenou působností IMPLEMENTACE OZNAČENÍ ADRESA ÚŘADU DO AGENDOVÉHO INFORMAČNÍHO SYSTÉMU EVIDENCE OBYVATEL (v souladu se zákonem č. 456/2016 Sb., kterým se mění zákon č. 133/2000 Sb., o evidenci obyvatel a rodných číslech

Více

Leady & MERK Integrace Microsoft Dynamics CRM s aplikacemi Leady a MERK

Leady & MERK Integrace Microsoft Dynamics CRM s aplikacemi Leady a MERK Integrace Microsoft Dynamics CRM s aplikacemi Leady a MERK Strana 1 z 12 Obsah 1. Leady... 3 a. Shrnutí... 3 b. Popis modulu... 3 c. Technické podrobnosti o modulu... 5 2. MERK... 6 a. Shrnutí... 6 b.

Více

CO OBCE MOHOU UDĚLAT PRO GDPR UŽ NYNÍ?

CO OBCE MOHOU UDĚLAT PRO GDPR UŽ NYNÍ? CO OBCE MOHOU UDĚLAT PRO GDPR UŽ NYNÍ? Praha,1.února 2018 Mgr. Miroslava Sobková Svaz měst a obcí České republiky AKTUÁLNÍ OTÁZKY MENŠÍCH SAMOSPRÁV I. Úvod II. Stručný popis postupu při implementaci GDPR

Více

Posouzení dopadu činnosti na ochranu osobních údajů. 1. Předmět ochrany osobních údajů. Hexpol Compounding s.r.o.

Posouzení dopadu činnosti na ochranu osobních údajů. 1. Předmět ochrany osobních údajů. Hexpol Compounding s.r.o. Posouzení dopadu činnosti na ochranu osobních údajů Předmětem ochrany osobních údajů jsou: 1. Předmět ochrany osobních údajů 1.1 identifikační údaje zaměstnanců, kterými se rozumí zejména akademický titul

Více

JAK ČÍST ZÁZNAM O VYUŽÍVÁNÍ ÚDAJŮ V REGISTRU OBYVATEL

JAK ČÍST ZÁZNAM O VYUŽÍVÁNÍ ÚDAJŮ V REGISTRU OBYVATEL JAK ČÍST ZÁZNAM O VYUŽÍVÁNÍ ÚDAJŮ V REGISTRU OBYVATEL Název dokumentu: Jak číst záznam o využívání údajů v registru obyvatel Verze: 1.7 Autor: Správa základních registrů Datum aktualizace: 15.4.2013 Účel:

Více

Sbírka zákonů ČR Předpis č. 442/2006 Sb.

Sbírka zákonů ČR Předpis č. 442/2006 Sb. Sbírka zákonů ČR Předpis č. 442/2006 Sb. Vyhláška, kterou se stanoví struktura informací zveřejňovaných o povinném subjektu způsobem umožňujícím dálkový přístup Ze dne 31.08.2006 Částka 143/2006 Účinnost

Více

Tvar dat a nástroj přeskupování

Tvar dat a nástroj přeskupování StatSoft Tvar dat a nástroj přeskupování Chtěli jste někdy použít data v jistém tvaru a STATISTICA Vám to nedovolila? Jistě se najde někdo, kdo se v této situaci již ocitl. Není ale potřeba propadat panice,

Více

Správa VF XML DTM DMVS Datový model a ontologický popis

Správa VF XML DTM DMVS Datový model a ontologický popis Správa VF XML DTM DMVS Datový model a ontologický popis Verze 1.0 Standard VF XML DTM DMVS Objednatel Plzeňský kraj Institut plánování a rozvoje hlavního města Prahy Zlínský kraj Kraj Vysočina Liberecký

Více

Jak úspěšně bojovat s ekonomickou krizí pomocí CI

Jak úspěšně bojovat s ekonomickou krizí pomocí CI Jak úspěšně bojovat s ekonomickou krizí pomocí CI Každá doba sebou přináší příležitosti a hrozby, ti úspěšní se s nimi dokážou vyrovnat. Nástroje pro Competitive Intelligence (CI) pomáhají identifikovat

Více

Příloha č. 4 Obchodní podmínky pro poskytování služby DopisOnline

Příloha č. 4 Obchodní podmínky pro poskytování služby DopisOnline Česká pošta, s.p. sídlem Praha 1, Politických vězňů 909/4, PSČ: 22599, IČ: 47 11 49 83 zapsaný v obchodním rejstříku vedeném Městským soudem v Praze oddíl A, vložka 7565 OBCHODNÍ PODMÍNKY PRO POSKYTOVÁNÍ

Více

Microsoft SharePoint Portal Server 2003. Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR

Microsoft SharePoint Portal Server 2003. Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR Microsoft SharePoint Portal Server 2003 Zvýšená týmová produktivita a úspora času při správě dokumentů ve společnosti Makro Cash & Carry ČR Přehled Země: Česká republika Odvětví: Velkoobchod Profil zákazníka

Více

Návrh datového skladu z hlediska zdrojů

Návrh datového skladu z hlediska zdrojů Návrh datového skladu Návrh datového skladu OLTP ETL OLAP, DM Operativní data Datové sklady Zdroje dat Transformace zdroj - cíl Etapy realizace 1 Návrh datového skladu Hlavní úskalí analýzy a návrhu spočívá

Více

Řešení datové kvality prostřednictvím Master Data Managementu v prostředí České pošty s.p.

Řešení datové kvality prostřednictvím Master Data Managementu v prostředí České pošty s.p. Řešení datové kvality prostřednictvím Master Data Managementu v prostředí České pošty s.p. Ing. Jiří Barták Vedoucí odboru BI SAS Roadshows 2017 Ovládejte a chraňte svá data v době digitální transformace

Více

Registr Osob. zveřejněno 16.11.2009 podepsáno 13.4.2010. http://www.vestnikverejnychzakazek.cz/

Registr Osob. zveřejněno 16.11.2009 podepsáno 13.4.2010. http://www.vestnikverejnychzakazek.cz/ Registr Osob v provozu od 1. července 2012 (opožděno o 12 měsíců) odhadovaná cena 385,425 milionů konečná cena 371,5 milionů realizátor ADASTRA, s.r.o. zveřejněno 16.11.2009 podepsáno 13.4.2010 http://www.vestnikverejnychzakazek.cz/

Více

Jmenné Rejstříky. Novelizace zákona o archivnictví a spisové službě z zavádí novou povinnost pro určené původce vedení jmenných rejstříků

Jmenné Rejstříky. Novelizace zákona o archivnictví a spisové službě z zavádí novou povinnost pro určené původce vedení jmenných rejstříků Jmenné Rejstříky Novelizace zákona o archivnictví a spisové službě z 24.4.2019 zavádí novou povinnost pro určené původce vedení jmenných rejstříků Ing.Robert Piffl 1 Co nová povinnost přináší? Čím začneme?

Více

Cílem je sjednocení různých informačních systémů veřejné správy do jednotného systému ISZR

Cílem je sjednocení různých informačních systémů veřejné správy do jednotného systému ISZR Ing. Karel Hanke Veřejná správa disponuje množstvím různých informačních systémů které nejsou online propojeny Cílem je sjednocení různých informačních systémů veřejné správy do jednotného systému ISZR

Více

Co jsou otevřená data?

Co jsou otevřená data? Co jsou otevřená data? Data zveřejněná na Internetu, která jsou úplná, snadno dostupná, strojově čitelná, používající standardy s volně dostupnou specifikací, zpřístupněna za jasně definovaných podmínek

Více

Metadata. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Metadata. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Metadata MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Co to jsou metadata Chybějící metadata Doplněná metadata Co o metadatech říkají autority Řízení metadata je nepochybně nejdůležitější

Více

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

IdeálníPřipojení.cz. nová příležitost prodeje služeb pro operátory. LEMO Internet a.s.

IdeálníPřipojení.cz. nová příležitost prodeje služeb pro operátory. LEMO Internet a.s. IdeálníPřipojení.cz nová příležitost prodeje služeb pro operátory LEMO Internet a.s. Co je to IdeálníPřipojení.cz? Z pohledu koncového zákazníka webová aplikace pro rychlé a uživatelsky jednoduché zjištění

Více

Slovenská spořitelna:

Slovenská spořitelna: Případová studie Slovenská spořitelna: Microsoft Dynamics CRM pro správu klientů ze segmentu malých a středních podniků Jak jsme Slovenské spořitelně usnadnily a zefektivnily práci s klienty ze segmentu

Více

GDPR Obecný metodický pokyn pro školství

GDPR Obecný metodický pokyn pro školství GDPR Obecný metodický pokyn pro školství Vydáno 19. 2. 2018 Zpracovala: Mgr. Eva Kleiberová ÚVOD Od 25. května 2018 je povinností každého statutárního orgánu organizace (ředitele školy) naplnit ustanovení

Více

Management rizika Bc. Ing. Karina Mužáková, Ph.D. BIVŠ,

Management rizika Bc. Ing. Karina Mužáková, Ph.D. BIVŠ, Management rizika Bc. Ing. Karina Mužáková, Ph.D. BIVŠ, 2015 1 5/ Řízení rizika na úrovni projektu, podniku a v rámci corporate governance. BIVŠ, 2015 2 Definice projektu říká, že se jedná o činnost, která

Více

Administrativní pokyny pro aplikaci Madridské dohody o mezinárodním zápisu známek a Protokolu k této dohodě. (ve znění platném k 1.

Administrativní pokyny pro aplikaci Madridské dohody o mezinárodním zápisu známek a Protokolu k této dohodě. (ve znění platném k 1. Administrativní pokyny pro aplikaci Madridské dohody o mezinárodním zápisu známek a Protokolu k této dohodě (ve znění platném k 1. lednu 2008) OBSAH První část: Definice Kapitola 1: Zkrácené výrazy,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1

Více

CA Business Service Insight

CA Business Service Insight SPECIFIKACE PRODUKTU: CA Business Service Insight CA Business Service Insight agility made possible Díky produktu CA Business Service Insight budete vědět, které služby jsou v rámci vaší společnosti využívány,

Více

Návod k požadavkům ISO 9001:2015 na dokumentované informace

Návod k požadavkům ISO 9001:2015 na dokumentované informace International Organization for Standardization BIBC II, Chemin de Blandonnet 8, CP 401, 1214 Vernier, Geneva, Switzerland Tel: +41 22 749 01 11, Web: www.iso.org Návod k požadavkům ISO 9001:2015 na dokumentované

Více

Setkání IT pracovníků - Plzeňský kraj. prezentace Data-Ing, s.r.o. Martin ŠNAJDR

Setkání IT pracovníků - Plzeňský kraj. prezentace Data-Ing, s.r.o. Martin ŠNAJDR Setkání IT pracovníků - Plzeňský kraj prezentace Data-Ing, s.r.o. Martin ŠNAJDR Od roku 1996 jsme na telco a ICT trhu, od roku 2011 nabízíme i produkty pro segment energo. Zaměřujeme se na inteligentní

Více

Jednoznačná identifikace jako předpoklad funkčního e-health. Martin Pavlík

Jednoznačná identifikace jako předpoklad funkčního e-health. Martin Pavlík Jednoznačná identifikace jako předpoklad funkčního e-health Martin Pavlík Růst nároků na IT Stárnoucí populace Rostoucí náklady Nedostatek pracovníků Větší nároky na IT Izolovaná datová sila Pacientská

Více

Vykazování dat o poskytovaných sociálních službách

Vykazování dat o poskytovaných sociálních službách Vykazování dat o poskytovaných sociálních službách (verze dokumentu 1.4) Odpovědná osoba: Ing. Radomír Martinka V Praze dne: 24.4.2014 Klasifikace: CHRÁNĚNÉ OKsystem s.r.o. Na Pankráci 125, 140 21 Praha

Více

Vykazování dat o poskytovaných sociálních službách

Vykazování dat o poskytovaných sociálních službách Vykazování dat o poskytovaných sociálních službách (verze dokumentu 1.2) Odpovědná osoba: Ing. Radomír Martinka V Praze dne: 18.4.2011 Klasifikace: CHRÁNĚNÉ OKsystem s.r.o. Na Pankráci 125, 140 21 Praha

Více

Příklad z učebnice matematiky pro základní školu:

Příklad z učebnice matematiky pro základní školu: Příklad z učebnice matematiky pro základní školu: Součet trojnásobku neznámého čísla zvětšeného o dva a dvojnásobku neznámého čísla zmenšeného o pět se rovná čtyřnásobku neznámého čísla zvětšeného o jedna.

Více

Zásady ochrany osobních údajů

Zásady ochrany osobních údajů Zásady ochrany osobních údajů I. Obsah a účel dokumentu Zásady o ochraně osobních údajů V tomto dokumentu jsou obsaženy informace týkající se ochrany osobních údajů subjektů údajů, tedy zákazníků a dalších

Více

OSOBA JEDNAJÍCÍ ZA SPRÁVCE ČÍSELNÍKU NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP)

OSOBA JEDNAJÍCÍ ZA SPRÁVCE ČÍSELNÍKU NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP) OSOBA JEDNAJÍCÍ ZA SPRÁVCE ČÍSELNÍKU NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP) Obsah Úvod...2 Co je ISDP...2 Jaké jsou funkce ISDP...2 Slovník pojmů...2 Dílčí DP...2 DS...2 ISDP...2

Více

Kontroly dat RÚIAN. Kateřina Burešová

Kontroly dat RÚIAN. Kateřina Burešová Kontroly dat RÚIAN Kateřina Burešová Obsah prezentace Vznik nesouladů Porovnání a kontroly dat RÚIAN Kontrola stavebních objektů Kontrola adresních míst bez definičního bodu Kontrola ulic Další kontroly

Více

S M Ě R N I C E č. 6/2014 ministra financí ------------------------------------------------------------------------

S M Ě R N I C E č. 6/2014 ministra financí ------------------------------------------------------------------------ MINISTERSTVO FINANCÍ Praha 1, Letenská 15 V Praze dne 12. prosince 2014 Č.j.: MF 69 949/2014/4703-2 S M Ě R N I C E č. 6/2014 ministra financí ------------------------------------------------------------------------

Více

DUM 12 téma: Příkazy pro tvorbu databáze

DUM 12 téma: Příkazy pro tvorbu databáze DUM 12 téma: Příkazy pro tvorbu databáze ze sady: 3 tematický okruh sady: III. Databáze ze šablony: 7 Kancelářský software určeno pro: 4. ročník vzdělávací obor: 18-20-M/01 Informační technologie vzdělávací

Více

Zásady ochrany osobních údajů DELTA Investiční společnosti, a.s. (a jí obhospodařovaných fondů) Americká 340/31, Praha - Vinohrady, 12000

Zásady ochrany osobních údajů DELTA Investiční společnosti, a.s. (a jí obhospodařovaných fondů) Americká 340/31, Praha - Vinohrady, 12000 Zásady ochrany osobních údajů DELTA Investiční společnosti, a.s. (a jí obhospodařovaných fondů) I. Totožnost a kontaktní údaje na správce Americká 340/31, Praha - Vinohrady, 12000 IČO: 03232051 Pověřenec

Více

Primární klíč (Primary Key - PK) Je právě jedna množina atributů patřící jednomu z kandidátů primárního klíče.

Primární klíč (Primary Key - PK) Je právě jedna množina atributů patřící jednomu z kandidátů primárního klíče. Primární a cizí klíč Kandidát primárního klíče (KPK) Je taková množina atributů, která splňuje podmínky: Unikátnosti Minimálnosti (neredukovatelnosti) Primární klíč (Primary Key - PK) Je právě jedna množina

Více

Národní registr poskytovatelů zdravotních služeb Aplikace NRPZS Stav změn a oprav

Národní registr poskytovatelů zdravotních služeb Aplikace NRPZS Stav změn a oprav Národní registr poskytovatelů zdravotních služeb Aplikace NRPZS Stav změn a oprav Ústav zdravotnických informací a statistiky České republiky Evropská Institute unieof Health Information and Statistics

Více

CRM pro neziskovky, o. s. Zpráva o činnosti 2012

CRM pro neziskovky, o. s. Zpráva o činnosti 2012 Zpráva o činnosti 2012 CRM pro neziskovky, o. s. www.crmproneziskovky.cz Obsah 1. Organizace... 2 2. Poslání... 2 3. Historie... 2 4. Organizační struktura... 2 5. Vznik sdružení 2012... 2 6. Činnost sdružení...

Více

Elektronický úřad v roce 2018

Elektronický úřad v roce 2018 Opravdu máme vše, co potřebujeme? Mgr. Vít Cvrček Je to přece tak jednoduché Implementoval GDPR za 2 dny! Manažer e-shopu říká to zvládnete také Cenové nabídky za implementace a právní služby byly vysoké

Více

Jakým způsobem lze zlepšit plnění smluv o úrovni poskytovaných služeb a současně snížit náklady?

Jakým způsobem lze zlepšit plnění smluv o úrovni poskytovaných služeb a současně snížit náklady? STRUČNÉ INFORMACE O ŘEŠENÍ CA Business Service Insight for Service Level Management Jakým způsobem lze zlepšit plnění smluv o úrovni poskytovaných služeb a současně snížit náklady? agility made possible

Více

Pokročilé typové úlohy a scénáře 2006 UOMO 71

Pokročilé typové úlohy a scénáře 2006 UOMO 71 Pokročilé typové úlohy a scénáře 2006 UOMO 71 Osnova Interní model typové úlohy Vazby include a extend Provázanost typových úloh na firemní procesy a objekty Nejčastější chyby 2006 UOMO 72 Interní model

Více

Informace a znalosti v organizaci

Informace a znalosti v organizaci Informace a znalosti v organizaci Vladimíra Zádová Postavení informací a znalostí z hlediska úspěšnosti firmy Vnitřní faktory Rámec 7S faktorů úspěchu firmy [ Mc Kinsey ] Struktura Strategie Systémy Spolupracovníci

Více

Legislativní opora. č. 365/2000 Sb., o informačních systémech veřejné správy (ISVS), (dále jen zákon ) č. 81/2006 Sb. Zákon.

Legislativní opora. č. 365/2000 Sb., o informačních systémech veřejné správy (ISVS), (dále jen zákon ) č. 81/2006 Sb. Zákon. Pojmy Dlouhodobé řízení ISVS (tj. souhrnně všech, u kterých OVS vykonává funkci správce) OVS zpracovává IK a PD, předmětem posuzování AS je IK, PD za určitých podmínek. zkracujeme DŘ Způsobilost k realizaci

Více

Ondřej Bothe, Richard Dobiš

Ondřej Bothe, Richard Dobiš Portfolio PM - "What-if" analýza v plánovací aplikaci Ondřej Bothe, Richard Dobiš 2.2.2011 PM systém : Je to systém, zajišťující komplexní proces práce s daty pro koncového uživatele 1. Plánuj Plán nákladů

Více

Připomínkový list k návrhu Závěrečné zprávy k zakázce Roční operační vyhodnocení OP LZZ 2011

Připomínkový list k návrhu Závěrečné zprávy k zakázce Roční operační vyhodnocení OP LZZ 2011 Připomínkový list k návrhu Závěrečné zprávy k zakázce Roční operační vyhodnocení OP LZZ 2011 Číslo připomínky Dokument, strana, kapitola (prosíme konkrétně specifikovat) 1 Str. 19 2 Str. 19 3 Str. 20 4

Více

Relační databáze. V dnešní době existuje řada komerčních DBMS, nejznámější jsou:

Relační databáze. V dnešní době existuje řada komerčních DBMS, nejznámější jsou: Relační databáze Pojem databáze, druhy databází Databází se myslí uložiště dat. V době začátků využívání databází byly tyto členěny hlavně hierarchicky, případně síťově (rozšíření hierarchického modelu).

Více

Příloha k Průvodci pro přípravu obcí na požadavky GDPR Právo na informace o zpracování údajů

Příloha k Průvodci pro přípravu obcí na požadavky GDPR Právo na informace o zpracování údajů Příloha k Průvodci pro přípravu obcí na požadavky GDPR Právo na informace o zpracování údajů Modelové situace obce 2. Aplikace práva subjektu údajů na informace o zpracování údajů a práva na přístup k

Více

Problémové domény a jejich charakteristiky

Problémové domény a jejich charakteristiky Milan Mišovič (ČVUT FIT) Pokročilé informační systémy MI-PIS, 2011, Přednáška 02 1/16 Problémové domény a jejich charakteristiky Prof. RNDr. Milan Mišovič, CSc. Katedra softwarového inženýrství Fakulta

Více

SPECIFIKA CERTIFIKACE PODLE ČSN EN ISO 9001:2001 V ORGANIZACÍCH, KTERÉ SE ZABÝVAJÍ VÝVOJEM SOFTWARE

SPECIFIKA CERTIFIKACE PODLE ČSN EN ISO 9001:2001 V ORGANIZACÍCH, KTERÉ SE ZABÝVAJÍ VÝVOJEM SOFTWARE SPECIFIKA CERTIFIKACE PODLE ČSN EN ISO 9001:2001 V ORGANIZACÍCH, KTERÉ SE ZABÝVAJÍ VÝVOJEM SOFTWARE Václav Šebesta Ústav informatiky Akademie věd ČR, e-mail: vasek@cs.cas.cz Abstrakt Jestliže ještě před

Více

ORACLE ŘÍZENÍ FINANCÍ

ORACLE ŘÍZENÍ FINANCÍ ORACLE ŘÍZENÍ FINANCÍ Modul Oracle řízení financí je celopodnikové řešení pro správu likvidity a řízení peněžních prostředků. Tento modul je součástí Aplikací Oracle. To je integrovaná sada aplikací elektronického

Více

MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne

MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/ R O Z H O D N U T Í č. 19/2016. ministryně pro místní rozvoj. ze dne MINISTERSTVO PRO MÍSTNÍ ROZVOJ Č.j. 7022/2016-56 R O Z H O D N U T Í č. 19/2016 ministryně pro místní rozvoj ze dne 18. 2. 2016 o Pravidlech správy otevřených dat Ministerstva pro místní rozvoj S účinností

Více

5. POČÍTAČOVÉ CVIČENÍ

5. POČÍTAČOVÉ CVIČENÍ 5. POČÍTAČOVÉ CVIČENÍ Databáze Databázi si můžeme představit jako místo, kam se ukládají všechny potřebné údaje. Přístup k údajům uloženým v databázi obstarává program, kterému se říká Systém Řízení Báze

Více

ZÁSADY OCHRANY OSOBNÍCH ÚDAJŮ PRIVACY POLICY

ZÁSADY OCHRANY OSOBNÍCH ÚDAJŮ PRIVACY POLICY ZÁSADY OCHRANY OSOBNÍCH ÚDAJŮ PRIVACY POLICY Správa a zpracování osobních údajů Tyto níže popsané zásady ochrany osobních údajů (společně s našimi smluvními podmínkami) stanoví podmínky, za kterých společnost

Více

QAD CRM. Vladimír Bartoš. konzultant

QAD CRM. Vladimír Bartoš. konzultant QAD CRM Vladimír Bartoš konzultant Integrace QAD CRM QAD EA Artikly Adresy Nabídky Prodejní objednávky Instalovaná báze Servisní volání Servisní kontrakty Servisní nabídky Nabídky volání Měny Uživatelé

Více

Manažerský informační systém na MPSV. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV

Manažerský informační systém na MPSV. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV Manažerský informační systém na MPSV Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV Konference ISSS-2009 Hradec Králové Aldis 6. dubna 2009 MIS na MPSV časové údaje projektu Vytvoření MIS MPSV

Více

Tabulkový procesor. Základní rysy

Tabulkový procesor. Základní rysy Tabulkový procesor Tabulkový procesor je počítačový program zpracovávající data uložená v buňkách tabulky. Program umožňuje použití vzorců pro práci s daty a zobrazuje výsledné hodnoty podle vstupních

Více

8.2 Používání a tvorba databází

8.2 Používání a tvorba databází 8.2 Používání a tvorba databází Slide 1 8.2.1 Základní pojmy z oblasti relačních databází Slide 2 Databáze ~ Evidence lidí peněz věcí... výběry, výpisy, početní úkony Slide 3 Pojmy tabulka, pole, záznam

Více

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci

Více

Základní registry veřejné správy RÚIAN a ISÚI

Základní registry veřejné správy RÚIAN a ISÚI Základní registry veřejné správy RÚIAN a Jiří Formánek Český úřad zeměměřický a katastrální (ČÚZK) RÚIAN registr územní identifikace Projekt Vybudování Registru územní identifikace, adres a nemovitostí

Více

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových

Více

Reklamní právo v prax Zpracování osobních údajů v zákaznických centrech CONTACT CENTER DAY

Reklamní právo v prax Zpracování osobních údajů v zákaznických centrech CONTACT CENTER DAY Reklamní právo v prax Zpracování osobních údajů v zákaznických centrech CONTACT CENTER DAY Petr Kůta Mgr. Libor Štajer, advokát 24.09.2013 ÚOOÚ A PRAXE OCHRANA OSOBNÍCH ÚDAJŮ OBLAST, KTERÁ SE NEUSTÁLE

Více

Postup při zápisu údajů do AIS EO. soudy prvního stupně. změny ve formulářích CzechPOINT. verze Zpracoval: odbor správních činností

Postup při zápisu údajů do AIS EO. soudy prvního stupně. změny ve formulářích CzechPOINT. verze Zpracoval: odbor správních činností Postup při zápisu údajů do AIS EO soudy prvního stupně změny ve formulářích CzechPOINT verze 1.00 Zpracoval: odbor správních činností Zápis údajů do AIS evidence obyvatel soudy prvního stupně prostřednictvím

Více

N á v r h ZÁKON. ze dne

N á v r h ZÁKON. ze dne N á v r h ZÁKON ze dne.... 2018 o přístupnosti internetových stránek a mobilních aplikací a o změně zákona č. 365/2000 Sb., o informačních systémech veřejné správy a o změně některých dalších zákonů, ve

Více

TEZE K DIPLOMOVÉ PRÁCI. Reklama na internetu

TEZE K DIPLOMOVÉ PRÁCI. Reklama na internetu ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE Provozně ekonomická fakulta Katedra informačních systémů TEZE K DIPLOMOVÉ PRÁCI Reklama na internetu Vedoucí práce: Ing. Jarolímek Praha, 2005 Internet jako nejmladší

Více

Zásady ochrany soukromí GDPR

Zásady ochrany soukromí GDPR Zásady ochrany soukromí GDPR 1. Obecná ustanovení a kontaktní údaje Tyto zásady ochrany osobních údajů (dále jen zásady) se vztahují na osobní údaje, které Petr Srnka - BESTON jakožto správce údajů /dále

Více

Kvalita a správa dat Data Quality

Kvalita a správa dat Data Quality Kvalita a správa dat Data Quality Analýza a optimalizace procesů a řízení společnosti 20. dubna 2010 Poradenské služby Agenda Strana 1 Souvislost kvality dat a procesů 1 2 Čištění dat 7 3 Náš přístup 14

Více

Zásady ochrany osobních údajů

Zásady ochrany osobních údajů Zásady ochrany osobních údajů Informace ke zpracování osobních údajů Obec Žitenice jako právnická osoba i jako orgán veřejné moci zpracovává osobní údaje a plní při tom povinnosti správce, případně zpracovatele,

Více

ZÁSADY ZPRACOVÁNÍ OSOBNÍCH ÚDAJŮ (OBCHODNÍ PARTNEŘI, NOVINÁŘI, KONTAKTNÍ OSOBY, OHLAŠOVATELÉ VÝPADKŮ SLUŽEB)

ZÁSADY ZPRACOVÁNÍ OSOBNÍCH ÚDAJŮ (OBCHODNÍ PARTNEŘI, NOVINÁŘI, KONTAKTNÍ OSOBY, OHLAŠOVATELÉ VÝPADKŮ SLUŽEB) Technologie hlavního města Prahy, a.s. IČO: 25672541 se sídlem Dělnická 213/12, Holešovice, 170 00 Praha 7 ZÁSADY ZPRACOVÁNÍ OSOBNÍCH ÚDAJŮ (OBCHODNÍ PARTNEŘI, NOVINÁŘI, KONTAKTNÍ OSOBY, OHLAŠOVATELÉ VÝPADKŮ

Více

Jednoznačná identifikace jako předpoklad funkčního e-health. Matěj Adam

Jednoznačná identifikace jako předpoklad funkčního e-health. Matěj Adam Jednoznačná identifikace jako předpoklad funkčního e-health Matěj Adam Izolovaná datová sila Pacientská data jsou v izolovaných systémech Problém se ale týká i dalších entit: Zdravotničtí pracovníci Dodavatelé

Více

Role BI v e-business řešeních pohled do budoucnosti

Role BI v e-business řešeních pohled do budoucnosti Ing. Ota Novotný, Ph.D. katedra informačních technologií Vysoká škola ekonomická v Praze novotnyo@vse.cz katedra informačních technologií VŠE Praha jsme uznávanou autoritou v oblasti aplikované informatiky

Více

Administrativní pokyny pro aplikaci Madridské dohody o mezinárodním zápisu známek a Protokolu k této dohodě

Administrativní pokyny pro aplikaci Madridské dohody o mezinárodním zápisu známek a Protokolu k této dohodě Administrativní pokyny pro aplikaci Madridské dohody o mezinárodním zápisu známek a Protokolu k této dohodě (ve znění platném k 1. listopadu 2017) Obsah První část - Definice... 2 Kapitola 1: Zkrácené

Více