Datvá kvalita RNDr. Ondřej Zýka ndrej.zyka@prfinit.eu 2014 Prfinit. All rights reserved.
Datvá kvalita Jedna z kmpetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě ptřebné k jejich činnsti Kvalita dat: Subjektivní pjem závislý na pžadavcích a zkušensti uživatelů, na způsbu pužití dat Kvalita dat není dána jejich strukturu neb ulžením. 2014 Prfinit. All rights reserved. 2
Dimenze datvé kvality Dimenze Dstupnst Odpvídající velikst a granularita dat Věrhdnst Úplnst Výstižná reprezentace Knzistentní reprezentace Snadnst zpracvání Bezchybnst Interpretvatelnst Objektivita Relevantnst Reputace Bezpečnst Včasnst Srzumitelnst Přidaná hdnta 2014 Prfinit. All rights reserved. Ppis Zda jsu infrmace k dispzici neb snadn získatelné Zda velikst dat a jejich granularita dpvídá vyknávaným úlhám Zda jsu infrmace pkládány za pravdivé a důvěryhdné Zda žádná data nechybí a zda jsu dstatečné rzsáhlá a detailní pr vyknávané úlhy Zda reprezentace dat má vhdnu strukturu Zda jsu data reprezentvána vždy ve stejném frmátu Zda jsu infrmace snadn zpracvatelné a pužitelné pr rzdílné úlhy Zda jsu infrmace a data přesné a hdnvěrné Zda je jasná definice infrmací, zda jsu v dpvídajícím jazyku, jedntkách a zda jsu značeny správnými symbly Zda jsu infrmace nestranné a nepředpjaté Zda jsu infrmace pužitelné a užitečné pr vyknávané úlhy Zda jsu infrmace pvažvány za splehlivé v suvislsti s jejich zdrjem neb bsahem Zda mezení přístupu k datům a infrmacím dpvídá bezpečnstním pravidlům Zda jsu pr vyknávané úlhy infrmace k dispzici včas Zda jsu infrmace snadn pchpitelné a srzumitelné Zda a která data a infrmace jsu přínsné a jaké jsu výhdy jejich pužití 3
Základní tázky datvé kvality Kdy jsu data kvalitní? Kdy jsu data nekvalitní? Jak prkázat, že jsu data kvalitní? Jak zvýšit kvalitu dat? Pzrvání Ddavatelé dat becně nemají mc důvdů prdukvat bezchybná data. Nekvalitní data vytváří nesmírnu frustraci uživatelů dat. Kvalita dat se nedá dsáhnut puze prstředky IT. Příklady adresa@naznama.cz Rdné čísl 2014 Prfinit. All rights reserved. 4
Kdy jsu data kvalitní? 2014 Prfinit. All rights reserved. 5
Kdy jsu data nekvalitní? Management a Finance Marketing Vlastníci systémů IT Nutnst udržvat velké finanční neb technické rezervy Nepřesná segmentace zákazníků Duplicity v datech Vyská nárčnst nalezení pžadvaných infrmací Neknzistentní reprty napříč rganizací Drahé a neúčinné kampaně Neknzistence mezi systémy Nemžnst dhledání půvdu dat a zdpvědných pracvníků Reprty s nedůvěryhdnými daty Nízká kvalita služeb pr zákazníky Chybějící neb nedhledatelné údaje Nespkjenst uživatelů s ddávanými infrmacemi Rzhdnutí učiněná na základě špatných infrmací Nepřádek v zákaznických datech Zastaralé infrmace Neschpnst řešit knzistentně vady v datech 2014 Prfinit. All rights reserved.
Příznaky nekvality v datech? Reprty nejdu prvnat Pracvníci si vedu sukrmé agendy Pracvníci si nechávají výsledky kntrlvat 2014 Prfinit. All rights reserved. 7
Prč se zabývat datvu kvalitu Výskyt chyb v datvé kvalitě Nespkjenst uživatelů Legislativní pžadavky, pžadavky regulátrů Slvency II Basel II, Basel III 2014 Prfinit. All rights reserved. 8
Jak prkázat kvalitu dat? C t je za čísl? Jak vznikl? Kd t kntrlval? Byla pužita všechna data? Byla pužita aktuální data?????? 2014 Prfinit. All rights reserved. 9
Jsu nastaveny prcesy a plitiky Je definvána plitika datvé kvality Je definvána rganizace DQ Rle Jb descriptin Accuntability and respnsibility assignment Jsu vytvřeny a udržvány slvníky DQ Definice dat Ppis dat a datvých tků Stanvení metrik datvé kvality pr jedntlivé prvky Jsu nastaveny prcesy DQ Nastaven měření a reprting datvé kvality Nastaven prces řízení chyb v datvé kvalitě Identifikace, dhad dpadů, definice nápravy, hdncení nápravy, prava dat, dkumentace pravy Nastaven prces DQ peratin 2014 Prfinit. All rights reserved. 10
Slvníky datvé kvality Definice na bchdní úrvni Definice na technické úrvni Míst a frmát ulžení Vlastník - Zdpvědná sba Parametry důležitsti, bezpečnsti, aktuálnsti, 2014 Prfinit. All rights reserved. 11
Metriky datvé kvality Technické Data mají přípustné hdnty, čekávaný frmát, phybují se v přípustném rzsahu, jsu jednznačné pkud je t pžadván, existují dpvídající záznamy v jiných systémech Významvé Hdnty, pčty a sumy jsu knzistentní v čase. Prvnání s histrickými daty a benchmarky nevykazuje nedůvdněné dchylky. Existuje pžadvaná knzistence mezi různými záznamy a hdntami. Pžadavek Kntrakt musí mít definván Plitiku zajištění Metrika Prcent kntraktů s vyplněným parametrem Plitika zajištění Treshlds OK > 99% Failed < 95 % Baseline 96,2 % 2014 Prfinit. All rights reserved. 12
Metriky DQ Pčet nt null hdnt Čísla Rzsah Histgram Přesnst Speciální hdnty (0, 1, 100, 10,..) Řetězce Délka Vzry, hdnty extrémních vzrů Minimum a maximum Vazby Pčet nepužitých cizích klíčů Histgram pužití cizích klíčů Pčet neexistujících cizích klíčů 2014 Prfinit. All rights reserved. 13
Prfiling měření DQ metrik Technický Uživatelský Speciální 2014 Prfinit. All rights reserved. 14
Data Prfiling 2014 Prfinit. All rights reserved. 15
Ppis datvých tků Zdrje dat Datvé úlžiště Transfrmační prcesy Zdpvědnsti (vlastnictví dat) Místa předání zdpvědnstí Ruční zásahy 2014 Prfinit. All rights reserved. 16
DQ měření a reprtvání 2014 Prfinit. All rights reserved. 17
Jak prkázat kvalitu dat? Udělal jsem všechn pr t, abych číslu mhl věřit. 2014 Prfinit. All rights reserved. 18
Důvdy nekvalitních dat Puze dva zdrje znečištění dat Na vstupu Uživatelé Zdrjvé systémy Zastarávání dat Deset let starý telefnní seznam nebsahuje kvalitní data 2014 Prfinit. All rights reserved. 19
Kdy a jak čistit data Vždy je mžné zlepšit kvalitu dat Pkud si nikd nestěžuje, nemá smysl investvat zvyšvání kvality dat Pkud se bjeví prblém s datvu kvalitu, je nutné prvnávat přínsy a náklady čištění 2014 Prfinit. All rights reserved. 20
Jak zvýšit kvalitu dat? Čištění dat Neexistuje jedn správné řešení Obecně data nejdu vyčistit Čtyři základní metdy Nechat kvalitu dat na uživateli nečistit Jednrázvé čištění Čistění příchzích dat Čištění pužívaných dat Nalezení a úprava znečišťvatele Vzdělávání uživatelů a půvdců dat Příklad (vda v jezeře) 2014 Prfinit. All rights reserved. 21
C si zapamatvat C t je datvá kvalita Jak se pzná, že jsu data kvalitní Kd a jak pzná, že jsu data nekvalitní Jaké metdy se pužívají pr čištění dat Kde a jak vzniká nekvalita dat C t jsu dimenze datvé kvality C t je prfiling dat Jak se dá prkázat, že jsu infrmace získaná z dat kvalitní 2014 Prfinit. All rights reserved. 22
2014 Prfinit. All rights reserved. Diskuse