Konsolidovaná klientská data, kterým důvěřujete Michal Gürtner Client Technical Professional IBM Software Group Email: michal_gurtner@cz.ibm.com Mobile: +420.733.149.616
Agenda Information Governance Definice a porozumění datovým zdrojům Standardizace a čištění dat Datové transformace Přenesení dat do cílového úložiště Správa terminologie a metadat Master Data Management (MDM) Co vlastně MDM znamená? Architektura Master data Funkcionalita Uživatelské prostředí IBM InfoSphere MDM v10 živá ukázka 2
Information governance Nemohu udělat strategické rozhodnutí, nemám dostatečné informace ředitel Rád bych pomohl zlepšit datovou kvalitu, neznám ale kontext správce dat Nemám kompletní přehled o nákupech zákazníků obchodník Množství datových zdrojů, systémů jak je efektivně propojit? architekt Potřebuji detailně porozumět a zmapovat datové zdroje datový analytik Cože to vlastně mám vyvinout, jak se co počítá? vývojář 3
Information governance Transakční aplikace Integrace Analýza Analytické aplikace Správa Ověřené data Big Data Kostky Data Datové sklady Streams Informace Připravenost Management Kvalita Životní cyklus Bezpečnost Standardy 4
Úplné porozumění Vašim datům a datovým zdrojům Před tím, než se začnete zabývat tím, co s daty dělat, je vhodné vědět Co za data máte skutečně k dispozici Jestli jsou tím, čím se zdají být nebo co o nich někdo tvrdí Proboha, kdo dal do té cukřenky SŮL!!!? 5 5
Úplné porozumění Vašim datům a datovým zdrojům Cíl: Analýza datových zdrojů sloupců, primárních klíčů cizích klíčů a domén jednotlivých sloupců zkoumání další závislostí mezi sloupci a tabulkami Zjištění překryvů dat Definice objektů pro archivování a testování Definice objektů se sensitivními údaji Unifikace datových modelů Konkurenční výhoda Pracuje napříč různými datovými zdroji Automatické provádění, detekce ale i návrhy Odhalení logiky transformací Analýza sloupců Discover Data Growth Privacy Consolidate Dat. tabulka n Dat. tabulka 2 Dat. tabulka 1 Analýza primárních klíčů Analýzy závislostí mezi tabulkami 6 6
Úplné porozumění Vašim datům a datovým zdrojům Krok 1: Analýza dat - na základě porovnání hodnot v řádcích objevujeme sloupce, které si v různých datových zdrojích odpovídají: Member (Tabulka 1) = ID (Tabulka 25) Tabulka 1 Row Member SS # Age Phone Sex 1 595846226 123-45-6789 15 (123) 456-7890 M 2 567472596 138-27-1604 8 (138) 271-6037 F 3 540450091 154-86-4196 22 (154) 864-1961 M 4 514714372 173-44-7900 55 (173) 447-8996 F 5 490204164 194-26-1648 4 (194) 261-6476 F 6 466861109 217-57-3046 66 (217) 573-0453 M Tabulka 25 ID Col1 514714372 3 444629628 3 540450091 2 567472596 1 423456789 2 490204164 1 987,623 444629628 243-68-1812 25 (243) 681-8107 F 987,624 423456789 272-92-3629 87 (272) 923-6280 M 595846226 0 466861109 0 7
Úplné porozumění Vašim datům a datovým zdrojům Krok 2: Záznamy srovnány -> analýza datových hodnot automaticky odhalí komplexní business pravidla a transformace: Case: If age<18 and Sex=M then 0 If age<18 and Sex=F then 1 If age>=18 and Sex=M then 2 If age>=18 and Sex=F then 3 = Col1 Tabulka 1 Tabulka 25 Row Member SS # Age Phone Sex ID Col1 1 595846226 123-45-6789 15 (123) 456-7890 M 2 567472596 138-27-1604 8 (138) 271-6037 F 3 540450091 154-86-4196 22 (154) 864-1961 M 4 514714372 173-44-7900 55 (173) 447-8996 F 5 490204164 194-26-1648 4 (194) 261-6476 F 6 466861109 217-57-3046 66 (217) 573-0453 M 595846226 0 567472596 1 540450091 2 514714372 3 490204164 1 466861109 0 987,623 444629628 243-68-1812 25 (243) 681-8107 F 987,624 423456789 272-92-3629 87 (272) 923-6280 M 444629628 3 423456789 2 8
Úplné porozumění Vašim datům a datovým zdrojům Krok 3: Díky již odhaleným business pravidlům provedeme další analýzu dat s cílem zjistit dosud neznáme nekonzistentní datové hodnoty Case: If age<18 and Sex=M then 0 If age<18 and Sex=F then 1 If age>=18 and Sex=M then 2 If age>=18 and Sex=F then 3 = Col1 Tabulka 1 Tabulka 25 Row Member SS # Age Phone Sex ID Col1 1 595846226 123-45-6789 15 (123) 456-7890 M 2 567472596 138-27-1604 8 (138) 271-6037 F 3 540450091 154-86-4196 22 (154) 864-1961 M 4 514714372 173-44-7900 55 (173) 447-8996 F 5 490204164 194-26-1648 4 (194) 261-6476 F 6 466861109 217-57-3046 66 (217) 573-0453 M 987,623 444629628 243-68-1812 25 (243) 681-8107 F 987,624 423456789 272-92-3629 87 (272) 923-6280 M 595846226 0 567472596 1 540450091 2 514714372 3 490204164 1 466861109 0 444629628 3 423456789 2 Hit Rate: 98% 9
Úplné porozumění Vašim datům a datovým zdrojům Krok 1 Profilování zdrojů C1 A001 A002 Mainframe C2 C3 56 Chris Petr 25 Jan C4 A1 H1 C5 302 V Krči Main 5 Street Pravá 10 C4 C6 A1 H0 Generování statistik o překryvech dat Chybějící kritické datové elementy C003 E019 72 16 Carol Michal Becky Lucka I2 A1 Modletická 1389 Lublinská 2 I1 A1 SEQ A001 A002 C003 E019 CRM_HOST FN ST_ADDR Gdr Age Age S Chris Petr Tim Honza 103 V Krči Main 5 Street Washington Pravá 10 Ave Carol Michal 8900 Modletická Ocean 1389 Drive Becky Lucie 622 Lublinská Cree Drive 2 56 M 125 M 72 F 36 F 56 A1 125 H1 72 I2 36 A1 Key Community DW Addr NM T YRs A001 103 V Krči Main Street Christopher Péťa A-1 56 A002 65 Pravá Washington 10 Ave Jan H-1 25 C003 8900 Modletická Ocean 1389 Drive Carol Michal I I-2 72 E019 622 Lublinská Cree Drive Becky Lucie A-1 36 10
Úplné porozumění Vašim datům a datovým zdrojům Krok 2 Konsolidace atributů Krok 3 Nalezení podobných záznamů Krok 4 Stanovení důvěrných zdrojů Krok 5 Pravidla a dokumentace Source ID Name Address Age Status Mainframe A001 Petr V Krči 5 56 A1 Mainframe A002 Jan Pravá 10 25 H1 Mainframe C003 Michal Modletická 1390/3 72 I2 Mainframe E019 Lucka Lublinská 2 16 A1 Community_DW A001 Petr V Krči 5 56 A-1 Community_DW A002 Honza Pravá 10 25 H-1 Community_DW C003 Michal Modletická 1389 72 I-2 Community_DW E019 Lucie Lublinská 2 36 A-1 CRM_HOST A001 Péťa V Krči 56 A1 CRM_HOST A002 Jan Pravá Podolí 25 H1 CRM_HOST C003 Michal Modletická 72 I2 CRM_HOST E019 Lucie Lublincká 16 A1 11
Úplné porozumění Vašim datům a datovým zdrojům Source A001 ID Name Petr V krči 5 Address Age 56 Status A1 Group Petr Krok 6 Finální prototyp Hotová transformační logika pro MDM a jiné projekty A002 C003 Jan Pravá 10 25 Michal Modletická 1389/3 72 H1 I2 Jan Michal Typy projektů MDM Migrace Testování Archivace Fraud Bezpečnost E019 Lucka Lublinská 2 36 A1 Lucie 12
Datová (ne)kvalita Před tím, než začnete data využívat zajistěte jejich kvalitu Existují duplikáty? Jsou k dispozici poslední nejaktuálnější záznamy? Proboha, proč já jsem u doktora veden 2x!!!? 13 13
Typičtí znečisťovatelé dat Nedostatek standardů Nikdo neříká kam co a jak zadávat A když už to říká, tak v každém systému jinak Za jakých podmínek má vznikat nový záznam Filip Dušek Krnov 794 01, nám. Bří Synků 1187/12 p. Ing. Dušek náměstí bratří Synků 12, Krnov pan Dušek Krnov, náměstí bří Synků 1187 Zadávání dat do špatných polí Adresy v polích pro jména Zneužívání polí k jiným účelům Jana Novotná Průběžná 2243/48, Praha 10 Petra Švrčková Opavská 32, Ostrava - Poruba Překlepy M: 731 435 691 p.divný, Nové Strašecí, Hlavní 17 Jana Novotná Zázračná 6, Městec Králové 289 03 Jana Nocotná Yáyračná 6, Městec Králové 289 03 14 14
Zajištění kvalitních a věrohodných dat Databáze Čistící proces Aplikace Soubory 1. Zkoumání volných textových polí 2. Standardizace dat 3. Párování duplicitních dat 4. Definice přeživších záznamů MDM DB Databáze s konsolidovanými a unifikovanými daty Další zdroje Porozumění datovým zdrojům 15 15
Zkoumání volných textových polí 100% přehled o hodnotách ve volných textových polích Ověření / zjištění pravidel a zákonitostí uvnitř datových polí Odhalení trendů a potenciálních anomálií v datech Identifikace neplatných nebo implicitních hodnot Přináší komplexní porozumění datům v daném kontextu 16 16
Co je výstupem zkoumání voných textových polí? Tzv. pattern report - neztotožněné osoby obsahuje frekvenční rozdělení jednotlivých formátů Formát Příklad Výskytů Podíl F? Markéta Lazarová 98 123 75,48 %?F Polívka Bohuslav 13 232 10,18 % PF? Ing. Petr Skoumal 3 412 2,62 % F?G Jan Novák ml. 830 0,64 %...... F... First Name (křestní jméno) P... Name prefix (akadem. titul) G... Generation code (generace) 17 17
Standardizace dat Tato fáze má dva základní přínosy Normalizace hodnot v datových polích na standardní hodnoty; např.: Standardizace jmen = Pepa Josef Standardizace titulů = Inženýr Ing. Standardizace adres = náměstí bří Synků nám. bratří Synků Rozškatulkování hodnot z volných textových polí do polí více specifických Např. místo jednoho adresního pole vzniknou nová pole pro: Ulici Číslo popisné, číslo orientační Obec, PSČ,... 18 18
Jak může vypadat fáze standardizace dat? Vstupní soubor : 1. Adresnířádek 2. Adresnířádek Mahenova 1952/9 Krnov, 794 02 V Parku 4, Praha Trojmezní 1206, Šestajovice 250 92 Náměstí bratří Synků 12 Praha 4, 140 00 Lhota (u Přelouče), 267 13 Slunečná 529 Náměstí Hrdinů 1 Lhota u Opavy, 761 23 Výsledný soubor : Č. Popisné č.orien. Ulice Typ Obec číslo části PSČ 1952 9 Mahenova ulice Krnov 2 794 02 2294 4 V Parku ulice Praha 4 148 00 1206 Trojmezní ulice Šestajovice 250 92 243 12 nám. bří Synků náměstí Praha 4 140 00 529 Slunečná ulice Lhota 267 13 1 nám. Hrdinů náměstí Lhota 761 23 19 19
Párování duplicitních dat Tato fáze je jádrem celého čistícího procesu Zde se rozhoduje, zda-li dva či více záznamů odpovídá jedné entitě Čím se toto rozhodovánířídí? Pravidly Vašimy daty Jsou Jsou některé některé hodnoty důležitějsí než nežjiné? A jak? jak? M FREEMAN ČESKÁ 9 M FREEMAN HEZKÁ 9 M FREEMAN ČESKÁ 9 794 01 25.08.1972 M FREEMAN HEZKÁ 9 794 02 25.08.1972 Vzroste důvěryhodnost srovnání, když kdyžpřidám více více sloupců? A jak? jak? MICHAL FREEMAN ČESKÁ 9 794 01 25.08.1972 720825/1116 MICHAEL FREEMAN HEZKÁ 9 794 02 25.08.1972 720825/1116 20
Párování duplicitních dat systém vah Nástroj IBM používá pro párování metodu tzv. Pravděpodobnostního párování Vychází ze systému vah MICHAL TOMAN ČESKÁ 9 794 01 25.08.1972 720825/1116 MICHAEL TOMAN HEZKÁ 9 794 02 25.08.1972 720825/1116 +1 +8-3 +1 +10 +20 = 37 Pro každý sloupec, který chcete zohlednit při párování je potřeba nastavit: Souhlasnou váhu kladný příspěvek v případě, že se hodnoty shodují Nesouhlasnou váhu záporný příspěvek v případě, že se hodnoty neshodují Je možné zvolit jednu z 21 metod porovnání s různou tolerancí 21 21
Párování duplicitních dat rozdělení do bloků Často hledáme duplicitní záznamy mezi velkým objemem dat (miliony záznamů) Porovnání systémem každý s každým je výkonostně neefektivní Taky máte tak rádi párování ponožek? Jak hledáte k levé tu pravou? 22 22
Párování duplicitních dat grafické prostředí 23 23
Definice přeživších záznamů Volitelná fáze čistícího procesu Co je to přeživší záznam? Jedná se o nový záznam, který bude reprezentovat entitu s duplicitními záznamy Bude obsahovat maximální možnou množinu informací o dané entitě tyto informace budou odvozeny z odpovídajících existujících duplicitních záznamů 24 24
Typický příklad fáze specifikování přeživších záznamů Vstupní data (výstup z párování) Skup. Křestní jméno Příjmení Ulice č.p. č.o. Obec Číslo části PSČ 1 Martin Minařík Moskevská 897 1 Kladno 2 1 M. Minařík Moskevská 1 Kladno 272 02 13 Jan Malý V Parku 2294 Praha 148 00 13 Honza Malý V Parku 4 Praha 13 J. Malý V Parku 4 Praha 4 148 00 Zkonsolidovaný výstup Skup. Křestní jméno Příjmení Ulice č.p. č.o. Obec Číslo části PSČ 1 Martin Minařík Moskevská 897 1 Kladno 2 272 02 13 Jan Malý V Parku 2294 4 Praha 4 148 00 25 25
Zpřístupnění a transformace dat Nemanipulujte s daty ručně, využijte nástroj Zvládněte efektivně komplexnost a různorodost zdrojů Propojte Vaše systémy s partnery a registry Proboha, proč já mám jen lžíci a ne bagr!!!? 26 26
Zpřístupnění a transformace dat Zdroje Cíle Uživatel má k dispozici komfortní ETL nástroj CRM SCM ERP Business Intelligence SAS Co je to ETL? Extract Extrakce dat z nejrůznějších datových zdrojů Externí seznamy Distribuce HR Kontakty CRM Datový sklad Datové tržiště Datové tržiště Transform Transformace a obohacení dat Load Uložení dat do nejrůznějších datových zdrojů Účetnictví 27 27
Intuitivní grafické prostředí pro vytváření jobů 28 28
Data Partitioning A-F Transform Processor 1 Zdrojová data G-M N-T Transform Processor 2 U-Z Transform Processor 3 Transform Processor 4 Automatické rozložení dat na více částí Podpora partitioningu 4X rychlejší na 4 procesorech; 8X na 8 procesorech... 29
Ladění, debugging průběh 30
Agenda Information Governance Definice a porozumění datovým zdrojům Standardizace a čištění dat Datové transformace Přenesení dat do cílového úložiště Správa terminologie a metadat Master Data Management (MDM) Co vlastně MDM znamená? Architektura Master data Funkcionalita Uživatelské prostředí IBM InfoSphere MDM v10 živá ukázka 31
Master Data Management Pravidla a postupy pro vytvoření důvěryhodných informací Procesy a nástroje které definují a spravují master data Přístup, který pomáhá jednoznačně identifikovat a integrovat klíčová data Správa hlavních podnikových dat co umožňuje udržovat úplná a přesná data Master Data Management helps organizations perform better by creating a single coherent version of customers, products and suppliers Gartner InfoSphere MDM creates trusted views of master data customers, citizens, suppliers, locations, products, accounts & more for improving applications & business processes IBM 32 32
Master Data Management - předpoklady MDM systém ukládání a propagování správa, unifikace náhledy Zvládnout proces integrace a správy dat (Information governance) Porozumění datů Standardizace, čištění Transformace a doručení dat Dohody, dokumentaci Plán Dohody nad způsobem správy dat Dokumentace o zdrojích a jejich důvěryhodnosti, relevanci Nástroje a technologie pro Information governance 33 33
Co pro Vás MDM může znamenat? Výhody Nové obchodní příležitosti Úspěšnější cross-sell/up-sell Agilita rychlejší adaptace změnám Zvýšení efektivity Dodržení pravidel, zákona Cílené marketingové kampaně Nevýhody Neúplnéči nesprávné informace Špatná rozhodnutí z důvodu nepřesnho reportingu Problémy s nespokojeností zákazníků Zneužitíči ztráta dat Reputace na trhu 34 34
Master Data Osoby, role a vztahy Fyzické a právnické Dlužník, obchodník, poradce, externisté Rodiny, zaměstnavatelé, zájmové a jiné skupiny Lokace Adresy, obchodní místa, email, telefon Účty a transakce Účty, smlouvy Produkty a služby Produkty a služby Balíčky produktů, časově omezené nabídky Ostatní entity a relace Black list Provize Poradenství Dokumenty Produkty & služby Co Jak Účty & transakce Lokace Osoba & role Kdo 35 35
Master Data Management pohled na zákazníka Risk Profile Party Values Note / Alert Financial Account Profile Branch Manager - Jim Hughes Customer relationship manager Income Source Party Names Mrs. Jane Smith Employee Organization XYZ Co. Contact Method Home Phone Email Mass Affluent Segment Segmentation or Grouping Jane F. Smith Duplicate Suspect Solicitation Opt in/out Privacy Profile 123 Main Street Primary Residence Source Value Acxiom for household ID Mr. John Smith Husband Child, Daughter Household Member Jenny Smith 36 36 Household Group
Implementační architektura Consolidation Registry Co-existence Transaction Předpoklady Jasně definovaný účel Vytvoření centrálního referenčního úložiště nebo databáze Zajištění data governance Rozdíly mezi typy architektury Úrovní fyzického řešení master dat vs. virtuálně = odkazy Stupněm kdy lze pracovat transakčně s jinými systémy Jakým způsobem je řešeno párování dat 37
Implementační architektura tzv. Consolidation style MDM Implementation Style Consolidation Registry Co-existence Transaction Účel, použití Startovní bod Jednotný reporting Centralizovaná unifikovaná databáze Dávkový import MDM Datový Model Matching Governance Dávkový export 38
Implementační architektura tzv. Registry style MDM Implementation Style Consolidation Registry Co-existence Transaction Účel, použití Pohled na data z různých zdrojů v reálném čase Federace Neovlivňuje stávající aplikace Zdroj A MDM DB Reference Linky Zdroj B Virtuální pohled 39
Implementační architektura tzv. Co-existence style MDM Implementation Style Consolidation Registry Co-existence Transaction Dávkový import Účel, použití Propagace unifikovaných dat do klíčových systémů Částečné užití webových služeb Udržování všech cizích klíčů MDM Datový Model Matching Governance Application Aplikace B Aplikace C 40
Implementační architektura tzv. Transactional style MDM Implementation Style Application Consolidation Registry Co-existence Transaction Application Application Účel, použití Komplexní MDM systém běžící v reálném čase insert/update/delete pomocí webových služeb Práce se záznamy na úrovni atributů práva Plná podpora transakcí napříč systémy MDM Datový Model Matching Governance Application Aplikace B Aplikace C 41
IBM InfoSphere Master Data Management - živá ukázka 42
Master Data Management od IBM Podpora všech typů architektury ukládání a propagování správa, unifikace náhledy Kombinace architektur pro určité Domény Datové zdroje Aplikace Plná podpora Information Governance Integrace s ostatními produkty řady IBM InfoSphere Nadstandardní funkcionalita Správa terminologie a metadat Generátor uživatelských prostředí Out of box podpora produktového MDM Vizualizace Master Dat včetně vztahů, rolí aj. Global Name Recognition 43 43
Master Data Management správa terminologie a metadat Business Glossary Anywhere Vendor Management Vendor An organization with products to sell Vendor Registration Form An application form to become a registered vendor Vendor Questionnaire Vendor background and interest Vendor Status Description of the state of the relationship to the Vendor: Accepted Preferred Declined Discontinued 44 44
Shrnutí 45
IBM InfoSphere kompletní data governance a MDM řešení Testování Konsolidace aplikací Zvládněte Vaše IT Archivování dat Maskování dat Datová kvalita Integrace dat Master Data Management Datové sklady Business Glossary Metadata Workbench Discovery Analyzer Data Architect FastTrack DataStage QualityStage Optim Guardium MDM Identity Insight 46
Konsolidovaná klientská data, kterým důvěřujete Vaše otázky a komentáře Michal Gürtner Client Technical Professional IBM Software Group Email: michal_gurtner@cz.ibm.com Mobile: +420.733.149.616 InfoSphere Information Server & MDM Discovery, DataStage, QualityStage, MDM