Správa dat v podniku RNDr. Ondřej Zýka 1
Obsah Důležité oblasti pro správu, uchovávání a využívání dat v podniku Něco z historie Řízení dat na úrovni podniku Data management a kategorizace dat Datová kvalita Datové toky Metadata 2
Historie Relační model Edgar Frank Codd 1969 - Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks Relační model matematický model pro ukládání a správu dat Tří hodnotová logika True, False, Unknown SQL 1970 - Donald Chamberlin, Raymond F. Boyce SEQUEL (Structured English Query Language) IBM - První návrh 1979 první komerční implementace Oracle V2 (Relation software) 3
Historie 1969 Codd - Relační model 1970 Chamberlin, Boyce SQL 1979 Oracle 2, basic SQL, no transaction 1980 HW - První gigabajtový disk, váha 250 kg, cena $40,000 1981 HW - 640Kb RAM je dost pro každého (??Gates) 2GB efektivně Windows 32 bit 1983 Oracle 3 - transaction 1984 Oracle 4 read-consistency 1984 Sybase founded by Mark Hoffman and Bob Epstein in Berkeley 4
Historie 1985 Oracle 5 networking, client-server 1986 HW - Standartizace SCSI 1988 Oracle 6 PL/SQL, row level locking, hot backup 1987 Sybase - formally released the SYBASE, Client-server, Transact SQL, 1988 Sybase/Microsoft - sdílení kódu s firmou Microsoft (od roku 86) 1991 HW 2.5" 100MB disk 1992 Oracle 7 referencial integrity, triggers 1993 Microsoft Win NT 4.21 1993 Sybase/Microsoft ukončení smlouvy 5
Historie 1995 Microsoft SQL Server 6.0 1998 Sybase 11.9.2 row-lewel locking 1998 Microsoft SQL Server 7.0 1999 Oracle 8i java 1999 HW IBM 170MB a 340MB disky 2000 Microsoft SQL Server 2000 2001 Oracle 9i XML, RAC 2001 Sybase 12.5 XML, EJB 2003 Oracle 10 grid computing, flash back 6
Historie 2003 Windows Server 2003-64-bit system - překročení 2GB hranice RAM 2005 Sybase 15 new query-optimalizator, Cluster edition 2005 Microsoft SQL Server 2005 2005 HW 500GB disk (Hitachi GST) 2007 Oracle 11 Exadata 2007 HW 1TB disk (Hitachi GST) 2008 SQL Server 2008 2009 HW SSD nyní 64 GB 300MB/sec (3000MB/sec.) 2010 Microsoft SQL Server 2008R2 7
Diskové kapacity (Wikipedia) 8
Další vlivy na vývoj Historie Operační systémy a jejich unifikace Procesory zejména IBM, SUN, HP Diskové pole RAID Sítě, přenosové kapacity a Internet GUI a Microsoft Windows jako klientský systém 9
Data v organizaci Desítky (stovky) systémů Každý systém pracuje s daty Většina systémů má data v databázi (relační) Většina systémů vyměňuje data s jinými systémy Data jsou cenným majetkem organizace Jako budovy, stroje, lidé, Vyžadují správu Data managament 10
Data management Pravidla Zodpovědnosti Pravidla pro vývoj Jmenné konvence Definice dat Bezpečnostní pravidla Požadavky na kvalitu dat Provozní pravidla Procesy Plánovací Řídící Vývoj Provoz Technologie Systémy pro správu dat (Databáze) Zálohovací systémy Metadata management systems Systémy pro správu událostí 11
Kategorizace dat Organizační struktury Vlastníci dat (Data steward) Data Stewardship Committee BI oddělení Oddělení bezpečnosti Oddělení (datové) kvality Databázoví administrátoři Kultura organizace Plán vývoje a údržby IT architektura Datová architektura 12
Hierarchie moudrosti Russell Ackoff (1989) Data Informace Pokud jsme schopni odpovědět na otázky kdo?, co?, kde? a kdy? Pochopení vztahů Znalosti Porozumění jak? Pochopení vzorců Moudrost Porozumět proč? Pochopení principů 13
DAMA DMBOK Guide 14
Podle struktury Strukturovaná Data s přesně definovanou strukturou Uložená v databázích (relačních) Semistrukturovaná Obsahují datové elementy Nemají pevnou strukturu XML, SWIFT, HL7 EDI, SITA message Nestrukturovaná data Dokumenty Smlouvy Objednávky Předpisy Email Obsah webů Prezentace 15
Malcolm Chisholm: The 6 Layers of Data 16
Datová kvalita Vlastnost dat, která není daná jejich strukturou nebo uložením Podstatná vlastnost pro hodnotu dat Malá vypovídací hodnota Chybné výsledky Může se měnit časem bez zásahu do dat Deset let starý telefonní seznam má malou datovou kvalitu 17
Datová kvalita Data are of high quality if those who use them say so. Data quality is not a concept that makes sense in the average. Thomas C. Redman: Data quality: the field guide 18
Datová kvalita Co má vyšší kvalitu, VW Brouk nebo Cadillac? VW má méně závad Cadillac je luxusnější, lépe se řídí VW potřebuje menší prostor na zaparkování Cadillac je pohodlnější, vejde se do něho více zavazadel Brouk má menší spotřebu Různí uživatelé mají různé požadavky. Kvalita je ovlivněna osobním pohledem. Poměrně málo lidí se obtěžuje analýzou publikovaných statistik. 19
Datová kvalita Dodavatelé dat obecně nemají moc důvodů produkovat bezchybná data. Nekvalitní data vytváří nesmírnou frustraci uživatelů dat. Kvalita dat se nedá dosáhnout pouze prostředky IT systémů. adresa@naznama.cz Rodné číslo 20
Jak vyčistit jezero 1. přístup Ignorujte znečištění Potrestejte každého, kdo onemocní po užití vody z jezera Přeneste problém na uživatele. 21
Jak vyčistit jezero? 2. přístup Přefiltrujte vodu Odstraňte nečistoty Vraťte vodu do jezera 3. přístiup Filtrujte malé množství vody každý den Filtrujte přitékající vodu Filtrujte vodu kterou budete používat Jednorázové vyčištění Použití pouze aktuálních dat Nasazení nástrojů 22
4. přístup Jak vyčistit jezero? Najděte znečišťovatele Odstraňte je nebo je upravte tak aby neprodukovali znečištění Předcházení budoucích chyb 23
Závěr Datová kvalita Neexistuje jednoduché řešení Nutná spolupráce IT i uživatelů IT procesy (integrace) často znečišťují data Je nutné měřit kvalitu dat Je nutné mít popsaná data (existence metadat) Data nevypadají tak, jak jsem očekával 24
Metadata Metadata jsou data popisující data. Mohou být reprezentovány jednoduchým popisem, ale také složitou strukturou. Metadata jsou strukturované informace, které nám umožňují najít informace o datech, spravovat je, kontrolovat je a porozumět jim. Příklady Informace o datových entitách v databázi Informace o jednotlivých záznamech Dokumenty autor, abstrakt, obsah, klíčová slova, dostupnost, platnost, Fotografie místo pořízení, velikost, formát uložení, Informace o datových fragmentech Tagy v XML 25
Chybějící metadata 26
Informace o datových entitách Popisná metadata Definiční role metadat Administrativní metadata Jak často se mění, Jak moc jsou důležitá, Kdo je za data zodpovědný vlastník, bezpečnost, zálohování, Strukturální metadata Datové typy, Datové konvence, Vazby mezi entitami, Validační pravidla, Technická metadata Databáze, Schema, Synonyma, Přístupová práva, Partitioning, Fyzické parametry uložení 27
Informace o datových entitách Aplikační metadata Vazba na aplikace, Název polí ve formulářích, Požadavky na zobrazení, Validační pravidla na úrovni aplikací, Které reporty data používají, Definice reportů, Další vlastnosti reportů Vazby mezi aplikacemi Jak se data předávají mezi aplikacemi ETL procesy Vazby mezi jednotlivými entitami Statické Dynamické 28
Práce s metadaty Shromažďování Automatické Ruční Integrace a ukládání Metadata management systems Analýza Prezentace Definice Modely Transformace 29
Metadata - analýza Historie Kdo a kdy naposledy upravil proceduru procedure_name tak, že nepoužívá tabulku table_name? Data Lineage Upstream Které aplikace používají centrálních číselník měn? Downstream Která všechna data se podílejí na ohodnocení spolehlivosti dodavatele? Inpact analysis Které všechny tabulky a aplikace se budou muset upravit, když přejdeme z kódování ISO88592 na kódování UTF8? Pokud místo Y/N začneme používat A/N, co všechno musíme zkontrolovat? 30
Lineage analýza Metadata - analýza Katalóg Where used analýza 31
Literatura Ackoff, Russell (1989). "From Data to Wisdom". Journal of Applied Systems Analysis 16: 3 9. http://www.dama.org http://www.datagovernance.com/ http://www.dqguide.com/ Thomas C. Redman: Data quality: the field guide 32