Správa dat v podniku MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu
Obsah o Důležité oblasti pro správu, uchovávání a využívání dat v podniku Něco z historie Řízení dat na úrovni podniku Data management a kategorizace dat
Historie o Relační model o SQL Edgar Frank Codd 1969 - Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks Relační model matematický model pro ukládání a správu dat Tří hodnotová logika True, False, Unknown 1970 - Donald Chamberlin, Raymond F. Boyce SEQUEL (Structured English Query Language) IBM - První návrh 1979 první komerční implementace Oracle V2 (Relation software)
Historie 1969 Codd - Relační model 1970 Chamberlin, Boyce SQL 1979 Oracle 2, basic SQL, no transaction Založení Teradata 1980 HW - První gigabajtový disk, váha 250 kg, cena $40,000 1981 HW - 640Kb RAM je dost pro každého (??Gates) 2GB efektivně Windows 32 bit 1983 Oracle 3 - transaction 1984 Oracle 4 read-consistency 1984 Sybase founded by Mark Hoffman and Bob Epstein in Berkeley 1985 Oracle 5 networking, client-server 1986 HW - Standartizace SCSI 1988 Oracle 6 PL/SQL, row level locking, hot backup 1987 Sybase - formally released the SYBASE, Client-server, Transact SQL,
Historie 1988 Sybase/Microsoft - sdílení kódu s firmou Microsoft (od roku 86) Teradata ve spolupráci NCR uvádí databázový počítač 1991 HW 2.5" 100MB disk 1992 Oracle 7 referencial integrity, triggers 1993 Microsoft Win NT 4.21 1993 Sybase/Microsoft ukončení smlouvy 1995 Microsoft SQL Server 6.0 1998 Sybase 11.9.2 row-lewel locking 1998 Microsoft SQL Server 7.0 1999 Oracle 8i java Teradata- největší zákaznická produkční databáze 130 TB 1999 HW IBM 170MB a 340MB disky 2000 Microsoft SQL Server 2000 2001 Oracle 9i XML, RAC
2001 Sybase 12.5 XML, EJB 2003 Oracle 10 grid computing, flash back 2003 Windows Server 2003-64-bit system - překročení 2GB RAM 2005 Sybase 15 new query-optimalizator, Cluster edition 2005 Microsoft SQL Server 2005 2005 HW 500GB disk (Hitachi GST) 2007 Oracle 11 Exadata 2007 HW 1TB disk (Hitachi GST) 2008 SQL Server 2008 2009 HW SSD nyní 64 GB 300MB/sec (3000MB/sec.) 2010 Microsoft SQL Server 2008R2 Oracle kupuje SUN SAP kupuje Sybase EMC kupuje Greenplum IBM kupuje Netezza
Diskové kapacity (Wikipedia)
Historie o Další vlivy na vývoj Operační systémy a jejich unifikace Procesory zejména IBM, SUN, HP Diskové pole RAID Sítě, přenosové kapacity a Internet GUI a Microsoft Windows jako klientský systém
Data v organizaci o Desítky (stovky) systémů Každý systém pracuje s daty Většina systémů má data v databázi (relační) Většina systémů vyměňuje data s jinými systémy o Data jsou cenným majetkem organizace Jako budovy, stroje, lidé, Vyžadují správu Data managament
Velikost dat 10
Různorodost dat 11
Rychlost změny 12
Zákazníci a uživatelé ODS Operační data MDM Datová kvalita Integra ce DWH Jednotný model Kompletní historie Integrovaná data Byznys, technologická a provozní metadata Governance pravidla, organizační struktura, procesy
Prostředí datově orientovaného systému Etapy životního cyklu Komponenty Skupiny uživatelů Plánování Vývoj Testování Provozování Udržování Ukončení používání Aplikační programy Interface DBMS Data Hardware Vlastníci aplikace Architekti (IT, Aplikační, ) Datový architekt Vývojáři Administrátoři databází Systémoví administrátoři Koncoví uživatelé
Data management Data Management International www.dama.org
Data management o o o Pravidla Zodpovědnosti Pravidla pro vývoj Jmenné konvence Definice dat Bezpečnostní pravidla Požadavky na kvalitu dat Provozní pravidla Procesy Plánovací Řídící Vývoj Provoz Technologie Systémy pro správu dat (Databáze) Zálohovací systémy Metadata management systems Systémy pro správu událostí
Kategorizace dat o Organizační struktury Vlastníci dat (Data owner) Data Stewardship Data Stewardship Committee BI oddělení Oddělení bezpečnosti Oddělení (datové) kvality Databázoví administrátoři o Kultura organizace o Plán vývoje a údržby IT architektura Datová architektura
Information Capability Framework Gartner, www.gartner.com
Malcolm Chisholm: The 6 Layers of Data
Podle struktury o Strukturovaná Data s přesně definovanou strukturou Uložená v databázích (relačních) o Semistrukturovaná Obsahují datové elementy Nemají pevnou strukturu XML, SWIFT, HL7 EDI, SITA message o Nestrukturovaná data Dokumenty Smlouvy Objednávky Předpisy Email Obsah webů Prezentace
DAMA DMBOK Guide
Hierarchie moudrosti o Russell Ackoff (1989) Data Informace Pokud jsme schopni odpovědět na otázky kdo?, co?, kde? a kdy? Pochopení vztahů Znalosti Porozumění jak? Pochopení vzorců Moudrost Porozumět proč? Pochopení principů
Co si zapamatovat o Co to je data management o Z jakých oblastí se skládá řízení dat o Co to "Information Capability Framework" a které základní schopnosti jsou nutné pro správu a využití dat o Jaké dělení dat v organizaci se používají o Jaký je rozdíl mezi daty, informacemi a znalostmi
www.profinit.eu Diskuse