Správa dat v podniku. RNDr. Ondřej Zýka



Podobné dokumenty
Správa dat v podniku. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Metadata. MI-DSP 2013/14 RNDr. Ondřej Zýka,

Metadata. RNDr. Ondřej Zýka

Information and Data Management. RNDr. Ondřej Zýka

Architektura DBMS. RNDr. Ondřej Zýka

Datová kvalita. RNDr. Ondřej Zýka

Architektura DBMS. RNDr. Ondřej Zýka

Metadata Profinit. All rights reserved.

Datová kvalita. RNDr. Ondřej Zýka

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Databáze v praxi. RNDr. Ondřej Zýka Principal Consultant

Databázové systémy úvod

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Databáze SQL SELECT. David Hoksza

BrightStor ARCserve Backup r Michal Opatřil - Consultant - michal.opatril@ca.com

Srovnání SQL serverů. Škálovatelnost a výkon. Express Workgroup Standard Enterprise Poznámky. Počet CPU bez limitu Obsahuje podporu

MBI - technologická realizace modelu

Základy informatiky. 06 Databázové systémy. Kačmařík/Szturcová/Děrgel/Rapant

Semináˇr Java X J2EE Semináˇr Java X p.1/23

Centralizace aplikací ve VZP

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

VYUŽITÍ REGIONÁLNÍCH FUNKCÍ A WWW ROZHRANÍ V INTEGROVANÉM KNIHOVNÍM SYSTÉMU KPWINSQL

PostgreSQL jako platforma pro datové sklady

Architektura DBMS. RNDr. Ondřej Zýka

Základy informatiky. 08 Databázové systémy. Daniela Szturcová

Tabulka Nabídková cena za předmět plnění *uchazeč vyplní cenu za celý kurz nebo cenu za 1 účastníka dle zadávací dokumentace a nabídky uchazeče

01. Kdy se začala formovat koncept relačních databází (Vznik relačního modelu, první definice SQL)? a) 1950 b) 1960 c) 1970 d) 1980

Architektury Informačních systémů. Jaroslav Žáček

Informace ke stavu celoměstsk xxx

Data v informačních systémech

Obsah přednášky. Představení webu ASP.NET frameworky Relační databáze Objektově-relační mapování Entity framework

PRODUKTY Tovek Server 6

Databáze II. 1. přednáška. Helena Palovská

Architektury Informačních systémů. Jaroslav Žáček

Databázové patterny. MI-DSP 2013/14 RNDr. Ondřej Zýka,

PODNIKOVÁ INFORMATIKA

Oracle XML DB. Tomáš Nykodým

Technická specifikace HW pro rok 2012

Mgr. Jan Folbrecht Senior softwarový inženýr, softwarový architekt, manažer

Datová úložiště. Zdroj: IBM

VÝZVA K PODÁNÍ NABÍDKY. Ukládání, zálohování a archivace dat

DATA ULOŽENÁ NA VĚČNÉ ČASY. (ICZ DESA / Microsoft Azure) Mikulov Michal Matoušek (ICZ) / Václav Koudele (Microsoft)

Databáze 2013/2014. Konceptuální model DB. RNDr. David Hoksza, Ph.D.

Webový knihovní systém. Ing. Jiří Šilha, LANius s.r.o.

Archivace relačních databází

IT 3. Projekt centrálního zálohovacího systému v ČSOB Pojišťovně. Michal Mikulík. špička v každém směru

Programování a implementace Microsoft SQL Server 2014 databází

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

Administrace a Enterprise vlastnosti. RNDr. Ondřej Zýka

Organizace a zpracování dat I (NDBI007) RNDr. Michal Žemlička, Ph.D.

PROGRAMÁTOR ANALYTIK. Náplň práce:

INTERNÍ TECHNICKÝ STANDARD ITS

Architektura DBMS. MI-DSP 2013/14 RNDr. Ondřej Zýka,

Ukládání a archivace dat

EXTRAKT z mezinárodní normy

Použití databází na Webu

Databázové systémy trocha teorie

Databázové patterny. RNDr. Ondřej Zýka

1. SYSTÉMOVÉ POŽADAVKY / DOPORUČENÁ KONFIGURACE HW A SW Databázový server Webový server Stanice pro servisní modul...

Novinky ve Visual Studio Tomáš Kroupa

Doporučeno pro předpokládané využití serveru pro zpracování 2000 dokumentů měsíčně. HW: 3GHz procesor, 2 jádra, 8GB RAM

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

Compatibility List. GORDIC spol. s r. o. Verze

Technologie. Osnovy kurzu: Školení správců systému. 1. den, dopolední blok

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Jalapeño: pekelně ostrá Java persistence v Caché. Daniel Kutáč Senior Sales Engineer

Databázové a informační systémy

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

Mapový server Marushka. Technický profil

Využití identity managementu v prostředí veřejné správy

UDS for ELO. Univerzální datové rozhraní. >> UDS - Universal Data Source

SQL - trigger, Databázové modelování

Systém pro evidenci a vyhodnocování hovorů

Information and Data Management Profinit. All rights reserved.

Databáze s tisíci uložených procedur. Pavel Bláhovec, DiS pavel@blahovec.cz

DOCUMENT MANAGEMENT TOOLKIT

MST - sběr dat pomocí mobilních terminálů on-line/off-line

Příloha č. 2A Zadávací dokumentace k Veřejné zakázce Dodávka technologického řešení pro Geoportál

Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB. Návrh realizace řešení

Vrstvy programového vybavení Klasifikace Systémové prostředky, ostatní SW Pořizování Využití

Programové prostředky IS/IT

Požadavky pro výběrová řízení TerraBus ESB/G2x

Business Intelligence

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Výměna Databázového serveru MS SQL

1. Příloha č.1. Specifikace požadovaných služeb Obecný popis

Nasazení EIS JASU CS na Českém úřadu zeměměřickém a katastrálním vč. podřízených organizací

Cloud Slovník pojmů. J. Vrzal, verze 0.9

Řešení Oracle pro Technologická centra ORP

Zadávací dokumentace na veřejnou zakázku malého rozsahu s názvem Obměna informačních technologií

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ

Alena Malovaná, MAL305

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Centrální elektronické podání. portál občana

Databáze v MS ACCESS

GeoPlan. Administrátorská příručka. Výstup byl vytvořen s finanční podporou TA ČR v rámci projektu TA Verze 1.0

Informační Systém pro Psychiatrii HIPPO

Nasazení EIS JASU CS v rezortu Ministerstva zdravotnictví ČR vč. všech podřízených OSS

Transkript:

Správa dat v podniku RNDr. Ondřej Zýka 1

Obsah Důležité oblasti pro správu, uchovávání a využívání dat v podniku Něco z historie Řízení dat na úrovni podniku Data management a kategorizace dat Datová kvalita Datové toky Metadata 2

Historie Relační model Edgar Frank Codd 1969 - Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks Relační model matematický model pro ukládání a správu dat Tří hodnotová logika True, False, Unknown SQL 1970 - Donald Chamberlin, Raymond F. Boyce SEQUEL (Structured English Query Language) IBM - První návrh 1979 první komerční implementace Oracle V2 (Relation software) 3

Historie 1969 Codd - Relační model 1970 Chamberlin, Boyce SQL 1979 Oracle 2, basic SQL, no transaction 1980 HW - První gigabajtový disk, váha 250 kg, cena $40,000 1981 HW - 640Kb RAM je dost pro každého (??Gates) 2GB efektivně Windows 32 bit 1983 Oracle 3 - transaction 1984 Oracle 4 read-consistency 1984 Sybase founded by Mark Hoffman and Bob Epstein in Berkeley 4

Historie 1985 Oracle 5 networking, client-server 1986 HW - Standartizace SCSI 1988 Oracle 6 PL/SQL, row level locking, hot backup 1987 Sybase - formally released the SYBASE, Client-server, Transact SQL, 1988 Sybase/Microsoft - sdílení kódu s firmou Microsoft (od roku 86) 1991 HW 2.5" 100MB disk 1992 Oracle 7 referencial integrity, triggers 1993 Microsoft Win NT 4.21 1993 Sybase/Microsoft ukončení smlouvy 5

Historie 1995 Microsoft SQL Server 6.0 1998 Sybase 11.9.2 row-lewel locking 1998 Microsoft SQL Server 7.0 1999 Oracle 8i java 1999 HW IBM 170MB a 340MB disky 2000 Microsoft SQL Server 2000 2001 Oracle 9i XML, RAC 2001 Sybase 12.5 XML, EJB 2003 Oracle 10 grid computing, flash back 6

Historie 2003 Windows Server 2003-64-bit system - překročení 2GB hranice RAM 2005 Sybase 15 new query-optimalizator, Cluster edition 2005 Microsoft SQL Server 2005 2005 HW 500GB disk (Hitachi GST) 2007 Oracle 11 Exadata 2007 HW 1TB disk (Hitachi GST) 2008 SQL Server 2008 2009 HW SSD nyní 64 GB 300MB/sec (3000MB/sec.) 2010 Microsoft SQL Server 2008R2 7

Diskové kapacity (Wikipedia) 8

Další vlivy na vývoj Historie Operační systémy a jejich unifikace Procesory zejména IBM, SUN, HP Diskové pole RAID Sítě, přenosové kapacity a Internet GUI a Microsoft Windows jako klientský systém 9

Data v organizaci Desítky (stovky) systémů Každý systém pracuje s daty Většina systémů má data v databázi (relační) Většina systémů vyměňuje data s jinými systémy Data jsou cenným majetkem organizace Jako budovy, stroje, lidé, Vyžadují správu Data managament 10

Data management Pravidla Zodpovědnosti Pravidla pro vývoj Jmenné konvence Definice dat Bezpečnostní pravidla Požadavky na kvalitu dat Provozní pravidla Procesy Plánovací Řídící Vývoj Provoz Technologie Systémy pro správu dat (Databáze) Zálohovací systémy Metadata management systems Systémy pro správu událostí 11

Kategorizace dat Organizační struktury Vlastníci dat (Data steward) Data Stewardship Committee BI oddělení Oddělení bezpečnosti Oddělení (datové) kvality Databázoví administrátoři Kultura organizace Plán vývoje a údržby IT architektura Datová architektura 12

Hierarchie moudrosti Russell Ackoff (1989) Data Informace Pokud jsme schopni odpovědět na otázky kdo?, co?, kde? a kdy? Pochopení vztahů Znalosti Porozumění jak? Pochopení vzorců Moudrost Porozumět proč? Pochopení principů 13

DAMA DMBOK Guide 14

Podle struktury Strukturovaná Data s přesně definovanou strukturou Uložená v databázích (relačních) Semistrukturovaná Obsahují datové elementy Nemají pevnou strukturu XML, SWIFT, HL7 EDI, SITA message Nestrukturovaná data Dokumenty Smlouvy Objednávky Předpisy Email Obsah webů Prezentace 15

Malcolm Chisholm: The 6 Layers of Data 16

Datová kvalita Vlastnost dat, která není daná jejich strukturou nebo uložením Podstatná vlastnost pro hodnotu dat Malá vypovídací hodnota Chybné výsledky Může se měnit časem bez zásahu do dat Deset let starý telefonní seznam má malou datovou kvalitu 17

Datová kvalita Data are of high quality if those who use them say so. Data quality is not a concept that makes sense in the average. Thomas C. Redman: Data quality: the field guide 18

Datová kvalita Co má vyšší kvalitu, VW Brouk nebo Cadillac? VW má méně závad Cadillac je luxusnější, lépe se řídí VW potřebuje menší prostor na zaparkování Cadillac je pohodlnější, vejde se do něho více zavazadel Brouk má menší spotřebu Různí uživatelé mají různé požadavky. Kvalita je ovlivněna osobním pohledem. Poměrně málo lidí se obtěžuje analýzou publikovaných statistik. 19

Datová kvalita Dodavatelé dat obecně nemají moc důvodů produkovat bezchybná data. Nekvalitní data vytváří nesmírnou frustraci uživatelů dat. Kvalita dat se nedá dosáhnout pouze prostředky IT systémů. adresa@naznama.cz Rodné číslo 20

Jak vyčistit jezero 1. přístup Ignorujte znečištění Potrestejte každého, kdo onemocní po užití vody z jezera Přeneste problém na uživatele. 21

Jak vyčistit jezero? 2. přístup Přefiltrujte vodu Odstraňte nečistoty Vraťte vodu do jezera 3. přístiup Filtrujte malé množství vody každý den Filtrujte přitékající vodu Filtrujte vodu kterou budete používat Jednorázové vyčištění Použití pouze aktuálních dat Nasazení nástrojů 22

4. přístup Jak vyčistit jezero? Najděte znečišťovatele Odstraňte je nebo je upravte tak aby neprodukovali znečištění Předcházení budoucích chyb 23

Závěr Datová kvalita Neexistuje jednoduché řešení Nutná spolupráce IT i uživatelů IT procesy (integrace) často znečišťují data Je nutné měřit kvalitu dat Je nutné mít popsaná data (existence metadat) Data nevypadají tak, jak jsem očekával 24

Metadata Metadata jsou data popisující data. Mohou být reprezentovány jednoduchým popisem, ale také složitou strukturou. Metadata jsou strukturované informace, které nám umožňují najít informace o datech, spravovat je, kontrolovat je a porozumět jim. Příklady Informace o datových entitách v databázi Informace o jednotlivých záznamech Dokumenty autor, abstrakt, obsah, klíčová slova, dostupnost, platnost, Fotografie místo pořízení, velikost, formát uložení, Informace o datových fragmentech Tagy v XML 25

Chybějící metadata 26

Informace o datových entitách Popisná metadata Definiční role metadat Administrativní metadata Jak často se mění, Jak moc jsou důležitá, Kdo je za data zodpovědný vlastník, bezpečnost, zálohování, Strukturální metadata Datové typy, Datové konvence, Vazby mezi entitami, Validační pravidla, Technická metadata Databáze, Schema, Synonyma, Přístupová práva, Partitioning, Fyzické parametry uložení 27

Informace o datových entitách Aplikační metadata Vazba na aplikace, Název polí ve formulářích, Požadavky na zobrazení, Validační pravidla na úrovni aplikací, Které reporty data používají, Definice reportů, Další vlastnosti reportů Vazby mezi aplikacemi Jak se data předávají mezi aplikacemi ETL procesy Vazby mezi jednotlivými entitami Statické Dynamické 28

Práce s metadaty Shromažďování Automatické Ruční Integrace a ukládání Metadata management systems Analýza Prezentace Definice Modely Transformace 29

Metadata - analýza Historie Kdo a kdy naposledy upravil proceduru procedure_name tak, že nepoužívá tabulku table_name? Data Lineage Upstream Které aplikace používají centrálních číselník měn? Downstream Která všechna data se podílejí na ohodnocení spolehlivosti dodavatele? Inpact analysis Které všechny tabulky a aplikace se budou muset upravit, když přejdeme z kódování ISO88592 na kódování UTF8? Pokud místo Y/N začneme používat A/N, co všechno musíme zkontrolovat? 30

Lineage analýza Metadata - analýza Katalóg Where used analýza 31

Literatura Ackoff, Russell (1989). "From Data to Wisdom". Journal of Applied Systems Analysis 16: 3 9. http://www.dama.org http://www.datagovernance.com/ http://www.dqguide.com/ Thomas C. Redman: Data quality: the field guide 32