Data Warehouses. Jaroslav Bayer 1. Fakulta informatiky Masarykova univerzita

Podobné dokumenty
PV005 Služby počítačových sítí: Data Warehouses

10. Datové sklady (Data Warehouses) Datový sklad

Databáze Bc. Veronika Tomsová

Základy business intelligence. Jaroslav Šmarda

3 zdroje dat. Relační databáze EIS OLAP

4IT218 Databáze. 4IT218 Databáze

Ing. Roman Danel, Ph.D. 2010

Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu PEF MZLU v Brně

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Business Intelligence. Adam Trčka

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Databázové systémy. 10. přednáška

Business Intelligence

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Datové sklady. Multidimenzionální modelování Modely datového skladu Návrh datového skladu v rámci návrhu IS/ICT. Vladimíra Zádová, KIN, EF, TUL

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

kapitola 2 Datové sklady, OLAP

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

Business Intelligence

Obsah přednášky. Databázové systémy. Normalizace relací. Normalizace relací. Normalizace relací. Normalizace relací

Integrace dat. RNDr. Ondřej Zýka

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Databáze I. 4. přednáška. Helena Palovská

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Informační systémy 2006/2007

Databáze II. 1. přednáška. Helena Palovská


Základní informace o co se jedná a k čemu to slouží

Analýza a modelování dat 3. přednáška. Helena Palovská

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Návrh datového skladu z hlediska zdrojů

Analýza a modelování dat 6. přednáška. Helena Palovská

Datový sklad. Datový sklad

01. Kdy se začala formovat koncept relačních databází (Vznik relačního modelu, první definice SQL)? a) 1950 b) 1960 c) 1970 d) 1980

Vytvoření datového skladu

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Inovace tohoto kurzu byla spolufinancována z Evropského sociálního fondu a státního rozpočtu České republiky.

Geografické informační systémy p. 1

04 - Databázové systémy

Operátory ROLLUP a CUBE

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Pattern Datový sklad. RNDr. Ondřej Zýka

Architektury Informačních systémů. Jaroslav Žáček

Kapitola 7: Návrh relačních databází. Nástrahy relačního návrhu. Příklad. Rozklad (dekompozice)

CPM/BI a jeho návaznost na podnikové informační systémy. Martin Závodný

Databázové systémy úvod

Integrace dat. RNDr. Ondřej Zýka

Architektura softwarových systémů

Databázové a informační systémy

Business Intelligence a datové sklady

Infor Performance management. Jakub Urbášek

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

ZADÁNÍ DIPLOMOVÉ PRÁCE

Dotazovací jazyky I. Datová krychle. Soběslav Benda

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Databáze. Logický model DB. David Hoksza

předměty: ukončení: Zápočet + Zkouška / 5kb např. jméno, název, destinace, město např. student Jan Novák, narozen

Databáze I. 5. přednáška. Helena Palovská

Archivace relačních databází

2. Modelovací jazyk UML 2.1 Struktura UML Diagram tříd Asociace OCL. 3. Smalltalk 3.1 Jazyk Pojmenování

Úvod do databázových systémů. Ing. Jan Šudřich

Datové sklady ve školství

UNIVERZITA PARDUBICE FAKULTA EKONOMICKO-SPRÁVNÍ

QAD Business Intelligence

Databáze I. 1. přednáška. Helena Palovská

Architektury Informačních systémů. Jaroslav Žáček

Databázové systémy úvod

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

Podpora XML v.net. Podpora XML v.net. nezávislý publicista. Jirka Kosek.

Relační datový model. Integritní omezení. Normální formy Návrh IS. funkční závislosti multizávislosti inkluzní závislosti

Hierarchický databázový model

Technické informace. PA152,Implementace databázových systémů 4 / 25. Projekty. pary/pa152/ Pavel Rychlý

A Metodologie návrhu ERD (Batini, Ceri, Navathe)

PostgreSQL jako platforma pro datové sklady

DATABÁZE A INFORMAČNÍ SYSTÉMY

Možnosti analýzy podnikových dat

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

TM1 vs Planning & Reporting

Konsolidovaný reporting CZ/SK v Cognos případová studie sanofi-aventis

Konceptuální modely datového skladu

A Metodologie návrhu ERD (Batini, Ceri, Navathe)

Datové sklady a možnosti analýzy a reportování dat ve výuce

Představuje. Technický Informační Systém nové generace

5. Formalizace návrhu databáze

Databáze v MS ACCESS

Marketingová komunikace. 1. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3aph)

Databázové systémy úvod

Moderní přístupy tvorby datových skladů

RELAČNÍ DATABÁZOVÉ SYSTÉMY

Databázové patterny. MI-DSP 2013/14 RNDr. Ondřej Zýka,

Transkript:

PV005 Služby počítačových sítí: Data Warehouses Jaroslav Bayer 1 Fakulta informatiky Masarykova univerzita 28. 11. 2012 1 CVT FI MU, B310, email: xbayer@fi.muni.cz Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 1 / 54

Obsah přednášky 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura 5 Data Back-End 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 2 / 54

Normalizovaná vs. Denormalizovaná databáze Normální formy Relační datový model E. F. Codd, 1696 1NF atributy obsahují pouze atomické hodnoty 2NF 1NF + žádný neklíčový atribut není závislý na vlastní podmnožině nějakého KK (všechny neklíčové atributy jsou závislé pouze na celém KK) 3NF 2NF + všechny neklíčové atributy přímo (netranzitivně) závisí na každém SK (každý atribut tranzitivně závisející na klíči je klíčový atribut) BCNF pro každou závislost X Y platí, že bud Y X nebo X je SK BCNF 3NF EKNF, 4NF, 5NF, 6NF,... Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 3 / 54

Normalizovaná vs. Denormalizovaná databáze On-Line Transaction Processing (OLTP) silně normalizované databáze hlavním cílem je snížení redundance dat optimalizováno na velké množství malých transakcí transakce přenášející DB z konzistentního stavu do konzistentního stavu kombinace čtení/zápis snadné modifikace ve víceuživatelských prostředích snižování redundance v datech zajištění datové integrity prakticky nejrozšířenější přístup v relačním modelu tzv. operační/produkční databáze Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 4 / 54

Normalizovaná vs. Denormalizovaná databáze Denormalizace normalizované DB nevhodné pro analytické zpracování dat dotazy často vyžadují přístup do velkého množství tabulek zbytečně časově náročné join operace denormalizace doplnění redundantních dat předpočítání agregovaných, seskupených či sumarizovaných dat odlišná DB schémata optimalizace pro čtení materializovaný pohled (materialized view) schéma hvězdy (star) nebo vločky (snowflake) OLAP kostka... Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 5 / 54

Normalizovaná vs. Denormalizovaná databáze On-Line Analytical Processing (OLAP) mj. technologie ukládání dat v DB zaměřeno na ukládání velkých objemů dat pro budoucí zpracování podporu analytického zpracování dat efektivní zpracování multi-dimenzionálních dotazů čtení (read-mostly DB) ukládání dat ve snadno pochopitelném formátu ukládání historie dat vedení, analytici, specialisté mimo IT oblasti apod. data většinou nahrávána periodicky málo uživatelů orientováno na subjekt pouze operace insert a select Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 6 / 54

Normalizovaná vs. Denormalizovaná databáze OLAP kostka Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 7 / 54

Normalizovaná vs. Denormalizovaná databáze OLAP kostka, operace Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 8 / 54

Data Warehouse: základní charakteristika Data Warehouse: základní charakteristika 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura 5 Data Back-End 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 9 / 54

Data Warehouse: základní charakteristika Data Warehouse: definice Data Warehouse (datový sklad) je: kolekce dat pro podporu rozhodování s následujícími vlastnostmi: orientovaný na subjekt, integrovaný, časově proměnný, avšak stálý (konzistentní). definice dle Williama H. Inmona 1 data Warehousing je kolekce metod, technik, nástrojů a přistupů k zajištění podpory pro knowledge workers při analýzách dat, které dopomohou k lepším rozhodnutím a zkvalitnění informačních zdrojů. 1 The father of the data warehouse Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 10 / 54

Data Warehouse: základní charakteristika DW: orientace na subjekt orientace na subjekty, kterými se podnik/organizace zabývá zákazník, dodavatel, produkt student, učitel, předmět zaměřuje se zejména na data vhodná pro strategická rozhodnutí jasné a čitelné oddělení funkčních celků vyšší pamět ová náročnost DB pro OLTP se oproti tomu orientuje na transakce faktura, vklad, půjčka, prodej zápis, hodnocení, změna kreditace Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 11 / 54

Data Warehouse: základní charakteristika DW: orientace na subjekt orientace na subjekty, kterými se podnik/organizace zabývá zákazník, dodavatel, produkt student, učitel, předmět zaměřuje se zejména na data vhodná pro strategická rozhodnutí jasné a čitelné oddělení funkčních celků vyšší pamět ová náročnost DB pro OLTP se oproti tomu orientuje na transakce faktura, vklad, půjčka, prodej zápis, hodnocení, změna kreditace Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 11 / 54

Data Warehouse: základní charakteristika DW: integrovanost integrace a sjednocení dat více zdrojů dat (produkčních systémů 2 ) sjednocení názvů, měřítek, jednotek, kódování,... integrace dat do jednotné logické podoby 2 též operačních či transakčních systémů Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 12 / 54

Data Warehouse: základní charakteristika DW: časová proměnlivost data většinou nahrávána periodicky po větších dávkách avšak existují i on-line aktualizované datové sklady data po vložení zafixována jako časový snímek produkční DB součástí datových záznamů jsou časové známky historie dat Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 13 / 54

Data Warehouse: základní charakteristika DW: stálost (konzistence) uživatelé data zásadně nemění pokládají zejména dotazy (select) data se po vložení prakticky nemění až na výjimky v podobě chyb v datech či HW poruch po exspiraci mohou být data vymazána Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 14 / 54

Data Warehouse: návrh Data Warehouse: návrh 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura 5 Data Back-End 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 15 / 54

Data Warehouse: návrh Zdroj: http://upload.wikimedia.org/wikipedia/commons/4/46/data_warehouse_overview.jpg Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 16 / 54

Data Warehouse: návrh DW: Staging Area a ODS (Data) Staging Area mezilehlé datové úložiště časově nestálé (data se po nahrání do DW mohou smazat) sběr dat z více zdrojů hledání rozdílů mezi aktuálními daty a daty v DW předvýpočty agregovaných hodnot čištění dat (data cleansing) detekce a oprava porušených či nesprávných záznamů nezaměňovat s pouhou validací dat Operational Data Store (ODS) DB navržená pro integraci dat z různých zdrojů data uložena s nejvyšší granularitou (atomická data) data dostupná produkčnímu systému i DW data omezena na aktuální stav (nebo stav jemu blízký) Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 17 / 54

Data Warehouse: návrh DW: Staging Area a ODS (Data) Staging Area mezilehlé datové úložiště časově nestálé (data se po nahrání do DW mohou smazat) sběr dat z více zdrojů hledání rozdílů mezi aktuálními daty a daty v DW předvýpočty agregovaných hodnot čištění dat (data cleansing) detekce a oprava porušených či nesprávných záznamů nezaměňovat s pouhou validací dat Operational Data Store (ODS) DB navržená pro integraci dat z různých zdrojů data uložena s nejvyšší granularitou (atomická data) data dostupná produkčnímu systému i DW data omezena na aktuální stav (nebo stav jemu blízký) Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 17 / 54

DW: ETL Data Warehouse: návrh Extract, Transform, Load (ETL) Extract získání dat z různých (a často nekompatibilních) zdrojů analýza dat, kontrola souladu se vzory dat,... Transform transformace dat ze struktury zdroje do struktury cíle výběr sloupců, změna kódování, spojení tabulek, agregace, disagregace, pivoting, validace dat,... Load nahrání dat do cíle, např. DW triggery a ověření konzistence dat přes integritní omezení Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 18 / 54

DW: Data Marts Data Warehouse: návrh Data Mart (DM, datová tržiště) logická podčást DW obsahuje podmnožinu dat z DW zaměřen na konkrétní uživatele přístupová vrstva pro získávání dat z DW DM může mít vlastní HW, SW i data a DB snížení doby přítupu lepší definice uživatelů, bezpečnost Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 19 / 54

Data Warehouse: návrh DW: Data Vault speciálně navržená DB Data Vault Modelling databázová modelovací metoda vyhovuje potřebám integrace i ukládání historie dat podporuje sledování původu dat (data tracking) zkracuje čas potřebný pro naplnění (loading time) reaguje dobře na změny splňuje požadavek 100 % dat po 100 % času může nahradit ODS (detaily později) Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 20 / 54

Data Warehouse: architektura Data Warehouse: architektura Structure-Oriented Classification 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 21 / 54

Data Warehouse: architektura DW: jednovrstvá architektura Structure-Oriented Classification Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 22 / 54

Data Warehouse: architektura Structure-Oriented Classification DW: jednovrstvá architektura minimalizuje množství uložených dat vlastní DW je virtuální DW implementován jako multidimenzionální pohledy (views) do operační DB neodděluje analytické a transakční zpracování dat analytické dotazy zatěžují operační DB potenciální nedostatek výkonu neudržuje více dat než zdroj nejjednodušší, málo nasazovaný přístup Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 23 / 54

Data Warehouse: architektura Structure-Oriented Classification DW: dvouvrstvá architektura Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 24 / 54

Data Warehouse: architektura Structure-Oriented Classification DW: dvouvrstvá architektura odděluje analytické a transakční zpracování dat podpora integrace dat z více zdrojů, ETL DW existuje fyzicky alternativní modelovací metody rozdělení na DM meta-data ukládání historie... Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 25 / 54

Data Warehouse: architektura Structure-Oriented Classification DW: třívrstvá architektura Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 26 / 54

Data Warehouse: architektura Structure-Oriented Classification DW: třívrstvá architektura dvouvrstvá architektura doplněna o tzv. Reconciled Data Layer (RDL, vrstva pro sladění dat) nebo ODS DW pak není plněn přímo ze zdrojů, ale z RDL/ODS odděluje problémy extrakce a integrace dat od plnění DW nová vrstva přidává další datovou redundanci do systému Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 27 / 54

Data Warehouse: architektura Structure-Oriented Classification DW: hybridní přístup na pomezí jedno a vícevrstvé architektury agregovaná či sumarizovaná data uložena fyzicky v DW vhodné pro multidimenzionální dotazy detailní data uložena pouze ve zdrojové DB v případě potřeby dostupné DW snižuje datovou redundanci a nároky na úložiště v DW Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 28 / 54

Data Warehouse: architektura Design Methodologies Design Methodologies 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 29 / 54

Data Warehouse: architektura Design Methodologies DW: nezávislá datová tržiště Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 30 / 54

Data Warehouse: architektura Design Methodologies DW: nezávislá datová tržiště Independent Data Marts datová tržiště vznikají nezávisle analytické nástroje je používají dle potřeby komplikuje integraci dat vhodné pouze v případě nedostatku zdrojů limitující funkcionalita Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 31 / 54

Data Warehouse: architektura Design Methodologies DW: architektura sběrnice Bus Architecture návrh zespodu nahoru (bottom-up design) algoritmus pro detekci tzv. Conformed Dimensions v DM sestavení sběrnice z těchto dimenzí nezávislé, avšak homogenní DM tak vytvoří koherentní DW výhody použitelné s prvním DM iterativní přístup nevýhodou jsou problémy s granularitou při rozšiřování propagátorem metody je Ralph Kimball 3 3 http://www.kimballgroup.com Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 32 / 54

Data Warehouse: architektura Design Methodologies DW: návrh shora dolů top-down design centralizovaný přístup detailní data v DW uložena normalizovaně (do jisté míry) DM v multidimenzionální formě jsou plněny z centrálního repozitáře výhody produkuje vysoce konzistentní DM po dokončení odolné vůči změnám v business procesech nevýhodou je značná časová náročnost do dokončení DW není příliš využitelný před dokončením propagátorem metody je William H. Inmon 4 4 http://www.inmoncif.com/ Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 33 / 54

Data Warehouse: architektura Design Methodologies DW: Hub-and-Spoke Architecture Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 34 / 54

Data Warehouse: architektura Design Methodologies DW: Hub-and-Spoke Architecture atomická data ukládána normalizovaně v Reconciled Data Layer (RDL) agregovaná a sumarizovaná data ukládána do DM v multidimenzionální formě podobné předchozímu návrhu avšak detailní a agregovaná data nemusí být fyzicky uložena v jednom repozitáři uživatelé většinou pracují s DM k RDL přistupují pouze výjimečně pro detailní data Data Vault Modelling odpovídá této architektuře Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 35 / 54

Data Warehouse: architektura Design Methodologies DW: sjednocujíci architektura Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 36 / 54

Data Warehouse: architektura DW: sjednocující architektura Design Methodologies Federated Architecture integruje již existující DW či DM vytvoření jednotného rozhraní pro přístup ke všem datům Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 37 / 54

Data Warehouse: architektura Data Warehouse: architektura Data Loading Approaches 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 38 / 54

Data Warehouse: architektura Data Loading Approaches Data Loading Approaches (přístupy nahrávání dat) žádná data použitelné pouze u jednovrstvého DW zcela aktuální data off-line data aktualizována v pravidelných intervalech, např. hodiny, dny, týdny,... DW nemá vždy aktuální data on-line DW aktualizován s každou transakcí zcela aktuální data on-line z více zdrojů jako předchozí bod, ale z více zdrojů Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 39 / 54

Data Back-End Data Back-End Database Management System 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 40 / 54

Databázové systémy Data Back-End Database Management System relační model data uložena v relacích (tabulkách) v podobě n-tic (řádků/záznamů) tabulky definovány schématem relace nejrozšířenější DBMS ROLAP implementace multidimenzionální funkcionality na relační DB grafové databáze data definována i uložena pomocí grafové struktury založeno na teorii grafů oproti relačním DB někdy rychlejší, lépe škálují vhodné pro dotazy podobné grafovým operacím, např. hledání cesty Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 41 / 54

Data Back-End Database Management System Databázové systémy (2) sít ový model flexibilní způsob ukládání vztahů mezi objekty uzel může mít více rodičů i potomků zobecněný graf hierarchické databáze data organizována ve stromových strukturách registry MS Windows triplestore vhodné pro ukládání trojic... Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 42 / 54

Data Back-End Data Back-End DB schemas 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 43 / 54

Schéma hvězdy Data Back-End DB schemas Zdroj: http://upload.wikimedia.org/wikipedia/en/f/fe/star-schema-example.png Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 44 / 54

Data Back-End DB schemas Schéma hvězdy Star Schema dovoluje relační DB simulovat multidimenzionální DB nejjednodušší schéma DW faktová tabulka uprostřed spojuje dimenzní tabulky okolo faktové tabulky nesou (zejména) číselné údaje fakta zabírají nejvíce místa dimenzní tabulky nesou atributy faktů jejich popis, kontext související atributy v jedné tabulce minimalizace počtu dimenzních tabulek mají velké množství sloupců (atributů) Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 45 / 54

Data Back-End Schéma sněhové vločky DB schemas Zdroj: http://upload.wikimedia.org/wikipedia/commons/7/73/snowflake-schema-example.png Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 46 / 54

Data Back-End DB schemas Schéma sněhové vločky Snowflake schema opět v centru faktové tabulky a okolo dimenzní avšak dimenze jsou normalizované (do určité míry) nikoli faktové tabulky dimenzní tabulky rozloženy procesem normalizace do několika propojených tabulek efektivní zejména pro díravé (sparse) dimenze má-li dimenze velké množství atributů Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 47 / 54

Data Back-End DB schemas Hvězda vs. vločka obě optimalizují čas/rychlost získání dat (operace čtení) hvězda vhodná pro nástroje, které odhalují DB schema uživatelům snadno pochopitelná, přirozená spojení vločka vhodná pro sofistikované nástroje, které oddělují data od uživatelů Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 48 / 54

Data Back-End DB schemas Reverzní hvězda Reverse Star Schema optimalizace na získání velkého množství popisných dat návrh převrací některá pravidla hvězdy naruby k centrální tabulce se připojují faktové tabulky více centrálních tabulek rozdílné kardinality... Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 49 / 54

Data Back-End Data Back-End Data Vault Modelling 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 50 / 54

Data Back-End Data Vault Modelling DV: přehled modelovací metoda ukládání historie dat integrace dat z více zdrojů datový audit, původ dat (data tracking) uchovávání chybných hodnot paralelní nahrávání dat 100 % dat 100 % času může nahradit ODS fakta vs. pravda navržen Danem Linstedtem 5 5 http://danlinstedt.com/ Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 51 / 54

Data Back-End Data Vault Modelling DV: komponenty Hubs primární klíče (business klíče) tyto se téměř nemění, např. učo Links integrace transakcí a vztahů mezi Hubs Satellites kontext Hubs a Links Point-in-Time Tabules, Bridge, pomocné tabulky,... Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 52 / 54

Shrnutí Shrnutí 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura 5 Data Back-End 6 Shrnutí Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 53 / 54

Shrnutí Shrnutí Operační/Transakční DB ukládá data s ohledem na bezpečné a efektivní zpracování transakcí v konkurečním mnohouživatelském prostředí zaměřuje se zejména na aktuální data čtení a zápis velké množství uživatelů Data Warehouse ukládá data s ohledem na efektivitu zpracování složitých dotazů zejména operace select a insert využívá multidimenzionální funkcionality usnadňuje udržování historie data snaha o čištění dat analytické zpracování nezatěžuje transakční DB podpora pro analytické nástroje OLAP, reportování, DM nástroje,... data tracking správa chybných dat Jaroslav Bayer (FI MU) PV005 Služby počítačových sítí: Data Warehouses 28. 11. 2012 54 / 54