Pattern Datový sklad. RNDr. Ondřej Zýka

Podobné dokumenty
Pattern Star Schema. RNDr. Ondřej Zýka

Dimenzionální modelování Profinit. All rights reserved.

Databázové patterny. MI-DSP 2013/14 RNDr. Ondřej Zýka,

01. Kdy se začala formovat koncept relačních databází (Vznik relačního modelu, první definice SQL)? a) 1950 b) 1960 c) 1970 d) 1980

10. Datové sklady (Data Warehouses) Datový sklad

Databázové patterny. RNDr. Ondřej Zýka

Základy business intelligence. Jaroslav Šmarda

kapitola 2 Datové sklady, OLAP

3 zdroje dat. Relační databáze EIS OLAP

Ing. Roman Danel, Ph.D. 2010

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1


Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Datový sklad. Datový sklad

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Datové sklady. Multidimenzionální modelování Modely datového skladu Návrh datového skladu v rámci návrhu IS/ICT. Vladimíra Zádová, KIN, EF, TUL

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Zkušební test. Kdy se začala formovat koncept relačních databází (Vznik relačního modelu, první definice SQL)? a) 1950 b) 1960 c) 1970 d) 1980

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Business Intelligence. Adam Trčka

Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu PEF MZLU v Brně

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

Analýza a modelování dat. Přednáška 8

Databáze Bc. Veronika Tomsová

Analýza a modelování dat. Přednáška 9

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

On line analytical processing (OLAP) databáze v praxi

Databázové systémy. 10. přednáška

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Informační systémy 2006/2007

Podnikové informační systémy Jan Smolík

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Data warehousing a ETL

Základní informace o co se jedná a k čemu to slouží

Business Intelligence

Data Warehouses. Jaroslav Bayer 1. Fakulta informatiky Masarykova univerzita

Integrace dat. RNDr. Ondřej Zýka

<Insert Picture Here> Na co se můžete s Oracle BI těšit

PV005 Služby počítačových sítí: Data Warehouses

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

4IT218 Databáze. 4IT218 Databáze

Datová kvalita. RNDr. Ondřej Zýka

Datová kvalita. RNDr. Ondřej Zýka

Analýza a modelování dat 5. přednáška. Helena Palovská

Analýza a modelování dat 6. přednáška. Helena Palovská

PostgreSQL jako platforma pro datové sklady

NÁVRH APLIKACE BUSINESS INTELLIGENCE PRO SPOLEČNOST BREX S. R. O.

TM1 vs Planning & Reporting

Business Intelligence

Manažerský reporting a finanční plánování Targetty

Introduction to Navision 4.00 Jaromír Skorkovský, MS., PhD.

Databáze SQL SELECT. David Hoksza

Metadata. MI-DSP 2013/14 RNDr. Ondřej Zýka,

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

Metadata. RNDr. Ondřej Zýka

Konsolidovaný reporting CZ/SK v Cognos případová studie sanofi-aventis

Vytvoření datového skladu

Operátory ROLLUP a CUBE

Information and Data Management. RNDr. Ondřej Zýka

Použití databází na Webu

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

SKUTEČNĚ DOKÁŽETE PLNĚ VYUŽÍT DAT A SYSTÉMU, KTERÝ VLASTNÍTE? GO BEYOND CRM

Projekt Business Intelligence pro společnost Nutricia, a.s.

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Co bude výsledkem mého SELECTu? RNDr. David Gešvindr MVP: Data Platform MCSE: Data Platform MCSD: Windows Store MCT

Multi-dimensional expressions

Integrace dat. RNDr. Ondřej Zýka

Konceptuální modely datového skladu

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into

QAD Business Intelligence

Distanční opora předmětu: Databázové systémy Tématický blok č. 3: OLAP, operátory CUBE a ROLLUP Autor: RNDr. Jan Lánský, Ph.D.

Dotazovací jazyky I. Datová krychle. Soběslav Benda

Kurz Databáze. Obsah. Dotazy. Zpracování dat. Doc. Ing. Radim Farana, CSc.

Moderní přístupy tvorby datových skladů

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

Advanced SQL Modeling in RDBMS - SQL Spreadsheet part1. Your Organization (Line #1)

Business Intelligence

Úvod do databázových systémů

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

DATA CUBE. Mgr. Jiří Helmich

ANALYSIS SERVICES PROJEKT VYTVOŘENÍ PROJEKTU A DATOVÉ KOSTKY

Datové modelování II

Infor Performance management. Jakub Urbášek

Databázové systémy úvod

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

ZADÁNÍ DIPLOMOVÉ PRÁCE

B0M33BDT Technologie pro velká data. Supercvičení SQL, Python, Linux

04 - Databázové systémy

Možnosti analýzy podnikových dat

František Ščuglík. Datové sklady a Technologie OLAP pro dolování dat

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Profitabilita klienta v kontextu Performance management

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

Databáze II. 1. přednáška. Helena Palovská

Temporální databáze. Jan Kolárik Miroslav Macík

INDEXY JSOU GRUNT. Pavel Stěhule

Transkript:

Pattern Datový sklad RNDr. Ondřej Zýka 1

Datový sklad Speciální logické modely Dimenzionální modelování Speciální datové servery Teradata Sloupcové ukládání dat OLAP databáze Speciální oblast Data Managementu 2 2

Dimenzionální modelování Ralph Kimball (1997) Primárně modely pro datové sklady a analýzy Silně denormalizovaný model Modely jsou Pochopitelné pro netechnicky orientované uživatele Snadno rozšiřitelné Orientované na analytické dotazy Podporované datovými servery a analytickými nástroji (OLAP) Schopnost reportovat z extrémního objemu dat Model podporuje minimum update pouze přidávání dat Požadavek neměnící se historie Technologie neumí současný update a select 3 3

Příklad 4 4

Standardní dotaz select SUM(qty) from F_SALES,D_TIME,D_TITLES,D_STORES,D_AUTHORS where F_SALES.TITLES_KEY = D_TITLES.TITLES_KEY and F_SALES.STORES_KEY = D_STORES.STORES_KEY and F_SALES.AUTHOR_KEY = D_AUTHOR.AUTHOR_KEY and F_SALES.DATE_KEY = D_DATE. DATE_KEY and podminky na D_TITLES and podminky na D_STORES and podminky na D_AUTHORS and podminky na D_DATE group by pozadovana granularita vysledku 5 5

Star schéma Dimenze Store Time Transaction Date Grocery Transaction Store Number Store Name City State Country Telephone Store Number Transaction Date Customer Product Quantity Amount Customer Customer From Date To Date First Name Last Name Address 1 Address 2 Address 3 City State Country Postal Code Fakta Product Product Description Category 6 6

Snowflake schéma Sales Period Period Identifier Sales Period From Date To Date Region Region Description Time Transaction Date Grocery Transaction Store Number Transaction Date Customer Product Quantity Amount Store Store Number Store Name City State Country Telephone Region Customer Category Category Customer Category Customer Customer First Name Last Name Address 1 Address 2 Address 3 City State Country Postal Code Customer Category Product Product Description Category Product Category Product Category Description 7 7

Snowflake model Výhody Minimální redundance dat v rámci dimenzí Úspora místa v databázi Větší flexibilita pro modelování Užitečný pro dimenze se složitou strukturou Nevýhody Složitější konstrukce dotazů, mnoho joinů Nižší výkonnost Komplikovaný snowflake model může odradit uživatele od přímého přístupu k datům uživatelské nástroje zpravidla zavádějí sémantickou vrstvu, která uživatele odstíní od datového modelu Možný konflikt s bitmapovými indexy Úspora místa je většinou převážena nižší výkonností a složitější administrací 8 8

Constellation schéma Store Store Number Store Name City State Country Telephone Region Product Inventory Product Warehouse Location Quantity On Hand Quantity Back Ordered Warehouse Warehouse Address 1 Address 2 Address 3 City State Country Postal Code Vendor Vendor Vendor Name Address 1 Address 2 Address 3 City State Country Postal Code Time Transaction Date Grocery Transaction Store Number Transaction Date Customer Product Purchase Quantity Amount Product Purchases Product Purchase Date Supplying Vendor Purchase Order Unit Quantity Purchase Cost Customer Customer First Name Last Name Address 1 Address 2 Address 3 City State Country Postal Code Customer Category Product Product Description Category Product Line 9 9

Snowstorm schéma Sales Period Period Identifier Sales Period From Date To Date Promotion Period Promotion Id Promotion From Date To Date Store Store Number Store Name City State Country Telephone Region Region Region Description Product Inventory Product Warehouse Location Quantity On Hand Quantity Back Ordered Warehouse Warehouse Address 1 Address 2 Address 3 City State Country Postal Code Vendor Vendor Vendor Name Address 1 Address 2 Address 3 City State Country Postal Code Time Transaction Date Grocery Transaction Store Number Transaction Date Customer Product Purchase Quantity Amount Product Purchases Product Purchase Date Supplying Vendor Purchase Order Unit Quantity Purchase Cost Customer Category Category Customer Category Customer Customer First Name Last Name Address 1 Address 2 Address 3 City State Country Postal Code Customer Category Product Product Description Category Product Line Product Line Product Line ID Description Product Category Product Category Description 10 10

Vytvořen dimenzionálního modelu Výběr Sledovaných procesů Definice Metrik Definice Dimenzí Definice Hierarchií Definice Granularity Transformační procesy Technologie Relační databáze OLAP technologie 11 11

Výběr sledovaných procesů Seznam procesů, které chceme analyzovat Od jednodušších ke složitějším Bus matrix Matice: Business procesy x Dimenze Často odpovídá jeden business proces jeden datamart 12 12

Buss matrix 13 13

Date Customer Service Rate Category Local Svc Provider Calling Party Called Party Long Dist Provider Internal Organization Employee Location Equipment Type Supplier Item Shipped Weather Account status Bus matrix Custommer Billing Service Orders Trouble Reports Yellow Page Ads Customer Inquiries Promotion Billing Call Detail Network Call Detail Customer Inventory Network Inventory Real eastate Labor & Payroll Computer Charges Purchase Orders Supplier Deliverables 14 14

Bus architektura a schéma - příklad 15 15

Fact tables Transaction - co řádek to transakce (například obchody) Proces může obsahovat více typů transakcí, rozhodnutí zda jedna nebo více tabulek není jednoduché Snapshots - každý den se udělá celý snímek State model celé denní snímky Event model každý den pouze změněné záznamy Možnost dopočítání dalších hodnot ke každému snímku Akumulujíce se shapshoty (sklad) Id výrobku jako primární klíč a doplňují/updatují se hodnoty pro události popisující životní cyklus Do daného řádku se doplní datum expedice, fakturace, dodání, vyúčtování, Pozor - update v tabulce faktů (Fact tables bez faktů slouží jako n:n vazba mezi dimenzemi) 16 16

Fact tables Fakta aditivní - počet, cena v transakčních fact tabulkách Význam pro všaechny dimenze Nejlépe se s nimi pracuje Cílem je převést na aditivní fakta maximum Discount -> ceníková cena, prodejní cena semiaditivní - počet cena v snapshot tabulkách součet za produkty má význam, za čas nemá význam Obecně význam pouze pro některé dimenze nonadditive - procentuální profit Často text Někdy možné přenést do dimenzí (degenerované dimenze) Factless fact table pouze cizí klíče, žádná fakta Příznak existence (účast v kampani) 17 17

Určení dimenzí Konformní dimenze Jedna nejpodrobnější dimenze, ostatní jsou jejich agregací Jednotné dimenze pro všechny business procesy Jeden sloupec primárního klíče Hodně sloupců popisů, často přes 30, čím více tím lépe Atributy spíše textové (srozumitelnost) Hierarchie pro analýzy Časová dimenze Degenerovaná dimenze nemá popis (číslo faktury) Dimenze jsou denormalizované (jedna široká tabulka) Normalizace vločkové schéma Umělé klíče pro odstínění změn Řádek s hodnotu Not applicable, Uknown 18 18

Časová dimenze V každém datovém skladu Často mnoho hierarchií Provozní rok Fiskální rok Kalendářní rok Mnoho sloupců Textová informace Číselná informace Konce a začátky období Umožňuje dotazy na Kalendářní i fiskální kalendář Volné dny Dny v týdnu 19 19

Časová dimenze 20 20

Typy dimenzí z pohledu změn Statické Žádné ošetření změn V případě změny se přepíše starý záznam Žádná historie Rostoucí dimenze Přidávají se nové záznamy V případě změny se přepíše starý záznam Žádná historie Rychle rostoucí dimenze Nutné speciální řešení Oddělení rychle se měnících atributů do vlastní dimenze (Jako Slowly changed dimension Type 2) Slowly changing dimenze 21 21

Slowly changing dimension Typ 1 přepis hodnot Žádná historie Typ 2 přidávání řádků, vždy jeden platný Přidané pole Begin date, End date, Eff date key, Change reason text, Current flag Kompletní historie Typ 3 alternativní realita vice možností v jeden čas Přidání nových záznamů uchování současné a předchozí hodnoty v případě změny Redundance nebývá problém Dimenze zabírají cca 5% místa v DWH 22 22

Další typy dimenzí Konformní Pro celý podnik Ostatní dimenze jako podimenze konformních dimenzí Minidimenze a sběrné dimenze Číselníky Stavové a textové atributy Možné sloučit do sběrných dimenzí Degenerované dimenze Přímo v tabulce faktů (číslo objednávky) 23 23

Hierarchie Schéma a instance dimenze lokace Použití srozumitelných dat, texty Často odvozeno z jiných zdrojů (i externích) Redundance dat je pouze v dimenzích (nikoliv ve faktových tabulkách) Umožňuje vybírat a agregovat data po úrovních Hierarchie by měli mít konstatní hloubku (nedoplňovat regiony jenom někde) Hierarchie jsou obsaženy v metadatech o dimenzích 24 24

Hierarchie Popis jak agregovat hodnoty jedné dimenze Může existovat několik nezávislých hierarchií na jedné dimenzi Drill-down podle dimenzí Dimenze času Nejmenší granularita den 6 nezávislých dimenzí 25 25

Určení granularity Každý řádek faktové tabulky odpovídá hodnotám průniku všech dimenzí Všechny řádky musí mít stejnou granularitu Řádky s hodnotou nula se nezapisují Pokud zdroje neobsahují dostatečně detailní data, provádí se realokace dat na několik řádek tak, aby výsledky odpovídaly zdrojovým datům Granularita malá Jeden řádek jedno měření Velký objem dat Granularita velká (pouze sumy za měsíce, regiony, ) Malé databáze Omezená možnost analýz 26 26

Technologie Plnění schématu Dávkové plnění pomocí ETL nebo ELT procesů z primárních systémů Požadavky na persistence dat Podpora stár schématu Podpora historizace dimenzí Rychlý výpočet star-like dotazu Agregace přes dimenze a zejména přes hierarchie dimenzí 27 27

Multidimenzionální databáze Nutné rozlišit Princip Práce s dimenzemi Práce s hierarchiemi Skutečný způsob uložení dat Relační model Speciální úložiště se speciálními indexy Kategorizace dle místa uložení dat a agregací MOLAP veškerá data uložená v multidimenzionální databázi ROLAP veškerá data uložená v relační HOLAP hybrid Další typy RTOLAP real time, data pouze v RAM DOLAP desktop OLAP, data uložená na klientském počítači 28 28

OLAP technologie Uložení a zpracování dat podporující určité druhy analýz parameterized static reporting slicing and dicing with drill down what if? analysis goal seeking models Způsob uložení předpočítaných hodnot (denormalizace) Uložení agregovaných hodnot vyžadovaných analýzami podle zadaných Metrik Dimenzí Hierarchií na dimenzích 29 29

Příklad uložení 30 30

Co si zapamatovat K čemu slouží dimenzionální datové modely Jaké jsou hlavní rozdíly relačního a dimenzionálního modelování Jaké jsou rozdíly mezi modely typu hvězda, souhvězdí, vločka nebo sněhová bouře Co to je Buss Matrix, k čemu slouží Jaké typy faktových tabulek se používají Co to je aditivní, semiaditivní a neaditivní metrika Jaké typy dimenzí se používají Co to je "Slowly changing dimension of type 2" Co to jsou Hierarchie a k čemu slouží Co to je OLAP databáze 31 31

Diskuse Otázky Poznámky Komentáře Připomínky 32