Dimenzionální modelování. 2014 Profinit. All rights reserved.



Podobné dokumenty
Pattern Datový sklad. RNDr. Ondřej Zýka

Teradata basic Profinit. All rights reserved.

Transakce Profinit. All rights reserved.

Pattern Star Schema. RNDr. Ondřej Zýka

Information and Data Management Profinit. All rights reserved.

Databázové patterny Profinit. All rights reserved.

Metadata Profinit. All rights reserved.

Integrace dat Profinit. All rights reserved.

Databáze 2011/2012 SQL SELECT II. RNDr.David Hoksza, Ph.D.

Datový sklad. Datový sklad

EXTRAKT z mezinárodní normy

Business Intelligence. Adam Trčka

GLOBÁLNÍ ARCHITEKTURA ROB

HTML šablona v MarushkaDesignu

Projektový manuál: SME Instrument Brno

Specifikace pro SW aplikaci Start-up business.

Datová kvalita Profinit. All rights reserved.

16. Kategorizace SW chyb, kritéria korektnosti a použitelnosti, spolehlivost SW

A0M33PIS - Průmyslové informační systémy

Ministerstvo vnitra České republiky vyhlašuje Výzvu k předkládání žádostí o finanční podporu v rámci Integrovaného operačního programu

TEORIE ZPRACOVÁNÍ DAT Cvičení 8

ETICKÝ A OBCHODNÍ ŘÁD ANTIMONOPOLNÍ & KONKURENČNÍ POLITIKA

Business Intelligence - principy, efekty, předpoklady. OKsystem, 26/11/2009

Maturitní prací student osvědčuje svou schopnost samostatně pracovat na projektech a aktivně využívat nabyté zkušenosti

Realtime prostředí a telco. Jakub Reschke Praha,

Řízení kvality, kontroling, rizika. Branislav Lacko Martina Polčáková. Kateřina Hrazdilová Bočková - konzultantka

Témata modulu a úkoly jsou využitelné ve výuce tematické oblasti RVP Člověk a svět práce ve středních školách.

Databáze 2011/2012 SQL DDL (CREATE/ALTER/DROP TABLE), DML (INSERT/UPDATE/DELETE) RNDr.David Hoksza, Ph.D.

Databáze 2011/2012. Optimalizace, základní konstrukty T-SQL RNDr.David Hoksza, Ph.D.

Vnitřní předpis města Náchoda pro zadávání veřejných zakázek malého rozsahu (mimo režim zákona č. 137/2006 Sb., o veřejných zakázkách)

Příloha č. 9. Podmínky Výběru hotovosti a Bezhotovostního převodu. 1. Podmínky Výběru hotovosti prostřednictvím Bankomatu

POLITIKA CESTOVNÍHO RUCHU V ČR V LETECH A JEJÍ OČEKÁVANÉ MOŽNOSTI V LETECH

Podnikové informační systémy Jan Smolík

Co JE, K ČEMU JE A JAK SE PRACUJE S GISEM

Software Quality Assurance. Tomáš Krátký, Bohumír Zoubek

Dotazník tvoří celkem 25 otázek. Jejich zpracování stanovujeme do Garantujeme důvěrnost veškerých získaných informácí.

SEGMENT SPOTŘEBITEL. (úvěry pro FOO)

PŘEDSTAVENÍ PRODUKTU AUTOPOJIŠTĚNÍ PRO SPOLEČNOST VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA

Portál veřejné správy

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Configuration Management

Zadávací dokumentace pro zakázku na služby zadávanou v souladu s postupy pro zadávání zakázek v rámci programu JPD 3

integrované povolení

Databáze. Optimalizace, základní konstrukty T-SQL David Hoksza

... P R O V A ŠE P O H O D L Í

Requirements Engineering

kapitola 2 Datové sklady, OLAP

Zadávací dokumentace Příloha č. 1B Technická specifikace předmětu plnění pro část 2 Nákup univerzálního kabelážního systému a rozvaděčů pro DC

Veřejná zakázka SUSEN generální dodávka staveb v areálu Řež. Dodatečná informace č. 1 k zadávacím podmínkám

Bohužel nejste jediní. Jak se v této džungli orientovat a jaké jsou možnosti při prodeji nemovitosti se dozvíte na následujících stránkách.

Program prevence nehod a bezpečnosti letů

DeepBurner Free 1.9. Testování uživatelského rozhraní s uživateli Deliverable B1 TUR Testování uživatelských rozhraní 2011 ČVUT FEL

Design databáze. MI-DSP 2013/14 RNDr. Ondřej Zýka,

k elektronickému výběrovému řízení na úplatné postoupení pohledávek z titulu předčasně ukončených leasingových smluv

Balíček oběhového hospodářství v Evropě

NÁVODNÁ STRUKTURA MÍSTNÍHO AKČNÍHO PLÁNU VZDĚLÁVÁNÍ

Návod k vyplňování formulářů - vyúčtování

Vedení projektů, Odhadování, historie. Jiří Mach

Vizualizace TIN (trojúhelníková nepravidelná síť) v Marushka Designu

VŠB Technická univerzita, Fakulta ekonomická. Katedra regionální a environmentální ekonomiky REGIONÁLNÍ ANALÝZA A PROGRAMOVÁNÍ.

Pracovní seminář Koncesní řízení na provozování Vak dobrá praxe

Role metodika v procesu zavádění a ověřování standardů kvality v praxi

Pojistná matematika. Podstata pojišťovny: se vzrůstajícím počtem klientů, klesá pojistně technické riziko.

Reference Model for Optimization of Cost Allocation and Planning for Management of Business Informatics

SMART Notebook Math Tools 11

Financování veřejných vysokých škol v letech :

KAPITOLA II ZÁKON NA OCHRANU OVZDUŠÍ ZÁKLADNÍ POVINNOSTI...13 KAPITOLA III PROVÁDĚCÍ PŘEDPISY K ZÁKONU O OVZDUŠÍ ZÁKLADNÍ POPIS...

Analýza a modelování dat. Přednáška 9

C V I Č E N Í 3 1. Představení firmy Glaverbel Czech a.s. Teplice a. Vyráběný sortiment

Projekt Geostat 1B a Sčítání lidu, domů a bytů 2011 Konference k projektu ERRAM CZ-AT

MarketsTrader 2 Stručný návod Poslední Update: říjen 2013

ZNALECKÝ POSUDEK. č

Databáze 2011/2012 T-SQL - kurzory, funkce. RNDr.David Hoksza, Ph.D.

INFORMACE SPOLEČNOSTI V SOUVISLOSTI S POSKYTOVÁNÍM INVESTIČNÍCH SLUŽEB

GeoDTM. Uživatelská příručka. Výstup byl vytvořen s finanční podporou TA ČR v rámci projektu TA Verze 1.0

16. výzva IROP Energetické úspory v bytových domech

Záměr první fáze redesignu webu Fakulty aplikovaných věd

Návrh zákona o evidenci tržeb připomínkové řízení

Výzva k podání nabídek

CZ. Regulační ventily Regulační ventily s omezovačem průtoku BEE line -1-

Analýza a modelování dat. Přednáška 8

Optimalizace Profinit. All rights reserved.

Eda. Evidence obchodních aktivit. Proces nákupu

PEXESO UŽIVATELSKÝ MANUÁL

Co dál po registraci Žádosti o dotaci z PRV???

10. Datové sklady (Data Warehouses) Datový sklad

Portál veřejné správy

Obsah cvic ení procvic ovane dovednosti

Přednášky Teorie řízení Tereza Sieberová, 2015 LS 2014/2015

Oprava a modernizace panelového bytového domu Pod Špičákem č.p , Česká Lípa

Zpravodaj projektu PREGNET

- Aplikace je napsána v C#.NET, je instalována na webovém serveru - Data jsou ukládána v databázi MS-SQL 2005 a vyšší

INFORMACE O NOVÉ VERZI POSKI REAL

5. Způsob hodnocení nabídek Nabídka bude hodnocena podle základního hodnotícího kritéria, kterým je nejnižší nabídková cena.

Proč vlastně pečivo jíst

PRAVIDLA PRO ŽADATELE A PŘÍJEMCE PODPORY. v Operačním programu Životní prostředí pro období

MAS VÝCHODNÍ SLOVÁCKO

Instalace a technické informace

Témata v MarushkaDesignu

Transkript:

Dimenzinální mdelvání RNDr. Ondřej Zýka ndrej.zyka@prfinit.eu 2014 Prfinit. All rights reserved.

Dimenzinální mdelvání Ralph Kimball (1997) Primárně mdely pr datvé sklady a analýzy Silně denrmalizvaný mdel Mdely Pchpitelné pr netechnicky rientvané uživatele Snadn rzšiřitelné Orientvané na analytické dtazy Pdprvané datvými servery a analytickými nástrji (OLAP) Schpnst reprtvat z extrémníh bjemu dat Minimum update puze přidávání dat Pžadavek neměnící se histrie Technlgie neumí sučasný update a select 2014 Prfinit. All rights reserved. 2

Příklad 2014 Prfinit. All rights reserved. 3

Standardní dtaz select SUM(qty) frm F_SALES,D_TIME,D_TITLES,D_STORES,D_AUTHORS where F_SALES.TITLES_KEY = D_TITLES.TITLES_KEY and F_SALES.STORES_KEY = D_STORES.STORES_KEY and F_SALES.AUTHOR_KEY = D_AUTHOR.AUTHOR_KEY and F_SALES.DATE_KEY = D_DATE. DATE_KEY and pdminky na D_TITLES and pdminky na D_STORES and pdminky na D_AUTHORS and pdminky na D_DATE grup by pzadvana granularita vysledku 2014 Prfinit. All rights reserved. 4

Star schéma Dimenze Stre Time Transactin Date Grcery Transactin Stre Number Stre Name City State Cuntry Telephne Stre Number Transactin Date Custmer Prduct Quantity Amunt 2014 Prfinit. All rights reserved. Custmer Custmer Frm Date T Date First Name Last Name Address 1 Address 2 Address 3 City State Cuntry Pstal Cde Fakta Prduct Prduct Descriptin Categry 5

Snwflake schéma Sales Perid Perid Identifier Sales Perid Frm Date T Date Regin Regin Descriptin Time Transactin Date Grcery Transactin Stre Number Transactin Date Custmer Prduct Quantity Amunt Stre Stre Number Stre Name City State Cuntry Telephne Regin Custmer Categry Categry Custmer Categry Custmer Custmer First Name Last Name Address 1 Address 2 Address 3 City State Cuntry Pstal Cde Custmer Categry Prduct Prduct Descriptin Categry Prduct Categry Prduct Categry Descriptin 2014 Prfinit. All rights reserved. 6

Snwflake mdel Výhdy Nevýhdy Minimální redundance dat v rámci dimenzí Slžitější knstrukce dtazů, mnh jinů Úspra místa v databázi Nižší výknnst Větší flexibilita pr mdelvání Užitečný pr dimenze se slžitu strukturu Kmplikvaný snwflake mdel může dradit uživatele d příméh přístupu k datům uživatelské nástrje zpravidla zavádějí sémanticku vrstvu, která uživatele dstíní d datvéh mdelu Mžný knflikt s bitmapvými indexy Úspra místa je většinu převážena nižší výknnstí a slžitější administrací 2014 Prfinit. All rights reserved. 7

Cnstellatin schéma Stre Stre Number Stre Name City State Cuntry Telephne Regin Prduct Inventry Prduct Warehuse Lcatin Quantity On Hand Quantity Back Ordered Warehuse Warehuse Address 1 Address 2 Address 3 City State Cuntry Pstal Cde Vendr Vendr Vendr Name Address 1 Address 2 Address 3 City State Cuntry Pstal Cde Time Transactin Date Grcery Transactin Stre Number Transactin Date Custmer Prduct Purchase Quantity Amunt Prduct Purchases Prduct Purchase Date Supplying Vendr Purchase Order Unit Quantity Purchase Cst Custmer Custmer First Name Last Name Address 1 Address 2 Address 3 City State Cuntry Pstal Cde Custmer Categry 2014 Prfinit. All rights reserved. Prduct Prduct Descriptin Categry Prduct Line 8

Snwstrm schéma Sales Perid Perid Identifier Sales Perid Frm Date T Date Prmtin Perid Prmtin Id Prmtin Frm Date T Date Stre Stre Number Stre Name City State Cuntry Telephne Regin Regin Regin Descriptin Prduct Inventry Prduct Warehuse Lcatin Quantity On Hand Quantity Back Ordered Warehuse Warehuse Address 1 Address 2 Address 3 City State Cuntry Pstal Cde Vendr Vendr Vendr Name Address 1 Address 2 Address 3 City State Cuntry Pstal Cde Time Transactin Date Grcery Transactin Stre Number Transactin Date Custmer Prduct Purchase Quantity Amunt Prduct Purchases Prduct Purchase Date Supplying Vendr Purchase Order Unit Quantity Purchase Cst Custmer Categry Categry Custmer Categry 2014 Prfinit. All rights reserved. Custmer Custmer First Name Last Name Address 1 Address 2 Address 3 City State Cuntry Pstal Cde Custmer Categry Prduct Prduct Descriptin Categry Prduct Line Prduct Line Prduct Line ID Descriptin Prduct Categry Prduct Categry Descriptin 9

Pstup návrhu mdelu 1. Výběr sledvaných prcesů 2. Určení granularity 3. Určení dimenzí 4. Určení metrik 5. Definice získávání dat (ETL) 2014 Prfinit. All rights reserved. 10

Výběr sledvaných prcesů Seznam prcesů, které chceme analyzvat Od jedndušších ke slžitějším Bus matrix Matice: Business prcesy x Dimenze Čast dpvídá jeden business prces jeden datamart 2014 Prfinit. All rights reserved. 11

Date Custmer Service Rate Categry Lcal Svc Prvider Calling Party Called Party Lng Dist Prvider Internal Organizatin Emplyee Lcatin Equipment Type Supplier Item Shipped Weather Accunt status Bus matrix Custmmer Billing Service Orders Truble Reprts Yellw Page Ads Custmer Inquiries Prmtin Billing Call Detail Netwrk Call Detail Custmer Inventry Netwrk Inventry Real eastate Labr & Payrll Cmputer Charges Purchase Orders Supplier 2014 Prfinit. Deliverables All rights reserved. 12

Buss matrix 2014 Prfinit. All rights reserved. 13

Bus architektura a schéma - příklad 2014 Prfinit. All rights reserved. 14

Určení granularity Všechny řádky musí mít stejnu granularitu Granularita malá Jeden řádek jedn měření Velký bjem dat Granularita velká Malé databáze Omezená mžnst analýz Hdnty dpvídají průniku všech dimenzí Někdy ptřeba realkace dat na něklik řádek Řádky s hdntu nula se nazapisují 2014 Prfinit. All rights reserved. 15

Fact tables Transactin - c řádek t transakce (například bchdy) Prces může bsahvat více typů transakcí, rzhdnutí zda jedna neb více tabulek není jednduché Snapshts - každý den se udělá celý snímek State mdel celé denní snímky Event mdel každý den puze změněné záznamy Mžnst dpčítání dalších hdnt ke každému snímku Akumulujíce se shapshty (sklad) Id výrbku jak primární klíč a dplňují/updatují se hdnty pr událsti ppisující živtní cyklus D danéh řádku se dplní datum expedice, fakturace, ddání, vyúčtvání, Pzr - update v tabulce faktů (Fact tables bez faktů služí jak n:n vazba mezi dimenzemi) 2014 Prfinit. All rights reserved. 16

Fact tables Fakta aditivní - pčet, cena v transakčních fact tabulkách Význam pr všaechny dimenze Nejlépe se s nimi pracuje Cílem je převést na aditivní fakta maximum Discunt -> ceníkvá cena, prdejní cena semiaditivní - pčet cena v snapsht tabulkách sučet za prdukty má význam, za čas nemá význam Obecně význam puze pr některé dimenze nnadditive - prcentuální prfit Čast text Někdy mžné přenést d dimenzí (degenervané dimenze) Factless fact table puze cizí klíče, žádná fakta Příznak existence (účast v kampani) 2014 Prfinit. All rights reserved. 17

Určení dimenzí Knfrmní dimenze Jedna nejpdrbnější dimenze, statní jsu jejich agregací Jedntné dimenze pr všechny business prcesy Struktura Jeden slupec primárníh klíče Hdně slupců ppisů, čast přes 30, čím více tím lépe Atributy spíše textvé (srzumitelnst) Hierarchie pr analýzy Časvá dimenze Degenervaná dimenze nemá ppis (čísl faktury) Dimenze jsu denrmalizvané (jedna širká tabulka) Nrmalizace vlčkvé schéma Řádek s hdntu Nt applicable, Uknwn 2014 Prfinit. All rights reserved. 18

Časvá dimenze V každém datvém skladu Čast mnh hierarchií Prvzní rk Fiskální rk Kalendářní rk Mnh slupců Textvá infrmace Číselná infrmace Knce a začátky bdbí 2014 Prfinit. All rights reserved. 19

Časvá dimenze 2014 Prfinit. All rights reserved. 20

Dimensins Schéma a instance dimenze lkace Pužití srzumitelných dat, texty Čast dvzen z jiných zdrjů (i externích) Redundance dat je puze v dimenzích (nikliv ve faktvých tabulkách) Umžňuje vybírat a agregvat data p úrvních Hierarchie by měli mít knstatní hlubku (nedplňvat reginy jenm někde) Hierarchie jsu bsaženy v metadatech dimenzích 2014 Prfinit. All rights reserved. 21

Hierarchie Ppis jak agregvat hdnty jedné dimenze Může existvat něklik nezávislých hierarchií na jedné dimenzi Drill-dwn pdle dimenzí Dimenze času Nejmenší granularita den 6 nezávislých dimenzí 2014 Prfinit. All rights reserved.

Typy dimenzí Knfrmní Pr celý pdnik Ostatní dimenze jak pdimenze knfrmních dimenzí Minidimenze a sběrné dimenze Číselníky Stavvé a textvé atributy Mžné slučit d sběrných dimenzí Degenervané dimenze Přím v tabulce faktů (čísl bjednávky) 2014 Prfinit. All rights reserved. 23

Typy dimenzí z phledu změn Statické Žádné šetření změn V případě změny se přepíše starý záznam Žádná histrie Rstucí dimenze Přidávají se nvé záznamy V případě změny se přepíše starý záznam Žádná histrie Rychle rstucí diimenze Nutné speciální řešení Oddělení rychle se měnících atributů d vlastní dimenze (Jak Slwly changed dimensin Type 2) Slwly changing dimenze 2014 Prfinit. All rights reserved. 24

Slwly changing dimensin Typ 1 přepis hdnt Žádná histrie Typ 2 přidávání řádků, vždy jeden platný Přidané ple Begin date, End date, Eff date key, Change reasn text, Current flag Kmpletní histrie Typ 3 alternativní realita vice mžnstí v jeden čas Přidání nvých záznamů uchvání sučasné a předchzí hdnty v případě změny Redundance nebývá prblém Dimenze zabírají cca 5% místa v DWH 2014 Prfinit. All rights reserved. 25

Dimensinální mdel ve zkratce Fact tables fakta (metriky) a cizí klíče z dimenzí Dimensin tables jeden slupec primárníh klíče a mnh ppisných slupců Star schéma Další speciální tabulky 2014 Prfinit. All rights reserved. 26

Příklad Fakta Pčet prdaných knih Cena za prdané knihy Dimenze Knihy Obchdy Čas Hierarchie Knihy Kniha typy knih vše Čas Den kalendářní měsíc kalendářní kvartál kalendářní rk celá histrie Obchdy Obchd hierarchická struktura pdle ústředí vše 2014 Prfinit. All rights reserved. 27

Další témata Údržba mdelu Přidělvání klíčů Vazba mezi identifikací ve vstupních datech a primárními klíči Datvá kvalita Agregace Vstupní data snapshts neb events 2014 Prfinit. All rights reserved. 28

OLAP technlgie Ulžení a zpracvání dat pdprující určité druhy analýz parameterized static reprting slicing and dicing with drill dwn what if? analysis gal seeking mdels Způsb ulžení předpčítaných hdnt (denrmalizace) Ulžení agregvaných hdnt vyžadvaných analýzami pdle zadaných Metrik Dimenzí Hierarchií na dimenzích 2014 Prfinit. All rights reserved. 29

OLAP technlgie Ulžení a zpracvání dat pdprující určité druhy analýz parameterized static reprting slicing and dicing with drill dwn what if? analysis gal seeking mdels Způsb ulžení předpčítaných hdnt (denrmalizace) Ulžení agregvaných hdnt vyžadvaných analýzami pdle zadaných Metrik Dimenzí Hierarchií na dimenzích 2014 Prfinit. All rights reserved.

Multidimenzinální databáze Nutné rzlišit Princip Práce s dimenzemi Práce s hierarchiemi Skutečný způsb ulžení dat Relační mdel Speciální úlžiště se speciálními indexy Kategrizace dle místa ulžení dat a agregací MOLAP veškerá data ulžená v multidimenzinální databázi ROLAP veškerá data ulžená v relační HOLAP hybrid Další typy RTOLAP real time, data puze v RAM DOLAP desktp OLAP, data ulžená na klientském pčítači 2014 Prfinit. All rights reserved. 31

Příklady ddavatelů OLAP serverů MS Analysis Services IBM Cgns Oracle OLAP ptin Hyperin Essbase Business Objects MicrStrategy SAS 2014 Prfinit. All rights reserved. 32

C si zapamatvat K čemu služí dimenzinální datvé mdely Jaké jsu hlavní rzdíly relačníh a dimenzinálníh mdelvání Jaké jsu rzdíly mezi mdely typu hvězda, suhvězdí, vlčka neb sněhvá buře Jaký je dpručený pstup při návrhu dimenzinálníh mdelu C t je Buss Matrix, k čemu služí Jaké typy faktvých tabulek se pužívají C t je aditivní, semiaditivní a neaditivní metrika Jaké typy dimenzí se pužívají C t je "Slwly changing dimensin f type 2" C t je OLAP databáze 2014 Prfinit. All rights reserved. 33

2014 Prfinit. All rights reserved. Diskuse