Datový sklad. Datový sklad



Podobné dokumenty
BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Business Intelligence. Adam Trčka

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

Podnikové informační systémy Jan Smolík

3 zdroje dat. Relační databáze EIS OLAP

10. Datové sklady (Data Warehouses) Datový sklad

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

DATABÁZOVÉ SYSTÉMY. Vladimíra Zádová, KIN, EF TUL - DBS

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

Základy business intelligence. Jaroslav Šmarda

Business Intelligence

Konceptuální modely datového skladu

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

kapitola 2 Datové sklady, OLAP

Datové sklady. Multidimenzionální modelování Modely datového skladu Návrh datového skladu v rámci návrhu IS/ICT. Vladimíra Zádová, KIN, EF, TUL

Získávání znalostí z dat

RELAČNÍ DATABÁZOVÉ SYSTÉMY


Přehled systému Microsoft SQL Server. Komu je kniha určena Struktura knihy Nejvhodnější výchozí bod pro čtení knihy Konvence a struktura knihy

On line analytical processing (OLAP) databáze v praxi

Základní informace o co se jedná a k čemu to slouží

Business Intelligence

CPM/BI a jeho návaznost na podnikové informační systémy. Martin Závodný

Informační systémy 2006/2007

Databázové systémy. 10. přednáška

Databázové systémy trocha teorie

KIS A JEJICH BEZPEČNOST-I

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

FINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ

Analýza a modelování dat. Přednáška 9

Analýza a modelování dat. Přednáška 8

Etapy tvorby lidského díla

Zvyšování výkonnosti firmy na bázi potenciálu zlepšení

Návrh datového skladu z hlediska zdrojů

DOPLNĚK. Projekt Informační systém základních registrů je spolufinancován Evropskou unií z Evropského fondu pro regionální rozvoj.

Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu PEF MZLU v Brně

Ing. Roman Danel, Ph.D. 2010

Data v informačních systémech

Práce s velkými sestavami

Řízení ICT služeb na bázi katalogu služeb

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Infrastruktura UML. Modelování struktury v UML. Superstruktura UML. Notace objektů. Diagramy objektů

Prof. Ing. Miloš Konečný, DrSc. Nedostatky ve výzkumu a vývoji. Klíčové problémy. Tyto nedostatky vznikají v následujících podmínkách:

2. Konceptuální model dat, E-R konceptuální model

NÁSTROJE BUSINESS INTELLIGENCE

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Kvalita dat v datovém skladu nezbytný předpoklad reportingu

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Aplikace moderních informaèních technologií v øízení firmy Nástroje ke zvyšování kvality informaèních systémù

Databáze Bc. Veronika Tomsová

4IT218 Databáze. 4IT218 Databáze

Pattern Datový sklad. RNDr. Ondřej Zýka

TRANSFORMACE RELAČNÍHO DATOVÉHO MODELU NA OBJEKTOVÝ TRANSFORMATION OF RELATIONAL TO OBJECT DATA MODEL

Analýza a modelování dat 5. přednáška. Helena Palovská

Katalog služeb a podmínky poskytování provozu

Využití moderní self-service BI technologie v praxi

Podíl zdrojů informací

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

Ing. Petr Kalčev, Ph.D.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Modelování a návrh datových skladů

ELEKTRONICKÁ PORODNÍ KNIHA POPIS APLIKACE Michal Huptych, Petr Janků, Lenka Lhotská

Business Intelligence

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

On line sledování, plánování a řízení výroby - MES HYDRA

ZPRACOVÁNÍ NEURČITÝCH ÚDAJŮ V DATABÁZÍCH

IS SEM - informační systém pro správu a evidenci nemovitého majetku hlavního města Prahy

Datové sklady a využití datové struktury typu hvězda pro prostorová data

Výuka integrovaných IS firem a institucí na vysokých školách (zkušenosti, nové příležitosti, omezení)

Institut biostatistiky a analýz MU. Zkušenosti s vyhodnocováním telemedicínských technologií

Budování informačních systémů pro komunitní plánování

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Data v počítači EIS MIS TPS. Informační systémy 2. Spojení: jan.skrbek@tul.cz tel.: Konzultace: úterý

10. blok Logický návrh databáze

Efektivní řízení pomocí Business Intelligence. Ján Zajíc (Clever Decision) Robert Havránek (Microsoft)

Slaďování pracovního a rodinného života a rovné příležitosti žen a mužů mezi mosteckými zaměstnavateli

MEZINÁRODNÍ AUDITORSKÝ STANDARD ISA 530 VÝBĚR VZORKŮ

Podpora manažerského rozhodování užitím Business Intelligence Ing. Jan Klimeš, ORTEX spol. s r.o., Hradec Králové

Infor Performance management. Jakub Urbášek

MINISTERSTVO VNITRA ČR

QAD Business Intelligence

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Návrh ROLAP databáze v zemědělském podniku: Transformace ekonometrického modelu do konceptuálního modelu dat

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

PV005 Služby počítačových sítí: Data Warehouses

Architektury Informačních systémů. Jaroslav Žáček

Advanced SQL Modeling in RDBMS - SQL Spreadsheet part1. Your Organization (Line #1)

MEZINÁRODNÍ AUDITORSKÝ STANDARD ISA 700 FORMULACE VÝROKU A ZPRÁVY AUDITORA K ÚČETNÍ ZÁVĚRCE

Elektronická spisová služba

Jedno globální řešení pro vaše Mezinárodní podnikání

Competitive Intelligence

OSOBNÍ ANGAŽOVANOST SOCIÁLNÍHO PRACOVNÍKA

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

Rámcové indikátory inkluzívního hodnocení

InTouch 8.0 Subsystém distribuovaných alarmů

DATA CUBE. Mgr. Jiří Helmich

Transkript:

Datový sklad Postavení v rámci IS/ICT Specifika návrhu Modelování Datový sklad POSTAVENÍ NÁVRH Postavení datového skladu (DW) v IS/ICT z hlediska aplikací jako součást Business Intelligence z hlediska dat a procesů

Hlavní cíle Hlavní momenty návrhu datového skladu z hlediska postavení a povahy datových skladů Modelování datového skladu multidimenzionální modelování - modely požadavky na modely datového skladu Postavení a povaha datových skladů

Architektura IS/ICT BI CRM ERP SCM Aplikace pro podporu základních řídících a administrativních operací podniku Obecná koncepce architektury BI Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005

DW - definice je subjektově orientovaná, integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů subjektová orientace DW je organizován podle hlavních subjektů podniku (zákazníci, prodej, produkt..), ne podle procesů (aplikací) reflektuje potřeby uložení dat pro rozhodování v jedné databázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci ) integrovaná do celku jsou vkládána data z různých aplikací - nekonzistentnost, různé formáty integrací těchto dat - prezentace unifikovaného pohledu B. Inmon časově variantní DW data v DW jsou platná a přesná jen v bodech, ne intervalech času uložení historie dat - hodnoty v časových bodech ( den, měsíc, Q, rok..) v DW vždy dimenze času stálá data v DW nevznikají, nedají se žádnými nástroji měnit aktualizace DW - jen přidávání dat v pravidelných časových intervalech (jako doplněk), integrace přírustků další definice - většinou zahrnují procesy spojené s přístupem k datům z původních zdrojů

Postavení DW v rámci IS/ICT z hlediska dat a procesů IS/ICT - vztahy mezi daty a procesy BI OLTP ETL OLAP, DM, Operativní data Datové sklady OLAM, EIS DATAWAREHOUSING

dotazy/reporting dotazy na to CO je v databázi OLAP PROČ jsou některé fakty pravdivé uživatel generuje hypotézu a OLAP slouží k jejímu ověření je závislý na schopnostech analytika, ten se iterací dostává k výsledku Dolování dat představuje nástroje, které generují hypotézy a pokračují v provádění objevování znalostí bez navádění uživatelem ANALÝZA OLAP - Online Analytical Processing definice Definovaná řada principů, které poskytují dimenzionální rámec pro podporu rozhodování. Dynamická syntéza, analýza a fúze velkého objemu multidimenzionálních dat.

OLAP On-line Analytical Processing = provádění analýz nad multidimenzionální databází, která je vybudovaná jako logickáči fyzická vrstva nad DW operace drilling: roll-up, drill-down (zvýšení snížení stupně agregace) slicing ( selekce) - provedenířezu v multidimenzionální databázi dicing - projekce pivoting - přeorientování vícerozměrného pohledu na data ANALÝZA OLAP Coddova pravidla pro OLAP 1. Multidimenzionální konceptuální pohled OLAP by měl poskytovat uživateli multidimenzionální model, který koresponduje s pohledem uživatele a je intuitivně analytický a snadný k užití 2. Transparentnost OLAP technologie, pod ní ležící databáze, architektura výpočtů i vstupní datové zdroje by měly být pro uživatele transparentní, aby si udržel svou odbornost i produktivitu při použití front-end nástrojů 3. Dostupnost OLAP by měl být schopen přistupovat k datům potřebným pro analýzu ze všech heterogenních podnikových zdrojů ( nezávisle na tom, odkud pocházejí )

ANALÝZA OLAP 4. Konzistentní vykazování I přes zvyšování počtu dimenzí, úrovní agregace a velikosti databáze by neměli uživatelé pocítit podstatné snížení výkonu 5. Architektura C/S OLAP musí odpovídat principům C/S architektury s přihlédnutím na max. cenu, výkon, flexibilitu 6. Generická dimenzionalita Každá dimenze musí být ekvivalentní jak ve struktuře, tak v operačních schopnostech ( tj. základní struktura, pravidla a reporting by neměly být zkresleny směrem k žádné dimenzi) ANALÝZA OLAP 7. Dynamické ošetřenířídkých matic OLAP by měl být schopen adaptovat své fyzické schéma na konkrétní analytický model, který optimalizuje řídkou matici, aby dosáhl a udržel požadovanou úroveň výkonu 8. Podpora pro více uživatelů OLAP musí být schopen podpořit skupinu uživatelů pracujících souběžně na tom samém, či odlišném modelu podnikových dat 9. Neomezené křížové dimenzionální operace OLAP musí rozeznat hierarchie dimenzí a automaticky provést asociované kumulované kalkulace v rámci dimenzí i mezi dimenzemi

ANALÝZA OLAP 10. Intuitivní manipulace s daty Slicing, dicing, drill down, roll-up a jiné manipulace by měly být provedeny prostřednictvím zachytit, uchopit a přemístit v buňkách kostky 11. Flexibilní vykazování Musí existovat schopnost uspořádat řádky, sloupce, buňky tak, aby byla umožněna analýza prostřednictvím vizuální prezentace analytických sestav 12. Neomezené dimenze a úrovně agregace analytický model může mít více dimenzí, každá dimenze může mít více hierarchií. OLAP by to neměl omezit Pozn.: časem byla formulována další pravidla; tato jsou základní FASMI test = Fast Analysis of Shared Multidimensional Information Uveden v roce 1995 FAST systém je navržen pro poskytování většiny požadovaných odpovědí na dotazy jeho uživatelů během 5 sekund, s tím, že by ty nejjednodušší analýzy neměly trvat více než 1 sekundu. Pouze několik dotazů může trvat více než 20 sekund

FASMI test ANALYSIS systém umí zvládat jakoukoli obchodní logiku či statistickou analýzu, kterou požaduje uživatel nebo aplikace SHARED systém musí zabezpečit veškeré bezpečností požadavky na důvěrnost dat. Jestliže umožňuje změny dat, musí současně vyřešit problémy aktualizace u vícenásobného přístupu k datům. MULTIDIMENSIONAL klíčový požadavek. Systém musí poskytnout multidimenzionální konceptuální pohled na data, a to včetně plné podpory hierarchií resp. vícenásobných hierarchií tak, aby bylo možné analyzovat data přirozeným způsobem. INFORMATION pojem označuje veškerá data a odvozené informace, které jsou potřeba pro činnost aplikace. Měří se kapacita vstupních dat, která mohou být zpracována, ne kolik jich může být uloženo ROLAP, MOLAP a HOLAP souvisí s uložením dat v OLAP ROLAP (Relational( OLAP) pro práci s relační databází (RDBMS) výhoda: dynamický přístup k detailním informacím v DW nevýhoda při nárustu komplexnosti a objemu databáze výrazné zpomalení odezvy na dotazy; snížení použitelnosti MOLAP (Multidimensional( OLAP) pro práci s multidimenzionální databází výhoda: rychlá odezva na dotaz a velké analytické možnosti nevýhoda: orientace na práci s agregovanými hodnotami bez možnosti zpracování velmi detailních informací. HOLAP (Hybrid OLAP) kombinují přednosti obou technologií. klient OLAP zpracovává relativně malé objemy dat uložené v paměti, výpočty jsou prováděny většinou v reálném čase

Dolování dat (Data Mining) Dolování dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody Cíl: obchodní výhoda řešení konkrétního problému nalezení cesty k zlepšení procesu předem definován, na jeho základě připravena data; není jednorázová analýza příprava podnikových procesů - aby umožnily využívání analýz (kontinuálně) a podporovaly zpětné vazby od uživatelů. Zpětné vazby ovlivňují proces sběru dat i definice nových cílů. Dolování dat a objevování znalostí v datech Knowledge Discovery in Databases ( KDD, objevování znalostí v datech ) obecně netriviální proces objevování platných, nových, potenciálně užitečných vzorů z dat. Dolování dat ( Data Mining) pouze krok v procesu KDD založený na aplikaci výpočetních technik, které na základě daných omezení poskytují vzory či modely nad danými daty

Dolování dat a objevování znalostí v datech vyhodnocení vzorů data relevantní pro úlohu dolování dat DW selekce čištění dat integrace dat DB fáze procesu KDD selekce výběr nebo segmentace dat podle kriteria, výběr vzorků dat předzpracování dat pro efektivní vyhodnocení dotazu čištění dat od nepotřebných dat, úprava formátů dat transformace pro obohacení použitelnosti dat data mohou být rozšířena o další atributy (např. demografické z externích zdrojů) dolování dat extrakce vzorů z dat interpretace a vyhodnocení identifikované vzory jsou interpretovány jako znalosti lze je použít k podpoře rozhodování

Cíle v procesu získávání znalostí verifikace - ověření hypotézy explorace - hledání nových znalostí predikce... prediktivní modely deskripce... deskriptivní modely cíle - pomocí modelů (odkrývání vzorů) prediktivní model předpovídá hodnoty určených atributů na základě známých hodnot jiných atributů. deskriptivní model popisuje vzory v existujících datech, jimi může ovlivňovat rozhodování. Hlavní rozdíl : v prediktivních modelech se provádí predikce explicitně pomocí deskriptivních modelů lze určit predikci implicitně Modely pro predikci klasifikace, regrese, časovéřady, shlukování pro deskripci asociační analýza, objevování posloupností, shlukování; charakterizace dat, porovnání

Hlavní momenty návrhu datového skladu Hlavní momenty návrhu datového skladu Návrh z hlediska procesů pro podporu rozhodování Návrh datového skladu z hlediska zdrojů dat Multidimenzionální modelování Přístup k budování datového skladu jako celku

Návrh z hlediska procesů pro podporu rozhodování OLTP ETL OLAP, DM Operativní data Datové sklady Granularita Dimenze Fakty Sledování ukazatelů Návrh z hlediska procesů pro podporu rozhodování Pro všechny procesy rozhodování je třeba stanovit zaměření, podrobnost a rozsah sledování (jednotlivé atributy vč. domén, které vyhovují požadavkům) dolování dat jedná se spíše o stanovení atributů jedné úrovně hierarchie OLAP určujícím z hlediska procesů je zejména jeho operace roll-up a drill down, eventuálně drill across u OLAP procesů se určují i atributy popisující více úrovní hierarchie, popřípadě vytvářející další hierarchie

Granularita datových skladů/tržišť Granularita datových skladů/tržišť Z hlediska charakteru sledování rozděleny do 3 základních typů (snímků): transakční snímek periodický časový snímek akumulační snímek. nejsou zcela odlišné, sdílí společné dimenze, pro poskytnutí kompletního vyhodnocení se mohou doplňovat.

Granularita datových skladů/tržišť Transakční snímek granularita vztažena ke konkrétní události je nejpodrobnější, je zaměřen na sledování chování reprezentuje transakce (události), které se staly v určitém konkrétním bodě - jen pokud událost nastane, bude záznam v tabulce faktů dimenze čas (může být vztaženo na datum a hodinu/část dne) obsahuje čas, kdy událost nastala k transakcím nemusí docházet pravidelně Granularita datových skladů/tržišť Periodický časový snímek jednotlivé záznamy odrazem všech aktivit v dané periodě (den, týden, měsíc) snímek reprezentuje agregaci transakčních aktivit na konci stanovené periody, neuvádí žádné podrobné informace na úrovni jednotlivých aktivit, které nastaly mezi dvěma po sobě následujícími časovými úseky menší počet dimenzí proti transakčnímu snímku v daném záznamu je uvedeno datum konce sledovaného období

Granularita datových skladů/tržišť Akumulační snímek pokrývá více procesů jednotlivé prvky se vkládají, ale stávající prvky se i aktualizují - na počátku nejsou známy všechny hodnoty atributů rozdíl od předchozích snímků typickým příkladem je zachycení výrobku jako toku od objednávky přes výrobu až po fakturaci, platbu, případě reklamaci jeden prvek obsahuje neurčitéčasové rozpětí čas je obsažen v několika rolích, reprezentuje hlavní milníky procesů jednotlivé aktualizace prvků typicky znamenají umísťování aktivit Dimenze

Dimenze Dimenze agregační hierarchie atributy agregační úrovně vlastnosti atributů specifické dimenze změny v dimenzích D 1 Základní představa D 2 F 1 D 3 D 4

Dimenze subjekt důležitý pro činnost organizace (posouzeníčinnosti organizace) určena atributy na různých úrovních podrobnosti nejvyšší granularita = nejjemnější úroveň podrobnosti atributy dimenzionální atributy (atributy agregační úrovně (aggregation level), úrovně dimenze (dimension level) nedimenzionální (non-dimensional atribute), vlastnosti prvků (property members), vlastnosti atributů (property attribute) Atributy dimenzí dimenzionální atributy (atributy agregační úrovně (aggregation level), úrovně dimenze (dimension level) určují agregační úrovně agregační úroveň je dána množinou svých instancí mezi atributy vyjadřujícími agregační úrovně existuje vztah 1:N, nebo M:N je-li 1:N, lze agregační úrovně mezi sebou porovnat, patří ke stejné agregační hierarchii je-li vztah M:N - agregační úrovně jsou mezi sebou neporovnatelné, patří do různých agregačních hierarchií operace roll-up, drill-down probíhají v rámci jedné agregační hierarchie

Atributy dimenzí nedimenzionální (non-dimensional atribute), vlastnosti prvků (property members), vlastnosti atributů (property attribute) blíže charakterizují jednotlivé úrovně, ale nevymezují je jsou volitelné (doména může obsahovat NULL) mohou být užity pro omezení výstupů při dotazování v žádném případě neslouží k určení hodnoty faktů vzhledem k dané agregační úrovni Agregační hierarchie pro agregační hierarchii se používá i termín agregační cesta (aggregation path) dimenze má alespoň 1 agregační hierarchii má-li jich více určuje se implicitní (hlavní) agregační hierarchie; ostatní jsou alternativní nejčastěji má dimenze pouze jednu minimální agregační úroveň a jednu maximální agregační úroveň tj. i v případě více agregačních cest všechny začínají i končí v jedné společné agregační úrovni atribut, který určuje nejvyšší úroveň granularity, je kandidátem na klíč dimenze, ale nejčastěji klíč dimenze umělý pokud je atribut, který určuje nejjemnější úroveň granularity, klíčem dimenze, je obsažen i v tabulce faktů

Agregační hierarchie jednoduché hierarchie dimenze (simple dimension hierarchy) pouze jedna hierarchie všechny agregační úrovně povinné násobné hierarchie dimenze (multiple dimension hierarchy) má alespoň dvě hierarchie hierarchie mohou být povinné i volitelné Volitelná agregační cesta (málo častá) závisí na hodnotě instance povinné agregační úrovně existují dvě povinné agregační úrovně úroveň štěpení (split level), úroveň spojení (join level), mezi kterými jsou volitelné agregační úrovně z úrovně štěpení dochází k rozdílnému sledování, které končí v úrovni spojení» na konkrétní hodnotě instance úrovně spojení závisí zvolení jedné z volitelných úrovní- této hodnotě se říká kontext vyhodnocení pro volitelnou úroveň (context of validity) (kontext závislosti (context of dependency) je pak dán volitelnou úrovní, úrovní spojení a kontextem vyhodnocení) Př. je zákazník, který je buď fyzická osoba, nebo právnická osoba. V závislosti na typu zákazníka je pak volena agregační úroveň sledování v případě právnické osoby odvětví, jinak profese. Konzistence v návrhu

Agregační cesta a operace roll-up, drill down pro zajištění konzistentních výsledků těchto operací je třeba přijmout omezení pro jednoduchou agregační cestu, či alternativní agregační cestu v dimenzi musí být splněno instance nižší úrovně agregace musí být přiřazeny právě k jedné instanci vyšší agregační úrovně (nikoli nejvýše jedné) tj. v případech, kdy po sobě následující agregační úrovně jsou povinné, je omezena funkční závislost nemůže být uvažována NULL hodnota v doméně vyšší úrovně» pokud pro instance nižší úrovně agregace není možné určit konkrétní instanci úrovně vyšší, nelze agregovat - přiřadí se do množiny instancí vyšší úrovně instance ostatní Agregační cesta a operace roll-up, drill down volitelné agregační cesty dosažení konzistence: - každá instance úrovně štěpení musí náležet právě k jedné volitelné agregační úrovni - pro volitelnou úroveň musí být splněno, že každá její instance (NOT NULL) náleží k jedné instanci úrovně spojení

Specifické dimenze přidané dimenze dimenze čas degenerované junk dimenze parent-child dimenze Specifické dimenze přidané dimenze dimenze získávané mimo produkční systémy dimenze čas (kalendář ) často obsahuje násobnou hierarchií většinou obsahuje datum a z něho odvozené atributy pořadí dne v měsíci, v roce, dny v týdnu, týden, čtvrtletí, může být vložen např. atribut teplota, druh dne v souvislosti s prázdninami, svátky

Specifické dimenze čas/kalendář atributy (např.: prázdniny, svátky) se mohou lišit v různých zemích pro sledováníčinnosti ve více zemích se uvedou atributy do podřízené tabulky národního kalendáře (primární klíč je identifikátor dne a země, vztah k základní dimenzi času je N:1) je-li sledován datum i čas, pak vhodnější do návrhu zařadit dvě dimenze jednu s minimální agregační úrovní den, druhou s minimální agregační úrovní specifikujícíčást dne Pokud nebudou uvedeny vlastnosti atributů, mohou být uvedeny části dne jako degenerovaná dimenze Specifické dimenze degenerované dimenze neexistuje pro ně tabulka dimenzí dimenze charakterizována jednou úrovní podrobnosti, neobsahuje vlastnosti atributů většinou primárníči alternativní klíče z transakčních systémů Pozn.: degenerovaná dimenze ovlivňuje podobu primárního klíče v tabulce faktů

Specifické dimenze seskupené dimenze (Junk dimension) je vhodné uskupení nesouvisících atributů, které jsou vyjmuty z tabulky faktů a dány do vhodného dimenzionálního rámce Atributy tvořící dimenzi významné z pohledu datového skladu (proto vybrány ze zdrojových systémů) nepatří k jednomu subjektu ke spojení do této abstraktní dimenze vede to, že patří do jedné transakční oblasti parent-child dimenze Specifické dimenze pomocí těchto dimenzí je vyjádřen rekurzivní vztah (strom), kdy nejnižší úroveň, list, nemá podřízenou úroveň, nejvyšší úroveň nemá nadřízenou úroveň tedy k vyjádření hierarchie s proměnlivou délkou atributy tvořící dimenzi obsahují atributy, které jsou spolu ve vztahu nadřízenosti (parent) a podřízenosti (child) často používány v oblasti řízení lidských zdrojů k vyjádření organizační hierarchie

Klíče v dimenzionálním schématu Náhradní klíč (surrogate key; umělý klíč, generovaný klíč, syntetický klíč) celočíselný klíč, který je přiřazen sekvenčně při vkládání do tabulek dimenzí slouží pouze ke spojení tabulky dimenzí a tabulky faktů výhoda při integraci dat z více zdrojů (pokud nekonzistence) menší nároky na paměť ( hlavně v tabulce faktů) chrání před změnami v původních transakčních systémech nutný při řešení typ 2 aktualizace měnících se dimenzí (viz dále) Změny v tabulce dimenzí

Dimenze a změny změny hodnot atributů dimenzí mohou probíhat rychle i pomalu, odlišení: pomalu se měnící dimenze (většina) rychle se měnící dimenze pro každý atribut třeba stanovit strategii pro vyjádření změn třeba již při i analýze zjistit od managementu jaké změny hodnot atributů jsou možné jaký výstup (informace) budou s ohledem na tyto změny požadovat Pomalé změny atributů dimenzí a jejich řešení tyto dimenze se blíží konstantním dimenzím atributy se mění v čase pomalu techniky pro vyjádření změn základní nahrazení hodnoty přidánířádku dimenzí přidání sloupce dimenzí hybridní předvídatelné změny s více verzemi překrytí nepředvídatelné změny s více verzemi překrytí

nahrazení hodnoty jinou Typ 1: nahrazení hodnoty atribut vždy zobrazuje aktuální hodnotu charakteristika: nejčastěji použita výhoda: jednoduchá k implementaci nevýhoda: možnost změn v agregovaných datech (reakce na změny) ztráta historie změn vhodnost: změna hodnoty atributu je korekcí Typ 2: přidánířádku dimenzí původnířádek se ponechá dalšířádek nová hodnota PK ( nový profil), změna hodnoty atributu/ů přibude řádek v tabulce faktů - při události (např. koupě výrobku) charakteristika: výhoda: žádné změny v agregovaných datech reprezentace historie - lepší analýza a vysvětlení změn lze sledovat počet změn dimenzí nevýhoda: nutnost použití umělého klíče růst tabulky dimenzí

Typ 3: přidání sloupce dimenzí umožňuje sledovat fakty v souvislostech - nové a předchozí (původní) hodnoty simultánně charakteristika: řídké užití nevýhoda: pokud více nepredikovatelných změn u jednoho prvku (řádku) je pak lepší typ 2, či hybridní strategie vhodnost: pokud chci sledovat obě hodnoty současně hybridní kombinuje základní techniky pro pomalu se měnící dimenze jsou flexibilnější, ale složitější předvídatelné změny s více verzemi překrytí nepředvídatelné změny s jedinou verzí překrytí další. nejčastěji v praxi typ 2

Rychle se měnící dimenze změny atributů probíhají s denní i častější periodicitou řešení závisí na velikosti dimenzí povaze rychle se měnících atributů Rychle se měnící dimenze pro malé dimenze nejčastěji užití typ 2 pro pomalu se měnící dimenze pro rozsáhle dimenze oddělení rychle se měnících atributů do jiné tabulky dimenzí výhoda sledování změn

Fakty Návrh z hlediska procesů pro podporu rozhodování = neklíčové atributy v tabulce faktů fakty, ukazatele, metriky aditivita faktů Specifika v tabulkách faktů kardinalita vztahu M:N tabulky bez faktů Specifika v tabulkách faktů tabulky bez faktů Tabulky bez faktů (factless fact tables) jsou preferovanou metodou pro záznam události v datovém skladu, kde neexistuje žádný přirozený numerický ukazatel spojený s událostí. Tabulky jsou také užity pro zabezpečení pokrytí Tabulka faktů obsahuje pouze klíčové atributy důvody 1. v datovém skladu je třeba evidovat jisté události, které nejsou vázány k žádnému ukazateli pouze zaznamenávají, že k uvedené události došlo jedná se o vztah mezi dimenzemi 2. tabulka bez faktů je doplňující tabulkou k tabulce faktů pokrývající tabulky (coverage table) dávají odpověď na to, co nenastalo

Specifika v tabulkách faktů kardinalita vztahu M:N Kardinalita vztahu mezi tabulkou dimenzí a tabulkou faktů obvykle kardinalita vztahu 1:N v některých případech je kardinalita vztahu M:N Specifika v tabulkách faktů kardinalita vztahu M:N jsou přesně známé všechny kombinace, které mohou nastat Př. dimenze podpora prodeje existuje několik druhů podpory, které působí jednotlivě i současně více podpor v jeden den na jednotlivý produkt nejsou přesně známé všechny kombinace, které mohou nastat nebo uvedení kombinací by nemělo smysl vzhledem k rozsahu Př. diagnóza na straně subjektu a fakty vztažené k jednomu pacientovi (pacient může mít jednu i více různých diagnóz, jejich kombinace se nemusí vyskytovat u více pacientů) řešení: vložení pomocné tabulky mezi tabulku dimenzí a tabulku faktů (převedení vztahu M:N na dva vztahy M:1 a 1:N

Návrh z hlediska procesů pro podporu rozhodování Sledování ukazatelů agregační funkce agregační vzory sled ukazatelů U ukazatele Sledování ukazatelů určit dimenze, k jakým je sledován v rámci dimenze určit nejvyšší granularitu v dané dimenzi další agregační úrovně sledování jaké agregační úrovně mají smysl jaké agregační funkce mají smysl u numerických ukazatelů uvést způsob výpočtu jednotný v rámci organizace (konformní fakty) Pozn.: způsob výpočtu a závislost mezi ukazateli ovlivňuje uložení ukazatelů do faktů pokud bude sledováno více ukazatelů ke stejným dimenzím na stejné nejvyšší úrovni podrobnosti, je možné je uložit do stejné tabulky faktů vhodnost vytvoření jedné tabulky faktů třeba zvážit s ohledem na další agregační úrovně

Sledování ukazatelů agregační funkce pro nenumerické ukazatele absolutníči relativníčetnost pro numerické ukazatele průměr, maximum, minimum, počet, popřípadě další statistické funkce, součet s ohledem na smysluplnost součtu je stanovena aditivita faktu Fakt je aditivní k dimenzi, pokud jeho hodnoty mohou být sčítány podle hierarchie dané dimenze Sledování ukazatelů Omezení množiny dotazů DO = {(Fi, Dj, Ag1,Ag2,...),... }, kde Fi - název faktu Dj - jméno dimenze Ag1 Agn - výčet agregačních funkcí, které nemají smysl

Sledování ukazatelů Agregační vzory (aggregation pattern) Každý fakt je funkčně určen agregačními úrovněmi dimenzí Odlišují se: Primární fakt (primary fact; elementární fakt) je funkčně určen minimálními agregačními úrovněmi všech dimenzí Sekundární fakty ty fakty, které jsou funkčně určeny z jiné než minimální agregační úrovně alespoň v jedné dimenzi kumulativnosti agregačních funkcí pro určení instancí sekundárních faktů je důležitá vlastnost kumulativnost agregační funkce provádění operace roll-up s kumulativní agregační funkcí hodnoty faktů vyšší agregační úrovně lze určit z hodnot faktů předchozí agregační úrovně provádění operace roll-up u nekumulativní funkce lze určit instance faktů jen z minimální agregační úrovně Obdoba při provádění agregace ve více než jedné dimenzi současně Agregační funkce součet, která se pro agregace nejčastěji používá, je kumulativní agregační funkcí.

požadavek uživatelů na zjištění konkrétní hodnoty faktu vzhledem k různým instancím agregačních úrovní dimenzí lze vždy vyjádřit pomocí operací projekce, selekce, agregační funkce Agregační vzor musí obsahovat: fakt, jehož hodnota má být určena agregační funkci výčet agregačních úrovní dimenzí vyjádření podmínek selekce. agregační vzor Jméno faktu (seznam agregačních úrovní dimenzí; podmínky výběru) Ωi kde Ωi agregační funkce z množiny agregačních funkcí, která bude použita při transformaci na vyšší úroveň agregace. Legálnost agregačního vzoru je posuzována přes agregovatelnost sledovaného faktu k uvedeným dimenzím

Ukazatel sled Při určování hodnot faktu, kdy ve více než jedné dimenzi jsou zvyšovány agregační úrovně z výchozí úrovně je postupně dosaženo úrovně cílové stanovení sledu je nutné u nekumulativní funkce Správně navržené multidimenzionální schéma Pro správný návrh schématu musí být splněny podmínky : pro dimenze: dimenze patřící k jednomu schématu jsou na sobě nezávislé vlastnosti atributů jsou v dimenzi přiřazeny právě k jedné agregační úrovni dimenze musí mít pouze jednu minimální agregační úroveň pro ukazatele: možnost získat ukazatele z faktů správnost určení k nejvyšší granularitě požadavky uživatelů na sledování ukazatelů k různým granularitám dimenzí.