kapitola 2 Datové sklady, OLAP



Podobné dokumenty
10. Datové sklady (Data Warehouses) Datový sklad

3 zdroje dat. Relační databáze EIS OLAP


Ing. Roman Danel, Ph.D. 2010

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Základy business intelligence. Jaroslav Šmarda

Databázové systémy. 10. přednáška

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

Business Intelligence

František Ščuglík. Datové sklady a Technologie OLAP pro dolování dat

Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu PEF MZLU v Brně

Základní informace o co se jedná a k čemu to slouží

Informační systémy 2006/2007

Datový sklad. Datový sklad

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

Business Intelligence

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Operátory ROLLUP a CUBE

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Analýza a modelování dat. Přednáška 8

Business Intelligence. Adam Trčka

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

Analýza a modelování dat 5. přednáška. Helena Palovská

Analýza a modelování dat. Přednáška 9

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Modelování a návrh datových skladů

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

Infor Performance management. Jakub Urbášek

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Data Warehouses. Jaroslav Bayer 1. Fakulta informatiky Masarykova univerzita

Distanční opora předmětu: Databázové systémy Tématický blok č. 3: OLAP, operátory CUBE a ROLLUP Autor: RNDr. Jan Lánský, Ph.D.

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky DIPLOMOVÁ PRÁCE

DATA CUBE. Mgr. Jiří Helmich

Pattern Datový sklad. RNDr. Ondřej Zýka

Dotazovací jazyky I. Datová krychle. Soběslav Benda

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Podnikové informační systémy Jan Smolík

Obr. 1 Plochý soubor s daty

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Konceptuální modely datového skladu

Databáze Bc. Veronika Tomsová

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

On line analytical processing (OLAP) databáze v praxi

DATOVÉ SKLADY A OLAP V PROSTŘEDÍ MS SQL SERVERU

Podpora manažerského rozhodování užitím Business Intelligence Ing. Jan Klimeš, ORTEX spol. s r.o., Hradec Králové

PV005 Služby počítačových sítí: Data Warehouses

Datové sklady ve školství

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

NÁSTROJE BUSINESS INTELLIGENCE

Data Cube. Luboš Kulič Tomáš Kuthan

Business Intelligence

Využití moderní self-service BI technologie v praxi

TM1 vs Planning & Reporting

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Konsolidovaný reporting CZ/SK v Cognos případová studie sanofi-aventis

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

Možnosti analýzy podnikových dat

Datové sklady a možnosti analýzy a reportování dat ve výuce

Business Intelligence a datové sklady

Analýza dat skoro zadarmo možnosti rozborů pro malé organizace

NÁSTROJE BUSINESS INTELLIGENCE A JEJICH IMPLEMENTACE V PODNIKU

Datové sklady. Multidimenzionální modelování Modely datového skladu Návrh datového skladu v rámci návrhu IS/ICT. Vladimíra Zádová, KIN, EF, TUL

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Informační systémy a datové sklady IS uměleckých galerií Analýza datového skladu

STÁTNÍ POKLADNA. Integrovaný informační systém Státní pokladny (IISSP)

Pilotní projekt implementace Business Intelligence ve studijní agendě VŠE v Praze

Projekt Business Intelligence pro společnost Nutricia, a.s.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

KIV/SI. Přednáška č.8. Jan Valdman, Ph.D.

Pattern Star Schema. RNDr. Ondřej Zýka

Multidimenzionální modelování v rámci analýzy a návrhu IS/ICT

MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY DIPLOMOVÁ PRÁCE. Manažerské systémy pro střední a menší firmy

Koncept architektury reportovacích a datově analytických systémů

GIS Libereckého kraje

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA PODNIKATELSKÁ ÚSTAV INFORMATIKY

Business Intelligence pro univerzitní prostředí

Kvalita dat v datovém skladu nezbytný předpoklad reportingu

Hvězda - multidimenziální datová struktura v praxi. Jiří Horák

Databáze II. 1. přednáška. Helena Palovská

Vysoká škola ekonomická v Praze

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

Dobývání dat z databází. Dagmar Létavková

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

výskyt události reakce na událost

QAD Business Intelligence

<Insert Picture Here> Na co se můžete s Oracle BI těšit

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Jan Váša TGB Sales Representative, Oracle Czech 10. června 2011 MRI Kladno

Analýza a návrh datového skladu pro telekomunikační společnost. Bc. Josef Jurák

Advanced SQL Modeling in RDBMS - SQL Spreadsheet part1. Your Organization (Line #1)

UNIVERZITA PARDUBICE FAKULTA EKONOMICKO-SPRÁVNÍ

Efekty a rizika Business Intelligence

Transkript:

Tomáš Burger, burger@fit.vutbr.cz kapitola 2 Datové sklady, OLAP Získávání znalostí z databází IT-DR-3 / ZZD

Co je to datový sklad A data warehouse is a subjectoriented, integrated, time-variant and nonvolatile collection of data in support of management s decision making process. W. H. Inmon: Building the Data Warehouse, 1996 ZZD 2005 - kapitola II - 2 / 20

Subject-oriented I Datový sklad je tématický Data jsou organizována okolo sledovaných témat Datový sklad obsahuje jen podstatná data ZZD 2005 - kapitola II - 3 / 20

Integrated II Datový sklad v sobě integruje řadu různých datových zdrojů Různé operativní databáze Jediný datový sklad Update-driven approach datový sklad se pravidelně aktualizuje z připojených datových zdrojů ZZD 2005 - kapitola II - 4 / 20

Time-variant III Data jsou určena v čase Historická data Verze dat v čase ZZD 2005 - kapitola II - 5 / 20

Nonvolatile IV Data v datovém skladu jsou stálá, dlouhodobá Datový sklad nepodporuje změny dat Datový sklad je fyzicky oddělené datové úložiště Data z operativních datových zdrojů jsou duplikována ZZD 2005 - kapitola II - 6 / 20

Datová kostka Datový sklad nemá tabulky, ale kostky Kostka má dimenze a hodnoty (measures) Redukcí dimenzí (group by) vznikají podkostky (cuboids) apex (souhrnný) cuboid bez dimenzí base (základní) cuboid všechny dimenze ZZD 2005 - kapitola II - 7 / 20

Databázové schéma Star hvězdicové uspořádání tabulka faktů klíče dimenzí a hodnoty tabulky dimenzí Snowflake vločka tabulky dimenzí se normalizují Fact Constelation kombinované star schéma více tabulek faktů, sdílené tabulky dimenzí ZZD 2005 - kapitola II - 8 / 20

Fact Constelation příklad Škola IČO Adresa PSČ Studium Student Škola Semestr Kredity Student Jméno Příjmení Rodné číslo PSČ Semestr Školní rok Letní/Zimní Datum_od Datum_do Knihovna Student Kniha Semestr Počet Pokuta Kniha Název ISBN Autor Rok vydáni ZZD 2005 - kapitola II - 9 / 20

Hodnoty Distributivní lze počítat postupně i najednou suma, maximum, minimum Algebraické kombinace několika distributivních hodnot pro daný počet hodnot průměr Holistické lze počítat jen komplexně pro celý soubor median ZZD 2005 - kapitola II - 10 / 20

Hierarchie organizace dimenzí Koncepční hierarchie úplné uspořádání ulice město region země kontinent Schématická hierarchie částečné uspořádání den (týden měsíc) rok Seskupovaná (set-grouping) hierarchie vzniká seskupováním hodnot dimenze cena, seskupená do intervalů ZZD 2005 - kapitola II - 11 / 20

Operace na datovém skladu Drill-down přidání jedné dimenze Roll-up odebrání jedné dimenze Slice & dice omezení dimenzí na některé hodnoty ZZD 2005 - kapitola II - 12 / 20

Drill-down Q1 100 80 Drill-down obohacuje pohled na data o novou dimenzi anebo nahrazuje obecnější dimenzi dimenzí detailnější ve smyslu koncepční hierarchie Čtvrtletí Q2 Q3 120 150 90 100 Obor Q4 90 70 Praha Plzeň Město Brno Leden 25 26 Únor 40 27 Měsíce Březen Duben... 35 50... 27 35... Obor Prosinec 20 15 Praha Plzeň Brno Město ZZD 2005 - kapitola II - 13 / 20

Roll-up Roll-up redukuje pohled na data o jednu dimenzi nebo nahrazuje dimenzi detailnější dimenzí obecnější Q1 100 80 Čtvrtletí Q2 Q3 120 150 90 100 Obor Q4 90 70 Praha Plzeň Brno Město Q1 180 Čtvrtletí Q2 Q3 210 250 Obor Q4 160 Čechy Země Morava ZZD 2005 - kapitola II - 14 / 20

Slice & dice Slice & dice redukuje obor hodnot jedné (slicing) nebo více (dicing) dimenzí podle zvoleného filtru Q1 100 80 Čtvrtletí Q2 Q3 120 150 90 100 Obor Q4 90 70 Praha Plzeň Brno Město obor = informatika země = Čechy Q1 20 15 Čtvrtletí Q2 Q3 30 30 18 21 Q4 18 13 Praha Město Plzeň ZZD 2005 - kapitola II - 15 / 20

Architektura datových skladů OLAP server Front end Datový sklad metadata administrace monitoring Datové zdroje ZZD 2005 - kapitola II - 16 / 20

ROLAP x MOLAP x HOLAP Dělení datových skladů podle technické realizace Relační OLAP Multidimenzionální OLAP Hybridní OLAP Používá relační databázi Efektivní na uložení, problematické na čtení Používá multidimenzionální pole Efektivní na čtení Problematické pro řídká pole Kombinuje výhody obou přístupů Detailní data v relačních databázích Agregace v multidimenzionálních polích ZZD 2005 - kapitola II - 17 / 20

Implementace datových skladů Částečná materializace (hodnoty) vybrané cuboidy jsou předpočítané zrychlení agregace hodnot Indexace (dimenze) sady hodnot v dimenzích se nahrazují technickými recordid zrychlení vyhledávání v dimenzích ZZD 2005 - kapitola II - 18 / 20

On Line Analytical Mining (OLAM) Mezistupeň: od datových skladů k dolování v datech Datový sklad s analytickými funkcemi vysoká kvalita dat snadná navigace ad-hoc aplikace snadných dolovacích funkcí ZZD 2005 - kapitola II - 19 / 20

Konec Děkuji za pozornost ZZD 2005 - kapitola II - 20 / 20