Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu 2011. PEF MZLU v Brně



Podobné dokumenty
Business Intelligence a datové sklady


Informační systémy 2006/2007

Základy business intelligence. Jaroslav Šmarda

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Základní informace o co se jedná a k čemu to slouží

10. Datové sklady (Data Warehouses) Datový sklad

3 zdroje dat. Relační databáze EIS OLAP

Ing. Roman Danel, Ph.D. 2010

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

Business Intelligence

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

kapitola 2 Datové sklady, OLAP

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

4IT218 Databáze. 4IT218 Databáze

Databáze Bc. Veronika Tomsová

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

NÁSTROJE BUSINESS INTELLIGENCE

Databázové systémy. 10. přednáška

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Business Intelligence

Business Intelligence. Adam Trčka

Datové sklady. Multidimenzionální modelování Modely datového skladu Návrh datového skladu v rámci návrhu IS/ICT. Vladimíra Zádová, KIN, EF, TUL

DATOVÉ SKLADY A OLAP V PROSTŘEDÍ MS SQL SERVERU

Podnikové informační systémy Jan Smolík

Datová věda (Data Science) akademický navazující magisterský program

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

STÁTNÍ POKLADNA. Integrovaný informační systém Státní pokladny (IISSP)

Analýza a modelování dat. Přednáška 8

Pilotní projekt implementace Business Intelligence ve studijní agendě VŠE v Praze

Konceptuální modely datového skladu

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

Data Warehouses. Jaroslav Bayer 1. Fakulta informatiky Masarykova univerzita

Modelování a návrh datových skladů

PostgreSQL jako platforma pro datové sklady

Datový sklad. Datový sklad

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Databáze v MS ACCESS

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

KAPITOLA 2. Architektura, modelování a implementace Business Intelligence procesů v SQL Serveru V této kapitole:

Archivace relačních databází

TM1 vs Planning & Reporting

PV005 Služby počítačových sítí: Data Warehouses

Moderní přístupy tvorby datových skladů

Analýza a modelování dat. Přednáška 9

Distanční opora předmětu: Databázové systémy Tématický blok č. 3: OLAP, operátory CUBE a ROLLUP Autor: RNDr. Jan Lánský, Ph.D.

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Data v informačních systémech

Možnosti analýzy podnikových dat

Dotazovací jazyky I. Datová krychle. Soběslav Benda

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

CPM/BI a jeho návaznost na podnikové informační systémy. Martin Závodný

Multidimenzionální modelování v rámci analýzy a návrhu IS/ICT

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Vytvoření datového skladu

Business Intelligence

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

Novinky SQL Serveru 2005 v oblasti Business Intelligence

Metadata. MI-DSP 2013/14 RNDr. Ondřej Zýka,

QAD Business Intelligence

Business Intelligence pro univerzitní prostředí

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

Efekty a rizika Business Intelligence

Analýza a návrh datového skladu pro telekomunikační společnost. Bc. Josef Jurák

Business Intelligence Hlavní témata, která budou v roce 2015 určovat vývoj business intelligence řešení a služeb.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Analýza dat skoro zadarmo možnosti rozborů pro malé organizace

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Datové tržiště nákladní přepravy

Infor Performance management. Jakub Urbášek

Návrh datového skladu z hlediska zdrojů

Datové sklady ve školství

Datové sklady a integrace podnikových aplikací

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

GIS a Business Intelligence

Projekt SEPIe - Datový sklad a analytická nadstavba MIS - manažerský informační systém pro vedoucí zaměstnance resortu MV (konference)

PROVÁZÁNÍ ECM/DMS DO INFORMAČNÍCH SYSTÉMŮ STÁTNÍ A VEŘEJNÉ SPRÁVY

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

Zajištění bezpečného provozu aplikací. odpovídající současným požadavkům

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY DIPLOMOVÁ PRÁCE. Manažerské systémy pro střední a menší firmy

Importy dat z relační databáze do OLAP datových kostek

Dolování v objektových datech. Ivana Rudolfová

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Operátory ROLLUP a CUBE

Koncept architektury reportovacích a datově analytických systémů

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ DATABÁZOVÉ SYSTÉMY ARCHITEKTURA DATABÁZOVÝCH SYSTÉMŮ. Ing. Lukáš OTTE, Ph.D.

Portfolio úložišť WD pro datová centra Kapacitní úložiště prošlo vývojem

Datové sklady a možnosti analýzy a reportování dat ve výuce

Ing. Jiří Fejfar, Ph.D. Geo-informační systémy

Možnosti nástrojů firmy Microsoft v oblasti Business Intelligence

Transkript:

PEF MZLU v Brně 1. listopadu 2011

Úvod Intenzivní nasazení informačních technologií způsobuje hromadění obrovské spousty nejrůznějších údajů. Příkladem mohou být informace z obchodování s cennými papíry nebo údaje z pokladen supermarketů. Množství získaných údajů ovšem neznamená stejné množství informací. Proces transformace je složitý a časově náročný. Tímto procesem se zabývá Business Intelligence. Jde nejen o zkoumání současných ale i predikování budoucích znalostí. Moderní DB servery umožňují budovat datové sklady a provádět nad daty analýzy (OLAP).

Transakční vs. analytické databáze Transakční databáze (OLTP) jsou určené k ukládání operačních údajů. Databáze v nich jsou zpravidla pro snížení redundance normalizovány což vede k velké strukturovanosti tabulek. Problémem transakčních systémů je decentralizace. Používají se různé systémy pro zpracování různých údajů (účetnictví, sklady, apod.). Naproti tomu jsou data v analytických databázích (OLAP) ukládána do hvězdicových nebo vločkových schémat a snaží se mít všechna data zpracovaná na jednom místě.

Nevýhody transakčních systémů pro analýzy Neuchovávají historické údaje Nehomogenní struktura údajů Dlouhý čas přípravy údajů Obtížné hledání příčin a závislostí jednotlivých údajů Analýza přímo v operačním prostředí snižuje výkon důležitých systémů Příliš rozsáhlé výstupy

Kvalita údajů pro analýzy V současnosti se hojně využívají různé druhy ekonomického SW. Jde o účetní programy, skladové hospodářství, evidence pohybu zboží apod. Shromážděné informace jsou z části velmi cenné, ale z části i zbytečné. Důležité je aby se k zodpovědným osobám dostaly kvalitní a důležité informace. Manažeři jsou často v situaci hráčů puzzle, kteří mají před sebou smíchané různé krabice kostiček bez výsledných obrázků. Příkladem může být sledování 1000 druhů zboží, 10 prodejních kanálů 100 odběratelů. Získáváme tak 1 milion různých kombinací. Při měsíčním sledování většího druhu zboží máme k dispozici obrovské množství údajů. Řešení je použití multidimenzionálních struktur.

Multidimenzionální databáze Řešením omezení relačních DB je organizace do multidimenzionálních struktur. Používáme dva typy nenormalizovaných tabulek (dimenze a fakta). Analytické DB označujeme pojmem OLAP (On-line Analytical Processing). Charakteristika: rychlý a komplexní přístup k velkému objemu údajů, možnost komplexních analýz, předpoklad pro modelování a prognózy, vyšší nároky na kapacitu úložiště.

Fakta a dimenze

Fakta a dimenze Fakta numerické údaje o objektech studia. Jde o největší tabulky v databázi s velkým objemem dat. Obvykle obsahují dva typy sloupců (údaje a klíče do tabulek dimenzí). Fakta se seskupují a vytváří metriky. Příkladem faktů je například množství prodaných produktů. Dimenze hierarchické uspořádání údajů. Jde o menší tabulky. Dimenze umožňují zkoumat data z různých pohledů. Mluvíme o dimenzích časových, produktových, geografických atd.

Multidimenzionální databázový model Data jsou organizována v relační databázi. Každý řádek se vztahuje k jisté události, předmětu nebo jejich části. Výsledkem agregace údajů je multidimenzionální datová struktura krychle. Krychle obsahuje mnoho dimenzí (časové, místní, věcné... ). Na průniku dimenzí se nachází konkrétní údaje. Produkt Zákazník Čas

Zpracování údajů z operačního prostředí Zpracování údajů na informace a analýza obvykle neprobíhá v operačním prostředí, protože by mohlo dojít k výraznému snížení výkonu a tím i ohrožení hladkého běhu. Data se tedy obvykle přenášejí do jiného prostředí (datových skladů), kde se teprve zpracovávají. Výhodou tohoto řešení je i to, že data mohou být získávána i z různých zdrojů. Nevýhodou je redundance údajů, zvýšení zátěže IT pracovníků, snížení flexibility a částečná ztráta metadat.

Tvorba datového skladu Provozní systémy ETL procesy Datový sklad Prezentaèní nástroje U ivatelé

Datový sklad Jde o strukturované úložiště údajů určených pro analýzy. Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých a získávání informací a podporu rozhodování. V datovém skladu jsou uložena atomická a sumární data. (Bill Inmon) Do datového skladu se dostávají pravidelné informace z různorodých zdrojů i geograficky odlišných.

Datový sklad Subjektová orientace uchovávají se údaje podle předmětu zájmu, nikoliv podle aplikace, ve které byly vytvořeny. Integrovanost údaje o konkrétním předmětu se ukládají jen jednou za použití jednotné terminologie názvů, jednotek apod. Časová variabilita údaje se ukládají jako série časových snímků reprezentujících časové úseky. Neměnnost v datových skladech se údaje obvykle nemění, jsou jen pro čtení.

Datové trhy Datové trhy jsou přesně specifikované podmnožiny datového skladu, určené pro menší organizační složky. Samotný datový sklad je velmi náročný projekt, proto jej často budujeme a členíme do menších částí.

Metody tvorby datového skladu Při návrhu datového skladu je potřeba brát v úvahu organizační strukturu subjektu. Vhodné metody jsou: Metoda velkého třesku Přírůstková metoda

Příprava údajů ETL Proces BI/DW obvykle pracuje s nehomogenními zdroji údajů. Liší se jak fyzickým způsobem uložení (různé DB systémy) tak i logickou strukturou. Taková data je nutné před započetím analýz připravit. Proces nazýváme ETL. Extraction výběr dat Transformation ověření, čištění, integrace a časové označení Loading přemístění dat do datového skladu Jde o komplexní a časově náročný proces, který může zabrat podstatnou většinu času určeného pro přípravu analytického prostředí.

ETL Prodeje Sklady Extrakce Transformace Datový sklad Výroba Naèítání Úèetnictví

Extrakce Úkolem tohoto kroku je získat data z různých nehomogenních provozních systémů a sjednotit je na jednom místě. Extrakce se týká nejen dat aktuálních, ale při přípravě nového skladu musíme pracovat i s daty archivními. Získávat můžeme data nejen z našich systémů, ale i od konkurence nebo různé volně dostupné statistické přehledy. Extrakce není jednorázová akce. Datový sklad plníme periodicky. Využíváme různé vyšší procedurální programovací jazyky (C++, C#) nebo procedurální nadstavby DB systémů (T-SQL, PL/SQL).

Transformace Velmi důležitý krok, který rozhoduje o kvalitě zkoumaných dat. Údaje z provozních systémů mívají různou kvalitu. Jde o chybně vložená data nebo nekompletní data, případně o duplicitní data. Ta je potřeba pročistit. Údaje mají i různou strukturu, v každém systému jsou jiné datové typy (rodná čísla), rozsahy (měna), zkratky (pohlaví) atd. Data jsou nejednoznačná. Tato data je potřeba transformovat do jednotné podoby.

Přenos Je završením etapy ETL. V této fázi dochází k přenosu dat z přípravné oblasti do datového skladu. Jde o plánovaný a hierarchizovaný proces s maximální možnou mírou automatizace. Někdy je třeba použít i umělé primární klíče. Po zavedení údajů obvykle následuje indexování.

Problémy ETL Proces ETL nemusí vždy proběhnout úspěšně. Může dojít k selhání technických prostředků případně i software. Velmi důležité je následné ověření kvality a celistvosti údajů. Pokud proces nedopadne dobře je obvykle nutné začít znovu od místa selhání, případně opakovat celý proces znovu.

Analýza OLAP OLAP je volně definovaný řád principů, které poskytují dimenzionální rámec pro podporu rozhodování. (E. F. Codd) Multidimenzionální konceptuální pohled vhodný pro analýzy Transparentnost nástroj musí být snadno použitelný Dostupnost využití jen potřebných údajů a to z heterogenních zdrojů Konzistentní vykazování s rostoucím počtem údajů neklesá výkon Architektura client-server s ohledem na cenu a výkon Podpora více uživatelů pracujících na stejném modelu Neomezené křížové dimenzionální operace Intuitivní manipulace s údaji drill down, drill up Flexibilní vykazování různé uspořádání údajů v reportech vhodné pro různé situace Víceúrovňové dimenze a agregace

MOLAP, ROLAP, HOLAP Multidimenzionální OLAP data získává buď z datového skladu nebo operačních zdrojů. Analytická data ukládá do vlastních datových struktur. Předpočítá maximální množství předběžných výsledků. Výhodou je rychlost, nevýhodou redundance údajů. Relační OLAP data získává z relačního datového skladu. Údaje se předkládají jako multidimenzionální pohled. Využívá metadata pro dynamické generování SQL dotazů. Hybridní OLAP kombinace přístupu MOLAP a ROLAP. Snaží se eliminovat nevýhody. Údaje jsou v relačních databázích, agregace se ukládají do multidimenzionálních struktur.

Doporučená literatura Kimball, Ralph; Margy Ross (2002). The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition ed.). New York: Wiley. ISBN 0-471-20024-7. Lacko L., analýza OLAP a dolování dat. Brno 2003. Computer Press. ISBN 80-7226-969-0. Lacko L. Business Intelligence v SQL Serveru 2008. Brno 2009. Computer Press. EAN 9788025128879. Novotný O., Pour J., Slánský D. Business Intelligence. Praha 2005. Grada. ISBN 80-247-1094-3.

Závěr Děkuji za pozornost Dotazy?