PEF MZLU v Brně 1. listopadu 2011
Úvod Intenzivní nasazení informačních technologií způsobuje hromadění obrovské spousty nejrůznějších údajů. Příkladem mohou být informace z obchodování s cennými papíry nebo údaje z pokladen supermarketů. Množství získaných údajů ovšem neznamená stejné množství informací. Proces transformace je složitý a časově náročný. Tímto procesem se zabývá Business Intelligence. Jde nejen o zkoumání současných ale i predikování budoucích znalostí. Moderní DB servery umožňují budovat datové sklady a provádět nad daty analýzy (OLAP).
Transakční vs. analytické databáze Transakční databáze (OLTP) jsou určené k ukládání operačních údajů. Databáze v nich jsou zpravidla pro snížení redundance normalizovány což vede k velké strukturovanosti tabulek. Problémem transakčních systémů je decentralizace. Používají se různé systémy pro zpracování různých údajů (účetnictví, sklady, apod.). Naproti tomu jsou data v analytických databázích (OLAP) ukládána do hvězdicových nebo vločkových schémat a snaží se mít všechna data zpracovaná na jednom místě.
Nevýhody transakčních systémů pro analýzy Neuchovávají historické údaje Nehomogenní struktura údajů Dlouhý čas přípravy údajů Obtížné hledání příčin a závislostí jednotlivých údajů Analýza přímo v operačním prostředí snižuje výkon důležitých systémů Příliš rozsáhlé výstupy
Kvalita údajů pro analýzy V současnosti se hojně využívají různé druhy ekonomického SW. Jde o účetní programy, skladové hospodářství, evidence pohybu zboží apod. Shromážděné informace jsou z části velmi cenné, ale z části i zbytečné. Důležité je aby se k zodpovědným osobám dostaly kvalitní a důležité informace. Manažeři jsou často v situaci hráčů puzzle, kteří mají před sebou smíchané různé krabice kostiček bez výsledných obrázků. Příkladem může být sledování 1000 druhů zboží, 10 prodejních kanálů 100 odběratelů. Získáváme tak 1 milion různých kombinací. Při měsíčním sledování většího druhu zboží máme k dispozici obrovské množství údajů. Řešení je použití multidimenzionálních struktur.
Multidimenzionální databáze Řešením omezení relačních DB je organizace do multidimenzionálních struktur. Používáme dva typy nenormalizovaných tabulek (dimenze a fakta). Analytické DB označujeme pojmem OLAP (On-line Analytical Processing). Charakteristika: rychlý a komplexní přístup k velkému objemu údajů, možnost komplexních analýz, předpoklad pro modelování a prognózy, vyšší nároky na kapacitu úložiště.
Fakta a dimenze
Fakta a dimenze Fakta numerické údaje o objektech studia. Jde o největší tabulky v databázi s velkým objemem dat. Obvykle obsahují dva typy sloupců (údaje a klíče do tabulek dimenzí). Fakta se seskupují a vytváří metriky. Příkladem faktů je například množství prodaných produktů. Dimenze hierarchické uspořádání údajů. Jde o menší tabulky. Dimenze umožňují zkoumat data z různých pohledů. Mluvíme o dimenzích časových, produktových, geografických atd.
Multidimenzionální databázový model Data jsou organizována v relační databázi. Každý řádek se vztahuje k jisté události, předmětu nebo jejich části. Výsledkem agregace údajů je multidimenzionální datová struktura krychle. Krychle obsahuje mnoho dimenzí (časové, místní, věcné... ). Na průniku dimenzí se nachází konkrétní údaje. Produkt Zákazník Čas
Zpracování údajů z operačního prostředí Zpracování údajů na informace a analýza obvykle neprobíhá v operačním prostředí, protože by mohlo dojít k výraznému snížení výkonu a tím i ohrožení hladkého běhu. Data se tedy obvykle přenášejí do jiného prostředí (datových skladů), kde se teprve zpracovávají. Výhodou tohoto řešení je i to, že data mohou být získávána i z různých zdrojů. Nevýhodou je redundance údajů, zvýšení zátěže IT pracovníků, snížení flexibility a částečná ztráta metadat.
Tvorba datového skladu Provozní systémy ETL procesy Datový sklad Prezentaèní nástroje U ivatelé
Datový sklad Jde o strukturované úložiště údajů určených pro analýzy. Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých a získávání informací a podporu rozhodování. V datovém skladu jsou uložena atomická a sumární data. (Bill Inmon) Do datového skladu se dostávají pravidelné informace z různorodých zdrojů i geograficky odlišných.
Datový sklad Subjektová orientace uchovávají se údaje podle předmětu zájmu, nikoliv podle aplikace, ve které byly vytvořeny. Integrovanost údaje o konkrétním předmětu se ukládají jen jednou za použití jednotné terminologie názvů, jednotek apod. Časová variabilita údaje se ukládají jako série časových snímků reprezentujících časové úseky. Neměnnost v datových skladech se údaje obvykle nemění, jsou jen pro čtení.
Datové trhy Datové trhy jsou přesně specifikované podmnožiny datového skladu, určené pro menší organizační složky. Samotný datový sklad je velmi náročný projekt, proto jej často budujeme a členíme do menších částí.
Metody tvorby datového skladu Při návrhu datového skladu je potřeba brát v úvahu organizační strukturu subjektu. Vhodné metody jsou: Metoda velkého třesku Přírůstková metoda
Příprava údajů ETL Proces BI/DW obvykle pracuje s nehomogenními zdroji údajů. Liší se jak fyzickým způsobem uložení (různé DB systémy) tak i logickou strukturou. Taková data je nutné před započetím analýz připravit. Proces nazýváme ETL. Extraction výběr dat Transformation ověření, čištění, integrace a časové označení Loading přemístění dat do datového skladu Jde o komplexní a časově náročný proces, který může zabrat podstatnou většinu času určeného pro přípravu analytického prostředí.
ETL Prodeje Sklady Extrakce Transformace Datový sklad Výroba Naèítání Úèetnictví
Extrakce Úkolem tohoto kroku je získat data z různých nehomogenních provozních systémů a sjednotit je na jednom místě. Extrakce se týká nejen dat aktuálních, ale při přípravě nového skladu musíme pracovat i s daty archivními. Získávat můžeme data nejen z našich systémů, ale i od konkurence nebo různé volně dostupné statistické přehledy. Extrakce není jednorázová akce. Datový sklad plníme periodicky. Využíváme různé vyšší procedurální programovací jazyky (C++, C#) nebo procedurální nadstavby DB systémů (T-SQL, PL/SQL).
Transformace Velmi důležitý krok, který rozhoduje o kvalitě zkoumaných dat. Údaje z provozních systémů mívají různou kvalitu. Jde o chybně vložená data nebo nekompletní data, případně o duplicitní data. Ta je potřeba pročistit. Údaje mají i různou strukturu, v každém systému jsou jiné datové typy (rodná čísla), rozsahy (měna), zkratky (pohlaví) atd. Data jsou nejednoznačná. Tato data je potřeba transformovat do jednotné podoby.
Přenos Je završením etapy ETL. V této fázi dochází k přenosu dat z přípravné oblasti do datového skladu. Jde o plánovaný a hierarchizovaný proces s maximální možnou mírou automatizace. Někdy je třeba použít i umělé primární klíče. Po zavedení údajů obvykle následuje indexování.
Problémy ETL Proces ETL nemusí vždy proběhnout úspěšně. Může dojít k selhání technických prostředků případně i software. Velmi důležité je následné ověření kvality a celistvosti údajů. Pokud proces nedopadne dobře je obvykle nutné začít znovu od místa selhání, případně opakovat celý proces znovu.
Analýza OLAP OLAP je volně definovaný řád principů, které poskytují dimenzionální rámec pro podporu rozhodování. (E. F. Codd) Multidimenzionální konceptuální pohled vhodný pro analýzy Transparentnost nástroj musí být snadno použitelný Dostupnost využití jen potřebných údajů a to z heterogenních zdrojů Konzistentní vykazování s rostoucím počtem údajů neklesá výkon Architektura client-server s ohledem na cenu a výkon Podpora více uživatelů pracujících na stejném modelu Neomezené křížové dimenzionální operace Intuitivní manipulace s údaji drill down, drill up Flexibilní vykazování různé uspořádání údajů v reportech vhodné pro různé situace Víceúrovňové dimenze a agregace
MOLAP, ROLAP, HOLAP Multidimenzionální OLAP data získává buď z datového skladu nebo operačních zdrojů. Analytická data ukládá do vlastních datových struktur. Předpočítá maximální množství předběžných výsledků. Výhodou je rychlost, nevýhodou redundance údajů. Relační OLAP data získává z relačního datového skladu. Údaje se předkládají jako multidimenzionální pohled. Využívá metadata pro dynamické generování SQL dotazů. Hybridní OLAP kombinace přístupu MOLAP a ROLAP. Snaží se eliminovat nevýhody. Údaje jsou v relačních databázích, agregace se ukládají do multidimenzionálních struktur.
Doporučená literatura Kimball, Ralph; Margy Ross (2002). The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition ed.). New York: Wiley. ISBN 0-471-20024-7. Lacko L., analýza OLAP a dolování dat. Brno 2003. Computer Press. ISBN 80-7226-969-0. Lacko L. Business Intelligence v SQL Serveru 2008. Brno 2009. Computer Press. EAN 9788025128879. Novotný O., Pour J., Slánský D. Business Intelligence. Praha 2005. Grada. ISBN 80-247-1094-3.
Závěr Děkuji za pozornost Dotazy?