Business Intelligence a datové sklady Ing Jan Přichystal, PhD Mendelova univerzita v Brně 2 prosince 2014 Ing Jan Přichystal, PhD
Úvod Intenzivní nasazení informačních technologií způsobuje hromadění obrovské spousty nejrůznějších údajů Příkladem mohou být informace z obchodování s cennými papíry nebo údaje z pokladen supermarketů, faktury, ceníky, seznamy klientů, pohyby na účtech a další údaje Z provozních systémů je možné zjistit řadu zásadních informací nutných pro fungování podniku plnění plánu, ziskovost produktů, klíčové ukazatele výkonnosti (KPI) atd Množství uchovávaných údajů ovšem neznamená stejné množství informací Proces transformace je složitý a časově náročný Pro běžného uživatele (manažera) je téměř nemožné tyto informace z databázových systému získat Tímto procesem se zabývá Business Intelligence Jde nejen o zkoumání současných ale i predikování budoucích znalostí Ing Jan Přichystal, PhD
Co je Business Intelligence Business Intelligence je obor zabývající se automatizovaným získáváním obchodních informací z datových zdrojů společností Jeho cílem je umožnit zodpovědným pracovníkům bez hlubších technických znalostí: přistupovat k předpřipraveným reportům, aktivně vytvářet a distribuovat vlastní reporty, interaktivně analyzovat data, dostávat informace o změnách v datech a získávat tak informace jako podklad pro podporu svého rozhodování Ing Jan Přichystal, PhD
Troška historie Business Intelligence Termín Business intelligence poprvé použil již v roce 1865 Richard Millar Devens, když popsal, jak bankéř Sir Henry Furnese vytvářel zisk získáváním a používáním informací o okolním prostředí Business Intelligence vychází ze systémů pro podporu rozhodování (DSS), které se rozvíjely od 60 do 80 let 19 století V roce 1989 použil termín BI Howard Dresner (pozdější analytik u společnosti Gartner) jako: proces zkoumání doménově strukturovaných informací za účelem zjištění trendů nebo jiných společenských informací pro tvorbu závěrů Ing Jan Přichystal, PhD
Business Intelligence Další definice: cesta k informacím a znalostem cesta jejíž cílem je zlepšení rozhodování využitím široké škály IS, aplikací a technologií sběru, uchování, analýzy a zpřístupnění dat proces profesionálního sběru, zpracování a šíření informací pro podporu rozhodování vedení podniků proces zaměřený na zvýšení konkurenceschopnosti podniků inteligentním využitím přístupných dat v rozhodovacím procesu Všechny definice shodují v tom, že se jedná o získávaní informací využitelných pro podporu rozhodovacích procesů Ing Jan Přichystal, PhD
Business Intelligence Lze označit za komplex přístupů a aplikací IS/ICT, které téměř výlučně podporují analytické a plánovací činnosti podniků a organizací a jsou postaveny na principu multidimenzionality Aplikace Dotazovací (Query) Analytické (OLAP) Dolování z dat (Data Mining) Ing Jan Přichystal, PhD
Kvalita údajů pro analýzy V současnosti se hojně využívají různé druhy ekonomického SW Jde o účetní programy, skladové hospodářství, evidence pohybu zboží apod Shromážděné informace jsou z části velmi cenné, ale z části i zbytečné Důležité je aby se k zodpovědným osobám dostaly kvalitní a důležité informace Manažeři jsou často v situaci hráčů puzzle, kteří mají před sebou smíchané různé krabice kostiček bez výsledných obrázků Příkladem může být sledování 1000 druhů zboží, 10 prodejních kanálů 100 odběratelů Získáváme tak 1 milion různých kombinací Při měsíčním sledování většího druhu zboží máme k dispozici obrovské množství údajů Řešení je použití multidimenzionálních struktur Ing Jan Přichystal, PhD
Multidimenzionální databáze Řešením omezení relačních DB je organizace do multidimenzionálních struktur Používáme dva typy denormalizovaných tabulek (dimenze a fakta) Analytické DB označujeme pojmem OLAP (On-line Analytical Processing) Charakteristika: rychlý a komplexní přístup k velkému objemu údajů, možnost komplexních analýz, předpoklad pro modelování a prognózy, vyšší nároky na kapacitu úložiště Ing Jan Přichystal, PhD
Transakční vs analytické databáze Transakční databáze (OLTP) jsou určené k ukládání operačních údajů Databáze v nich jsou zpravidla pro snížení redundance normalizovány což vede k velké strukturovanosti tabulek Struktura databáze je uzpůsobena pro snadné a rychlé vyhledávání, vkládání či modifikaci jednotlivých záznamů Naproti tomu jsou data v analytických databázích (OLAP) ukládána do hvězdicových nebo vločkových schémat a snaží se mít všechna data zpracovaná na jednom místě Ing Jan Přichystal, PhD
Nevýhody transakčních systémů pro analýzy Neuchovávají historické údaje Nehomogenní struktura údajů Decentralizace systémů (sklady, účetnictví, CRM, ) Dlouhý čas přípravy údajů Obtížné hledání příčin a závislostí jednotlivých údajů Analýza přímo v operačním prostředí snižuje výkon důležitých systémů Příliš rozsáhlé výstupy Ing Jan Přichystal, PhD
Analýza OLAP OLAP je volně definovaný řád principů, které poskytují dimenzionální rámec pro podporu rozhodování (E F Codd) Multidimenzionální konceptuální pohled vhodný pro analýzy Transparentnost nástroj musí být snadno použitelný Dostupnost využití jen potřebných údajů a to z heterogenních zdrojů Konzistentní vykazování s rostoucím počtem údajů neklesá výkon Architektura client-server s ohledem na cenu a výkon Podpora více uživatelů pracujících na stejném modelu Neomezené křížové dimenzionální operace Intuitivní manipulace s údaji drill down, drill up Flexibilní vykazování různé uspořádání údajů v reportech vhodné pro různé situace Víceúrovňové dimenze a agregace Ing Jan Přichystal, PhD
Struktura transakční databáze Ing Jan Přichystal, PhD
Multidimenzionální databáze Ing Jan Přichystal, PhD
Fakta a dimenze Fakta numerické údaje o objektech studia Jde o největší tabulky v databázi s velkým objemem dat Obvykle obsahují dva typy sloupců (údaje a klíče do tabulek dimenzí) Fakta se seskupují a vytváří metriky Příkladem faktů je například množství prodaných produktů Dimenze hierarchické uspořádání údajů Jde o menší tabulky Dimenze umožňují zkoumat data z různých pohledů Mluvíme o dimenzích časových, produktových, geografických atd Ing Jan Přichystal, PhD
Multidimenzionální databázový model Data jsou organizována v relační databázi Každý řádek se vztahuje k jisté události, předmětu nebo jejich části Výsledkem agregace údajů je multidimenzionální datová struktura krychle Krychle obsahuje mnoho dimenzí (časové, místní, věcné, ) Na průniku dimenzí se nachází konkrétní údaje Produkt Zákazník Čas Ing Jan Přichystal, PhD
Zpracování údajů z operačního prostředí Zpracování údajů na informace a analýza obvykle neprobíhá v operačním prostředí, protože by mohlo dojít k výraznému snížení výkonu a tím i ohrožení hladkého běhu Data se tedy obvykle přenášejí do jiného prostředí (datových skladů), kde se teprve zpracovávají Výhodou tohoto řešení je i to, že data mohou být získávána i z různých zdrojů Nevýhodou je redundance údajů, zvýšení zátěže IT pracovníků, snížení flexibility a částečná ztráta metadat Ing Jan Přichystal, PhD
Tvorba datového skladu ETL procesy Datový sklad Prezentaèní nástroje U ivatelé Provozní systémy Ing Jan Přichystal, PhD
Datový sklad Jde o strukturované úložiště údajů určených pro analýzy Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých a získávání informací a podporu rozhodování V datovém skladu jsou uložena atomická a sumární data (Bill Inmon) Do datového skladu se dostávají pravidelné informace z různorodých zdrojů i geograficky odlišných Ing Jan Přichystal, PhD
Datový sklad Subjektová orientace uchovávají se údaje podle předmětu zájmu, nikoliv podle aplikace, ve které byly vytvořeny Integrovanost údaje o konkrétním předmětu se ukládají jen jednou za použití jednotné terminologie názvů, jednotek apod Časová variabilita údaje se ukládají jako série časových snímků reprezentujících časové úseky Neměnnost v datových skladech se údaje obvykle nemění, jsou jen pro čtení Ing Jan Přichystal, PhD
Příprava údajů ETL Proces BI/DW obvykle pracuje s nehomogenními zdroji údajů Liší se jak fyzickým způsobem uložení (různé DB systémy) tak i logickou strukturou Taková data je nutné před započetím analýz připravit Proces nazýváme ETL Extraction výběr dat Transformation ověření, čištění, integrace a časové označení Loading přemístění dat do datového skladu Jde o komplexní a časově náročný proces, který může zabrat podstatnou většinu času určeného pro přípravu analytického prostředí Ing Jan Přichystal, PhD
ETL Prodeje Sklady Extrakce Transformace Datový sklad Výroba Naèítání Úèetnictví Ing Jan Přichystal, PhD
Extrakce Úkolem tohoto kroku je získat data z různých nehomogenních provozních systémů a sjednotit je na jednom místě Extrakce se týká nejen dat aktuálních, ale při přípravě nového skladu musíme pracovat i s daty archivními Získávat můžeme data nejen z našich systémů, ale i od konkurence nebo různé volně dostupné statistické přehledy Extrakce není jednorázová akce Datový sklad plníme periodicky Využíváme různé vyšší procedurální programovací jazyky (C++, C#), procedurální nadstavby DB systémů (T-SQL, PL/SQL) a další Ing Jan Přichystal, PhD
Transformace Velmi důležitý krok, který rozhoduje o kvalitě zkoumaných dat Údaje z provozních systémů mívají různou kvalitu Jde o chybně vložená data nebo nekompletní data, případně o duplicitní data Ta je potřeba pročistit Údaje mají i různou strukturu, v každém systému jsou jiné datové typy (rodná čísla), rozsahy (měna), zkratky (pohlaví) atd Data jsou nejednoznačná Tato data je potřeba transformovat do jednotné podoby Ing Jan Přichystal, PhD
Přenos Je završením etapy ETL V této fázi dochází k přenosu dat z přípravné oblasti do datového skladu Jde o plánovaný a hierarchizovaný proces s maximální možnou mírou automatizace Někdy je třeba použít i umělé primární klíče Po zavedení údajů obvykle následuje indexování Ing Jan Přichystal, PhD
Problémy ETL Proces ETL nemusí vždy proběhnout úspěšně Může dojít k selhání technických prostředků případně i software Velmi důležité je následné ověření kvality a celistvosti údajů Pokud proces nedopadne dobře je obvykle nutné začít znovu od místa selhání, případně opakovat celý proces znovu Ing Jan Přichystal, PhD
Prezentační vrstva Účelem je nabídnout zodpovědným pracovníkům intuitivní analytické nástroje umožňující zkoumání dat z různých pohledů ( slice and dice ) a různých úrovní ( drill ) prostřednictvím různých typů reportů (dashboardy, scorecardy) Statické reporty (e-mail, firemní BI portál) pasivní příjem reportů Dynamické reporty (Excel, firemní BI portál) tvorba vlastních analýz Ing Jan Přichystal, PhD
Excel Jeden z nejpoužívanějších reportovacích nástrojů Vzorce, tabulky, (mini)grafy, průřezy Umožňuje ad-hoc analýzy Rozhraní pro připojení k zdrojům dat pomocí kontingenční tabulky Omezená tvorba předdefinovaných reportů Neoptimalizované načtení balíku dat, omezení velikosti dat Ing Jan Přichystal, PhD
PowerPivot, PowerQuery, PowerView, PowerMap Volná rozšíření pro analýzy dat pomocí Excelu, která významně rozšiřují dotazovací a prezentační možnosti PowerQuery přístup k libovolným datům (databáze, web, ), jejich filtrování a úprava PowerPivot ukládání získaných dat do připravených datových modelů, data ukládá v komprimované podobě ve vlastní databázi, není omezen počtem záznamů PowerView interaktivní zkoumání, vizualizace a prezentace dat, rozšiřuje možnosti vytváření interaktivních ad-hoc sestav PowerMap prezentační doplněk dat, umí zobrazovat jak grafy, tak mapu světa s grafickým vyjádřením hodnot pro konkrétní lokalitu Ing Jan Přichystal, PhD
SharePoint a Power BI Reprezentanti BI portálů Usnadňují organizaci a strukturování reportů Umožňují spolupráci, vyhledávání, podporu uživatelských rolí apod Nabízeny ve formě portálového řešení nebo webové aplikace Sdružují reporty různých platforem (Reporting Services, Excel, Office WebApplications, Visio Services) Ing Jan Přichystal, PhD
Doporučená literatura Kimball, R Margy, R The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (2nd ed) New York: Wiley Lacko L Datové sklady, analýza OLAP a dolování dat Brno 2003 Computer Press Ing Jan Přichystal, PhD
Závěr Děkuji za pozornost Dotazy? Ing Jan Přichystal, PhD