Business Intelligence a datové sklady



Podobné dokumenty
Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu PEF MZLU v Brně

Informační systémy 2006/2007

Základy business intelligence. Jaroslav Šmarda


Business Intelligence

3 zdroje dat. Relační databáze EIS OLAP

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Databázové systémy. 10. přednáška

Základní informace o co se jedná a k čemu to slouží

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Ing. Roman Danel, Ph.D. 2010

STÁTNÍ POKLADNA. Integrovaný informační systém Státní pokladny (IISSP)

10. Datové sklady (Data Warehouses) Datový sklad

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Databáze Bc. Veronika Tomsová

CPM/BI a jeho návaznost na podnikové informační systémy. Martin Závodný

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

TM1 vs Planning & Reporting

Projekt SEPIe - Datový sklad a analytická nadstavba MIS - manažerský informační systém pro vedoucí zaměstnance resortu MV (konference)

Business Intelligence

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Business Intelligence nástroje a plánování

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Služby Microsoft Office 365

QAD Business Intelligence

Business Intelligence. Adam Trčka

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Nová dimenze rozhodovacího procesu

Možnosti reportingu v produktech řady EPM

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Infor Performance management. Jakub Urbášek

4IT218 Databáze. 4IT218 Databáze

Snadný a efektivní přístup k informacím

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Datová věda (Data Science) akademický navazující magisterský program

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

Analýza a prezentace dat

Business Intelligence Hlavní témata, která budou v roce 2015 určovat vývoj business intelligence řešení a služeb.

SEMINÁŘ MANAŢERSKÉ SYSTÉMY

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

MIS. Manažerský informační systém. pro. Ekonomický informační systém EIS JASU CS. Dodavatel: MÚZO Praha s.r.o. Politických vězňů Praha 1

Data v informačních systémech

Analýza a vizualizace dat

Podnikové informační systémy Jan Smolík

Manažerský informační systém na MPSV. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV

NÁSTROJE BUSINESS INTELLIGENCE

GIS a Business Intelligence

Databáze v MS ACCESS

Analýza dat skoro zadarmo možnosti rozborů pro malé organizace

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Datové sklady. Multidimenzionální modelování Modely datového skladu Návrh datového skladu v rámci návrhu IS/ICT. Vladimíra Zádová, KIN, EF, TUL

ARBES BI MODERNÍ ŘEŠENÍ pro podporu strategického, taktického a operativního řízení.

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Wonderware Information Server 4.0 Co je nového

PHOTO-ON Profesionální on-line správa fotografií

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

DATOVÉ SKLADY A OLAP V PROSTŘEDÍ MS SQL SERVERU

MBI - technologická realizace modelu

Efekty a rizika Business Intelligence

kapitola 2 Datové sklady, OLAP

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

INFORMAČNÍ SYSTÉMY (IS) Ing. Pavel Náplava Katedra počítačů K336, ČVUT FEL Praha 2004/2005

Ondřej Bothe, Richard Dobiš

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Zkušenosti s Business Intelligence ve veřejném sektoru České republiky

Geografické informační systémy ArcGIS Pavel Juška (jus011) 4. března 2010, Ostrava

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery

Modelování a návrh datových skladů

Pilotní projekt implementace Business Intelligence ve studijní agendě VŠE v Praze

Příprava dat v softwaru Statistica

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

<Insert Picture Here> Na co se můžete s Oracle BI těšit

Podpora manažerského rozhodování užitím Business Intelligence Ing. Jan Klimeš, ORTEX spol. s r.o., Hradec Králové

powerful SAP-Solutions

Datové sklady ve školství

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Chytrá systémová architektura jako základ Smart Administration

Nabízíme řešení. v oblastech: integrací zdrojů dat:

Analýza a modelování dat. Přednáška 8

Platforma ArcGIS. Platforma ArcGIS se skládá ze čtyř komponent: dat, zdrojů, portálu a aplikací.

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

BI & DWH & MIS nástroj 2. generace

PowerPivot pro Microsoft Excel 2013

Ing. Petr Kalčev, Ph.D.

Jan Horák. Pilíře řešení

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Novinky SQL Serveru 2005 v oblasti Business Intelligence

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

předměty: ukončení: Zápočet + Zkouška / 5kb např. jméno, název, destinace, město např. student Jan Novák, narozen

Efektivní řízení pomocí Business Intelligence. Ján Zajíc (Clever Decision) Robert Havránek (Microsoft)

Datový sklad. Datový sklad

Návrh datového skladu z hlediska zdrojů

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ DATABÁZOVÉ SYSTÉMY ARCHITEKTURA DATABÁZOVÝCH SYSTÉMŮ. Ing. Lukáš OTTE, Ph.D.

Archivace relačních databází

KIS A JEJICH BEZPEČNOST-I

Využití IT nástrojů pro měření a řízení výkonnosti. Michal Kroutil

Transkript:

Business Intelligence a datové sklady Ing Jan Přichystal, PhD Mendelova univerzita v Brně 2 prosince 2014 Ing Jan Přichystal, PhD

Úvod Intenzivní nasazení informačních technologií způsobuje hromadění obrovské spousty nejrůznějších údajů Příkladem mohou být informace z obchodování s cennými papíry nebo údaje z pokladen supermarketů, faktury, ceníky, seznamy klientů, pohyby na účtech a další údaje Z provozních systémů je možné zjistit řadu zásadních informací nutných pro fungování podniku plnění plánu, ziskovost produktů, klíčové ukazatele výkonnosti (KPI) atd Množství uchovávaných údajů ovšem neznamená stejné množství informací Proces transformace je složitý a časově náročný Pro běžného uživatele (manažera) je téměř nemožné tyto informace z databázových systému získat Tímto procesem se zabývá Business Intelligence Jde nejen o zkoumání současných ale i predikování budoucích znalostí Ing Jan Přichystal, PhD

Co je Business Intelligence Business Intelligence je obor zabývající se automatizovaným získáváním obchodních informací z datových zdrojů společností Jeho cílem je umožnit zodpovědným pracovníkům bez hlubších technických znalostí: přistupovat k předpřipraveným reportům, aktivně vytvářet a distribuovat vlastní reporty, interaktivně analyzovat data, dostávat informace o změnách v datech a získávat tak informace jako podklad pro podporu svého rozhodování Ing Jan Přichystal, PhD

Troška historie Business Intelligence Termín Business intelligence poprvé použil již v roce 1865 Richard Millar Devens, když popsal, jak bankéř Sir Henry Furnese vytvářel zisk získáváním a používáním informací o okolním prostředí Business Intelligence vychází ze systémů pro podporu rozhodování (DSS), které se rozvíjely od 60 do 80 let 19 století V roce 1989 použil termín BI Howard Dresner (pozdější analytik u společnosti Gartner) jako: proces zkoumání doménově strukturovaných informací za účelem zjištění trendů nebo jiných společenských informací pro tvorbu závěrů Ing Jan Přichystal, PhD

Business Intelligence Další definice: cesta k informacím a znalostem cesta jejíž cílem je zlepšení rozhodování využitím široké škály IS, aplikací a technologií sběru, uchování, analýzy a zpřístupnění dat proces profesionálního sběru, zpracování a šíření informací pro podporu rozhodování vedení podniků proces zaměřený na zvýšení konkurenceschopnosti podniků inteligentním využitím přístupných dat v rozhodovacím procesu Všechny definice shodují v tom, že se jedná o získávaní informací využitelných pro podporu rozhodovacích procesů Ing Jan Přichystal, PhD

Business Intelligence Lze označit za komplex přístupů a aplikací IS/ICT, které téměř výlučně podporují analytické a plánovací činnosti podniků a organizací a jsou postaveny na principu multidimenzionality Aplikace Dotazovací (Query) Analytické (OLAP) Dolování z dat (Data Mining) Ing Jan Přichystal, PhD

Kvalita údajů pro analýzy V současnosti se hojně využívají různé druhy ekonomického SW Jde o účetní programy, skladové hospodářství, evidence pohybu zboží apod Shromážděné informace jsou z části velmi cenné, ale z části i zbytečné Důležité je aby se k zodpovědným osobám dostaly kvalitní a důležité informace Manažeři jsou často v situaci hráčů puzzle, kteří mají před sebou smíchané různé krabice kostiček bez výsledných obrázků Příkladem může být sledování 1000 druhů zboží, 10 prodejních kanálů 100 odběratelů Získáváme tak 1 milion různých kombinací Při měsíčním sledování většího druhu zboží máme k dispozici obrovské množství údajů Řešení je použití multidimenzionálních struktur Ing Jan Přichystal, PhD

Multidimenzionální databáze Řešením omezení relačních DB je organizace do multidimenzionálních struktur Používáme dva typy denormalizovaných tabulek (dimenze a fakta) Analytické DB označujeme pojmem OLAP (On-line Analytical Processing) Charakteristika: rychlý a komplexní přístup k velkému objemu údajů, možnost komplexních analýz, předpoklad pro modelování a prognózy, vyšší nároky na kapacitu úložiště Ing Jan Přichystal, PhD

Transakční vs analytické databáze Transakční databáze (OLTP) jsou určené k ukládání operačních údajů Databáze v nich jsou zpravidla pro snížení redundance normalizovány což vede k velké strukturovanosti tabulek Struktura databáze je uzpůsobena pro snadné a rychlé vyhledávání, vkládání či modifikaci jednotlivých záznamů Naproti tomu jsou data v analytických databázích (OLAP) ukládána do hvězdicových nebo vločkových schémat a snaží se mít všechna data zpracovaná na jednom místě Ing Jan Přichystal, PhD

Nevýhody transakčních systémů pro analýzy Neuchovávají historické údaje Nehomogenní struktura údajů Decentralizace systémů (sklady, účetnictví, CRM, ) Dlouhý čas přípravy údajů Obtížné hledání příčin a závislostí jednotlivých údajů Analýza přímo v operačním prostředí snižuje výkon důležitých systémů Příliš rozsáhlé výstupy Ing Jan Přichystal, PhD

Analýza OLAP OLAP je volně definovaný řád principů, které poskytují dimenzionální rámec pro podporu rozhodování (E F Codd) Multidimenzionální konceptuální pohled vhodný pro analýzy Transparentnost nástroj musí být snadno použitelný Dostupnost využití jen potřebných údajů a to z heterogenních zdrojů Konzistentní vykazování s rostoucím počtem údajů neklesá výkon Architektura client-server s ohledem na cenu a výkon Podpora více uživatelů pracujících na stejném modelu Neomezené křížové dimenzionální operace Intuitivní manipulace s údaji drill down, drill up Flexibilní vykazování různé uspořádání údajů v reportech vhodné pro různé situace Víceúrovňové dimenze a agregace Ing Jan Přichystal, PhD

Struktura transakční databáze Ing Jan Přichystal, PhD

Multidimenzionální databáze Ing Jan Přichystal, PhD

Fakta a dimenze Fakta numerické údaje o objektech studia Jde o největší tabulky v databázi s velkým objemem dat Obvykle obsahují dva typy sloupců (údaje a klíče do tabulek dimenzí) Fakta se seskupují a vytváří metriky Příkladem faktů je například množství prodaných produktů Dimenze hierarchické uspořádání údajů Jde o menší tabulky Dimenze umožňují zkoumat data z různých pohledů Mluvíme o dimenzích časových, produktových, geografických atd Ing Jan Přichystal, PhD

Multidimenzionální databázový model Data jsou organizována v relační databázi Každý řádek se vztahuje k jisté události, předmětu nebo jejich části Výsledkem agregace údajů je multidimenzionální datová struktura krychle Krychle obsahuje mnoho dimenzí (časové, místní, věcné, ) Na průniku dimenzí se nachází konkrétní údaje Produkt Zákazník Čas Ing Jan Přichystal, PhD

Zpracování údajů z operačního prostředí Zpracování údajů na informace a analýza obvykle neprobíhá v operačním prostředí, protože by mohlo dojít k výraznému snížení výkonu a tím i ohrožení hladkého běhu Data se tedy obvykle přenášejí do jiného prostředí (datových skladů), kde se teprve zpracovávají Výhodou tohoto řešení je i to, že data mohou být získávána i z různých zdrojů Nevýhodou je redundance údajů, zvýšení zátěže IT pracovníků, snížení flexibility a částečná ztráta metadat Ing Jan Přichystal, PhD

Tvorba datového skladu ETL procesy Datový sklad Prezentaèní nástroje U ivatelé Provozní systémy Ing Jan Přichystal, PhD

Datový sklad Jde o strukturované úložiště údajů určených pro analýzy Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých a získávání informací a podporu rozhodování V datovém skladu jsou uložena atomická a sumární data (Bill Inmon) Do datového skladu se dostávají pravidelné informace z různorodých zdrojů i geograficky odlišných Ing Jan Přichystal, PhD

Datový sklad Subjektová orientace uchovávají se údaje podle předmětu zájmu, nikoliv podle aplikace, ve které byly vytvořeny Integrovanost údaje o konkrétním předmětu se ukládají jen jednou za použití jednotné terminologie názvů, jednotek apod Časová variabilita údaje se ukládají jako série časových snímků reprezentujících časové úseky Neměnnost v datových skladech se údaje obvykle nemění, jsou jen pro čtení Ing Jan Přichystal, PhD

Příprava údajů ETL Proces BI/DW obvykle pracuje s nehomogenními zdroji údajů Liší se jak fyzickým způsobem uložení (různé DB systémy) tak i logickou strukturou Taková data je nutné před započetím analýz připravit Proces nazýváme ETL Extraction výběr dat Transformation ověření, čištění, integrace a časové označení Loading přemístění dat do datového skladu Jde o komplexní a časově náročný proces, který může zabrat podstatnou většinu času určeného pro přípravu analytického prostředí Ing Jan Přichystal, PhD

ETL Prodeje Sklady Extrakce Transformace Datový sklad Výroba Naèítání Úèetnictví Ing Jan Přichystal, PhD

Extrakce Úkolem tohoto kroku je získat data z různých nehomogenních provozních systémů a sjednotit je na jednom místě Extrakce se týká nejen dat aktuálních, ale při přípravě nového skladu musíme pracovat i s daty archivními Získávat můžeme data nejen z našich systémů, ale i od konkurence nebo různé volně dostupné statistické přehledy Extrakce není jednorázová akce Datový sklad plníme periodicky Využíváme různé vyšší procedurální programovací jazyky (C++, C#), procedurální nadstavby DB systémů (T-SQL, PL/SQL) a další Ing Jan Přichystal, PhD

Transformace Velmi důležitý krok, který rozhoduje o kvalitě zkoumaných dat Údaje z provozních systémů mívají různou kvalitu Jde o chybně vložená data nebo nekompletní data, případně o duplicitní data Ta je potřeba pročistit Údaje mají i různou strukturu, v každém systému jsou jiné datové typy (rodná čísla), rozsahy (měna), zkratky (pohlaví) atd Data jsou nejednoznačná Tato data je potřeba transformovat do jednotné podoby Ing Jan Přichystal, PhD

Přenos Je završením etapy ETL V této fázi dochází k přenosu dat z přípravné oblasti do datového skladu Jde o plánovaný a hierarchizovaný proces s maximální možnou mírou automatizace Někdy je třeba použít i umělé primární klíče Po zavedení údajů obvykle následuje indexování Ing Jan Přichystal, PhD

Problémy ETL Proces ETL nemusí vždy proběhnout úspěšně Může dojít k selhání technických prostředků případně i software Velmi důležité je následné ověření kvality a celistvosti údajů Pokud proces nedopadne dobře je obvykle nutné začít znovu od místa selhání, případně opakovat celý proces znovu Ing Jan Přichystal, PhD

Prezentační vrstva Účelem je nabídnout zodpovědným pracovníkům intuitivní analytické nástroje umožňující zkoumání dat z různých pohledů ( slice and dice ) a různých úrovní ( drill ) prostřednictvím různých typů reportů (dashboardy, scorecardy) Statické reporty (e-mail, firemní BI portál) pasivní příjem reportů Dynamické reporty (Excel, firemní BI portál) tvorba vlastních analýz Ing Jan Přichystal, PhD

Excel Jeden z nejpoužívanějších reportovacích nástrojů Vzorce, tabulky, (mini)grafy, průřezy Umožňuje ad-hoc analýzy Rozhraní pro připojení k zdrojům dat pomocí kontingenční tabulky Omezená tvorba předdefinovaných reportů Neoptimalizované načtení balíku dat, omezení velikosti dat Ing Jan Přichystal, PhD

PowerPivot, PowerQuery, PowerView, PowerMap Volná rozšíření pro analýzy dat pomocí Excelu, která významně rozšiřují dotazovací a prezentační možnosti PowerQuery přístup k libovolným datům (databáze, web, ), jejich filtrování a úprava PowerPivot ukládání získaných dat do připravených datových modelů, data ukládá v komprimované podobě ve vlastní databázi, není omezen počtem záznamů PowerView interaktivní zkoumání, vizualizace a prezentace dat, rozšiřuje možnosti vytváření interaktivních ad-hoc sestav PowerMap prezentační doplněk dat, umí zobrazovat jak grafy, tak mapu světa s grafickým vyjádřením hodnot pro konkrétní lokalitu Ing Jan Přichystal, PhD

SharePoint a Power BI Reprezentanti BI portálů Usnadňují organizaci a strukturování reportů Umožňují spolupráci, vyhledávání, podporu uživatelských rolí apod Nabízeny ve formě portálového řešení nebo webové aplikace Sdružují reporty různých platforem (Reporting Services, Excel, Office WebApplications, Visio Services) Ing Jan Přichystal, PhD

Doporučená literatura Kimball, R Margy, R The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (2nd ed) New York: Wiley Lacko L Datové sklady, analýza OLAP a dolování dat Brno 2003 Computer Press Ing Jan Přichystal, PhD

Závěr Děkuji za pozornost Dotazy? Ing Jan Přichystal, PhD