Modelování a návrh datových skladů



Podobné dokumenty
3 zdroje dat. Relační databáze EIS OLAP

Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu PEF MZLU v Brně

Datové modelování II


Základy business intelligence. Jaroslav Šmarda

Informační systémy 2006/2007

Základní informace o co se jedná a k čemu to slouží

Datový sklad. Datový sklad

CPM/BI a jeho návaznost na podnikové informační systémy. Martin Závodný

kapitola 2 Datové sklady, OLAP

Business Intelligence

10. Datové sklady (Data Warehouses) Datový sklad

Business Intelligence. Adam Trčka

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Ing. Roman Danel, Ph.D. 2010

Infor Performance management. Jakub Urbášek

Zkušenosti s Business Intelligence ve veřejném sektoru České republiky

Nová dimenze rozhodovacího procesu

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Business Intelligence a datové sklady

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

On line analytical processing (OLAP) databáze v praxi

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Efektivní řízení pomocí Business Intelligence. Ján Zajíc (Clever Decision) Robert Havránek (Microsoft)

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Business Intelligence

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Ing. Petr Kalčev, Ph.D.

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Podnikové informační systémy Jan Smolík

Efekty a rizika Business Intelligence

Datové sklady. Multidimenzionální modelování Modely datového skladu Návrh datového skladu v rámci návrhu IS/ICT. Vladimíra Zádová, KIN, EF, TUL

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

Databázové systémy. 10. přednáška

Snadný a efektivní přístup k informacím

STÁTNÍ POKLADNA. Integrovaný informační systém Státní pokladny (IISSP)

Business Intelligence nástroje a plánování

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Konceptuální modely datového skladu

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Reportingová platforma v České spořitelně

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

Architektury Informačních systémů. Jaroslav Žáček

ARBES BI MODERNÍ ŘEŠENÍ pro podporu strategického, taktického a operativního řízení.

Přístupy k efektivnímu využití modelu MBI

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

Aktuální otázky provozu datových skladů PAVEL HNÍK

4IT218 Databáze. 4IT218 Databáze

Pilotní projekt implementace Business Intelligence ve studijní agendě VŠE v Praze

Konsolidovaný reporting CZ/SK v Cognos případová studie sanofi-aventis

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Databáze Bc. Veronika Tomsová

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

PostgreSQL jako platforma pro datové sklady

Analýza a modelování dat. Přednáška 8

Ondřej Bothe, Richard Dobiš

Outsourcing v podmínkách Statutárního města Ostravy

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Produkty třídy BYZNYS

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

TM1 vs Planning & Reporting

Softwarová podpora v procesním řízení

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

Kvalita dat v datovém skladu nezbytný předpoklad reportingu

Podpora manažerského rozhodování užitím Business Intelligence Ing. Jan Klimeš, ORTEX spol. s r.o., Hradec Králové

Informační strategie. Doc.Ing.Miloš Koch,CSc.

Úvodní přednáška. Význam a historie PIS

v praxi Rizika a přínosy zavádění BI jako nástroje pro řízení podnikání

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

Moderní manažerský informační systém v ČEPS, a.s.

Workshop DSP Jan Medek, DiS. Data Agentura INFOPHARM s.r.o.

SW pro správu a řízení bezpečnosti

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Architektury Informačních systémů. Jaroslav Žáček

Od klasického reportingu k SAP BO Design studio na BW power by HANA Pavel Strnad

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Distanční opora předmětu: Databázové systémy Tématický blok č. 3: OLAP, operátory CUBE a ROLLUP Autor: RNDr. Jan Lánský, Ph.D.

Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery

Obsah Úvod 11 Jak být úspěšný Základy IT

Projekt SEPIe - Datový sklad a analytická nadstavba MIS - manažerský informační systém pro vedoucí zaměstnance resortu MV (konference)

Analýza a modelování dat 5. přednáška. Helena Palovská

Analýza a modelování dat. Přednáška 9

Slovenská spořitelna:

Profitabilita klienta v kontextu Performance management

Ing. Pavel Rosenlacher

Chytrá systémová architektura jako základ Smart Administration

Manažerský reporting a finanční plánování Targetty

Manažerský informační systém na MPSV. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV

Manažerský informační systém pro efektivní řízení zdravotnictví ve Středočeském kraji

MBI - technologická realizace modelu

GIS a Business Intelligence

Oracle aplikace v cloudu rychlé, levné a spolehlivé řešení pro podniky

NÁSTROJE BUSINESS INTELLIGENCE

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

Dotazovací jazyky I. Datová krychle. Soběslav Benda

Trendy v (mobilní) Business Inteligence v ČR dotazníkové šetření

Microsoft.NET. AppTima Feedback Solution - komplexní systém pro zjišťování a vyhodnocování spokojenosti zákazníků

Transkript:

Modelování a návrh datových skladů Doc. Ing. B. Miniberger, CSc. BIVŠ

Obsah 1. Přednáška I. Základy modelování datových skladů (DW) 2. Přednáška II. ETL procesy III. Data Mining IV. Kvalita dat a BI

Literatura Humphries M. a kol. : Datawarehousing (navrh a implementace). Computer Press, 2001. ISBN 80 7226-560-1 RUD Parr Olivia: Data Mininig. (Praktický průvodce dolováním dat pro efektivní prodej, cílený marketing a podporu zákazníků (CRM). Computer Press, 2001. ISBN 80 7226-577-60 INMON W.H.: Building the Data warehouse. Vydání třetí. New York: Willey s Publishing, 2002. ISBN 0-471-08130-2. KIMBALL R.: The Data warehouse Toolkit. New York: Willey s Publishing, 1996. ISBN 0-471-15337-0. LACKO L.: Datové sklady analýza OLAP a dolování dat. Brno: Computer Press, a.s., 2003. ISBN 80-7226-969- MINIBERGER B.,: Kvalita dat datových skladů nezbytný předpoklad předcházení rizik manažerského rozhodování. Sborník z 11. ročníku mezinárodní konference Současnost a budoucnost krizového řízení. Praha 2009, ISBN 978-80-254-5912-6.

Odkazy na webu ADASTRA. Dostupný z : http://www.adastra.cz/ Ballard Chuck, Herreman Dirk,, Schau Don, Bell Rhonda,Kim Eunsaeng, Valencic Ann: Data Modeling Techniques for Data Warehousing. ISBN-0738402451. In: http://www.redbooks.ibm.com/ ORACLE. An Introduction to OLAP In: http://www.oracle.com/index.html Chuck Ballard, Daniel M. Farrell, Amit Gupta, Carlos Mazuela, Stanislav Vohnik: Dimensional Modeling:In a Business Intelligence Environment. In: http://www.redbooks.ibm.com/

Strategie a procesy v podnikání (podle Meta Group) Periody cyklů se zkracují Perioda cyklů v 70 tých a 80 tých létech byla: 5-7 LET Periody cyklů pro období po r. 2000 18-24 měsíců Technology Competition Economics Policy Leadership Doc. B. Cíl: Miniberger, Adaptivní CSc. Modelování IT architektura a návrh DS pro podnikání

Konflikt změn Rychlost změn podnikatelských procesů je často větší než kapacitní možnosti IT

Požadavky na IT pro 21. století Každé 4 roky vzrůstá potřeba dat 12 x. Neřízený nárůst dat způsobuje snižování produktivity a zvyšuje náklady. Proces řízení nárůstu dat lze považovat považuje jako problém No 1. Aktuálnost dat se stává největší potřebou distribuovaných systémů v prostředí UNIX a NT. Mission critical data jsou všude - uvnitř i vně datových center. Petabytes 1,400 800 200 * Source: IDC, 1998 0 1997 1999 2002

Požadavky na Správu dat Archivace databáze a souborů denně. Přesun dat a souborů (např. mezi MVS a UNIX MS Windows, Linux) denně. Prvotní tvorba testovacích dat opakovaně. Obnova testovacích dat změněných testovacími procedurami denně. Extrakce, formátování a slučování dat pro použití v data warehouse a v data marts denně. /týdně/měsíčně Migrace dat z jednoho na druhé zařízení - ročně, nebo jakmile je zpracování uzavřeno. Migrace celých datových center zřídka. Katastrofy- zřídka.

Informační pyramida (podle IBM) a její podpora pomocí: Datový sklad s OLAP OLTP

Architektura CRM + DWH Interakce se zákazníkem Fax, telefon, TV, informační kiosky, e-mail, direct (přímá), WWW Operační část Analytická část Podnikové aplikace (ERP) Obsluha zákazníka Marketing Prodej Servis Trh Průzkum trhu Data warehouse Znalostní DB Řízení kampaně Zákazník 10

Co je datový sklad a jak pracuje? 1. (Datový sklad (Datawarehouse, DWH, DS) je sdružený zdroj informací shromážděných z dat firemních systémů. 2. Z pohledu koncového uživatele umožňuje Datový sklad snadný a rychlý přístup k firemním informacím. 3. Díky tomu umožňuje uživateli získávat odpovědi na často velmi složité dotazy a jejich vyhodnocování, aniž by byl vybaven hlubokými znalostmi programování.

Schéma datového skladu (DWH)

Spolupráce OLTP a OLAP OLTP & jiné zdroje dat OLAP Databáze ETL Přínos pro podporu rozhodování 20% 80%

Rozdíly ve schématech OLTP v. OLAP

Co je datová kostka OLAP?

Rozdílné pohledy na data Multidimenzionální pohled na data: Čas Produkt Obchod Pomocí OLAP databáze, může uživatel lehce zjistit data, která ho v daných souvislostech zajímají. vyžadují nové druhy operací na DM OLAP (viz dále) Pohled produktov ého manažera Produktový manažer sleduje jeden produkt napříč časovými intervaly a obchodními jednotkami. Pohled regionální ho manažera Regionální manažer sleduje všechna údobí prodeje za všechny produkty v daném regionu. Pohled finančního manažera Finanční manažer se zaměří na prodeje za předchozí a minulé období za všechny obcodní jednotky a produkty Přležitost ný pohled vrcholého řízení Strategické řízení se může zaměřit na podmnožinu podnikových dat jak v současném, tak v minulém období, za účelem zvýšení prodeje nějakého výrobku v daném regionu..

Příklad DM typu hvězda Hvězdicové schéma pro obchodní organizaci : Čas Produkt Fakta jsou normalizovaná. Klient Prodej (tabulka faktů) Organizace Dimenze nemusí být normalizovaná, ale mohou být.

Dimenzionální modelování Systémy OLTP používají normalizované datové struktury, ale nejsou optimalizovány pro podporu rozhodování Nejsou pro obchodního uživatele příliš pochopitelné Vyžadují znalost jazyka SQL Dimenzionální modelování OLAP systémů je vhodné pro podporu rozhodování Dva typy tabulek: Tabulky faktů, které jsou používány pro ukládání záznamu např. aktuálních obchodních faktů, či měřítek. Fakta jsou čísla, která uživatelé analyzují a sumarizují s cílem získat lepší pochopení svého podnikání Tabulky dimenzí, které stanovují obsah faktů a obsahují atributy popisující fakta, pro jednotlivá průmyslová odvětví. Tabulka faktů + tabulky dimenzí = schéma OLAP

Granularita tabulky faktů Granularita určuje úroveň podrobností v tabulce faktů. V případě tabulky faktů granularita pochopitelně vychází z úrovně podrobností odpovídajících dimenzí. Čím nižší je úroveň granularity, tím detailnější jsou data určená k provádění matematických operací. Příklad: jestliže každý záznam v časové dimenzi odpovídá jednomu dni, jestliže každý záznam v tabulce dimenzí Produkt odpovídá jednomu produktu, jestliže záznam v dimenzi Organizace odpovídá jedné pobočce, Pak pole tabulky faktů s těmito dimenzemi bude: Prodej produktů za jednotlivé dny a jednotlivé pobočky.

Spojení klíče v tabulce faktů Jelikož Granularita tabulky faktů určuje úroveň podrobností odpovídajících dimenzí, potom Hodnota klíče v tabulce faktů je spojením klíčů každé z odpovídajících dimenzí.

Datový model hvězda Dimenze Fakta PK

Datový model vločka PK Rozdělením tabulky na podtabulky

Hierarchie dimenzí Čas Rok Čtvrtletí Měsíc Den Obchod Všechny obchody Region Stát Město Produkt Všechny produkty Produktová oblast Kategorie produktů Produkt Prodej všech produktů podle regionů v jednotlivých letech. Rok 2006 2007 Region Asie Evropa Amerika Asie Prodej 1 000 50 000 20 000 1 500

Rozpad (zjemňování) dimenze čas Čas Rok Čtvrtletí Měsíc Den Obchod Všechny obchody Region Stát Město Produkt Všechny produkty Produktová oblast Kategorie produktů Produkt A odpovídající sestava: Prodej všech produktů podle regionů v jednotlivých ČVRTLETÍCH. Rok Čtvrtletí Region Prodej 2006 1. Asie 200 2. Asie 200 3. Asie 250 4. Asie 350 1. Evropa 10 000

Operace OLAP podporované v DM Agregace je předpřipravená sumace, na základní úrovni, pro vyšší úrovně v hierarchických dimenzích. Pivoting (rotating) - změna vizualizace dat kostky. Roll-up: sumarizace zaměřená na vyšší úroveň, navigována hierarchií dimenze (od prodeje podle města k prodeji podle obvodu). Drill-down: rozpad - zjemňování k větším detailům (od prodeje podle obvodu k prodeji podle města). Slice_and _dice (redukce dimenzionality dat).

Agregace a sumace Čas Rok Čtvrtletí Měsíc Den Obchod Všechny obchody Region Stát Město Produkt Všechny produkty Produktová oblast Kategorie produktů Produkt Možnost používat agregace zvyšuje celkový výkon a použitelnost DS. Agregace jsou vlastně sumace na základní úrovni uložená v samotném schématu, pro vyšší úrovně v hierarchiích dimenzí

Příklad multidimenzionalního modelu Metriky

Vizualizace modelu Metriky

Metrika (Measure) A measure (metrika) je numerický atribut tabulky faktů, reprezentující výkonnost nebo chování podnikání ve vztahu k dimenzím. Metrika je určena kombinací členů dimenzí a je založena na faktech.

Drill Down and Roll Up Roll-up: od prodeje podle města k prodeji podle obvodu Drill-down: od prodeje podle obvodu k prodeji podle města

Metriky Slice and Dice Rotace X Redukc e diemzio nality

Obvyklý postup návrhu DS (Od modelování procesů k implementaci a ne jinak)

Nejprve analýza věcných požadavků Věcný cíl - strategický cíl podnikání, definovaný vedením banky. Kritická oblast výkonnosti (KOV) - oblast, ve které musí být dosažena určitá efektivní úroveň výkonnosti aby banka mohla dosáhnout svých cílů. Kriterium výkonnosti - ukazatel, umožňující stanovit výkonnost sledované oblasti nějakou metrikou (poměrem nebo v jednotkách). Požadavek - požadavek na zdokonalení výkonnosti v KOV. Problém - okolnost, významně bránící dosažení požadované úrovně KOV ve stávajících podmínkách.

Výsledky analýzy kritických požadavků Stanovení věcných cílů. Stanovení kritických oblastí výkonnosti. Specifikace výkonnostních kriterií a požadavků. Specifikace a ohodnocení problémů. (Vyhodnocení návrhů alternativ systému).

Stanovení věcných cílů Rozvoj komerčního bankovnictví, jako základu stabilního vývoje a výnosnosti

Stanovení funkčních KOV Projekt Podpora řízení prodeje. 1. Individuální obsluha klienta 2. Organizační zabezpečení 3. Zavedení systému řízení prodeje 4. Lidské zdroje 5. Informační technologie 2.1 Metodické 2. 2 Přímé Retail a Corporate 4.1 Odměňování 4.2 Kvalifikační růst 1.1 Obchodní manažeři 1.2 Nabídka produktů 3.1 Segmentac e 3.2 Propagace 5.1 SW 5.2 HW

Definování a vyhodnocení problémů P1 Klienti (počet, segmentace, objem vkladů...). P2 Produkty (počet, objemy, období..). P3 Obchodní manažeři ( objem obchodů, kvalifikace, zkušenosti..). P4 Metodika ( přehlednost, podpora PC, školení...). P5 Forma propagace ( TV, sponzorství, INTERNET, DirectMarketing). P6 Osobní zainteresovanost, Školení, Vyhodnocování. P7 Podpora IT (Implementace, Správa dat, Intranet...).

Návrh pohledů systému Model Přehled úrokových sazeb Model Konjunkturní indikátory Model Analýzy trhu Pohled 1 Pohled 2 Klienti Vklady Pohled 3 Pohled 4 Kč Úvěry Prodej produktů Pohled 5 Vztahy klientů s bankou

Reportování 3 hlavní typy analytických systémů: nástroje pro dotazy a tvorbu výstupních sestav - nabízejí jednoduchý přístup k relačním databázím a uživatelsky jednoduchým způsobem tvorbu dotazů a reportů nad relačními databázemi (pro menší aplikace i různé spredsheety, např. MS Excel apod.) OLAP (Online Analytical Processing) systémy - strukturují data do multidimenzionálních hierarchií agregovaných informací a tím nabízejí pohled na data z vhodných perspektiv a ve formě vhodných pro jejich analýzu. Systémy pro dolování dat, které predikují informace z velkého množství dat, na základě matematických modelů Moderní OLAP produkty nabízejí propojení všech tří způsobů, včetně komunikace mezi nimi prostřednictví technologií Internetu.

Zjednodušený DM úlohy Marketing: Možný dotaz: Na základě čísla účtu klienta, zjistěte stav jeho účtu a klasifikaci podle standardu ČNB, k danému datu. STŘEDISKO stredisko_id Tabulka dimenzí Tabulka faktů: KLIENT klient_id cislo_klienta název_ klienta segment_id. klasif_čnb_kod Fa:ÚCET_Datum klient_id ucet_id datum_id Zust_ult_mena. uroky_mena. datum_id ÚČET ucet_id stredisko_id mena_kod_id druh_uctu_id. syu_id DATUM datum_id MĚNA mena_kod DRUH ÚČTU druh_uctu_kod

ROI pro zavedení DS Zkvalitněním vlastních služeb Pomocí Customer Value Intelligence ROI = Jak zlepšit ROI??? Dosažené úspory + Zvýšení výnosů Celkové náklady na tvorbu a provoz Pomocí výběrových řízení na dodávky SW a HW, služeb, zavedením metodiky RAD,...

Bod zlomu návratnosti $350 000 $300 000 Dollars $250 000 $200 000 $150 000 $100 000 Bod zlomu pro návratnost Cumulative Savings Investment $50 000 $0 0 1 2 3 4 5 Time (Years)

Doporučení postupu tvorby DS Tvorba DS - společným vývojem: uživatelů, analytiků a programátorů provozovatelů Zabezpečení konsistence: nástroji pro datové modelování správou DS Řízení projektu: vedoucí projektu a jeho tým mapování a vyhodnocování postupu Realizace Provoz DS: uživatelské příručky konzultace při zavádění a provozu monitorování využití DS návrhy na racionalizaci ROI

Anatomy of a Data Warehouse Failure (anatomie neúspěchů tvorby DS) 1. chyba : Nezačínejte projekt bez jasného porozumění věcných cílů (Business Objectives) nebo uživatelských požadavků (Requirements). 2. chyba : Redundantní nebo zmatené definice dat. 3. chyba : Poskytování nepotvrzených (neautorizovaných) dat a reportů. 4: chyba: Zahájení plánu, který je podporován výkonným týmem (*B.M.: bez schválení řídící komise.) Podle Lawrence F. Goldman: Published in DM Review Online in February 2001

12 pravidel pro tvorbu OLAP (podle: Codd E.F., Codd S.B., and Salley C.T. "Providing OLAP (On-line Analytical Processing) to User-Analysts: An IT Mandate". Codd & Date, Inc 1993. <http://www.fpm.com/ refer/codd.html 1. Multidemenzionální koncepce (provádění operací OLAP). 2. Transparentnost (propojení na front end systémy. 3. Dostupnost ( z kteréhokoliv datového zdroje). 4. Konsistentní provádění reportů (neměla by být degradována velikostí databáze). 5. C/S architektura (server zajišťuje integraci mezi klientskými a datovými zdroji (*nově podle B.M. i SOA). 6. Generická dimenzionalita (všechny dimenze se chovají stejně).

Pokračování 12 pravidel tvorby OLAP 1. Dynamické ovládání řídkých matic (automatické uspořádání profilů databáze). 2. Multiuživatelská podpora (souběžné vyhledávání a aktualizace se zabezpečenou integritou a bezpečností). 3. Neomezené provádění operací napříč dimenzemi (konsolidace kalkulů je prováděna automaticky, formule jsou k dispozici pro jiné kalkuly). 4. Intuitivní manipulace s daty (vybavování napříč dimenzemi měl by zahrnovat jednoduché operace). 5. Flexibilní reportování (reporty založené na animaci libovolně orientovaného datového modelu). 6. Neomezený počet dimenzí a agregačních úrovní.

Závěr Děkuji za pozornost