Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování Aplikace IS/ICT BI SCM e-business ERP ERP CRM II e-business Aplikace pro podporu základních řídících a administrativních operací 1
Informační systémy na počátku 3. tisíciletí pro řízení vnitřních procesů back-office aplikace pro podporu základních řídících administrativních operací podniku pro řízení vztahů podniků s okolím front-office aplikace, aplikace s přidanou hodnotou (value-added ) pro rozvoj řízení podniku a podporu rozhodování back-office aplikace Aplikace pro řízení vnitřních procesů podniku - klasické celopodnikové aplikace ERP (Enterprise Resource Planning) Aplikace pro podporu základních řídících a administrativních operací podniku kancelářské systémy řízení pracovních toků (workflow) aplikace a technologie pro správu dokumentů všeobecné informace a instrukce (hlavně na bázi Intranetu Vladimíra ) Zádová, KIN, EF TUL 2
Aplikace pro řízení s okolím vztahů organizací mění kooperace mezi podniky CRM (Customer Relationship Management) elektronické podnikání SCM (Supply Chain Management) CRM procesy a aktivity, které souvisí se zákazníkem existujícím či potenciálním podpora prodeje - SFA (Sales Force Automation ) podpora zákazníka - CSS (Customer Service and Support ) podpora marketingu - EMA (Enterprise Marketing Automation) 3
Elektronické podnikání elektronický obchod (e-commerce) elektronické zásobování (e-procurement) elektronická tržiště (Marketplaces) Elektronické obchodování rozlišuje realizace obchodních vztahů mezi dvěma organizacemi -B2B, B2C, B2R, B2G, B2E (R - reseller, G - government, E -employee) SCM, SCM/APS koordinuje toky výrobků, služeb, informací a financí mezi dodavateli surovin, jejich zpracovateli, výrobci, obchodníky, zákazníky dvě kategorie aplikace pro plánování optimální způsob směrování množství materiálu a zboží potřebného v místech určení aplikace pro realizaci fyzické zásoby, obrátky zboží, objednávek a dodávky materiálu, finance Pozn.: APS =Advanced Planning and Schedulling (systém pokročilého plánování) 4
Aplikace pro podporu rozhodování Business Intelligence EIS (Executive Information Systems - manažerské informační systémy) datové sklady ( Data Warehouse) datová tržiště (Data Mart) dolování dat (Data Mining), OLAP (On-line Analytical Processing), reporting.. Customer Intelligence CRM + BI = CI Aplikace pro podporu rozhodování Business Intelligence EIS (Executive Information Systems - manažerské informační systémy) datové sklady ( Data Warehouse) datová tržiště (Data Mart) dolování dat (Data Mining), OLAP (On-line Analytical Processing), reporting.. Customer Intelligence CRM + BI = CI 5
Obecná koncepce architektury BI Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 IS/ICT - vztahy mezi daty a procesy OLTP ETL OLAP, DM, Operativní data Datové sklady OLAM, EIS 6
Procesy v BI dotazy/reporting dotazy na to CO je v databázi OLAP PROČ jsou některé fakty pravdivé uživatel generuje hypotézu a OLAP slouží k jejímu ověření je závislý na schopnostech analytika, ten se iterací dostává k výsledku DM představuje nástroje, které generují hypotézy a pokračují v provádění objevování - bez navádění uživatelem 7
Reporting standardní dotazování jedná se zejména o SQL dotazy v relačním prostředí výstupy standardní předpřipravené dotazy, nepredikovatelné ad hoc dotazy určené zejména pro nižší management OLAP = Online Analytical Processing def. Definovaná řada principů, které poskytují dimenzionální rámec pro podporu rozhodování. Dynamická syntéza, analýza a fúze velkého objemu multidimenzionálních dat. OLAP systémy pracují s analytickými informacemi, primární zdroje dat jsou OLTP systémy, důl. faktor času 8
drill-down, roll-up Základní operace OLAP snížení, zvýšení stupně agregace slicing (selekce), dicing provedení řezu v multidimenzionální databázi pivoting mění úhel pohledu na data ( jedná se o prezentaci obsahu) drill across spojení tabulek faktů přes tabulky dimenzí ( na stejné úrovni granularity) Operace různě kombinovány v jedné i ve více dimenzích ovlivňují podobu datového skladu Dolování dat, Data Mining Dolování dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody Cíl: obchodní výhoda řešení konkrétního problému nalezení cesty k zlepšení procesu předem definován, na jeho základě připravena data; není jednorázová analýza příprava podnikových procesů - aby umožnily využívání analýz (kontinuálně) a podporovaly zpětné vazby od uživatelů. Zpětné vazby ovlivňují proces sběru dat i definice nových cílů. 9
Dolování dat a objevování znalostí v datech Knowledge Discovery in Databases ( KDD, objevování znalostí v datech ) obecně netriviální proces objevování platných, nových, potenciálně užitečných vzorů z dat. Dolování dat ( Data Mining) pouze krok v procesu KDD založený na aplikaci výpočetních technik, které na základě daných omezení poskytují vzory či modely nad danými daty Dolování dat a objevování znalostí v datech vyhodnocení vzorů data relevantní pro úlohu dolování dat DW selekce čištění dat integrace dat DB 10
fáze procesu KDD selekce výběr nebo segmentace dat podle kriteria, výběr vzorků dat předzpracování dat pro efektivní vyhodnocení dotazu čištění dat od nepotřebných dat, úprava formátů dat transformace pro obohacení použitelnosti dat data mohou být rozšířena o další atributy (např. demografické z externích zdrojů) dolování dat extrakce vzorů z dat interpretace a vyhodnocení identifikované vzory jsou interpretovány jako znalosti lze je použít k podpoře rozhodování Dolování dat Není samostatný vědní obor, používané metody patří do statistiky (např. klasifikace, regrese, časové řady, shlukování, asociační analýza, rozhodovací stromy), umělé inteligence (např. genetické algoritmy, neuronové sítě)... 11
ETL ETL proces extrakce, filtrování, čištění a vkládání ze zdrojových systémů do DW extrakce transformace restrukturalizace dat do podoby odpovídající DW filtrace (odstranění chybných i neúplných záznamů) standardizace dat odstranění nežádoucích atributů denormalizace dat kombinace datových zdrojů vkládání a indexace konzistence dat samých, konzistence s ostatními daty v DW 12
Zdroje dat zdroje důvěryhodnost vše nebo část ( atrib.,..projekce, selekce) porovnat stejné údaje z různých zdrojů (1DW z různých zdrojů) z hlediska obsahu ( m.j. m, cm, dm) formátu (cena zboží jiná přesnost, m/ž 0/1) významově stejné zdroje jsou různě pojmenovány a naopak Zdroje dat pokr. změny zdrojů během let struktura dat ze stejných zdrojů (archiv a současnost) formálně stejný objekt z více zdrojů ( zákazník: zákazník x potenc. zákazník) četnost přenášení zdrojů 13
ETL pravidla pro přenos Prosté kopírování Přepočty jednotek Standardizace formátů Odstraňování duplicit v datech z různých zdrojů Rozdělení atributu do několika cíl. atributů ( př. adresa) Slučování atributu do jednoho Odvozování nových atributů (př. datum) Převodní funkce některé použijí pro více atributů, jinde pro atribut samostatná funkce Po přenosu Kontrola kvality a ošetření chybějících údajů Vypuštění záznamů kde chybí Jednotné označení chybějících údajů a upozornění na neúplnost dat Statistika pro každý atribut Rozsah (doména) a četnost hodnot, které může nabývat (lze odhalit chybné hodnoty) 14
Zdroje dat pokr. u atributů: identifikátor, název, typ dat, měr.j., doména, význam, vlastník typ atributu (dimenze, fakt), typ indexu, pro měr.j.: konverzní poměry (koeficienty převodu, popř. koeficienty proměnné v čase) pro dimenze klíče, definice hierarchie/hierarchií přiřazení zdrojových atributů cílovým, transformace, změny formátů vazby mezi zdroji ( kdo komu poskytuje data) Data v IS/ICT 15
OLTP - operativní data zdroje: zejména aplikace Data v OLTP a DW přístup: více současně pracujících uživatelů aktualizace: častá, relativně malých objemů dat Operace INSERT, UPDATE, DELETE dotazy nad daty selektivní ( zejména předpřipravené dotazy) přesnost výstupu - na Kč, haléře,.. četnost stejných dotazů - i vícekrát denně ukládání dat strukturovaně - normalizovaná relační databáze nověji objektově relační, objektová databáze požadavky - nekonfliktní zpracování operací, zajištění integrity dat procesní orientace Vladimíra ( stavy Zádová, procesů, KIN, EF TUL detailní data) Data Warehouse Data v OLTP a DW zdroje: podnikové OLTP, operativní data + externí data přístup: malé množství specializovaných uživatelů - management aktualizace: řídká - jen přidávání dat ze zdrojů, delší časové intervaly dotazy intenzivní na data, složité dotazy, postupná iterace, sumarizace výstupy zaokrouhlené (i na tisíce) ukládání dat strukturovaně speciálně navržená relační databáze multidimenzionální kostka 16
DW - definice je subjektově orientovaná, integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů subjektová orientace DW je organizován podle hlavních subjektů podniku (zákazníci, prodej, produkt..), ne podle procesů (aplikací) reflektuje potřeby uložení dat pro rozhodování v jedné databázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci ) integrovaná do celku jsou vkládána data z různých aplikací - nekonzistentnost, různé formáty integrací těchto dat - prezentace unifikovaného pohledu B. Inmon časově variantní DW data v DW jsou platná a přesná jen v bodech, ne intervalech času uložení historie dat - hodnoty v časových bodech (den, měsíc, Q, rok..) v DW vždy dimenze času stálá data v DW nevznikají, nedají se žádnými nástroji měnit aktualizace DW - jen přidávání dat v pravidelných časových intervalech (jako doplněk), integrace přírustků 17
Datová tržiště (Data Mart) příčiny vytváření pro nejčastější analýzy pro skupinu uživatelů - business process, oddělení vytvoření DM s více agregovanými daty, s menším objemem dat - pro zlepšeníčasu odezvy k poskytování vhodněji strukturovaných dat - z hlediska požadavků nástrojů přístupu pro snazší implementaci pro nižší náklady proti DW pro lepší zaměření koncového uživatele Základní představa 18
Přístupy k návrhu IS/ICT Vypracovány pro OLTP popisuje konceptuální schémata, která jsou optimalizována pro OLTP systémy Nerespektují specifika datových skladů neposkytuje postačující informace, které má DW poskytovat pro analytické zpracování nepřehlednost, není vidět přímo dimenze a fakty není zřejmé jak jednoduše agregovat data Multidimenzionální modelování 19
Dimenzionální modelování speciální technika určená pro logický návrh DW tak, aby vedl k výsledku - multidimenzionálnímu schématu Dimenzionální modelování Požadavky uživatelů Proces návrhu 4 kroky: výběr procesu/ů stanovení granularity výběr dimenzí určení faktů Zdroje dat 20
Star schéma (hvězdicové schéma) 21
Schéma souhvězdí 22
Konceptuální úroveň D 1 D 2 F 1 D 1 D 2 F 1 D 3 D 4 F 2 D 3 D 4 D 5 D 6 Hvězdicové schéma Schéma souhvězdí Obr. 1-P4 Grafické znázornění schéma faktů Zdroj: [5] M. Golfarelli, D. Maio, S. Rizzi. The Dimensional Fact Model: a Conceptual Model for Data Warehouses. International Journal of Cooperative Information Systems,, pp. 215-247, 23
Obr. 2-P4 Grafické znázornění konceptuálního multidimenzionálního schématu Zdroj: [9] Hüsemann, B., Lechtenbörger, J., Vossen, G.: Conceptual Data Warehouse Design,In Proceedings of the International Workshop on Design and Management of Data Warehouses, DMDW, Stockholm, 2000 Obr. 3-P4 Multidimenzionální doménová struktura E. Thomsen 24
Technologická úroveň D 1 D 2 D 1 D 2 F 1 F 1 D 3 D 4 D 3 D 4 F 1-hierarch1 F 1-hierarch1 D 4-hierch1 D 5 F 1-hierarch2 D 5 F 1-hierarch2 D 4-hierch2 Schéma souhvězdí pro hierarchii faktů Schéma souhvězdí pro hierarchii faktů a dimenzí Zaměstnanec Zam Id Jméno zam Nástup zam Ved Id Čas Den Id Typ dne Teplota dne Týden Měsíc Čtvrtletí Rok F - Prodej Zak Id Zam Id Prod Id Den Id C fakt Qty-prodané Prodej v KČ Zákazník Zak Id Jméno zak Profese Odvětví Typ zak Země Produkt Prod Id Název prod Skupina Kategorie 25