BI v rámci IS/ICT komponenty BI architektura Charakteristika dat a procesů v IS/ICT Datové sklady ukládání dat návrh datového skladu
BI CRM ERP SCM Aplikace pro podporu základních řídících a administrativních operací podniku
Business Intelligence BI Je sada procesů, aplikací a technologií, jejichž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě Dva pohledy na BI - široký rámec - BI jako jeden z nástrojů vedle / nad DW
Nástroje BI Produkční systémy ETL EAI Dočasné úložiště dat Operativní úložiště dat Datový sklad/ datové tržiště OLAP Reporting Manažerské aplikace ( EIS ) Dolování dat Nástroje pro zajištění kvality dat Nástroje pro správu metadat
Obecná koncepce architektury BI Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005
Enterprise Application Integration EAI Nástroje využívané ve vrstvě zdrojových systémů Pracují v reálném čase Cíl: integrovat primární informační systémy redukovat počet aplikačních rozhraní hlavně datová integrace
Extract, Transformation, Loading Extrakce dat ze zdrojových systémů Zpracování dat Uložení dat Práce v dávkovém režimu
DSA (Data Staging Area, dočasné úložiště dat) - Pro uložení dat z produkčních systémů obsahuje neagregovaná aktuální data (do té doby, než jsou uloženy do dalšího úložiště dat - ODS, DW, DM)
Sklady provozních dat (ODS - Operational Data Store) Cíl: poskytnutí integrovaného a aktuáln lního pohledu Konzistentní, konsolidovaná, subjektově orientovaná data strukturou jsou obdobná datům v DW, ale na rozdíl od DW mají jen aktuální data ( i agregovaná) pravidelná aktualizace, odpovídají aktuálnímu stavu provozu, obsah dat je měněn po každém nahrání
Datový sklad (DW)- definice je subjektově orientovaná, integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů subjektová orientace DW je organizován podle hlavních subjektů podniku (zákazníci, prodej, produkt..), ne podle procesů (aplikací) reflektuje potřeby uložení dat pro rozhodování v jedné databázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci ) integrovaná do celku jsou vkládána data z různých aplikací - nekonzistentnost, různé formáty integrací těchto dat - prezentace unifikovaného pohledu B. Inmon
Datový sklad časově variantní data v DW jsou platná a přesná jen v bodech, ne intervalech času uložení historie dat - hodnoty v časových bodech ( den, měsíc, Q, rok..) v DW vždy dimenze času stálá data v DW nevznikají, nedají se žádnými nástroji měnit aktualizace DW - jen přidávání dat v pravidelných časových intervalech (jako doplněk), integrace přírustků další definice - většinou zahrnují procesy spojené s přístupem k datům z původních zdrojů
Datová tržiště (Data Mart) příčiny vytváření pro nejčastější analýzy pro skupinu uživatelů - business process, oddělení vytvoření DM s více agregovanými daty, s menším objemem dat - pro zlepšeníčasu odezvy k poskytování vhodněji strukturovaných dat - z hlediska požadavků nástrojů přístupu pro snazší implementaci pro nižší náklady proti DW pro lepší zaměření koncového uživatele
Reporting standardní dotazování jedná se zejména o SQL dotazy v relačním prostředí výstupy standardní předpřipravené dotazy, nepredikovatelné ad hoc dotazy určené zejména pro nižší management
EIS původně chápány jako aplikace pro podporu strategického rozhodování vrcholového managementu později pak i pro podporu rozhodování středního managementu a podnikových specialistů. S vývojem dalších aplikací na podporu rozhodování není hranice mezi jimi a OLAP ostrá integrují všechny zdroje dat z transakčních systémů, které jsou důležité pro řízení organizace jako celku postupně integrovány i externí zdroje
Data a procesy v IS/ICT
IS/ICT - vztahy mezi daty a procesy OLTP ETL OLAP, DM, Operativní data Datové sklady OLAM, EIS
Procesy zpracování dotazy/reporting dotazy na to CO je v databázi OLAP PROČ jsou některé fakty pravdivé uživatel generuje hypotézu a OLAP slouží k jejímu ověření je závislý na schopnostech analytika, ten se iterací dostává k výsledku Dolování dat představuje nástroje, které generují hypotézy a pokračují v provádění objevování - bez navádění uživatelem
OLAP = Online Analytical Processing def. Definovaná řada principů, které poskytují dimenzionální rámec pro podporu rozhodování. OLAP systémy pracují s analytickými informacemi, primární zdroje dat jsou OLTP systémy, důl. faktor času
Základní operace OLAP drill-down, roll-up snížení, zvýšení stupně agregace slicing (selekce), dicing provedenířezu v multidimenzionální databázi pivoting mění úhel pohledu na data ( jedná se o prezentaci obsahu) drill across spojení tabulek faktů přes tabulky dimenzí ( na stejné úrovni granularity) Operace různě kombinovány v jedné i ve více dimenzích ovlivňují podobu datového skladu
ROLAP, MOLAP a HOLAP souvisí s uložením dat v OLAP ROLAP (Relational( OLAP) pro práci s relační databází (RDBMS) výhoda: dynamický přístup k detailním informacím v DW nevýhoda při nárustu komplexnosti a objemu databáze výrazné zpomalení odezvy na dotazy; snížení použitelnosti MOLAP (Multidimensional( OLAP) pro práci s multidimenzionální databází výhoda: rychlá odezva na dotaz a velké analytické možnosti nevýhoda: orientace na práci s agregovanými hodnotami bez možnosti zpracování velmi detailních informací. HOLAP (Hybrid OLAP) kombinují přednosti obou technologií. klient OLAP zpracovává relativně malé objemy dat uložené v paměti, výpočty jsou prováděny většinou v reálném čase
Dolování dat (Data Mining) Dolování dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody Cíl: obchodní výhoda řešení konkrétního problému nalezení cesty k zlepšení procesu předem definován, na jeho základě připravena data;není jednorázová analýza příprava podnikových procesů - aby umožnily využívání analýz (kontinuálně) a podporovaly zpětné vazby od uživatelů. Zpětné vazby ovlivňují proces sběru dat i definice nových cílů.
Dolování dat Není samostatný vědní obor, používané metody patří do statistiky (např. klasifikace, regrese, časovéřady, shlukování, asociační analýza, rozhodovací stromy), umělé inteligence (např. genetické algoritmy, neuronové sítě)...
ETL
ETL proces extrakce, filtrování, čištění a vkládání ze zdrojových systémů do DW extrakce transformace restrukturalizace dat do podoby odpovídající DW filtrace (odstranění chybných i neúplných záznamů) standardizace dat odstranění nežádoucích atributů denormalizace dat kombinace datových zdrojů vkládání a indexace konzistence dat samých, konzistence s ostatními daty v DW
ETL pravidla pro přenos Prosté kopírování Přepočty jednotek Standardizace formátů Odstraňování duplicit v datech z různých zdrojů Rozdělení atributu do několika cíl. atributů ( př. adresa) Slučování atributu do jednoho Odvozování nových atributů (př. datum) Převodní funkce některé použijí pro více atributů, jinde pro atribut samostatná funkce
Po přenosu Kontrola kvality a ošetření chybějících údajů Vypuštění záznamů kde chybí Jednotné označení chybějících údajů a upozornění na neúplnost dat Statistika pro každý atribut Rozsah (doména) a četnost hodnot, které může nabývat (lze odhalit chybné hodnoty)
Zdroje dat pro DW zdroje důvěryhodnost vše nebo část ( atrib.,..projekce, selekce) porovnat stejné údaje z různých zdrojů (1 DW z různých zdrojů) z hlediska obsahu ( m.j. m, cm, dm) formátu (cena zboží jiná přesnost, m/ž 0/1) významově stejné zdroje jsou různě pojmenovány a naopak
Zdroje dat pokr. změny zdrojů během let struktura dat ze stejných zdrojů (archiv a současnost) formálně stejný objekt z více zdrojů ( zákazník: zákazník x potenc. zákazník) četnost přenášení zdrojů
Data v IS/ICT
OLTP X DW-OLAP Proč DW - nelze přímo z OLTP dat? Třeba: porovnat charakteristiku OLTP dat a OLAP/DM rozdílnost cílů OLTP vypovídají o stavu procesů v organizaci X OLAP/DM = cílem je analýza dat, zkoumání z hlediska více dimenzí potřeba optimalizovat ukládání dat tomu se lépe hodí uložení v DW, popř. ODS
Data v OLTP a DW OLTP - operativní data zdroje: zejména aplikace přístup: více současně pracujících uživatelů aktualizace:častá, relativně malých objemů dat Operace INSERT, UPDATE, DELETE dotazy nad daty selektivní ( zejména předpřipravené dotazy) přesnost výstupu - na Kč četnost stejných dotazů - i vícekrát denně ukládání dat strukturovaně - normalizovaná relační databáze nověji objektově relační, objektová databáze požadavky - nekonfliktní zpracování operací, zajištění integrity dat procesní orientace ( stavy procesů, detailní data)
Data v OLTP a DW DW zdroje: podnikové OLTP, operativní data + externí data přístup: malé množství specializovaných uživatelů - management aktualizace:řídká - jen přidávání dat ze zdrojů, delšíčasové intervaly dotazy intenzivní na data, složité dotazy, postupná iterace, sumarizace výstupy zaokrouhlené (i na tisíce) Ukládání dat strukturovaně speciálně navržená relační databáze multidimenzionální kostka
Organizace dat v DW Založené na RMD Multidimenzionální kostka
Multidimenzionální data Příklad 2-dimenzionálního dotazu. Jaký je celkový příjem firmy( př. zabývající se prodejem nemovitostí) v každém městě pro Q 1999 Porovnání reprezentace: 3-atributové relace X 2-dimenzionální matice 8
Multidimenzionální data 9
Reprezentace multidimenzionálních dat Příklad 3-dimenzionální otázky. Jaký je celkový příjem firmy zabývající se prodejem nemovitostí - za jednotlivé druhy v každém městě, za čtvrtletí 1997 Porovnání reprezentace: 4-atributové relace X 3-dimenzionální kostky 10
Multidimenzionální data 4-atributové relace X 3-dimenzionální kostky
Reprezentace multidimenzionálních dat Kostka reprezentuje data jako buňky Relace reprezentuje multidimenzionální data ve 2 dimenzích
Multidimenzionální databáze zobrazení dat ve vícerozměrných polích dimenze = charakteristiky, rysy podstatné z hlediska prováděné analýzy ukazatelé = fakty konkrétní hodnoty prvek v dimenzi - pozice odpovídá hodnotě atributu v relační databázi klasicky dimenze = kategoriální proměnné fakta = numerické hodnoty s rozvojem jiné druhy dat, dimenze nemusí být pouze popisné
multidimenzionální model dat logický návrh pomocí RMD konstrukty - fakty, dimenze, atributy dimenze, dimenzionální tabulky jednoatributový klíč (tvoří FK v tabulce faktů) atributy - slouží jako zdroj pro různá omezení daná v dotazech na DW atributy spíše textové jedna dimenze může být ve více hvězdicových schématech většina dimenzí se mění pouze pomalu obdobné vlastnosti jako číselníky (katalog výrobků, údaje o okresech..)
tabulka faktů obsahuje ukazatele (míry, metriky) výskyt konkrétní hodnoty závisí na n-tici konkrétních hodnot odpovídajících dimenzí mezi dimenzí a fakty je vztah 1: N mezi dimenzemi nejsou žádné přímé vztahy nejsou mezi nimi žádné funkční závislosti fakty jsou neklíčové atributy v tabulce faktů obvykle jsou numerické, aditivní, představují jisté míry představa faktů jako funkcí- závislost na klíčových atributech, výsledkem jsou hodnoty neklíčové
dimenze mohou tvořit hierarchie hierarchie implicitní - pouze zabudována do atributů, ale celá hierarchie je v jednom řádku dimenze explicitní - provedena normalizace tabulek dimenzí
Star schéma (hvězdicové schéma)
(Multi)dimenzionální modelování
Základní představa
OLTP a DW/OLAP návrh systému - odlišnosti: OLTP DW požadavky - analýza požadavků, návrh, implementace data jsou produktem tohoto systému požadavky uživatelů na tyto DW požadavky je nutné sladit s možnostmi zdrojů dat, ( operativních dat podniku a externích zdrojů)
Dimenzionální modelování Požadavky uživatelů Proces návrhu 4 kroky: výběr procesu/ů stanovení granularity výběr dimenzí určení faktů Zdroje dat
Stanovení granularity Kritický krok určuje úroveň detailu prioritně nejjemnější granularita je spojena s ukazateli v tabulce faktů určuje základní dimenzionalitu (primární dimenze) stanovuje kandidáty faktů
Výběr dimenzí Primární dimenze předurčeny v předchozím kroku přidané dimenze, degenerované dimenze
Identifikace faktů V kroku 2 určeny možné fakty musí být pravdivé k zrnitosti aditivní fakty fakty, které mohou být sumarizovány přes všechny dimenze semiaditivní fakty fakty, které nejsou aditivní alespoň k jedné dimenzi neaditivní fakty nejsou aditivní k žádné dimenzi
fakty Neaditivní jsou ty fakty, k jejichž výpočtu je třeba podílu ( při roll up nelze sumarizovat; rozdíl suma podílu x podíl sum) třeba uložit čitatele a jmenovatele zvlášť neaditivní je i jednotková cena, denní stav účtu... tedy fakty, které vyjadřují statickou úroveň
Dimenze čas výskyt téměř vždy v DW, DM, lépe explicitně den, den v týdnu, měsíci, týden, q, rok (prodejní sezóna, konec týdne,..) (lze více hierarchií - kalendářní a fiskální vyjádření) někdy pro analýzu i část dne - pak je lépe přidat dimenzi čas
Budování DW centralizovaný datový sklad - Bill Inmon data warehouse jako množina data martů - Ralph Kimball
Centralizovaný datový sklad - Bill Inmon Podnikový data warehouse obsahuje detailní, atomicky integrovaná historická data
Sjednocené data marty - Ralph Kimball Data warehouse není nic víc než sjednocení všech konzistentních data martů
Projekt DW informační strategie potřeba DW Značné investice, čas Zdůvodnění projektu co je DW, přístupy k budování Seznam strategických aktivit, které chceme řešit ( cíle X zdroje dat) Podpora projektu managementem Personální zajištění UŽIVATELÉ definice klíčových uživatelů, JSOU ÚČASTNÍKY PROJEKTU vč. odpovědnosti za úspěšnost implementace Dodavatelé technologií, řešení včetně referencí o nich, outsourcing Velikost DW vede k výběru ICT osoba odpovědná za projekt uvnitř organizace, která propaguje, znalá problematiky; GARANT PROJEKTU Z ŘAD UŽIVATELŮ NE IT
konkurenční výhoda Užitečnost DW potenciální velká návratnost investic množství zdrojů pro Dw, náklady mohou kolísat zvýšení produktivity při rozhodování - vytvářením integrované subjektově orientované historické konzistentní databáze z více nekompatibilních systémů DW představuje jediný konzistentní pohled na podnik Omyly DW = úložiště pro všechna data firmy; DW pouze data pro čtení; DW požadují relační DB; DW vždy veliké
Problémy DW podcenění zdrojů pro vkládání dat podhodnoceníčasu na vkládání Skryté problémy zdrojů chybovost, nepřesnost (změna zdrojů během let) Požadovaná data nejsou podchycena modifikovat OLTP či tvorba nového Růst požadavků koncových uživatelů díky učení se vzniká potřeba změn: jemnější granularita, lepší prostředky; růst požadavků na pracovníky IT vlastnictví dat drahá udržování dlouhá doba trvání projektu složitost integrace Důležitá dokumentace OLTP procesů, ale i BI (OLAP, ETL,DW)
Problémy DW podcenění kapacity pro vkládání dat (loading) podhodnocení času požadovaného pro extrakci, čištění a vkládání dat do DW ( předpokladá se až 80% času na celý vývoj) dobré nástroje mohou urychlit