Databázové systémy 10. přednáška
Business Intelligence Poprvé byl termín BI použit Gartnerem a dále pak popularizován Howardem Dresnerem jako: proces zkoumání doménově strukturovaných informací za účelem zjištění trendů nebo jiných společenských informací pro tvorbu závěrů
Business Intelligence Lze označit za komplex přístupů a aplikací IS/ICT, které téměř výlučně podporují analytické a plánovací činnosti podniků a organizací a jsou postaveny na principu multidimenzionality. Aplikace Dotazovací (Query) Analytické (OLAP) Dolování z dat (Data Mining)
Nástroje a aplikace BI Produkční, zdrojové systémy Dočasná úložiště dat Operativní úložiště dat Transformační nástroje (ETL) Integrační nástroje (EAI) Datové sklady Datová tržiště OLAP reporting Manažerské aplikace Dolování z dat Nástroje pro zajištění kvality dat Nástroje pro správu metadat ostatní
Postavení BI v aplikační architektuře
Schéma komponent BI
Obecné komponenty pro správu dat Nástroje pro zajištění datové kvality, zajistit, aby data přesně reflektovala realitu Nástroje pro správu metadat, zjednodušeně řečeno popis a dokumentaci systémů i probíhajících procesů Technickou znalost, zahrnující programovací a technologicky závislé schopnosti implementačního týmu
Obecné komponenty pro správu dat
OLTP On Line Transaction Processing Obsahuje tzv. operativní informace Slouží pro realizaci obchodních a dalších transakcí v podniku Automatizace každodenních činností, které jsou předmětem podnikání Pozn. Pokrývá-li transakční systém většinu podnikových aktivit, nazýváme jej ERP Realizovány na relačních databázích Data OLTP jsou chápána jako primární, zdrojová nebo produkční
OLTP Vlastnosti Schéma dbs je komplexní a vysoce strukturované Optimalizace schématu pro výkon při transakcích Nemají k dispozici jednotný zdroj údajů, což vede na nutnost integrace dat heterogenních OLTP Transakční systém zpravidla neuchovává historické údaje Dlouhý čas přípravy údajů Analýza vyžaduje speciální techniky, použití multidimenzionálních schémat s tabulkami faktů
OLAP On Line Analytical Processing Často hovoříme o IT založené na koncepci multidimenzionálních databází, hlavním principem je vícedimenzionální tabulka umožňující rychle měnit jednotlivé dimenze Používá neformalizované tabulky Faktů Dimenzí Zajišťuje agregace hodnot podle definovaných hierarchických úrovní dimenzí
OLAP Vlastnosti Informace poskytují na základě vstupů získaných z primárních dat Data uložena v multidimenzionálních databázích Obsahují různé úrovně agregace Zohledňují faktor času Obvykle pracují se třemi dimenzemi Časová dimenze Dimenze ukazatele (ekonomická veličina) Dimenze cíle potřeby komodita, org. jednotka, zákazník,...
Typy OLAP MOLAP (Multidimenzionální OLAP) Speciální uložení dat v multidimenzionálních kostkách ROLAP (Relační OLAP) Řeší multidimenzionalitu uložením dat v relační databázi HOLAP (Hybridní OLAP) Kombinace předchozích přístupů, detailní data jsou uloženy v binárních OLAP DOLAP (Desktop OLAP) Nejmladší architektura, umožňuje se připojit vzdáleně k centrálnímu úložišti
Schémata V uložení hierarchických dimenzí jsou v zásadě dvě možnosti Z celé hierarchie vytvořím jednu dimenzní tabulku, ve které budou údaje pro vyšší stupně hierarchie uloženy redundantně. Vznikne schema, kde je každá dimenzní tabulka vázána přímo na faktovou tabulku - podle tvaru svého diagramu se takové schéma nazývá hvězda (Star schema) Na hierarchickou dimenzi budu aplikovat normalizační doporučení 3NF, takže pouze dimenze na nejnižším stupni hierarchie bude vázána přímo na faktovou tabulku, ostatní pak na některou z nižších dimenzí v hierarchické struktuře - podle tvaru svého diagramu se takové schéma nazývá vločka (Snowflake schema)
Hvězda
Sněhová vločka
Kroky při tvorbě OLAPu
OLAP vs Datový sklad Označení OLAP pro datové sklady není zcela správné. Ve třívrstvé architektuře DW rozlišujeme tři vrstvy: spodní do této vrstvy patří server skladu, na kterém jsou uloženy relační databáze. Této vrstvě odpovídá položka Datový sklad. prostřední tato vrstva zahrnuje OLAP server, který obvykle implementuje buď relační OLAP model (ROLAP), což je rozšířený relační DBMS, který převádí operace nad multidimenzionálními daty na standardní relační operace. Druhou možností je multidimensionální OLAP (MOLAP), který přímo umí pracovat s multidimenzionálními daty a operacemi. vrchní vrchní vrstvu označujeme jako klienta. Obsahuje nástroje pro provádění dotazů a vytváření zpráv, analýzy a/nebo data miningové nástroje (analýzy trendu, predikce, apod.). Shoduje se s prezentační vrstvou.
ETL (Extract, Transform, Load) mechanizmus získávání dat z provozních systémů podniku (ekonomika, skladové hospodářství, výroba, odbyt atd.), jejich následné zpracování a poskytnutí aplikacím pro podporu rozhodování (decission support systémy, datové sklady, business intelligence), tato problematika je poměrně komplikovaná a představuje nezanedbatelný podíl (někdy až 70 %) v nákladech na budování systémů pro podporu rozhodování
Proces budování DW 1. Orientace na DW, odsouhlasení rozhodnutí přijmout DW do informační strategie organizace 2. Analýza, požadavky, datové modely, zdrojové systémy 3. Návrh DW, realizuje se cyklus vzájemné diskuse obsahu DW, návrh akvizice dat, návrh přístupu k datům, návrh technického zabezpečení 4. Konstrukce, příprava technického prostředí, 5. Testování, iterace testovacího systému, vytvoření úplné populace dat
Proces budování DW 6. Implementace, iterativní implementace, iterativní vylepšování tréninku pro práci s DW přístupu k uživatelům, 7. Vyhodnocení, potvrzení dané probíhající iterace, určení další iterace 8. Řízení, řídí se organizační příprava, příprava iterací, zacvičování do projektu DW, vývoj iterací a správy DW, vnitřní marketing,...
OLAP vs. Data Mining OLAP Data Mining Interaktivní analýza Multidimenzionální datové kostky Předzpracovaná data Data Mining Tool Získané znalosti
OLAP vs. Data Mining OLAP Soubor operací (drill-down, roll-up ) poskytující různé pohledy na data Výsledků je dosahováno pomocí sumačních a předdefinovaných operací Data Mining Hledání zcela nových vzorů, znalostí, které v datech nejsou explicitně uvedeny Znalostí je dosahováno pomocí sofistikovaných algoritmů
OLAP vs. Data Mining Vlastnost OLAP Data Mining Motivace použití Co se děje v podniku? Predikce budoucnosti, skryté znalosti Granularita dat Sumační data Data na úrovni záznamu Počet obchodních dimenzí Počet vstupních atributů Velikost dat pro jednu dimenzi Omezený počet dimenzí Spíše velmi nízký počet atributů Ne velká pro každou dimenzi Velký (až nekonečný) počet dimenzí Mnoho atributů Obvykle velmi rozsáhlá pro každou dimenzi Zdroj: Bartík, V. Datové sklady
OLAP vs. Data Mining Vlastnost OLAP Data Mining Přístup k analýze Techniky analýzy Stav technologie Řízený uživatelem, interaktivní analýza Multidimenzionální, drilldown, slice-and-dice Známý a rozsáhle využívaný Autmatický, řízený daty Příprava dat, použití nástrojů pro získávání znalostí Stále se vyvíjející, některé metody jsou již využívané v praxi Zdroj: Bartík, V. Datové sklady
Multidimenzionální dbs Základní princip vícedimenzionální tabulka na úrovni n- dimenzionální Rubikovy kostky Obsah dimenzí je tvořen prvky dimenzí Prvek databáze = promítnutí všech dimenzí do jednoho bodu Každý prvek může obsahovat data, nebo algoritmy pro jejich transformace Prvky dimenzí jsou v hierarchických strukturách, rozdělují se na skupiny prvků, podskupiny až jednotlivé prvky Implementace na 2 úrovních Na úrovni RDBMS Na úrovni speciální binární DBS
Multidimenzionální dbs Příkladem hierarchické struktury může být např. organizační schéma Podnik celkem Závod 1 Provoz 11 Dílna 3 atd. Závod 2 atd Aplikace BI pak zajišťují automatické agregace hodnot výroby, produktů,..., podle výše zmíněné struktury
Multidimenzionální dbs Průběžné ukládání agregovaných dat pak zrychluje přístup k jednotlivým součtům, který by v on-line režimu byly neúnosně dlouhé Hierarchie uložení dat pak umožňuje se pružně pohybovat po požadovaných úrovních agregace, aniž by bylo nutné příslušné agregace znovu počítat Drill-down pohyb, zpřístupnění dat nižší úrovně agregace Drill-up pohyb, opačný směr
Srovnání Relační model Výhody Rutina s používáním, rozšířenost Množství nástrojů a podpory pro zlepšování funkčnosti Použitelnost OLTP i na datové sklady Nevýhody Absence komplexních analytických nástrojů Potencionální omezení objemu údajů dostupných v reálném čase Multidimenzionální model Možnost komplexních analýz Nástroje pro modelování a prognózy Problémy při změně dimenzí bez přizpůsobení časové dimenzi Vyšší nároky na kapacitu úložiště
Obecné problémy transakčních DBS Obtížná dosažitelnost dat skrytých v databázích Dlouhé prodlevy u komplikovaných dotazů Složitá, uživatelsky nepříjemná rozhraní DBS Cena v administrativě a složitosti podpory uživatelů Soutěžení o počítačové zdroje mezi transakčními systémy a systémy na podporu rozhodování Dlouhodobé řešení nabízí použití datových skladů
Competitive Intelligence (CI) vymezuje oblast, které se v České republice říká konkurenční zpravodajství tedy zjišťování a vyhodnocování informací, které organizacím pomáhají odhalovat slabé a silné stránky konkurence a rozpoznat její strategii. dá označit za podoblast znalostního managementu a klade si za cíl sledovat vnější prostředí firmy za účelem získání relevantních informací týkající se jeho rozhodovacího procesu.
Úkoly CI Hledání odpovědí na klíčové otázky související se současnou i budoucí situací společnosti z hlediska možných ohrožení a příležitostí. Negativní informace o obchodních partnerech a zákaznících; Otázky související se současnými a potenciálními konkurenty; Problematikou související s vědeckotechnickým rozvojem; Otázky související s defenzivním CI.
Cyklus CI CI lze chápat jako informační proces přinášející hodnotu, který vyžaduje vytváření, zavádění a udržování formalizovaných aktivit, produktů a služeb, stejně jako péči zahrnující neformální procesy, aby mohly být získané informace plně a efektivně využity.
KPI (Key performance indicator) Klíčové ukazatele jsou základním prvkem systémů pro měření výkonnosti a pomáhají organizacím dosahovat stanovených cílů. Jedná se o konkrétní měřitelnou hodnotu při vykonávání daného procesu. Například u procesu zpracování žádosti lze měřit dobu jejího vyřízení od přijetí žádosti nebo relativní počty formálních chyb kvůli nimž jsou žádosti zamítány. V každém podniku je samozřejmě řada procesů, které lze měřit velmi efektivně. Sledování aktuálních hodnost ukazatelů a porovnávání se stanovenými hodnotami pak směřuje vedoucí pracovníky organizace ke kritickým místům, kde je třeba zlepšit vykonávání stanovených procesů tak, aby se dosáhlo vytyčených cílů. Jednotlivá KPI jsou přesně ukotvena v procesní struktuře organizace. Při definici KPI se zpravidla postupuje shora dolů - od strategických cílů podniku k operativním cílům jednotlivých procesů.
Praktické zásady pro navrhování KPI Účelnost ukazatele uživatelé by si měli uvědomit, co přesně chtějí měřit a zjistit. Jednoznačnost ukazatele ukazatel musí být interpretovate-lný jen jedním způsobem. Zjistitelnost ukazatele pro měření ukazatele musí být v pod-niku dostupná data. Jejich zajištění je často relativně náročné. Interpretace ukazatele uživatelé musí být schopni KPI správně chápat a využívat
Procesní KPI - proces nákupu http://www.linkedin.com/today/post/article/20130905053105-64875646-the-75-kpis-every-manager-needs-to-know