Business Intelligence

Podobné dokumenty
BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Návrh datového skladu z hlediska zdrojů

Datový sklad. Datový sklad

Datové sklady. Multidimenzionální modelování Modely datového skladu Návrh datového skladu v rámci návrhu IS/ICT. Vladimíra Zádová, KIN, EF, TUL

DATABÁZOVÉ SYSTÉMY. Vladimíra Zádová, KIN, EF TUL - DBS

3 zdroje dat. Relační databáze EIS OLAP

Business Intelligence

Základy business intelligence. Jaroslav Šmarda

Podnikové informační systémy Jan Smolík

Informační systémy 2006/2007

10. Datové sklady (Data Warehouses) Datový sklad

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu PEF MZLU v Brně

Ing. Roman Danel, Ph.D. 2010

Základní informace o co se jedná a k čemu to slouží

Databáze Bc. Veronika Tomsová

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází


METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

CPM/BI a jeho návaznost na podnikové informační systémy. Martin Závodný

PODNIKOVÁ INFORMATIKA

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Business Intelligence. Adam Trčka

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

kapitola 2 Datové sklady, OLAP

Architektury Informačních systémů. Jaroslav Žáček

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

Databázové systémy. 10. přednáška

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Ing. Petr Kalčev, Ph.D.

Infor Performance management. Jakub Urbášek

Business Intelligence

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Architektury Informačních systémů. Jaroslav Žáček

Zkušenosti s Business Intelligence ve veřejném sektoru České republiky

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Datová věda (Data Science) akademický navazující magisterský program

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

NÁSTROJE BUSINESS INTELLIGENCE

Úvodní přednáška. Význam a historie PIS

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Profitabilita klienta v kontextu Performance management

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Řízení podniku a elektronické obchodování

Moderní metody automatizace a hodnocení marketingových kampaní

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

In orma I a. O nl Dva. Počítačové aplikace v podnikové a mezipodnikové praxi Technologie informačních systému R1zení a rozvoj podnikové informatiky

4IT218 Databáze. 4IT218 Databáze

Data v informačních systémech

Ing. Pavel Rosenlacher

Snadný a efektivní přístup k informacím

Řízení vztahů se zákazníky

Analýza nestrukturovaných dat pomocí Oracle Endeca Information Discovery

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Manažerský informační systém na MPSV. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky MPSV

INFORMAČNÍ SYSTÉMY (IS) Ing. Pavel Náplava Katedra počítačů K336, ČVUT FEL Praha 2004/2005

Data Warehouses. Jaroslav Bayer 1. Fakulta informatiky Masarykova univerzita

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Chytrá systémová architektura jako základ Smart Administration

Přístupy k efektivnímu využití modelu MBI

1. Integrační koncept

Dolování asociačních pravidel

EKONOMICKÝ A LOGISTICKÝ SOFTWARE. Luhačovice

MBI - technologická realizace modelu

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

v praxi Rizika a přínosy zavádění BI jako nástroje pro řízení podnikání

Analýza a modelování dat. Přednáška 8

Vnitřní integrace úřadu Středočeského kraje

Analýzou dat k efektivnějšímu rozhodování

Získávání znalostí z databází. Alois Kužela

Konceptuální modely datového skladu

Hospodářská informatika

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Role logistiky v ekonomice státu a podniku 1

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

Výhody a rizika outsourcingu formou cloud computingu

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Bakalářský studijní obor hospodářská informatika

3. Očekávání a efektivnost aplikací

Obsah Úvod 11 Jak být úspěšný Základy IT

PV005 Služby počítačových sítí: Data Warehouses

Problémové domény a jejich charakteristiky

Nabízíme řešení. v oblastech: integrací zdrojů dat:

Dnešní témata Informační systém, informační služba Podnikový informační systém

STRATEGIE A PROJEKTY ODBORU INFORMATIKY MHMP

Ing. Jiří Fejfar, Ph.D. Geo-informační systémy

Business Intelligence a datové sklady

Analýza a modelování dat. Přednáška 9

Transkript:

Business Intelligence BI jako součást IS/ICT IS/ICT BI v rámci IS/ICT BI architektura, komponenty procesy v BI data v IS/ICT organizace dat v DW (Multi)dimenzionální modelování budování DW Pro další informace o IS/ICT: Gála, L., Pour, J., Šedivá, Z. Podniková informatika: 2. přepracované a aktualizované vydání. Grada, Praha, 2009. ISBN 978-80-247-2615-1.

Informační systémy organizace na počátku 3. tisíciletí Příčiny změn: Změny v ekonomice nová ekonomika, digitální ekonomika nové možnosti technologií - globální informační infrastruktura sítě a Internet ( Internet, Extranet, Intranet) BI CRM ERP SCM Aplikace pro podporu základních řídících a administrativních operací podniku

Informační systémy na počátku 3. tisíciletí pro řízení vnitřních procesů back-office aplikace pro podporu základních řídících administrativních operací podniku pro řízení vztahů podniků s okolím front-office aplikace, aplikace s přidanou hodnotou (valueadded ) pro rozvoj řízení podniku a podporu rozhodování back-office aplikace Aplikace pro řízení vnitřních procesů podniku - klasické celopodnikové aplikace ERP (Enterprise Resource Planning) Aplikace pro podporu základních řídících a administrativních operací podniku kancelářské systémy řízení pracovních toků (workflow) aplikace a technologie pro správu dokumentů všeobecné informace a instrukce (hlavně na bázi Intranetu )

Aplikace pro řízení vztahů organizací s okolím mění kooperace mezi podniky CRM (Customer Relationship Management) elektronické podnikání SCM (Supply Chain Management) CRM procesy a aktivity, které souvisí se zákazníkem existujícím či potenciálním podpora prodeje - SFA (Sales Force Automation ) podpora zákazníka - CSS (Customer Service and Support ) podpora marketingu - EMA (Enterprise Marketing Automation) Operačníčást řízení obchodních kontaktů a jednotlivých obchodních případů vytváření marketingového plánu a kampaní a jejich vyhodnocování sledování konkurence specifikace požadavků na zákaznický servis Kooperačníčást Kontaktní nebo call centrum (telefon, e-mail, fax, SMS, web,...) Centrální přístup zákazníka k firmě nabídky, obchodní kontrakty, reklamace Integrace s elektronickým obchodem Analytickáčást

Elektronické podnikání elektronický obchod (e-commerce) elektronické zásobování (e-procurement) elektronická tržiště (Marketplaces) Elektronické obchodování rozlišuje realizace obchodních vztahů mezi dvěma organizacemi -B2B, B2C, B2R, B2G, B2E (R - reseller, G - government, E -employee) SCM, SCM/APS koordinuje toky výrobků, služeb, informací a financí mezi dodavateli surovin, jejich zpracovateli, výrobci, obchodníky, zákazníky dvě kategorie aplikace pro plánování optimální způsob směrování množství materiálu a zboží potřebného v místech určení aplikace pro realizaci fyzické zásoby, obrátky zboží, objednávek a dodávky materiálu, finance Pozn.: APS =Advanced Planning and Schedulling (systém pokročilého plánování)

Business Intelligence Je sada procesů, aplikací a technologií, jejichž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě Dva pohledy na BI - široký rámec - BI jako jeden z nástrojů vedle/nad DW ETL EAI DSA ODS DW/DM OLAP Reporting Manažerské aplikace ( EIS ) Dolování dat komponenty BI Produkční systémy jsou zdrojem dat pro BI; nejsou ale její součástí

Obecná koncepce architektury BI Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 Komponenty BI řešení a jejich vazby Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005

Enterprise Application Integration EAI Nástroje využívané ve vrstvě zdrojových systémů Pracují v reálném čase Cíl: integrovat primární podnikové systémy redukovat počet aplikačních rozhraní hlavně datová integrace Extract, Transformation, Loading Extrakce dat ze zdrojových systémů Zpracování dat Uložení dat Práce v dávkovém režimu

DSA (Data Staging Area, dočasné úložiště dat) - pro uložení dat z produkč. systémů obsahuje neagregovaná aktuální data (do té doby, než jsou uloženy do dalšího úložiště dat- ODS, DW, DM) Sklady provozních dat ( ODS - Operational Data Store) Cíl: poskytnutí integrovaného a aktuáln lního pohledu konzistentní, konsolidovaná, subjektově orientovaná data strukturou jsou obdobná datům v DW, ale na rozdíl od DW mají jen aktuální data (i agregovaná) pravidelná aktualizace, odpovídají aktuálnímu stavu provozu, obsah dat je měněn po každém nahrání

ODS jako zdroj datové integrace dat ze zdrojových systémů Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 ODS jako databáze aktuálních dat odvozená z DW Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005

DW - definice je subjektově orientovaná, integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů subjektová orientace DW je organizován podle hlavních subjektů podniku (zákazníci, prodej, produkt..), ne podle procesů (aplikací) reflektuje potřeby uložení dat pro rozhodování v jedné databázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci ) integrovaná do celku jsou vkládána data z různých aplikací - nekonzistentnost, různé formáty integrací těchto dat - prezentace unifikovaného pohledu B. Inmon časově variantní DW data v DW jsou platná a přesná jen v bodech, ne intervalech času uložení historie dat - hodnoty v časových bodech ( den, měsíc, Q, rok..) v DW vždy dimenze času stálá data v DW nevznikají, nedají se žádnými nástroji měnit aktualizace DW - jen přidávání dat v pravidelných časových intervalech (jako doplněk), integrace přírustků další definice - většinou zahrnují procesy spojené s přístupem k datům z původních zdrojů

Datová tržiště (Data Mart) příčiny vytváření pro nejčastější analýzy pro skupinu uživatelů - business proces, oddělení vytvoření DM s více agregovanými daty, s menším objemem dat pro zlepšeníčasu odezvy k poskytování vhodněji strukturovaných dat z hlediska požadavků nástrojů přístupu pro snazší implementaci pro nižší náklady proti DW pro lepší zaměření koncového uživatele Datová tržiště závislá nezávislá Odlišnost ve způsobu výstavby a aktualizace dat extrakce přímo z produkčních systémů Zdroj dat - DW

EIS původně chápány jako aplikace pro podporu strategického rozhodování vrcholového managementu později pak i pro podporu rozhodování středního managementu a podnikových specialistů. S vývojem dalších aplikací na podporu rozhodování není hranice mezi jimi a OLAP ostrá integrují všechny zdroje dat z transakčních (zdrojových) systémů, které jsou důležité pro řízení organizace jako celku postupně integrovány i externí zdroje Procesy v BI

dotazy/reporting dotazy na to CO je v databázi OLAP PROČ jsou některé fakty pravdivé uživatel generuje hypotézu a OLAP slouží k jejímu ověření je závislý na schopnostech analytika, ten se iterací dostává k výsledku DM představuje nástroje, které generují hypotézy a pokračují v provádění objevování - bez navádění uživatelem Reporting standardní dotazování jedná se zejména o SQL dotazy v relačním prostředí výstupy standardní předpřipravené dotazy, nepredikovatelné ad hoc dotazy určené zejména pro nižší management

OLAP = Online Analytical Processing def. Definovaná řada principů, které poskytují dimenzionální rámec pro podporu rozhodování. Dynamická syntéza, analýza a fúze velkého objemu multidimenzionálních dat. OLAP systémy pracují s analytickými informacemi, primární zdroje dat jsou OLTP systémy, důl. faktor času ANALÝZA OLAP Coddova pravidla pro OLAP 1. Multidimenzionální konceptuální pohled OLAP by měl poskytovat uživateli multidimenzionální model, který koresponduje s pohledem uživatele a je intuitivně analytický a snadný k užití 2. Transparentnost 3. Dostupnost OLAP technologie, pod ní ležící databáze, architektura výpočtů i vstupní datové zdroje by měly být pro uživatele transparentní, aby si udržel svou odbornost i produktivitu při použití front-end nástrojů OLAP by měl být schopen přistupovat k datům potřebným pro analýzu ze všech heterogenních podnikových zdrojů ( nezávisle na tom, odkud pocházejí )

ANALÝZA OLAP 4. Konzistentní vykazování I přes zvyšování počtu dimenzí, úrovní agregace a velikosti databáze by neměli uživatelé pocítit podstatné snížení výkonu 5. Architektura C/S OLAP musí odpovídat principům C/S architektury s přihlédnutím na max. cenu, výkon, flexibilitu 6. Generická dimenzionalita Každá dimenze musí být ekvivalentní jak ve struktuře, tak v operačních schopnostech ( tj. základní struktura, pravidla a reporting by neměly být zkresleny směrem k žádné dimenzi) ANALÝZA OLAP 7. Dynamické ošetřenířídkých matic OLAP by měl být schopen adaptovat své fyzické schéma na konkrétní analytický model, který optimalizuje řídkou matici, aby dosáhl a udržel požadovanou úroveň výkonu 8. Podpora pro více uživatelů OLAP musí být schopen podpořit skupinu uživatelů pracujících souběžně na tom samém, či odlišném modelu podnikových dat 9. Neomezené křížové dimenzionální operace OLAP musí rozeznat hierarchie dimenzí a automaticky provést asociované kumulované kalkulace v rámci dimenzí i mezi dimenzemi

ANALÝZA OLAP 10. Intuitivní manipulace s daty Slicing, dicing, drill down, roll-up a jiné manipulace by měly být provedeny prostřednictvím zachytit, uchopit a přemístit v buňkách kostky 11. Flexibilní vykazování Musí existovat schopnost uspořádat řádky, sloupce, buňky tak, aby byla umožněna analýza prostřednictvím vizuální prezentace analytických sestav 12. Neomezené dimenze a úrovně agregace analytický model může mít více dimenzí, každá dimenze může mít více hierarchií. OLAP by to neměl omezit FASMI test = Fast Analysis of Shared Multidimensional Information Uveden v roce 1995, nemusel být pozměněn FAST systém je navržen pro poskytování většiny požadovaných odpovědí na dotazy jeho uživatelů během 5 sekund, s tím, že by ty nejjednodušší analýzy neměly trvat více než 1 sekundu. Pouze několik dotazů může trvat více než 20 sekund

FASMI test ANALYSIS systém umí zvládat jakoukoli obchodní logiku či statistickou analýzu, kterou požaduje uživatel nebo aplikace SHARED systém musí zabezpečit veškeré bezpečností požadavky na důvěrnost dat. Jestliže umožňuje změny dat, musí současně vyřešit problémy aktualizace u vícenásobného přístupu k datům. MULTIDIMENSIONAL klíčový požadavek. Systém musí poskytnout multidimenzionální konceptuální pohled na data, a to včetně plné podpory hierarchií resp. vícenásobných hierarchií tak, aby bylo možné analyzovat data přirozeným způsobem. INFORMATION pojem označuje veškerá data a odvozené informace, které jsou potřeba pro činnost aplikace. Měří se kapacita vstupních dat, která mohou být zpracována, ne kolik jich může být uloženo ROLAP, MOLAP a HOLAP souvisí s uložením dat v OLAP ROLAP (Relational( OLAP) pro práci s relační databází (RDBMS) výhoda: dynamický přístup k detailním informacím v DW nevýhoda při nárustu komplexnosti a objemu databáze výrazné zpomalení odezvy na dotazy; snížení použitelnosti MOLAP (Multidimensional( OLAP) pro práci s multidimenzionální databází výhoda: rychlá odezva na dotaz a velké analytické možnosti nevýhoda: orientace na práci s agregovanými hodnotami bez možnosti zpracování velmi detailních informací. HOLAP (Hybrid OLAP) kombinují přednosti obou technologií. klient OLAP zpracovává relativně malé objemy dat uložené v paměti, výpočty jsou prováděny většinou v reálném čase

Základní operace OLAP drill-down, roll-up snížení, zvýšení stupně agregace slicing (selekce), dicing provedenířezu v multidimenzionální databázi pivoting mění úhel pohledu na data ( jedná se o prezentaci obsahu) drill across spojení tabulek faktů přes tabulky dimenzí ( na stejné úrovni granularity) Operace různě kombinovány v jedné i ve více dimenzích ovlivňují podobu datového skladu Dolování dat, Data Mining, bagrování znalostí, archeologie dat Dolování dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody Cíl: obchodní výhoda řešení konkrétního problému nalezení cesty k zlepšení procesu předem definován, na jeho základě připravena data; není jednorázová analýza příprava podnikových procesů - aby umožnily využívání analýz (kontinuálně) a podporovaly zpětné vazby od uživatelů. Zpětné vazby ovlivňují proces sběru dat i definice nových cílů.

Dolování dat a objevování znalostí v datech Knowledge Discovery in Databases ( KDD, objevování znalostí v datech ) obecně netriviální proces objevování platných, nových, potenciálně užitečných vzorů z dat. Dolování dat ( Data Mining) pouze krok v procesu KDD založený na aplikaci výpočetních technik, které na základě daných omezení poskytují vzory či modely nad danými daty Dolování dat a objevování znalostí v datech vyhodnocení vzorů data relevantní pro úlohu dolování dat DW selekce čištění dat integrace dat DB

fáze procesu KDD selekce výběr nebo segmentace dat podle kriteria, výběr vzorků dat předzpracování dat pro efektivní vyhodnocení dotazu čištění dat od nepotřebných dat, úprava formátů dat transformace pro obohacení použitelnosti dat data mohou být rozšířena o další atributy (např. demografické z externích zdrojů) dolování dat extrakce vzorů z dat interpretace a vyhodnocení identifikované vzory jsou interpretovány jako znalosti lze je použít k podpoře rozhodování Dolování dat Není samostatný vědní obor, používané metody patří do statistiky (např. klasifikace, regrese, časovéřady, shlukování, asociační analýza, rozhodovací stromy), umělé inteligence (např. genetické algoritmy, neuronové sítě)...

ETL ETL proces extrakce, filtrování, čištění a vkládání ze zdrojových systémů do DW extrakce transformace restrukturalizace dat do podoby odpovídající DW filtrace (odstranění chybných i neúplných záznamů) standardizace dat odstranění nežádoucích atributů denormalizace dat kombinace datových zdrojů vkládání a indexace konzistence dat samých, konzistence s ostatními daty v DW

Zdroje dat zdroje důvěryhodnost vše nebo část ( atrib.,..projekce, selekce) porovnat stejné údaje z různých zdrojů (1DW z různých zdrojů) z hlediska obsahu ( m.j. m, cm, dm) formátu (cena zboží jiná přesnost, m/ž 0/1) významově stejné zdroje jsou různě pojmenovány a naopak Zdroje dat pokr. změny zdrojů během let struktura dat ze stejných zdrojů (archiv a současnost) formálně stejný objekt z více zdrojů ( zákazník: zákazník x potenc. zákazník) četnost přenášení zdrojů

ETL pravidla pro přenos Prosté kopírování Přepočty jednotek Standardizace formátů Odstraňování duplicit v datech z různých zdrojů Rozdělení atributu do několika cíl. atributů ( př. adresa) Slučování atributu do jednoho Odvozování nových atributů (př. datum) Převodní funkce některé použijí pro více atributů, jinde pro atribut samostatná funkce Po přenosu Kontrola kvality a ošetření chybějících údajů Vypuštění záznamů kde chybí Jednotné označení chybějících údajů a upozornění na neúplnost dat Statistika pro každý atribut Rozsah (doména) a četnost hodnot, které může nabývat (lze odhalit chybné hodnoty)

Zdroje dat pokr. u atributů: identifikátor, název, typ dat, měr.j., doména, význam, vlastník typ atributu (dimenze, fakt), typ indexu, pro měr.j.: konverzní poměry (koeficienty převodu, popř. koeficienty proměnné v čase) pro dimenze klíče, definice hierarchie/hierarchií přiřazení zdrojových atributů cílovým, transformace, změny formátů vazby mezi zdroji ( kdo komu poskytuje data) Data v IS/ICT

OLTP - operativní data zdroje: zejména aplikace Data v OLTP a DW přístup: více současně pracujících uživatelů aktualizace:častá, relativně malých objemů dat Operace INSERT, UPDATE, DELETE dotazy nad daty selektivní ( zejména předpřipravené dotazy) přesnost výstupu - na Kč, haléře,.. četnost stejných dotazů - i vícekrát denně ukládání dat strukturovaně - normalizovaná relační databáze nověji objektově relační, objektová databáze požadavky - nekonfliktní zpracování operací, zajištění integrity dat procesní orientace ( stavy procesů, detailní data) Data v OLTP a DW Data Warehouse zdroje: podnikové OLTP, operativní data + externí data přístup: malé množství specializovaných uživatelů - management aktualizace:řídká - jen přidávání dat ze zdrojů, delšíčasové intervaly dotazy intenzivní na data, složité dotazy, postupná iterace, sumarizace výstupy zaokrouhlené (i na tisíce) ukládání dat strukturovaně speciálně navržená relační databáze multidimenzionální kostka

DW - typy dat demografická behaviorální psychografická demografická popis charakteristiky osob a domácností -věk, rodinný stav, pohlaví, vzdělání, národnost, majetek jsou stabilní ( význam pro prediktivní modely), mění se méněčasto než ostatní nevýhody - obtížné získat data pro jednotlivce, mnohdy uváděny zkresleně (nejsou-li poskytnuty za protislužbu) DW - typy dat behaviorální (chování) vyjadřují míru akce nebo chování prodávané množství, typy a data nákupů, výše a data plateb, pojišťovací nároky aktivity na WEB serverech - zachycení prodeje, klepnutí uživatele při procházení WEBem největší význam pro predikci - proti ostatním jsou dražší, nízká stabilita

DW - typy dat psychografická (attitudální data) charakterizují : názory, životní styl a osobní hodnoty získání prostřednictvím šetření, výzkumů mínění a zájmových skupin odvozením z nákupního chování slouží i k určování životního stupně zákazníka ( svatba, VŠ studium) vede k zaměření na vývoj výroby a služeb nevýhoda vyjadřují zamýšlené chování střední stabilita a schopnost predikce, vysoká cena Pozn.: lze shromáždit data za skupinu, z nich odvodit data pro jednotlivce menší predikce, levnější Organizace dat v DW Založené na RMD Multidimenzionální kostka

Multidimenzionální data Příklad 2-dimenzionálního dotazu. Jaký je celkový příjem firmy( př. zabývající se prodejem nemovitostí) v každém městě pro Q 1999 Porovnání reprezentace: 3-atributové relace X 2-dimenzionální matice Multidimenzionální data 9

Reprezentace multidimenzionálních dat Příklad 3-dimenzionální otázky. Jaký je celkový příjem firmy zabývající se prodejem nemovitostí - za jednotlivé druhy v každém městě, za čtvrtletí 1997 Porovnání reprezentace: 4-atributové relace X 3-dimenzionální kostky 10 Multidimenzionální data 4-atributové relace X 3-dimenzionální kostky

DATA v DW Reprezentace multidimenzionálních dat Kostka reprezentuje data jako buňky Relace reprezentuje multidimenzionální data ve 2 dimenzích

Užití multidimenzionální struktury k uložení dat a vztahů mezi nimi Multidimenzionální struktury si lze představit jako kostky dat. Každá strana kostky je 1 dimenze. Kostka může být rozšířena aby zahrnula jinou dimenzi

multidimenzionální model dat logický návrh pomocí RMD konstrukty - fakty, dimenze, atributy dimenze, dimenzionální tabulky jednoatributový klíč ( tvoří cizí klíč v tabulce faktů) atributy - slouží jako zdroj pro různá omezení daná v dotazech na DW atributy spíše textové jedna dimenze může být ve více hvězdicových schématech většina dimenzí se mění pouze pomalu obdobné vlastnosti jako číselníky (katalog výrobků, údaje o okresech..) tabulka faktů obsahuje ukazatele (ekonomické) výskyt konkrétní hodnoty závisí na n-tici konkrétních hodnot odpovídajících dimenzí mezi dimenzí a fakty je vztah 1: N mezi dimenzemi nejsou žádné přímé vztahy nejsou mezi nimi žádné funkční závislosti fakty jsou neklíčové atributy v tabulce faktů obvykle jsou numerické, aditivní představa faktů jako funkcí- závislost na klíčových atributech, výsledkem jsou hodnoty neklíčové

Základní představa Star schéma (hvězdicové schéma)

Schéma souhvězdí (Multi)dimenzionální modelování

Základní představa Dimenzionální modelování speciální technika určená pro logický návrh DW tak, aby vedl k výsledku - multidimenzionálnímu schématu

Dimenzionální modelování Požadavky uživatelů Proces návrhu 4 kroky: výběr procesu/ů stanovení granularity výběr dimenzí určení faktů Zdroje dat Stanovení granularity Kritický krok určuje úroveň detailu prioritně nejjemnější granularita je spojena s ukazateli v tabulce faktů určuje základní dimenzionalitu (primární dimenze) stanovuje kandidáty faktů

Výběr dimenzí Primární dimenze předurčeny v předchozím kroku přidané dimenze, degenerované dimenze Identifikace faktů V kroku 2 určeny možné fakty musí být pravdivé k zrnitosti aditivní fakty fakty, které mohou být sumarizovány přes všechny dimenze semiaditivní fakty fakty, které nejsou aditivní alespoň k jedné dimenzi neaditivní fakty nejsou aditivní k žádné dimenzi Pozn.: fakt = ekonomický ukazatel, který je sledován

fakty Neaditivní jsou ty fakty, k jejichž výpočtu je třeba podílu ( při roll up nelze sumarizovat; rozdíl suma podílu x podíl sum) třeba uložit čitatele a jmenovatele zvlášť neaditivní je i jednotková cena, denní stav účtu... tedy fakty, které vyjadřují statickou úroveň Dimenze čas výskyt téměř vždy v DW, DM, lépe explicitně den, den v týdnu, měsíci, týden, q, rok (prodejní sezóna, konec týdne,..) (lze více hierarchií - kalendářní a fiskální vyjádření) někdy pro analýzu i část dne - pak je lépe přidat dimenzi čas

Dimenze a změny změny hodnot atributů dimenzí mohou probíhat rychle i pomalu, odlišení: pomalu se měnící dimenze (většina) rychle se měnící dimenze pro každý atribut třeba stanovit strategii pro vyjádření změn třeba již při i analýze zjistit od managementu jaké změny hodnot atributů jsou možné jaký výstup ( informace) budou s ohledem na tyto změny požadovat Pomalé změny atributů dimenzí a jejich řešení tyto dimenze se blíží konstantním dimenzím atributy se mění v čase pomalu techniky pro vyjádření změn základní nahrazení hodnoty přidánířádku dimenzí přidání sloupce dimenzí hybridní předvídatelné změny s více verzemi překrytí nepředvídatelné změny s více verzemi překrytí

Budování DW centralizovaný datový sklad - Bill Inmon data warehouse jako množina data martů - Ralph Kimball Izolované (nezávislé) data marty

Centralizovaný datový sklad - Bill Inmon Podnikový data warehouse obsahuje detailní, atomicky integrovaná historická data Sjednocené data marty - Ralph Kimball Data warehouse není nic víc než sjednocení všech konzistentních data martů

Integrace Každý podnikový proces vytváří jednoznačné metriky ve specifických časových intervalech s unikátní granularitou a dimenzionalitou může vytvářet 1 nebo více tabulek faktů dimenzionální model může být navržen z 1 procesu z více procesů Integrace integrování jednotlivých dimenzionálních modelů do jednoho DW dovolí kombinovat fakty z odlišných procesů nejen drill down, drill up ale i drill across Pozn.: drill across - řešení dotazů přes vnější spojení společných tabulek dimenzí

Bus architektura pro DW sběrnicová architektura je nezávislá na technologii a databázové platformě umožňuje použít přírůstkový přístup k stavbě DW různé týmy, asynchronnířešení DW bus architektura Definování standardního rozhraní pro DW a respektování rozhraní umožňuje postupné zapojení a využívání jednotlivých DM jako celku

Stanovení rámce DW bus architektura návrh standardizovaných dimenzí návrh faktů (conformed dimension, conformed facts) standardizované dimenze a fakty zajišťují jednotnou interpretaci v organizaci umožňuje efektivní komunikaci uvnitř týmů a mezi týmy vytváření DM každá iterace přísně dodržuje architekturu Stanovení matice Z dimenzí a procesů se stanoví sběrnicová matice řádky značí jednotlivé datové trhy sloupce jednotlivé dimenze (conformed dimension) každý řádek dává přehled o dimenzích použitých pro DM

Obecné dimenze Business procesy Obchodní prodeje X X X X Obchodní zásoby X X X Obchodní dodávky X X X Skladové zásoby X X X X Skladové dodávky X X X X Objednávky X X X X X D atum P rodukt P rodejna Reklam a S klad Dodava tel D opravce otázka jak dříve vyvinuté izolované DM včlenit do DW přizpůsobení dimenzí klíčové dimenze (použité ve více DM) nejvíce přizpůsobené dimenze jsou definovány na nejjemnější možné granularitě ( den, zákazník, produkt.) mnohdy se shodují ve vyšší granularitě v některých DM jsou sledovány fakty reprezentující agregované hodnoty ( a ty spojeny s agregovanými dimenzemi)

dimenze jsou buď identické nebo striktně matematické podmnožiny z nejvyšší granularity detailní dimenze mají shodný dimenzionální klíč shodná jména a definice atributů stejné domény ( shodnost datového obsahu znamená stejnou interpretaci a prezentaci) Základní snímky DW Transakční tabulka faktů periodický časový snímek akumulační snímek často třeba 2 doplňkové tabulky faktů k poskytnutí kompletního obrázku procesu nejsou totálně odlišné - sdílejí přizpůsobené dimenze mají odlišný rytmus

Využití DW v oblasti internetu Budování datového skladu Užitečnost DW problematika návrhu Využití DW v oblasti internetu Clickstreamová data Clickstreamová analýza Zdroje dat Způsoby získání dat

Rozdíly mezi zákazníky Off-line zákazník On-line zákazník Pramen: The Data Webhouse Toolkit Kimball, Merz, 2000, str. 42-43 Clickstreamová data při procházení stránkami WEBu Clickstream = spojitý tok kliknutí počítačovou myší Zdroje clickstreamových dat Rozdílnost ve finanční náročnosti nutnosti využití dalších výpočetních prostředků vypovídající schopnosti nejvyužívanější a nejdostupnější Logové soubory Odposlech síťové komunikace mezi uživatelem a serverem Vkládání aktivního obsahu do internetových stránek

Clickstreamová data Využití clickstreamových dat zlepšování pozice v e-businessu nejdůležitější analýza : Chování zákazníků Zákaznická loajalita Efektivita marketingu Efektivita prodeje Efektivita obsahu www stránek Uživatelské akce = množina aktivit, které uživatel na dané internetové stránce vykoná motivovány různými potřebami. výčet nejčastějších akcí návštěvníka www serveru Vyhledávání vyhledání určitého produktu, služby nebo informačních zdrojů Sběr informací srovnání výrobků, cen Studium využívání manuálů, on-line příruček Nakupování a objednávání Komunikace účast v diskuzích, využívání e-mailu Sledování průběhu zjištění stavu objednávky, zjištění skladových zásob Download stažení obrázků, audia, videa, softwaru Náhodné akce kliknutí na špatný objekt, chyby URL

Clickstream analýza škála analytických prostředků, aplikovaných na informace získané provozem obchodních, či jinak zákaznicky orientovaných řešení v prostředí internetu Cíl: pochopení chování zákazníka využití poznatků k prospěchu online komerčních aktivit Produkuje dvě množiny charakteristik: Provozní charakteristiky Charakteristiky komerční povahy Charakteristiky komerční povahy Užití k získání vzorů chování zákazníků online komerčních aplikací. Patří sem predikce chování uživatelů na serveru analýzy opuštěných nákupních košíků cross-selling analýzy využívání znalostí- při koupi produkt A koupí produkt B možnost individuálních nabídek zákazníkům ve stejné skupině. př. při on-line nákupu oznámení typu Zákazníci, nakupující zboží A (o které jste jako zákazník projevil zájem např. přidáním do košíku) současně nakupují také zboží B a C viz nákup knih Výsledky analýzy Zvýšení počtu zákazníků přeměnou návštěvníků serveru na zákazníka Zvýšení obratu stávajících zákazníků

Návrh konceptu DW pro oblast internetu Zjednodušené schéma DW pro potřeby internetu. kamenný obchod proces budování DW návrh DW obsah DW (cyklický, diskuse) návrh akvizice dat přístup k datům návrh technického zabezpečení DW

Projekt DW informační strategie potřeba DW Značné investice, čas Zdůvodnění projektu co je DW, přístupy k budování Seznam strategických aktivit, které chceme řešit ( cíle X zdroje dat) Podpora projektu managementem Personální zajištění UŽIVATELÉ definice klíčových uživatelů, JSOU ÚČASTNÍKY PROJEKTU vč. odpovědnosti za úspěšnost implementace Dodavatelé technologií, řešení včetně referencí o nich, outsourcing Velikost DW vede k výběru ICT osoba odpovědná za projekt uvnitř organizace, která propaguje, znalá problematiky; GARANT PROJEKTU Z ŘAD UŽIVATELŮ NE IT konkurenční výhoda Užitečnost DW potenciální velká návratnost investic množství zdrojů pro Dw, náklady mohou kolísat zvýšení produktivity při rozhodování - vytvářením integrované subjektově orientované historické konzistentní databáze z více nekompatibilních systémů DW představuje jediný konzistentní pohled na podnik Omyly a DW DW =úložiště pro všechna data firmy; DW pouze data pro čtení; DW požadují relační DB; DW vždy veliké

užití DW 15% společností považuje budování DW za větší úspěch DW je komplexní a drahý 60-90% projektů DW nenaplnilo očekávání, nebo již nejsou rozvíjeny neúspěch DW i díky tomu, že jsou rozpory mezi odděleními Problémy DW podcenění zdrojů pro vkládání dat podhodnoceníčasu na vkládání Skryté problémy zdrojů chybovost, nepřesnost (změna zdrojů během let) Požadovaná data nejsou podchycena modifikovat OLTP či tvorba nového Růst požadavků koncových uživatelů díky učení se vzniká potřeba změn: jemnější granularita, lepší prostředky; růst požadavků na pracovníky IT vlastnictví dat drahá udržování dlouhá doba trvání projektu složitost integrace Důležitá dokumentace OLTP procesů, ale i BI (OLAP, ETL,DW)

Problémy DW podcenění kapacity pro vkládání dat (loading) podhodnocení času požadovaného pro extrakci, čištění a vkládání dat do DW ( předpokladá se až 80% času na celý vývoj) dobré nástroje mohou urychlit