Správa dat v podniku. UAI /14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Rozměr: px
Začít zobrazení ze stránky:

Download "Správa dat v podniku. UAI635 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu"

Transkript

1 Správa dat v podniku UAI /14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

2 Obsah o Důležité oblasti pro správu, uchovávání a využívání dat v podniku Něco z historie ízení dat na úrovni podniku Data management a kategorizace dat

3 Historie o Relační model o SQL Edgar Frank Codd Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks Relační model matematický model pro ukládání a správu dat Tří hodnotová logika True, False, Unknown Donald Chamberlin, Raymond F. Boyce SEQUEL (Structured English Query Language) IBM - První návrh 1979 první komerční implementace Oracle V2 (Relation software)

4 Historie 1969 Codd - Relační model 1970 Chamberlin, Boyce SQL 1979 Oracle 2, basic SQL, no transaction Založení Teradata 1980 HW - První gigabajtový disk, váha 250 kg, cena $40, HW - 640Kb RAM je dost pro každého (??Gates) 2GB efektivně Windows 32 bit 1983 Oracle 3 - transaction 1984 Oracle 4 read-consistency 1984 Sybase founded by Mark Hoffman and Bob Epstein in Berkeley 1985 Oracle 5 networking, client-server 1986 HW - Standartizace SCSI 1988 Oracle 6 PL/SQL, row level locking, hot backup 1987 Sybase - formally released the SYBASE, Client-server, Transact SQL,

5 Historie 1988 Sybase/Microsoft - sdílení kódu s firmou Microsoft (od roku Ř6) Teradata ve spolupráci NCR uvádí databázový počítač 1991 HW 2.5" 100MB disk 1992 Oracle 7 referencial integrity, triggers 1993 Microsoft Win NT Sybase/Microsoft ukončení smlouvy 1995 Microsoft SQL Server Sybase row-lewel locking 1998 Microsoft SQL Server Oracle 8i java Teradata- největší zákaznická produkční databáze 130 TB 1999 HW IBM 170MB a 340MB disky 2000 Microsoft SQL Server Oracle 9i XML, RAC

6 2001 Sybase 12.5 XML, EJB 2003 Oracle 10 grid computing, flash back 2003 Windows Server bit system - překročení 2GB RAM 2005 Sybase 15 new query-optimalizator, Cluster edition 2005 Microsoft SQL Server HW 500GB disk (Hitachi GST) 2007 Oracle 11 Exadata 2007 HW 1TB disk (Hitachi GST) 2008 SQL Server HW SSD nyní 64 GB 300MB/sec (3000MB/sec.) 2010 Microsoft SQL Server 2008R2 Oracle kupuje SUN SAP kupuje Sybase EMC kupuje Greenplum IBM kupuje Netezza

7 Diskové kapacity (Wikipedia)

8 Historie o Další vlivy na vývoj Operační systémy a jejich unifikace Procesory zejména IBM, SUN, HP Diskové pole RAID Sítě, přenosové kapacity a Internet GUI a Microsoft Windows jako klientský systém

9 Data v organizaci o Desítky (stovky) systémů Každý systém pracuje s daty Většina systémů má data v databázi (relační) Většina systémů vyměňuje data s jinými systémy o Data jsou cenným majetkem organizace Jako budovy, stroje, lidé, Vyžadují správu Data managament

10 Velikost dat 10

11 Různorodost dat 11

12 Rychlost změny 12

13 )ákaz í i a uživatelé ODS Operač í data MDM Datová kvalita Integra ce DWH Jed ot ý odel Ko plet í historie I tegrova á data Byz ys, te h ologi ká a provoz í etadata Governance pravidla, orga izač í struktura, pro esy

14 Prostředí datově orientovaného systému Etapy život ího yklu Komponenty Skupi y uživatelů Plá ová í Vývoj Testová í Provozová í Udržová í Uko če í používá í Aplikač í progra y Interface DBMS Data Hardware Vlast í i aplika e Ar hitekti IT, Aplikač í, Datový ar hitekt Vývojáři Ad i istrátoři data ází Systé oví ad i istrátoři Ko oví uživatelé

15 Data management Data Management International

16 Data management o Pravidla Zodpovědnosti Pravidla pro vývoj Jmenné konvence Definice dat Bezpečnostní pravidla Požadavky na kvalitu dat Provozní pravidla o Procesy Plánovací ídící Vývoj Provoz o Technologie Systémy pro správu dat (Databáze) Zálohovací systémy Metadata management systems Systémy pro správu událostí

17 Kategorizace dat o Organizační struktury Vlastníci dat (Data owner) Data Stewardship Data Stewardship Committee BI oddělení Oddělení bezpečnosti Oddělení (datové) kvality Databázoví administrátoři o Kultura organizace o Plán vývoje a údržby IT architektura Datová architektura

18 Information Capability Framework Gartner,

19 Malcolm Chisholm: The 6 Layers of Data

20 Podle struktury o Strukturovaná Data s přesně definovanou strukturou Uložená v databázích (relačních) o Semistrukturovaná Obsahují datové elementy Nemají pevnou strukturu XML, SWIFT, HL7 EDI, SITA message o Nestrukturovaná data Dokumenty Smlouvy Objednávky Předpisy Obsah webů Prezentace

21 DAMA DMBOK Guide

22 Hierarchie moudrosti o Russell Ackoff (1989) Data Informace Pokud jsme schopni odpovědět na otázky kdo?, co?, kde? a kdy? Pochopení vztahů Znalosti Porozumění jak? Pochopení vzorců Moudrost Porozumět proč? Pochopení principů

23 Co si zapamatovat o Co to je data management o Z jakých oblastí se skládá řízení dat o Co to "Information Capability Framework" a které základní schopnosti jsou nutné pro správu a využití dat o Jaké dělení dat v organizaci se používají o Jaký je rozdíl mezi daty, informacemi a znalostmi

24 Diskuse

25 Datová kvalita UAI /14 RNDr. Ondřej Zýka,

26 Datová kvalita o Vlastnost dat, která není daná jejich strukturou nebo uložením o Podstatná vlastnost pro hodnotu dat Malá vypovídací hodnota Chybné výsledky o Může se měnit časem bez zásahu do dat Deset let starý telefonní seznam má malou datovou kvalitu

27 Datová kvalita o Co má vyšší kvalitu, VW Brouk nebo Cadillac? VW má méně závad Cadillac je luxusnější, lépe se řídí VW potřebuje menší prostor na zaparkování Cadillac je pohodlnější, vejde se do něho více zavazadel Brouk má menší spotřebu Různí uživatelé mají různé požadavky. Kvalita je ovlivněna osobním pohledem. Poměrně málo lidí se obtěžuje analýzou publikovaných statistik.

28 Datová kvalita o Kdy jsou data kvalitní? o Kdy jsou data nekvalitní? o Jak prokázat, že jsou data kvalitní? o Dodavatelé dat obecně nemají moc důvodů produkovat bezchybná data. o Nekvalitní data vytváří nesmírnou frustraci uživatelů dat. o Kvalita dat se nedá dosáhnout pouze prostředky IT systémů. adresa@naznama.cz Rodné číslo

29 Jak vyčistit jezero? o 1. přístup Ignorujte znečištění Potrestejte každého, kdo onemocní po užití vody z jezera Přeneste problém na uživatele.

30 Jak vyčistit jezero? o 2. přístup Přefiltrujte vodu Odstraňte nečistoty Vraťte vodu do jezera o 3. přístup Filtrujte malé množství vody každý den Filtrujte přitékající vodu Filtrujte vodu kterou budete používat Jednorázové vyčištění Použití pouze aktuálních dat Nasazení nástrojů

31 Jak vyčistit jezero? o 4. přístup Najděte znečišťovatele Odstraňte je nebo je upravte tak aby neprodukovali znečištění Předcházení budoucích chyb

32 Proč se zabývat datovou kvalitou o Nespokojenost uživatelů o Legislativní požadavky, požadavky regulátorů Solvency II Basel II, Basel III

33 Dimenze datové kvality Dimenze Dostupnost Odpovídající velikost a granularita dat Věrohodnost Úplnost Výstižná reprezentace Konzistentní reprezentace Snadnost zpracování Bezchybnost Interpretovatelnost Objektivita Relevantnost Reputace Bezpečnost Včasnost Srozumitelnost Přidaná hodnota Popis Zda jsou i for a e k dispozi i e o s ad o získatel é Zda velikost dat a jejich granularita odpovídá vyko áva ý úlohá Zda jsou i for a e pokládá y za pravdivé a důvěryhod é Zda žád á data e hy í a zda jsou dostateč é rozsáhlá a detail í pro vyko áva é úlohy Zda repreze ta e dat á vhod ou strukturu Zda jsou data repreze tová a vždy ve stej é for átu Zda jsou i for a e s ad o zpra ovatel é a použitel é pro rozdíl é úlohy Zda jsou i for a e a data přes é a hod ověr é Zda je jas á defi i e i for a í, zda jsou v odpovídají í jazyku, jed otká h a zda jsou oz ače y správ ý i sy oly Zda jsou i for a e estra é a epředpojaté Zda jsou i for a e použitel é a užiteč é pro vyko áva é úlohy Zda jsou i for a e považová y za spolehlivé v souvislosti s jeji h zdroje e o obsahem Zda o eze í přístupu k datů a i for a í odpovídá ezpeč ost í pravidlů Zda jsou pro vyko áva é úlohy i for a e k dispozi i včas Zda jsou i for a e s ad o po hopitel é a srozu itel é Zda a která data a i for a e jsou pří os é a jaké jsou výhody jeji h použití

34 DQ issues Management a Finance Marketing Vlast í i systé ů IT Nutnost udržovat velké finanční ne o technické rezervy Nepřesná seg entace zákazníků Duplicity v datech Vysoká náročnost nalezení požadovaných infor ací Nekonzistentní reporty napříč organizací Drahé a neúčinné ka paně Nekonzistence mezi systé y Ne ožnost dohledání původu dat a zodpovědných pracovníků Reporty s nedůvěryhodný i daty Nízká kvalita služe pro zákazníky Chy ějící ne o nedohledatelné údaje Nespokojenost uživatelů s dodávaný i infor ace i Rozhodnutí učiněná na základě špatných infor ací Nepořádek v zákaznických datech Zastaralé i for a e Neschopnost řešit konzistentně vady v datech

35 Co to je za číslo o Jak vzniklo? o Kdo to kontroloval? o Byla použita všechna data? o Byla použita aktuální data? o?????

36 Požadavky na datovou kvalitu Data Governance Data quality policy Data quality organization Roles Job descriptions Accountability and responsibility assignment Data Quality Processes Data definition Data and data flow description Data Quality Management Data quality indicator definition Data quality measurement and reporting Data quality issue solving Data quality tool operation

37 Popis dat - statický Definice na obchodní úrovni Definice na technické úrovni Místo a formát uložení Vlastník - Zodpovědná osoba Parametry důležitosti, bezpečnosti, aktuálnosti, Prosinec 2012 Solvency II - Zkušenosti z implementace Slide 13

38 Obsah dat - Data Profiling o Technický o Uživatelský o Speciální

39 Data Profiling

40 Popis dat dynamický Zdroje dat Datové úložiště Transformační procesy Zodpovědnosti (vlastnictví dat) Místa předání zodpovědností Ruční zásahy

41 Požadavky na datovou kvalitu Technické Data mají přípustné hodnoty, očekávaný formát, pohybují se v přípustném rozsahu, jsou jednoznačné pokud je to požadováno, existují odpovídající záznamy v jiných systémech Významové Hodnoty, počty a sumy jsou konzistentní v čase. Porovnání s historickými daty a benchmarky nevykazuje neodůvodněné odchylky. Existuje požadovaná konzistence mezi různými záznamy a hodnotami. Požadavek Kontrakt musí mít definován Politiku zajištění Metrika Procento kontraktů s vyplněným parametrem Politika zajištění Tresholds OK > 99% Failed < 95 % Baseline 96,2 %

42 DQ měření a reportování Prosinec 2012 Solvency II - Zkušenosti z implementace Slide 18

43 Solvency II - requirements

44 Datová kvalita o Nečistoty v datech vznikají Při zadání dat Při předávání dat mezi systémy Časem o Závěr Neexistuje jednoduché řešení Nutná spolupráce IT i uživatelů dat Vždy je nutné porovnat cenu řešení a přínos výsledku Je nutné mít popsaná data (existence metadat) Je nutné mít slovník datové kvality Je nutné měřit kvalitu dat

45 Co si zapamatovat o Co to je datová kvalita o Jak se pozná, že jsou data kvalitní o Kdo a jak pozná, že jsou data nekvalitní o Jaké metody se používají pro čištění dat o Kde a jak vzniká nekvalita dat o Co to jsou dimenze datové kvality o Co to je profiling dat o Jak se dá prokázat, že jsou informace získaná z dat kvalitní

46 Diskuse

47 Metadata UAI /14 RNDr. Ondřej Zýka,

48 Co to jsou metadata

49 Chybějící metadata

50 Doplněná metadata

51 Co o metadatech říkají autority Řízení etadata je nepochy ně nejdůležitější z dvanácti schopností, které usí ít BI aplikace

52 Metadata o Metadata jsou data popisující data. Mohou být reprezentovány jednoduchým popisem, ale také složitou strukturou. o Metadata jsou strukturované informace, které nám umožňují najít informace o datech, spravovat je, kontrolovat je a porozumět jim. o Příklady Informace o datových entitách v databázi Informace o jednotlivých záznamech Dokumenty autor, abstrakt, obsah, klíčová slova, dostupnost, platnost, Fotografie místo pořízení, velikost, formát uložení, Informace o datových fragmentech Tagy v XML

53 Business metadata o Jednotný slovník organizace o Komunikace Mezi odděleními Mezi Byznysem a IT ešení výjimek o Požadavky Schvalovací proces Diskuse Více druhů slovníků

54 Technická metadata o Popisy datových modelů Logická úroveň jednotný model organizace Fyzická úroveň modely jednotlivých databází o Popisy reportů Jaká data se používají SQL dotazy Kdo a kdy je používá Popis na byznys úrovni o Popisy transformací Zdroje a cíle Transformační pravidla

55 Zdroje technických metadat o Modelovací nástroje Logické modely Fyzické modely Mapování a transformace o Databáze Fyzické modely Skripty s transformacemi o ETL nástroje Transformace o Reportingové nástroje Zdroje dat Univerzum Transformace a výpočty

56 Sběr a údržba Metadat FAKT: Cíl: Údržba je náročná Sběr a integrace metadat provádět maximálně automaticky o U ruční údržby podpora workflow o Používat nástroje, které nabízejí Dostatečnou svobodu Dostatečnou funkcionalitu Dostatečnou uživatelskou přítulnost

57 Integrace metadat FAKT: V podniku jsou pouze jedna metadata. Cíl: Provázat metadata od definice na business úrovni až k technickým detailům, od zdrojů dat k reportům. o Často existují lokální ostrůvky kompetence Lokální slovníky Lokální popisy vazeb, struktur, závislostí Často špatně technologicky podporováno Integrace na základě ů, excelů a množství jednání

58 Prezentace metadat FAKT: Matadata musí být maximálně veřejná Cíl: Všichni uživatelé musí mít jednoduchý přístup k metadatům. o Rychlá integrace nových pracovníků. o Dokumentační řízení Automatické generování seznamu použitých termínů a zkratek. Speciální pluginy do wordu, excelu. Rozšíření webových prohlížečů.

59 Analýza metadat FAKT: Cíl: Každá nepřesnost výrazně snižuje kvalitu dopadových analýz. Dopadová analýza jako na obrázku:

60 Metadata - analýza o Historie Kdo a kdy naposledy upravil proceduru procedure_name tak, že nepoužívá tabulku table_name? o Data Lineage Upstream Které aplikace používají centrálních číselník měn? Downstream Která všechna data se podílejí na ohodnocení spolehlivosti dodavatele? o Inpact analysis Které všechny tabulky a aplikace se budou muset upravit, když přejdeme z kódování ISOŘŘ5ř2 na kódování UTFŘ? Pokud místo Y/N začneme používat A/N, co všechno musíme zkontrolovat?

61 Metadata - analýza o Lineage analýza o Katalóg Where used analýza

62 Cíle správy metadata? 1. Jak je poje defi ová? 2. Odkud se vzala data? Controllers Auditors 3. Jak jsou data aktuál í? Managers? 1. Co vše usí upravit při z ě ě zdrojového systé u? Analysts Developers Architects 2. Které vše h y reporty usí opravit, když z ě í defi i i sloup e? 3. Co se sta e, když havaruje toto ETL?

63 ízení metadat Byz ys slov ík Datové odely Pro es í odely Orga izač í struktura SAP Oracle Data áze Teradata Definice Aplikace Cognos SaS Busines Objects Oracle BI Reporting Transfor mace ETL Skripty SOA File transfer

64 Nástroje o Byznys slovník Semanta Collibra Informatica Metadata Manager o Informatica Metadata Manager o Oracle Metadata Directory o IBM InfoSphere Metadata Workbench o Adaptive Metadata Manager o InfoLibrarian o Meta Integration o ASG Rochade o SP PowerDesigner

65 Co si zapamatovat o Co to jsou metadata o Co to jsou byznys metadata o Jak se liší byznys metadata od technických metadat o Co jsou zdroje technických metadat o Co to jsou operační metadata o Které čtyři činnosti jsou nutné pro správu metadat o Jaké typy analýz metadat se používají

66 Diskuse

67 Integrace dat UAI /14 RNDr. Ondřej Zýka,

68 Požadavky o Očekává se, že integrace nebude jenom spojením systémů, ale že přinese i přidanou hodnotu. o Změny se provádějí pouze na jednom místě. o Minimalizace ruční práce a přepisování (Cut/past). o Nejenom integrace dat, ale podpora pracovních postupů. o Transformace mezi různými formáty.

69 Požadavky na integrační technologie o Stabilita o Udržovatelnost o Modifikovatelnost o Správa a dohled o Škálovatelnost o Způsob vývoje o Úplnost o Otevřenost o Podpora

70 Stabilita o Změna systému (upgrade, náhrada) nemá vliv na integrační prostředí změna zasáhne pouze malou část prostředí o Zatížení jedné části neovlivní dostupnost a rychlost ostatních propojení Udržovatelnost, modifikovatelnost o Systém je modulární o Úprava komponent neovlivní provoz ostatních částí systému o Je podporováno verzování o Je podporován provoz ve více prostředích (vývojové, testovací, akceptační, provozní) o Je podporována dokumentovatelnost implementace

71 Správa a dohled o Existují nástroje na dohled systému monitor stavu systému řízení systému a jeho komponent sledování procesů v systému sledování dat v systému možnost ručního zásahu do procesů a dat o Uživatelské rozhraní Vlastní GUI Přizpůsobitelné podle uživatelů a rolí Interface na standardní rozhraní (SNMP Simple Network Management Protocol, logger, EventLog, dohledové systém, )

72 Škálovatelnost o Dostatečná propustnost o Více možností jak zvyšovat výkonnost klastrové řešení podpora více úrovní hardware možnost dělení systému (geografické, funkční, doménové, ) o Granularita nastavení bezpečnosti Způsob vývoje o Vývojové nástroje Snadnost nasazení Podpora týmové práce Verzování o Podpora pro analýzu UML - Unified Modeling Language Designery třetích stran o Programovací jazyk Java, C#, VB, C/C++ klikací XML

73 Úplnost o Typy integrace Data integration Replikace ETL Event integration Messagind systems Service integration Webové služby o Transformace Mezi jednotlivými typy integrace Mezi formátem a strukturou předávaných dat o Počet a typy konektorů

74 Konektory JAVA CAPS BizTalk Server SAP ALE SAP BAPI Oracle Applications Siebel EAI PeopleSoft Oracle SQL Server DB2 Universal Database JDBC/ODBC Adapter DB2 Connect Sybase VSAM Informix Lotus Notes/Domino Sun Java System Application Server WebSphere MQ WebLogic Adapter for CICS Adapter for IMS File Adapter Toolkit eways Development Kit egate API Kit WebSphere MQ MSMQ/MSMQT WSE 2.0, HTTP, SMTP, Base EDI, EDIFACT File, FTP, SOAP, POP3 SQL Server 2000 and 2005 SAP SAP R/3 4.X and R/ (Enterprise) PeopleSoft Enterprise , 8.43, and 8.45 J.D. Edwards OneWorld B J.D. Edwards EnterpriseOne 8.1 Oracle Database Oracle Siebel ebusiness Applications Siebel TIBCO Rendezvous TIBCO Enterprise Message Service Enterprise Message Service Host Applications IBM mainframe zseries DB2 Database File systems on IBM mainframe Windows SharePoint Services

75 Otevřenost o Standardy SOA XML SOAP WSDL UDDI BPEL BPMN o Konfigurovatelnost API Administrace Ovládání jádra

76 Integrační přístupy Asynchronní o V jednom okamžiku mají různé systémy různá data o Technologicky jednodušší o Nižší požadavky na průchodnost systému o Messaging Synchronní o Zaručuje konzistentní stav ve všech systémech pro všechny uživatele o Výpadek jednoho systému ovlivňuje všechny ostatní o Dvojfázový commit

77 Integrační přístupy Long-live operation Short-live operation o V rámci transakcí se vyžaduje interakce uživatelů, například schvalování o V řádu hodin a dnů o Businnes workflow aplication o Transakce probíhají tak rychle jak prostředí dovolí o Synchronní i asynchronní transakce o Většinou v řádu sekund o Messaging, ETL

78 Integrační přístupy Federation Mediation o Systém umožňuje (vynucuje) aby požadavky vznikaly jeho prostřednictvím a rozprostírá je do jednotlivých systémů. o MDM aplikace o Reaguje se na změny v jednotlivých systémech a ty se předávají ostatním systémům o Messaging o Replikace

79 Integrační přístupy Point-to-point Hub and spoke model Systém A Systém A Systém B Systém E Systém B Hub systém Systém D Systém C

80 Integrační přístupy Sender Receiver (Queue) Publisher Subscriber (Topic) Subsriber A Sender Receiver Publisher Subscriber B

81 Integrační přístupy Nekoordinovaně budované propojení Použití centrálního registru Systém A Systém B Systém C Systém D Systém A Systém B Systém C Systém D Register - Metadata Úroveň metadat Úroveň technologií

82 Identifikace změny o Indikace změn Timestamp Fronta událostí Technologicky (triggery) Aplikačně o Indikace rozsahu změn Objekt/záznam Položka/atribut, sloupec o Data Identifikace změny Nová data Nová i původní data

83 Insert Nový záznam Neúplný záznam Nekonzistentní záznam Duplicitní záznam Odmítnutí Dočasný zápis Validační proces

84 Update Změna záznamu Porušení konzistence Rozpoznání nezměněné položky Vytvoření duplicity, neúplného záznamu

85 Delete Zrušení záznamu Více typů zrušení záznamu neaktivní dokončený zrušený fyzický delete Logické zrušení (více typů) Fyzické zrušení Rozsah zrušení Vznik nekonzistencí

86 Integrační přístupy o Který systém má pravdu o Proč má pravdu o Jaké jiné hodnoty jsou/byly v některém systému zadány o Kdy a jak se měnily hodnoty, kdo je měnil (který systém)

87 Integrační paterny o Integrace na základě času o Použití datové kvality o Null hodnoty a jejich význam o Opravy a jejich dopad

88 Příklad použití datové kvality Complete user profile Scheduled Scheduled time time DQ DQ Real time Real time DQ DQ Scheduled Scheduled aircraft aircraft type type DQ DQ Real aircraft Real aircraft type type DQ DQ Sep 21 Sep :05PM 9:05PM 8 8 Sep 21 Sep :59PM 8:58PM 6 9 M84 M M83 M Account information history SRC Scheduled time DQ Real time DQ Scheduled aircraft type DQ Real aircraft type DQ SC Sep :05PM M FO Sep :05PM M MD Sep :05PM M AG Sep :05PM 8 Sep :00PM M83 20 RL 99 Sep :00PM SI 99 Sep :58PM 9 99 M83 5 MR 99 Sep :59PM 6 99 M83 6 Zrušení informace v primárním systému

89 Použití Null hodnot Definice Zdroj Kvalita dat Null hodnota Datawarehouse 70 Ne Systém 90 Ne Druhý systém 80 Ano Pří hozí data Zdroj Jméno Výsledek Datawarehouse Systém Druhý systém Pavel Jirka Tomáš?

90 Použití Null hodnot Definice Zdroj Kvalita dat Null hodnota Datawarehouse 70 Ne Systém 90 Ne Druhý systém 80 Ano Pří hozí data Zdroj Jméno Výsledek Datawarehouse Pavel Systém Jirka Jirka Druhý systém Tomáš

91 Použití Null hodnot Definice Zdroj Kvalita dat Null hodnota Datawarehouse 70 Ne Systém 90 Ne Druhý systém 80 Ano Pří hozí data Zdroj Jméno Výsledek Datawarehouse Pavel Systém Tomáš Druhý systém Tomáš

92 Použití Null hodnot Definice Zdroj Kvalita dat Null hodnota Datawarehouse 70 Ne Systém 90 Ne Druhý systém 80 Ano Pří hozí data Zdroj Jméno Výsledek Datawarehouse Pavel Systém Druhý systém

93 Master Data Management o Správa klientů PARTY Role a vazby (Hausholding, ekonomicky spjaté subjekty, externí informace, scoring, ) o Správa produktů Dodavatelé, Obchodní proces, Design, Marketing, Nacenění, Partneři, Interní systémy, Náklady, Reporting, Konsolidace produktů o Správa centrálních číselníků Historizace, plánování, různé verze pravdy, propagace do systémů o Master Reference Data o Master Systém of Records o Master Registry o Synchronizace

94 Master Reference Data Zdroj A Datová integrace Auto ati ké dávkové e o realti e zpra ová í. Čiště í, i tegra e, Sta dardiza e, Zdroj B Data Warehouse Exceptions Zdroj C Správa výjimek

95 Master System of Record Zdroj A Datová integrace Auto ati ké dávkové e o realti e zpra ová í. Čiště í, i tegra e, Sta dardiza e, Zdroj B Master Databáze Zdroj C Správa výjimek Nové aplikace

96 Master Registry Datová integrace Auto ati ké dávkové e o realti e zpra ová í. Čiště í, i tegra e, Sta dardiza e, Zdroj A Zdroj B Zdroj C Registr vazeb Správa výjimek Nové aplikace

97 Synchronization Zdroj A Datová integrace Auto ati ké dávkové e o realti e zpra ová í. Čiště í, i tegra e, Sta dardiza e, Zdroj B Zdroj C Správa výjimek

98 Integrace o Integrací vzniká nová kvalita. o Nutno uvažovat s požadavky na dozor s nutností komunikace se správci jednotlivých systémů údržbu systému vytvoření adekvátní organizační struktury o Zásah do libovolného systému je zásah se může projevit jako závažný problém v ostatních systémech.

99 Integrace Testování o Testování je složité až nemožné o Míchání různých testovacích prostředí o Zapojení testerů všech systémů do testování Etapa nasazení o Nemožnost paralelního běhu o Připravenost na výskyt neočekávaných stavů nepředpokládané interakce smyčky v přenosu vzájemné ovlivňování systémů změna chování uživatelů

100 Rizika integračních projektů o Bezpečnost ztráta informací neautorizované modifikace právní odpovědnost pravdivost informací původ informací krádež služeb ztráta důvěry zákazníků příležitost pro fraud

101 Co si zapamatovat o Jaké jsou nejdůležitější požadavky na integrační technologie o Jaký je rozdíl mezi synchronním a asynchronním předáváním dat o Jaký je rozdílel mezi Federativním a Mediativním přístupem k integraci dat o Jaký je rozdíl mezi Point-to-point a Hub-and-spoke integračním modelem o Jaký je rozdíl mezi Send-Reciever a Publisher-Subsciber integračním modelem o Jaké techniky se používají při indikaci dat, které je nutno přenášet v rámci integrace o Jaké jsou hlavní problémy při vzniku nového záznamu v integračním systému o Jaké jsou hlavní problémy při změně záznamu v integračním systému o Jaké jsou hlavní problémy při zrušení záznamu v integračním systému o Jak se používá datová kvalita při integraci dat z více systémů o Co to je Master Data Management (MDM) o Jaké architektury MDM se používají o Jaká jsou hlavní rizika integračních projektů

102 Diskuse

103 Úvod do BI UAI /14 RNDr. Ondřej Zýka,

104 Co to je BI o Schopnost shromažďovat, třídit a organizovat svoje znalosti. o Využití vlastních dat a informace pro efektivní podporu byznys aktivit. o Soubor prostředků sloužící k jednotnému pohledu na informace v rámci celého podniku, jejich analýze a vyhodnocení.

105 Co obsahuje BI (Gartner) o Integration BI infrastructure Metadata management Development tools Collaboration Data quality o Information delivery Reporting Dashboards Ad hoc query Microsoft Office integration Mobile BI o Analysis Online analytical processing (OLAP) Interactive visualization Predictive modeling and data mining Scorecards

106 Integrace o BI infrastructure Security Metadata Administration Portal integration Object model Data storage and Query engines o Metadata management Collect Shared Search Analyze Business, technical and operation metadata Dimensions, hierarchies, measures, performance metrics Full data-lineage o o Development tools Programmatic development tools Visual development environment Scheduling Delivering Administering and managing Change management support Workflow tool o Collaboration Share and discuss information BI content and results Manage hierarchies and metrics Analytical master data management (MDM). o Data quality Definition of user requirements Data assessment tools Business rule engines Data quality measuring and reporting Information delivery

107 Information Delivery o Reporting Parameterized reports Distribution and scheduling capabilities Wide array of reporting styles o Dashboards Web-based or mobile reports with intuitive displays of information Performance metric compared with a goal or target value. Real time data usage o Ad hoc query Ask their own questions of the data Query governance Auditing capabilities Performance help o Microsoft Office integration Excel as client Includes cell locking and writeback o Mobile BI Mobile devices Publishing or bidirectional mode

108 Analysis o Online analytical processing (OLAP) Analyze data with extremely fast query and calculation performance, "slicing and dicing" style of analysis Multidimensional navigation and drill down capability. o Interactive visualization Efficiently displayed numerous aspects of the data, Interactive pictures and charts, instead of rows and columns. o Predictive modeling and data mining Classify categorical variables Estimate continuous variables using advanced mathematical techniques Structured and unstructured data search Leveraging the BI semantic layer o Scorecards Strategy map that aligns (KPIs) with a strategic objective Scorecard metrics linked to related reports Six Sigma or a balanced scorecard framework

109 Požadavky na BI o Velké objemy dat o Rychlost zpracování o Data dodávaná v dávkách o Uživatelské zásahy o Stabilní kompletní historie o Opravy a rekonciliace dat o Složité algoritmy zpracování o Více pohledů na stejná data

110 Technologická omezení o Průchodnost sítí ETL, dávkové zpracování o Rychlost přístupu na diskové prostory in memory databáze, read only databáze, specializovaná úložiště o Zpracování dat vyžaduje průchod pamětí a procesorem in-memory databáze, secializovaná úložiště (column store datace), předpočítané data (OLAP)

111 Architektura

112 Zákazníci a uživatelé ODS Operační data MDM Datová kvalita Integra ce DWH Jednotný odel Ko pletní historie Integrovaná data Byznys, technologická a provozní etadata Governance pravidla, organizační struktura, procesy

113 Architektura DWH Stage O raz vstupních dat Záloha dat pro zpracování Datová kvalita Jádro Jednotný odel Ko pletní historie Data Marty Podle analyzovaných procesů Dimenze a metriky Agregovaná data Scheduler a dohled

114

115 Co si zapamatovat o Různé definice BI o Co všechno obsahuje BI řešení o Jaké jsou osvědčené architektonické principy v BI o Jaké jsou kritické omezující podmínky BO řešení v současnosti

116 Diskuse

117 BI prostředí UAI /14 RNDr. Ondřej Zýka,

118 Terminologie o DWH Další systém v podniku Jenom databáze s důležitými daty o BI IT obor Kompetence podniku využívat data a informace Podnikové oddělení DWH je součástí infrastruktury BI prosředí

119 Dimenze BI prostředí o Business value informace dodávané koncovým uživatelům o Technology Použité technologie, algoritmy a metody o BI maturity Kompetence, organizační struktura a schopnosti nutné pro rozvoj a provoz BI prostředí a DWH

120

121 Business value o Od jednodušších reportů po složitější o I jednoduché reporty jsou uživatelé schopni ocenit o Definice pokročilých reportů až na základě seznámení uživatelů s daty o Nejdříve reporty vyžadující data z malé množiny zdrojových systémů o Výstupy na základě potřeby a schopností uživatelů nikoliv na základě možnosti nástrojů nebo dostupnosti dat

122

123 Technology o Pro dodávku výsledků je potřebný celý technologický řetězec o Výběr hlavních technologií je nutné udělat na začátku Migrace mezi technologiemi není zpravidla možná Náhrada technologie vede zpravidla k celému novému řešení o Nutná strategie pro rozvoj prostředí tak, aby náklady na technologie mohly být rozprostřeny v čase Schopnost rozšíření systému Platba podle výkonu Finanční produkty dodavatelů technologií o Postupné vytváření vývojového, testovacího a produkčního prostředí

124

125

126 BICC Business Intelligence Competency Center o Zodpovědnosti Detailní popis entit Jednotné agregace přes celý podnik Jednotné použití termínů Konzistentní reprezentace čísel (význam revenue, slev, apod.) Odstranění rozdílů daných jazykem, lokací, měnou, aplikací, apod. Jednotný způsob řešení bezpečnosti (auditing compliance, autorizace, spod.) Koordinace se standardy (ACORD, SWIFT) Konformní dimenze přes celý podnik

127 Data steward o Komunikuje s business uživateli, zná jejich požadavky. o Rozumí business požadavkům a tomu jak data tyto požadavky podporují. o Zná důkladně strukturu datového skladu a dokáže analyzovat data ve skaldu přímo. o Interpretuje nové business požadavky a jejich dopad na DWH, navrhuje rozšíření datového skladu. o Zajišťuje plnění požadavků regulátorů. Ověřuje kvalitu, přesnost a důvěryhodnost dat. Určuje pravidla ověřující každý load. Je zodpovědný, že při výskytu závažných chyb se data nedostanou k uživatelům a komunikuje tuto událost vedení. o Vytváří a provádí verifikační proces, že data odpovídají požadavkům regulátorů. o Spravuje a vytváří metadata jak o datech, tak o transformacích.

128 BICC procesní oblasti o ízení strategie o Porozumění BI komunitě o ízení požadavků o ízení architektury o ízení vývoje o ízení provozu o ízení rozpočtu a získávání zdrojů o Definování metrik o Nástroje

129 BICC Nástroje o Byznys slovník o Datový slovník o Katalog BI služeb o Katalog BI požadavků o Incident management tool o Katalog reportů o Katalog uživatelů

130 Příklad struktura BI portálu o Novinky o Základní informace o portálu o Status BI o BICC O nás vize a mise Kontakty, napište nám Interní BI specialisti o Projekty Probíhající projekty Dokončené projekty Plánované projekty o Služby Podpora uživatelů Katalog služeb Požadavky Helpdesk o Knowledge base Best practices Byznys slovník Metodiky elerning Datové zdroje Katalog reportů Datový slovník o Kalendář akcí Školení Prezentace Workshopy

131 Příklad definice procesů Incident Management Problem Management Help Desk Change Management Requirement Management IM100 Založení a pre-analýza incidentu PM100 Založení a pre-analýza problému HD100 Založení a pre-analýza požadavku CH100 Založení a pre-analýza RFC RM100 Založení a pre-analýza požadavku IM200 Klasifikace a kategorizace incidentu IM300 Analýza, diagnostika incidentu IM500 ešení a obnova PM200 Klasifikace a kategorizace problému PM300 Analýza, diagnostika problému PM500 ešení problému HD200 Klasifikace a kategorizace požadavku HD500 ešení požadavku Support, Maintanace CH200 Klasifikace RFC CH300 Autorizace a nastavení termínu změny CH500 ešení RFC (Support, Maintanace) Project, Small Enhancement RM200 Klasifikace, analýza, ohodnocení pracnosti, rizik CH550 Kompletace a finální testování CH600 Nasazení RFC IM700 Ověření řešení PM700 Ověření řešení HD700 Ověření řešení majitelem procesu IM800 Schválení zadavatelem HD800 Schválení zadavatelem CH800 Schválení zadavatelem RM800 Schválení k Implementaci IM900 Uzavření incidentu PM900 Uzavření problému HD900 Vyhodnocení ticketu CH900 Vyhodnocení a uzavření RFC RM900 Uzavření požadavku

132 Příklad - SLA parametry BI služby Služba Garantovaný přístup Omezený přístup Údržba Standardní reporty Po - Pá 09:00-17:00 Po,Út,St,Pá 00:00-09:00 Čt 00:00-08:00 Po - Pá 17:00-22:00 So 12:00-24:00 Ne 00:00-24:00 Po - Pá 22:00-24:00 Čt 08:00-09:00 So 00:00-12:00 Standardní dostupnost Rozložení výpadků 95% Průběžná nedostupnost <= 5%, tzn. 8 hodin/měsíc při předpokladu režimu garantovaného přístupu 8x5 v pracovních dnech (pro kalkulaci se počítá, že měsíc má 20 dní) poskytování služby v měsíci Jednorázová nedostupnost <= 3 dny - Jednorázovou nedostupností se míní celková délka trvání jednoho výpadku. Jednorázová nedostupnost převyšující parametr Průběžná nedostupnost může nastat maximálně v jednom případě v rámci kalendářního roku bez porušení SLA Plánovaná nedostupnost Plánovaná údržba bude prováděna v době vymezené obdobím Omezený přístup nebo Údržba. Každou plánovanou údržbu mimo vymezené období Omezeného přístupu nebo Údržby je poskytovatel povinen uživateli oznámit alespoň 3 kalendářní dny předem. Služba - varianta Počet přístupů Odezva přístupu Statické předgenerované reporty přístupů za den 50% přístupů do 10s 90% přístupů do 20s Parametrizovatelné spouštěné reporty Analytické reporty (analytické prostředí) přístupů za den N/A přístupů za den 50% přístupů do 20s 90% přístupů do 40s Drill-down OLAP kostkou o jednu úroveň - 95% do 45s

133 Příklad Incident management tool

134 Gartner BI summit

135

136

137

138

139 Co si zapamatovat o Vztah mezi BI a DWH o Jaké jsou dimenze BI prostředí o Co to je BICC a jaké má funkce o K čemu slouží role Data Steward o Jaké jsou základní procesy spojené s BI prostředím o Jak se dá ohodnotit vyspělost BI prostředí

140 Diskuse

141 Architektura DWH UAI /14 RNDr. Ondřej Zýka,

142 o Bill Inmon: Datový sklad je subjektově orientovaný, integrovaný, stabilní a časově udržovaný soubor dat pro podporu managerských rozhodnutí (W.H.Inmon: Building the Data Warehouse. Second Edition, John Wiley & Sons, Inc., 1996)

143 Pravidla datového skladu # Popis 1 DWH je odděle od pri ár í h systé ů 2 Data v datové skaldu jsou i tegrova á 3 DWH o sahuje histori ká data za dlouhý časový úsek. 4 DWH obsahuje snapshoty k přes ě defi ova ý oka žiků. 5 Data v DWH jsou su jektově ikoliv age dově orie tova á. 6 DWH data jsou urče a pri ár ě ke čte í. ) ě y dat jsou je o dávkové a pri ár ě se jed á o i sert dat. 7 Život í yklus DWH je říze daty (nikoliv procesy). 8 DWH o sahuje ví e úrov í granularity dat. 9 DWH očekává álo select opera í ad velký i o je y dat. 10 DWH obsahuje systé pro vyhledává í zdrojů, tra sfor a í a ísta ulože í dat. 11 Metadata DWH o sahují popis vše h datový h prvků, zdroje, tra sfor a e, i tegra e, ulože í, vaz y a historii vše h datový h ele e tů. 12 DWH u ožňuje přidělovat a zpoplatňovat využití svý h zdrojů jed otlivý i uživateli.

144 Zákazní i a uživatelé ODS Operační data MDM Datová kvalita Integra ce DWH Jednotný odel Ko pletní historie Integrovaná data Byznys, te hnologi ká a provozní etadata Governance pravidla, organizační struktura, pro esy

145 DWH subjektově orientovaný pohled na data OLTP systémy Datový sklad Povinné ručení Zákazník/ Smlouva Životní pojištění Likvidace Zdravotní pojištění Platby a finance Neživotní pojištění Zajištění Aplikace Subjekty

146 Proč budujeme datový sklad Strategické cíle - Top Mgmt. Výnosy ROE Náklady Rizika o Byznys strategie podniku Taktické & operativní cíle - Middle Mgmt. Akvizice klientů Retence klientů Výnosnost na klienta... Automatizace procesů ízení nákladů Efektivita práce OPEX Inteligentní marketing Produktový vývoj Detekce odlivu zákazníků Křížový prodej Detekce podvodů ízení rizik Výkonově řízený komp. systém Finanční řízení Zdroje růstu Scoring & Rating Segmentace Channel Management METRIKY X-Sell probability Customer Lifetime Value Customer Leave Probability Profitability produktu Wallet Share Profitabilita zákazníka Housholding Profitability kanálu Segmentace Delikvence zákazníka Informace/Metriky BI STATISTIKY Statistiky prodejů Statistiky zákazníků Efektivita kampaně Efektivita obchodního procesu... DATA DATA - interní / externí

147 Vazba strategie a architektury v podniku Byznys strategie IT strategie Enterprise architektura Byznys architektura Aplikač í ar hitektura Datová ar hitektura Te h ologi ká architektura IT architektura

148 Proč budujeme datový sklad? ROE Return Of Equity Mise: ROE / Profit ++ Hodnota společnosti + Podíl na trhu + Nová teritoria Strategické cíle - Top Mgmt. Výnosy ROE Rizika Náklady Situace: rychle se ě í í trh lo argin business zákaz ík: dlouhodo ý vztah zákaz íků: konkurence, mzdy,... Strategické cíle - Top Mgmt. Výnosy Taktické & operativní cíle - Middle Mgmt. Akvizice Retence Výnosnost... klientů klientů na klienta Detekce Inteligentní Produktový Křížový odlivu marketing vývoj prodej zákazníků Scoring & Rating Segmentace Zdroje růstu METRIKY X-Sell probability Customer Lifetime Value Customer Leave Probability Profitability produktu Wallet Share Profitabilita zákazníka Housholding Profitability kanálu Segmentace Delikvence zákazníka Informace/Metriky BI ROE Náklady Rizika Automatizace ízení Efektivita OPEX práce procesů nákladů Výkonově Detekce Finanční ízení rizik řízený komp. podvodů řízení systém Channel Management STATISTIKY Statistiky prodejů Statistiky zákazníků Efektivita kampaně Efektivita obchodního procesu... DATA DATA - interní / externí

149 Proč budujeme datový sklad? Mise: Přilákat nové zákazníky Udržet stávající zákazníky Zvýšit výnosy ze stávajících zákazníků Strategické cíle - Top Mgmt. Výnosy Situace: trh je rozděle a saturová e istuje odliv zákaz íků áklady a ového zákaz íka Taktické & operativní cíle - Middle Mgmt. Akvizice klientů Retence klientů Výnosnost na klienta... Strategické cíle - Top Mgmt. Výnosy Taktické & operativní cíle - Middle Mgmt. Akvizice klientů Retence klientů Výnosnost na klienta... ROE Rizika Automatizace procesů Náklady ízení Efektivita nákladů práce OPEX Inteligentní marketing Produktový vývoj Detekce odlivu zákazníků Křížový prodej Detekce podvodů ízení rizik Výkonově řízený komp. systém Finanční řízení Scoring & Rating Segmentace Channel Management Zdroje růstu METRIKY X-Sell probability Customer Lifetime Value Customer Leave Probability Profitability produktu Wallet Share Profitabilita zákazníka Housholding Profitability kanálu Segmentace Delikvence zákazníka STATISTIKY Statistiky prodejů Statistiky zákazníků Efektivita kampaně Efektivita obchodního procesu... Informace/Metriky BI DATA DATA - interní / externí

150 Proč budujeme datový sklad? Úlohy: Aplikovat křížový prodej Zkrátit TTM Zefektivnit marketing Snížit odliv zákazníků... Taktické & operativní cíle - Middle Mgmt. Akvizice klientů Retence klientů Výnosnost na klienta Situace: neznámá zák. struktura neexistují Inteligentní marketing Zdroje růstu Produktový vývoj Scoring & Rating Detekce odlivu zákazníků Segmentace Křížový prodej Strategické cíle - Top Mgmt. Výnosy Taktické & operativní cíle - Middle Mgmt. Akvizice klientů Retence klientů Výnosnost na klienta ROE Channel Rizika Management... Automatizace procesů ízení nákladů Náklady Efektivita práce OPEX Inteligentní marketing Produktový vývoj Detekce odlivu zákazníků Křížový prodej Detekce podvodů ízení rizik Výkonově řízený komp. systém Finanční řízení Scoring & Rating Segmentace Channel Management Zdroje růstu METRIKY X-Sell probability Customer Lifetime Value Customer Leave Probability Profitability produktu Wallet Share Profitabilita zákazníka Housholding Profitability kanálu Segmentace Delikvence zákazníka STATISTIKY Statistiky prodejů Statistiky zákazníků Efektivita kampaně Efektivita obchodního procesu... Informace/Metriky BI DATA DATA - interní / externí

151 Proč budujeme datový sklad o Nejsou důležitá samotná data, ale informace v datech obsažená o Požadavky na uložení dat v datovém skladu: Data musí mít dostatečnou kvalitu a obsah, aby byla použitelná pro reporting i analýzy Data musí mít dostupná dostatečně rychle Data se nesmí dostat do nepovolaných rukou Náklady na uložení dat v datovém skladu se musí pohybovat v rozumných mezích Uložení dat musí být flexibilní, aby umožnilo realizaci budoucích požadavků.

152 Zákazní i a uživatelé ODS Operační data MDM Datová kvalita Integra ce DWH Jednotný odel Ko pletní historie Integrovaná data Byznys, te hnologi ká a provozní etadata Governance pravidla, organizační struktura, pro esy

153 OLTP x DWH OLTP systé y Aplikač ě orie tova á Detail í data Přes é hod oty, výz a v do ě zpra ová í Slouží provoz í pra ov íků M oho z ě update Opakují í se zpra ová í Přede z á y a defi ová y požadavky a data a procesy Sta dard í vývojový yklus aplika e Přístup k jed otlivý záz a u Orientace na transakce Datový sklad Před ět ě orie tova á Agragova á e o vypočítáva í data Historie, data za o do í, snapshoty Slouží a ažerů )az a e ává se historie, update je ový záz a Časté ad-ho a alýzy Větši a požadavků e í přede z á a Požadova ý agil í vývojový yklus Přístup k velké oži ě záz a ů ajed ou Orie ta e a a alýzu

154 OLTP x DWH OLTP systé y Výko ost je e tré ě důležitá pro provoz organizace Práva vlast íků dat a z ě u jsou důležitá Požadová a vysoká dostup ost Spravuje se jako celek Redu da e dat je ežádou í or alizova é odely Stati ká struktura, varia il í o sah Malé o je y dat Orientace a každode í ruti u Datový sklad Vol ější ároky a výko ost de í zpra ová í ) ě a je provádě a te h ologi ký i uživateli Nižší požadavky a dostup ost Spravuje se po logi ký h částe h Redu da e je ěž á de or alizova é modely) Fle i il í struktura Velké o je y dat Orie ta e a a alýzy a plá ová í

155 ODS x DWH ODS I tegrova á data Pře íra á data Orientace po oblastech Bez historie Z ě y v date h Bez agregace Tra sakč í load dat I for ač í zdroj o záz a e h O ous ěr á ko u ika e DWH I tegrova á data Vyčiště á data Orientace po oblastech Ko plet í historie Bez z ě Agregova á data Dávkový load dat A alyti ké aplika e Jed os ěr á komunikace

156 Uživatelé systémů OLTP ODS DWH Provoz í pra ov í i Střed í a age e t Provoz í pra ov í i Klienti Part eři Střed í a age e t Vr hol ý management

157 Vývoj složitosti DWH Big Data A alyti ké aplikace A alyti ké aplikace Data mining Data mining Data mining Multidimenzi o ál í a alýza Multidimenzi o ál í a alýza Multidimenzi o ál í a alýza Multidimenzi o ál í a alýza MIS MIS MIS MIS MIS Dotazy, Reporty, Dotazy, Reporty, Dotazy, Reporty, Dotazy, Reporty, Dotazy, Reporty, Dotazy, Reporty,

158 Architektura DWH Stage Obraz vstupní h dat Záloha dat pro zpra ování Datová kvalita Jádro Jednotný odel Ko pletní historie Data Marty Podle analyzovaný h pro esů Dimenze a metriky Agregovaná data Scheduler a dohled

159 Architektura o Modely o ETL o Reporting o Technologie o Partitioning o Bitmap indexy o Materializované view o Komprimované tabulky o Paralelismus o OLAP

160 Jádro DWH o Logický datový model organizace o Specializovaný na doménu organizace o Nezávislý na implementaci jednotlivých transakčních systémů o Podporuje byznys cíle organizace o Logické doménové modely Teradata FSLDM Logický datový model IBM FSDM Orientace na procesy a služby Oracle SAS další

161 Logický datový model organizace o Konceptuální pohled na strukturu dat o Nejen pro datový sklad ale i pro integraci dat mezi systémy o Definice entit a vztahů, jejich použití Vazba na procesy a služby o Základní atributy jednotlivých entit o Doporučené struktury entit o Doporučené struktury atributů o Logické modely pro jednotlivé subjekty o Návrhy data martů pro řešení specifických úloh

162 Příklad konceptuální model FSLDM

163 Příklad struktura FSDM

164 Příklad logický model oblasti

165 Příklad doporučená struktura

166 FSDM připravené oblasti Asset & Liability Management Capital Allocation Analysis Capital Procurment Equity Position Exposure Financial Management Accounting Funds Maturity Analysis Net Interest Margin Variance Structured Finance Analysis Financial Market Transaction Analysis Positions Analysis VWAP Analysis

167 FSDM připravené oblasti Regulatory Compliance Balance Sheet Classifi ed Approach Balance Sheet Order of Liquidity Approach Balance Sheet Net Assets Approach Balance Sheet Portfolio Basis Approach Cash Flow Direct Analysis Cash Flow Direct FI Analysis Cash Flow Indirect Analysis Cash Flow Indirect FI Analysis Income Statement by Function Analysis Income Statement by Nature Analysis Income Statement FI Approach Statement of Charges in Equity Analysis Sarbanes Oxley Act Analysis Sarbanes Oxley Act Balance Sheet Analysis Sarbanes Oxley Act Cash Flow Analysis Sarebanes Oxley Act Statement of Change in Shareholders Equity Analysis Sarbanes Oxley Act Statement of Income Analysis ECB Reporting Financial Capital Adequacy Analysis Structure of Regulatory Capital Best Execution Analysis

168 FSDM připravené oblasti Risk Credit Risk Assessment Credit Risk Mitigation Assessment Operational Risk Assessment Operational Risk Loss Analysis Value at Risk Analysis

169 Stage o Obraz dat z primárních systémů o Historizace dat z primárních systémů pro opakované zpracování o Integrace dat, tabulky klíčů o Převod dat do modelu jádra o Čištění dat, sledování datové kvality o Přidělování a nahrazování klíčů

170 Stage o Staging area je ve vlastnictví ETL týmu Žádný reporting, dotazy běžných uživatelů, žádná SLA Struktura staging area se může měnit bez vědomí koncových uživatelů Data zapisují a čtou pouze ETL procesy. o Fyzická realizace Databázové tabulky Soubory (flat files)

171 Stage o Horizontální zpracování Data se zpracovávají po systémech Integrace se provádí denně vícekrát Více systémů může najednou měnit stejnou oblast nutnost synchronizace Data se zpracovávají ihned po uvolnění primárním systémem o Vertikální zpracování Data se zpracovávají po oblastech Nutno čekat na všechny systémy krátké časové okno pro zpracování Jednodušší správa integrity v rámci celého podniku Není možné použít při nestejných priodáchpřenosu dat o Nahrávání opožděných dat o Odstranění denního loadu

172 Vybíráme data pro DWH o Možné přístupy: Syntéza zdola Projít data stávajících provozních systémů, a určit data, která jsou užitečná pro organizaci jako celek. Určit překryv dat z provozních systémů Analýza shora Mám vydefinovány reporty Potřebuji určit, kde a jak získat data do těchto reportů o Určení System of Record Vyjasnění si, jaká data do DWH chci Určení, zda a z jakých zdrojových systémů jsem schopen tato data získat Určení, kde se potřebná data ve zdrojovém systému nachází o Datový model datového skladu o Určení granularity dat

173 Nahrávání dat z primárních systémů o Zdroj dat Extrakty Pohledy do tabulek Připravená View Logy změn v primárních systémech Replikace dat Webové služby o Velikost extraktů Full extrakty Přírůstková data

174 Nahrávání dat z primárních systémů o Četnost nahrávání Denní load Ad-hoc load Hodinové intervaly Near-to-online dávky o Dostupnost zdrojových systémů Určení časového okna pro provedení loadu časování loadu DWH Událostmi řízené ukončení denního zpracování Existence extraktů na určeném místě

175 Nahrávání dat ze zdrojových systémů

176 Nahrávání dat ze zdrojových systémů

177 Stage o Persistentní ukládání mezivýsledků jednotlivých fází o Výhody: Zotavení z chyb: Ukládání ihned po extrakci ze zdrojového systému Ukládání mezivýsledků ihned po zásadní či složitější transformaci Záloha Audit Uložená data získaná ze zdrojových systémů mohou být použita k opravnému loadu. Lze snáze dohledat, ve které fázi loadu došlo ke vzniku chyby Lze zjistit, zdali problémová data nepřišla již ze zdrojového systému

178 ETL o EXTRACT Načtení relevantních dat ze zdrojového systému o TRANSFORM Transformace dat do podoby používané v DWH Vytvoření umělých klíčů Historizace Čištění dat o LOAD Načtení dat do DWH

179 ETL nebo ELT? o Extract Transform Load o Extract Load Transform Extrahovat data do DWH Provádět transformace v DWH

180 ETL nástroje o Snadný návrh o Dokumentace transformací o Znuvupoužitelnost objektů o Template pro standardní úlohy o Schopnost napojení na mnoho typů zdrojů o Technologická nezávislost o Schopnost zvládnout veliké objemy dat (stovky GB) o Dohled a řízení běhu transformací o Shromažďování operačních metadat o Konkurence Psaní skriptů (PL/SQL, BTEQ, Perl, shell, )

181 ETL nástroje o ETL transformační run-time Větší flexibilita Rozložení zátěže o Generátory kódu Zatížení databáze Možnost optimalizace na úrovni databáze Využití specifik konkrétního systému

182 Použití ETL o Přenos dat z primárních systémů o Transformace v Stage o Úprava dat v jádře datového skladu o Vytváření data martů

183 Příklad návrh ETL- BizzTalk

184 Příklad grafické rozhraní Informatica

185 Příklad návrh řízení zpracování

186 Příklad dohled zpracování

187 Příklad fáze loadu Data Staging Area Operational Sources IMS Step 1 Step 2 Step 3 Step 4 Step 5 Step 6 Step 7 Step 8 Step 9 Capture * Logs * Extracts * Backups Pre F.1 * Fixed Lt * Variable * SEQ Filter * Select Intel. Merge * Merge N to N Maps Delta * Detect delta records Clean & Transf * Ensure data can be loaded * Convert * Change Build * Build DW rows Apply * Load * SQL Backup * Load files * Recovery Data Warehouse DB2 DBMS Sybase SEQ Oracle

188 Příklad fáze loadu o 1. Načtení dat, zapsání do historických tabulek D-1, D-2, Technologické rozdíly kódování (Mainframe EBCDIC) soubory, zdroje, umístění COBOL files, as400 XML files SAP konektor o 2. Preformat Standardizace datových typů Rozdělení různých záznamů do rozdílných souborů Ověření data quality odmítnutí vstupů

189 Příklad fáze loadu o 3. Filtrace Odstranění záznam, které nepatří do datového skladu o 4. Merge Spojení souborů tak aby se s nimi lépe pracovalo Denormalizace N:N mapování Integrace atributů z rozdílných zdrojů pro jednotlivé záznamy o 5. Delta detection Identifikace nových, změněných nebo zrušených záznamů podle zdrojových dat

190 Příklad fáze loadu o 6. Transformace do datových typů datového skladu ízení null Převod kódů na texty Rušení nepotřebých atributů o 7. Převod dat do modelu datového skladu Převod klíčů a generování nových o 8. Load do jádra datového skladu Historizace Vytvoření dimenzí o ř. Záloha denního zpracování

191 Přidělování klíčů o Klíč v primárním systému o Klíč v datovém skladu Unifikace ešení cizích klíčů o Globální klíč v organizaci (MDM) GID o GID není většinou klíč v datovém skladu o Pravidla pro přidělování klíče o Jmenné pravidla pro modely o Tabulky klíčů pro integraci

192 Co si zapamatovat o Proč budujeme datový sklad o Jaké jsou hlavní pravidla pro budování datového skladu o Jaká je vazba DWH na strategii strukturu organizace o Čim se liší DWH od OLTP systémů o K čemu slouží stage, jádro a marty v DWH o Co to jsou ETL nástroje o Jaké jsou hlavní činnosti při akvizici dat do datového skladu

193 Diskuse

194 Databázové patterny UAI /14 RNDr. Ondřej Zýka,

195 Obsah o Co je databázový pattern o Pattern: Přiřazení rolí o Pattern: Klasifikace

196 Databázové patterny o Odzkoušené a doporučené způsoby, jak řešit často se vyskytující požadavky o N-ární relace o Dědičnost o Přiřazení rolí o Klasifikace

197 Úrovně patternů o Stejný typ požadavků může být řešen v databázi mnoha způsoby o Jednoduše I při drobné změně požadavku je nutný zásah do databáze, Lehce srozumitelné uživatelům, analytikům, vývojářům. o Složitě Hodně změn se dá vyřešit pouze změnou dat. Komplikované datové struktury, uživatelsky nesrozumitelné. Vždy je nutné mít jednoduché uživatelské rozhraní. Koncový uživatel nesmí být zatěžován implementační složitostí.

198 Pattern: Přiřazení rolí o Definice Partneři kooperující s podnikem Podnik - zákazník, dodavatel, partner, zaměstnanec, Škola student, zaměstnanec, spolupracovník, přednášející,

199 Pattern: Přiřazení rolí I CUSTOMER ID ORGANIZATION/FIRST/LAST NAME CREDIT LIMIT 100 Moje data s.r.o CZK 101 Tvoje Data s.r.o. null SUPPLIER ID ORGANIZATION NAME TAXATION IDENTIFIER 369 Moje data s.r.o Vaše Data s.r.o PARTNER ID ORGANIZATION/FIRST/LAST NAME PARTNER TYPE 1001 Moje data s.r.o. 10 (Global partner) 1002 Tvoje Data s.r.o. 20 (Software testing)

200 Pattern: Přiřazení rolí I o Nejjednodušší řešení - každá role jiná entitu o Vlastnosti Jasně definované role Atributy jsou společné (Jméno) a specifické (EMPLOYEE NUMBER) Jedna organizace nebo člověk může mít více rolí Některé role mohou zastávat pouze organizace (SUPPLIER), některé pouze lidé (EMPLOYEE), některé jak lidé, tak organizace

201 Pattern: Přiřazení rolí I o Slabé stránky Není vhodný pro prostředí, kde často vznikají a zanikají role nebo kde se mění atributy rolí; Stejná informace je uložena na více místech (Jak řešit změnu adresy firmy Vaše Data); Těžko se skládá celkový obrázek o vazbách s ostatními subjekty; Není jasné, jak jednoznačně identifikovat subjekt.

202 Pattern: Přiřazení rolí II

203 Pattern: Přiřazení rolí II o Složitější řešení (umožňuje) odstranění redundance informací o osobách a organizacích. o Vlastnosti Role může být vázána na PARTY, nebo jenom na podtyp ORGANIZATION; Jednotlivé role jsou samostatné entity.

204 Pattern: Přiřazení rolí II o Vlastnosti Umožňuje jednoduše vázat další entity (faktura, objednávka) přímo na PARTY, není potřeba rozlišovat, zda se jedná o osobu nebo organizaci. Umožňuje jednoduše přidávat další role existujícím PARTY. Umožňuje, aby jedna PARTY vystupovala ve více rolích.

205 Pattern: Přiřazení rolí II o Slabé stránky V některých prostředí nejsou schopni rozlišit PARTY od rolí. Pattern naznačuje, že PARTY vystupuje v roli pouze jednou. Přidávání rolí vyžaduje přidání entity. Není vhodné pokud nové role vznikají často. Neumožňuje řídit informace ohledně typů rolí.

206 Pattern: Přiřazení rolí III

207 Pattern: Přiřazení rolí ROLE TYPE ID NAME PARENT ROLE TYPE ID 100 Party role Null Null PARENT NAME 101 Customer 100 Party role 102 Partner 100 Party role 103 Organization role 100 Party role 104 Supplier 103 Organization role 105 Person role 100 Party Role 106 Employee 105 Person role 107 Manager 106 Employee 108 Debtor 100 Party role

208 Pattern: Přiřazení rolí Party Role Partner Customer Organization Role Person Role Supplier Employee

209 Pattern: Přiřazení rolí III o Ještě složitější přístup PARTY ROLE je rodičovská entita pro všechny role. o Vlastnosti PARTY může přijímat mnoho rolí. Role pro jednotlivé party mají časovou dimenzi. Existuje stromová hierarchie mezi rolemi. Pokud nové role nevyžadují nové atributy, nevyžaduje přidávání rolí zásah do datového modelu.

210 Pattern: Přiřazení rolí III o Slabé stránky Je to složité Při uvedeném číselníku typů rolí je těžko pochopitelná vazba mezi Person role a Organization role a strukturou PARTY. Pokud nová role vyžaduje nové atributy, je stále nutné zasáhnout do datového modelu.

211 PARTY model - příklad

212 PARTY_ROLE jiný příklad

213 Pattern: Klasifikace o Definice Podpora členění instancí entity podle typů, do kategorií a taxonomií. Typy skupiny se společnými charakteristikami Kategorie kategorizace podporuje více druhů členění (Typy typů) Taxonomie původně věda zabývající se klasifikací organismů; členění dle definované struktury (například Klasifikace ekonomických činností (CZ- NACE))

214 Klasifikace Product Type Hardware Software Accessory Processors Storage devices Business software Gaming Software Cases Mouse pads Product Family Disk drives Carrying Cases Computer Memory Desktop Computers Laptop Computers Product Line Home Use Commercial Use Home Business Government

215 Pattern: Klasifikace I

216 Pattern: Klasifikace I ID NAME TYPE FAMILY LINE 1 LINE 2 CAPACIT Y 100 Save Disk 2000 HW Disk Drivers Home use Commercial Use 101 Carry All Case Accesory Carrying Case Commercial use 102 HS Software package 103 Memmory card M10 Software Hardware Computer memory Home Business Home use Home Business 20GB 1GB COLOU R Black Green

217 Pattern: Klasifikace I o Velice jednoduchý model, snadno pochopitelný pro všechny uživatele o Vhodný jako základ (prototyp), odrazový můstek pro pochopení a podrobnější analýzu o Implementace může používat omezení na hodnoty ve sloupcích nebo pouze uživatelská pravidla.

218 Pattern: Klasifikace I o Slabé stránky Složitá správa redundantních dat (HW hardware Hardware) Velice nepružný model Přidání kategorie přidání atributu Mnoho typů mnoho atributů Více typů klasifikací více sloupců (Product line 1, Product line 2); Nedají se udržovat data o klasifikacích popis, doba platnosti a podobně; Model nepodporuje složitější vazby o klasifikacích pouze povinné a nepovinné klasifikace.

219 Pattern: Klasifikace II

220 Pattern: Klasifikace II o Klasifikace Navzájem se vylučující typy Hardware, Accessory, Software; Více hodnot z klasifikace Product Line. o Klasifikace je možné měnit. o Pro porozumění modelu je důležité znát obsah tabulek (číselníků). o Umožňuje nezávislé řízení klasifikací MDM o Rozdílné klasifikace mohou mít své atributy. o Porozumění modelu není extrémně složité.

221 Pattern: Klasifikace II o Slabé stránky Málo pružný model, pokud je potřeba přidávat nové klasifikace. Klasifikace jsou udržovány v oddělených entitách. Není zde standardní způsob, jak řídit typy. Každý typ má své atributy. (To může být i výhoda.) Mnoho typů klasifikací mnoho atributů, mnoho entit s klasifikacemi.

222 Pattern: Klasifikace III

223 Pattern: Klasifikace III o Popis Sjednocení všech kategorií do jedné entity; Zavedení klasifikace kategorií; Hierarchická struktura na kategoriích i typech kategorií (například pro reporting). o Vlastnosti Jednoduché řízení klasifikací přidávání nové kategorizace, změna hierarchie kategorií; Vhodné pokud je potřeba mnoho klasifikací; Jednoduchý po databázové stránce jenom čtyři tabulky; Umožňuje jednoduše složitější analýzy podle různých klasifikací.

224 Pattern: Klasifikace III o Slabé stránky Těžký na porozumění, zejména při úpravách dat číselníků. Nevynucuje žádná business pravidla. Není vazba mezi hierarchií Kategorií a Typů kategorií. Model neumožňuje mít rozdílné atributy pro specifické typy.

225 Shrnutí o ešení musí odpovídat Složitosti business domény, Složitosti business pravidel, Schopnosti analytiků a vývojářů porozumět modelu, Schopnosti uživatelů udržovat model. o Vždy je vhodné při návrhu modelu vytvářet i data entit.

226 Další směry o ešení časové platnosti záznamu. o ešení více hierarchií. o ešení definice různých atributů pro různé typy.

227 Co si zapamatovat o Co to jsou databázové pattery o Jaké databázové patterny se používají o Jaké řešení pro pattern Rolí se používají, jaké mají slabé a silné stránky o Jaké řešení pro pattern klasifikace se používají, jaké mají slabé a silné stránky

228 Diskuse

229 Dimenzionální modelování UAI /14 RNDr. Ondřej Zýka,

230 Dimenzionální modelování o Ralph Kimball (1997) o Primárně modely pro datové sklady a analýzy Silně denormalizovaný model o Modely Pochopitelné pro netechnicky orientované uživatele Snadno rozšiřitelné Orientované na analytické dotazy Podporované datovými servery a analytickými nástroji (OLAP) o Schopnost reportovat z extrémního objemu dat o Minimum update pouze přidávání dat Požadavek neměnící se historie Technologie neumí současný update a select

231 Příklad

232 Standardní dotaz select SUM(qty) from F_SALES,D_TIME,D_TITLES,D_STORES,D_AUTHORS where F_SALES.TITLES_KEY = D_TITLES.TITLES_KEY and F_SALES.STORES_KEY = D_STORES.STORES_KEY and F_SALES.AUTHOR_KEY = D_AUTHOR.AUTHOR_KEY and F_SALES.DATE_KEY = D_DATE. DATE_KEY and podminky na D_TITLES and podminky na D_STORES and podminky na D_AUTHORS and podminky na D_DATE group by pozadovana granularita vysledku

233 Star schéma Dimenze Time Transaction Date Grocery Transaction Store Number Transaction Date Customer Product Quantity Amount Store Store Number Store Name City State Country Telephone Customer Customer From Date To Date First Name Last Name Address 1 Address 2 Address 3 City State Country Postal Code Fakta Product Product Description Category

234 Snowflake schéma Sales Period Period Identifier Sales Period From Date To Date Region Region Description Time Transaction Date Grocery Transaction Store Number Transaction Date Customer Product Quantity Amount Store Store Number Store Name City State Country Telephone Region Customer Category Category Customer Category Customer Customer First Name Last Name Address 1 Address 2 Address 3 City State Country Postal Code Customer Category Product Product Description Category Product Category Product Category Description

235 Snowflake model o Výhody Minimální redundance dat v rámci dimenzí Úspora místa v databázi Větší flexibilita pro modelování Užitečný pro dimenze se složitou strukturou o Nevýhody Složitější konstrukce dotazů, mnoho joinů Nižší výkonnost Komplikovaný snowflake model může odradit uživatele od přímého přístupu k datům uživatelské nástroje zpravidla zavádějí sémantickou vrstvu, která uživatele odstíní od datového modelu Možný konflikt s bitmapovými indexy Úspora místa je většinou převážena nižší výkonností a složitější administrací

236 Constellation schéma Store Store Number Store Name City State Country Telephone Region Product Inventory Product Warehouse Location Quantity On Hand Quantity Back Ordered Warehouse Warehouse Address 1 Address 2 Address 3 City State Country Postal Code Vendor Vendor Vendor Name Address 1 Address 2 Address 3 City State Country Postal Code Time Transaction Date Grocery Transaction Store Number Transaction Date Customer Product Purchase Quantity Amount Product Purchases Product Purchase Date Supplying Vendor Purchase Order Unit Quantity Purchase Cost Customer Customer First Name Last Name Address 1 Address 2 Address 3 City State Country Postal Code Customer Category Product Product Description Category Product Line

237 Snowstorm schéma Sales Period Period Identifier Sales Period From Date To Date Promotion Period Promotion Id Promotion From Date To Date Store Store Number Store Name City State Country Telephone Region Region Region Description Product Inventory Product Warehouse Location Quantity On Hand Quantity Back Ordered Warehouse Warehouse Address 1 Address 2 Address 3 City State Country Postal Code Vendor Vendor Vendor Name Address 1 Address 2 Address 3 City State Country Postal Code Time Transaction Date Grocery Transaction Store Number Transaction Date Customer Product Purchase Quantity Amount Product Purchases Product Purchase Date Supplying Vendor Purchase Order Unit Quantity Purchase Cost Customer Category Category Customer Category Customer Customer First Name Last Name Address 1 Address 2 Address 3 City State Country Postal Code Customer Category Product Product Description Category Product Line Product Line Product Line ID Description Product Category Product Category Description

238 Postup návrhu modelu 1. Výběr sledovaných procesů 2. Určení granularity 3. Určení dimenzí 4. Určení metrik 5. Definice získávání dat (ETL)

239 Výběr sledovaných procesů o Seznam procesů, které chceme analyzovat Od jednodušších ke složitějším o Bus matrix Matice: Business procesy x Dimenze o Často odpovídá jeden business proces jeden datamart

240 Buss matrix

241 Date Customer Service Bus matrix Rate Category Local Svc Provider Calling Party Custommer Billing Service Orders Trouble Reports Yellow Page Ads Customer Inquiries Promotion Billing Call Detail Network Call Detail Customer Inventory Network Inventory Real eastate Labor & Payroll Computer Charges Purchase Orders Supplier Deliverables Called Party Long Dist Provider Internal Organization Employee Location Equipment Type Supplier Item Shipped Weather Account status

242 Bus architektura a schéma - příklad

243 Určení granularity o Všechny řádky musí mít stejnou granularitu o Granularita malá Jeden řádek jedno měření Velký objem dat o Granularita velká Malé databáze Omezená možnost analýz o Hodnoty odpovídají průniku všech dimenzí o Někdy potřeba realokace dat na několik řádek o ádky s hodnotou nula se nazapisují

244 Fact tables o Transaction - co řádek to transakce (například obchody) Proces může obsahovat více typů transakcí, rozhodnutí zda jedna nebo více tabulek není jednoduché o Snapshots - každý den se udělá celý snímek State model celé denní snímky Event model každý den pouze změněné záznamy Možnost dopočítání dalších hodnot ke každému snímku o Akumulujíce se shapshoty (sklad) Id výrobku jako primární klíč a doplňují/updatují se hodnoty pro události popisující životní cyklus Do daného řádku se doplní datum expedice, fakturace, dodání, vyúčtování, Pozor - update v tabulce faktů o (Fact tables bez faktů slouží jako n:n vazba mezi dimenzemi)

245 Fact tables o Fakta aditivní - počet, cena v transakčních fact tabulkách Význam pro všaechny dimenze Nejlépe se s nimi pracuje Cílem je převést na aditivní fakta maximum Discount -> ceníková cena, prodejní cena semiaditivní - počet cena v snapshot tabulkách součet za produkty má význam, za čas nemá význam Obecně význam pouze pro některé dimenze nonadditive - procentuální profit Často text Někdy možné přenést do dimenzí (degenerované dimenze) o Factless fact table pouze cizí klíče, žádná fakta Příznak existence (účast v kampani)

246 Určení dimenzí o Konformní dimenze Jedna nejpodrobnější dimenze, ostatní jsou jejich agregací Jednotné dimenze pro všechny business procesy o Jeden sloupec primárního klíče o Hodně sloupců popisů, často přes 30, čím více tím lépe o Atributy spíše textové (srozumitelnost) o Hierarchie pro analýzy o Časová dimenze o Degenerovaná dimenze nemá popis (číslo faktury) o Dimenze jsou denormalizované (jedna široká tabulka) Normalizace vločkové schéma o Umělé klíče pro odstínění změn o ádek s hodnotu Not applicable, Uknown

247 Časová dimenze o V každém datovém skladu o Často mnoho hierarchií Provozní rok Fiskální rok Kalendářní rok o Mnoho sloupců Textová informace Číselná informace Konce a začátky období

248 Časová dimenze

249 Časová dimenze - hierarchie Lower-level of granularity is Day 6 parallel hierarchies

250 Dimensions o Schéma a instance dimenze lokace o Použití srozumitelných dat, texty o Často odvozeno z jiných zdrojů (i externích) o Redundance dat je pouze v dimenzích (nikoliv ve faktových tabulkách) o Umožňuje vybírat a agregovat data po úrovních o Hierarchie by měli mít konstatní hloubku (nedoplňovat regiony jenom někde) o Hierarchie jsou obsaženy v metadatech o dimenzích

251 Typy dimenzí o Konformní Pro celý podnik Ostatní dimenze jako podimenze konformních dimenzí o Minidimenze a sběrné dimenze Číselníky Stavové a textové atributy Možné sloučit do sběrných dimenzí o Degenerované dimenze Přímo v tabulce faktů (číslo objednávky)

252 Typy dimenzí z pohledu změn o Statické Žádné ošetření změn V případě změny se přepíše starý záznam Žádná historie o Rostoucí dimenze Přidávají se nové záznamy V případě změny se přepíše starý záznam Žádná historie o Rychle rostoucí diimenze Nutné speciální řešení Oddělení rychle se měnících atributů do vlastní dimenze (Jako Slowly changed dimension Type 2) o Slowly changing dimenze

253 Slowly changing dimension o Typ 1 přepis hodnot Žádná historie o Typ 2 přidávání řádků, vždy jeden platný Přidané pole Begin date, End date, Eff date key, Change reason text, Current flag Kompletní historie o Typ 3 alternativní realita vice možností v jeden čas Přidání nových záznamů uchování současné a předchozí hodnoty v případě změny o Redundance nebývá problém Dimenze zabírají cca 5% místa v DWH

254 Dimensionální model ve zkratce o Fact tables fakta (metriky) a cizí klíče z dimenzí o Dimension tables jeden sloupec primárního klíče a mnoho popisných sloupců o Star schéma o Další speciální tabulky

255 Příklad o Fakta Počet prodaných knih Cena za prodané knihy o Dimenze Knihy Obchody Čas o Hierarchie Knihy Kniha typy knih vše Čas Den kalendářní měsíc kalendářní kvartál kalendářní rok celá historie Obchody Obchod hierarchická struktura podle ústředí vše

256 Další témata o Údržba modelu o Přidělování klíčů o Vazba mezi identifikací ve vstupních datech a primárními klíči o Datová kvalita o Agregace o Vstupní data snapshots nebo events

257 OLAP technologie o Uložení a zpracování dat podporující určité druhy analýz parameterized static reporting slicing and dicing with drill down what if? analysis goal seeking models o Způsob uložení předpočítaných hodnot (denormalizace) Uložení agregovaných hodnot vyžadovaných analýzami podle zadaných Metrik Dimenzí Hierarchií na dimenzích

258 Příklad uložení

259 Multidimenzionální databáze o Nutné rozlišit Princip Práce s dimenzemi Práce s hierarchiemi Skutečný způsob uložení dat Relační model Speciální úložiště se speciálními indexy o Kategorizace dle místa uložení dat a agregací MOLAP veškerá data uložená v multidimenzionální databázi ROLAP veškerá data uložená v relační HOLAP hybrid o Další typy RTOLAP real time, data pouze v RAM DOLAP desktop OLAP, data uložená na klientském počítači

260 FASMI - Fast Analysis of Shared Multidimensional Information o Alternativní název pro OLAP reportingová prostředí o Fast Rychlá odezva, obvykle do jednotek sekund, maximálně několik desítek sekund Delší odezvy odrazují od analýzy, snižují zapojení uživatelů o Analytical Uživatelsky přívětivá schopnost analýz Nevyžaduje programování Podpora dostatečného množství funkcí a neprocedurálních modelů o Shared Podpora bezpečnosti až na úrovni buňky Read-write model o Mutlidimensional Podporuje multidimensionálního pohledu na data Star-, respektive snow-flake schéma Podpora více hierarchií o Information Schopnost zpracovat velké množství informací RAM a disk požadavky. Integrce s DWH

261 FASMI test BI platformy o Multidimensional Conceptual View o Intuitive Data Manipulation o Accessibility o Batch Extraction vs Interpretive o OLAP Analysis Models o Client Server Architecture o Transparency o Multi-User Support o Treatment of Non-Normalized Data o Storing OLAP Results o Extraction of Missing Values o Treatment of Missing Values o Flexible Reporting o Uniform Reporting Performance o Automatic Adjustment of Physical Level o Generic Dimensionality o Unlimited Dimensions & Aggregation Levels o Unrestricted Cross-dimensional Operations

262 Příklady dodavatelů OLAP serverů o MS Analysis Services o IBM Cognos o Oracle OLAP option o Hyperion Essbase o Business Objects o MicroStrategy o SAS

263 Co si zapamatovat o K čemu slouží dimenzionální datové modely o Jaké jsou hlavní rozdíly relačního a dimenzionálního modelování o Jaké jsou rozdíly mezi modely typu hvězda, souhvězdí, vločka nebo sněhová bouře o Jaký je doporučený postup při návrhu dimenzionálního modelu o Co to je Buss Matrix, k čemu slouží o Jaké typy faktových tabulek se používají o Co to je aditivní, semiaditivní a neaditivní metrika o Jaké typy dimenzí se používají o Co to je "Slowly changing dimension of type 2" o Co to je OLAP databáze

264 Diskuse

265 SQL pro DWH UAI /14 RNDr. Ondřej Zýka,

266 Pokročilé použití SQL o Pomocné tabulky With o Rekurze with o Rozhodování case o Analytické funkce COUNT, SUM, AVE, MAX, MIN azení: RANK, DENSE_RANK, ROW_NUMBER Práce s předchozím a následným řádkem: LAG,LEAD o Testování

267

268 Základní části příkazu select Seřaďte knihkupectví podle počtu poboček. COUNT HEADQUARTER

269 ešení SELECT COUNT(STORE_ID) AS "COUNT", HEADQUARTER FROM STORE GROUP BY HEADQUARTER ORDER BY "COUNT"

270 Join A B A B select * from A left join B on A.PK = B.PK select * from A right join B on A.PK = B.PK A B A B A B select * from A left join B on A.PK = B.PK where B.PK is null select * from A inner join B on A.PK = B.PK select * from A right join B on A.PK = B.PK where A.PK is null A B A B select * from A full outer join B on A.PK = B.PK select * from A full outer join B on A.PK = B.PK where A.PK is null or B.PK is null

271 Join Zjistěte kolik knih kterých autorů se prodalo v kterém knihkupectví. - Různé syntaxe - Vyjadřovací síla syntaxi JMENO OBCHOD TITUL ET Bennet,Abraham Academia The Busy Executive's Database Guide 2 Bennet,Abraham Dům Knihy The Busy Executive's Database Guide 5 Bennet,Abraham Dům knihy Kanzelsberger The Busy Executive's Database Guide 2 Bennet,Abraham Dům učebnic a knih Černá labuť The Busy Executive's Database Guide 2 Bennet,Abraham Kanzelsberger The Busy Executive's Database Guide 2 Bennet,Abraham Kanzelsberger, a. s. The Busy Executive's Database Guide 6 Bennet,Abraham Knihkupectví Chodov The Busy Executive's Database Guide 8 Bennet,Abraham Knihkupectví Dejvická The Busy Executive's Database Guide 3 Bennet,Abraham Knihkupectví Hlavní nádraží The Busy Executive's Database Guide 4 Bennet,Abraham Knihkupectví Nový Smíchov The Busy Executive's Database Guide 5 Bennet,Abraham Knihy Kanzelsberger The Busy Executive's Database Guide 33 Bennet,Abraham Luxor The Busy Executive's Database Guide 5 Bennet,Abraham OC Centrum The Busy Executive's Database Guide 3 Bennet,Abraham OC Olympia The Busy Executive's Database Guide 6 Bennet,Abraham OC Varyáda The Busy Executive's Database Guide 7 Bennet,Abraham Palác knih Luxor The Busy Executive's Database Guide 3 Bennet,Abraham Palác knih Palladium The Busy Executive's Database Guide 4 Blotchet-Halls,Reginald Academia Fifty Years in Buckingham Palace Kitchens 68 Blotchet-Halls,Reginald Dům Knihy Fifty Years in Buckingham Palace Kitchens 71 Blotchet-Halls,Reginald Dům knihy Kanzelsberger Fifty Years in Buckingham Palace Kitchens 55

272 ešení select l_name ',' f_name as jmeno, name as obchod, title as titul, sum(qty) as pocet from author join title_author on (title_author.au_id = author.au_id) join title on (title_author.title_id = title.title_id) join sales_detail on (sales_detail.title_id = title.title_id) join store on (store.store_id = sales_detail.store_id) group by l_name ',' f_name, title, name order by 1,2,3;

273 ešení pomocné tabulky with at_table (jmeno, titul, title_id) as select l_name ',' f_name, title titul, title_id from author join title_author on (title_author.au_id = author.au_id) join title on (title_author.title_id = title.title_id), sales_table (obchod, pocet, title_id) as select name, sum(qty), title_id from sales_detail join store on (store.store_id = sales_detail.store_id) group by title_id, name select from jmeno, obchod, titul, pocet at_table join sales_table on (at_table.title_id=sales_table,title_id);

274 Rekurze Vytvořte tabulku s hodnotami 1 až 100 ID

275 ešení with numbers (val) as (select 1 as val from dual union all select val+1 from numbers where val < 100) select val as ID from numbers;

276 Rekurze - číselník o Vytiskněte strukturu obchodů OBCHODY Academia:Václavské nám 34 Luxor:Na Poříčí 25/1067 Knihkupectví Chodov:Nákupní centrum Chodov Knihkupectví Hlavní nádraží:hlavní nádraží, Wilsonova 8 Knihkupectví Dejvická:Vestibul metra A - Dejvická Palác knih Luxor:Václavské náměstí 41 Knihkupectví Nový Smíchov:Plzeňská 8 Palác knih Palladium:Náměstí Republiky 1 Dům učebnic a knih Černá labuť:na poříčí 25, Kanzelsberger, a. s.:4d Office Center, Kodaňská 46 Knihy Kanzelsberger:Prokopa Holého 15 OC Centrum:Vídeňská 100 Dům knihy Kanzelsberger:Kanovnická 3 Knihy Kanzelsberger:Hradební 1 Kanzelsberger:Josefská 2 OC Varyáda:Kpt. Jaroše 375/31 Dům Knihy:Václavské nám 4 Knihy Kanzelsberger:Panská 132/I Knihy Kanzelsberger:T. G. Masaryka 253 Knihy Kanzelsberger:Sedláčkova 109 Knihy Kanzelsberger:Čelakovského 480/10 Knihy Kanzelsberger:Čs. armády 216 Knihy Kanzelsberger:Dukelská tř. 3 Knihy Kanzelsberger:Vodní 61 Knihy Kanzelsberger:Palackého 96 OC Olympia:Jičínská 1350/3

277 ešení with stores(store_id, name,address, store_level, path) as (select store_id, name, address, 1,cast(store_id as varchar2(100)) from store where store_id = headquarter union all select store.store_id, store.name, store.address, stores.store_level+1, stores.path '.' store.store_id from store join stores on (stores.store_id = store.headquarter and store.store_id!= store.headquarter) ) select rpad(' ',store_level*3) name ':' address as obchody from stores order by path;

278 Count Co počítají příkazy select count(*) from title; 18 select count(price) from title; 16 select count(all price) from title; 16 select count(distinc price) from title; 11

279 Count - analytická funkce Spočtěte počet knih, které jsou maximálně o dvě dražší nebo o 3 levnější než daná kniha. TITLE_ID PRICE POCET MC BU PS PS PS BU TC TC BU MC PS

280 ešení select title_id, price, count(price) over (order by price RANGE BETWEEN 3 PRECEDING AND 2 FOLLOWING ) as pocet from title order by price;

281 Count analytická funkce V kolika různých typech knih se vyskytuje kniha se stejnou cenou: TITLE_ID TYPE PRICE TYPE_COUNT BU2075 business BU1032 business BU7832 business BU1111 business MC3021 mod_cook MC2222 mod_cook PC1035 popular_comp PC9999 popular_comp 2 PC8888 popular_comp 20 1 PS2091 psychology MC3026 psychology 2

282 ešení select from title title_id, type, price, count(distinct type) over (partition by price) as type_count order by type;

283 azení číslování řádků Seřaďte knihy podle prodejů. ORDER TOTAL_SALES TYPE TITLE_ID psychology PS psychology PS trad_cook TC mod_cook MC psychology PS psychology PS business BU psychology PS trad_cook TC popular_comp PC business BU business BU popular_comp PC trad_cook TC4203

284 ešení select row_number() over (ORDER BY TOTAL_SALES) as "ORDER", total_sales, type, title_id from title

285 azení ve skupinách Seřaďte knihy podle prodejů a typů knih. ORDER TOTAL_SALES TYPE TITLE_ID business BU business BU business BU business BU mod_cook MC mod_cook MC popular_comp PC popular_comp PC (null) popular_comp PC psychology PS psychology PS psychology PS psychology PS psychology PS3333

286 ešení select row_number() over (partition by type order by total_sales) as "ORDER", total_sales, type, from title title_id

287 azení II Seřaďte knihy podle prodejů - stejný počet, stejné pořadí (jako v golfu) ORDER TOTAL_SALES TYPE TITLE_ID psychology PS psychology PS trad_cook TC mod_cook MC psychology PS psychology PS business BU psychology PS trad_cook TC popular_comp PC business BU business BU popular_comp PC trad_cook TC4203

288 ešení select rank() over (order by total_sales) as "ORDER", total_sales, type, title_id from title

289 azení III Seřaďte knihy podle prodejů, stejný počet, na stejném místě. ORDER TOTAL_SALES TYPE TITLE_ID psychology PS psychology PS trad_cook TC mod_cook MC psychology PS psychology PS business BU psychology PS trad_cook TC popular_comp PC business BU business BU popular_comp PC trad_cook TC business BU2075

290 ešení select dense_rank() over (order by total_sales) as "ORDER", total_sales, type, title_id from title

291 Rozhodování - case Skryjte opakující se hodnoty. ORDER TOTAL_SALES TYPE TITLE_ID psychology PS psychology PS trad_cook TC mod_cook MC psychology PS psychology PS business BU psychology PS trad_cook TC business BU business BU popular_comp PC popular_comp PC trad_cook TC4203

292 ešení select from case LAG("ORDER") over (order by "ORDER") when "ORDER" then null else "ORDER" end as order, total_sales, type, title_id (select dense_rank() over (order by total_sales) as "ORDER", total_sales, type, title_id from title)

293 Case jiné použití Spočtěte počty prodaných knih podle vydavatelství a měsíce, výstup v tabulkovém formátu. MONTH New Age Books Binnet & Hardley Aldata Infosystems

294 ešení select TO_CHAR(SALE.ORD_DATE,'yyyy-mm') as MONTH, SUM(case when TITLE.pub_id = '0736' then QTY else 0 end) as "New Age Books", SUM(case when TITLE.pub_id = '0877' then QTY else 0 end) as "Binnet & Hardley", SUM(case when TITLE.pub_id = '1389' then QTY else 0 end) as "Aldata Infosystems" from PUBLISHER, SALE, SALES_DETAIL, TITLE where SALES_DETAIL.TITLE_ID = TITLE.TITLE_ID and PUBLISHER.PUB_ID = TITLE.PUB_ID and SALE.ORD_NUM = SALES_DETAIL.ORD_NUM group by TO_CHAR(SALE.ORD_DATE,'yyyy-mm') order by 1

295 Spojení hodnot Dejte všechny title_id pro vydavatele do jedné řádky PUB_ID TITLE_IDS BU2075,PS2091,PS2106,PS3333,PS MC2222,MC3021,MC3026,PS1372,TC3218,TC4203,TC BU1032,BU1111,BU7832,PC1035,PC8888,PC9999

296 ešení with aux1(pub_id, title_id, row_id) as (select pub_id, title_id, row_number() over (partition by pub_id order by title_id ) from title), -- příklad ř aux2 (pub_id, title_id, path,row_id) as (select pub_id, title_id,cast(title_id as varchar2(100)),row_id from aux1 where row_id = 1 union all select aux2.pub_id, aux1.title_id, aux2.path ',' aux1.title_id,aux1.row_id from aux2 join aux1 on (aux1.pub_id=aux2.pub_id and aux1.row_id = aux2.row_id+1)) příklad 5 select pub_id,max(path) from aux2 group by pub_id order by pub_id;

297 Testování Máte dvě tabulky nebo view, například: create view TITLE1 as select * from title where title like '%a% create view TITLE2 as select * from title where price > 10 Zjistěte: 1. Zda tabulky mají stejný počet záznamů 2. Zda tabulky mají shodné řádky 3. Které řádky (hodnoty), jsou v jedné tabulce a nejsou v druhé

298 Co si zapamatovat o SQL má podporu pro rekurzivní operace o Mnoho požadavků BI se dá řešit pomocí analytických funkcí o Základní metody testování shodnosti tabulek

299 Diskuse

300 Technologie DWH UAI /14 RNDr. Ondřej Zýka,

301 Technologie o Denormalizace Partitioning Indexy Materializované view o Indexy a bitmapové indexy o Komprimované tabulky o Paralelismus o OLAP

302 Denormalizace o Partitioning Horizontální Vertikální o Uložení vypočtených hodnot o Spojení tabulek

303 Horizontální rozdělení tabulek o Přístupy pouze na část tabulky o Příklady: Aktivní a neaktivní položky Historické záznamy o Možnosti Rozdělení tabulky Přidání tabulky (duplicitní záznamy) Partitioning

304 Rozdělení tabulky Rozdělení tabulky Part 1 Part 1 Table Part 2 View Table Part 3 Výhody práce s menším množstvím dat méně problémů se zamykáním lepší řízení indexů možnost detailní optimalizace Nevýhody nutnost synchronizace triggery, aplikační logika Náročnější údržba

305 Partitioning o Transparentní z pohledu aplikace o Rozdělení dle daného rozsahu nebo hodnot o Dynamicky podle hodnot Dynamicky vytvářeno pro každý měsíc Nejčastější použití o Podle hash klíče (určuje se pouze počet partitions) Part 1 Part 2 Part 3 Part 4 o Více úrovňový partitioning Podle času, podle pobočky o Možnost individuálního řízení partition o Omezený počet partition podle implementace

306 Vertikální rozdělení tabulek o Přístupy pouze na některé sloupce tabulky o Příklady: Bloby, obrázky, popisy o Možnosti Rozdělení tabulek Přidání tabulky (duplicitní záznamy) Vytvoření indexu

307 Rozdělení tabulky Rozdělení tabulky Table P a r t P a r t P a r t View Table P a r t Výhody práce s menším množstvím dat méně problémů se zamykáním možnost optimalizace Nevýhody nutnost synchronizace triggery, aplikační logika náročnější údržba

308 Přidání indexů o Transparentní z pohledu aplikace o Jeden clustrovaný index o Libovolný počet dalších indexů o Automatická údržba o Pokrývající dotazy I n d e x 1 I n d e x 2 o Nároky na diskový prostor o Snížení výkonu pro OLTP aplikace

309 Uložení vypočtených dat o Přidání sloupce o Přidání tabulky o Synchronizace Trigerry Uložené procedury Aplikační logika o Nutno zavést procedury pro údržbu a resynchronizaci

310 Materializovaná view o Transparentní z pohledu aplikace o Automatické řízení výpočtu view o Nákladné výpočty, nutnost možnosti řízení výpočtů asynchronně o Duplicitní uložení dat nároky na diskový prostor

311 B-tree index příklad kořen vnitřní blok indexu listová úroveň indexu data klíč řádek blok Blok 1001 Bennet Chet 1421, Karsen Kit 1876, Smith Ade 1242, Blok 1007 Bennet Chet 1421, Fox John 1317, Hunter Leon 1213, Blok 1306 Karsen Kit 1876, Larn Pard 1451, Peters Mary 1856, Blok 1132 Bennet Chet 1421,1 Burns Saly 1409,4 Claim Dave 1129,3 Dull Rob 1409,1 Blok 1133 Fox John 1317,3 Greane David 1876,4 Green Mitch 1213,2 Greene Joe 1409,2 Blok 1212 Larry John 254 A3 Jetkins Paul 244 C3 White Susan 156 A1 Blok 1213 Hunter Leon 124 A3 Green Mitch 125 B1 Smith Ade 156 A3 Blok 1421 Blok 1127 Bennet Chet 101 B2 Hunter Leon 1213,1 Jetkins Paul 1212,2 Ringer John 144 C1 INSERT INTO user VALUES ( Burns, Saly,128, A1 ) Blok 1409 Dull Rob 128 B1 Greene Joe 142 A2 Port Joe 156 C3 Burns Saly 128 A1

312 Clustered index příklad kořen vnitřní blok indexu listová úroveň indexu klíč blok Blok 1001 Bennet Chet 1007 Karsen Kit 1306 Smith Ade 1062 Blok 1007 Bennet Chet 1132 Fox John 1133 Hunter Leon 1127 Blok 1306 Karsen Kit 1198 Larn Pard 1199 Peters Mary 1200 Blok 1132 Bennet Chet 101 B2 Burns Saly 128 A1 Claim Dave 123 A1 Blok 1133 Fox John 100 A0 Greane David 111 E3 Green Mitch 125 B1 Greene Joe 156 C3 Blok 1127 Hunter Leon 122 A3 Jetkins Paul 124 A5 INSERT INTO user VALUES ( Burns, Saly,128, A1 )

313 Přístupové metody za použití indexu o Nalezení jednotlivých řádků přístupem od kořene indexu o Nalezení skupiny řádků přístupem od kořene indexu a scanem nejnižší úrovně indexu o Scan nejnižší úrovně indexu o Scan dat vědomé nepoužití indexu

314 Data uložená po sloupcích o Vertica o SAP Sybase IQ o Oracle bitmapové indexy

315 Tabulka relační uložení dat ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH NUMBER VARCHAR2(50 BYTE) VARCHAR2(500 BYTE) NUMBER VARCHAR2(20 BYTE) NUMBER VARCHAR2(40 BYTE) NUMBER NUMBER NUMBER Struktura tabulky Datové bloky ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME ID NAME DESCRIPTION DESCRIPTION QTY COLOUR QTY COLOUR PRICE PRICE PROVIDER PROVIDER WIDTH WIDTH HEIGHT HEIGHT DEPTH DEPTH ID NAME ID NAME DESCRIPTION DESCRIPTION QTY COLOUR QTY COLOUR PRICE PRICE PROVIDER PROVIDER WIDTH WIDTH HEIGHT HEIGHT DEPTH DEPTH ID NAME ID NAME DESCRIPTION DESCRIPTION QTY COLOUR QTY COLOUR PRICE PRICE PROVIDER PROVIDER WIDTH WIDTH HEIGHT HEIGHT DEPTH DEPTH ID NAME ID NAME DESCRIPTION DESCRIPTION QTY COLOUR QTY COLOUR PRICE PRICE PROVIDER PROVIDER WIDTH WIDTH HEIGHT HEIGHT DEPTH DEPTH ID NAME ID NAME ID NAME DESCRIPTION DESCRIPTION DESCRIPTION QTY COLOUR QTY COLOUR QTY COLOUR PRICE PRICE PROVIDER PROVIDER PRICE PROVIDER WIDTH WIDTH WIDTH HEIGHT HEIGHT HEIGHT DEPTH DEPTH DEPTH ID NAME ID NAME DESCRIPTION DESCRIPTION QTY COLOUR QTY COLOUR PRICE PROVIDER PRICE PROVIDER WIDTH WIDTH HEIGHT HEIGHT DEPTH DEPTH ID NAME ID NAME DESCRIPTION DESCRIPTION QTY COLOUR QTY COLOUR PRICE PROVIDER PRICE PROVIDER WIDTH WIDTH HEIGHT HEIGHT DEPTH DEPTH ID NAME ID NAME DESCRIPTION DESCRIPTION QTY COLOUR QTY COLOUR PRICE PROVIDER PRICE PROVIDER WIDTH WIDTH HEIGHT HEIGHT DEPTH DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH

316 Tabulka data uložená po sloupcích ID NAME DESCRIPTION QTY COLOUR PRICE PROVIDER WIDTH HEIGHT DEPTH NUMBER VARCHAR2(50 BYTE) VARCHAR2(500 BYTE) NUMBER VARCHAR2(20 BYTE) NUMBER VARCHAR2(40 BYTE) NUMBER NUMBER NUMBER Struktura tabulky Datové bloky ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME ID NAME COLOUR ID NAME COLOUR ID NAME COLOUR ID NAME COLOUR ID NAME COLOUR ID NAME COLOUR ID NAME COLOUR ID NAME COLOUR ID NAME COLOUR ID NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR NAME COLOUR QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR COLOUR QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY QTY

317 Data uložená po sloupcích SELECT Count(*) FROM sale where color = Green SELECT Count(*) FROM sale where color in ( Green, Red )

318 Data uložená po sloupcích SELECT SUM(qty) FROM sale (2 * 64) + (3 * 32) + (2 * 16) + (1 * 8) + (3 * 4) + (2 * 2) + (3 * 1) = 283

319 Bitmapové indexy o Rychlé pro sloupce s malou kardinalitou o Rychlé pro operace na málo sloupcích o Složitý update Zamykání a rebuild velkých bloků o Pomalé pro dotaz na jeden konkrétní řádek

320 Metody ukládání bitmapových indexů o Samé nuly nebo jedničky Bloky se neukládají pouze indikátor jejich existence o Do 20% nul nebo jedniček Data se kódují jako souvislé množiny hodnot o Mezi 20% a 80% jedniček Ukládá se skutečná mapa hodnot

321 Typy sloupcových indexů o Mnoho různých typů Více indexů na jednom sloupci o Bitový index pro sloupce s malou kardinalitou o Bitový index pro sloupce s velkou kardinalitou a malou selektivností o Indexy pro sloupce s velkou kardinalitou G-Array (příbuzný B-tree) o Prosté komprimované uložení dat (pro textové řetězce) o Speciální indexy pro čas a datum o Indexy pro joiny, porovnání a další operace

322 Sybase IQ uložení dat a indexů Velikost databáze (GB) Indexy Sumace Čistá data Čistá data CBRD Tradiční RDBMS o Indexy jsou už data o Nízké náklady na uložení dat o Rychlé zpracování malého množství dat

323 OLAP technologie o Uložení a zpracování dat podporující určité druhy analýz parameterized static reporting slicing and dicing with drill down what if? analysis goal seeking models o Způsob uložení předpočítaných hodnot (denormalizace) Uložení agregovaných hodnot vyžadovaných analýzami podle zadaných Metrik Dimenzí Hierarchií na dimenzích

324 FASMI - Fast Analysis of Shared Multidimensional Information o Alternativní název pro OLAP reportingová prostředí o Fast Rychlá odezva, obvykle do jednotek sekund, maximálně několik desítek sekund Delší odezvy odrazují od analýzy, snižují zapojení uživatelů o Analytical Uživatelsky přívětivá schopnost analýz Nevyžaduje programování Podpora dostatečného množství funkcí a neprocedurálních modelů o Shared Podpora bezpečnosti až na úrovni buňky Read-write model o Mutlidimensional Podporuje multidimensionálního pohledu na data Star-, respektive snow-flake schéma Podpora více hierarchií o Information Schopnost zpracovat velké množství informací RAM a disk požadavky. Integrce s DWH

325 FASMI test BI platformy o Multidimensional Conceptual View o Intuitive Data Manipulation o Accessibility o Batch Extraction vs Interpretive o OLAP Analysis Models o Client Server Architecture o Transparency o Multi-User Support o Treatment of Non-Normalized Data o Storing OLAP Results o Extraction of Missing Values o Treatment of Missing Values o Flexible Reporting o Uniform Reporting Performance o Automatic Adjustment of Physical Level o Generic Dimensionality o Unlimited Dimensions & Aggregation Levels o Unrestricted Cross-dimensional Operations

326 Příklad o Metriky Počet prodaných knih Cena za prodané knihy o Dimenze Knihy Obchody Čas o Hierarchie Knihy Kniha typy knih vše Čas Den kalendářní měsíc kalendářní kvartál kalendářní rok celá historie Obchody Obchod hierarchická struktura podle ústředí vše

327 Příklad uložení

328 Multidimenzionální databáze o Nutné rozlišit Princip Práce s dimenzemi Práce s hierarchiemi Skutečný způsob uložení dat Relační model Speciální úložiště se speciálními indexy o Kategorizace dle místa uložení dat a agregací MOLAP veškerá data uložená v multidimenzionální databázi ROLAP veškerá data uložená v relační HOLAP hybrid o Další typy RTOLAP real time, data pouze v RAM DOLAP desktop OLAP, data uložená na klientském počítači

329 Příklady dodavatelů OLAP serverů o MS Analysis Services o IBM Cognos o Oracle OLAP option o Hyperion Essbase o Business Objects o MicroStrategy o SAS

330 Co si zapamatovat o Performance systému je často řešena denormalizací uložených dat o Základní typy denormalizace o Rozdíl mezi clustrovaným a neclustorvaným indexem, jejich výhody a nevýhody z pohledu DWH o Sloupcové uložení dat, výhody a nevýhody o Co to je OLAP výhody a nevýhody

331 Diskuse

332 Teradata basic UAI /14 RNDr. Ondřej Zýka,

333 Něco z historie o Založena v roce 1ř7ř v garáži v Kalifornii (Brentwood). o Teradata symbolizuje schopnost spravovat extrémní množství dat. o Primárně určena pro datové sklady a BI aplikace. o Založena na shared nothing architektuře umožňující lineární rozšiřitelnost. o V současnosti využívána v největších datových skladech V Česku KB, Česká pojišťovna, TO2,

334 Architektura Shared nothing Parsing engine (PE) BYNET AMP 1 AMP 2 AMP 3 AMP 4 RAM RAM RAM RAM

335 Komponenty o Parsing engine PE Parsuje a optimalizuje dotazy, předává požadavky jednotlivým AMPům o BYNET Komunikační kanál (duplikovaný) pro předávání požadavků a výsledků o AMP Access modul processor Zodpovědný za získání požadovaných dat z diskových úložišť o Diskový prostor Součet diskových prostorů všech AMPů

336 Fyzická architektura BYNET Node 1 with AMPs Node 2 with AMPs Node 3 with AMPs Node 4 with AMPs

337 Diskové prostory o Permanent space Limit na uživatele z limitu předchldce Data, indexy, fallback, Rovnoměrně distribuován na jednotlivé AMPy o Spool space Globální limit na uživatele Diskový prostor pro mezivýsledky Všechen nepřidělený prostor o Temp space Global temporary table

338 Přidělování diskového prostoru DBC 100 GB Celkem 1TB SYSDBA 300 GB INVENTORY 100 GB CUSTOMER 150 GB SALES 200 GB ORDERS 50 GB CAMPAIGN 100 GB

339 Distribuce dat o Distribuce dat založena na primárním indexu o Každý AMP má definovánu množinu hash hodnot primárního indexu o Další nástroje pro zrychlení přístupu k datům Secondary index Join index Statistics

340 Distribuce řádků tabulky Ano Ano Ano Ano Ne Ne Ne Ne

341 Indexy Primary index Secondary index Required Yes No Can be unique or nonunique Yes Yes Used for row distribution Yes No Create and drop dynamically No Yes Improve access Yes Yes Required separate physical strucure Required extra processing overhead No No Yes Yes

342 Podpora dostupnost o Transient Journal ídí transakce a rollback o Fallback Zabezpečení proti výpadku jednoho AMPu o Down AMP Journal Podpora zotavení AMPu při pádu

343 Fallback AMP 1 AMP 2 AMP 3 AMP 4 Fallback

344 Nástroje a služby o Nástroje správy odpovídají stáří databáze. o Systém primárně zaměřen na výkon. o Nemá vlastní nástroje na prezentaci a analýzu dat spolupracuje se všemi velkými hráči na trhu Microstrategy, Cognos, Oracle BI, SAP BusinessObject, Microsoft Reporting services.

345 Industriální logické modely o Teradata Communications Logical Data Model o Teradata Financial Services Logical Data Model o Teradata Healthcare Logical Data Model o Teradata Insurance Logical Data Model o Teradata Manufacturing Logical Data Model o Teradata Media Logical Data Model o Teradata Retail Logical Data Model o Teradata Transportation and Logistics Logical Data Model o Teradata Travel and Hospitality Industry Logical Data Model o Teradata Utilities Logical Data Model

346 Aplikace podle obchodních požadavků o Kumulovaná zkušenost ze stovek projektů datových skladů a projektů BI. o Obsah jednotlivých modelů: Více úrovní pohledu Konceptuální pohled, Funkční oblasti (Kontrakt, Účet, Kanál, Událost, Kampaň, Party, Produkt, ), Detailní logický model. Podrobný popis jednotlivých entit včetně atributů a relací, jejich význam a použití. Textový popis i modely.

347 Aplikace podle obchodních požadavků o Business Intelligence o Data Mart Consolidation o Master Data Management o Tax and Revenue Management o Customer Relationship Management o Data Mining and Analytics o Enterprise Risk Management o SAP Integration o Data Governance o Data Warehouse Migration o Financial Management

348 Co si zapamatovat o Jakou architekturu používá systém Teradata o Popište hlavní komponenty systému Teradata o Jaký je rozdíl mezi primárním klíčem a primárním indexem

349 Diskuse

350 Reporting UAI /14 RNDr. Ondřej Zýka,

351 Co to je report o Základní interface uživatelů k datům a informacím Tabulka Kontingenční tabulka Graf Pokročilá analýza

352 Vytvoření/úprava reportovacího prostředí o Zjistit uživatelé a jejich požadavky Typy Způsob použití Způsob doručení o Revize datové základna GAP analýza Metadata o Současně používané reporty o Popisy metriky a dimenzí Návrh datamartů Matadatové vrstvy, kostek o Definice grafických prvků o Návrh technologií o Proces vývoje a implementace o Proces správy reportovacího prostředí

353 Uživatelé o Uživatelské skupiny

354 Požadavky uživatelů o Uživatelé Množství uživatelů Uživatelské skupiny Operativní reporting Dashboardy Scorecards Analýzy Události o Srozumitelnost o Rychlost dodání Nového reportu Dat o Bezpečnost Přístup k datům Přístup k vytvořeným reportům Přístup k systému o Uložení reportů Repository Správa o Formáty o Způsoby doručení o Metadata Použití reportů Dostupnost reportů Popis informací Popis zdrojů reportu o Vývoj Vlastní reporty Konfiguace z předpřipravených komponent Metodiky Proces vývoje Technologie Testování o Různé zdroje dat

355 Revize datové základny o Dostupnost dat Datové zdroje Vlastníci a správci dat Popis dat o Nutnost přípravy agregovaných dat Datamarty OLAP kostky Agregované tabulky o Relační databáze Oracle, Teradata, MS SQL, Sybase, MySQL, Netezza, ODBC, o Dimenzionální zdroje Cognos OLAP, SAP BW, Microsoft analytic servises, EssBase, Oracle, o ERP systémy SAP, PeopleSoft, Siebel, o Moderní datové zdroje XML, Java Beans, JDBC, LDAP, WSDL, o Ostatní zdroje Excelu/Access bush, CSV soubory, textové soubory,

356 Současné reporty o Vlastníci Zodpovědnost za správnost Vlastník není uživatel o Definice Popis reportu na byznys a technické úrovni Může být součástí technologie (Cognos) Excel sheet není dostatečnou definicí Jednodušší je vývoj z nuly o Verze Existuje více verzí používaných lokálně Historické verze reprotu o Příklady Grafika Velikost dat Čitelnost a srozumitelnost

357 Hierarchie reportů o Od souhrnných reportů k detailním analýzám o Udržení jednotných faktů a dimenzí o Granularita odpovídající potřebám uživatelů o Podpora grafickými prvky a formátem

358 Hierarchie reportů

359 Metriky a dimenze o Definice na základě existujících metrik a dimenzí DWH Datamarty Metadata o Nově definované podle potřeb reportů Pro stabilní reporty nutno propojit na podnikové definice Může vést ke rozšíření DWH prostředí o nové zdroje Pra Ad-hoc analýzy nebývá potřeba (externí zdroje dat) o Metriky Granularita Předpočítané metriky o Dimenze Hierarchie Konformní a odvozené dimenze

360 Technologie o Nejrozšířenější Microsoft Excel (Microsoft BI řešení) o Zavedení dodavatelé SAP Business Object Microstrategy IBM Cognos SAS institute Oracle Business Intelligence Discoverer o Inovátoři QlikTech (QlikView) GoodData o Opensource Tableau JasperSoft

361 Gartner Magic Quadrant for Business Intelligence Platforms

362 Technologie o Ověřená škálovatelnost do named uživatelů o Plugin do portálů o Tisíce reportů o Plně publikované webové rozhraní SDK o Jednotná metadatová vrstva pro všechny typy reportů o Dodávka a export reportů o Podpora vývoje a verzování

363 Architektura o Místo uložení dat o Místo uložení definic a metamodelu (Univerza) o Místo výpočtu reportů a mezivýsledků o Datový server o Reporting server Dedikovaný server Uložení v databázi u dat o Klient Tlustý klient Webový klient Excell o Přenosové pásmo Data Reporting server Reporting server Klient Data Klient o Uložení výsledků Na serveru Na klientovi

364 Grafické prvky o Jednotný vzhled o Grafický manuál o Stejné a stejně umístěné ovládací prvky Nadpisy Stránkování Drill-down, Drill-up Stejný layout obdobných reportů Stejné grafické prvky a barevné škály

365 Grafické prvky o Záhlaví o Tabulka Schvalování (ve dnech) Období Min. 95 Perc. Median SLA 2011/ / / / / / / / / / / / /

366 Grafické prvky Executive Dashboard Utilizovaná kapacita - Trend účinnost ů NAO Celková kapacita Utilizovaná kapacita Nevyužitá kapacita v % 25.0% 20.0% 15.0% 10.0% 5.0% 0.0% 100.0% Kvadrant Sigma x Účinnost procesů NAO (MTD) o Trend o Porovnání Účinnost procesu (v %) 90.0% 80.0% 70.0% 60.0% Administration Documentation Approving Administration (Follow Sign.) Draw-Down 50.0% 40.0% Úroveň Sigma (σ) Objem nákladů

367 Scorecarding o Dodává informace pochopitelné na první pohled. Místo podrobných reportů několik málo charakteristik odpovídající kritickým oblastem výkonnosti organizace. o Vypovídá o plnění strategie a dosahování cílů vždy plán versus cíle. Shrnuje důležité informace, klíčové drivery, výkonnostní očekávání a dosažené výsledky. o Zvyšují zodpovědnost poskytují uživatelům informace potřebné pro řízení vlastní výkonnosti, úspěšnosti použitých strategií a měření úspěchu. Alerty při výkyvech. o Metriky ukazují závislost výkonu oddělení na ostatních částech podniku, podporuje spolupráci. o Umožňuje metodologii Balanced Scorecard

368 Dashboard o Jednotný pohled spojující všechny informace. o Nepřetržitě refrešované pohledy na reálná data vypovídající o aktuálních procesech. o Propojení na reporty s podrobnou informací. o Spojení dat z různých oblastí obchod, marketing, finance, HR, logistika, distribuce do jednotného obrazu spojujícího všechny oddělení. o Vypovídající grafika 2D, 3D grafy, mapy, animace o Předpřipravené, nevyžadují uživatelská modifikace nebo zadávání parametrů.

369 Dashboard Navigation: Executive Dashboard Core Process Dashboard NAO Process Sec. Loans Applications Process Dashboard Admin. of Sec. Loans Applications Period: February 2012 February 2012 More... More... Comments More... More... Generating time: 2012/02/20 10:12 Page 1 of 1 Data confidence: Limited use Data provided by: Operations

370 Proces vývoje reportu 1. Určení vlastníka Kdo odpovídá za definici Kdo bude testovat dodávku Kdo bude platit vývoj 2. Důvod vzniku Jaký proces podpoří Pro jaké rozhodnutí je nutný Kdo bude report používat 3. Definice obsahu Data Fakta Dimenze Granularita 4. Ověření existence reportu Nepoužívá někdo už takový report? Nepoužívá někdo obdobný report, který by šel upravit? Odpovídají definice termínům používaným v jiných reportech? Neshromažďuje již někdo požadované informace? Nepočítá už někdo požadovaná čísla? Co z již hotového je možné použít?

371 Proces vývoje reportu 5. Definice reportu Grafika Report automatization Filtry Hierarchie Uživatelsky definované parametry Způsob dodání reportu Plánování výpočtů 6. Příprava dat Nalezení dat v systémech Konsolidace dat Konsolidace v jednom úložišti (DWH) Definice dat Integrace dat ETL procesy Agregace dat a plán výpočtů 7. Vytvoření reportu Vytvoření potřebných artefaktů v reportovacích nástrojích

372 Proces vývoje reportu 8. Technologický test Schopnost dodat data v požadovaných frekvencích a časech Schopnost zpracovat data (všechna data) Schopnost vygenerovat report Schopnost dodat report uživatelům 9. Test dat a informací Dává report správné výsledky? Jsou výsledky srozumitelné uživatelům? Má report odpovídající vypovídací schopnost? 10. Dokumentace Doplnění metadat Zanesení reportu do Report katalogu Vývojová dokumentace Uživatelská dokumentace Administrátorská dokumentace 11. Nasazení do produkce Dodávka na produkční prostředí Akceptační testy Data, procesy, všechny artefakty Informace uživatelů Školení uživatelů

373 Procesy správy reportovacího prostředí o Nastavování přístupových práv o Sledování výkonnosti o Sledování používání reportů o Odstraňování starých výsledků o Incident management o Zálohování prostředí

374 Co si zapamatovat o Struktura reportovacího systému a jeho vazba na organizační strukturu o Základní typy reportů o Požadavky uživatelů o Komponenty reportovacího prostředí o Grafický manuál a jeho složky o Proces vývoje reportu

375 Diskuse

376 Data Mining UAI /14 RNDr. Ondřej Zýka,

377 Data Mining o Mnoho názvů pro to samé Data mining Knowledge discovery in databases Data exploration Advance analyses o Data mining je především Predikční a analytický nástroj, který se na základě historických dat snaží o hledání hlubších souvislostí (a jejich promítnutí do budoucnosti). Funguje na úrovni jednotlivých objektů. Typické otázky, na které Data mining umí odpovědět: Kteří klienti pravděpodobně uzavřou pojištění v příštích 6 měsících? Jaká je charakteristika klientů, kteří pojištění pravděpodobně uzavřou?

378 Data mining o Data mining je proces počítačového zpracování (velkého) objemu dat a vyhledání netriviálních, neznámých závislostí v datech. o Proces data miningu se skládá z několika kroků a středem procesu je tvorba modelu dat a jeho použití. Model je zde černá krabička, která na vstupu přijímá vstupní data a z nich model vypočítá odpověď (výstup). Před použitím musíme nastavit vnitřní parametry modelu. Tomuto procesu se říká učení. K učení potřebujeme trénovací data dvojice vstupní data a odpovídající výstup a snažíme se změnit vnitřní parametry modelu, tak aby model dával správné výstupy. Model se pokusí naučit vše co mu předložíme v průběhu trénování -> je potřeba pečlivě vybírat trénovací množinu!

379 Data mining proces Porozu ění problematice Definování hypotéz Porozu ění dat Dostupnost a obsah Příprava dat For át, integrace Dodávka řešení Data Vý ěr odelů Modelování Vyhodnocování výsledků

380 Model o Základní pojem Data Miningu o Na základě vstupních hodnot Historická data Vzorek dat Předzpracovaní data o Odvozuje Parametry Algoritmy o Výstupní hodnoty Charakterizace Atributy Model Vstupy Výstupy

381 Typy modelů o Analytický srozumitelný model o Vysvětlitelný postup a způsob získání výsledků Vstupy Výstupy o Učící se konstrukce umělé inteligence o Těžko vysvětlitelný postup získání výstupů Vstupy Black box Výstupy

382 Metody Data Miningu o Mnoho různých metod Potřeba znalosti jejich možností a vhodnosti Nestačí znalost analytického nástroje Nutnost vazby na kontext o Typy analýz Klasifikace Regrese Predikce Shlukování Hledání anomalit Text Mining o Další metody Rozhodovací stromy Klasifikační pravidla Asociační pravidla

383 Klasifikace o Zařazení objektu do některé z předem známých kategorií. o Pro každou kategorii je potřeba dostatek příkladů (objektů). Zůstane zákazník u naší společnosti i za 6 měsíců? Nebo uvažuje o změně? Jaká je diagnóza pacienta? Jedná se v této pojistné události o podvod? Zareaguje klient na reklamní nabídku? Bude klient splácet půjčku nebo ne?

384 Regrese o Přiřazení spojité hodnoty objektu. o Na rozdíl od klasifikace se snažím odhadnout přesnou hodnotu spojité veličiny. (Lineární regrese) Predikce ceny zboží na burze. Predikce přenesených dat v síti, zítra dopoledne. Odhad stáří stáří jedince v okamžiku smrti z kosterních pozůstatků. Jakou mám dát slevu, pokud poprvé prodávám zboží malé firmě do Německa a mám dva konkurenty.

385 Shlukování o Seskupování objektů do skupin podle vzájemné podobnosti. o Nepotřebuji znát dopředu, které objekty patří dohromady (to metody zjistí samy), ale potřebuji být schopen určit jejich podobnost. Nalezení skupin podobných zákazníků. Tyto skupiny pak pravděpodobně budou chovat podobně. Potvrzení, že v datech jsou odlišitelné skupiny (a další data miningové metody, například klasifikace, mohou uspět).

386 Další metody data miningu o Výběr důležitých vlastností nalezení parametrů, které mají velký vliv na finální rozhodnutí (u klasifikace a regrese). Mají opravdu všechny sledované parametry stejný vliv na výsledek? Musíme se všemi zabývat? Podobnost s korelací. Má fakt, že prší, vliv na objem dat přenesený po síti? o Asociační pravidla a časté množiny objekty, které se často vyskytují dohromady. hledání zboží, které zákazníci často nakupují společně. Stránky, které návštěvníci webu prohlížejí v jednom sezení. o Pokud zákazník koupí dětské plenky, je 70% pravděpodobnost, že koupí i pivo.

387 Další metody data miningu (2) o Hledání anomalit hledání objektů, které se svými parametry vymykají průměru. Zákazník se chová výrazně jinak, než ostatní zákazníci. Po přihlášení do systému zákazník provedl jiné akce, než dělá obvykle (spustil jiné akce, přihlásil se z neobvyklé IP adresy,...) o Textmining získávání znalostí z volného textu. Primárně skupina metod, jak převést volný text do formy vhodné pro data mining (například pro shlukování / klasifikaci). Například automatické třídění elektronické pošty podle textu zprávy. Vyhledávání zmínek o společnosti v internetových diskusích a klasifikace, jestli je zmínka pozitivní nebo negativní.

388 Vizualizace o Vizualizace zobrazování dat v různých pohledech, obarvení. Vizualizační techniky jsou důležitou součástí analýzy dat a inspekce výsledků data miningu.

389 Rizika o Informace potřebné k správnému závěru (predikci) nejsou v datech přítomné. Lékař, který rozhoduje o léčbě citem a zkušenostmi, než podle přesných výsledků testů. Data z internetového bankovnictví nestačí k identifikaci neobvyklých transakcí. o Málo příkladů a protipříkladů pro jednotlivé třídy. Naprostá většina zaměstnanců pracuje poctivě a (odhalených) podvodníků je minimum. (Málo příkladů podvodníků pro tvorbu modelu podvodníka ). o Snaha o predikci mimo oblast dat použitých k vytvoření modelu. Snaha předpovědět cenu produktu pro region, kam jsem ještě nikdy nic neprodal. o Špatné pochopení business problému (špatné zadání).

390 Shrnutí o Mnoho metod znalost problematiky velmi pomáhá Výsledky se dají získat i z anonymizovaných dat, interpretace je složitější o Často jsou dostatečné jednoduché řešení o Většina algoritmů je už naprogramována složité je rozhodnout jak je využít jak interpretovat výsledky o Historická data jsou nutná

391 Příklady

392 Zneužití přístupových údajů do internetového bankovnictví o Klienti banky mají možnost využívat internetového bankovnictví. Klienti pro autorizaci používají přístupové údaje (jméno, heslo). o Otázka: nezneužil někdo přístupové údaje? o Předpoklad pro úspěšnou detekci klient má jeden/několik vzorů chování, které opakuje. například sekce, které v internetovém bankovnictví navštěvuje, místa, ze kterých se přihlašuje. o Předpoklad na data: dostatečně dlouhá historie přístupů klienta, tak aby bylo možné najít často prováděné akce. o Přístup hledání anomálií. o Výsledkem je množina podezřelých přístupů. Podezřelý neznamená automaticky podvodný, ale zvláštní a potřeba prověřit, co se děje. Klient odjel na dovolenou a potřebuje zaplatit inkaso.

393 Doporučování obsahu o Obchodník chce zjistit, které položky zákazníci nakupují společně. o Podle aktuálního obsahu nákupního košíku, nalézt zboží (službu), kterou by mohl zákazník také chtít. Internetový obchod nabízející zboží. U každé zobrazené položky zobrazuje další zboží, které zákazníci v minulosti nakoupili se zobrazenou položkou. o Předpoklad: zákazníci nakupují stále stejné kombinace zboží (služeb). o Předpoklad na data: historie zakoupených položek. o Přístup časté množiny a asociační pravidla. o Výsledkem je pak množiny zboží, které zákazníci nakupují dohromady. Mohu zákazníkovi přímo nabízet zboží, o které by mohl také mohl koupit. Informace o se také dá využít v marketingu (například zlevnit jeden druh zboží a výšit tak prodej spojeného druhu zboží). o Amazon.com o Tesco

394 Vyhledávání klientů, kteří chtějí odejít o Telefonní operátor chce identifikovat klienty, kteří chtějí odejít. o Klasifikace na klienty, kteří v horizontu 3 měsíců: chtějí odejít a chtějí zůstat. o Předpoklad: klienti, kteří chtějí přejít k jinému operátorovi změní před odchodem své návyky a vzor se před odchodem opakuje (například začínají méně volat, posílat méně SMS). o Předpoklad na data: máme historické záznamy o klientech, kteří již odešli a také o těch, kteří zůstali (pro tvorbu modelu). Dále potřebujeme historii současný klientů pro hledání klientů, kteří chtějí odejít. o Přístup klasifikace. o Výsledkem je seznam klientů, kteří by mohli v budoucnu odejít. Těmto může operátor například nabídnout slevu nebo speciální tarif, aby si je udržel.

395 Porovnání modelů pro churn

396 Churn rozložení segmentace Vysoké útraty Nízké útraty Přeplatek Přes tarif Aktivní V rá ci tarifu Konzervativní

Správa dat v podniku. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Správa dat v podniku. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Správa dat v podniku MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Obsah o Důležité oblasti pro správu, uchovávání a využívání dat v podniku Něco z historie Řízení dat na úrovni podniku Data

Více

Integrace dat. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Integrace dat. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Integrace dat MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Požadavky o Očekává se, že integrace nebude jenom spojením systémů, ale že přinese i přidanou hodnotu. o Změny se provádějí pouze

Více

Správa dat v podniku. RNDr. Ondřej Zýka

Správa dat v podniku. RNDr. Ondřej Zýka Správa dat v podniku RNDr. Ondřej Zýka 1 Obsah Důležité oblasti pro správu, uchovávání a využívání dat v podniku Něco z historie Řízení dat na úrovni podniku Data management a kategorizace dat Datová kvalita

Více

Metadata. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Metadata. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Metadata MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Co to jsou metadata Chybějící metadata Doplněná metadata Co o metadatech říkají autority Řízení metadata je nepochybně nejdůležitější

Více

Metadata. RNDr. Ondřej Zýka

Metadata. RNDr. Ondřej Zýka Metadata RNDr. Ondřej Zýka 1 Metadata Jedna z kompetencí Data managementu Cíle kompetence: Zajistit jednotné porozumění a užití termínů Provázat informace na různých úrovních (byznys, aplikační, technické)

Více

Integrace dat. RNDr. Ondřej Zýka

Integrace dat. RNDr. Ondřej Zýka Integrace dat RNDr. Ondřej Zýka 1 Obsah Kategorizace integračních přístupů Kroky integrace a řešení problematických stavů Master Data Management 2 2 Datová integrace Synchronní Akceptovaný požadavek na

Více

Integrace dat. RNDr. Ondřej Zýka

Integrace dat. RNDr. Ondřej Zýka Integrace dat RNDr. Ondřej Zýka 1 Obsah Kategorizace integračních přístupů Kroky integrace a řešení problematických stavů Master Data Management 2 2 Datová integrace Synchronní Akceptovaný požadavek na

Více

Správa dat v podniku. UAI635 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu

Správa dat v podniku. UAI635 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Správa dat v podniku UAI635 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Obsah o Důležité oblasti pro správu, uchovávání a využívání dat v podniku Něco z historie Řízení dat na úrovni podniku Data

Více

Datová kvalita. RNDr. Ondřej Zýka

Datová kvalita. RNDr. Ondřej Zýka Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích

Více

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit Datová kvalita základ úspěšného BI RNDr. Ondřej Zýka, Profinit 1.6.2012 Datová exploze Snižování nákladů o Zdvojnásobení objemu podnikových dat každé dva roky o Konkurenční tlak o Ekonomická krize o V

Více

Datová kvalita. RNDr. Ondřej Zýka

Datová kvalita. RNDr. Ondřej Zýka Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích

Více

Obsah Úvod 11 Jak být úspěšný Základy IT

Obsah Úvod 11 Jak být úspěšný Základy IT Obsah Úvod 11 Jak být úspěšný 13 Krok 0: Než začneme 13 Krok 1: Vybrat si dobře placenou oblast 14 Krok 2: Vytvořit si plán osobního rozvoje 15 Krok 3: Naplnit osobní rozvoj 16 Krok 4: Osvojit si důležité

Více

Databáze v praxi. RNDr. Ondřej Zýka Principal Consultant

Databáze v praxi. RNDr. Ondřej Zýka Principal Consultant Databáze v praxi RNDr. Ondřej Zýka Principal Consultant Agenda Obsah Představení Teradata Teradata Databáze Doménové logické modely MS SQL Server Databáze Podpora BI Aktuální směry ve vývoji databází Profinit

Více

Business Intelligence. Adam Trčka

Business Intelligence. Adam Trčka Business Intelligence Adam Trčka 09:00 11:30: BI v kostce Navrhněme si sklad Ukázka BI Datamining 12:30 14:30: Pokračování kurzu 14:30 15:00: Q&A Agenda Co se dnes dovíme? Data informace znalost Business

Více

Information and Data Management. RNDr. Ondřej Zýka

Information and Data Management. RNDr. Ondřej Zýka Information and Data Management RNDr. Ondřej Zýka 1 Informační a datový management Disciplína zaměřená na správu informací (z mnoha zdrojů) a spřístupnění informací různým typům uživatelů podle jejich

Více

Podnikové informační systémy Jan Smolík

Podnikové informační systémy Jan Smolík Podnikové informační systémy Jan Smolík Zobecněné schéma aplikační architektury Vlastníci, management Aplikační architektura podnikové informatiky Business Intelligence, manažerské aplikace Obchodní partneři

Více

Integrace podnikových Open Source aplikací v praxi. RNDr. Petr Novák, Open Source Conference Praha, 19. duben 2011

Integrace podnikových Open Source aplikací v praxi. RNDr. Petr Novák, Open Source Conference Praha, 19. duben 2011 Integrace podnikových Open Source aplikací v praxi RNDr. Petr Novák, Open Source Conference Praha, 19. duben 2011 Partneři řešení Business Systems, a.s. www.bsys.cz MULTIMAGE, s.r.o. www.multimageweb.com

Více

<Insert Picture Here> Hyperion a vazba na reportovací nástroje

<Insert Picture Here> Hyperion a vazba na reportovací nástroje Hyperion a vazba na reportovací nástroje Martin Grof Senior Konzultant, Oracle Czech Agenda Enterprise Performance management Představení funkčních oblastí realizace úspor Priority

Více

Srovnání SQL serverů. Škálovatelnost a výkon. Express Workgroup Standard Enterprise Poznámky. Počet CPU 1 2 4 bez limitu Obsahuje podporu

Srovnání SQL serverů. Škálovatelnost a výkon. Express Workgroup Standard Enterprise Poznámky. Počet CPU 1 2 4 bez limitu Obsahuje podporu Srovnání SQL serverů Škálovatelnost a výkon Počet CPU 1 2 4 bez limitu Obsahuje podporu RAM 1 GB 3 GB bez limitu bez limitu vícejádrových (multicore) procesorů 64-bit podpora Windows on Windows (WOW) WOW

Více

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

Příloha č.2 - Technická specifikace předmětu veřejné zakázky Příloha č.2 - Technická specifikace předmětu veřejné zakázky Popis stávajícího řešení u zadavatele Česká centra (dále jen ČC ) provozují 8 fyzických serverů, připojené k local storage. Servery jsou rozděleny

Více

Přehled systému Microsoft SQL Server. Komu je kniha určena Struktura knihy Nejvhodnější výchozí bod pro čtení knihy Konvence a struktura knihy

Přehled systému Microsoft SQL Server. Komu je kniha určena Struktura knihy Nejvhodnější výchozí bod pro čtení knihy Konvence a struktura knihy Komu je kniha určena Struktura knihy Nejvhodnější výchozí bod pro čtení knihy Konvence a struktura knihy Konvence Další prvky Požadavky na systém Ukázkové databáze Ukázky kódu Použití ukázek kódu Další

Více

KIV/SI. Rozílová témata. Jan Valdman, Ph.D. jvaldman@dns.cz

KIV/SI. Rozílová témata. Jan Valdman, Ph.D. jvaldman@dns.cz KIV/SI Rozílová témata Jan Valdman, Ph.D. jvaldman@dns.cz 13.6.2011 Integrace Datová vrsta Přesouvání informací mezi DB Databová pumpa, SQL procedura... Problém: pouze relační integrita, záruka za aplikaci

Více

DATABÁZOVÉ SYSTÉMY. Vladimíra Zádová, KIN, EF TUL - DBS

DATABÁZOVÉ SYSTÉMY. Vladimíra Zádová, KIN, EF TUL - DBS DATABÁZOVÉ SYSTÉMY Současné aplikace IS/ICT Informační systémy a databázové systémy Databázová technologie Informační systémy Aplikační architektura Vlastníci, management Business Intelligence, manažerské

Více

Řízení ICT služeb na bázi katalogu služeb

Řízení ICT služeb na bázi katalogu služeb Řízení ICT služeb na bázi katalogu služeb Jiří Voř katedra IT, IT, VŠE vorisek@vse.cz nb.vse.cz/~vorisek 1 Služby fenomén současné etapy rozvoje společnosti 2 Vlastnosti služeb služby se od produktů liší

Více

IBM Information Management

IBM Information Management IBM Information Management Martin Pavlík 1 Information On Demand Unlocking the Business Value of Information for Competitive Advantage Customer & Product Profitability Financial Risk Insight Workforce

Více

Tabulka Nabídková cena za předmět plnění *uchazeč vyplní cenu za celý kurz nebo cenu za 1 účastníka dle zadávací dokumentace a nabídky uchazeče

Tabulka Nabídková cena za předmět plnění *uchazeč vyplní cenu za celý kurz nebo cenu za 1 účastníka dle zadávací dokumentace a nabídky uchazeče Příloha č. 3 k č.j. : MV-145067-6/VZ-2013 Počet listů: 12 Tabulka Nabídková cena za předmět plnění *uchazeč vyplní cenu za celý nebo cenu za 1 dle zadávací dokumentace a nabídky uchazeče Část 1 pro administrátory

Více

Architektura DBMS. RNDr. Ondřej Zýka

Architektura DBMS. RNDr. Ondřej Zýka Architektura DBMS RNDr. Ondřej Zýka 1 Historie Relační model Edgar Frank Codd 1969 - Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks Relační model matematický model pro

Více

1.1. Správa a provozní podpora APV ROS, HW ROS a základního SW

1.1. Správa a provozní podpora APV ROS, HW ROS a základního SW Příloha č. 4 - Specifikace a informace o předmětu veřejné zakázky Předmětem veřejné zakázky je řízení projektu, správa a údržba programového vybavení pro informační systém Základní Registr osob (dále rovněž

Více

Trendy v budování datových center v roce 2016. Praha, 7.4.2016

Trendy v budování datových center v roce 2016. Praha, 7.4.2016 Trendy v budování datových center v roce 2016 Praha, 7.4.2016 Analytici a GAPP System Čtyři pohledy na datové centrum Infrastruktura Provoz Byznys Bezpečnost Datové centrum Čtyři pohledy na datové centrum

Více

CPM/BI a jeho návaznost na podnikové informační systémy. Martin Závodný

CPM/BI a jeho návaznost na podnikové informační systémy. Martin Závodný CPM/BI a jeho návaznost na podnikové informační systémy Martin Závodný Agenda Význam CPM/BI Aplikace CPM/BI Projekty CPM/BI Kritické body CPM/BI projektů Trendy v oblasti CPM/BI Diskuse Manažerské rozhodování

Více

Katalog služeb a podmínky poskytování provozu

Katalog služeb a podmínky poskytování provozu Příloha č. 1 Servisní smlouvy Katalog služeb a podmínky poskytování provozu Část P2_1 P2_1_Katalog služeb a podmínky poskytování provozu 1 Obsah 1 OBSAH... 2 2 DEFINICE POJMŮ... 3 3 DEFINICE SLUŽEB, KOMPONENT

Více

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU Systém pro správu experimentálních dat a metadat Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU BioWes Systém pro správu experimentálních dat a meta Hlavní cíl Vytvoření systému usnadňujícího

Více

Architektura DBMS. RNDr. Ondřej Zýka

Architektura DBMS. RNDr. Ondřej Zýka Architektura DBMS RNDr. Ondřej Zýka 1 Obsah Cíle DBMS Zdroje DBMS Limity DBMS Paralelní architektury Životní cyklus uživatelského požadavku Implementace procesů Příklady architektury 2 Cíle DBMS DBMS Data

Více

Databázové systémy trocha teorie

Databázové systémy trocha teorie Databázové systémy trocha teorie Základní pojmy Historie vývoje zpracování dat: 50. Léta vše v programu nevýhody poměrně jasné Aplikace1 alg.1 Aplikace2 alg.2 typy1 data1 typy2 data2 vytvoření systémů

Více

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek Databáze datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek 980103 Jan Novak Dlouha 5 Praha 1 9945371 100.00 100.00 980105 Jan Novak Dlouha 5 Praha 1 9945371 1500.00 1600.00 980106

Více

Nová dimenze rozhodovacího procesu

Nová dimenze rozhodovacího procesu Nová dimenze rozhodovacího procesu Marek Matoušek Pavel Mašek Data, nebo INFORMACE Využití dostupných firemních dat Několik systémů, mnoho různých dat Různé divize, různé potřeby Potřeba integrace dat

Více

IBM Connections pro firmy s Lotus Notes/Domino. Petr Kunc

IBM Connections pro firmy s Lotus Notes/Domino. Petr Kunc IBM Connections pro firmy s Lotus Notes/Domino Petr Kunc 42 % MANAŽERŮ SE ROZHODNE ŠPATNĚ ALESPOŇ JEDNOU TÝDNĚ 19 HODIN TÝDNĚ STRÁVÍME HLEDÁNÍM SPRÁVNÝCH INFORMACÍ 59 % ZAMĚSTNANCŮ NEMÁ VŠECHNA POTŘEBNÁ

Více

Business Intelligence

Business Intelligence Business Intelligence Josef Mlnařík ISSS Hradec Králové 7.4.2008 Obsah Co je Oracle Business Intelligence? Definice, Od dat k informacím, Nástroj pro operativní řízení, Integrace informací, Jednotná platforma

Více

Správa a sledování SOA systémů v Oracle SOA Suite

Správa a sledování SOA systémů v Oracle SOA Suite Správa a sledování SOA systémů v Oracle SOA Suite Marek Rychlý Vysoké učení technické v Brně Fakulta informačních technologií Ústav informačních systémů Přednáška pro IOA 7. října 2014 Marek Rychlý Správa

Více

Univerzita pro obchodní partnery 10.03.2011. InfoSphere Guardium. Jan Musil jan_musil@cz.ibm.com. 2009 IBM Corporation

Univerzita pro obchodní partnery 10.03.2011. InfoSphere Guardium. Jan Musil jan_musil@cz.ibm.com. 2009 IBM Corporation Univerzita pro obchodní partnery 10.03.2011 InfoSphere Guardium Jan Musil jan_musil@cz.ibm.com Obsah prezentace Co je to InfoSpere Guardium a co poskytuje Přehled norem a jejich požadavků na databázovou

Více

VYUŽITÍ REGIONÁLNÍCH FUNKCÍ A WWW ROZHRANÍ V INTEGROVANÉM KNIHOVNÍM SYSTÉMU KPWINSQL

VYUŽITÍ REGIONÁLNÍCH FUNKCÍ A WWW ROZHRANÍ V INTEGROVANÉM KNIHOVNÍM SYSTÉMU KPWINSQL VYUŽITÍ REGIONÁLNÍCH FUNKCÍ A WWW ROZHRANÍ V INTEGROVANÉM KNIHOVNÍM SYSTÉMU KPWINSQL Petr Štefan Václav Trunec, KP-sys, Čacké 155, Pardubice 1 Úvod Firma KP-SYS spol. s r. o. dodává na náš trh integrované

Více

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček Aplikace IS, outsourcing, systémová integrace Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Kontext Dodavatelé Strategická Zákazníci Taktická Operativní Kategorie ERP - zaměřeno na řízení

Více

FINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ

FINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ FINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ Ing. Milan Bartoš Capgemini Sophia s.r.o. member of the Capgemini Group Abstrakt Cílem článku je představit teoreticky

Více

Řízení správy rolí v rozsáhlých organizacích. Michal Opatřil Corinex Group

Řízení správy rolí v rozsáhlých organizacích. Michal Opatřil Corinex Group Řízení správy rolí v rozsáhlých organizacích Michal Opatřil Corinex Group Agenda Popis typické situace v rozsáhlých organizacích Řešení Identity Lifecycle Management Úrovně vyspělosti integrace ILM Požadavky

Více

Diagnostika webových aplikací v Azure

Diagnostika webových aplikací v Azure Miroslav Holec Software Engineer Microsoft MVP: Microsoft Azure MCSD, MCSA, MSP Lead miroslavholec.cz @miroslavholec Diagnostika webových aplikací v Azure 18. 03. 10. 03. Brno Diagnostic tools in Microsoft

Více

Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB. Návrh realizace řešení

Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB. Návrh realizace řešení Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB Návrh realizace řešení Tento dokument obsahuje informace důvěrného charakteru a informace v něm obsažené jsou vlastnictvím České národní banky. Žádná část

Více

Infor Performance management. Jakub Urbášek

Infor Performance management. Jakub Urbášek Infor Performance management Jakub Urbášek Agenda prezentace Stručně o produktu Infor PM 10 Komponenty Infor PM - PM OLAP a PM Office Plus Reporting Analýza Plánování / operativní plánování Infor Performance

Více

Michal Hroch Server Product Manager Microsoft Česká republika

Michal Hroch Server Product Manager Microsoft Česká republika Michal Hroch Server Product Manager Microsoft Česká republika Proč by vás Platforma měla vůbec zajímat? záruka spolehlivosti potenciál pro nové příležitosti Performance Point server 6 Point of Sale Retail

Více

Globální architektura ROS

Globální architektura ROS Verze: 1.1 Obsah: 1. Vymezení cílů dokumentu... 4 2. Pojmy a zkratky... 5 3. Procesní architektura...10 3.1. Upřesnění struktury dokumentu:...10 3.2. Postup tvorby a použité metodiky...10 3.3. Základní

Více

IBM Tivoli Storage Manager 6.2 a IBM Tivoli Storage Manager FastBack 6.1.1

IBM Tivoli Storage Manager 6.2 a IBM Tivoli Storage Manager FastBack 6.1.1 IBM Tivoli Storage Manager 6.2 a IBM Tivoli Storage Manager FastBack 6.1.1 Reporting a Monitoring Ondřej Bláha CEE+R CoP Team / Tivoli Storage Team Leader Září 2010 2010 IBM Corporation TSM 6: Reporting

Více

Nasazení CA Role & Compliance Manager

Nasazení CA Role & Compliance Manager Nasazení CA Role & Compliance Manager Michal Opatřil Junior Solution Architect Agenda Popis typické situace v rozsáhlých organizacích Řešení Identity Lifecycle Management Úrovně vyspělosti integrace ILM

Více

Využití identity managementu v prostředí veřejné správy

Využití identity managementu v prostředí veřejné správy Využití identity managementu v prostředí veřejné správy Tomáš Král Account Technology Strategist, Public Sector Microsoft ČR Realita dneška: Rostoucí počet provozovaných či používaných, často heterogenních

Více

Statistica, kdo je kdo?

Statistica, kdo je kdo? Statistica, kdo je kdo? Newsletter Statistica ACADEMY Téma: Typy instalací Typ článku: Teorie Někteří z vás používají univerzitní licence, někteří síťové, podnikové atd. V tomto článku Vám představíme,

Více

Databázové systémy I. 1. přednáška

Databázové systémy I. 1. přednáška Databázové systémy I. 1. přednáška Vyučující a cvičení St 13:00 15:50 Q09 Pavel Turčínek St 16:00 18:50 Q09 Oldřich Faldík Čt 10:00 12:50 Q09 Jan Turčínek Pá 7:00 9:50 Q08 Pavel Turčínek Pá 10:00 12:50

Více

Architektura DBMS. RNDr. Ondřej Zýka

Architektura DBMS. RNDr. Ondřej Zýka Architektura DBMS RNDr. Ondřej Zýka 1 Historie Relační model Edgar Frank Codd 1969 - Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks Relační model matematický model pro

Více

Performance Management What if?

Performance Management What if? Performance Management What if? Ondřej Bothe, IT Specialist ondrej_bothe@cz.ibm.com Agenda: Koncept PM s What if nástroji Ukázka tvorby What if modelu (Ukázka pokročilejší What if aplikace) Performance

Více

Mgr. Jan Folbrecht Senior softwarový inženýr, softwarový architekt, manažer

Mgr. Jan Folbrecht Senior softwarový inženýr, softwarový architekt, manažer Mgr. Jan Folbrecht Senior softwarový inženýr, softwarový architekt, manažer SPECIALIZACE Konzultace a školení v oblastech softwarového inženýrství Zavádění vývojových metodik do projektů a vývojových týmů

Více

ATOS Důvěryhodné úložiště pro státní správu

ATOS Důvěryhodné úložiště pro státní správu ATOS Důvěryhodné úložiště pro státní správu Michal Drábik, Jiří Rogalewicz Atos IT Solutions and Services Obsah prezentace Představení společnosti Atos Elektronické dokumenty a co s nimi? Možnosti ukládání

Více

Výuka integrovaných IS firem a institucí na vysokých školách (zkušenosti, nové příležitosti, omezení)

Výuka integrovaných IS firem a institucí na vysokých školách (zkušenosti, nové příležitosti, omezení) Výuka integrovaných IS firem a institucí na vysokých školách (zkušenosti, nové příležitosti, omezení) Milena Tvrdíková Katedra aplikované informatiky Ekonomická fakulta VŠB Technická univerzita Ostrava

Více

Reporting a Monitoring

Reporting a Monitoring Reporting a Monitoring IBM Tivoli Storage Manager 6.3 a IBM Tivoli Storage Manager FastBack 6.1.5 Ondřej Bláha CEE+R CoP Team / Tivoli Storage Team Leader 2010 IBM Corporation Administrátorské rozhraní

Více

Microsoft Office 2003 Souhrnný technický dokument white paper

Microsoft Office 2003 Souhrnný technický dokument white paper Microsoft Office 2003 Souhrnný technický dokument white paper Přehled inteligentních klientských aplikací založených na sadě Microsoft Office 2003 System Publikováno: Duben 2003 Shrnutí: Inteligentní klienti

Více

Bc. David Gešvindr MSP MCSA MCTS MCITP MCPD

Bc. David Gešvindr MSP MCSA MCTS MCITP MCPD Bc. David Gešvindr MSP MCSA MCTS MCITP MCPD 1. Příprava k instalaci SQL Serveru 2. Instalace SQL Serveru 3. Základní konfigurace SQL Serveru Vychází ze Sybase SQL Server Verze Rok Název Codename 7.0 1998

Více

Komponentní technologie

Komponentní technologie Komponentní technologie doc. Ing. Miroslav Beneš, Ph.D. katedra informatiky FEI VŠB-TUO A-1007 / 597 324 213 http://www.cs.vsb.cz/benes Miroslav.Benes@vsb.cz Obsah Motivace Aplikace v IT Vývoj přístupů

Více

DOPLNĚK. Projekt Informační systém základních registrů je spolufinancován Evropskou unií z Evropského fondu pro regionální rozvoj.

DOPLNĚK. Projekt Informační systém základních registrů je spolufinancován Evropskou unií z Evropského fondu pro regionální rozvoj. GLOBÁLNÍ ARCHITEKTURA ZÁKLADNÍCH REGISTRŮ DOPLNĚK Projekt Informační systém základních registrů je spolufinancován Evropskou unií z Evropského fondu pro regionální rozvoj. Obsah 1 Cíle dokumentu...3 2

Více

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales 2. 2. 2011

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales 2. 2. 2011 Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales 2. 2. 2011 Klíčovéatributy Enterprise Information Infrastructure Spolehlivost Obchodní data jsou stále kritičtější,

Více

Řešení Quest pro správu Windows Martin Malý, ředitel divize Solutio

Řešení Quest pro správu Windows Martin Malý, ředitel divize Solutio Řešení Quest pro správu Windows Martin Malý, ředitel divize Solutio 1 Kdo jsme Servodata ICT Solutions European Distribution Company Servodata působí na IT trhu v oblasti EMEA již od roku 1991, centrála

Více

Kvalitní data kvalitní agendy

Kvalitní data kvalitní agendy Kvalitní data kvalitní agendy Kvalita dat a její zajišťování v agendových systémech veřejné správy Připraveno pro konferenci ISSS 2010 Ing. Jiří Vácha Hradec Králové, 13.4.2010 Adastra Group Agenda Základní

Více

jaromir.slesinger@ca.com

jaromir.slesinger@ca.com Jarom jaromir.slesinger@ca.com Source: IDC Server Virtualization MCS 2007, 2008, 2009; IDC Datacenter and Cloud Survey 2010 Rostou nároky na rychlost technologických inovací s cílem: 2 Virtualizace hnací

Více

IBA CZ průmyslový partner FI MU

IBA CZ průmyslový partner FI MU IBA CZ průmyslový partner FI MU Petr Adámek O společnosti IBA Group IBA Group selected for Global Services 100 in the categories: TOP 5 TO WATCH IN CENTRAL AND EASTERN EUROPE rating 2. IBA založena v roce

Více

X33EJA Web Services. Martin Ptáček, KOMIX s.r.o.

X33EJA Web Services. Martin Ptáček, KOMIX s.r.o. X33EJA Web Services Martin Ptáček, KOMIX s.r.o. ptacek@komix.cz Copyright 2007 KOMIX Copyright s.r.o. 2007 KOMIX s.r.o. 1. Obsah Historie Co jsou Web Services? Co je to SOA? JAX-WS (Java API for XML Web

Více

SOA a Cloud Computing

SOA a Cloud Computing 9.11.2011 Marriott hotel Praha SOA a Cloud Computing Jaroslav Novotný IT Architekt 1 Copyright 2011, Oracle and/or its affiliates. All rights SOA a Cloud Computing 2 Copyright 2011, Oracle and/or its affiliates.

Více

Datový sklad. Datový sklad

Datový sklad. Datový sklad Datový sklad Postavení v rámci IS/ICT Specifika návrhu Modelování Datový sklad POSTAVENÍ NÁVRH Postavení datového skladu (DW) v IS/ICT z hlediska aplikací jako součást Business Intelligence z hlediska

Více

PostgreSQL jako platforma pro datové sklady

PostgreSQL jako platforma pro datové sklady PostgreSQL jako platforma pro datové sklady Vratislav Beneš benes@optisolutions.cz 1. Co to jsou datové sklady? 2. Požadavky na datový sklady 3. Technické řešení datového skladu 4. PostgreSQL a datové

Více

ISSS 2016. Národní architektura ehealth

ISSS 2016. Národní architektura ehealth ISSS 2016 Národní architektura ehealth Ing. Ji í Borej, CGEIT Koordinátor Národní strategie elektronického zdravotnictví Ministerstvo zdravotnictví České republiky Hradec Králové 4. dubna 2016 Agenda 1.

Více

Korporátní identita - nejcennější aktivum

Korporátní identita - nejcennější aktivum Korporátní identita - nejcennější aktivum Luděk Šafář Services Team Leader lsafar@novell.cz 03/13/2006 Standardní prostředí IT prostředí je diverzifikované a komplexní Administrativní činnosti jsou manuální

Více

ARBES ECM MODERNÍ SYSTÉM. určený k digitalizaci, tvorbě, správě, sdílení a archivaci dokumentů a obsahu. www.arbes.com

ARBES ECM MODERNÍ SYSTÉM. určený k digitalizaci, tvorbě, správě, sdílení a archivaci dokumentů a obsahu. www.arbes.com ARBES ECM MODERNÍ SYSTÉM určený k digitalizaci, tvorbě, správě, sdílení a archivaci dokumentů a obsahu. www.arbes.com ARBES ECM ENTERPRISE CONTENT MANAGEMENT Poskytujeme služby v oblasti zavádění a rozvoje

Více

1 Služby SAP Business Transformation and Plan Services Služby SAP Business Transformation and Plan Services aktuálně zahrnují:

1 Služby SAP Business Transformation and Plan Services Služby SAP Business Transformation and Plan Services aktuálně zahrnují: Popis služeb Služby Business Transformation and Plan Services Služby SAP Business Transformation and Plan Services poskytují služby poradenství a prototypování k podpoře inovace a transformace Zákazníka

Více

Development and Test Cloud

Development and Test Cloud Development and Test Cloud Petr Leština, Igor Hegner 2.2.2011 Agenda Co je IBM Development and Test Cloud Proč uvažovat a Development and Test cloudu? Co v této oblasti IBM nabízí: IBM CloudBurst Smart

Více

plá a role OHA I g. O dřej Feli CSc, Digitál í ša pio ČR Hla í ar hitekt )R, MVČR I g. Petr Ku hař ředitel od oru Hla ího architekta eg, MVČR

plá a role OHA I g. O dřej Feli CSc, Digitál í ša pio ČR Hla í ar hitekt )R, MVČR I g. Petr Ku hař ředitel od oru Hla ího architekta eg, MVČR Národ í ar hitekto i ký plá a role OHA I g. O dřej Feli CSc, Digitál í ša pio ČR Hla í ar hitekt )R, MVČR I g. Petr Ku hař ředitel od oru Hla ího architekta eg, MVČR Proč NAP a o je íle Národ í ar hitekto

Více

POLOPROVOZ ZNALOSTNÍ DATABÁZE INTERPI DOKUMENTACE

POLOPROVOZ ZNALOSTNÍ DATABÁZE INTERPI DOKUMENTACE POLOPROVOZ ZNALOSTNÍ DATABÁZE INTERPI DOKUMENTACE INTERPI Interoperabilita v paměťových institucích Program aplikovaného výzkumu a vývoje národní kulturní identity (NAKI) (DF11P01OVV023) Zpracovali: Marie

Více

Zabezpečení platformy SOA. Michal Opatřil Corinex Group

Zabezpečení platformy SOA. Michal Opatřil Corinex Group Zabezpečení platformy Michal Opatřil Corinex Group Agenda Současný přístup k bezpečnosti Požadavky zákazníků CA Security Manager Architektura Klíčové vlastnosti Proč CA Security Manager CA 2 Security Manager

Více

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Aplikace IS, outsourcing, systémová integrace Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Kontext Dodavatelé Strategická Zákazníci ERP Taktická Operativní Kategorie ERP - zaměřeno na

Více

Obsah. Úvod 11. Kapitola 1 P ehled sledování výkonu 15

Obsah. Úvod 11. Kapitola 1 P ehled sledování výkonu 15 Stru ný obsah Úvod 11 Kapitola 1: P ehled sledování výkonu 15 Kapitola 2: Nástroje pro sledování výkonu 123 Kapitola 3: M ení výkonu serveru 227 Kapitola 4: Postupy p i sledování výkonu 299 Kapitola 5:

Více

Řešení datové kvality prostřednictvím Master Data Managementu v prostředí České pošty s.p.

Řešení datové kvality prostřednictvím Master Data Managementu v prostředí České pošty s.p. Řešení datové kvality prostřednictvím Master Data Managementu v prostředí České pošty s.p. Ing. Jiří Barták Vedoucí odboru BI SAS Roadshows 2017 Ovládejte a chraňte svá data v době digitální transformace

Více

Hlava v oblacích s nohama na zemi

Hlava v oblacích s nohama na zemi smooth business flow Hlava v oblacích s nohama na zemi con4pas, a.s. Novodvorská 1010/14A, 140 00 Praha 4 tel.: +420 261 393 211, fax: +420 261 393 212 www.con4pas.cz SAP Cloud for Customer 2 Mapa řešení

Více

MYBIZ - Řešení pro zpřístupnění dat ze stávajících aplikací na mobilních zařízeních (Mobilize your business!) Požadavky zákazníka.

MYBIZ - Řešení pro zpřístupnění dat ze stávajících aplikací na mobilních zařízeních (Mobilize your business!) Požadavky zákazníka. MYBIZ - Řešení pro zpřístupnění dat ze stávajících aplikací na mobilních zařízeních (Mobilize your business!) IT SYSTEMS a.s. Mnoho společností má implementovány aplikace, které byly vyvíjeny (případně

Více

Telekomunikační sítě Protokolové modely

Telekomunikační sítě Protokolové modely Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava Telekomunikační sítě Protokolové modely Datum: 14.2.2012 Autor: Ing. Petr Machník, Ph.D. Kontakt: petr.machnik@vsb.cz Předmět: Telekomunikační sítě

Více

Historie a současnost datových skladů GE Money ČR

Historie a současnost datových skladů GE Money ČR Historie a současnost datových skladů GE Money ČR Ing. Vladimír Klement GE Money ČR IDC Business Intelligence Roadshow 2007 30. 10. 2007 Agenda Může v dnešní době fungovat finanční instituce bez BI? Vývoj

Více

Od klasického reportingu k SAP BO Design studio na BW power by HANA Pavel Strnad

Od klasického reportingu k SAP BO Design studio na BW power by HANA Pavel Strnad Od klasického reportingu k SAP BO Design studio na BW power by HANA Pavel Strnad CIO PIA5 NSC Prague Obsah Představení firmy Migrace BW to HANA BI architektura ve Wincor Nixdorf Migrační varianty z BW

Více

Technická specifikace předmětu plnění:

Technická specifikace předmětu plnění: Technická specifikace předmětu plnění: Poskytnutí standardní služby Premier Support zahrnující konzultační a implementační podporu, řešení problémů u produktů v nepřetržitém režimu 24x7 v rámci aktuálního

Více

Důvěryhodná dlouhodobá a garantovaná archivace (požadavky z pohledu legislativy).

Důvěryhodná dlouhodobá a garantovaná archivace (požadavky z pohledu legislativy). Důvěryhodná dlouhodobá a garantovaná archivace (požadavky z pohledu legislativy). Ján Ilavský, Solutions Architect Atos IT Solutions and Services, s.r.o. Vznik Atos Roční tržby ve výši 8,7 miliard za 2011

Více

Brno. 30. května 2014

Brno. 30. května 2014 Brno 30. května 2014 IBM regionální zástupci - Morava Lubomír Korbel Dagmar Krejčíková phone: +420 737 264 440 phone: +420 737 264 334 e-mail: lubomir_korbel@cz.ibm.com e-mail: dagmar_krejcikova@cz.ibm.com

Více

Databázové systémy. Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz

Databázové systémy. Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz Databázové systémy Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz Vývoj databázových systémů Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace 60.-70. léta Program Komunikace Výpočty

Více

TM1 vs Planning & Reporting

TM1 vs Planning & Reporting R TM1 vs Planning & Reporting AUDITOVATELNOST? ZABEZPEČENÍ? SDÍLENÍ? KONSOLIDACE? PROPOJITELNOST???? TM1?? COGNOS PLANNING IBM COGNOS 8 PLANNING Cognos Planning Podpora plánovacího cyklu Jednoduchá tvorba

Více

Příloha č. 1 Servisní smlouvy. Katalog služeb. S2_P1_Katalog služeb

Příloha č. 1 Servisní smlouvy. Katalog služeb. S2_P1_Katalog služeb Příloha č. 1 Servisní smlouvy Katalog služeb S2_P1_Katalog služeb 1 Obsah 1 OBSAH... 2 2 DEFINICE SLUŽEB... 3 3 SPECIFIKACE SLUŽEB... 6 3.1 SLUŽBA PS01_PROVOZ A SPRÁVA... 6 3.2 SLUŽBA PS02_ZÁLOHA A OBNOVA...

Více

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Aplikace IS, outsourcing, systémová integrace Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Kontext Dodavatelé Strategická Zákazníci ERP Taktická Operativní Kategorie ERP - zaměřeno na

Více

PROGRAMÁTOR ANALYTIK. Náplň práce:

PROGRAMÁTOR ANALYTIK. Náplň práce: PROGRAMÁTOR ANALYTIK práce na projektu aplikačního vývoje nad databází Oracle, omezeně i na správě existujících platforem Informatica Power Centre a Sybase ASE analýza, programování a údržba vnitřních

Více

AdventureWorksDW2014 SQL Server Data Tools Multidimenziona lnı model Tabula rnı model Multidimenziona lnı mo d Tabula rnı mo d MS SQL Server 2016 Tabula rnı mo d Azure Analysis Services 16 3.2 Dimenzionální

Více

Kentico CMS. Hledáte rychlý, snadný a efektivní způsob jak si vytvořit firemní web? Dál už hledat nemusíte. Snadné použití pro marketéry

Kentico CMS. Hledáte rychlý, snadný a efektivní způsob jak si vytvořit firemní web? Dál už hledat nemusíte. Snadné použití pro marketéry Hledáte rychlý, snadný a efektivní způsob jak si vytvořit firemní web? Dál už hledat nemusíte. Snadné použití pro marketéry Kvalitní a nepřetržitá globální podpora Flexibilní nástroj pro vývojáře Kentico

Více