10. Datové sklady (Data Warehouses) Datový sklad



Podobné dokumenty
3 zdroje dat. Relační databáze EIS OLAP

Ing. Roman Danel, Ph.D. 2010

kapitola 2 Datové sklady, OLAP

Základní informace o co se jedná a k čemu to slouží

Základy business intelligence. Jaroslav Šmarda


Databáze Bc. Veronika Tomsová

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Distanční opora předmětu: Databázové systémy Tématický blok č. 3: OLAP, operátory CUBE a ROLLUP Autor: RNDr. Jan Lánský, Ph.D.

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Databázové systémy. 10. přednáška

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Datový sklad. Datový sklad

Datové sklady. Ing. Jan Přichystal, Ph.D. 1. listopadu PEF MZLU v Brně

Jak velká jsou? Obchodní analytici FB velké datové sady BI = business intelligence. OLAP = Online Analytical Processing. DWH = Data Warehouse

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky DIPLOMOVÁ PRÁCE

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Analýza a modelování dat. Přednáška 8

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Business Intelligence

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Analýza a modelování dat. Přednáška 9

Informační systémy 2006/2007

Data Warehouses. Jaroslav Bayer 1. Fakulta informatiky Masarykova univerzita

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

4IT218 Databáze. 4IT218 Databáze

Infor Performance management. Jakub Urbášek

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Dotazovací jazyky I. Datová krychle. Soběslav Benda

MIS. Manažerský informační systém. pro. Ekonomický informační systém EIS JASU CS. Dodavatel: MÚZO Praha s.r.o. Politických vězňů Praha 1

Datové sklady. Multidimenzionální modelování Modely datového skladu Návrh datového skladu v rámci návrhu IS/ICT. Vladimíra Zádová, KIN, EF, TUL

NÁSTROJE BUSINESS INTELLIGENCE

Dobývání dat z databází. Dagmar Létavková

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Konceptuální modely datového skladu

Business Intelligence. Adam Trčka

PV005 Služby počítačových sítí: Data Warehouses

Operátory ROLLUP a CUBE

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Pattern Datový sklad. RNDr. Ondřej Zýka

Multidimenzionální modelování v rámci analýzy a návrhu IS/ICT

Geografické informační systémy p. 1

Podnikové informační systémy Jan Smolík

KAPITOLA 2. Architektura, modelování a implementace Business Intelligence procesů v SQL Serveru V této kapitole:

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

POKROČILÉ POUŽITÍ DATABÁZÍ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Analýza dat skoro zadarmo možnosti rozborů pro malé organizace

Návrh datového skladu z hlediska zdrojů

INFORMAČNÍ SYSTÉM VIDIUM A VYUŽITÍ MODERNÍCH TECHNOLOGIÍ

Datové sklady ve školství

DATOVÉ SKLADY A OLAP V PROSTŘEDÍ MS SQL SERVERU

Základy databází. O autorech 17 PRVNÍ ČÁST. KAPITOLA 1 Začínáme 19

Modelování a návrh datových skladů

T T. Think Together Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

STÁTNÍ POKLADNA. Integrovaný informační systém Státní pokladny (IISSP)

Stručný obsah. K2118.indd :15:27

Business Intelligence

Možnosti analýzy podnikových dat

Datové tržiště nákladní přepravy

KIV/SI. Přednáška č.8. Jan Valdman, Ph.D.

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Advanced SQL Modeling in RDBMS - SQL Spreadsheet part1. Your Organization (Line #1)

Geografické informační systémy ArcGIS Pavel Juška (jus011) 4. března 2010, Ostrava

Datové sklady a možnosti analýzy a reportování dat ve výuce

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ DATABÁZOVÉ SYSTÉMY ARCHITEKTURA DATABÁZOVÝCH SYSTÉMŮ. Ing. Lukáš OTTE, Ph.D.

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

Analýza a modelování dat 5. přednáška. Helena Palovská

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

Importy dat z relační databáze do OLAP datových kostek

Autor. Potřeba aplikací sdílet a udržovat informace o službách, uživatelích nebo jiných objektech

On line analytical processing (OLAP) databáze v praxi

NÁVRH APLIKACE BUSINESS INTELLIGENCE PRO SPOLEČNOST BREX S. R. O.

František Ščuglík. Datové sklady a Technologie OLAP pro dolování dat

Hvězda - multidimenziální datová struktura v praxi. Jiří Horák

Business Intelligence

MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY DIPLOMOVÁ PRÁCE. Manažerské systémy pro střední a menší firmy

Ukládání a archivace dat

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

QAD Business Intelligence

Databáze v MS ACCESS

Systémy pro podporu rozhodování. Datové sklady, OLAP

MBI - technologická realizace modelu

Databázové a informační systémy

Katedra informačních technologií

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Získávání znalostí z databází. Alois Kužela

Koncept architektury reportovacích a datově analytických systémů

Business Intelligence a datové sklady

Disková pole (RAID) 1

PHOTO-ON Profesionální on-line správa fotografií

Transkript:

10. Datové sklady (Data Warehouses) Datový sklad komplexní data uložená ve struktuře, která umožňuje efektivní analýzu a dotazování data čerpána z primárních informačních systémů a dalších zdrojů OLAP (on-line analytical processing) pružné (rychlé) zpracování dotazů a analýz Vrstvy: spodní - server skladu, na kterém jsou uloženy relační databáze (datový sklad) prostřední (aplikační) relační OLAP (ROLAP) - převádí operace nad multidimenzionálními daty na standardní relační operace nebo multidimensionální OLAP (MOLAP) umí přímo pracovat s multidimenzionálními daty a operacemi vrchní vrchní - obsahuje nástroje pro provádění dotazů a vytváření zpráv, analýzy a/nebo data miningové nástroje (analýzy trendu, predikce, apod.) Systém datového hospodaření lze rozdělit na dvě základní části: OLAP určen výhradně ke čtení dat pro potřeby nejrůznějších analýz 1

výjimkou jsou (obvykle periodické) aktualizace datového skladu, tj. přidávání nových datových agregátů či odstraňování již neaktuálních datových agregátů, které probíhají obvykle periodicky každý týden, měsíc, atp. OLTP (on-line transaction processing) klasické databázové systémy uchovávají záznamy o jednotlivých uskutečněných (typicky obchodních) transakcích a jsou obvykle realizovány pomocí dnes nejběžnější relační databázové technologie data periodicky agregována (typicky sumarizována) a poté ukládána do datového skladu, nad nímž se posléze podle potřeb provádí okamžité zpracování analýz pomocí vrstvy OLAP Plnění datového skladu ETL (extraction-transformation- load): 1) extrahování z primárních datových zdrojů 2) transformace (převod dat získaných z jednotlivých datových zdrojů do unifikovaného datového modelu, nad nímž je možné vytvářet agregace) 3) uložení dat do datového skladu shrnutí: znak OLTP OLAP charakteristika provozní zpracování informační zpracování orientace transakční analytická uživatel funkce úředník, databázový administrátor každodenní operace znalostní pracovník (manažer, analytik) dlouhodobé informační požadavky, podpora rozhodování návrh databáze entitně-relační základ, aplikačně orientovaný hvězda/sněžná vločka, věcná orientace data současná, zaručeně aktuální historická sumarizace dat základní, vysoce detailní shrnutá, kompaktní náhled detailní shrnutý, multidimensionální jednotky práce krátké, jednoduché transakce komplexní dotazy přístup číst a zapisovat většinou pouze číst zaměření vkládání dat získávání informací počet dostupných záznamů desítky miliony počet uživatelů tisíce stovky velikost databáze 100 MB až GB 100 GB až TB přednosti vysoký výkon, vysoká vysoká flexibilita, nezávislost přístupnost koncového uživatele míry hodnocení propustnost transakcí propustnost dotazů a doba odezvy Typy datových skladů: Podnikový sklad (enterprice warehouse) sbírá všechny informace o subjektech, které obklopují celou organizaci provádí integraci celopodnikových dat pocházejících obvykle z jednoho nebo více provozních systémů nebo od externího poskytovatele informací 2

obvykle obsahují detailní i sumarizované údaje velikost od několika gigabyte až po stovky terabyte vyžadují rozsáhlé modelování a jejich návrh a vytvoření může trvat několik let Datová tržiště (data mart) obsahuje pouze podmnožinu celopodnikových dat, která je určená pro specifickou skupinu uživatelů nezávislé (získávají data z provozních systémů nebo z externích informačních zdrojů) závislé (data jsou jim dodávána z podnikového datového skladu) jejich tvorba se pohybuje v řádu týdnů Virtuální sklad (virtual warehouse) sada náhledů na provozní databáze pro efektivnější provádění dotazů jsou některé náhledy na sumarizace provedeny před vznikem vlastního požadavku a uloženy virtuální sklad je snadné vytvořit, ale vyžaduje dodatečné kapacity na provozních serverech Uložení dat v OLAP systémech: Vedle relačních OLAP systémů (ROLAP), se prosazuje tzv. multidimensionální databázová technologie (MOLAP). V praxi se často používá výhod obou přístupů (HOLAP hybrid OLAP), kdy základní technologií datového skladu je relační technologie a jisté často zpřístupňované výseky tohoto datového skladu (tzv. data marts) jsou duplicitně uloženy v datových krychlích implementovaných jako multidimensionální databáze, které poskytují řádově rychlejší časové odezvy než základní relační struktura. MOLAP multidimensionální způsob uložení dat s vysokým výkonem data ukládána na OLAP server poskytuje nejlepší výkon ve fázi dotazování (analýzy) vhodný pro malé až středně velké objemy dat, kdy kopírování všech dat do multidimensionálního formátu nevyžaduje výrazně dlouhou dobu nebo nespotřebovává příliš mnoho diskového prostoru ROLAP data zůstávají v původních relačních databázích oddělená sada relačních tabulek je použita k uložení agregací vhodný pro rozsáhlé databáze nebo na stará data, která nejsou často analyzována HOLAP slučuje prvky z předešlých dvou přístupů ponechává původní data v relačních tabulkách, ale ukládá agregace v multidimensionálním formátu poskytuje propojení mezi rozsáhlými objemy dat v relačních tabulkách a zároveň nabízí výhodu rychlejšího výkonu multidimensionálně uložených agregací Základní operace v OLAP systémech: Drill-down umožňuje uživateli ve zvolených instancích jisté agregační úrovně nastavit nižší (jemnější) agregační úroveň Roll-up jde o opak předešlé operace. Ve zvolených instancích jisté agregační úrovně nastavuje vyšší (hrubší) agregační úroveň. 3

Pivoting umožňuje otáčet datovou krychlí, tj. měnit úhel pohledu na data na úrovni presentace obsahu datového skladu. Slicing dovoluje provádět řezy datovou kostkou, tj. nalézt pohled, v němž je jedna dimenze fixována v jistých instancích jisté agregační úrovně. Jinými slovy tato dimenze aplikuje filtr na instance příslušné agregační úrovně dané dimenze. Dicing je obdobou slicingu, jenž umožňuje nastavit takový filtr pro více dimenzí. Datové kostky: Dimenze kostky reprezentují rozdílné kategorie pro analýzu dat. Kategorie jako například čas, geografické umístění nebo různé výrobkové řady jsou typickými dimenzemi v datových kostkách. Dimenze jsou obvykle uspořádány do hierarchií tak, že mapují sloupce v relačních databázích. Hierarchie dimenzí jsou seskupovány do úrovní obsahujících hodnoty dané dimenze. Každá úroveň v dimenzi může být sumarizována, aby vytvořila hodnoty pro vyšší úroveň. Např. v dimenzi času sumarizací hodnot v úrovni den získáme hodnoty pro vyšší úroveň měsíc. Míry jsou kvantitativní hodnoty v databázi, které mají být analyzovány. Typickými mírami bývají prodeje, náklady a rozpočty. Míry jsou analyzovány oproti různým kategoriím dimenzí datové kostky. Např. analýza prodejů (míra) určitého výrobku (dimenze) v různých zemích (konkrétní úroveň dimenze geografická poloha) během dvou určitých roků (úroveň dimenze čas). Tato datová kostka reprezentuje data ve třech dimenzích. A to dimenze Umístění, Času a Položky. Aktuálně zobrazenou úrovní dimenze Času je úroveň Měsíc. U Umístění je to Město a u Položky Druh zboží. Mírou tohoto zobrazení jsou Prodané kusy (v tisících). Potom např. hodnota 12 udává, že v Praze v měsíci Březnu bylo prodáno 12 000 kusů Rohlíků. 4

Uložení dat v multidimenzionálních databázích: Star (hvězda) hvězdicové schéma se skládá z rozsáhlé centrální tabulky s hodnotami (tzv. tabulka faktů) a řadou malých doprovodných tabulek pro každou dimenzi každá dimenze reprezentována právě jednou tabulkou každá tabulka obsahuje několik atributů Snowflake (sněhová vločka) určitý druh hvězdicového schéma tabulky dimenzí normalizovány, čímž se data rozdělují do dalších tabulek nutno provádět více spojení tabulek, aby mohly být provedeny potřebné dotazy, což může snížit efektivitu analýzy dat méně používané než schéma hvězdy Fast Constellation (galaxie nebo souhvězdí) více tabulek faktů, aby mohly aplikace sdílet tabulky dimenzí soubor hvězd Shrnutí některé důležité pojmy: datový sklad OLAP systémy datové kostky Zdrojová literatura: HORÁK, Jiří, HORÁKOVÁ, Bronislava. Datové sklady a využití datové struktury typu hvězda pro prostorová data. GIS Ostrava 2007 [online]. 2007. Dostupný z WWW: <http://gis.vsb.cz/gis_ostrava/gis_ova_2007/sbornik/referaty/sekce3/hvezdaf4.pdf>. VÍTEK. Data Warehousing. Solutions [online]. 2002. Dostupný z WWW: <http://datamining.xf.cz/view.php?cisloclanku=2002102808>. 5

Řešte: 1. Které ze schémat uložení dat neexistuje? a)star b)moon c)snowflake 2. Co představuje spodní vrstvu datového skladu? a) OLAP b) nástroje pro provádění dotazů c)server skladu 3. Jaké znáte typy datových skladů? Pokuste se je i charakterizovat. 4. Pokuste se stručně popsat proces plnění datového skladu ETL. 5. Datové kostky jsou? Pokuste se stručně vysvětlit. 6