Zdroje dat
3 zdroje dat Relační databáze EIS OLAP
Relační databáze plochá dvourozměrná tabulková data OLTP (Online Transaction Processing) operace selekce projekce spojení průnik, sjednocení, rozdíl dotazování SQL QBE
EIS Executive Information Systems první pokus o přiblížení dotazování manažerům snadné ovládání přívětivé prostředí výběr z množiny předdefinovaných dotazů málo flexibilní MIS manažerské informační systémy
Úloha MIS Model chování systému MIS/EIS Požadují se : - trendy - souvislosti - struktury - what-if - flexibilita Model stavu systému Transakční systémy - operační data Požaduje se: - rychlost odezvy - kapacita - integrita dat - konsistence dat
OLAP Online Analytical Processing rychlost flexibilita intuitivní ovládání vizualizace grafické rozhraní
OLAP (F. Codd) multidimenzionální koncept ukládání i manipulace s daty intuitivní manipulace s daty práce s daty z heterogenních zdrojů použití analytických metod statistické metody what-if analýzy architektura klient-server podpora víceuživatelských pohledů ukládání výsledků i mimo zdrojová data dynamická manipulace s řídkými maticemi zpracování chybějících hodnot neomezený počet dimenzí a agregačních úrovní
Technologické rozdíly OLTP dostat data dovnitř relační databáze velké objemy statických transakcí statické aplikace data s plynule mění OLAP dostat informace ven datové sklady malý počet komplexních dotazů dynamické aplikace informace jsou zmraženy
Koncepční rozdíly OLTP automatizace rutiny každodenní činnosti cílem je výkonnost poháněné technologií OLAP možnost kreativity dlouhodobé strategie, podpora rozhodování cílem je konkurenční výhoda poháněné obchodními potřebami
Datový sklad (Data Warehouse) Externí data Datový sklad Externí data Datová pumpa zásobování výroba ekonomika odbyt
Datový sklad univerzální úložiště všech potenciálně užitečných dat - konsistentní informace potřebné pro taktické a strategické rozhodování data organizována předmětně (náklady, prodeje apod.) datová tržiště vybrané dimenze a fakta (předzpracovaná data pro určitou tematickou oblast) u každého záznamu je uchována informace o čase, kdy byl do datového skladu přidán (sledování historie záznamů) změny v databázi (aktualizace) probíhají dávkově (Batch Processing - nejčastěji v noci) analytické dotazy nad datovým skladem probíhá v reálném čase (OLAP)
Vlastnosti DW Dostupnost Aktuálnost Odezva Čistota (kvalita) dat ETL (extraction, transformation, loading) - základní komponenta DW sběr dat z různých zdrojů čištění (konsolidace) uložení dat do databáze DW
Základ OLAP datová krychle (dat cube) - multidimenzionální Transakční databáze uživatelské řezy (slices) výběry
Základní operace OLAP analýzy Drill-down nastavení nižší (jemnější) agregační úrovně - navigace v hierarchii dimenzí směrem k většímu detailu. Roll-up opak drill-downu nastavení vyšší (hrubší) agregační úrovně - menší detail v hierarchii dimenzí Pivoting otáčení datovou krychlí změna úhlu pohledu na data na úrovni presentace obsahu datového skladu. Slicing řezy datovou kostkou pohled, kdy je jedna dimenze fixována v jisté instanci určité agregační úrovně - aplikace filtru na instance příslušné agregační úrovně dané dimenze. Dicing obdoba slicingu filtr pro více dimenzí.
REGION sever jih východ Analýza segmentů trhu PRODEJCI Hračky Hry Stavebnice Dealeři E-shop Maloobchod OBOR
S01 S02 S03 Analýza nákladů STŘEDISKO ČAS NÁKLADOVÝ DRUH Materiál Mzdy Energie DH12 H123 S007 VÝROBEK
OLAP krychle OLAP krychle Čas Řez krychlí OLAP aplikace (Excel) Kč (data) Druh účtu Org. jednotka
OLAP dimenze Rok Přímé náklady Výrobek Měsíc Náklady na materiál Výrobna
Vlastnosti dimenzí Hierarchie Granularita Sdílení Proměnlivost
Vlastnosti dimenzí Hierarchie dimenze katedra, fakulta, univerzita, vysoké školy stavba, závod, divize, celá společnost. Granularita dimenze základní úroveň detailu dat nejnižší úrovni detailu u všech dimenzí (objem dat x míra detailů dat) Sdílené dimenze společné pro všechna čas, organizační jednotka, produkt, zákazník Proměnlivost dimenze atributy dimenze se mohou v čase měnit komplikace historických přehledy (sledování trendů) ukládání dvojích hodnot (staré a nové)
Příklady dimenzí u aplikace prodeje Čas (rok, měsíc, případně den v roce či den v měsíci) Stav (prognóza, plán skutečnost) Útvar (dle konkrétního organizačního uspořádání) Zákazník (obchodní zástupce, významný zákazník, přímý odběratel apod.) Segment trhu (státní sektor, soukromý sektor, bytová výstavba apod.) Produkt/zakázka (typ, provedení apod.) Teritorium (Evropa, ČR, kraj apod.) Nákladový druh (materiál, mzdy, cestovné,provize a pod.) a další dle konkrétních požadavků obchodníků
Příklady fakt u aplikace prodeje Objem tržeb Náklady Zisk Počet zákazníků Z hodnot fakt a jejich dimenzí pak systém tvoří ukazatele
MOLAP, ROLAP MOLAP multidimenzionální OLAP pro středně velké statistické aplikace nevhodné pro dynamické aplikace požadující informace z pravidelně aktualizovaných dat ROLAP relační OLAP vhodný pro rozsáhlé aplikace využívající transakční data schémata hvězda (star) vločka (snowflake)
Příklad prodeje 3 dimenze prodejna produkt čas dimenze prodejen obchod okres region dimenze produktů výrobek značka výrobce dimenze času datum měsíc čtvrtletí rok
Schéma hvězdy 1 centrální tabulka faktů obsahující primární klíč a detailní data tabulka faktů dimenze prodejna Id_prodejna data_prodejny město Id_okres data o okresu Id_regionu data o regionu úroveň dimenze produkt Id_produkt data o produktu značka výrobce úroveň Id_prodejna Id_produkt Id_období cena množství dimenze čas Id_období data o období rok čtvrtletí měsíc den
Schéma vločky normalizované tabulky dimenzí, každá ukazuje na odpovídající agregovanou tabulku faktů dimenze prodejna Id_prodejna data_prodejny město Id_okres data o okresu Id_regionu data o regionu úroveň Id_okresu data o okresu Id_regionu fakta prodejny Id_prodejna Id_produkt Id_období Id_regionu data o regionu fakta okresu Id_okresu Id_produkt Id_období fakta regionu Id_regionu Id_produkt Id_období cena množství cena množství cena množství
Příklad chybné interpretace dat nesprávné zobecnění závěrů při přechodu mezi jednotlivými úrovněmi Vraždy na Floridě (1973 1979) oběť běloch pachatel běloch pachatel černoch oběť černoch pachatel běloch pachatel černoch rozsudek smrt 72 48 0 11 jiný rozsudek 2074 238 111 2309 Popraveno: v případě bílých obětí 48/(48+238) = 16,8 % černochů 72/(72+2074) = 3,4 % bělochů v případě černých obětí 11/(11+2309) = 0,5 % černochů 0 = 0 % bělochů
Tentýž příklad po provedení operace roll-up přechod na méně podrobnou úroveň Vraždy na Floridě (1973 1979) pachatel běloch pachatel černoch rozsudek smrt 72 59 jiný rozsudek 2185 2547 Popraveno: 72/(72+2185) = 3,2 % bělochů 59/(59+2547) = 2,3 % černochů Paradox relativních četností