Návrh datového skladu Návrh datového skladu OLTP ETL OLAP, DM Operativní data Datové sklady Zdroje dat Transformace zdroj - cíl Etapy realizace 1
Návrh datového skladu Hlavní úskalí analýzy a návrhu spočívá právě v této části Problém se zdroji dat existence přístup vlastnictví důvěryhodnost konzistence dat Konzistence dat v OLTP systémech zajištěna specifikací integritních omezení navržením vhodných transakcí u datového skladu je jeho konzistence předpokládána Návrh datového skladu Řešení konzistence dat obsažených v datovém skladu je přeneseno k jeho tvorbě ETL procesu, eventuálně k EAI konzistence je zaměřena na zdroje dat jedná se o zjištění konzistence dat u každého zdroje zajištění konzistence s ostatními zdroji teprve po posouzení zdrojů je možné přistoupit k vlastnímu řešení 2
ETL proces extrakce, filtrování, čištění a vkládání ze zdrojových systémů do DW extrakce transformace restrukturalizace dat do podoby odpovídající DW filtrace (odstranění chybných i neúplných záznamů) standardizace dat odstranění nežádoucích atributů denormalizace dat kombinace datových zdrojů vkládání a indexace konzistence dat samých, konzistence s ostatními daty v DW zdroje důvěryhodnost Zdroje dat vše nebo část (atrib., projekce, selekce) porovnat stejné údaje z různých zdrojů z hlediska obsahu formátu významu stejné zdroje jsou různě pojmenovány a naopak 3
Zdroje dat pokr. změny zdrojů během let struktura dat ze stejných zdrojů (archiv a současnost) formálně stejný objekt z více zdrojů ( zákazník: zákazník x potenc. zákazník) četnost přenášení zdrojů Zdroje dat pokr. u atributů: identifikátor, název, typ dat, měr.j., doména, význam, vlastník typ atributu (dimenze, fakt), typ indexu, pro měr.j.: konverzní poměry (koeficienty převodu, popř. koeficienty proměnné v čase) pro dimenze klíče, definice hierarchie/hierarchií přiřazení zdrojových atributů cílovým, transformace, změny formátů vazby mezi zdroji ( kdo komu poskytuje data) 4
ETL pravidla pro přenos prosté kopírování přepočty jednotek standardizace formátů odstraňování duplicit v datech z různých zdrojů rozdělení atributu do několika cíl. atributů ( př. adresa) slučování atributu do jednoho odvozování nových atributů (př. datum) převodní funkce některé použijí pro více atributů, jinde pro atribut samostatná funkce Po přenosu Kontrola kvality a ošetření chybějících údajů vypuštění záznamů kde chybí jednotné označení chybějících údajů a upozornění na neúplnost dat rozhodnutí na základě charakteru konkrétní oblasti řešení Statistika pro každý atribut rozsah (doména) a četnost hodnot, které může nabývat (lze odhalit chybné hodnoty) 5
Etapy realizace Závisí na tom, zda budou požadována data současná, či i archivní vlastní vytvoření aktualizace ošetření případných změn Etapy realizace vlastní vytvoření DW/části DW více zdrojů během let více zdrojů v jednom období jedná se o různé procesy v návrhu a řešení transformací pro vstup dat do datového skladu V této etapě se jedná výhradně o ETL procesy 6
Etapy realizace Aktualizace nové přírůstky při stejných zdrojích dat jako v předchozí etapě pouze se určí, kdy a jakým způsobem budou přírůstky aktualizovány při jiných zdrojích dat než v předchozí etapě návrh a realizace nových procesů, kterými by byla požadovaná data ze zdroje/ů extrahována, transformována a vložena do datového skladu V této etapě se jedná o ETL procesy i o řešení pomocí EAI a on-line přihrávání. Etapy realizace ošetření případných změn změny zdrojů dat /inovace IS s dostatečným předstihem třeba zajistit informace o plánovaných změnách požadavků na datový sklad 7