Tomáš Burger, burger@fit.vutbr.cz kapitola 2 Datové sklady, OLAP Získávání znalostí z databází IT-DR-3 / ZZD
Co je to datový sklad A data warehouse is a subjectoriented, integrated, time-variant and nonvolatile collection of data in support of management s decision making process. W. H. Inmon: Building the Data Warehouse, 1996 ZZD 2005 - kapitola II - 2 / 20
Subject-oriented I Datový sklad je tématický Data jsou organizována okolo sledovaných témat Datový sklad obsahuje jen podstatná data ZZD 2005 - kapitola II - 3 / 20
Integrated II Datový sklad v sobě integruje řadu různých datových zdrojů Různé operativní databáze Jediný datový sklad Update-driven approach datový sklad se pravidelně aktualizuje z připojených datových zdrojů ZZD 2005 - kapitola II - 4 / 20
Time-variant III Data jsou určena v čase Historická data Verze dat v čase ZZD 2005 - kapitola II - 5 / 20
Nonvolatile IV Data v datovém skladu jsou stálá, dlouhodobá Datový sklad nepodporuje změny dat Datový sklad je fyzicky oddělené datové úložiště Data z operativních datových zdrojů jsou duplikována ZZD 2005 - kapitola II - 6 / 20
Datová kostka Datový sklad nemá tabulky, ale kostky Kostka má dimenze a hodnoty (measures) Redukcí dimenzí (group by) vznikají podkostky (cuboids) apex (souhrnný) cuboid bez dimenzí base (základní) cuboid všechny dimenze ZZD 2005 - kapitola II - 7 / 20
Databázové schéma Star hvězdicové uspořádání tabulka faktů klíče dimenzí a hodnoty tabulky dimenzí Snowflake vločka tabulky dimenzí se normalizují Fact Constelation kombinované star schéma více tabulek faktů, sdílené tabulky dimenzí ZZD 2005 - kapitola II - 8 / 20
Fact Constelation příklad Škola IČO Adresa PSČ Studium Student Škola Semestr Kredity Student Jméno Příjmení Rodné číslo PSČ Semestr Školní rok Letní/Zimní Datum_od Datum_do Knihovna Student Kniha Semestr Počet Pokuta Kniha Název ISBN Autor Rok vydáni ZZD 2005 - kapitola II - 9 / 20
Hodnoty Distributivní lze počítat postupně i najednou suma, maximum, minimum Algebraické kombinace několika distributivních hodnot pro daný počet hodnot průměr Holistické lze počítat jen komplexně pro celý soubor median ZZD 2005 - kapitola II - 10 / 20
Hierarchie organizace dimenzí Koncepční hierarchie úplné uspořádání ulice město region země kontinent Schématická hierarchie částečné uspořádání den (týden měsíc) rok Seskupovaná (set-grouping) hierarchie vzniká seskupováním hodnot dimenze cena, seskupená do intervalů ZZD 2005 - kapitola II - 11 / 20
Operace na datovém skladu Drill-down přidání jedné dimenze Roll-up odebrání jedné dimenze Slice & dice omezení dimenzí na některé hodnoty ZZD 2005 - kapitola II - 12 / 20
Drill-down Q1 100 80 Drill-down obohacuje pohled na data o novou dimenzi anebo nahrazuje obecnější dimenzi dimenzí detailnější ve smyslu koncepční hierarchie Čtvrtletí Q2 Q3 120 150 90 100 Obor Q4 90 70 Praha Plzeň Město Brno Leden 25 26 Únor 40 27 Měsíce Březen Duben... 35 50... 27 35... Obor Prosinec 20 15 Praha Plzeň Brno Město ZZD 2005 - kapitola II - 13 / 20
Roll-up Roll-up redukuje pohled na data o jednu dimenzi nebo nahrazuje dimenzi detailnější dimenzí obecnější Q1 100 80 Čtvrtletí Q2 Q3 120 150 90 100 Obor Q4 90 70 Praha Plzeň Brno Město Q1 180 Čtvrtletí Q2 Q3 210 250 Obor Q4 160 Čechy Země Morava ZZD 2005 - kapitola II - 14 / 20
Slice & dice Slice & dice redukuje obor hodnot jedné (slicing) nebo více (dicing) dimenzí podle zvoleného filtru Q1 100 80 Čtvrtletí Q2 Q3 120 150 90 100 Obor Q4 90 70 Praha Plzeň Brno Město obor = informatika země = Čechy Q1 20 15 Čtvrtletí Q2 Q3 30 30 18 21 Q4 18 13 Praha Město Plzeň ZZD 2005 - kapitola II - 15 / 20
Architektura datových skladů OLAP server Front end Datový sklad metadata administrace monitoring Datové zdroje ZZD 2005 - kapitola II - 16 / 20
ROLAP x MOLAP x HOLAP Dělení datových skladů podle technické realizace Relační OLAP Multidimenzionální OLAP Hybridní OLAP Používá relační databázi Efektivní na uložení, problematické na čtení Používá multidimenzionální pole Efektivní na čtení Problematické pro řídká pole Kombinuje výhody obou přístupů Detailní data v relačních databázích Agregace v multidimenzionálních polích ZZD 2005 - kapitola II - 17 / 20
Implementace datových skladů Částečná materializace (hodnoty) vybrané cuboidy jsou předpočítané zrychlení agregace hodnot Indexace (dimenze) sady hodnot v dimenzích se nahrazují technickými recordid zrychlení vyhledávání v dimenzích ZZD 2005 - kapitola II - 18 / 20
On Line Analytical Mining (OLAM) Mezistupeň: od datových skladů k dolování v datech Datový sklad s analytickými funkcemi vysoká kvalita dat snadná navigace ad-hoc aplikace snadných dolovacích funkcí ZZD 2005 - kapitola II - 19 / 20
Konec Děkuji za pozornost ZZD 2005 - kapitola II - 20 / 20