Datové sklady Zěk Kouba
Data cube Sortiment Pečivo Maso Mléčné výrobky Koblihy Housky Chléb Místo Vepřové Hovězí Petrovice Drůbež Vysoký Chlumec Milevsko Mléko Kovářov Sýry Oslov Neveklov Jogurty Vrchotovy Janovice Bystřice 1Q 2Q 3Q 4Q 1Q 2Q 3Q 4Q 1Q 2Q 3Q 4Q 2000 2001 2002 Čas Písek Benešov Příbram
Proces ETL Extraction Transformation Load Datové zdroje Datová pumpa Datový sklad
Agregační hierarchie dimenze čas Vše Čtvrtletí Rok Měsíc Tý Den Část dne
Star schema místo prodejna okres název_okresu název_prodejny čas tý název_e tržba základ_dph DPH položka_sortimentu prodejna sortiment položka_sortimentu skupina_zboží sazba_dph název_skupiny_zboží název_položky_sort
Konceptuální model motivačního příkladu místo vše okres prodejna sortime nt vše skupina_zbož í položka_sortiment u sazba_dph čas měsí c vše tý tržba základ_dph DPH tržba_včetně_dph
Den v týdnu jako dimenzionální atribut čas vše tý _v_týdnu
Den v týdnu jako agregační úroveň čas vše tý _v_týdnu
Logický model (star-schema) motivačního příkladu místo prodejna okres název_okresu název_prodejny čas tý název_e tržba základ_dph DPH položka_sortim entu prodejna sortiment položka_sortimentu skupina_zboží sazba_dph název_skupiny_zboží název_položky_sort
Snowflake schema s tabulkou agregovaných hodnot okres okres název_okres u místo prodejna okres název_prodejn y tržba základ_dph DPH položka_sortimentu prodejna tržba na okres základ_dph DPH položka_sortimentu okres
Konsolidované star-schema motivačního příkladu místo klíč-místo prodejna okres název_okresu název_prodejny tržba základ_dph DPH klíč-místo klíč-čas klíč-sortiment sortiment klíč-sortiment položka_sortimentu skupina_zboží sazba_dph název_skupiny_zboží název_položky_sort čas klíč-čas tý název_e
Schema konsolidovaných faktů motivačního příkladu tržba místo prodejna okres název_prodejny název_okresu základ_dph DPH položka_sortimentu prodejna tržba na okres základ_dph DPH položka_sortimentu okres
Data mining (vytěžování/dolování dat) predikce klasifikace detekce odchylek asociační pravidla regrese shlukování modelování závislostí modelování kauzalit sumarizace indikace deskripce
Využití nalezených závislosti k predikci Příklad aplikace datového skladu v predikční úloze: Predikce spotřeby pitné vody Faktory, které mohou spotřebu ovlivňovat, nalezeny metodami data mining: počasí v týdnu roční období poloha (zahrádkářská kolonie/sídliště)
Využití nalezených závislosti k predikci Příklad aplikace datového skladu v predikční úloze: Predikce spotřeby pitné vody Faktory, které mohou spotřebu ovlivňovat, nalezeny metodami data mining: počasí v týdnu roční období poloha (zahrádkářská kolonie/sídliště)
Star schema datového skladu Area Day Area Name Description Reservoir Reservoir Area Water supply Name Tank Reservoir Tank Max volume Min level Max level Delta level volume Fact_table Date Time Reservoir Tank Inflow Outflow Delta level Consumption Volume Pressure Chlorine Time Date Time Hour Minute Second Day_part Date Day Month Year Week Day of Week Quarter Temperature Weather type Free days seq No Free days seq Cnt Weather Pipe line Water supply Name Description Weather type Weather Description Min Brightness Max Brightness Min Rain Max Rain
Výsledky Reservoir Michal 1800 1600 1400 1200 1000 800 600 400 200 0 day 3 6 9 12 15 18 21 24 27 30 33 36 39 consumption prediction Average error smaller than 19% After removing unpredictable events about 11%
Histogram chyb Počet dní 120 100 80 60 40 20 0 Histogram chyb -28-22 -16-10 -4 2 8 14 20 26 Chyba [%]
Senzitivita Senzitivita je definována jako relativní četnost případů patřících do třídy T 1, které dané klasifikační pravidlo správně zařadilo do třídy T 1 (správně pozitivně klasifikované případy), tedy Sens ( x, θ) P( d ( x) T ) = T1 > θ 1.
Specificita Specifičnost definujeme jako relativní četnost případů patřících do třídy T2, které však byly nesprávně zařazeny do třídy T1 (nesprávně pozitivně klasifikované případy), tedy Spec( x, θ) = P( d ( x) > θ T ) T1 2
ROC křivka ROC křivka Senzitivita 1,2 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 1,2 Specificita Náhodný prediktor Reálný prediktor