Databáze datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek 980103 Jan Novak Dlouha 5 Praha 1 9945371 100.00 100.00 980105 Jan Novak Dlouha 5 Praha 1 9945371 1500.00 1600.00 980106 Jan Novak Dlouha 5 Praha 1 9945371-1550.00 50.00 980106 Karel Nemec Podolska 4 Praha 2 24867134 3000.00 6000.00 980107 Karel Nemec Podolska 4 Praha 2 24867134-4000.00 2000.00 980108 Jan Novak Dlouha 5 Praha 1 9945371-150.00-100.00 980111 Karel Nemec Podolska 4 Praha 2 24867134 5000.00 7000.00... Plochý soubor s daty klient id_klient jmeno prijmeni adresa_ulice adresa_mesto... transakce id_transakce id_ucet datum platba zustatek... účet id_ucet id_klient... Relační databáze Způsoby dotazování: QBE vs. SQL SELECT klient.jmeno, klient.prijmeni, klient.adresa_ulice, klient. adresa_ mesto, ucet.cislo_uctu, transkace.zustatek FROM klient, ucet, transakce WHERE klient.id_klent = ucet.id_ucet; AND transakce.id_ucet = ucet.id_ucet; AND transakce.zustatek < 100; GROUP BY klient.adresa_mesto P. Berka, 2011 1/12
Podpora rozhodování s využitím databází 1. Executive Information Systems manažerské informační systémy určené pro rychlý přístup k informacím uživatelsky přátelský interface ale málo flexibilní 2. On-Line Analytical Processing multidimenzionální koncept uložení a manipulace s daty (DATOVÁ KRYCHLE), intuitivní manipulace s daty, práce s daty z heterogenních datových zdrojů - provádějí se konverze dat, použití analytických metod - statistické přehledy, what-if analýzy, Client/Server architektura, podpora multiuživatelského pohledu, ukládání výsledků OLAP mimo zdrojová data, dynamická manipulace s řídkými maticemi, zpracování chybějících hodnot, neomezený počet dimenzí a agregačních úrovní. P. Berka, 2011 2/12
produkt datum region objem prodeje město Struktura databáze datum produkt město množství 10.1. šrouby Praha 241 10.1. matky Praha 61 10.1. šrouby Brno 17 10.1. podložky Brno 42 10.2. šrouby Praha 92 10.2. podložky Praha 27 10.2. šrouby Kladno 35 Záznamy v databázi PRODEJ Praha Brno Kladno šrouby matky podložky šrouby matky podložky šrouby matky podložky 10.1. 241 61 17 42 10.2. 92 27 35 Řídká matice P. Berka, 2011 3/12
objem prodeje agregace pro produkty agregace pro města agregace pro regiony Práce s daty: slice and dice řezy a výběry z krychle roll up vs. drill down pohyb v rámci dimenze Microsoft Data Analyzer P. Berka, 2011 4/12
Implementace: hyperkrychle (hypercube) multikrychle (multicube) čisté OLAP vs. ROLAP uživatelské rozhraní OLAP engine MOLAP ROLAP SQL engine sumarizovaná data granulární data MOLAP vs. ROLAP fyzické implementace systému: schéma hvězdy (star schema), schéma sněhové vločky (snowflake schema). P. Berka, 2011 5/12
dimenze prodejna tabulka faktů dimenze času STORE KEY data o prodejně město ID okresu data o okresu ID regionu data o regionu úroveň (level) STORE KEY PRODUCT KEY PERIOD KEY cena počet dimenze produkt PRODUCT KEY data o produktu značka výrobce úroveň (level) PERIOD KEY data o období rok čtvrtletí měsíc den Hvězda dimenze prodejna STORE KEY ID okresu ID regionu data o prodejně město ID okresu data o okresu ID regionu data o regionu úroveň (level) tabulka faktů prodejna STORE KEY PRODUCT KEY PERIOD KEY cena počet data o okresu ID regionu data o regionu tabulka faktů okres ID okresu PRODUCT KEY PERIOD KEY cena počet tabulka faktů region ID regionu PRODUCT KEY PERIOD KEY cena počet Sněhová vločka P. Berka, 2011 6/12
OLAP funkcionalita dosažitelná klasickými prostředky Microsoft Access Microsoft Excel P. Berka, 2011 7/12
3. Datový sklad subjektově orientovaný, integrovaný, časově proměnný, leč stálý soubor dat sloužící pro podporu rozhodování silně sumarizovaná data m e t a d a t a středně sumarizovaná data současná detailní data starší detailní data 1. vrstva produkční databáze 2. vrstva ddddd Data Warehouse Data 3. vrstva Data Mart P. Berka, 2011 8/12
4. Business Intelligence počítačové nástroje a techniky používané pro sběr, integraci, analýzu, interpretaci a prezentaci (obchodních) dat a informací. K hlavním komponentám patří: datový sklad analytické nástroje (dotazy, reportování, statistické analýzy, data mining) business performance management uživatelské rozhranní (prezentace) Hlavní součásti BI (Turban a kol., 2007) P. Berka, 2011 9/12
Propojení databází a dobývání znalostí 1. Dotazovací jazyky pro KDD Mine Rule (Boulicaut, 1998) - asociační pravidla MINE RULE Priklad AS SELECT DISTINCT 1..n produkt AS BODY, 1..1 produkt AS HEAD, SUPPORT, CONFIDENCE FROM Prodej WHERE BODY.město = HEAD.město AND BODY.datum = HEAD.datum EXTRACTING RULES WITH SUPPORT: 0.1, CONFIDENCE: 0.5 MSQL (Imielinski, Virmani, 1999) asociační pravidla, záznamy Emp(Id,Age,Sex,Salary,Position,Car) GetRules (Emp) into R where support > 0.1 and confidence > 0.9 SelectRules (R) where body has {Age=*), (Sex=*)} and body is {(Car=*)} MSQL - hledání pravidel Select * from Emp where violates all (GetRules (Emp) where body is {(Age=*)} and head is {(Salary=*)} and confidence > 0.3) MSQL - hledání výjimek P. Berka, 2011 10/12
DMQL (Han et al., 1996) více typů pravidel Find association rules related to average_grading, birth_place, address from student where major = computer_science and birth_place = Canada with support threshold = 0.05 with confidence threshold = 0.7 DMQL asociační pravidla Find classification rules for computer_science_students according to average_grading related to birth_place, address from student where major = computer_science and birth_place = Canada DMQL klasifikační pravidla Find discriminant rule for cs_grads with status = graduate in contrast to cs_undergrads with status = undergraduate related to average_grading, birth_place, address from student where major = computer_science and birth_place = Canada DMQL diskriminační pravidla 2. API standardy SQL/MM Data Mining OLE DB for Data Mining P. Berka, 2011 11/12
3. Rozšíření databázových systémů o data mining ( in-database data mining) MicroSoft SQL Server 2005 (a výše) - Rozhodovací stromy, asociační pravidla, naivní bayesovský klasifikátor, neuronové sítě, text mining, shlukování sekvencí, časové řady - Využívá OLE DB DM a PMML (pro definici úloh a zápis modelů) a BI Development studio (jako interface) Oracle Data Mining Nástroje pro klasifikaci, regresi, detekci anomálií, hledání asociací, shlukování, extrakci atributů, hodnocení důležitosti atributů P. Berka, 2011 12/12