Systémy pro podporu rozhodování Datový management 1
Připomenutí obsahu minulé přednášky Systémy pro podporu rozhodování - hlubší pohled Konfigurace DSS Definice DSS Charakterizace a možnosti DSS Komponenty DSS (sybsystém datového, modelového a znalostního managementu, subsystém uživatelského rozhraní+uživatel) Hardware pro DSS 2
4. Datový management: sklady, přístup a vizualizace Principy MSS Nové koncepce Objektové databáze Inteligentní databáze Datové sklady On-line analytické zpracování (OLAP) Multidimensionalita Dolování v datech (Data mining) Internet / Intranet / Web 3
4.1 Motivační příklad: Datové sklady a DSS ve velké organizaci 2-3 miliony datových záznamů zpracováno měsíčně Jak to zvládnout a zorganizovat? Jak je využít pro podporu rozhodování? Jak nezvyšovat náklady? Jak zefektivnit službu zákazníkům? Jak efektivně využívat zdroje? Jak zvýšit celkovou kvalitu služeb? Odpověď Vytvořit obsažnou databázi (datový sklad) a použít DSS Velmi efektivní 4
4.2 Datové sklady, přístup, analýza a vizualizace Co dělat se všemi daty, která organizace sbírají, uchovávají a využívají (ve stále větším měřítku)? Současně narůstá počet uživatelů těchto dat (síťový přístup, nízká cena zpracování dat ) - - > Informační zahlcení! viz: http://www.lesk.com/mlesk/ksg97/ksg.html http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/ Datové sklady Přístup k datům Dolování v datech (Data mining) Řešení On-line analytical processing (OLAP) Vizualizace dat = hlavní problémy při správě IT 6
4.3 Povaha a zdroje dat Data: Nezpracovaná, bez specifického významu (alfanumerická, obrázky, zvuky,...) Informace: Data organizovaná tak, aby vyjadřovala určitý význam pro příjemce Znalost: Datové položky organizované a zpracované tak, aby vyjadřovaly porozumění, zkušenost, nashromážděné učení a expertízu vzhledem k danému problému nebo činnosti DSS databáze mohou obsahovat jak data, tak informace nebo znalosti Datové položky v DSS mohou mít formu dokumentu, obrázku, mapy, zvuku, animace, nebo videa 7
Zdroje dat Interní Externí Personální 8
4.4 Sběr dat a související problémy Potřeba získávání dat z více interních a externích zdrojů Sběr dat v terénu Získávání dat od lidských respondentů Nutnost ověřování a filtrace dat Kvalita a integrita dat Data nejsou správná nejsou k dispozici včas nejsou správně indexována neexistují 9
Metody sběru zdrojových dat Ručně nebo pomocí přístrojů a senzorů Reprezentativní metody Časové studie Průzkumy Pozorování Dotazování expertů Systémy pro automatickou detekci a korekci chyb v sebraných datech 10
4.5 Internet a komerční databázové služby Pro externí data: Internet: hlavní dodavatel externích dat Komerční databanky : prodávají přístup ke specializovaným databázím Mohou přidávat externí data k MSS v pravý čas a s vynaložením rozumných nákladů 11
Některé zdroje externích dat Existuje mnoho zdrojů veřejně dostupných dat, přičemž ke mnoha z nich je přístup přes Internet. Např. základní zdroje v USA: http://www.commerce.gov/ Federální publikace Survey of Current Business (Department of Commerce) (continues Business Conditions Digest in short form)--měsíčně, obecné obchodní podmínky Monthly Labor Review (Department of Labor) měsíční statistika zaměstnanosti (časopis obsahující články) http://www.dol.gov/ Employment and Earnings (Department of Labor)--měsíčně, podrobnější než Monthly Labor Review Jiné zdroje International Monetary Fund zprávy IMF, včetně měnových kurzů, pro podílející se země http://www.imf.org/ Moody's periodické manuály obsahující hutnou informaci o většině velikých amerických korporací, určeno pro investory http://www.moodys.com/cust/default.asp Standard & Poor's pravidelně doplňovaná zpráva o finanční stabilitě většiny amerických korporací http://www.standardandpoors.com Advertising Age--marketingový časopis, s vysokým podílem údajů o marketingu
Reprezentativní komerční databanky (U.S.A.) Compustat Dow Jones Information Service Interactive Data Corporation Lockheed Information Systems Mead Data Central - Lexis a Nexis ALACRA KnowledgeExpress Albertina icome 13
Internet/Web a podnikové databáze a systémy Použití Webovských prohlížečů k přístupu k informacím důležitým pro zaměstnance a zákazníky implementaci exekutivních informačních systémů implementaci systémů pro podporu skupinového rozhodování (GSS) Některé systémy řízení databáze poskytují data ve formátu HTML 14
4.6 Systémy pro řízení databází v DSS SŘBD (DBMS): Program pro zabezpečení práce s databází: vstup (nebo přidání) informací, aktualizace, mazání, manipulace, uchovávání a výběr informací SŘBD v kombinaci s jazykem pro modelování tvoří typickou dvojici vývojových prostředků využívanou při konstrukci DSS nebo MSS SŘBD jsou navrženy tak, aby zvládaly práci s velkým množstvím informací 15
4.7 Organizace a struktura databází Relační databáze Hierarchické databáze Síťové databáze Objektové databáze Multimediální databáze http://en.wikipedia.org/wiki/database 16
4.8 Datové sklady Fyzická separace operačního prostředí a prostředí na podporu rozhodování Účel: vytvořit úložiště dat umožňující přístup k operačním datům Transformace operačních dat do relačního tvaru Z TPS přicházejí pouze data potřebná pro podporu rozhodování Data jsou transformována a integrována do konzistentní struktury Datové skladování (nebo skladování informací): řešení problému přístupu k datům Koncoví uživatelé provádějí ad hoc dotazování, analýzu reportů a vizualizaci dat 17
Výhody datových skladů Zvýšení produktivity znalostních pracovníků Podporují všechny požadavky rozhodovatelů na data Zabezpečují okamžitý přístup ke kritickým datům Izolují operační databáze od ad hoc zpracování dat Dávají souhrnné informace na vysoké úrovni Zabezpečují možnosti detailních pohledů 18
Výhody datových skladů Datové sklady poskytují: Zvýšenou podnikovou inteligenci (business intelligence) Konkurenční výhodu Zlepšené služby zákazníkům a jejich spokojenost Možnost tvorby rozhodnutí Pomoc při usměrňování podnikových procesů 19
Architektury datových skladů Dvojúrovňová (two-tier) architektura Tříúrovňová (three-tier) architektura 20
Dvouúrovňová architektura datového skladu (Petr Vršek, SOFTMODEL)
Repositář Interní zdroje Externí zdroje SW pro akvizici dat DB server EIS/DSS server EIS klient DSS klient EIS klient Datový sklad Multidim. Databáze Tříúrovňová architektura datového skladu
Složky datového skladu Velká fyzická databáze Logický datový sklad Datový trh (data mart) a aplikace: Systémy pro podporu rozhodování (DSS) a exekutivní informační systémy (EIS) 23
Vhodnost použití datových skladů Pro organizace, ve kterých Data se nacházejí v různých systémech Management využívá řídící přístupy založené na informacích (information-based) Velká báze zákazníků různého typu Některá data mají různou reprezentaci v různých systémech Data jsou ukládána ve vysoce technické a těžko dekódovatelné formě 24
Charakterizace datového skladování Data jsou organizována dle konkrétního typu subjektu a obsahují pouze informace relevantní konkrétní podpoře rozhodování (např. zákazník, obor činnosti apod.) Data jsou integrovaná z různých formátů v různých zdrojích do konzistentního tvaru Časově proměnná data za období 5-10 let Po vstupu do skladu se data už nemění ani neaktualizují 25
Výhody struktury datových skladů Integrita dat Konzistence v časových dimenzích Vysoká efektivnost Nízké provozní náklady Lze uchovávat data na různých úrovních sumarizace Poskytuje zákazníkům rychlý přehled 26
4.9 Vizualizace dat a multidimensionalita Digitální obrázky Technologie pro vizualizaci dat Geografické informační systémy Grafická uživatelská rozhraní Multidimenzionální prezentace Tabulky a grafy Virtuální realita Prezentace Animace 27
Multidimenzionalita 3-D + tabulky Data mohou být organizována způsobem, jakým je chtějí vidět spíše manažeři než systémoví analytici Lze lehce a rychle dosáhnout různých způsobů prezentace stejných dat Dimenze: výrobky, prodejci, segmenty trhu, obchodní jednotky, geografické lokality, distribuční kanály, země, průmysl Jednotky: peníze, objemy prodeje, propočty na hlavu, majetkový profit, aktuální versus předpověděné Čas: denně, týdně, měsíčně, čtvrtletně nebo ročně 28
Omezení multidimenzionality Až o 40% více paměti počítače než odpovídající relační databáze Vyšší cena až o 50% Navýšení spotřeby systémových prostředků a času Složitější rozhraní a údržba Multidimenzionalita je obzvláště populární u exekutivních informačních a podpůrných systémů 29
4.10 OLAP: Přístup k datům, dolování, dotazování a analýza Online Analytical processing (OLAP) DSS a EIS výpočty prováděné koncovými uživateli pomocí online systémů V protikladu je online zpracování transakcí (online transaction processing OLTP) Generování dotazů Aktivity OLAP Požadování ad hoc reportů Provádění statistických analýz Konstrukce multimediálních aplikací http://www.databeacon.com/downloads/demos.htm 30
OLAP využívá datový sklad a soubor nástrojů Nástroje pro dotazování Tabulky Nástroje pro dolování v datech Nástroje pro vizualizaci dat 31
Data Sou rc e s Busin ess Com m unica tion Qu erying Internal Da ta Sou rces Extern al Da ta Sou rces Da ta Acquisition, Extraction, Deliver y Tra nsformation Da ta Wa rehou se Repor t Gen era tion Sprea dsheet Forecastin g Analysis Modelin g Da ta Presen ta tion a nd Visualiza tion Mu ltim edia EIS, Others On line Analytica l Processin g FIGURE 4.1 Data Warehousing and Online Analytical Processing (OLAP).
Architektura multidimenzionálního OLAP (MD-OLAP) http://mstr.insightstrategy.cz/files/case_for_rolap.pdf
Architektura relačního OLAP (ROLAP) http://mstr.insightstrategy.cz/files/case_for_rolap.pdf
OLAP Packages DSS Web (MicroStrategy, Inc.) Oracle Express Server (Oracle Corp.) DataFountain (Dimensional Insight Inc.) Pilot Internet Publisher (Pilot Software, Inc.) WebOLAP (Information Advantage Inc.) Focus Fusion (Information Builders, Inc.) Business Objects Inc. (Business Objects) InfoBeaconWeb (Platinum Technology, Inc.) BrioQuery (Brio Technology Inc.) Data multidimensionality - In Touch/2000 - Pilot personal cubes 35
Data Mining - dolování v datech Pojem pokrývající odkrývání znalostí v databázích extrakci znalostí datová archeologie explorativní analýza dat zpracování obrazců dat bagrování v datech rozsáhlý sběr informací ( žně ) 36
Hlavní charakteristiky a cíle dolování v datech Data jsou často hluboko zahrabána Architektura klient/server Účinné nové nástroje -- zahrnují pokročilé vizualizační nástroje -- pomáhají odstranit nánosy na informacích Úprava a synchronizace dat Užitečnost měkkých dat (obvykle textové soubory) Koncový uživatel, provádějící dolování, mívá k dispozici nástroje pro detailizaci pohledů na data (data drills) a jiné mocné dotazovací nástroje bez potřeby znalostí programování Často zahrnuje nálezy neočekávaných výsledků Nástroje jsou často kombinovány s tabulkovými procesory atd. Paralelní zpracování pro dolování v datech 37
Aplikační oblasti pro dolování v datech Marketing Bankovnictví Prodej Výroba Obchodování na burze Pojišťovnictví Počítačový hardware a software Vláda a obrana Letectví Péče o zdraví Rozhlasové a televizní vysílání Kriminalistika 38
4.11 Inteligentní databáze a dolování v datech Vývoj aplikací pro MSS vyžaduje přístup do databází AI technologie (ES, ANN) pomáhají při řízení databáze Propojení ES s velkými databázemi Příklad: optimalizace dotazů Rozhraní v přirozeném jazyce 39
Inteligentní dolování v datech Použití inteligentního prohledávání k nalézání informací v datových skladech, které dotazy a reporty nejsou schopny efektivně objevit Nalézání obrazců v datech a na jejich základě odvozování pravidel Použití obrazců a pravidel k návodům při rozhodování a předpovědích Dolováním v datech lze získat pět obecných typů informací: 1) asociace, 2) posloupnosti, 3) klasifikace, 4) shluky a 5) předpovědi 40
Hlavní nástroje používané v inteligentním dolování v datech Případové uvažování (Case-based Reasoning) Neurální výpočty (Neural Computing) Inteligentní agenti (Intelligent Agents) Jiné nástroje rozhodovací stromy indukce pravidel vizualizace dat 41
Inteligentní databáze jako integrace ES a databáze
4.12 Souhrn Data pro rozhodování přicházejí z interních a externích zdrojů Systém pro řízení báze dat (SŘBD) je jednou z hlavních složek většiny systémů na podporu managementu Znalost nejnovějšího pokroku v této oblasti je velmi důležitá Data jsou zlatým dolem informací, pokud je dokážeme vydolovat Organizace skladují data a dolují v nich Nástroje pro multidimenzionální analýzu a nové podnikové architektury systémů jsou velmi užitečné Užitečné jsou rovněž nástroje OLAP 43
Souhrn (pokrač.) Objektový přístup k analýze systémů, k jejich návrhu a implementaci může být velmi vhodný Nové formáty dat pro multimediální SŘBD Internet a intranety použitím Webovských prohlížečů pro přístup SŘBD Zabudované metody umělé inteligence v SŘBD 44
Literatura L. Lacko: Databáze: datové sklady, OLAP a dolování dat. ComputerPress, 2004 45
Konec 46