Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) Data mining involves the use of sophisticated data analysis tools to discover previously unknown, valid patterns and relationships in large data sets (Adriaans, Zantinge, 1999) Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner (Hand, Manilla, Smyth, 2001) Data mining is the process of analyzing hidden patterns of data from different perspectives and categorizing them into useful information (techopedia.org, 2011) Zdroje databáze (dotazovací jazyky, OLAP), statistika (analýza dat), umělá inteligence (strojové učení) P. Berka, 2011 1/18
Úlohy dobývání znalostí Hrubší členění (Klosgen, Zytkow, 1997) klasifikace/predikce: cílem je nalézt znalosti použitelné pro klasifikaci nových případů deskripce: cílem je nalézt dominantní strukturu nebo vazby P. Berka, 2011 2/18
hledání nugetů : cílem je nalézt dílčí překvapivé znalosti Jemnější členění (Chapman a kol, 2000) deskripce dat a sumarizace segmentace deskripce konceptů klasifikace predikce analýza závislostí P. Berka, 2011 3/18
Manažerský pohled Manažerský problém 1. Řešitelský tým Znalosti pro řešení 2. Specifikace problému 6. Data mining 3. Získání dat 7. Interpretace 5.Předzpracování dat 4. Výběr metod Pohled zpracování dat P. Berka, 2011 4/18
Aplikační oblasti pro dobývání znalostí Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů), Predikce vývoje kursů akcií, Predikce spotřeby elektrické energie, Analýza příčin poruch v telekomunikačních sítích, Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony), Segmentace a klasifikace klientů pojišťovny, Určení příčin poruch automobilů, Rozbor databáze pacientů v nemocnici, Analýza nákupního košíku (Market Basket Analysis). P. Berka, 2011 5/18
Analýza nákupního košíku: pohled na data P. Berka, 2011 6/18
Analýza nákupního košíku: deskripce P. Berka, 2011 7/18
Analýza nákupního košíku: klasifikace P. Berka, 2011 8/18
Standardy pro dobývání znalostí 1. Metodiky (Marban a kol, 2009) Metodika A Metodiku 5A nabízí firma SPSS jako svůj pohled na proces dobývání znalostí. Název metodiky je akronymem pro jednotlivé prováděné kroky: Assess posouzení potřeb projektu, Access shromáždění potřebných dat, Analyze provedení analýz, Akt přeměna znalostí na akční znalosti, Automate převedení výsledků analýzy do praxe. P. Berka, 2011 9/18
Metodika SEMMA Navržená pro Enterprise Miner firmy SAS: Sample (vybrání vhodných objektů), Explore (vizuální explorace a redukce dat), Modify (seskupování objektů a hodnot atributů, datové transformace), Model (analýza dat: neuronové sítě, rozhodovací stromy, statistické techniky, asociace a shlukování), Assess (porovnání modelů a interpretace). P. Berka, 2011 10/18
Metodika CRISP-DM V současnosti de-facto standard podporovaný většinou systémů pro dobývání znalostí Porozumění problematice Porozumění datům Příprava dat Využití výsledků DATA Modelování Vyhodnocení výsledků Data Mining P. Berka, 2011 11/18
2. Standardy pro zápis modelů Predictive Modeling Markup Language Standard na bázi XML vyvinutý v Data Mining Group (www.dmg.org), který slouží pro popis dat, datových transformací, i vytvořených modelů. Základní části PMML dokumentu: Header Data Dictionary Data Transformations Model P. Berka, 2011 12/18
<?xml version="1.0"?> <PMML version="4.0"> <Header copyright="p.b." description="an example decision tree model."/> <DataDictionary numberoffields="5" > <DataField name="income" optype="categorical" /> <Value value="low"/> <Value value="high"/> <DataField name=account" optype= categorical " /> <Value value="low"/> <Value value="medium"/> <Value value="high"/> <DataField name="sex" optype="categorical" > <Value value="male"/> <Value value="female"/> </DataField> <DataField name="unemployed" optype="categorical" > <Value value="yes"/> <Value value="no"/> </DataField> <DataField name=loan" optype="categorical" > <Value value="a"/> <Value value="n"/> </DataField> </DataDictionary> <TreeModel modelname="loan aproval decision tree" > <MiningSchema> <MiningField name= income"/> <MiningField name="account"/> <MiningField name="sex"/> <MiningField name="unemployed"/> <MiningField name="loan" usagetype="predicted"/> </MiningSchema> <Node score="a"> <True/> <Node score="a"> <SimplePredicate field="income" operator="equal" value="high"/> </Node> <Node score="n"> <SimplePredicate field="income" operator="equal" value="low"/> <Node score="a"> <SimplePredicate field="account" operator="equal" value="high"/> </Node> <Node score="n"> <SimplePredicate field="account" operator="equal" value="low"/> <Node score="n"> <SimplePredicate field="unemployed" operator="equal" value="yes /> </Node> <Node score="a"> <SimplePredicate field="unemployed" operator="equal" value="no /> </Node> </Node> </Node> </Node> </TreeModel> </PMML> P. Berka, 2011 13/18
3. Programovací standardy (API) SQL/MM Data Mining Standardní rozhranní umožňující přístup z relačních databází k algoritmům pro data mining OLE DB for Data Mining API vyvinuté firmou Microsoft CREATE MINING MODEL CreditRisk ( CustomerId long key, Income text discrete, Account text discrete, Sex text discrete, Unemployed boolean discrete, Loan text discrete predict, ) USING [Microsoft Decision Tree] Java Data Mining P. Berka, 2011 14/18
Systémy pro dobývání znalostí z databází pokrývají celý proces dobývání znalostí (od předzpracování po interpretaci), nabízejí více algoritmů pro analýzu (než jednoúčelové systémy strojového učení), kladou důraz na vizualizaci (ve způsobu práce se systémem i při interpretaci výsledků). Systém Výrobce URL SPM Salford Systems www.salford-systems.com Clementine SPSS www-01.ibm.com/software/analytics/ spss/products/modeler/ Enterprise Miner SAS Institute www.sas.com/technologies/analytics/ datamining/miner/ GhostMiner Fujitsu www.fqs.pl/business_intelligence/prod ucts/ghostminer Intelligent Miner IBM www-01.ibm.com/software/data/ infosphere/warehouse/enterprise.html Knowledge Angoss www.angoss.com Studio Oracle Data Oracle www.oracle.com/us/products/database/ Mining options/data-mining/index.html PolyAnalyst Megaputer www.megaputer.com/ Statistica Data Miner StatSoft www.statsoft.com/products/datamining-solutions/ LISp Miner VŠE RapidMiner Rapid-I Weka University of Waikato lispminer.vse.cz rapid-i.com/ www.cs.waikato.ac.nz/ml/weka/index. html P. Berka, 2011 15/18
Weka Rapid Miner P. Berka, 2011 16/18
SAS Enterprise Miner IBM SPSS Modeler (Clementine) P. Berka, 2011 17/18
P. Berka, 2011 18/18