Dobývání znalostí z databází



Podobné dokumenty
Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Získávání znalostí z dat

Získávání dat z databází 1 DMINA 2010

znalostí z databází- mnohostranná interpretace dat

Dobývání a vizualizace znalostí

1. Dobývání znalostí z databází

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání dat a strojové učení

8. Systémy pro dobývání znalostí z databází

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Dobývání a vizualizace znalostí

Univerzita Pardubice. Fakulta ekonomicko-správní

Vytěžování znalostí z dat

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

IBM SPSS Decision Trees

Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.

Analýza dat z porodnického modulu nemocničního informačního systému

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

4ft-Miner pro začátečníky Získávání znalostí z databází

BA_EM Electronic Marketing. Pavel

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

X33EJA Web Services. Martin Ptáček, KOMIX s.r.o.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT. Učební text. Jana Šarmanová

Databázové a informační systémy

Webové služby a XML. Obsah přednášky. Co jsou to webové služby. Co jsou to webové služby. Webové služby a XML


Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, + TXT, XLS, CSV, C45, ARF, + CSV, XLS, ARF, + BMP, PNG, +

TRANSFORMACE RELAČNÍHO DATOVÉHO MODELU NA OBJEKTOVÝ TRANSFORMATION OF RELATIONAL TO OBJECT DATA MODEL

Karta předmětu prezenční studium

Dolování znalostí z rozsáhlých statistických souborů lékařských dat

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU

KRIMINALITA V 21. STOLETÍ A JEJÍ ŘEŠENÍ S VYUŽITÍM ANALYTICKÝCH METOD

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

DATAMINING SEWEBAR CMS

ÚVOD DO DATABÁZÍ. Metodické listy pro předmět

Dataminingové techniky analýz vícerozměrných datových souborů

Pokročilé Webové služby a Caché security. Š. Havlíček

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

Modelování hrozeb. Hana Vystavělová AEC, spol. s r.o.

PROČ UŽ SE NEOBEJDETE BEZ ANALÝZY DAT

Nová GUHA-procedura ETree-Miner v systému LISp-Miner

Vytěžování dat přednáška I

Institut biostatistiky a analýz MU. Zkušenosti s vyhodnocováním telemedicínských technologií

Metadata. RNDr. Ondřej Zýka

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

Statistica, kdo je kdo?

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE PROVOZNĚ EKONOMICKÁ FAKULTA

Segmentace bankovních zákazníků algoritmem k- means

Dobývání a vizualizace znalostí

Zabezpečení platformy SOA. Michal Opatřil Corinex Group

Kolaborativní aplikace

Využití dataminingu v oblasti hotelnictví

V. Konečný, I. Rábová

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí

TELEGYNEKOLOGIE TELEGYNECOLOGY

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

VYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

SAML a XACML jako nová cesta pro Identity management. SAML and XACML as a New Way of Identity Management

SYSTÉM PRO KONFIGURACI KOMUNIKAČNÍCH TERMINÁLŮ A VIZUALIZACI STAVOVÝCH DAT Z KOLEJOVÝCH VOZIDEL


Microsoft Office 2003 Souhrnný technický dokument white paper

Sémantický web 10 let poté

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Analytika a SAP Quo Vadis? Jiří Přibyslavský Performance Management & Business Intelligence Business Consultant

EXTRAKT z mezinárodní normy Extrakt nenahrazuje samotnou technickou normu, je pouze informativním materiálem o normě.

Business Intelligence

Databáze v praxi. RNDr. Ondřej Zýka Principal Consultant

RELATIONAL DATA ANALYSIS

XML Š ABLONY A JEJICH INTEGRACE V LCMS XML TEMPLATES AND THEIN INTEGRATION IN LCMS

Industry Robert BOSCH

Informační systémy 2006/2007

Obsah Úvod 11 Jak být úspěšný Základy IT

Nová dimenze rozhodovacího procesu

Dobývání znalostí z webu web mining

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

Rudolf Rosa. Strojový překlad pojmenovaných entit za pomoci Wikipedie

API pro volání služby kurzovního lístku KB

Analýza časových řad pomocí metod data miningu

Data mining. Letní semestr. únor červen Ondřej Brom lektor, analytik, konzultant spoluautor knihy SPSS Praktická analýza dat

Michal Krátký, Miroslav Beneš

Práce se soubory opakování

Přehled systému Microsoft SQL Server. Komu je kniha určena Struktura knihy Nejvhodnější výchozí bod pro čtení knihy Konvence a struktura knihy

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Databázové systémy trocha teorie

Marta Vomlelová

Modelem řízený vývoj. SWI 1 Jan Kryštof

IBM SPSS Modeler Professional

Dobývání znalostí z textů text mining

Karlova univerzita v Praze Filozofická fakulta Ústav informačních studií a knihovnictví. Informační věda. Disertační práce

Kampaňový management a implementace MA

UKÁZKOVÉ PŘÍKLADY VYUŽITÍ VIRTUÁLNÍCH GLÓBŮ NEJEN V GEOVĚDÁCH

Kategorie PZS: B* ostatní nemocnice akutní péče

Obohacení dat o statistické výsledky a potenciál jejich využití

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

IT4Innovations Centre of Excellence

Transkript:

Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) Data mining involves the use of sophisticated data analysis tools to discover previously unknown, valid patterns and relationships in large data sets (Adriaans, Zantinge, 1999) Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner (Hand, Manilla, Smyth, 2001) Data mining is the process of analyzing hidden patterns of data from different perspectives and categorizing them into useful information (techopedia.org, 2011) Zdroje databáze (dotazovací jazyky, OLAP), statistika (analýza dat), umělá inteligence (strojové učení) P. Berka, 2011 1/18

Úlohy dobývání znalostí Hrubší členění (Klosgen, Zytkow, 1997) klasifikace/predikce: cílem je nalézt znalosti použitelné pro klasifikaci nových případů deskripce: cílem je nalézt dominantní strukturu nebo vazby P. Berka, 2011 2/18

hledání nugetů : cílem je nalézt dílčí překvapivé znalosti Jemnější členění (Chapman a kol, 2000) deskripce dat a sumarizace segmentace deskripce konceptů klasifikace predikce analýza závislostí P. Berka, 2011 3/18

Manažerský pohled Manažerský problém 1. Řešitelský tým Znalosti pro řešení 2. Specifikace problému 6. Data mining 3. Získání dat 7. Interpretace 5.Předzpracování dat 4. Výběr metod Pohled zpracování dat P. Berka, 2011 4/18

Aplikační oblasti pro dobývání znalostí Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů), Predikce vývoje kursů akcií, Predikce spotřeby elektrické energie, Analýza příčin poruch v telekomunikačních sítích, Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony), Segmentace a klasifikace klientů pojišťovny, Určení příčin poruch automobilů, Rozbor databáze pacientů v nemocnici, Analýza nákupního košíku (Market Basket Analysis). P. Berka, 2011 5/18

Analýza nákupního košíku: pohled na data P. Berka, 2011 6/18

Analýza nákupního košíku: deskripce P. Berka, 2011 7/18

Analýza nákupního košíku: klasifikace P. Berka, 2011 8/18

Standardy pro dobývání znalostí 1. Metodiky (Marban a kol, 2009) Metodika A Metodiku 5A nabízí firma SPSS jako svůj pohled na proces dobývání znalostí. Název metodiky je akronymem pro jednotlivé prováděné kroky: Assess posouzení potřeb projektu, Access shromáždění potřebných dat, Analyze provedení analýz, Akt přeměna znalostí na akční znalosti, Automate převedení výsledků analýzy do praxe. P. Berka, 2011 9/18

Metodika SEMMA Navržená pro Enterprise Miner firmy SAS: Sample (vybrání vhodných objektů), Explore (vizuální explorace a redukce dat), Modify (seskupování objektů a hodnot atributů, datové transformace), Model (analýza dat: neuronové sítě, rozhodovací stromy, statistické techniky, asociace a shlukování), Assess (porovnání modelů a interpretace). P. Berka, 2011 10/18

Metodika CRISP-DM V současnosti de-facto standard podporovaný většinou systémů pro dobývání znalostí Porozumění problematice Porozumění datům Příprava dat Využití výsledků DATA Modelování Vyhodnocení výsledků Data Mining P. Berka, 2011 11/18

2. Standardy pro zápis modelů Predictive Modeling Markup Language Standard na bázi XML vyvinutý v Data Mining Group (www.dmg.org), který slouží pro popis dat, datových transformací, i vytvořených modelů. Základní části PMML dokumentu: Header Data Dictionary Data Transformations Model P. Berka, 2011 12/18

<?xml version="1.0"?> <PMML version="4.0"> <Header copyright="p.b." description="an example decision tree model."/> <DataDictionary numberoffields="5" > <DataField name="income" optype="categorical" /> <Value value="low"/> <Value value="high"/> <DataField name=account" optype= categorical " /> <Value value="low"/> <Value value="medium"/> <Value value="high"/> <DataField name="sex" optype="categorical" > <Value value="male"/> <Value value="female"/> </DataField> <DataField name="unemployed" optype="categorical" > <Value value="yes"/> <Value value="no"/> </DataField> <DataField name=loan" optype="categorical" > <Value value="a"/> <Value value="n"/> </DataField> </DataDictionary> <TreeModel modelname="loan aproval decision tree" > <MiningSchema> <MiningField name= income"/> <MiningField name="account"/> <MiningField name="sex"/> <MiningField name="unemployed"/> <MiningField name="loan" usagetype="predicted"/> </MiningSchema> <Node score="a"> <True/> <Node score="a"> <SimplePredicate field="income" operator="equal" value="high"/> </Node> <Node score="n"> <SimplePredicate field="income" operator="equal" value="low"/> <Node score="a"> <SimplePredicate field="account" operator="equal" value="high"/> </Node> <Node score="n"> <SimplePredicate field="account" operator="equal" value="low"/> <Node score="n"> <SimplePredicate field="unemployed" operator="equal" value="yes /> </Node> <Node score="a"> <SimplePredicate field="unemployed" operator="equal" value="no /> </Node> </Node> </Node> </Node> </TreeModel> </PMML> P. Berka, 2011 13/18

3. Programovací standardy (API) SQL/MM Data Mining Standardní rozhranní umožňující přístup z relačních databází k algoritmům pro data mining OLE DB for Data Mining API vyvinuté firmou Microsoft CREATE MINING MODEL CreditRisk ( CustomerId long key, Income text discrete, Account text discrete, Sex text discrete, Unemployed boolean discrete, Loan text discrete predict, ) USING [Microsoft Decision Tree] Java Data Mining P. Berka, 2011 14/18

Systémy pro dobývání znalostí z databází pokrývají celý proces dobývání znalostí (od předzpracování po interpretaci), nabízejí více algoritmů pro analýzu (než jednoúčelové systémy strojového učení), kladou důraz na vizualizaci (ve způsobu práce se systémem i při interpretaci výsledků). Systém Výrobce URL SPM Salford Systems www.salford-systems.com Clementine SPSS www-01.ibm.com/software/analytics/ spss/products/modeler/ Enterprise Miner SAS Institute www.sas.com/technologies/analytics/ datamining/miner/ GhostMiner Fujitsu www.fqs.pl/business_intelligence/prod ucts/ghostminer Intelligent Miner IBM www-01.ibm.com/software/data/ infosphere/warehouse/enterprise.html Knowledge Angoss www.angoss.com Studio Oracle Data Oracle www.oracle.com/us/products/database/ Mining options/data-mining/index.html PolyAnalyst Megaputer www.megaputer.com/ Statistica Data Miner StatSoft www.statsoft.com/products/datamining-solutions/ LISp Miner VŠE RapidMiner Rapid-I Weka University of Waikato lispminer.vse.cz rapid-i.com/ www.cs.waikato.ac.nz/ml/weka/index. html P. Berka, 2011 15/18

Weka Rapid Miner P. Berka, 2011 16/18

SAS Enterprise Miner IBM SPSS Modeler (Clementine) P. Berka, 2011 17/18

P. Berka, 2011 18/18