DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Podobné dokumenty
Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Získávání dat z databází 1 DMINA 2010

Dobývání znalostí z databází

Získávání znalostí z dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

1. Dobývání znalostí z databází

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

8. Systémy pro dobývání znalostí z databází

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Moderní systémy pro získávání znalostí z informací a dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

znalostí z databází- mnohostranná interpretace dat

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Dobývání a vizualizace znalostí

Získávání znalostí z databází. Alois Kužela

Datová věda (Data Science) akademický navazující magisterský program

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dolování z textu. Martin Vítek

Profitabilita klienta v kontextu Performance management

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE PROVOZNĚ EKONOMICKÁ FAKULTA

Dobývání a vizualizace znalostí

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z.

Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.

Dolování asociačních pravidel

Segmentace bankovních zákazníků algoritmem k- means

BA_EM Electronic Marketing. Pavel

Inovační vouchery s Univerzitou Hradec Králové. doc. Ing. Mgr. Petra Marešová, Ph.D. Ing. Richard Cimler

Dobývání a vizualizace znalostí

Vytěžování dat přednáška I

Využití metod strojového učení v bioinformatice David Hoksza

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Analytické procedury v systému LISp-Miner

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT. Učební text. Jana Šarmanová

Uživatelská podpora v prostředí WWW

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

VYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

Dobývání znalostí z textů text mining

1. Data mining. Strojové učení. Základní úlohy.

UNIVERZITA PARDUBICE KLASIFIKAČNÍ ÚLOHY PRO DATA MINING. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky.

Informační systémy 2006/2007

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Informatika na gymnáziu Dan Lessner

Analýzou dat k efektivnějšímu rozhodování

Problematika šetření a analýzy dat ze sociální politiky

IBM SPSS Decision Trees

Úvod do dobývání. znalostí z databází

DOLOVÁNÍ DAT Z DATABÁZÍ DATA MINING

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

1 Úvod 1.1 Vlastnosti programového vybavení (SW)

ANALÝZA A KLASIFIKACE DAT

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

v praxi Rizika a přínosy zavádění BI jako nástroje pro řízení podnikání

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner

Moderní metody automatizace a hodnocení marketingových kampaní

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Analytický programový modul pro hodnocení odolnosti v reálném čase z hlediska konvergované bezpečnosti

P R Ů M Y S L O V Ý M A R K E T I N G

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Univerzita Pardubice. Fakulta ekonomicko-správní

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Výrobní pracoviště budoucnosti

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Představení společnosti Concordia Consulting CONCORDIA CONSULTING

Cíle supervizovaného učení Ondřej Háva

Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat

Obohacení dat o statistické výsledky a potenciál jejich využití

Business Intelligence

Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, + TXT, XLS, CSV, C45, ARF, + CSV, XLS, ARF, + BMP, PNG, +

Nová dimenze rozhodovacího procesu

StatSoft Úvod do data miningu

Asociační i jiná. Pravidla. (Ch )

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Smart Grid Data Mining

Katedra kybernetiky, FEL, ČVUT v Praze.

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Uznávání předmětů ze zahraničních studijních pobytů

Chytrá systémová architektura jako základ Smart Administration

Předzpracování dat. Lenka Vysloužilová

coachpage.cz MARKETINGOVÝ VÝZKUM Faktory ovlivňující nákupní chování ve vztahu ke koupi automobilu TOOLS for SUCCESS in TODAY s BUSINESS

HR reporting aneb kouzla s daty Jan Pavelka

Národní referenční centrum (NRC) MUDr. Antonín Malina, Ph.D. Institut postgraduálního vzdělávání ve zdravotnictví

Dobývání znalostí z webu web mining

Dataminingové techniky analýz vícerozměrných datových souborů

Učící se klasifikátory obrazu v průmyslu

Okruhy ke státní závěrečné zkoušce z oboru Podniková informatika. platné pro studenty, kteří zahájili studium v ZS 2015/2016

Úvodní přednáška. Význam a historie PIS

Vytěžování znalostí z dat


Transformace dílčích datových zdrojů na jednotnou datovou platformu kontaminovaných míst, analýza potřeb uživatelů a vývoj aplikací

Transkript:

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net

DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z dat. [Fayyad a kol, 1996] knowledge discovery, data mining, data warehouse, information harvesting, data archeology, data destilery, business intelligence dobývání znalostí, dolování z dat (data mining) Knowledge Discovery in Databases (KDD) Data mining (DM)

MULTIOBOROVÁ DISCIPLÍNA Tato nová oblast informatiky má své zdroje v těchto disciplínách: databáze statistika umělá inteligence (strojové učení) Vývoj těchto disciplín probíhal nezávisle do chvíle kdy: rozsah automaticky sbíraných dat začínal uživatelům přerůstat přes hlavu vznikla potřeba používat tato data pro podporu (strategického) rozhodování ve firmách metody strojového učení se začaly využívat v oblasti ekonomie

PROCES KDD manažerský pohled Manažerský problém 1. Řešitelský tým Znalosti pro řešení 2. Specifikace problému 6. Data mining 3. Získání dat 7. Interpretace 5.Předzpracování dat 4. Výběr metod

PROCES KDD technologick technologický ý pohled Vyhodnocení, interpretace Vzorky Dolování Selekce a transformace Transformovaná data Filtrace, integrace Data warehouse Cílová data Databáze

ALGORITMY PRO KDD Statistika - diskriminační analýza - regresní analýza - shluková analýza Symbolické metody umělé inteligence - rozhodovací stromy - rozhodovací pravidla - asociační pravidla - případové usuzování Subsymbolické metody umělé inteligence - neuronové sítě - genetické algoritmy - bayesovské sítě

ÚLOHY KDD V případě dobývání znalostí z databází můžeme mluvit o různých typech úloh. Jsou to především: klasifikace / predikce deskripce hledání nugetů

ÚLOHY KDD klasifikace / predikce Při klasifikaci/predikci je cílem nalézt znalosti použitelné pro klasifikaci nových případů - zde požadujeme, aby získané znalosti co nejlépe odpovídaly danému konceptu; dáváme přednost přesnosti pokrytí na úkor jednoduchosti (připouštíme větší množství méně srozumitelných dílčích znalostí. Rozdíl mezi klasifikací a predikcí spočívá v tom, že u predikce hraje důležitou roli čas; ze starších hodnot nějaké veličiny se pokoušíme odhadnout její vývoj v budoucností (např. předpověď počasí nebo pohybu cen akcií).

ÚLOHY KDD deskripce a hledání nugetů Při deskripci (popisu) je cílem nalézt dominantní strukturu nebo vazby, které jsou skryté v daných datech. Požadujeme srozumitelné znalosti pokrývající daný koncept. Dáváme tedy přednost menšímu množství méně přesných znalostí. Hledáme-li nugety, požadujeme zajímavé (nové, překvapivé) znalosti, které nemusí plně pokrývat daný koncept.

APLIKAČNÍ OBLASTI Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů), Predikce vývoje kursů akcií, Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony), Segmentace a klasifikace klientů pojišťovny, Analýza nákupního košíku (Market Basket Analysis). Predikce spotřeby elektrické energie, Analýza příčin poruch v telekomunikačních sítích, Rozbor databáze pacientů v nemocnici, Veřejné mínění a sčítání lidu.

METODOLOGIE Metoda 5A S postupem doby začaly vznikat metodologie, které si kladou za cíl poskytnout uživatelům jednotný rámec pro řešení různých úloh z oblasti dobývání znalostí. Tyto metodologie umožňují sdílet a přenášet zkušenosti z úspěšných projektů. Metodologii 5A nabízí firma SPSS jako svůj pohled na proces dobývání znalostí. Název metodologie je akronymem pro jednotlivé prováděné kroky: Assess posouzení potřeb projektu, Access shromáždění potřebných dat, Analyze provedení analýz, Akt přeměna znalostí na akční znalosti, Automate převedení výsledků analýzy do praxe.

METODOLOGIE - SEMMA Enterprise Miner, softwarový produkt firmy SAS, vychází z vlastní metodologie pro dobývání znalostí z databází. Název metodologie opět charakterizuje jednotlivé prováděné kroky: Sample (vybrání vhodných objektů), Explore (vizuální explorace a redukce dat), Manipulate (seskupování objektů a hodnot atributů, datové transformace), Model (analýza dat: neuronové sítě, rozhodovací stromy, statistické techniky, asociace a shlukování), Assess (porovnání modelů a interpretace).

METODOLOGIE CRISP DM Metodologie CRISP-DM (CRoss-Industry Standard Process for Data Mining) vznikla v rámci výzkumného projektu Evropské komise. Cílem projektu je navrhnout univerzální postup (tzv. standardní model procesu dobývání znalostí z databází), který bude použitelný v nejrůznějších komerčních aplikacích. Vytvoření takovéto metodologie umožní řešit rozsáhlé úlohy dobývání znalostí rychleji, efektivněji, spolehlivěji a s nižšími náklady. Kromě návrhu standardního postupu má CRISP-DM nabízet průvodce potenciálními problémy a řešeními, které se mohou vyskytnout v reálných aplikacích. Na projektu spolupracují firmy NCR (přední dodavatel datových skladů), DaimlerChrysler, ISL (tvůrce systému Clementine) a OHRA (velká holandská pojišťovna). Všechny tyto firmy mají bohaté zkušenosti s reálnými úlohami dobývání znalostí z databází.

METODOLOGIE CRISP DM Porozumění problematice Porozumění datům Využití výsledků DATA Transformace dat Analytické procedury Interpretace výsledků

SYSTÉMY DOBÝVÁNÍ ZNALOSTÍ Systémy KDD vertikální Výzkumné horizontální vertikální Komerční horizontální Systémy pro dobývání znalostí z databází tedy: pokrývají celý proces dobývání znalostí (od přezpracování po interpreraci) nabízejí více algoritmů pro analýzu (než jednoúčelové systémy strojového učení) kladou důraz na vizualizaci (ve způsobu práce se systémem i při interpretaci výsledků).

SYSTÉMY DOBÝVÁNÍ ZNALOSTÍ Systém Výrobce URL CART Salford Systems http://www.salford-systems.com Clementine Integral Solutions (SPSS) http://www.isl.co.uk/clem.html Enterprise Miner SAS Institute http://www.sas.com/software/components/miner.html Intelligent Miner IBM http://www-4.ibm.com/software/data/iminer Kepler Dialogis http://www.dialogis.de KnowledgeStudio Angoss http://www.angoss.com LISp Miner VŠE http://lispminer.vse.cz MineSet Silicon Graphics http://www-europe.sgi.com/software/mineset See5 RuleQuest Research http://www.rulequest.com/see5-info.html Weka University of Waikato http://www.cs.waikato.ac.nz/~ml/weka WizWhy WizSoft http://www.wizsoft.com/why.html Systém Rozhodovací stromy Rozhodovací pravidla Asociační pravidla Neuronové sítě Lineární statistické metody Nejbližší soused CART Clementine Enterprise Miner Intelligent Miner Kepler KnowledgeStudio LISp Miner MineSet See5 Weka WizWhy

SYSTÉMY DOBÝVÁNÍ ZNALOSTÍ

SYSTÉMY DOBÝVÁNÍ ZNALOSTÍ

APLIKAČNÍ OBLASTI Projekt STULONG sleduje dva hlavní cíle: podrobné studium rizikových faktorů aterosklerózy u mužů středního věku, demonstrace možností aplikace metod dobývání znalostí z databází v medicínské oblasti. Projekt Stulong započal v první polovině sedmdesátých let jako rozsáhlá epidemiologické studie primární prevence aterosklerózy. Sběr dat probíhal na několika pracovištích. Prvotní data byla později upravena do elektronické podoby a zpracována základními statistickými postupy. Poté byla analyzována v rámci výzkumu aplikací metod dobývání znalostí v medicíně. Rizikové faktory aterosklerózy byly sledovány u 1 419 mužů v letech 1976-1999 v souladu s celkovou metodikou projektu. Při vstupním vyšetření byly zjišťovány hodnoty 244 atributů. Hodnoty 219 z nich byly číselné kódy nebo výsledky měření. Dále bylo provedeno 10 610 kontrolních vyšetření, při kterých byly zjišťovány hodnoty 66 atributů. http:// ://euromise.vse.cz