Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011



Podobné dokumenty
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Dobývání znalostí z databází

1. Dobývání znalostí z databází

Získávání dat z databází 1 DMINA 2010

Získávání znalostí z dat

8. Systémy pro dobývání znalostí z databází

IBM SPSS Decision Trees

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

FINANČNÍ KONSOLIDACE TEORIE A PRAKTICKÁ REALIZACE PROSTŘEDNICTVÍM INFORMAČNÍCH SYSTÉMŮ

Dobývání a vizualizace znalostí

BA_EM Electronic Marketing. Pavel

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE PROVOZNĚ EKONOMICKÁ FAKULTA

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT. Učební text. Jana Šarmanová

Vytěžování znalostí z dat

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU

Datový sklad. Datový sklad

Dobývání znalostí z textů text mining

znalostí z databází- mnohostranná interpretace dat

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Statistica, kdo je kdo?

Analýza dat z porodnického modulu nemocničního informačního systému

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Dolování z textu. Martin Vítek

Získávání znalostí z databází. Alois Kužela

Dobývání a vizualizace znalostí

Dolování znalostí z rozsáhlých statistických souborů lékařských dat

Marta Vomlelová

4ft-Miner pro začátečníky Získávání znalostí z databází

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

EXTRAKT z mezinárodní normy Extrakt nenahrazuje samotnou technickou normu, je pouze informativním materiálem o normě.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.

KIS A JEJICH BEZPEČNOST-I

IT Governance. Libor TůmaT. konzultant, AHASWARE. itsmf

Univerzita Pardubice. Fakulta ekonomicko-správní

Mapování obchodních vztahů. Competitive Intelligence aneb jak vyhrát v konkurenčním boji Seminář ČSSI, na VŠE Praha, dne

Vytěžování dat přednáška I

Komunikace člověk počítač v přirozeném jazyce

Ústav sociální práce Univerzita Hradec Králové. Přijímací zkoušky 2014/2015

HR reporting aneb kouzla s daty Jan Pavelka

KMI/ZZD Získávání znalostí z dat

Výzvy využívání otevřených dat v ČR

Dobývání a vizualizace znalostí

Kampaňový management a implementace MA

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

Moderní systémy pro získávání znalostí z informací a dat

(CELO) ŽIVOTNÍ HODNOTA ZÁKAZNÍKA

VLIV NEURČITOSTI, NEJASNOSTI, NEJISTOTY A SLOŽITOSTI NA ROZHODOVÁNÍ ORGANIZACÍ

Institut biostatistiky a analýz MU. Zkušenosti s vyhodnocováním telemedicínských technologií

Data mining. Letní semestr. únor červen Ondřej Brom lektor, analytik, konzultant spoluautor knihy SPSS Praktická analýza dat

Competitive Intelligence

1. Data mining. Strojové učení. Základní úlohy.

Thematic Network Project AEHESIS

LISp-Miner: systém pro získávání znalostí z dat 1

Česká zemědělská univerzita v Praze. Provozně ekonomická fakulta. Katedra informačních technologií

Obohacení dat o statistické výsledky a potenciál jejich využití

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Executive DBA - Marketing Doctor of Business Administration

Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, + TXT, XLS, CSV, C45, ARF, + CSV, XLS, ARF, + BMP, PNG, +

Podpořeno z Programu švýcarsko-české spolupráce Supported by a grant from Switzerland through the Swiss Contribution to the enlarged European Union

SYSTÉM PRO KONFIGURACI KOMUNIKAČNÍCH TERMINÁLŮ A VIZUALIZACI STAVOVÝCH DAT Z KOLEJOVÝCH VOZIDEL

Kvalitní data kvalitní agendy

Očekávání stavebních firem a dodavatelů stavebních materiálů

Zvyšování výkonnosti firmy na bázi potenciálu zlepšení

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY. nám. W. Churchilla 4, Praha 3 STUDIJNÍ PROGRAMY

Strojové uení. typy učení: Metody učení: učení se znalostem (knowledge acquisition) učení se dovednostem (skill refinement).

Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z.

Nová GUHA-procedura ETree-Miner v systému LISp-Miner

Nová dimenze rozhodovacího procesu

Úvod do komunitní péče o duševně nemocné

9. Dobývání znalostí v praxi

ZÁKAZNÍKŮM V ČESKÉ REPUBLICE POMÁHÁME RŮST OBSAH. 1. Globální partner. 2. Program řízení rizika. 3. Kontrola řízení rizika. 4. Strategie řízení rizika

TRANSFORMACE RELAČNÍHO DATOVÉHO MODELU NA OBJEKTOVÝ TRANSFORMATION OF RELATIONAL TO OBJECT DATA MODEL

VYUŽITÍ MAPOVÉ TVORBY V METEOROLOGII A KLIMATOLOGII

Uživatelská podpora v prostředí WWW

Informační systém banky

Business Intelligence

Relační databáze a povaha dat

INFORMAČNÍ SEMINÁŘ PRO DOKTORANDY FIM

Analýzou dat k efektivnějšímu rozhodování

Tvorba jednotek výsledků učení ECVET na základě standardů profesních kvalifikací v NSK. Verze připravená pro úpravu již vytvořených jednotek

Dílčí část 1 Rozvojové aktivity pro pracovníky v sociálních službách

Algoritmy ořezávání. Habilitační práce. (Clipping Algorithms) (Habilitation Thesis) Prof.Ing.Václav Skala, CSc.

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

UNIVERZITA PARDUBICE KLASIFIKAČNÍ ÚLOHY PRO DATA MINING. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky.

Databázové systémy trocha teorie

PRAXE A PŘÍNOSY INDEXOVÉHO BENCHMARKINGU PRACTISE AND BENEFITS OF INDEX BENCHMARKING

Bankovní účetnictví Účty emisní banky

Business Intelligence

DATABÁZOVÉ SYSTÉMY. Vladimíra Zádová, KIN, EF TUL - DBS

Customer Provider Relationship Monitoring by Association Analyse Means

Databázové systémy I. 1. přednáška

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Zkušenosti z reálných analýz nestrukturovaných dat

Transkript:

Petr Berka, 2011 Obsah... 1... 1 1

Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých kruzích mluvit počátkem 90. let. První impuls přišel z Ameriky, kde se na konferencích věnovaných umělé inteligenci (mezinárodní konference o umělé inteligenci IJCAI'89 nebo konference americké asociace umělé inteligence AAAI'91a AAA'93) objevily první workshopy věnované této problematice. Neustálý nárůst zájmu odborné komunity dokládá množství konferencí (americké konference KDD, asijské konference PAKDD, evropské konference PKDD), vznik odborných skupin (např. special interest group for KDD - SIGKDD při americké asociaci ACM) i vznik samostatných odborných časopisů (časopis Data Mining and Knowledge Discovery vydávaný nakladetelsvím Kluwer). Tématika dobývání znalostí si postupně našla cestu i do šířeji zaměřených počítačových časopisů. Dnes již není nic neobvyklého, že na pojmy knowledge discovery, data mining, nebo business intelligence 1 narazíme i v reklamách počítačových firem. 1.1 Proces KDD Dobývání znalostí z databází (KDD) lze definovat jako netriviální extrakci implicitních, dříve neznámých a potenciálně užitečných informací z dat (Fayyad 1996). Zpočátku se pro tuto oblast razily nejrůznější 1 Význam pojmu business intelligence je možno (s trochou nadsázky) interpretovat touto rovnicí: business intelligence = atrificial intelligence + business 2

Petr Berka, 2011 názvy: information harvesting, data archeology, data destilery. Nakonec ale převládla hornická metafora; dobývání znalostí a dolování z dat (data mining). Po jistém období tápání se ustálilo i chápání KDD jako interaktivního a iterativního procesu tvořeného tvořeného kroky selekce, předzpracování, transformace, vlastního dolování a interpretace (Obr. 1). Obr. 1 Proces KDD Na rozdíl od "prostého" použití statistických metod a metod strojového učení se v procesu dobývání znalostí již klade důraz i na přípravu dat pro analýzu a na interpretaci výsledných znalostí. Při přípravě dat se obvykle z dat uložených ve složité struktuře např. datového skladu vytváří jedna tabulka, obsahující relevntní údaje (hodnoty atributů) o sledovaných objektech (např. klientech banky nebo zákaznících obchodního domu). Při interpretaci se nalezené znalosti hodnotí z pohledu koncového uživatele. 3

Obsah 1... 1 Dobývání znalostí z databází 4 Obr. 2 Manažerský pohled na KDD Zatímco schéma na Obr. 1 popisuje technologický pohled na dobývání znalostí, Anand (Anand 1996) nabízí pohled manažerský (Obr. 2). Impulsem pro zahájení procesu KDD je nějaký reálný problém. Cílem procesu KDD je získání co nejvíce relevantních informací vhodných k řešení daného problému. Příkladem reálného problému je otázka nalezení skupin zákazníků obchodního domu nebo skupin klientů banky kterým by bylo možno nabídnout specielní služby. U zákazníků obchodního domu se

Petr Berka, 2011 může jednat o zjištění, že zákazník kupuje potravinářské zboží odpovídající jisté dietě, v případě klientů banky může jít o potenciální zájemce o hypoteční úvěr. Nalezené skupiny jsou interpretovány jako takzvané segmenty trhu v dané oblasti. Prvním krokem při řešení problému je vytvoření řešitelského týmu. Jeho členy musí být expert na řešenou problematiku, expert na data - jak v organizaci tak případně i na externí data a expert na metody KDD. V případě rozsáhlejších problémů je obvyklé, že jednotliví experti mají k dispozici vlastní tým nebo alespoň využívají konzultací s dalšími experty Prvním úkolem sestaveného týmu je specifikace problému pro KDD, který je třeba řešit v souvislosti s reálným problémem. U zákazníků obchodního domu nakupujících potravinářské zboží odpovídající jisté dietě je mimo jiné třeba specifikovat položky zboží odpovídající různým dietám. U skupin zákazníků nakupujících položku A a nenakupujících položku B je krom jiného třeba vytipovat vhodné skupiny položek, atd. Po specifikaci problému je třeba získat všechna dostupná data, která mohou být použita pro řešení problému. Znamená to posoudit všechna dostupná data a zvážit, zda jsou relevantní k danému problému. Tento proces může vyvolat menší či větší přeformulováni problému. V některých případech je třeba pracovat i s daty, která jsou archivována po delší dobu ve formě datových souborů a ne v databázi, data jsou někdy dokonce uložena v několika různých systémech. Náročnost získání dat je nepřímo úměrná úrovni datové základny která je k dispozici. V mnohých případech je vhodné uvažovat i externí data popisující prostředí ve kterém se analyzované děje odehrávají. V případě klientů banky i zákazníků obchodního domu je důležitou informací kalendářní období (např. vánoce, velikonoce, období dovolených letních a zimních, den kdy zákazníci dostávají výplatu, pondělí, úterý,..., ). Na zákazníky bude mít jistě vliv i počasí, reklama probíhající ve sdělovacích prostředcích, v některých případech i politické události. Cílem výběru metody je zvolit vhodné metody analýzy dat. V rámci dobývání znalostí z databází je používána řada typů metod analýzy dat, ve většině případů je k řešení konkrétní úlohy zapotřebí kombinovat více různých metod. Mezi používané typy metod patří např. klasifikační metody, různé klasické metody explorační analýzy dat, metody pro získávání asociačních pravidel, rozhodovací stromy, genetické algoritmy, Bayesovské sítě, neuronové sítě, hrubé množiny (rough sets), velmi používané jsou i metody visualizace. Dá se také předpokládat vývoj dalších metod. V rámci předzpracování dat se data získaná k řešení specifikovaného problému připravují data do formy vyžadované pro aplikaci vybraných metod. V řadě případů se může jednat o značně náročné výpočetní operace. Do této fáze se zahrnuje patří i odstranění odlehlých hodnot, případně doplnění chybějících hodnot. Data mining zahrnuje aplikaci vybraných analytických metod pro vyhledávání zajímavých vztahů v datech. Obvykle jsou jednotlivé metody aplikovány vícekrát, hodnoty vstupních parametrů jednotlivých běhů závisí na výsledcích předchozích běhů. Zpravidla se nejedná o aplikace metod jenom jednoho typu, jednotlivé typy se kombinují na základě dílčích výsledků. Cílem interpretace je nezbytné zpracování obvykle značného množství výsledků jednotlivých metod. Některé z těchto výsledků vyjadřují skutečnosti, které jsou z hlediska uživatele nezajímavé nebo samozřejmé. Některé výsledky je možno použít přímo, jiné je nutno vyjádřit způsobem srozumitelným 5

Obsah 1... 1 Dobývání znalostí z databází pro uživatele. Jednotlivé výsledky je často vhodné uspořádat do analytické zprávy. Analytická zpráva však není jediným možným výstupem procesu KDD. Výstupem může být i provedení vhodné akce jako například zapnutí monitorovacího programu. 1.2 Úlohy KDD V případě dobývání znalostí z databází můžeme mluvit o různých typech úloh. Jsou to především (Klosgen 1997) 2 : klasifikace/predikce, deskripce, hledání nugetů. 1.3 Systémy pro dobývání znalostí z databází (Tab. 1) pokrývají celý proces dobývání znalostí (od předzpracování po interpretaci), nabízejí více algoritmů pro analýzu (než jednoúčelové systémy strojového učení), kladou důraz na vizualizaci (ve způsobu práce se systémem i při interpretaci výsledků). 2 Podrobnnější členění je uvedeno např. v (Chapman 2000) se uvádí úlohy deskripce dat a sumarizace, segmentace, deskripce konceptů, prediktivní modelování, detekce odchylek a analýza závislostí 6

Petr Berka, 2011 Systém Výrobce URL CART Salford http://www.salford-systems.com Systems Clementine SPSS http://www.isl.co.uk/clem.html Enterprise Miner SAS Institute http://www.sas.com/software/components/mine r.html Intelligent IBM http://www-4.ibm.com/software/data/iminer Miner Kepler Dialogis http://www.dialogis.de KnowledgeStudio Angoss http://www.angoss.com LISp Miner VŠE http://lispminer.vse.cz MineSet Silicon http://www-europe.sgi.com/software/mineset Graphics See5 RuleQuest http://www.rulequest.com/see5-info.html Research Weka University http://www.cs.waikato.ac.nz/~ml/weka of Waikato WizWhy WizSoft http://www.wizsoft.com/why.html Tab. 1 Systémy pro KDD 1.4 Literatura Anand, S. a kol. Towards Real-World Data Mining. Practical Aspects of Knowledge Management. Basel, 1996. Fayyad, U. - Piatetsky-Shapiro,G. - Smyth,P. - Uthurusamy,R. Advances in Knowledge Discovery and Data Mining. AAAI Press/MIT Press, 1996. Chapman, P. - Clinton,J. - Kerber,R. - Khabaza,T. - Reinartz,T. - Shearer,C. - Wirth,R. CRISP-DM 1.0 Stepby-step data mining guide. SPSS Inc., 2000. Klosgen, W. - Zytkow,J. Knowledge Discovery and Data Mining. Tutorial Notes. PKDD'97. Trondheim, 1997. 7

Obsah 1... 1 Dobývání znalostí z databází B U business intelligence, 2 D data mining, 2 Dobývání znalostí z databází, 2 úloha deskripce, 5 hledání nugetů, 5 klasifikace, 4 predikce, 4 8