Získávání dat z databází 1 DMINA 2010



Podobné dokumenty
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Dobývání a vizualizace znalostí

Dobývání znalostí z databází

Získávání znalostí z dat

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání a vizualizace znalostí

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

1. Dobývání znalostí z databází

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Dobývání a vizualizace znalostí

Získávání znalostí z databází. Alois Kužela

znalostí z databází- mnohostranná interpretace dat

Profitabilita klienta v kontextu Performance management

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Dolování asociačních pravidel

Moderní systémy pro získávání znalostí z informací a dat

Segmentace bankovních zákazníků algoritmem k- means

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

BA_EM Electronic Marketing. Pavel

Informační systémy 2006/2007

Vytěžování dat přednáška I

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

Uživatelská podpora v prostředí WWW

Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat

Datová věda (Data Science) akademický navazující magisterský program

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Dolování z textu. Martin Vítek

Úvodní přednáška. Význam a historie PIS

Ing. Petr Kalčev, Ph.D.

Úvodem Dříve les než stromy 3 Operace s maticemi

Business Intelligence

Základy business intelligence. Jaroslav Šmarda

3 zdroje dat. Relační databáze EIS OLAP

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

Analýza a vizualizace dat

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Úvod do dobývání. znalostí z databází

Lekce 9 - Migrace dat

Předzpracování dat. Lenka Vysloužilová

ANALÝZA A KLASIFIKACE DAT

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

PŘÍLOHA C Požadavky na Dokumentaci

Informace a znalosti v organizaci

Řízení výkonnosti nemovitostního portfolia. Integrační platforma innosys. Květen 2014

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

INFORMAČNÍ SYSTÉMY (IS) Ing. Pavel Náplava Katedra počítačů K336, ČVUT FEL Praha 2004/2005

Příprava dat v softwaru Statistica

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Analytické procedury v systému LISp-Miner

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Učící se klasifikátory obrazu v průmyslu

Obsah. Zpracoval:

Využití metod strojového učení v bioinformatice David Hoksza

Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT. Učební text. Jana Šarmanová

IBM SPSS Decision Trees

Analytické metody v motorsportu

VYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Analýza dat z porodnického modulu nemocničního informačního systému

Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, + TXT, XLS, CSV, C45, ARF, + CSV, XLS, ARF, + BMP, PNG, +

1. Data mining. Strojové učení. Základní úlohy.

KMI/ZZD Získávání znalostí z dat

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Kvalita SW produktů. Jiří Sochor, Jaroslav Ráček 1

Manažerská ekonomika

Rozhodovací procesy 3

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Systémy pro podporu rozhodování. Modelování a analýza

2. Účel a cíl koncepce, zdroje dat

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Obsah ČÁST I JAK SE UCHÁZET O ZÁKAZNÍKY NA WEBU KAPITOLA 1

Okruhy ke státní závěrečné zkoušce z oboru Podniková informatika. platné pro studenty, kteří zahájili studium v ZS 2015/2016

III. Informační systém & databáze

Vysoká škola finanční a správní, o.p.s. Katedra řízení podniku a podnikové ekonomiky. Metodické listy pro předmět ŘÍZENÍ PODNIKU I

HR reporting aneb kouzla s daty Jan Pavelka

Vytěžování znalostí z dat

MODERNÍ MARKETINGOVÝ VÝZKUM

DOLOVÁNÍ DAT Z DATABÁZÍ DATA MINING

Univerzita Pardubice. Fakulta ekonomicko-správní

O autorech Úvodní slovo recenzenta Předmluva Redakční poznámka... 18

Průvodní dokument k rozpadu činností správa a rozvoj v DRG 2013

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

v praxi Rizika a přínosy zavádění BI jako nástroje pro řízení podnikání

Role BI v e-business řešeních pohled do budoucnosti

P1: Informace o projektu MMR, rámec, význam a stav plánování obcí

Návrh datového skladu z hlediska zdrojů

Doplňování chybějících hodnot v kategoriálních datech 2.00

Asociační i jiná. Pravidla. (Ch )

Systémový rozvoj a podpora nástrojů sociálně-právní ochrany dětí

StatSoft Úvod do data miningu

Transkript:

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou data? Ztracena v databázích. T. S. Eliot, J. Celko

Přibližný sylabus 1. Data mining 2. Základy pravděpodobnosti a statistiky 3. Statistika. Kontingenční tabulky. Regresní analýza. Diskriminační analýza, shluková analýza 4. Zdroje. Relační DB. OLAP. Datové sklady 5. Strojové učení 6. Rozhodovací stromy 7. Asociační pravidla 8. Rozhodovací pravidla 9. Neuronové sítě, Bayesovská klasifikace 10. Vyhodnocení výsledků 11. Příprava dat 12. Systémy pro dobývání znalostí z DB

Software Excel či jiný tabulkový kalkulátor Statistica RapidMiner Tanagra WEKA

Literatura Berka Petr. Dobývání znalostí z databází. Praha, 2003. ISBN 80-200-1062-9. LACKO, M. Databáze: datové sklady, OLAP a dolování dat. Computer Press, 2003. ISBN 80-7226-969-0.

Zdroje na webu Software http://rapid-i.com/content/view/10/69/lang,en http://www.ailab.si/orange http://www.cs.waikato.ac.nz/ml/weka Data, kurzy http://euromise.vse.cz/kdd http://www.kdnuggets.com http://archive.ics.uci.edu/ml/datasets.html http://maya.cs.depaul.edu/~classes/ect584/weka/index.html Pravděpodobnost a statistika http://homen.vsb.cz/~oti73/cdpast1

Požadavky aktivní přístup k dané problematice vypracovat projekt z oblasti DM pomocí vybraného open-source softwarového nástroje zahrnující dostatečně velká sada dat (učící a testovací vzorek) předzpracování dat formulace a ověření (vyvrácení) hypotéz vybrané učící metody rozhodovací stromy, asociační pravidla testování vizualizace vyhodnocení

Data mining Data Mining (DM)- dolování dat dolování z dat Knowledge Discovering in Databases (KDD) získávání znalostí z databází Data Fishing, Data Dredging Data Archaeology Information Harvesting Information Discovery Knowledge Extraction Inteligence získaná z informací a dat společnosti (SAS) For also knowledge is power Francis Bacon

Počátky DM (90. léta 20. století) data v relačních databázích umělá inteligence metody strojového učení statistika modelování, analytické metody potřeba používat zpracované údaje pro podporu strategického rozhodování Cíl získat pravdivé, nové zákonitosti, které lze k něčemu využít v daném konkrétním oboru (marketing, technika, ekonomika, psychologie, medicína ) automatizace procesu získání zajímavých vzorů chování z reálných dat, tvorba jejich modelů - pomocí nástrojů strojového učení, statistiky, databázových technologií,

Vymezení pojmu KDD netriviální získávání implicitních dříve neznámých a potenciálně užitečných informací (znalostí) z dat Data Mining is the non-trivial process of identifying valid novel potentially useful and ultimately understandable patterns in data Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, Chapter 1, AAAI/MIT Press 1996

Proces dobývání dat Interaktivní a iterativní proces selekce předzpracování transformace vlastní dobývání interpretace příprava dat

Proces dobývání dat Výchozí data Vybraná data Předzpracovaná data Transformovaná data selekce předzpracování transformace Znalosti Vzorky interpretace

Manažerský pohled na proces KDD 1. Řešitelský tým 7. Interpretace 2. Specifikace problému 3. Získání dat Reálný problém impuls pro zahájení procesu dobývání dat Cíl získat co nejvíc relevantních informací vhodných k řešení daného problému 4. Výběr metod 6. Dolování dat 5. Předzpracování dat

Etapy KDD (1 4) 1. Stanovení řešitelského týmu skupina expertů na danou problematiku, na data, databáze, na metody KDD 2. Specifikace problému v kontextu dobývání dat 3. Zisk všech dostupných dat může dojít k přeformulování problému otázka kvality datové základny externí data popisující prostředí, v němž se analyzované děje odehrávají (období, reklama, politická situace, počasí ) 4. Volba metody pro analýzu dat (ev. kombinace více metod) klasifikační metody metody explorační analýzy dat metody pro získávání asociačních pravidel rozhodovací stromy genetické algoritmy neuronové sítě bayesovské sítě

Etapy KDD (5 6) 5. předzpracování dat data se převedou do tvaru požadovaného rpo aplikaci metod vyčištění dat doplnění chybějících dat 6. vlastní data mining aplikace zvolených analytických metod jednotlivé metody mohou být aplikovány i vícekrát hodnoty vstupních běhů závisejí na výstupech předchozích běhů typy metod se kombinují na základě dílčích výsledků

Etapa 7 - interpretace zpracování většinou velkého množství výsledků jednotlivých metod některé výsledky nejsou pro uživatele zajímavé či naopak jsou známé některé výsledky se dají použít přímo, některé je třeba podat srozumitelněji pro uživatele výsledky se uspořádají do analytické zprávy výstupem může být i provedení určité akce např. spuštění monitorovacího programu

Terminologie Koncept oblast zájmu co chceme předpověď počasí Instance jednotlivá data data o počasí jednoho konkrétního dne Atributy: jednotlivé vlastnosti instance teplota, tlak, množství srážek

Úlohy pro data mining klasifikace shlukování asociace zjišťování pravidel (A B C se vyskytují často společně) vizualizace sumarizace detekce odchylek a chyb odhady link analýza

Klasifikace Určit instanční třídu pro jednotlivé instance (výskyty dat) Postupy - statistika - rozhodovací stromy - neuronové sítě...

Shlukování Najít "přirozené" skupiny instancí v datech

Asociační pravidla Transakce Položka Produkt 1 MLÉKO, CHLÉB, VEJCE 2 CHLÉB, CUKR 3 CHLÉB, CEREÁLIE 4 MLÉKO, CHLÉB, CUKR 5 MLÉKO, CEREÁLIE 6 CHLÉB, CEREÁLIE 7 MLÉKO, CEREÁLIE 8 MLÉKO, CHLÉB, CEREÁLIE, VEJCE 9 MLÉKO, CHLÉB, CEREÁLIE Časté skupiny položek mléko, chléb (4) chléb, cereálie (3) mléko, chléb, cereálie (2) Pravidla Mléko Chléb (66%)

Úlohy pro data mining klasifikace (predikce) deskripce hledání nuggetů Koncept Z Klasifikace cílem je nalézt znalosti použitelné pro klasifikaci nových vzorů získané znalosti by měly co nejvíce odpovídat danému konceptu dává se přednost přesnosti pokrytí na úkor jednoduchosti Predikce snaha odhadnout ze starších hodnot nějaké veličiny její vývoj v budoucnu (předpověď počasí, kurzy, akcie )

Deskripce cílem je nalézt dominantní strukturu nebo vazby obsažené v daných datech požadují se srozumitelné znalosti pokrývající daný koncept menší množství méně přesných znalostí Koncept Z Popis (deskripce)

Hledání nuggetů zajímavé, nové (překvapivé, dosud neznámé) znalosti, které nemusejí plně pokrývat daný koncept Koncept Z Nuggety

Přehled typických úloh pro DM segmentace a klasifikace klientů banky rozpoznávání problémových klientů rozpoznávání vysoce bonitních klientů segmentace a klasifikace klientů pojišťovny predikce vývoje kurzu akcií predikce spotřeby elektrické energie analýza poruch v sítích analýza poruch automobilů analýza důvodů změny poskytovatele služeb (proč jsme přišli o zákazníky) rozbor nemocnosti predikce epidemií analýza nákupního košíku

Metodiky dobývání znalostí Cíl Poskytnout uživatelům jednotný rámec pro řešení různých úloh z oblasti dobývání znalostí z databází metodiky vyvinuté výrobci softwarových systémů (5A, SEMMA) metodiky vyvinuté výzkumnými a komerčními institucemi jakožto softwarově nezávislé (CRISP DM) sdílení a přenos zkušeností z úspěšných produktů

Metodika 5A Assess posouzení potřeb projektu stanovení kontextu cílů, strategií a procesů Access shromáždění potřebných data a jejich příprava Analyze provedení analýz přeměnit data na znalosti používá se více metod (porovnání výsledků, spolehlivosti, efektivity) Act přeměna znalostí na akční znalosti doporučení, dodatečné otázky a následná rozhodnutí jasná a srozumitelná prezentace nalezených výsledků Automate převedení výsledků analýzy do praxe možnost vytvoření rozhraní pro snadné použití umožnit aktualizaci výsledků dle nových modelů

metodika SEMMA (Enterprise Miner) SAMPLE výběr vhodných objektů EXPLORE vizuální explorace a redukce dat MODIFY seskupování objektů a hodnot atributů, datové transformace MODEL analýza dat neuronové sítě, rozhodovací stromy, statistické techniky, asociace, shlukování ASSESS porovnání modelů a interpretace (srozumitelně pro uživatele)

SAMPLE výběr vzorku dat EXPLORE vizualizace dat shlukování asociace MODIFY selekce a vytváření veličin selekce a vytváření veličin MODEL neuronové sítě modely založené na stromech logistické modely ASSESS zhodnocení modelu

Metodika CRISP-DM Cross-Industry Standard Process for Data Mining vznikl v rámci evropského výzkumného projektu http://www.crisp-dm.org Cíl navrhnout univerzální postup použitelný v nejrůznějších komerčních aplikacích standardní model procesu DM průvodce možnými problémy a jejich řešení v reálných aplikacích Proces DM 6 fází pořadí není přesně určeno výsledky jedné fáze ovlivňují (vstupují) do fáze další některé kroky a fáze je nutné provádět opakovaně

Životní cyklus procesu DM POROZUMĚNÍ PROBLEMATICE POROZUMĚNÍ DATŮM VYUŽITÍ VÝSLEDKŮ DATA PŘÍPRAVA DAT VYHODNOCENÍ VÝSLEDKŮ MODELOVÁNÍ

Fáze DM porozumění problematice (Business Understanding) pochopení cílů úlohy a požadavků na řešení revize zdrojů (datových, výpočetních i lidských) předběžný plán prací porozumění datům (Data Understanding) prvotní sběr dat seznámení s daty, posouzení kvality, vytipování zajímavých podmnožin záznamů v datech výpočet deskriptivních charakteristik dat rozsahy, četnosti atributů, průměrné hodnoty

Fáze DM příprava dat příprava, předzpracování dat (Data Preparation) vytvoření datového souboru, který bude zpracováván jednotlivými analytickými metodami data by měla obsahovat relevantní údaje a být ve tvaru, který vyžaduje příslušná analytická metoda selekce dat čištění transformace dat (typové konverze, diskretizace, binomizace ) doplnění chybějících údajů integrování dat příslušné úpravy se obvykle provádějí opakovaně

Fáze DM modelování, vyhodnocení výsledků modelování (Modeling) použití analytických metod pro dobývání znalostí vybrat vhodné metody, nastavit vhodně parametry metod iterativní činnost opakovaná aplikace algoritmů s různými parametry může vést k potřebě modifikovat data ověření nalezených znalostí vyhodnocení výsledků (Evaluation) z pohledu manažerů byly splněny cíle formulované v zadání úlohy rozhodnutí o způsobu využití výsledků

Fáze DM využití výsledků využití výsledků (Deployment) upravit získané znalosti do podoby využitelné pro zákazníka vizualizace implementace klasifikačního algoritmu v user-friendly podobě příprava uživatelského manuálu instalace programů zaškolení uživatelů změna metod řešení příslušných úkolů (např. poskytování úvěrů)