Získávání dat z databází 1 DMINA 2010
Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou data? Ztracena v databázích. T. S. Eliot, J. Celko
Přibližný sylabus 1. Data mining 2. Základy pravděpodobnosti a statistiky 3. Statistika. Kontingenční tabulky. Regresní analýza. Diskriminační analýza, shluková analýza 4. Zdroje. Relační DB. OLAP. Datové sklady 5. Strojové učení 6. Rozhodovací stromy 7. Asociační pravidla 8. Rozhodovací pravidla 9. Neuronové sítě, Bayesovská klasifikace 10. Vyhodnocení výsledků 11. Příprava dat 12. Systémy pro dobývání znalostí z DB
Software Excel či jiný tabulkový kalkulátor Statistica RapidMiner Tanagra WEKA
Literatura Berka Petr. Dobývání znalostí z databází. Praha, 2003. ISBN 80-200-1062-9. LACKO, M. Databáze: datové sklady, OLAP a dolování dat. Computer Press, 2003. ISBN 80-7226-969-0.
Zdroje na webu Software http://rapid-i.com/content/view/10/69/lang,en http://www.ailab.si/orange http://www.cs.waikato.ac.nz/ml/weka Data, kurzy http://euromise.vse.cz/kdd http://www.kdnuggets.com http://archive.ics.uci.edu/ml/datasets.html http://maya.cs.depaul.edu/~classes/ect584/weka/index.html Pravděpodobnost a statistika http://homen.vsb.cz/~oti73/cdpast1
Požadavky aktivní přístup k dané problematice vypracovat projekt z oblasti DM pomocí vybraného open-source softwarového nástroje zahrnující dostatečně velká sada dat (učící a testovací vzorek) předzpracování dat formulace a ověření (vyvrácení) hypotéz vybrané učící metody rozhodovací stromy, asociační pravidla testování vizualizace vyhodnocení
Data mining Data Mining (DM)- dolování dat dolování z dat Knowledge Discovering in Databases (KDD) získávání znalostí z databází Data Fishing, Data Dredging Data Archaeology Information Harvesting Information Discovery Knowledge Extraction Inteligence získaná z informací a dat společnosti (SAS) For also knowledge is power Francis Bacon
Počátky DM (90. léta 20. století) data v relačních databázích umělá inteligence metody strojového učení statistika modelování, analytické metody potřeba používat zpracované údaje pro podporu strategického rozhodování Cíl získat pravdivé, nové zákonitosti, které lze k něčemu využít v daném konkrétním oboru (marketing, technika, ekonomika, psychologie, medicína ) automatizace procesu získání zajímavých vzorů chování z reálných dat, tvorba jejich modelů - pomocí nástrojů strojového učení, statistiky, databázových technologií,
Vymezení pojmu KDD netriviální získávání implicitních dříve neznámých a potenciálně užitečných informací (znalostí) z dat Data Mining is the non-trivial process of identifying valid novel potentially useful and ultimately understandable patterns in data Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, Chapter 1, AAAI/MIT Press 1996
Proces dobývání dat Interaktivní a iterativní proces selekce předzpracování transformace vlastní dobývání interpretace příprava dat
Proces dobývání dat Výchozí data Vybraná data Předzpracovaná data Transformovaná data selekce předzpracování transformace Znalosti Vzorky interpretace
Manažerský pohled na proces KDD 1. Řešitelský tým 7. Interpretace 2. Specifikace problému 3. Získání dat Reálný problém impuls pro zahájení procesu dobývání dat Cíl získat co nejvíc relevantních informací vhodných k řešení daného problému 4. Výběr metod 6. Dolování dat 5. Předzpracování dat
Etapy KDD (1 4) 1. Stanovení řešitelského týmu skupina expertů na danou problematiku, na data, databáze, na metody KDD 2. Specifikace problému v kontextu dobývání dat 3. Zisk všech dostupných dat může dojít k přeformulování problému otázka kvality datové základny externí data popisující prostředí, v němž se analyzované děje odehrávají (období, reklama, politická situace, počasí ) 4. Volba metody pro analýzu dat (ev. kombinace více metod) klasifikační metody metody explorační analýzy dat metody pro získávání asociačních pravidel rozhodovací stromy genetické algoritmy neuronové sítě bayesovské sítě
Etapy KDD (5 6) 5. předzpracování dat data se převedou do tvaru požadovaného rpo aplikaci metod vyčištění dat doplnění chybějících dat 6. vlastní data mining aplikace zvolených analytických metod jednotlivé metody mohou být aplikovány i vícekrát hodnoty vstupních běhů závisejí na výstupech předchozích běhů typy metod se kombinují na základě dílčích výsledků
Etapa 7 - interpretace zpracování většinou velkého množství výsledků jednotlivých metod některé výsledky nejsou pro uživatele zajímavé či naopak jsou známé některé výsledky se dají použít přímo, některé je třeba podat srozumitelněji pro uživatele výsledky se uspořádají do analytické zprávy výstupem může být i provedení určité akce např. spuštění monitorovacího programu
Terminologie Koncept oblast zájmu co chceme předpověď počasí Instance jednotlivá data data o počasí jednoho konkrétního dne Atributy: jednotlivé vlastnosti instance teplota, tlak, množství srážek
Úlohy pro data mining klasifikace shlukování asociace zjišťování pravidel (A B C se vyskytují často společně) vizualizace sumarizace detekce odchylek a chyb odhady link analýza
Klasifikace Určit instanční třídu pro jednotlivé instance (výskyty dat) Postupy - statistika - rozhodovací stromy - neuronové sítě...
Shlukování Najít "přirozené" skupiny instancí v datech
Asociační pravidla Transakce Položka Produkt 1 MLÉKO, CHLÉB, VEJCE 2 CHLÉB, CUKR 3 CHLÉB, CEREÁLIE 4 MLÉKO, CHLÉB, CUKR 5 MLÉKO, CEREÁLIE 6 CHLÉB, CEREÁLIE 7 MLÉKO, CEREÁLIE 8 MLÉKO, CHLÉB, CEREÁLIE, VEJCE 9 MLÉKO, CHLÉB, CEREÁLIE Časté skupiny položek mléko, chléb (4) chléb, cereálie (3) mléko, chléb, cereálie (2) Pravidla Mléko Chléb (66%)
Úlohy pro data mining klasifikace (predikce) deskripce hledání nuggetů Koncept Z Klasifikace cílem je nalézt znalosti použitelné pro klasifikaci nových vzorů získané znalosti by měly co nejvíce odpovídat danému konceptu dává se přednost přesnosti pokrytí na úkor jednoduchosti Predikce snaha odhadnout ze starších hodnot nějaké veličiny její vývoj v budoucnu (předpověď počasí, kurzy, akcie )
Deskripce cílem je nalézt dominantní strukturu nebo vazby obsažené v daných datech požadují se srozumitelné znalosti pokrývající daný koncept menší množství méně přesných znalostí Koncept Z Popis (deskripce)
Hledání nuggetů zajímavé, nové (překvapivé, dosud neznámé) znalosti, které nemusejí plně pokrývat daný koncept Koncept Z Nuggety
Přehled typických úloh pro DM segmentace a klasifikace klientů banky rozpoznávání problémových klientů rozpoznávání vysoce bonitních klientů segmentace a klasifikace klientů pojišťovny predikce vývoje kurzu akcií predikce spotřeby elektrické energie analýza poruch v sítích analýza poruch automobilů analýza důvodů změny poskytovatele služeb (proč jsme přišli o zákazníky) rozbor nemocnosti predikce epidemií analýza nákupního košíku
Metodiky dobývání znalostí Cíl Poskytnout uživatelům jednotný rámec pro řešení různých úloh z oblasti dobývání znalostí z databází metodiky vyvinuté výrobci softwarových systémů (5A, SEMMA) metodiky vyvinuté výzkumnými a komerčními institucemi jakožto softwarově nezávislé (CRISP DM) sdílení a přenos zkušeností z úspěšných produktů
Metodika 5A Assess posouzení potřeb projektu stanovení kontextu cílů, strategií a procesů Access shromáždění potřebných data a jejich příprava Analyze provedení analýz přeměnit data na znalosti používá se více metod (porovnání výsledků, spolehlivosti, efektivity) Act přeměna znalostí na akční znalosti doporučení, dodatečné otázky a následná rozhodnutí jasná a srozumitelná prezentace nalezených výsledků Automate převedení výsledků analýzy do praxe možnost vytvoření rozhraní pro snadné použití umožnit aktualizaci výsledků dle nových modelů
metodika SEMMA (Enterprise Miner) SAMPLE výběr vhodných objektů EXPLORE vizuální explorace a redukce dat MODIFY seskupování objektů a hodnot atributů, datové transformace MODEL analýza dat neuronové sítě, rozhodovací stromy, statistické techniky, asociace, shlukování ASSESS porovnání modelů a interpretace (srozumitelně pro uživatele)
SAMPLE výběr vzorku dat EXPLORE vizualizace dat shlukování asociace MODIFY selekce a vytváření veličin selekce a vytváření veličin MODEL neuronové sítě modely založené na stromech logistické modely ASSESS zhodnocení modelu
Metodika CRISP-DM Cross-Industry Standard Process for Data Mining vznikl v rámci evropského výzkumného projektu http://www.crisp-dm.org Cíl navrhnout univerzální postup použitelný v nejrůznějších komerčních aplikacích standardní model procesu DM průvodce možnými problémy a jejich řešení v reálných aplikacích Proces DM 6 fází pořadí není přesně určeno výsledky jedné fáze ovlivňují (vstupují) do fáze další některé kroky a fáze je nutné provádět opakovaně
Životní cyklus procesu DM POROZUMĚNÍ PROBLEMATICE POROZUMĚNÍ DATŮM VYUŽITÍ VÝSLEDKŮ DATA PŘÍPRAVA DAT VYHODNOCENÍ VÝSLEDKŮ MODELOVÁNÍ
Fáze DM porozumění problematice (Business Understanding) pochopení cílů úlohy a požadavků na řešení revize zdrojů (datových, výpočetních i lidských) předběžný plán prací porozumění datům (Data Understanding) prvotní sběr dat seznámení s daty, posouzení kvality, vytipování zajímavých podmnožin záznamů v datech výpočet deskriptivních charakteristik dat rozsahy, četnosti atributů, průměrné hodnoty
Fáze DM příprava dat příprava, předzpracování dat (Data Preparation) vytvoření datového souboru, který bude zpracováván jednotlivými analytickými metodami data by měla obsahovat relevantní údaje a být ve tvaru, který vyžaduje příslušná analytická metoda selekce dat čištění transformace dat (typové konverze, diskretizace, binomizace ) doplnění chybějících údajů integrování dat příslušné úpravy se obvykle provádějí opakovaně
Fáze DM modelování, vyhodnocení výsledků modelování (Modeling) použití analytických metod pro dobývání znalostí vybrat vhodné metody, nastavit vhodně parametry metod iterativní činnost opakovaná aplikace algoritmů s různými parametry může vést k potřebě modifikovat data ověření nalezených znalostí vyhodnocení výsledků (Evaluation) z pohledu manažerů byly splněny cíle formulované v zadání úlohy rozhodnutí o způsobu využití výsledků
Fáze DM využití výsledků využití výsledků (Deployment) upravit získané znalosti do podoby využitelné pro zákazníka vizualizace implementace klasifikačního algoritmu v user-friendly podobě příprava uživatelského manuálu instalace programů zaškolení uživatelů změna metod řešení příslušných úkolů (např. poskytování úvěrů)