Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.

Transkript

1 Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.

2 M8DM1 Data mining I - informace Přednášky: metodologie data miningu Cvičení: použití metod v SASu Podmínky cvičení: Pravidelná aktivní účast na cvičeních Úspěšné zvládnutí testu na počítači Pokud nesplníte danou podmínku, bude vám odebrán 1 bod u zkoušky! Zkouška: Obhájení projektu Otázky z přednesené teorie Konzultační hodiny: podle ( ové) dohody

3 M8DM1 Data mining I plán přednášek Úvod do data miningu Organizace dat, databázové systémy Příprava, čištění a předzpracování dat Metody redukce dimenze Exploratorní analýza, vizualizace dat Kontingenční tabulky, korespondenční analýza Asociační analýza (analýza nákupního košíku) Shluková analýza Lineární regrese (odlehlá pozorování, multikolinearita) Logistická regrese, credit scoring Rozhodovací stromy

4 M8DM1 Data mining I literatura Paolo Giudici: Applied Data Mining - Statistical Methods for Business and Industry (2003). David Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining (2001). Matthew North: Data Mining for the Masses (2012). Jiawei Han and Micheline Kamber: Data Mining Concepts and Techniques (2006). Petr Berka: Dobývání znalostí z databází (2003). Pavel Petr: Data mining (2006).

5 M9DM2 Data mining II vyučován jednou za 2 roky (podzim 2016) pokračování DM1 s důrazem na praktické použití metod vybrané přednášky a cvičení vedené odborníky z praxe: 1 Air Bank 2 Home Credit 3 Knoyd 4 a další prohloubení znalostí z kurzu Data mining I: 1 SQL 2 Credit scoring 3 Text mining 4 Pokročilá příprava dat 5 Social Network Analysis

6 Certifikát Data mining in SAS Studenti vysokých škol zapojených do akademického programu SAS mají možnost získat certifikát prokazující získané znalosti softwaru SAS. Certifikáty uděluje společně Masarykova univerzita a SAS Institute ČR. Seznam držitelů uveden na internetu; možnost zapojení do praxe. Podmínky: úspěšné absolvování předmětu M8DM1 absolvování 3 e-learningových kurzů na stránkách SASu

7 Úvod do data miningu definice, historie, aplikace Software pro DM Seznámení se SASem 7

8 Ukázka aktuálních pracovních nabídek 8

11 Co je to Data mining? Data mining (DM), nebo také dolování z dat či vytěžování dat, je analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací z dat. [wikipedia] 11

12 Další definice DM proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody. proces vyhledávání skrytých závislostí a upozorňování na odlišnosti. DM znamená mnoho různých postupů a algoritmů, které umožní odhalit a plně využít vztahy ukryté v datech. Díky výkonným analytickým metodám objevíte důležité informace, které se stanou Vaší konkurenční výhodou. proces, který používá různé analytické nástroje pro odhalení ukrytých vzorů a závislostí v datech. Výsledkem je predikční model, který je podkladem pro rozhodování. proces objevování znalostí, pomocí získávání dříve neznámých akčních informací z velmi rozsáhlých databází. netriviální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v datech. 12

13 Dobývání znalostí z databází (KDD, Knowledge Discovery in Databases) Se zaměřuje na celý proces získávání znalostí z dat: kde a jak jsou data ukládána a skladována jaké algoritmy použít pro velká data jaká je jejich efektivita interpretace a vizualizace výsledků automatizace [Fayyad et al., 1996] 13

14 Technologický proces KDD 1. Selekce: Příprava z dat, uložených v datovém skladu či tabulkách informačního systému, vede k vytvoření jedné tabulky, která obsahuje relevantní údaje o sledovaných objektech. 2. Předzpracování: Dochází k odstranění odlehlých hodnot, vyčištění datových chyb a výpočtu odvozených hodnot. Tato část procesu dobývání znalostí z databází může být vysoce výpočetně náročná. 3. Transformace: Dochází k diskretizaci spojitých veličin, například pro metody pracující s entropií jednotlivých atributů. 4. Data mining: Zde se používají vybrané analytické metody pro nalezení souvislostí v datech. Jedná se o výpočetně a paměťově nejnáročnější část celého procesu. Během procesu se využívají metody různých druhů v závislosti na předchozích výsledcích analytických metod. 5. Interpretace: Zpracovává velké množství výsledků jednotlivých metod. Některé výsledky lze přímo interpretovat, jiné se musí upravit do podoby srozumitelné pro uživatele. 14

15 Technologický proces KDD 15

16 Technologický proces KDD Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 16

17 Data mining vs. KDD KDD proces objevování užitečných informací z dat (od přípravy dat až po tvorbu výstupů a reportů). Data mining jeden krok tohoto procesu. Někdy se pod pojmem data mining myslí celý proces KDD. A tak ho také budeme chápat my. 17

18 Jsou všechny informace zajímavé? lehce pochopitelné platné i na nových datech potenciálně užitečné nové, dosud neznámé potvrzující nějakou naši domněnku Umí DM odhalit všechny užitečné informace? Umí DM odhalit jen ty užitečné informace? 18

19 Jsou všechny informace zajímavé? 19

22 Typické aplikace DM Analýza úvěrového rizika - výběr a ověřování kandidátů žádajících o úvěr; tvorba prediktivního modelu, založeného na známém chování stávajících klientů. Segmentace zákazníků- rozčlenění zákazníků do menších homogenních skupin dle segmentačních kritérií. Analýzou vzniklých údajů vznikne několik shluků s podobnými potřebami a charakteristikami (stejné postoje, podobná věková hranice apod.). Analýza odchodu zákazníků (churn management) - prediktivní model získaný analýzou dat o zákaznících lze použít pro plánování akcí, jenž mohou zabránit odchodu stávajících, nejrizikovějších, zákazníků. 22

23 Typické aplikace DM Detekce podvodů (fraud detection) - pomocí prediktivního modelování lze odhalit podezřelé chování či platební styk. Analýza produktů (market basket analysis) - přímá aplikace analýzy asociací - umožňuje definovat komplementární produkty pro dané segmenty zákazníků. Analýza chování zákazníků - predikce např. vývoje poptávky na základě historických dat. 23

24 Další aplikace DM Medicína: efektivita léčebné péče Analýza pacientovy historie (předchozí nemoci a jejich průběh): nalezení vztahu mezi nemocemi. Farmacie: identifikace nových léků Vědecká analýza dat: Identifikace nových galaxií. Design webových stránek: Nalezení vztahu návštěvníka stránek a příslušná změna podoby stránek. 24

25 Další aplikace DM Rozpoznávání psaného textu, řeči, obrázků. Sociální sítě Mapování, měření a monitorování vztahů a informačních toků mezi jednotlivci, skupinami, počítači, Průmysl Automatické přenastavení ovládacích prvků při změně parametrů procesu. Sport NBA-optimalizace herní strategie Další 25

26 Příklad - segmentace zákazníků obchodu s elektronikou Chceme oslovit své zákazníky s novou nabídkou. Jsou opravdu všichni zákazníci z jednoho těsta? Máme skutečně všem posílat stejnou nabídku? Cíl: identifikovat skupiny zákazníků, kteří mají podobné chování a posílat jim reklamu na míru prostřednictvím jednoho z následujících komunikačních kanálů: Papírový direkt mail Telemarketing Elektronický direkt mail SMS 26

27 Příklad - segmentace zákazníků obchodu s elektronikou 27

28 Příklad - Analýza nákupního košíku Cíl: identifikovat zboží, které je nakupováno souběžně dostatečným množstvím zákazníků. Účel: rozmístění zboží v regálech, tvorba letáků a akčních nabídek, doporučované produkty. Výsledek: Jestliže zákazník nakupuje dětské pleny a mléko, pak si velmi pravděpodobně koupí i pivo. 28

29 Příklad - Analýza nákupního košíku Jedna z možných interpretací: Správné interpretace výsledků analýz je schopen jen zkušený analytik. 29

30 Historie data miningu 1960 s: Data Fishing, Data Dredging (bagrování): rozvoj počítačové techniky, spíše akademické záležitosti 1970 s s: rozvoj statistických metod, databázových aplikací a umělé inteligence, rychlý růst rychlosti a paměti počítačů zpočátku terčem kritiky statistiků: analyzování dat bez nějaké apriorní hypotézy; hledání korelací ve velkých datech 1990 s: metody, umožňující vyhnout se nebezpečí falešných korelací (například kontrola založená na vynechaných datech, MCMC). Navíc zejména v USA rostla poptávka ze strany komerčních organizací (velké objemy dat, neschopnost z nich pomocí klasických metod získat potřebné podklady pro rozhodování). 30

31 Historie názvu DM 1980 s: Database Mining ochranná známka firmy HNC 1989 Knowledge Discovery (KD, KDD) užíváno komunitou zabývající se umělou inteligencí a strojovým učením 1990 Data Mining užíváno v komerční sféře a databázové komunitě Další názvy: Data Archaeology, Information Harvesting, Information Discovery, Knowledge Extraction, Predictive Analytics(2007), Data Science (2011),.. 31

32 Proč data mining? Proč dnes? Data jsou produkována. Data jsou skladována. Výpočetní síla je dostupná. Výpočetní síla je cenově dostupná. Konkurenční tlak je velice silný. Komerční produkty (DM software) jsou k dispozici. 32

33 Data mining nutnost? 33

34 Data mining nutnost? Terabytes -- 10^12 bytes: data obchodních řetězců, bank, Petabytes -- 10^15 bytes: geografická data Exabytes -- 10^18 bytes: národní databáze zdravotních záznamů Zettabytes -- 10^21 bytes: databáze meteo-snímků Zottabytes -- 10^24 bytes: video-databáze 34

35 Data mining nutnost? 35

36 Data mining vs. Statistická analýza Data Mining Původně vyvinuto pro expertní systémy automaticky řešící zadané problémy. Neklade takový důraz na přesné porozumění použité metody. Pokud něco dává smysl, pak to použijme! Žádné předpoklady o datech. Funguje i pro velmi rozsáhlá data. Vyžaduje porozumění problému z datovému a business pohledu. Statistická analýza Testuje se statistická korektnost modelu. Jsou statistické předpoklady modelu splněny? Testování hypotéz. Intervalové odhady. Pracuje se s výběrem hodnot. Standardní metody nejsou optimalizovány pro rozsáhlá data. Vyžaduje pokročilé statistické znalosti. 36

37 Vztah s ostatními disciplínami Databázové technologie Statistika Strojové učení Data Mining Vizualizace Informační technologie Ostatní vědní disciplíny 37

38 Data miningové metodologie 1. 5A (SPSS) - Assess, Access, Analyze, Act, Automate 2. SEMMA (SAS) - Sample, Explore, Modify, Model, Assess 3. CRISP-DM (Statistica) -CRoss Industry Standard Process for Data Mining 4. SixSigma - Define, Measure, Analyze, Improve, Control 38

39 SEMMA (Sample, Explore, Modify, Model, Assess) Sample - identifikovat vhodná učící data, určit odpovídající rozsah dat, a to jak z pohledu časového okna tak i z pohledu počtu případů. Dále se doporučuje rozdělit data na 3 skupiny: Trénovací využívá se pro vývoj modelu. Validační využívá se pro vyhodnocení modelu a pro prevenci proti přeučení (overfitting) modelu. Testovací využívá se pro finální vyhodnocení modelu. Zajímá nás především, jak dobře se model chová na datech disjunktních s daty, na kterých byl model vyvinut. Explore - připravit popisné statistiky, které poskytnou základní představu o obsahu a kvalitě podkladových dat. Pomocí vizualizačních technik odhalit skryté trendy a závislosti v datech. Modify - na základě předchozího kroku konsolidovat data a odvodit nové proměnné. Následně transformovat data do tvaru vhodného pro modelování. Model - vytvořit příslušný model. Assess - vyhodnotit úspěšnost modelu a případně implementovat model do praxe. 39

40 CRISP-DM (CRoss Industry Standard Process for Data Mining) 1. pochopení obchodních souvislostí 2. pochopení dat 3. příprava dat 4. modelování 5. vyhodnocení modelu 6. nasazení modelu do obchodního procesu 40

41 Fáze CRISP-DM procesu (1 & 2) Porozumění obchodu (Business Understanding): Stanovení business cílů. Stanovení data miningových cílů. Stanovení kriterií úspěchu. Porozumění datům (Data Understanding): Průzkum dat a ověření jejich kvality. Nalezení odlehlých hodnot. 41

42 Fáze CRISP-DM procesu (3) Příprava dat (Data preparation): Obvykle zabírá přes 90% celkového času. Sběr dat Konsolidace a čištění Vazební tabulky, agregace, chybějící hodnoty, Selekce Ignorování neužitečných dat? Odlehlá pozorování? Výběr dat? Vizualizační nástroje. Transformace vytváření nových odvozených proměnných 42

43 Fáze CRISP-DM procesu (4) Modelování (Model building) Výběr vhodných modelovacích technik závisí na stanovených data miningových cílech (deskriptivní vs. prediktivní modelování). Modelování je většinou iterační proces propojený s přípravou dat. Rozdílný přístup pro supervised a unsupervised learning. 43

44 Supervised a unsupervised learning Supervised learning: Supervize: Data (pozorování, měření, atp.) jsou označena předem definovanými/známými třídami. Nová/testovací data jsou následně rozřazena do těchto tříd. Z pohledu kauzality daný model definuje vztah mezi vstupními daty a daty výstupními. Unsupervised learning: Předem nejsou definované žádné třídy. Pro daná data je cílem prokázat existenci nějakých tříd. Z pohledu kauzality jsou všechna data chápána jako výstupní. Modelujeme závislost daných dat na jakýchsi neznámých skrytých proměnných. 44

45 Základní přístupy k modelování Deskriptivní: jde o matematický model popisující historické události a předpokládané nebo reálné vazby mezi nimi. Shluková analýza Asociační pravidla Korelační analýza Faktorová analýza, analýza hlavních komponent Prediktivní: jde o matematický model předpovídající (s určitou přesností) budoucí hodnotu/chování nějaké veličiny (entity). Regrese Klasifikační a regresní stromy Analýza časových řad 45

46 Deskriptivní modelování Základním cílem je získání ucelených a snadno srozumitelných informací z dostupných dat. Někdy součástí průzkumové (explorační) analýzy, předcházející prediktivnímu modelování, někdy je vytvoření deskriptivního modelu hlavním cílem DM projektu. 46

47 Shluková analýza V datech chceme nalézt skupiny (shluky) pozorování, které jsou si v jistém smyslu podobné Např. máme nalézt skupiny stávajících zákazníků na základě platební historie tak, aby podobní klienti byli ve stejné skupině. 47

48 Prediktivní modelování - klasifikace Příklad: Na základě známých údajů o starých zákaznících a jejich platební morálce máme predikovat platební způsobilost nového žadatele o úvěr. Předchozí zákazníci Věk Příjem Zaměstnání Bydliště Typ zákazníka Klasifikátor Rozhodovací pravidlo Příjem > x Zaměst. = y Data nového žadatele Dobrý/ špatný 48

49 Klasifikační metody Cíl: na základě historických dat vytvořit rozhodovací pravidlo, které budoucí pozorování zařadí do určité třídy. Lineární regrese Zobecněné lineární modely (GLM) např. logistická regrese Metody nejbližšího souseda (KNN) Rozhodovací stromy Diskriminační analýza (LDA, ) Neuronové sítě Support vector machines (SVM) Bayesovské modely 49

50 Fáze CRISP-DM Procesu (5) Vyhodnocení modelu (Model Evaluation): Evaluace modelu: jak se chová na testovacích datech. Metody a kritéria závisí na typu modelu: Např. koincidenční matice pro klasifikační modely, průměrná chyba pro regresní modely, Interpretace modelu: důležitost a obtížnost interpretace značně závisí na zvolené modelovacím algoritmu. 50

51 Fáze CRISP-DM Procesu (6) Nasazení do praxe (Deployment) Je třeba určit, jak mají být výsledky využity. Kdo je bude využívat? Jak často budou využívány? Nasazení data miningových výsledků pomocí: Skórování databáze. Využití výsledků pomocí obchodních pravidel. Interaktivní on-line scoring. 51

52 Potenciální nebezpečí DM Zneužití osobních údajů Spam Trestná činnost Zneužití v genetice Sledování a špehování 52

53 Data miningový software - komerční Angoss KnowledgeSTUDIO Clarabridge HP Vertica Analytics Platform IBM SPSS Modeler KXEN Modeler Grapheme LIONsolver Microsoft Analysis Services NetOwl Oracle Data Mining SAS Enterprise Miner STATISTICA Data Miner Qlucore 53

54 Data miningový software - free Carrot2: Text and search results clustering framework. Chemicalize.org: A chemical structure miner and web search engine. ELKI: A university research project with advanced cluster analysis and outlier detection methods written in the Java language. GATE: a natural language processing and language engineering tool. KNIME: The Konstanz Information Miner, a user friendly and comprehensive data analytics framework. Massive Online Analysis (MOA): a real-time big data stream mining with concept drift tool in the Java programming language. NLTK (Natural Language Toolkit): A suite of libraries and programs for symbolic and statistical natural language processing (NLP) for the Python language. OpenNN: Open neural networks library. Orange: A component-based data mining and machine learning software suite written in the Python language. R: A programming language and software environment for statistical computing, data mining, and graphics. It is part of the GNU Project. RapidMiner: An environment for machine learning and data mining experiments. Tanagra: A visualisation-oriented data mining software, also for teaching. Torch: An open source deep learning library for the Lua programming language and scientific computing framework with wide support for machine learning algorithms. Weka: A suite of machine learning software applications written in the Java programming language. 54

55 Software -SPSS : 55

56 SPSS IBM SPSS Modeler 13 (dříve Clementine) 56

57 SPSS - zákazníci Citibank Europe Česká spořitelna Prvá stavebná sporiteľna Raiffeisen stavební spořitelna Česká školní inspekce Český statistický úřad Český telekomunikační úřad Česká televize Český rozhlas Slovenská televízia VW Slovakia Škoda auto Seznam RWE Česká rep. Plzeňský prazdroj ČEZ Economia Karlovarské minerální vody 57

58 Software -Statistica 58

59 Statistica - zákazníci Allianz pojišťovna Czech Credit Bureau Česká exportní banka Česká kancelář pojistitelů Česká spořitelna Komerční banka Pojišťovna Kooperativa Pojišťovna VZP Prima banka Slovensko Raiffeisenbank ArcelorMittal Coca-Cola HBC ČR ČEPS Česká distribuční ČESKÁ RAFINÉRSKÁ Fischer Bohemia CHANCE Jaderná elektrárna Dukovany OLYMPUS C & S PEPSICO CZ RWE Interní služby Řízení letového provozu ČR Slovnaft ŠKODA AUTO 59

60 Software - SAS : 60

61 SAS (Statistical Analysis System) Vznik v univerzitním prostředí (North Carolina State University) Původně aplikace v zemědělství, zvýšení výnosu plodin První verze SAS 71, pak nedostatek financí 1976 vznik společnosti SAS Institute, Inc. Dnes: největší soukromá softwarová společnost na světě (více než zaměstnanců) Přes zákazníků 61

62 SAS - zákazníci

63 SAS - stručné seznámení 2 základní SAS rozhraní: SAS windowing environment SAS Enterprise Guide (GUI) 63

64 SAS - stručné seznámení SAS Output SAS Explorer window Program editor window Output tab Log tab Editor tab 64

65 SAS EG - stručné seznámení Pomocí klikání a přetahování myší je budován procesní tok. Process Flow Task List SAS Output 65

66 SAS Statistická analýza: Popisná statistika Analýza kontingenčních (frekvenčních) tabulek Regresní, korelační, kovarianční analýza Logistická regrese Analýza rozptylu Testování hypotéz Diskriminační analýza Shluková analýza Analýza přežití 66

67 SAS Analýza časových řad: Regresní modely Modely se sezónními faktory Autoregresní modely ARIMA Metody exponenciálního vyrovnání 67

68 SAS - stručné seznámení Interaktivní moduly nebo programovací prostředí SAS Enterprise Miner SAS Time Series Studio SAS Forecast Studio SAS IML Studio SAS Data Quality Server SAS OLAP Server SAS Text Miner 68

69 SAS podpora studentů Online tutoriály Vzorová data a příklady Licence pro studenty Zadání a vedení diplomových prací Soutěž o nejlepší studentskou práci s využitím SASu SAS Student Ambassador Program SAS Student Network 69