Vytěžování dat přednáška I

Podobné dokumenty
Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Získávání dat z databází 1 DMINA 2010

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Základy vytěžování dat

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí

Profitabilita klienta v kontextu Performance management

Získávání znalostí z dat

Moderní systémy pro získávání znalostí z informací a dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Využití metod strojového učení v bioinformatice David Hoksza

Získávání znalostí z databází. Alois Kužela

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Segmentace bankovních zákazníků algoritmem k- means

znalostí z databází- mnohostranná interpretace dat

BA_EM Electronic Marketing. Pavel

Dobývání znalostí z databází

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Základy business intelligence. Jaroslav Šmarda

Uživatelská podpora v prostředí WWW

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

Dolování asociačních pravidel

Ontologie. Otakar Trunda

1. Data mining. Strojové učení. Základní úlohy.

1. Dobývání znalostí z databází

Spark SQL, Spark Streaming. Jan Hučín

UČENÍ BEZ UČITELE. Václav Hlaváč

Business Intelligence. Adam Trčka

Analytické procedury v systému LISp-Miner

Spark SQL, Spark Streaming. Jan Hučín

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna Filip Železný (ČVUT) Vytěžování dat 9.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

AVDAT Mnohorozměrné metody, metody klasifikace

StatSoft Úvod do data miningu

Úvodem Dříve les než stromy 3 Operace s maticemi

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Katedra kybernetiky, FEL, ČVUT v Praze.

Jakub Klímek Zlín

Datový sklad. Datový sklad

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Dolování z textu. Martin Vítek

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Datová věda (Data Science) akademický navazující magisterský program

Databáze Bc. Veronika Tomsová

Vytěžování znalostí z dat

Základy umělé inteligence

Využití strojového učení k identifikaci protein-ligand aktivních míst

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Informační systémy 2006/2007

Dobývání znalostí z webu web mining

Předzpracování dat. Lenka Vysloužilová

Diagnostika regrese pomocí grafu 7krát jinak

Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT. Učební text. Jana Šarmanová

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Big Data Science Petr Paščenko

Učící se klasifikátory obrazu v průmyslu

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU

Hledání prostorových asociačních pravidel v prostorových databázích. Discovery of Spatial Association Rules in Geographic Information Databases

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Univerzita Pardubice Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky. Regresní úlohy pro Data Mining.

Kybernetika a umělá inteligence, cvičení 10/11

Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.

Umělá inteligence a rozpoznávání

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

PowerOPTI Řízení účinnosti tepelného cyklu

NÁSTROJE BUSINESS INTELLIGENCE

Big data ukážou mapu, TOVEK řekne kudy jít

9. Dobývání znalostí v praxi

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Magisterský program Biomedicínské inženýrství a informatika na ČVUT FEL Praha

Datové modelování II

Dobývání znalostí z textů text mining

odlehlých hodnot pomocí algoritmu k-means

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

4IT218 Databáze. 4IT218 Databáze

Business Intelligence

STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM

UNIVERZITA PARDUBICE KLASIFIKAČNÍ ÚLOHY PRO DATA MINING. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky.

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

Strojové učení Marta Vomlelová

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Business Intelligence

Chybějící atributy a postupy pro jejich náhradu

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

Klasifikace a rozpoznávání. Lineární klasifikátory

Inovační vouchery s Univerzitou Hradec Králové. doc. Ing. Mgr. Petra Marešová, Ph.D. Ing. Richard Cimler

Datové sklady ve školství

Transkript:

České vysoké učení technické v Praze Fakulta elektrotechnická Katedra kybernetiky Katedra počítačů Vytěžování dat přednáška I Úvod do vytěžování dat Filip Železný: zelezny@fel.cvut.cz Pavel Kordík: kordikp@fel.cvut.cz

Vytěžování dat (data mining) Fayyad et al: Data Mining je netriviální proces identifikace pravdivých, dosud neznámých, potenciálně využitelných a naprosto srozumitelných vzorů v datech Vzor = obecný princip, souvislost, tvrzení, apod. nalezený v konkrétních datech Vzor reprezentuje znalost Dobývání znalostí z dat (Knowledge Discovery in Data, KDD) Účel: zlepšení rozhodovacích procesů Data mining prakticky: vývoj a využití počítačových algoritmů umožňujících vyhledávat vzory

Vytěžování dat neformálně Data Nalezené vzory Má-li vlak 2 vagóny, jede doleva Všechny náklady v jednom vagónu mají stejný tvar...

Příklady (reálnějších) vzorů Častá asociace v nákupních košících {pivo, dětské pleny} Implikace IF horečka AND bolest_svalů THEN chřipka Graf

Který vzor je lepší? Y X Data (x 1,y 1 ), (x 2,y 2 ),... Vzor 1 Rovnice přímky Vzor 2 Rovnice polynomu Oba vzory platné v zadaných datech. Který z nich je pravdivější? Pravdivost vzorů nelze zaručit.

Vytěžování dat Past data miningu: když se dost snažíme, vždy nějaké vzory najdeme V dostupných datech mohou platit jen náhodou Nemusí být skutečně charakteristické pro proces, který data generuje Google define:data Mining : Data mining is the equivalent to sitting a huge number of monkeys down at keyboards, and then reporting on the monkeys who happened to type actual words. Je to tedy k něčemu dobré?!

Vytěžování dat PŘÍKLADY APLIKACÍ

Rozpoznávání řeči

Rozpoznávání obrazu

Vyhledávání relevantních informací Information retrieval

Predikce řad a signálů Finanční analýzy Meteorologie Biosignály (nejen predikce)...

Analýza transakčních dat EAN 1 Název 1 EAN 2 Název 2 EAN 3 Název 3 Výskyty 8590338901657 'MR.MATTES WC NµHRADA CITRON 1X40G' 8590338901671 'MR.MATTES WC NµHRADA LES 1X40G' 8590338901664 'MR.MATTES WC NµHRADA MOüE 1X40G' 7366 8585000703424 'VOUX MíDLO ML KO A MED, 100G' 8585000703394 'VOUX MíDLO S VITAMÖNEM E, 100G' 8585000703332 'VOUX MíDLO ZELENí AJ A CITRON 100G' 3748 8585000703424 'VOUX MíDLO ML KO A MED, 100G' 8585000703363 'VOUX MíDLO S ALOE VERA, 100G' 8585000703332 'VOUX MíDLO ZELENí AJ A CITRON 100G' 3441 8585000703394 'VOUX MíDLO S VITAMÖNEM E, 100G' 8585000703363 'VOUX MíDLO S ALOE VERA, 100G' 8585000703332 'VOUX MíDLO ZELENí AJ A CITRON 100G' 3419 8594003602498 'KOUPELOVµ SUL RELAXA NÖ 70G' 8594003602481 'KOUPELOVµ SUL ZKLIDŐUJÖCÖ 70G' 8594003602504 'KOUPELOVµ SUL ZVLµ ŐUJÖCÖ 70G' 3111 8585000703424 'VOUX MíDLO ML KO A MED, 100G' 8585000703394 'VOUX MíDLO S VITAMÖNEM E, 100G' 8585000703363 'VOUX MíDLO S ALOE VERA, 100G' 3099 8693495004886 'PALMOLIVE MíDLO MILK AND HONEY100G' 8693495004848 'PALMOLIVE MíDLO BÖL-ZVLµ ŐUJÖCÖ 100G' 8693495004862 'PALMOLIVE MíDLO ZELEN -ZVLH UJÖCÖ 100G' 2715 8594001698981 'HAM KOJENECKµ Ví IVA S MERU KAMI 190G' 8594001698974 'HAM KOJENECKµ Ví IVA S BROSKVEMI 190G' 8594001698837 'HAM KOJENECKµ Ví IVA S JOHODAMI 190G' 2651 8594002670122 'TWIGGY ćvestkovµ V JOGURTU 35G' 8594002670139 'TWIGGY BRUSINKOVµ V JOGURT U 31G' 8594002670405 'TWIGGY JAHODOVµ V JOGURTU' 2609 8595000910562 'LARRIN-PLUS FIALOVí 40G N.V.' 8595000910500 'LARRIN-PLUS ZELENí 40G N.V.' 8595000910555 'LARRIN WC PRIM MODRí N.V. 40G' 2554 8594001698981 'HAM KOJENECKµ Ví IVA S MERU KAMI 190G' 8594001698974 'HAM KOJENECKµ Ví IVA S BROSKVEMI 190G' 8595139718879 'HAMKOJENECKµ Ví IVA S HRUćKAMI 190G' 2525 8594001698974 'HAM KOJENECKµ Ví IVA S BROSKVEMI 190G' 8594001698837 'HAM KOJENECKµ Ví IVA S JOHODAMI 190G' 8595139718879 'HAMKOJENECKµ Ví IVA S HRUćKAMI 190G' 2486 'DROXI MINI KR M GEL HONEY&MILK S HYDR.LµTKAMI 8595121403653 'DROXI MINI SG S VIT.E,B5 SPORT&RELAX 35 ML' 8595121403639 'DROXI MINI SG S ES.OLEJI AROMA ANTI STRESS 35 ML' 8595121403646 35ML' 2485 8594003602511 'KOUPELOVµ SUL ISTÖCÖ 70G' 8594003602481 'KOUPELOVµ SUL ZKLIDŐUJÖCÖ 70G' 8594003602504 'KOUPELOVµ SUL ZVLµ ŐUJÖCÖ 70G' 2442 8717163607268 'DOVE MíDLO EXFOLIATING 100G' 4000388170704 'DOVE MíDLO S OLEJEM 100G' 8000700000005 'DOVE MíDLO 100G' 2432 5900452071854 'SUNµREK MASOZEL. PüÖKRM ZELENINA S VEPüOVíM MASEM' 5900452071465 Časté asociace mezi výrobky v nák. košících Segmentace zákazníků 'SUNµREK MASOZEL. PüÖKRM ZELENINA S JEHN ÖM MASEM' 5900452072134 'SUNµREK MASOZEL. PüÖKRM ZELENINA S TELECÖM MASEM 1' 2389 8594001698981 'HAM KOJENECKµ Ví IVA S MERU KAMI 190G' 8594001698837 'HAM KOJENECKµ Ví IVA S JOHODAMI 190G' 8595139718879 'HAMKOJENECKµ Ví IVA S HRUćKAMI 190G' 2362 8594003602511 'KOUPELOVµ SUL ISTÖCÖ 70G' 8594003602498 'KOUPELOVµ SUL RELAXA NÖ 70G' 8594003602481 'KOUPELOVµ SUL ZKLIDŐUJÖCÖ 70G' 2352 8717163978238 'LUX MíDLO S VíTA KY Z RŢ I 90G' 8717163978320 'LUX MíDLO S VíTA KY Z BYLIN 90G' 8717163978399 'LUX MíDLO S MANDLOVíM OLEJEM 90G' 2307 8594003602511 'KOUPELOVµ SUL ISTÖCÖ 70G' 8594003602498 'KOUPELOVµ SUL RELAXA NÖ 70G' 8594003602504 'KOUPELOVµ SUL ZVLµ ŐUJÖCÖ 70G' 2290 8717163978283 'LUX MíDLO S VíTA KY Z OVOCE 90G' 8717163978320 'LUX MíDLO S VíTA KY Z BYLIN 90G' 8717163978399 'LUX MíDLO S MANDLOVíM OLEJEM 90G' 2238

Lékařská diagnostika

Bioinformatika Objevování funkcí genů

Bioinformatika Predikce sekundární struktury bílkovin

Bioinformatika Predikce karcinogenity sloučenin

Systémy pro doporučení

Analýza sociálních sítí Elektronická komunikace LinkedIn, FaceBook,... Citace ve výzkumu Organizovaný zločin Znalostní sítě (Wiki)...

K něčemu to tedy dobré je! Data mining prokázal užitečnost ($$$) v mnoha reálných aplikacích. Obor disponuje metodami pro důkladné ověřování a hodnocení výsledků vytěžování. Jejich důsledné využití odlišuje seriózní DM od šarlatánství. I proto tento předmět.

Vytěžování dat SOUVISLOSTI S DALŠÍMI OBORY

Souvislosti České vysoké učení technické v Praze Fakulta elektrotechnická Strojové učení Katedra kybernetiky Katedra počítačů Vytěžování dat (Data Mining) Vizualizace Statistika Databázové technologie

Souvislosti: Strojové učení Obor umělé inteligence Systémy (algoritmy) zlepšující svoji činnost na základě zkušenosti Zkušenost = data Zlepšování činnosti: obvykle pomocí hledání vzorů v datech Podobný cíl s VD, algoritmy SU lze využít Ale rozdíly (srozumitelnost vzorů, datove transformace,...)

Souvislosti: Statistika Statistická analýza Odhad statistik (průměr, variance,...) Ověřování hypotéz Staří volí stranu X, mladí stranu Y Potvrují to nasbíraná data? Explorační analýza Člověk vymýšlí a ověřuje množství hypotéz Data mining Počítač vymýšlí a ověřuje množství hypotéz

Souvislosti: Vizualizace Vizualizace dat může odhalit hypotézy Často je nutné vizualizovat vzory váha věk

Souvislosti: Databáze Většina aplikací data miningu předpokládá vstupní data ve formě relační databáze (PKDD 1999 challenge, http://lisp.vse.cz/pkdd99/)

Souvislosti: Databáze Vzor může mít podobu relačního databázového dotazu (SQL) SELECT Client.ID FROM Client, Disposition, Account WHEREClient.District = Praha and Client.Client_ID = Disposition.Client_ID ANDAccount.Account_ID = Disposition.Account_ID and Account.Balance > 1000000 Napr. tento vzor charakterizuje bezproblemove klienty Efektivita DM závisí na schopnosti DB systému rychle vyhodnotit tyto dotazy

Souvislosti: Databáze OLAP: Online Analytical Processing Predpocitane odpovedi na caste dotazy do relacni databaze Pro manazersky data mining [obr.: Wiki]

Vytěžování dat VYTĚŽOVÁNÍ JAKO PROCES

VD: praktické problémy Proč je náročné pracovat s reálnými daty? Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohoto hlediska bývá sběr i uložení optimalizováno. Většina času v data miningových projektech je strávena mimo aktivity hledání vzorů (modelování) Téměř vždy opakování cyklu pokus-omyl

CRISP cyklus CRoss Industry Standard Process for DM 1997-9 navrženo jako prům. standard konsorciem Evrop. firem (www.crisp-dm.org) Zadání Porozumění problematice a datům Příprava dat Vyhodnocení Modelování Použití

Vytěžování dat ZÁKLADNÍ POJMY A ÚLOHY

Termíny: Model, Vzor, Hypotéza Vzor (Pattern) Formální popis obecného principu v datech Model Vzor (příp. množina vzorů) postačující k řešení definované úlohy modelování dat Extrémní případ: vzor(y) umožňující generovat pozorovaná data ( generativní model ) Hypotéza model/vzor, který lze ověřit/ohodnotit na datech Pozor: fuzzy terminologie. Užití termínů závisí zejména na kontextu.

Obvykle kategorie uloh Deskripce (popisné úlohy) Model má charakterizovat vstupní data jako celek Hledání nuggetů Hledáme zajimavé vzory, které se mohou týkat třeba jen malých podmnožin vstupních dat Klasifikace, Regrese, Predikce Jedna veličina V je vybrána jako cílová Modelujeme vliv ostatních veličin na V

Deskripce: příklady Shluková analýza (aka: segmentace) příjem věk

Deskripce: příklady Modelování pravděpodob. rozdělením

Nuggety: příklady Asociace {pivo, párky, horčice} Asociační pravidla {párky, horčice} -> {pivo} Odlehlé instance (outlier detection)

Klasifikace: priklady Cilový atribut ma konečnou množinu hodnot Příklad: data: tabulka pacientů Cilový atribut infarkt, hodnoty z {ano, ne} Klasifikátor: IF váha>100 and věk > 50 THEN infarkt-ano Tento klasifikator je symbolický -> čitelný člověkem

Klasifikace: priklady Priklad nesymbolického klasifikátoru Neuronova síť s dopředným řetezením

Regrese a Predikce Regrese Jako klasifikace, ale cílová veličina reálné číslo Příklad regresoru brzdná_dráha = c * hmotnost * rychlost Predikce Klasifikační i regresní modely mohou být využity pro předpověď hodnoty cílové veličiny Z ostatních veličin a/nebo z hodnot cílové veličiny v minulosti Časové rady

To nejdůležitější teprve přijde! Jak modely/vzory hledat/konstruovat? Jak je hodnotit, tj. Jak odhadovat jejich kvalitu? Jak definovat jejich kvalitu?

Literatura http://cw.felk.cvut.cz/doku.php/courses/y336vd/start