Dobývání a vizualizace znalostí

Podobné dokumenty
Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Získávání dat z databází 1 DMINA 2010

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Získávání znalostí z dat

Moderní systémy pro získávání znalostí z informací a dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Získávání znalostí z databází. Alois Kužela

Předzpracování dat. Lenka Vysloužilová

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Využití metod strojového učení v bioinformatice David Hoksza

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Strojové učení Marta Vomlelová

Chybějící atributy a postupy pro jejich náhradu

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Dolování z textu. Martin Vítek

Pravděpodobně skoro správné. PAC učení 1

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Kybernetika a umělá inteligence, cvičení 10/11

ANALÝZA A KLASIFIKACE DAT

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

Vytěžování dat přednáška I

UČENÍ BEZ UČITELE. Václav Hlaváč

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Státnice odborné č. 20

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Využití strojového učení k identifikaci protein-ligand aktivních míst

Analytické procedury v systému LISp-Miner

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Příprava dat v softwaru Statistica

Profitabilita klienta v kontextu Performance management

Umělá inteligence a rozpoznávání

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Datová věda (Data Science) akademický navazující magisterský program

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Úvod do dobývání. znalostí z databází

Katedra kybernetiky, FEL, ČVUT v Praze.

Učící se klasifikátory obrazu v průmyslu

Automatizační a měřicí technika (B-AMT)

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

Přednáška 13 Redukce dimenzionality

Předzpracování dat pro data mining: metody a nástroje

Instance based learning

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

8.2 Používání a tvorba databází

Proces marketingového výzkumu - jednotlivé fáze, význam, stručná charakteristika. Výběr a formulace výzkumného problému. Vztahy mezi proměnnými.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Opatření děkana LF MU č. 5/2013 k zajištění ověřitelnosti výzkumných dat. Část I. Základní ustanovení

Datové modelování II

Ústav automatizace a měřicí techniky.

1. Data mining. Strojové učení. Základní úlohy.

Dolování asociačních pravidel

Co všechno je zpracování osobních údajů podle GDPR

Uživatelská podpora v prostředí WWW

Segmentace bankovních zákazníků algoritmem k- means

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

INFORMATIKA. Libovolná učebnice k MS OFFICE 200x (samostatné učebnice k textovému procesoru MS Word 200x, tabulkovému procesoru MS Excel 200x).

BA_EM Electronic Marketing. Pavel

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

GIS Geografické informační systémy

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

Diabetická asociace České republiky. Závěrečná zpráva pilotního projektu

1. Dobývání znalostí z databází

Vizualizace v Information Retrieval

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Hodnocení životního prostředí. Přístupy, prostředky, postupy

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Analýza dat na PC I.

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Ontologie. Otakar Trunda

5. Umělé neuronové sítě. Neuronové sítě

Úvodem Dříve les než stromy 3 Operace s maticemi

Databáze Bc. Veronika Tomsová

Dobývání znalostí z databází

Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT. Učební text. Jana Šarmanová

2. Modelovací jazyk UML 2.1 Struktura UML Diagram tříd Asociace OCL. 3. Smalltalk 3.1 Jazyk Pojmenování

Cíl výuky: Cílem předmětu je uvedení studentů do problematiky projektování, seznámit posluchače se zásadami

Vytěžování znalostí z dat

Insolvenční řízení - očekávání, realita, budoucnost. Reorganizace vs. sanační konkurz"

aktivita A0705 Metodická a faktografická příprava řešení regionálních disparit ve fyzické dostupnosti bydlení v ČR

Základy business intelligence. Jaroslav Šmarda

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Analytické metody v motorsportu

odlehlých hodnot pomocí algoritmu k-means

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

1 Úvod 1.1 Vlastnosti programového vybavení (SW)

7. Rozdělení pravděpodobnosti ve statistice

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Přehled realizovaných pro top management společnosti

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Transkript:

Dobývání a vizualizace znalostí Olga Štěpánková, Lenka Vysloužilová, et al. https://cw.fel.cvut.cz/wiki/courses/a6m33dvz/start 1

Osnova přednášky Úvod: data, objem, reprezentace a základní terminologie Vytěžování dat (Data Mining) & dobývání znalostí (Knowledge Discovery) a používané techniky (předpokládané dovednosti) Přehled základních přístupů k modelování dat Typické postupy DM metodika CRISP-DM Průzkumová analýza dat a nejjednodušší vizualizační techniky Plán semestru a další zdroje informací 2

Kde se bere současná záplava dat? Digitální data a archivace. Archivace a její meze. Největší zdroje a oblasti: Obchodní transakce (obchodní řetězce, banky, pojišťovny...) Telekomunikace, internet a elektronický obchod, sociální sítě Zdravotnictví a používané senzory Věda a výzkum: astronomie, biologie, genomika, Publikace: texty, časopisy a knihy 3

Záplava dat? Prefix Násobek mega 10 6 giga 10 9 tera 10 12 peta 10 15 exa 10 18 zetta 10 21 yotta 10 24 Ancestry.com má asi 600 terabytů genealogických dat zahrnující US Census data z let 1790 až 1930. Data předávaná přes Internet: v roce 1993 asi 100 terabytů. V r. 2008 odhaduje Cisco, Internetová výměna dat činí asi 160 terabytů/s (tedy asi 5 zettabytů za rok). AT&T zpracovává miliardy spojení za den Planeta Země: méně než 3x10 50 atomů. Vznikající objemy dat nelze skladovat ani prohlížet. Je nutné z dat vybírat jen to důležité! Role znalostí. 4

Terminologie Instance(pozorování): - nezávislé pozorované jednotky data o počasí jednoho konkrétního dne Atributy(příznaky): - jednotlivé vlastnosti instance teplota, tlak, množství srážek Reprezentace dat Matice pozorování: řádky jsou instance a sloupce příznaky Relační databáze, grafy,... (sociální sítě,...) Příznakový prostor: prostor, jehož dimenze jsou definovány jednotlivými příznaky pozorování jsou body v příznakovém prostoru Koncept: oblast zájmu podmožina příznakového prostoru (která má nějaký výnam), např. léto Model: popis konceptu nebo alg.odpovídání na dotazy, 5

Definice dobývání znalostí Dobývání znalostí (Data Mining ) je netriviální proces zpracování dat, který vede k identifikaci či vyhledání takových srozumitelných vzorů v příslušných datech, které jsou validní, nové, a potenciálně užitečné (použitelné). Převzato z Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996 6

Dobývání znalostí z dat Cíl: částečná automatizace procesu získání zajímavých vzorů chování z reálných dat: tvorba jejich modelů - pomocí nástrojů strojového učení, statistiky, databázových technologií, Nové slibné odvětví SW průmyslu, jehož cílem je využít existující data pro zlepšení rozhodovacích procesů a získání nových znalostí 7

Souvislosti Strojové učení Vizualizace Dobývání znalostí (Data Mining) Statistika Databázové technologie 8

Dobývání znalostí z dat Příklady aplikací: průmysl (diagnostika poruch, predikce spotřeby ) obchod (marketing, bankovnictví) věda (charakterizace karcinogenních látek) medicína (mapování lidského genomu) analýza sociálních sítí (LinkedIn,...) Typické úlohy a způsoby jejich řešení (modely): Hledání instancí, které jsou si navzájem podobné - shlukování Hledání typických vzorů chování asociační pravidla Předpovídání hodnoty některého příznaku pro novou (dosud nezaznamenanou) instanci regrese, rozhodovací stromy,.., NN 9

Metodika CRISP-DM (www.crisp-dm.org) 1 2 10

Zadaní 1. Business Understanding Pochopení cílů úlohy a problémů, které potřebuje majitel dat/zákazník (zadavatel) řešit náklady hodnotí se potenciální přínos vzniklého řešení stanovení předběžného plánu Výchozí data a forma jejich předání anonymizace dat formát dat Způsob komunikace mezi zadavatelem a řešitelem (forma, frekvence,..) 11

Osobní údaje Identifikační údaje Jméno a přijmení Adresa Datum narození, rodné číslo Identifikační číslo např. v nemocničním informačním systému Citlivé osobní údaje Národnostní, rasový nebo etnický původ Politické postoje Náboženství Zdravotní stav Biometrické údaje 12

Problémy reálných dat? Data obsahují špatné údaje způsobené chybami měřicích přístrojů i lidské obsluhy Nevyplněné údaje Data jsou popsána pomocí příliš mnoha atributů - není zřejmé, které z nich jsou pro řešení zvolené úlohy relevantní. Úspěch modelování závisí na volbě vhodné množiny atributů (probably approximately correct learning = PAC learning) Data mají formu složitého relačního schématu, nikoliv jediné tabulky předpokládané atributovými metodami strojového učení POZOR na přísně důvěrná data (nejen osobní údaje)!!! 13

Analýza dat 2. Data Understanding získání základní představy o datech kvalita dat (chybějící údaje) deskriptivní charakteristiky dat četnosti hodnot (histogramy) minima, maxima, průměry použití vizualizačních technik 14

Metodika CRISP-DM 3 4 15

Příprava dat 3. Data Preparation příprava dat pro modelování selekce atributů výběr relevantních atributů čištění dat doplnění dat (např. z veřejně přístupných zdrojů) získávání odvozených atributů převod typů dat transformace dat do jedné velké tabulky formátování pro jednotlivé modelovací techniky nejpracnější část celého procesu často se provádí opakovaně 16

Modelování 4. Modeling použití analytických metod (metody strojového učení) Obvykle se aplikuje více metod příklady metod rozhodovací stromy asociační pravidla shluková analýza statistické metody často návrat zpět k přípravě dat UCI Machine Learning Repository = data pro testování modelů http://archive.ics.uci.edu/ml/ 17

Typy úloh Informované metody - učení s učitelem Klasifikace: přiřazení třídy novému objektu (instanci) Predikce: předpověď chování objektu v čase Neinformované metody učení bez učitele Asociace: hledání vazeb mezi objekty Shlukování: seskupování podobných objektů Hledání nejpodobnějšího objektu 18

Učení s učitelem Úloha: Na základě učitelem klasifikovaných trénovacích dat nalezněte jednoduchou metodu, jak přiřadit třídu novým případům, pro které známe stejný soubor příznaků? Postupy: Nejbližší soused Statistika, Rozhodovací stromy, Neuronové sítě,... 19

Učení bez učitele Úloha: Nalezněte přirozené shluky ve zpracovávaných datech, která nemají žádné značky 20

Metodika CRISP-DM 5 21

Vyhodnocení 5. Evaluation zhodnocení dosažených výsledků modelování z hlediska statistických ukazatelů pomocí testování zhodnocení výsledků z pohledu zadání Pro komunikace se zadavatelem se často používají vizualizační techniky často návrat zpět na začátek celého procesu a stanovení nových cílů (upřesnění nebo úprava zadaní) 22

Testování modelů Q: Jak dobře funguje (klasifikuje) model, který jsme vytvořili? POZOR! Chyba, s jakou model klasifikuje na trénovacích datech není dobrým odhadem pro chování modelu na dosud neznámých datech Q: Proč? Nová data nebudou přesně stejná jako ta použitá pro učení! A navíc i náhodně vygenerovaný konečný soubor dat lze popsat nějakým modelem (třeba samotnou výchozí tabulkou). 23

Testování pro ROZSÁHLÁ data Máme-li hodně dat (tisíce instancí), které obsahují pro každou třídu dostatek vzorků (stovky instancí), pak stačí provést jednoduché testování: Rozděl výchozí data náhodně do 2 množin: trénovací (asi 2/3 dat) a testovací (zbytek, tedy asi 1/3 dat) Vytvoř klasifikační model nad trénovací množinou a proveď hodnocení (např.pomocí relativní chyby) na testovací množině Relativní chyba: procentuální podíl chybných instancí vůči mohutnosti celé uvažované množiny instancí 24

Metodika CRISP-DM 6 25

Použití 6. Deployment Úprava získaných znalostí do srozumitelné formy, kterou zadavatel může prakticky využít Mnohdy následuje i pomoc s implementací výsledků do praxe 26

Časové nároky procesu DM? 0 20 40 60 Formulace problému Volba typu řešení Předpokládané využití Posouzení dat Potřebná čast času v rámci celého projektu (v %) Význam pro úspěch projektu (v %) Příprava dat Modelování Vyhodnocení modelů Použití 27

Shrnutí Co je dobývání znalostí? Co je koncept, pozorování(instance), příznak(atribut), příznakový prostor, matice pozorování? Co je metodika CRISP-DM a jaké jsou její jednotlivé fáze? Jaký je rozdíl mezi učením s učitelem a učením bez učitele? Proč při testování rozdělujeme data na trénovací a testovací množinu? 28

Průzkumná analýza dat Data Understanding získání základní představy o datech počty instancí, atributů chybějící hodnoty descriptivní charakteristiky dat podle typu dat četnosti hodnot (histogramy) minima, maxima, průměry odlehlé hodnoty Vizualizace dat 29

30 Histogram

31 Scater plot = XY graf

Box graf B D 1.5R F F D M R F F H 1.5R F B H M F R B H F D medián, F = = D F F - horní a dolní H D F D 1.5 R F kvartil 32

33

34

Shrnutí Co je to kvartil? Jaký je rozdíl mezi výběrovým průměrem a mediánem? Co je to histogram? Jak se zobrazuje odlehlá hodnota v box grafu? 35

Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování neklasifikovaných dat a jejich využití 3. Nástroje pro modelování klasifikovaných dat a jejich využití 4. Vyhodnocení a využití modelů 5. Porozumnění datům a jejich příprava, vizualizace dat 6. Selekce a extrakce příznaků 7. Konstrukce asociačních pravidel (s využitím Apriori algoritmu). 8. Tvorba modelu kombinací více základních modelů 9. Neuronové sítě, volba parametrů a jejich aplikace. 10. Práce s časovýmiřadami. 11. Zpracování přirozeného jazyka jako vstupu 12. Text mining a podpora kreativity 13. Prezentace semestrálních prací 14. Zajímavé aplikace Prerekvizity: Přehled základních pojmů ze statistiky 36

Doporučené zdroje P. Berka: Dobývání znalostí z databází, Academia 2003 M. Kubát: Strojové učení v Mařík et al. (eds) Umělá inteligence (1), Academia 1993 F.Železný, J.Kléma, O.Štěpánková: Strojové učení v dobývání dat v Mařík et al. (eds) Umělá inteligence (4), Academia 2003 S. Few: Simple Visualization Techniques for Quantitative Analysis Now you see it. Analytics Press 2009 Michael Berthold, David J. Hand: Intelligent Data Analysis, Springer 1999, 2003 Daniel T. Larose: Discovering Knowledge in Data, Wiley 2005 Daniel T. Larose: Data Mining: Methods and Models, Wiley 2006 Oded Maimon, Lior Rokach (eds): The Data Mining and Knowledge Discovery Handbook, Springer 2005 37