Dobývání a vizualizace znalostí

Podobné dokumenty
Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí

Získávání dat z databází 1 DMINA 2010

Získávání znalostí z dat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Moderní systémy pro získávání znalostí z informací a dat

Dobývání znalostí z databází

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Získávání znalostí z databází. Alois Kužela

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Předzpracování dat. Lenka Vysloužilová

Využití metod strojového učení v bioinformatice David Hoksza

znalostí z databází- mnohostranná interpretace dat

Strojové učení Marta Vomlelová

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Kybernetika a umělá inteligence, cvičení 10/11

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Příprava dat v softwaru Statistica

ANALÝZA A KLASIFIKACE DAT

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Dobývání dat a strojové učení

Vytěžování dat přednáška I

Pravděpodobně skoro správné. PAC učení 1

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Předzpracování dat pro data mining: metody a nástroje

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Dolování z textu. Martin Vítek

Datové modelování II

Datová věda (Data Science) akademický navazující magisterský program

Segmentace bankovních zákazníků algoritmem k- means

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Úvod do dobývání. znalostí z databází

UČENÍ BEZ UČITELE. Václav Hlaváč

Umělá inteligence a rozpoznávání

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

BA_EM Electronic Marketing. Pavel

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

Chybějící atributy a postupy pro jejich náhradu

Státnice odborné č. 20

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

Profitabilita klienta v kontextu Performance management

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

5. Umělé neuronové sítě. Neuronové sítě

Návrh datového skladu z hlediska zdrojů

Katedra kybernetiky, FEL, ČVUT v Praze.

2. Modelovací jazyk UML 2.1 Struktura UML Diagram tříd Asociace OCL. 3. Smalltalk 3.1 Jazyk Pojmenování

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

1. Dobývání znalostí z databází

Učící se klasifikátory obrazu v průmyslu

Neuronové časové řady (ANN-TS)

Diabetická asociace České republiky. Závěrečná zpráva pilotního projektu

Trénování sítě pomocí učení s učitelem

Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT. Učební text. Jana Šarmanová

Automatizační a měřicí technika (B-AMT)

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

8.2 Používání a tvorba databází

INFORMATIKA. Libovolná učebnice k MS OFFICE 200x (samostatné učebnice k textovému procesoru MS Word 200x, tabulkovému procesoru MS Excel 200x).

Analytické procedury v systému LISp-Miner

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

analýzy dat v oboru Matematická biologie

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Vizualizace v Information Retrieval

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Ústav automatizace a měřicí techniky.

Big Data Science Petr Paščenko

Proces marketingového výzkumu - jednotlivé fáze, význam, stručná charakteristika. Výběr a formulace výzkumného problému. Vztahy mezi proměnnými.

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU

Opatření děkana LF MU č. 5/2013 k zajištění ověřitelnosti výzkumných dat. Část I. Základní ustanovení

Úvod do principů objektově orientovaného programování

Uživatelská podpora v prostředí WWW

1 Úvod 1.1 Vlastnosti programového vybavení (SW)

Úvodem Dříve les než stromy 3 Operace s maticemi

Marta Vomlelová

Predikce roční spotřeby zemního plynu po ceníkových pásmech

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Přednáška 13 Redukce dimenzionality

Dell Statistica - Řízení rizik ve výrobě webinář ( )

Statistická teorie učení

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Lineární klasifikátory

Je možné efektivně používat procesně orientované pracovní postupy při zdravotní péči?

Využití strojového učení k identifikaci protein-ligand aktivních míst

Testování modelů a jejich výsledků. Jak moc můžeme věřit tomu, co jsme se naučili?

1. Data mining. Strojové učení. Základní úlohy.

Analytické metody v motorsportu

Transkript:

Dobývání a vizualizace znalostí Olga Štěpánková et al. 1

Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich využití I 3. Vyhodnocení a využití modelů 4. Porozumnění datům a jejich příprava, vizualizace dat 5. Selekce a extrakce příznaků 6. Konstrukce asociačních pravidel (s využitím Apriori algoritmu). 7. Tvorba modelu kombinací více základních modelů 8. Neuronové sítě, volba parametrů a jejich aplikace. 9. Nástroje pro modelování neklasifikovaných dat a jejich využití 10. Práce s časovými řadami. 11. Zpracování přirozeného jazyka jako vstupu 12. Text mining a podpora kreativity 13. Prezentace semestrálních prací 14. Zajímavé aplikace Prerekvizity: Přehled základních pojmů ze statistiky 2

Doporučené zdroje P. Berka: Dobývání znalostí z databází, Academia 2003 M. Kubát: Strojové učení v Mařík et al. (eds) Umělá inteligence (1), Academia 1993 F.Železný, J.Kléma, O.Štěpánková: Strojové učení v dobývání dat v Mařík et al. (eds) Umělá inteligence (4), Academia 2003 S. Few: Simple Visualization Techniques for Quantitative Analysis Now you see it. Analytics Press 2009 Michael Berthold, David J. Hand: Intelligent Data Analysis, Springer 1999, 2003 Daniel T. Larose: Discovering Knowledge in Data, Wiley 2005 Daniel T. Larose: Data Mining: Methods and Models, Wiley 2006 Oded Maimon, Lior Rokach (eds): The Data Mining and Knowledge Discovery Handbook, Springer 2005 3

Osnova Úvod: data a jejich rostoucí objem Vytěžování dat (Data Mining) & dobývání znalostí (Knowledge Discovery) a související pojmy Typické postupy DM metodika CRISP-DM Průzkumová analýza dat a její základní vizualizační techniky 4

Kde se bere současná záplava dat? Digitální data a archivace. Archivace a její meze. Oblasti: Obchodní transakce (obchodní řetězce, banky, pojišťovny...) Telekomunikace, internet a elektronický obchod Zdravotnictví Věda a výzkum: astronomie, biologie, genomika, Publikace: texty, časopisy a knihy 5

Záplava dat? Prefix Násobek mega 10 6 giga 10 9 tera 10 12 peta 10 15 exa 10 18 zetta 10 21 yotta 10 24 Ancestry.com má asi 600 terabytů genealogických dat zahrnující US Census data z let 1790 až 1930. Data předávaná přes Internet: v roce 1993 asi 100 terabytů. V r. 2008 odhaduje Cisco, Inetrnetová výměna dat činí asi 160 terabytů/s (tedy asi 5 zettabytů za rok). AT&T zpracovává miliardy spojení za den Země: méně než 3x10 50 atomů. Vznikající objemy dat nelze skladovat ani prohlížet. Je nutné z nich vybírat jen to důležité! Role znalostí. 6

Dobývání znalostí z dat Cíl: částečná automatizace procesu získání zajímavých vzorů chování z reálných dat: tvorba jejich modelů - pomocí nástrojů strojového učení, statistiky, databázových technologií, Nové slibné odvětví SW průmyslu, jehož cílem je využít existující data pro zlepšení rozhodovacích procesů a získání nových znalostí 7

Souvislosti Strojové učení Vizualizace Dobývání znalostí (Data Mining) Statistika Databázové technologie 8

Dobývání znalostí z dat Příklady aplikací: průmysl (diagnostika poruch, predikce spotřeby ) obchod (marketing, bankovnictví) věda (charakterizace karcinogenních látek) medicína (mapování lidského genomu) 9

Definice dobývání znalostí Data Mining is the non-trivial process of identifying valid novel potentially useful and ultimately understandable patterns in data. from Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996 10

Terminologie Koncept: oblast zájmu co chceme předpověď počasí Instance(pozorování): - nezávislé pozorované jednotky data o počasí jednoho konkrétního dne Atributy(příznaky): - jednotlivé vlastnosti instance teplota, tlak, množství srážek Příznakový prostor: prostor, jehož dimenze jsou definovány jednotlivými příznaky pozorování jsou body v příznakovém prostoru Matice pozorování: řádky jsou instance a sloupce příznaky 11

Metodika CRISP-DM (www.crisp-dm.org) 12

Zadaní Business Understanding pochopení cílů úlohy náklady hodnotí se přínos stanovení předběžného plánu forma předání dat anonymizace dat formát dat 13

Osobní údaje Identifikační údaje Jméno a přijmení Adresa Datum narození, rodné číslo Identifikační číslo např. v nemocničním informačním systému Citlivé osobní údaje Národnostní, rasový nebo etnický původ Politické postoje Náboženství Zdravotní stav Biometrické údaje 14

Problémy reálných dat? Data obsahují špatné údaje způsobené chybami měřicích přístrojů i lidské obsluhy Nevyplněné údaje Data jsou popsána pomocí příliš mnoha atributů - není zřejmé, které z nich jsou pro řešení zvolené úlohy relevantní. Úspěch modelování závisí na volbě vhodné množiny atributů (PAC učení) Data mají formu složitého relačního schématu, nikoliv jediné tabulky předpokládané atributovými metodami strojového učení POZOR na zpracování osobních údajů!!! 15

Analýza dat Data Understanding získání základní představy o datech kvalita dat (chybějící údaje) descriptivní charakteristiky dat četnosti hodnot (histogramy) minima, maxima, průměry použití vizualizačních technik 16

17 Metodika CRISP-DM

Příprava dat Data Preparation příprava dat pro modelování selekce atributů výběr relevantních atributů čištění dat získávání odvozených atributů převod typů dat transformace dat do jedné velké tabulky formátování pro jednotlivé modelovací techniky nejpracnější část celého procesu často se provádí opakovaně 18

Modelování - Modeling použití analytických metod (metody strojového učení) používá se více metod příklady metod rozhodovací stromy asociační pravidla shluková analýza statistické metody často návrat zpět k přípravě dat UCI Machine Learning Repository = data pro testování modelů http://archive.ics.uci.edu/ml/ 19

Typy úloh Klasifikace: přiřazení třídy objektu Predikce: předpověď chování objektu v čase Asociace: hledání vazeb mezi objekty Shlukování: seskupování podobných objektů 20

Učení s učitelem Úloha: Na základě učitelem klasifikovaných trénovacích dat nalezněte jednoduchou metodu, jak přiřadit třídu novým případům, pro které známe stejný soubor příznaků Postupy: statistika, Rozhodovací stromy, Neuronové sítě,...? 21

Učení bez učitele Úloha: Nalezněte přirozené shluky ve zpracovávaných datech, která nemají žádné značky 22

23 Metodika CRISP-DM

Vyhodnocení - Evaluation zhodnocení dosažených výsledků modelování zhodnocení výsledků z pohledu zadání použití vizualizačních technik často návrat zpět na začátek celého procesu a stanovení nových cílů (úprava zadaní) 24

Testování modelů Q: Jak dobře funguje (klasifikuje) model, který jsme vytvořili? Chyba, s jakou model klasifikuje na trénovacích datech není dobrým odhadem pro chování modelu na dosud neznámých datech Q: Proč? Nová data nebudou přesně stejná jako ta použitá pro učení! A navíc i náhodně vygenerovaný konečný soubor dat lze popsat nějakým modelem (třeba samotnou výchozí tabulkou). 25

Testování pro ROZSÁHLÁ data Máme-li hodně dat (tisíce instancí), které obsahují pro každou třídu dostatek vzorků (stovky instancí), pak stačí provést jednoduché testování: Rozděl výchozí data náhodně do 2 množin: trénovací (asi 2/3 dat) a testovací (zbytek, tedy asi 1/3 dat) Vytvoř klasifikační model nad trénovací množinou a proveď hodnocení (např.pomocí relativní chyby) na testovací množině Relativní chyba: procentuální podíl chybných instancí vůči mohutnosti celé uvažované množiny instancí 26

27 Metodika CRISP-DM

Použití - Deployment Úprava získaných znalostí do srozumitelné formy pro zadavatele Případně pomoc s implementací výsledků do praxe 28

Časové nároky procesu? 0 20 40 60 Formulace problému Volba typu řešení Předpokládané využití Posouzení dat Potřebná čast času v rámci celého projektu (v %) Význam pro úspěch projektu (v %) Příprava dat Modelování 29

Shrnutí Co je dobývání znalostí? Co je koncept, pozorování(instance), příznak(atribut), příznakový prostor, matice pozorování? Co je metodika CRISP-DM a jaké jsou její jednotlivé fáze? Jaký je rozdíl mezi učením s učitelem a učením bez učitele? Proč při testování rozdělujeme data na trénovací a testovací množinu? 30

Analýza dat Data Understanding získání základní představy o datech počty instancí, atributů chybějící hodnoty descriptivní charakteristiky dat podle typu dat četnosti hodnot (histogramy) minima, maxima, průměry odlehlé hodnoty Vizualizace dat 31

32 Histogram

33 Scater plot = XY graf

Box graf B D F D M F H B H M medián F horní a dolní kvartil 1.5R F R F 1.5R F R B F D F F H D F D 1.5R F 34

35

36

Shrnutí Co je to kvartil? Jaký je rozdíl mezi výběrovým průměrem a mediánem? Co je to histogram? Jak se zobrazuje odlehlá hodnota v box grafu? 37