Předzpracování dat pro data mining: metody a nástroje

Podobné dokumenty
Získávání znalostí z dat

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí

Moderní systémy pro získávání znalostí z informací a dat

Dolování z textu. Martin Vítek

Microsoft Access tvorba databáze jednoduše

Dobývání a vizualizace znalostí

Příprava dat v softwaru Statistica

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

MBI - technologická realizace modelu

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Obsah. Co je to Field-Map? Field-Map software Popis technologie Field-Map Zdroje

Úvodní přednáška. Význam a historie PIS

Archivace relačních databází

Stručný obsah. K2118.indd :15:27

Získávání dat z databází 1 DMINA 2010

Úvod do zpracování signálů

Přehled nabízených kurzů

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

xrays optimalizační nástroj

Předzpracování dat. Lenka Vysloužilová

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

Business Intelligence

Smart Grid Data Mining

PowerOPTI Řízení účinnosti tepelného cyklu

EXTRAKT z mezinárodní normy

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Dobývání a vizualizace znalostí

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Kurz je rozdělen do čtyř bloků, které je možné absolvovat i samostatně. Podmínkou pro vstup do kurzu je znalost problematiky kurzů předešlých.

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

1 Webový server, instalace PHP a MySQL 13

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Úvod do dobývání. znalostí z databází

Středoškolská technika SCI-Lab

Analýza a modelování dat. Helena Palovská

Jak používat statistiky položkové v systému WinShop Std.

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Uživatelská podpora v prostředí WWW

Inovace a zkvalitnění výuky prostřednictvím ICT Databázové systémy MS Access složitější konverze dat Ing. Kotásek Jaroslav

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

ANALÝZA A KLASIFIKACE DAT

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

Ukládání a vyhledávání XML dat

Chybějící atributy a postupy pro jejich náhradu

Data x Informace x Znalosti

Návrh datového skladu z hlediska zdrojů

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

PŘÍLOHA C Požadavky na Dokumentaci

Předmluva 11 Typografická konvence použitá v knize Úvod do Excelu

LabMeredian Plus základní kurz

POPIS TECHNICKÉHO ŘEŠENÍ INFORMAČNÍHO SYSTÉMU PRO SBĚR DAT V PROJEKTU SLEDOVÁNÍ DEKUBITŮ JAKO INDIKÁTORU KVALITY OŠETŘOVATELSKÉ PÉČE NA NÁRODNÍ ÚROVNI

Access. Tabulky. Vytvoření tabulky

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Čas (s) Model časového průběhu sorpce vyplývá z 2. Fickova zákona a je popsán následující rovnicí

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

1. Téma 03 - Rozhodování

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

Dolování v objektových datech. Ivana Rudolfová

Stěhování aplikací. Michal Tomek, Sales Manager

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Přednáška 13 Redukce dimenzionality

Základní popis Toolboxu MPSV nástroje

Aplikace vytěžování dat

Datové modelování II

Geografické informační systémy ArcGIS Pavel Juška (jus011) 4. března 2010, Ostrava

GDPR v sociálních službách

Pravděpodobnost, náhoda, kostky

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY

Automatizace je proces při němž je řídicí funkce člověka nahrazována činností

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

5. Umělé neuronové sítě. Neuronové sítě

Profitabilita klienta v kontextu Performance management

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

WORKFLOW. Procesní přístup. Základ perspektivního úspěšného podnikového řízení. Funkčnířízení založené na dělbě práce

Aplikace pro srovna ní cen povinne ho ruc ení

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

odlehlých hodnot pomocí algoritmu k-means

Jalapeño: pekelně ostrá Java persistence v Caché. Daniel Kutáč Senior Sales Engineer

rychlý vývoj webových aplikací nezávislých na platformě Jiří Kosek

Cvičná bakalářská zkouška, 1. varianta

Modulární monitorovací systém Gradient Digitální systém pro záznam, archivaci a vyhodnocení telefonie.

Úvodem Dříve les než stromy 3 Operace s maticemi

Analýza dat na PC I.

Obsah přednášky. Představení webu ASP.NET frameworky Relační databáze Objektově-relační mapování Entity framework

NÁVRH A REALIZACE TRADING STRATEGIÍ NA BÁZI STROJOVÉHO UČENÍ S POMOCÍ MATLABU

Transkript:

Předzpracování dat pro data mining: metody a nástroje Olga Štěpánková, Zdeněk Kouba, P. Mikšovský, P. Aubrecht Gerstnerova laboratoř pro inteligentní rozhodování a řízení České vysoké učení technické v Praze Získávání znalostí z dat (KDD) Cíl: částečná automatizace procesu získání zajímavých vzorů chování z reálných dat: tvorba jejich modelů - např. pomocí nástrojů strojového učení Aplikace: průmysl (diagnostika poruch), obchod (marketing, bankovnictví), věda (charakterizace karcinocenních látek),... Nové slibné odvětví SW průmyslu, jehož cílem je využít existující data pro zlepšení rozhodovacích procesů Problémy reálných dat? Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohoto hlediska bývá sběr i uložení optimalizováno. 1 2 Problémy reálných dat? CRISP: metodika KDD Data obsahují špatné údaje způsobené chybami měřicích přístrojů i lidské obsluhy Nevyplněné údaje 1. Zadání 2. Porozumění datům 3. Příprava dat Data jsou popsána pomocí příliš mnoha atributů - není zřejmé, které z nich jsou pro řešení zvolené úlohy relevantní. Úspěch modelování závisí na volbě vhodné množiny atributů (PAC učení) Data mají formu složitého relačního schématu, nikoliv jediné tabulky předpokládané atributovými metodami strojového učení Příprava dat nabízí různé způsoby, jak se s těmito problémy vyrovnat. První pokus o přípravu dat nebývá ten nejsprávnější - nutné opakování 5. Vyhodnocení 4. Modelování 6. Použití 3 4 1

Časové nároky na přípravu dat? Úkoly předzpracování dat 0 20 40 60 Formulace problému Volba typu řešení Předpokládané využití Posouzení dat Příprava dat Modelování Potřebná čast času v rámci celého projektu (v %) Význam pro úspěch projektu (v %) 1. Chyby v reálných datech Na chyby je třeba upozornit a přijmout rozhodnutí, jak s nimi naložit (například doplnit údaje ve spolupráci s expertem z oboru aplikace nebo naopak využít statistických zákonitostí). U některých atributů se stává, že vyplnění údaje je skoro výjimkou mluvíme pak o řídce (sparse) obsazených atributech 2. Množina vlastností (atributů) Bohatost dat (počet dimenzí) má zásadní vliv i pro úspěch použití technik strojového učení, neboť s dimenzí exponenciálně rostou i nároky na počet trénovacích příkladů snaha zredukovat Doplnění výchozích dat o nové informace na základě dalších datových zdrojů, 3. Velikost celého výchozího datového souboru - výběr podsouborů pro modelování 4. První pokus o přípravu dat nebývá ten nejsprávnější - nutné opakování 5 6 Analýza a úprava jednotlivých atributů I. Zpráva o stavu proměnných typ (spojitá X diskrétní) rozsah definičního oboru (počet použitých hodnot) rozsah a frekvence výskytů (histogram) typ rozdělení a jeho statistické charakteristiky Analýza a úprava jednotlivých atributů II. Náhrada chybějících údajů - provádí se tak, aby zůstala zachována hodnota směrodatné odchylky uvažovaného atributu Úprava rozsahu hodnot atributů pomocí logistické transformace (velmi důležité v každé metodě, která počítá se vzdáleností objektů - např. CBR, nejbližší sousedi, shlukování), Upozornit na osamělé mimořádné hodnoty (outliers) téměř konstantní atributy (možné vynechat) nevyplněná datová pole znečištění dat data neodpovídají deklarovanému formátu hodnoty neodpovídají deklarované množině g (x) = (1 + e a - bx ) 1 g(x) 1 0.8 0.6 0.4 0.2 0-6 -4-2 0 2 4 6 x 7 a=0, b=1 a=0, b=2 a=0, b=4 8 2

Analýza a úprava jednotlivých atributů III. Monotónní atributy představují obvykle jednoznačnou identifikaci pro uvažované objekty, např. pořadové číslo měření, číslo bankovního účtu. Rostou bez omezení a při tom jejich přímá hodnota jako taková nemá pro vytvoření modelu význam. Řady tvořené hodnotami veličin, které jsou pravidelně měřeny a zaznamenávány (např. EKG, burzovní koeficienty). Vždy jsou vztaženy k jediné monotónní veličině, která slouží jako index. často jako index slouží čas -> časová řada Prostředky k analýze: Fourierova analýza Vlnková (wavelet) transformace 1 umožňuje získání časověfrekvenčního popisu signálu Úpravy a analýza dat ve stav.prostoru I. Snížení dimenze vynecháním konstantních atributů atributů řídce obsazených atributů s duplicitní informací (rok narození X věk, apod.) sloučením atributů řídce obsazených z několika řídce obsazených atributů je možné zřetězením vytvořit jeden nový (PVP - present value pattern) 1 Louis, A., K., Maas, P., Rieder, A.: Wavelets: Theory and Applications. Wiley, 1997. 9 10 Úpravy a analýza dat ve stav.prostoru II. Zvýšení dimenze obohacení doplněním údajů z jiných zdrojů (např. meteorologická měření, demografické údaje, apod.) rozšíření přidání odvozených atributů (např. pohlaví z rodného čísla, apod.) otočení dat (reverse pivoting) - nový atribut a n+1 přebírá údaj z objektu následujícího. Pro každý objekt i platí a n+1 (i) = a n (i+1). a1 a2... an-1 an an a1 a2... an-1 an an+1... Úpravy a analýza dat ve stav.prostoru III. Agregace dat - použití metod datových skladů. údaje o více objektech obsažené na několika řádcích jsou vztaženy k jedinému obecnějšímu objektu (tvoří tedy v novém souboru jedinou řádku). Vizualizace např. umístění datového souboru ve stavovém prostoru úlohy, přirozené shluky, nepravidelné deformace,... Statistické přístupy snižování dimenze podmíněná entropie CHAID (Chi-square Automatic Interaction Detector) hledání hlavních komponent (návrh vhodné lin. kombinace) Využití neuronových sítí - Řídce propojená autoasociativní neuronová síť (Sparcely Connected Autoasociative Neural Net: SCANN) Pozor na přídání anachronických atributů!!! 11 12 3

Úprava souborů pro modelování I. Hlavní zásada: každý nový soubor musí s rozumnou dávkou důvěry zachovávat původní pestrost či rozložení výchozího souboru. Vytvoření trénovacích a testovacích dat Předzpracování dat pro data mining: metody a nástroje Vzorkování dat (sampling) Navýšení vlastnosti v trénovacích datech (pro vzácně se vyskytující hodnoty atributu) trénovací množina jako sjednocení 2 nezávislých podmnožin, z nichž v první všechny objekty mají uvažovanou vzácnou hodnotu atributu, v druhé nikoliv namnožení dat s požadovanou hodnotou atributu přidáním bílého šumu SumatraTT 13 14 Úvod Čeho jsme chtěli dosáhnout? Snížení pracnosti nezbytné k: opakovaným činnostem s využitím standardizace a automatizace! efektivní opakované použití vyvinutých komponent vytváření dokumentace: zdlouhavé, ale nezbytné dokumentování experimentu tak, aby jej bylo možné zopakovat např. na testovacích datech! 2 Prepared Information Environment (PIE) Jak? SumatraTT Univerzální, metadaty řízený, transformační nástroj Postaven nad skriptovacím jazykem orientovaným na datové transformace, syntaxí podobným jazyce Java K vytváření datové trasformace využívá knihovnu šablon (templates) Podporuje automatickou dokumentaci datové transformace Předzpracování dat pomocí SumatraTT Neznámá data zjistit strukturu prohlédnout hodnoty Navrhnout převod Dokumentovat Spustit (vícenásobně) 2 Pyle, D.: Data Preparation for Data Mining. Morgan Kaufmann, California, 1999. 15 16 4

Datový zdroj Součástí definice je i typ zdroje (lze změnit) textový soubor SQL (ODBC, ADO) regulární výraz (podobně jako Perl) JavaDB (vzdálené JDBC, komprese, šifrování) Prolog WEKA Parametry datových zdrojů typ parametry DS* seznam atributů parametry atributu Unifikovaný popis atributů (fieldů) Upřesnění atributu (délka, SQLType, formát) Existuje sada automatických wizardů 17 * podle typu (jméno souboru a oddělovač, SQL tabulka, dotaz) 18 SumatraScript Šablony transformací Univerzální interní skriptovací jazyk Veškeré zpracování v jazyku SumatraScript Synatxí podobný jazyku Java, přístup k datovým zdrojům SumatraTT vlastně pouze poskytuje sady funkcí a interních informací (metadat) Kvůli opakujícímu se kódu byl jazyk rozšířen o možnost generování části svého kódu vznikla makra Způsob zpracování dán šablonou (kostra programu) + Specifikace pomocí parametrů vstupní, výstupní datový zdroj vnitřní kód délka udržované historie volitelná akce (RemoveDuplicities)... 19 20 5

Dostupné šablony I. TableCopy prosté kopírování, převod mezi formáty, filtrování, výpočet nových atributů Table1toN rozdělení záznamu na několik, spojení TableSample náhodné rozdělení DS na dva (trénovací, testovací) FairSubset podmnožina o přesně daném počtu prvků (nebo v procentech) Dostupné šablony II. TableReport textová zpráva (hledání chyb) CheckDS kontrola čitelnosti datového zdroje gnuplot vykreslení dat pomocí gnuplot, 2D i 3D RemoveDuplicities zpracování duplicit v SQL databázích CrossTable podpora (poloautomatická) pro křížové tabulky ExecSQL spustísqlpříkaz 21 22 SumatraGUI Vizualizace statická zadávání metadat textově příliš složité jednoduchý grafický návrh 23 24 6

Vizualizace interaktivní Další nástroje 25 26 Dostupnost SumatraTT verze 1 dostupná na adrese http://krizik.felk.cvut.cz/sumatra Instalace obsahuje i sadu šablon pro běžnou práci i pro složitější zpracování Budoucí vývoj I. SumatraTT verze 1 omezené možnosti rozšíření dualita řešení: C++ a Java SumatraTT verze 2 pouze v Javě důraz na uživatelsky přívětivé GUI založeno na standardech XML, JDBC, CORBA 27 28 7

Ukázka verze 2 návrh transformace Ukázka verze 2 - běh transformace 29 30 Dostupnost SumatraTT verze 1 dostupná na adrese http://krizik.felk.cvut.cz/sumatra Instalace obsahuje i sadu šablon pro běžnou práci i pro složitější zpracování 31 8