Feature Ranking a Feature Selection založené na induktivních modelech

Podobné dokumenty
Přednáška 13 Redukce dimenzionality

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

NG C Implementace plně rekurentní

Předzpracování dat. Lenka Vysloužilová

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

RELATIONAL DATA ANALYSIS

Vytěžování znalostí z dat

Moderní systémy pro získávání znalostí z informací a dat

Vytěžování znalostí z dat

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Vytěžování znalostí z dat

Extrakce a selekce příznaků

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Algoritmy a struktury neuropočítačů ASN P6

PŘEDNÁŠKA 03 OPTIMALIZAČNÍ METODY Optimization methods

Vytěžování znalostí z dat

Biologicky inspirované výpočty. Schématické rozdělení problematiky a výuky

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

Klepnutím lze upravit styl předlohy. Klepnutím lze upravit styl předlohy. nadpisů. nadpisů. Aleš Křupka.

Lineární diskriminační funkce. Perceptronový algoritmus.

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Database systems. Normal forms

Lukáš Brodský Praha Osnova. Objektový přístup Verze 4, 5, 6 / 7 Developer7 -funkčnost, nové vlastnosti HW

Kartografické modelování V Topologické překrytí - Overlay

Genetické programování

Compression of a Dictionary

Jakub Zavodny (University of Oxford, UK)

Hledání nápadů v textových zdrojích

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Perception Motivated Hybrid Approach to Tone Mapping

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Vytěžování znalostí z dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Ontologie Příklady. Přednáška z předmětu Socioekonomická geografie pro geomatiku (KMA/SGG) Otakar Čerba Západočeská univerzita

Business Intelligence

Přednáška 8: Induktivní modelování - algoritmy GMDH MIA, COMBI

The target was to verify hypothesis that different types of seeding machines, tires and tire pressure affect density and reduced bulk density.

Státnice odborné č. 20

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Algoritmy pro spojitou optimalizaci

Dobývání znalostí z textů text mining

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Miroslav Čepek

Selekce a extrakce příznaků 2

Biosensors and Medical Devices Development at VSB Technical University of Ostrava

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Získávání znalostí z dat

, ČVUT v Praze Připravil: Ing. Zdeněk Patočka Letecké laserové skenování a jeho využití v inventarizaci lesa

DATA MINING KLASIFIKACE DMINA LS 2009/2010

Příprava dat a) Kontrola dat

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

PROFESIONÁLNÍ EXPOZICE PRACOVNÍKÙ FAKTORÙM PRACOVNÍHO PROSTØEDÍ VE VZTAHU K HLÁENÝM NEMOCÍM Z POVOLÁNÍ V ROCE 2003

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Popis plnění balíčku WP08: Snižování mechanických ztrát pohonných jednotek

Vícekriteriální optimalizace

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

SLEDOVÁNÍ AKTIVITY KYSLÍKU PŘI VÝROBĚ LITINY S KULIČKOVÝM GRAFITEM

Neuronové sítě pro predikci časových řad. Josef Bouška

Vizualizace jako nástroj studia chování modelů přírodních systémů

Vytěžování znalostí z dat

Klasifikační metody pro genetická data: regularizace a robustnost

Uživatelské preference v prostředí webových obchodů. Ladislav Peška, MFF UK

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Změkčování hranic v klasifikačních stromech

Uni- and multi-dimensional parametric tests for comparison of sample results

Gramatická evoluce a softwarový projekt AGE

Dobývání a vizualizace znalostí

Swarm Intelligence. Moderní metody optimalizace 1

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Emergence chování robotických agentů: neuroevoluce

INFLUENCE OF CONSTRUCTION OF TRANSMISSION ON ECONOMIC PARAMETERS OF TRACTOR SET TRANSPORT

Převod prostorových dat katastru nemovitostí do formátu shapefile

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

Karta předmětu prezenční studium

Shluková analýza dat a stanovení počtu shluků

Kybernetika a umělá inteligence, cvičení 10/11

Přírodou inspirované metody umělé inteligence

Jak se matematika poučila v biologii

Genetické programování 3. část

Matematické modely spontánní aktivity mozku

PRODEJNÍ EAUKCE A JEJICH ROSTOUCÍ SEX-APPEAL SELLING EAUCTIONS AND THEIR GROWING APPEAL

Obsah přednášky. Databázové systémy. Normalizace relací. Normalizace relací. Normalizace relací. Normalizace relací

Seminář 6 statistické testy

CHAPTER 5 MODIFIED MINKOWSKI FRACTAL ANTENNA

STUDY EDITS FOR BETTER TRANSPORT IN THE CENTRE OF NÁCHOD

Umělá inteligence aneb co už není sci -fi

A0M33EOA: Evoluční optimalizační algoritmy

PDD Vlastní téma

Strojové učení Marta Vomlelová

Lubomír Pavliska. Datový sklad pro vědu a výzkum s návazností na datové analýzy klinických dat FNO

Dobývání znalostí z databází

Transkript:

Feature Ranking a Feature Selection založené na induktivních modelech 01001110 01100101 01110101 01110010 01101111 01101110 01101111 01110110 01100001 00100000 01110011 01101011 01110101 01110000 01101001 01101110 01100001 00100000 01101011 01100001 01110100 01100101 01100100 01110010 01111001 00100000 01110000 01101111 01100011 01101001 01110100 01100001 01100011 01110101 00101100 00100000 01000110 01000101 01001100 00100000 01000011 01010110 01010101 01010100 Aleš Pilný pi l ny al e ( at ) f el. c v ut. c z Computational Intelligence Group Department of Computer Science and Engineering Faculty of Electrical Engineering Czech Technical University in Prague 7.10.

Obsah Skupina CIG Úvod do problematiky Stávající metody Knowledge Discovery, Feature Ranking / Selection AMIFS, ReliefF, CFS Metody založené na induktivních modelech Úvod do GAME, FAKE-GAME FeRaNGA CBFR, MIFR

CIG (Computational Intelligence Group) Umělé neuronové sítě (rekurentní, THSOM, GAME,..) Přírodou inspirované algoritmy Genetické Mravenčí hybridní www.cig.felk.cvut.cz algoritmy a jiné optimalizace (JCOOL) evoluce Data Mining & Knowledge Discovery (FAKE-GAME) Automatické předzpracování dat (GA) Hardwarové akcelerace vědeckých výpočtů (PS) Projekty spojené s lékařstvím, přírodovědou, HW,...

Úvod do problematiky Proces získávání znalostí Knowledge Discovery Pole působnosti metod pro Feature Ranking a Feature Selection DB Normalizace, chybějící hodnoty,... Redukce dat (v počtu instancí i atributů),... Hledání vzorů v datech (klasifikace, regrese, clustering...)

Úvod do problematiky II Redukce dat z pohledu počtu atributů: Feature Ranking - ohodnocování atributů Feature Selection - vybrání podmnožiny atributů Feature Extraction Vytváření menší množiny nových atributů z původních Feature = attribute = factor = příznak, atribut, faktor, fíčura, vstup,...

Úvod do problematiky III - Feature Ranking / Selection Jak jsou atributy významné / které? Pořadí (ranks) 1. P-length 2. P-width 3. S-length 4. S-width (0.9) (0.8) (0.3) (0.1) Feature Ranking Redukce Feature Selection dimensionality

Úvod do problematiky IIIb Wrappers vyhodnocení každé podmnožiny atributů napříč stav. prostorem atributů na daném modelu - náročné, náchylné na přeučení FS metody Filters obdoba Wrapper metod + místo modelu jednodušší filtr zohledňuje jen vlastnosti dat Feature Ranking(FR) Feature Selection(FS) Embedded metody zabudované v alg. pro tvorbu modelu + selekce dle informací z vytváření modelu

Stávající metody - Feature Ranking ReliefF metoda Varianty pro klasifikaci i regresi (RReliefF) Průběžné ohodnocování dle vzdálenosti mezi blízkými instancemi (weighting near Hit & Miss) AMIFS metoda (klasifikace) Výběr k-nejlepších ( = selekce. If k = N Mutual Information kritérium výběru (rozdíl entropií) ranking) Vybírej postupně atributy, které mají nejvíce společné informace s výstupní třídou, ale nejméně se zbývajícími nevybranými atributy.

Stávající metody - Feature Selection CFS metoda - klasifikace Ohodnocuje podmnožiny atributů dle hodnoty korelačně-heuristické funkce M S= S k r cf k r cf k k k 1 r ff r ff Čitatel predikovatelnost třídy podmnožinou atributů Podmnožina atributů Počet atributů podmnožiny S Průměrná korelace mezi atributem a výstupní třídou Průměrná korelace mezi atributy Jmenovatel hodnota redundance mezi atributy Výsledkem je S maximalizující MS

Metody založené na induktivních modelech I FeRaNGA Ohodnocování atributů během stavby sítě GAME CBFR (Correlation Based Feature Ranking methods) MIFR (Mutual Information Based Feature Ranking methods) CBFR a MIFR - ohodnocování atributů na hotové síti GAME dle zpracování vzájemné korelace či Mutual Information sousedních neuronů

Přeheld CFS, AMIFS,.. FeRaNGA Pole působnosti metod pro Feature Ranking a Feature Selection DB Normalizace, chybějící hodnoty,... CBFR, MIFR Redukce dat (v počtu instancí i atributů),... Hledání vzorů v datech (klasifikace, regrese, clustering...)

Metody založené na induktivních modelech II GMDH MIA GMDH GAME FAKE-GAME GMDH Group Method of Data Handling MIA GMDH Multilayered Iterative Algortithm GMDH GAME Group of Adaptive Methods Evolution FAKE-GAME Fully Automated Knowledge Extraction - GAME

Metody založené na induktivních modelech III NGA Different number of inputs

Metody založené na induktivních modelech III

Metody založené na induktivních modelech IV FeRaNGA

FeRaNGA, FeRaNGA-n I - FeRaNGA - Klasifikace i regrese Během stavby sítě GAME (pomocí NGA) aktualizujeme váhy (významnosti) atributů dle jejich procentuálního využití využití - z monitorování genů v populaci Při stavbě se model snaží nevyužít redundantní a irelevantní atributy učení s učitelem (trénovací, testovací, validační množiny dat) => Feature Selection atributů jako vedlejší efekt stavby modelu (sítě GAME) Nejlepší výsledky z první vrstvy sítě GAME - paradoxně kvůli NGA

FeRaNGA, FeRaNGA-n II Experiment s umělými daty: Uniform Hypercube Data Set 50 atributů, 2 třídy bodů ze dvou různých 10 D normálních gaussovských rozložení Od 1 do 10 klesající relevance, 11-20 irrelevantní, 2150 redundantní

FeRaNGA, FeRaNGA-n III FR na Hypercube Data setu z Weky a FeRaNGA metody FeRaNGA má horší výsleky Nestabilní Nevybrané atributy Defaultní konfigurace GAME i Weka

FeRaNGA, FeRaNGA-n IV Značný vliv konfigurace NGA na výsledek lze ovlivnit nastavením parametrů GA (epochy, individuálové,..) nestabilita stále přetrvá Nastavení NGA konfigurace můžeme doplnit výpočtem ranků/významností z ensemble n GAME modelů jako MEDIÁNU z hodnot významností jednotlivých atributů z těchto modelů. = FeFaNGA-n

FeRaNGA-n Uniform Hypercube data set, FeRaNGA-5 NGA: # epoch = 150 a počáteční populace = 150 jedinců UNC = # unikátních chromozomů, od nejlepších po všechny S rostoucím UNC klesá trend restrikce metody FeRaNGA v počtu selektovaných atributů Všechny ranky jsou korektní (díky FeRaNGA-5)

Influence of NGA configuration on FeRaNGA-7 results Gaussian multivariate data set two clusters of points generated from two different 10thdimensional normal Gaussian distributions 1-10 are equally relevant, 11-20 are irrelevant, 21-50 are highly redundant with the first ten features

Influence of NGA configuration on FeRaNGA-7 results (on Gaussian Data Set) Default configuration of NGA: 30 individuals and 15 epochs Ranks computed as a medians over all layers of medians.

Influence of NGA configuration on FeRaNGA-7 results (on Gaussian Data Set) Default configuration of NGA: 30 individuals and 15 epochs 9 correct ranks in first two layers Redundant features Incorrect features! Ranks computed as a medians over all layers of medians

Influence of NGA configuration on FeRaNGA-7 results (on Gaussian Data Set) Default configuration of NGA: 30 individuals and 15 epochs 9 correct ranks in first two layers Redundant features Configuration of NGA: 75 individuals and 75 epochs Incorrect features! 10 correct ranks

Influence of NGA configuration on FeRaNGA-7 results (on Gaussian Data Set) Default configuration of NGA: 30 individuals and 15 epochs 9 correct ranks in first two layers Redundant features Configuration of NGA: 75 individuals and 75 epochs Incorrect features! 10 correct ranks Configuration of NGA: 150 individuals and 150 epochs All features have correct ranks.

Dependency of accuracy on Nr. of models for FeRaNGA-n method (on Hypercube Data set) First ten ranks from first layers of FeRaNGA-7 on the Hypercube Data Set. Ranks computed from a higher Nr. of models depend on significance of features from previous models.

Dependency of accuracy on Nr. of models for FeRaNGA-n method (on Hypercube Data set) First ten ranks from first layers of FeRaNGA-7 on the Hypercube Data Set.

Dependency of accuracy on Nr. of models for FeRaNGA-n method (on Hypercube Data set) First ten ranks from first layers of FeRaNGA-7 on the Hypercube Data Set. For NGA configuration 75 are correct ranks from 5, 6 and 7 models.

Dependency of accuracy on Nr. of models for FeRaNGA-n method (on Hypercube Data set) First ten ranks from first layers of FeRaNGA-7 on the Hypercube Data Set. For NGA configuration 75 are correct ranks from 5, 6 and 7 models. Growing Nr. of models and stronger NGA config. cause improving of accuracy.

Dependency of accuracy on Nr. of models for FeRaNGA-n method (on Hypercube Data set) First ten ranks from first layers of FeRaNGA-7 on the Hypercube Data Set. For NGA configuration 75 are correct ranks from 5, 6 and 7 models. Growing Nr. of models and stronger NGA config. cause improving of accuracy. With NGA config. 150 are all ranks of features correct.

CBFR a MIFR Input features 1 2 Inter-relation r_a1 r_a2 Output neuron r_a3 r_b1 r_b2 output 3 4... path 'a'... path 'b' Two hidden layers

CBFR a MIFR metody - Klasifikace i regrese Kalkul Fuzzy logika Certainty Factors Ohodnocení atributů dle zpracování vzájemného vztahu výstupů sousedních jednotek Inputs Nejůspěšnější přístupy: FL-FR metoda (fuzzy logic) a CCF-FR metoda (combine certainty factors )

CBFR metody Zpracovává KORELACI: FL-FR ~ Fuzzy Logic (sets) std. sjednocení / průnik CCF-FR ~ Combine Certainty Factors významnost i-tého atributu korelace výstupu neuronů na N-té cestě

MIFR metody Zpracovává MI: MI-FL-FR ~ Fuzzy Logic (sets) std. sjednocení / průnik MI-CCF-FR ~ Combine Certainty Factors významnost i-tého atributu MI výstupu neuronů na N-té cestě

MI-CCF-FR method IF E is observed THEN H is true (with cetainty factor, CF = n) E evidence, H hypothesis CF is a number from 0.0 to 1.0 CCF Combine CF CF's combined along the paths Rank assigned to the maximal conclusion

CB-FR and MI-FR Experiments Housing real-word data set - Regression problem / data from ML UCI repository (http://www.ics.uci.edu/) Comparison of proposed on RMS error among our proposed methods and ICA-FX method ICA-FX - N. Kwak, C. Kim, and H. Kim. Dimensionality reduction based on ica for regression problems. Neurocomputing, 71:2596 2603, 2008

Comparison on Housing real-word data set FL-FR and CCF-FR correlation based methods MI-FL-FR and MI-CCF-FR MI based methods ICA-FX... averages of five regresion methods (MLP,SVM, 1-NN, 3NN and 5-NN). The best preformance Better results than the rest of methods Average RMS error from ten runs Average of standard deviations from ten experiments of five regression methods or of ten runs of our proposed methods

Závěr FR a FS metody založené na - realtime využití stavby induktivního modelu FeRaNGA-n - post-processingu struktury hotového modelu CB-FR metody využívající korelaci výstupu neuronů FL-FR CCF-FR MI-FR metody využívající MI výstupu neuronů MI-FL-FR MI-CCF-FR

Dotazy Děkuji za pozornost pilnyale@fel.cvut.cz Dotazy?