Extrakce a selekce příznaků

Podobné dokumenty

Předzpracování dat. Lenka Vysloužilová

Přednáška 13 Redukce dimenzionality

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Získávání znalostí z dat

AVDAT Mnohorozměrné metody, metody klasifikace

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

Rozhodovací stromy a jejich konstrukce z dat

Klasifikace a rozpoznávání. Extrakce příznaků

Bayesovská klasifikace digitálních obrazů

Pravděpodobně skoro správné. PAC učení 1

Selekce a extrakce příznaků 2

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice.

(n, m) (n, p) (p, m) (n, m)

Zpracování a vyhodnocování analytických dat

Dálkový průzkum Země. Ústav geoinformačních technologií Lesnická a dřevařská fakulta MENDELU

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Regresní a korelační analýza

6. T e s t o v á n í h y p o t é z

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Počítačové šachy. Otakar Trunda

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Plánování úloh na jednom stroji

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1

2. RBF neuronové sítě

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Skalární součin je nástroj, jak měřit velikost vektorů a úhly mezi vektory v reálných a komplexních vektorových prostorech.

Řešení problému batohu dynamickým programováním, metodou větví a hranic a aproximativním algoritmem

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Výpočetní teorie učení. PAC učení. VC dimenze.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Pro bodový odhad při základním krigování by soustava rovnic v maticovém tvaru vypadala následovně:

ANALÝZA A KLASIFIKACE DAT

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Dnešní program odvozování v Bayesovských sítích exaktní metody (enumerace, eliminace proměnných) aproximační metody y( (vzorkovací techniky)

Ing. Václav Eksler Ústav telekomunikací FEKT VUT v Brně

Informační systémy pro podporu rozhodování

Kapitola 11. Vzdálenost v grafech Matice sousednosti a počty sledů

Klasifikační metody pro genetická data: regularizace a robustnost

Algoritmy a struktury neuropočítačů ASN P6

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

zejména Dijkstrův algoritmus pro hledání minimální cesty a hladový algoritmus pro hledání minimální kostry.

Statistická teorie učení

Využití strojového učení k identifikaci protein-ligand aktivních míst

Genetické algoritmy. Vysoká škola ekonomická Praha. Tato prezentace je k dispozici na:

Semestrální práce z předmětu KMA/MM. Voroneho diagramy

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Vedoucí práce: RNDr. Martin Pergel, Ph.D.

Algoritmy pro shlukování prostorových dat

RNDr. Tomáš Pavlík, PhD. RNDr. Jiří Jarkovský, PhD. Doc. RNDr. Ladislav Dušek, PhD. Ústav zdravotnických informací a statistiky České republiky

Rozhodovací stromy a lesy

ADAPTACE PARAMETRU SIMULAČNÍHO MODELU ASYNCHRONNÍHO STROJE PARAMETR ADAPTATION IN SIMULATION MODEL OF THE ASYNCHRONOUS MACHINE

Spotřebitelský řetězec lesních produktů požadavky

Katedra kybernetiky, FEL, ČVUT v Praze.

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

x 2 = a 2 + tv 2 tedy (a 1, a 2 ) T + [(v 1, v 2 )] T A + V Příklad. U = R n neprázdná množina řešení soustavy Ax = b.

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa

Vytěžování znalostí z dat

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Neuropočítače. podnět. vnímání (senzory)

Projektové řízení a rizika v projektech

Klasická a robustní ortogonální regrese mezi složkami kompozice

DSS a De Novo programming

Miroslav Čepek

Shluková analýza dat a stanovení počtu shluků

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Genetické programování

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Několik poznámek na téma lineární algebry pro studenty fyzikální chemie

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Statistické vyhodnocování experimentálních dat. Mgr. Martin Čada, Ph.D.

Euklidovský prostor Stručnější verze

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ANALÝZA A KLASIFIKACE DAT

12. Aproximační algoritmy

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

Matematika pro geometrickou morfometrii

Moderní systémy pro získávání znalostí z informací a dat

Feature Ranking a Feature Selection založené na induktivních modelech

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

1. Přednáška. Ing. Miroslav Šulai, MBA

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Dobývání znalostí z textů text mining

Využití metod strojového učení v bioinformatice David Hoksza

Matice. Přednáška MATEMATIKA č. 2. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE. Optimalizace trasy při revizích elektrospotřebičů

PROVEDENÍ ANALÝZY RIZIK

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Statistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012

Vytěžování znalostí z dat

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Úvod do teorie her. David Bartl, Lenka Ploháková

Management. Stanovování, monitorování a měření cílů v organizaci - metody

Transkript:

Extrakce a selekce příznaků Based on slides Martina Bachlera martin.bachler@igi.tugraz.at, Makoto Miwa And paper Isabelle Guyon, André Elisseeff: An Introduction to variable and feature selection. JMLR, 3 (2003) 1157-1182

Osnova - plán přednášky Úvod/Motivace/PAC učení Proč? Základní definice, Terminologie Co? Metody hodnocení příznaků (Variable Ranking methods Jak? Výběr podmnožiny příznaků

Problém zaostřování pozornosti Běžný a velmi častý problém inteligentních (učících se) agentů (subjektů). Hledá se odpověď na otázku: Které aspekty řešeného problému jsou důležité/nezbytné pro vyřešení? Je nutné rozlišit mezi relevantními a zbytnými částmi dostupné zkušenosti.

Co je to výběr (selekce) příznaků? Cílem výběru příznaků je nalézt takovou podmnožinu příznaků, která je dostatečná pro očekávané rozhodnutí učící se algoritmus může ostatní příznaky ignorovat (výsledkem je REDUCE DIMENSIONALITY) Živé organismy tento problém řeší stále a průběžně!

Motivační příklad z biologie Opice, které se mají naučit rozlišovat mezi 2 třídami obličejů označenými jako a [1]? N. [1] Nathasha Sigala & Sigala, N. Logothetis, Nikos Logothetis: 2002: Visual Visual categorization categorization shapes feature shapes selectivity feature in the primate selectivity visual cortex. in the Nature Vol. 415(2002) primate temporal cortex.

Motivační příklad z biologie Všechny uvažované příznaky: - Oči: výška umístění - Oči: vzdálenost mezi nimi - Nos: délka - Ústa: výška umístění Kolik lze vytvořit párů? Diagnostické příznaky: - Oči: výška umístění - Oči: vzdálenost mezi nimi Ne-diagnostické příznaky: - Nos: délka - Ústa: výška umístění

Motivační příklad z biologie V průběhu sledovaného procesu učení u opic byla sledována aktivita 150 neuronů v příslušné části mozkové kůry (anterior inferior temporal cortex) Výsledky: Na začátku pokusu bylo identifikováno 44 neuronů, jejichž chování se měnilo v souvislosti se výrazně měnilo v souvislosti se změnou alespoň jednoho pozorovaného příznaku Poté, co opice úlohy zvládly (naučily se rozpoznávat určené 2 třídy): 72% (32/44) neuronů reagovalo pouze v případě změny jednoho nebo obou diagnostických příznaků (a nikoliv v případě změny ne-diagnostických příznaků)

Proč je výběr příznaků důležitý? Vztah mezi výběrem příznaků a strojovým učení (ML) nebo dobýváním znalostí? - Předpokládáme-li, že informace o cílové třídě je implicitně zahrnuta v hodnotách příznaků, pak - Můžeme učinit naivní závěr, že mít více příznaků - je výhodné, neboť tím získáváme => víc informací => větší rozlišovací schopnost. - Praktická zkušenost upozorňuje, že často tomu tak není! - Další doplňkový argument: Optimalizace je (obvykle) výhodná. Proč se tedy nepokusit o optimalizaci kódování vstupu?

Věta o PAC učení rozhodovacího stromu Nechť objekty jsou charakterizovány pomocí n binárních atributů a nechť připouštíme jen hypotézy ve tvaru rozhodovacího stromu s maximální délkou větve k. Dále nechť, jsou malá pevně zvolená kladná čísla blízká 0. Pokud algoritmus strojového učení vygeneruje hypotézu, která je konzistentní se všemi m příklady trénovací množiny a platí m m k-dt (n) c ( n k + ln (1/)) / pak je -skoro správná hypotéza s pravděpodobností větší než (1-), t.j. chyba hypotézy na celém definičním oboru konceptu je menší než s pravděpodobností větší než (1-).

Podobný vztah jako ten popsaný větou o PAC učení rozhodovacímu stromu platí o všech ostatních metodách strojového učení! Příklady objemných dat o vysoké dimenzi Textové dokumenty, etc Situace, kdy je třeba doplnit další informace jako apriorní znalosti (třeba 3D struktura molekuly DNA) v úlohách typu Získávání informací Klasifikace etc Redukce dimenze je velmi důležitá

Váha (kg) (kg) Příklad redukce dimenze V případě klasifikace na lidi štíhlé a s nadváhou podle 2 atributů 60 50 overweight underweig ht 140 150 Výška (cm) (cm) Redukce dimenze pomocí přechodu na nový příznak váha/(výška 100) zachová informaci o klasifikaci na štíhlé a s nadváhou zjednodušuje klasifikaci Redukuje velikost dat ( 2 příznaky 1 příznak )

2 cesty k redukci dimenze Extrakce příznaků (Feature Extraction) váha(kg) váha / výška Vytvoří nový příznak, který může skupinu jiných nahradit Např. váha/výška Výběr příznaků (Feature Selection) Weight (kg) výška(cm) váha(kg) Vybere 1 nebo více příznaků, na které se sosutředí např. zachová p. váha (používá příslušný průmět) V tomto příkladě není klasifikace jednoznačná Height (cm)

Východiska classes samples dimensions (features) Nechť matice X reprezentuje trénovací data odpovídající n vzorkům, z nichž každý je popsán pomocí d vlastností (atributů) V případě učení s učitelem víme dále, že data patří do c tříd dimensions Cílem redukce dimenze je získat (výběrem či extrakcí) p atributů tak, aby se podařilo zachovat co nejvíc z původní informace vzhledem k nějakému kritériu. Zhruba by mělo platit:

Metody pro extrakci příznaků postupují tak, že provádějí projekci dat do prostoru o nižší dimenzi Metody bez učitele Principal Component Analysis (PCA) Independent Component Analysis (ICA) Metody s učitelem Linear Discriminant Analysis (LDA) Maximum Margin Criterion (MMC) Orthogonal Centroid algorithm (OC) a hledají co nejlepší matici projekce W, která zvýší výkon při řešení zpracovávané úlohy

Principal Component Analysis PCA se snaží maximalizovat pro výpočet PCA je potřeba znát hodnotu Singular Value Decomposition (SVD), jejíž výpočet určuje složitost úlohy: časová sl.: prostorová sl.: C : kovarianční matice trace představuje celkovou varianci studovaných dat (počítá se jako součet diagonál v variance-kovarianční matici)

Linear Discriminant Analysis LDA (podobně jako PCA) hledá projekci (lineární kombinace původních atributů), která maximalizuje S b a minimalizuje S w Časová složitost Prostorová složitost Metoda používaná pro učení s učitelem : Interclass scatter matrix : Intraclass scatter matrix

Potřebujeme selekci příznaků? Nepochybně ano, protože - Mnohdy pracujeme s daty charakterizovanýmí stovkami či dokonce desítkami tisíc atributů, z nichž mnohé jsou irelevantní nebo redundantní! - Pro taková data je velmi obtížné zjistit (nebo odhadnout) jejich pravděpodobnostní distribuční funkci (např. kvůli vzájemné závislosti mezi některými atributy)! - Informace od hodnotách irelevantních a redundantních atributů komplikují proces učení, neboť učící algoritmy matou či zavádějí! - Teorie PAC v souvislosti s omezeným počtem trénovacích dat! - Omezené výpočetní prostředky! - Prokletí dimensionality!

Prokletí dimensionality Počet trénovacích příkladů m potřebných proto, aby byla vytvořena hypotéza o dostatečné přesnosti roste exponenciálně s počtem atributů! PAC: m > Počet_prvků (Prostor_hypotéz) V praktických úlohách bývá maximální počet trénovacích příkladů pevně dán! => výkon klasifikátoru (classifier performance) výrazně klesá s rostoucím počtem atributů (# of variables)! Velmi často lze docílit toho, že ztráta informace vzniklá vynecháním některých atributů je vyvážena daleko lepšími výsledky klasifikace v prostoru o nižší dimenzi!

Typický mnohodimenzionální problém Kategorizace textů Každý dokument je reprezentován prostřednictvím vektoru tvořeného údaji o frekvenci výskytu jednotlivých slov uvažovaného slovníku. Tedy délka vektoru je dána velikostí slovníku. Slovník obvykle obsahuje asi 15.000 slov (pracujeme tedy s 15.000 atributy) - Typické úlohy: - Automatická kategorizace dokumentů (podle tématu) - Identifikace spamu v emailech

Osnova Introduction/Motivation Základní definice, Terminologie Metody hodnocení příznaků (Variable Ranking methods Výběr podmnožiny příznaků

Selekce příznaků - definice Máme-li množinu příznaků F{ f,..., f,..., f } 1 i n pak cílem selekce příznaků je nalézt takovou podmnožinu F ' která maximalizuje schopnost učicího algoritmu klasifikovat správně zpracovávaná data. F F F { f,..., f,..., f } { f,..., f,..., f } 1 i n f. selection i i i 1 j m i 1,..., n ; j 1,..., m j i i a b; a, b 1,..., m a b

Extrakce příznaků - definice F{ f,..., f,..., f } Máme-li množinu příznaků, pak cílem extrakce (konstrukce) příznaků je nalézt takové zobrazení množiny F do množiny F, které maximalizuje schopnost učicího algoritmu klasifikovat správně zpracovávaná data. 1 i n F F { f,..., f,..., f } { g ( f,..., f ),..., g ( f,..., f ),..., g ( f,..., f )} 1 i n f. extraction 1 1 n j 1 n m 1 n

Výběr optimální množiny příznaků? Teoretický úkol zní nalézt optimální podmnožinu příznaků (která maximalizuje zvolenou hodnotící funkci) V reálných aplikacích je nemožné tento úkol splnit, protože Ve většině úloh je výpočetně nezvladatelné prohledat celý prostor všech možných podmnožin (exponenciální složitost) Hledají se proto vhodné aproximace pro optimální podmnožinu Většina výzkumu v této oblasti spočívá v hledání efektivních heuristik.

Relevance příznaků Kdy je příznak relevantní? Je třeba rozlišit více možností: Relevantnost 1 příznaku, Relevantnost příznaku v kontextu jiných příznaků, Relevantnost pro pevně zvolený algoritmus strojového učení,... Většina definic je problematická, neboť se pro ně dají nalézt takové příklady, kdy by žádný z použitých příznaků nebyl považován za relevantní, i když je možné z nich vycházet při rozhodování Rozlišují [2] se dva stupně relevantnosti: slabě a silně relevantní příznak. Příznak je relevantní, pokud je slabě či silně relevantní, jinak je redundantní (irelevantní). [1] R. Kohavi and G. John Wrappers for features selection. Artificial Intelligence, 97(1-2):273-324, December 1997 [2] Ron Kohavi, George H. John: Wrappers for Feature Subset Selection. AIJ special issue on relevance (1996)

Definice relevantního příznaku Silná relevance příznaku f i : Nechť S i = {f 1,, f i-1, f i+1, f n } je množina příznaků, ve které byl vynechán příznak f i. Příznak f i je silně relevantní právě tehdy, když jeho vynechání ve všech datech vede vždy ke snížení kvality klasifikace při použití optimálního Bayesova klasifikátoru. Slabá relevance příznaku f i : Příznak f i je slabě relevantní, pokud není silně relevantní, ale existuje podmnožina S i množiny S i, pro kterou platí, že výsledek použití optimálního Bayesova pro data s těmito příznaky je horší než při použití téhož klasifikátoru v případě práce se souborem příznaků S i rozšířeném o f i.

Vlastnosti relevance příznaku Relevance Optimalita množiny příznaků Klasifikátory vytvořené nad trénovacími daty bývají suboptimální (nemají k dispozici informaci o skutečné distribuci dat) Relevance příznaku ještě neznamená, že tento příznak musí být v optimální podmnožině příznaků Dokonce irelevantní příznaky mohou zlepšit výkon klasifikátoru Při definici relevance by měl být brán v úvahu použitý klasifikátor (a tedy o obor možných hypotéz).

Osnova Introduction/Motivation Basic definitions, Terminology Metody hodnocení příznaků Výběr podmnožiny příznaků

Hodnocení příznaků Pro danou množinu příznaků F proces hodnocení příznaků probíhá tak, že se příznaky uspořádají podle nějaké hodnotící funkce S: F (která vyjadřuje míru relevance jednotlivých příznaků čím vyšší, tím relevantnější ) Výsledek: taková permutace F původní množiny F, že: F ' { f,..., f,... f } i i i 1 Hodnoty S(f i ) jsou vypočteny z trénovacích dat. j S ( f ) S ( f ); j 1,..., n 1; i j i j1 Hodnotící funkce představuje vhodnou heuristiku takto lze nalézt suboptimální řešení v rozumném čase n

Vhodná hodnotící kritéria Pearsonův korelační koeficient R ( f, y) i cov( f, y) var( f ) var( y) i i Odhad pro m vzorků: R( f, y) i m m k1 f k, i fi yk y 2 2 m f fi y y k, i k k1 k1

Hodnotící kriterium korelace

Hodnotící kriterium korelace R ( Xi, Y) 1,1 nejčastěji se proto oužívá R(x i,y)² nebo R(x i,y) Korelace odpovídá míře lineární závislosti mezi příznakem x i a klasifikací y : Může tedy odhalovat jen lineární vazby mezi příznakem a cílovou klasifikací. To není případ y = XOR(x1,x2)? Otázky : Je možné vždy vyloučit příznaky s nízkým hodnocením? Může být skupina (alespoň 2) příznaků s nízkým hodnocením užitečná?

Ranking Criteria Correlation Může být skupina (alespoň 2) příznaků s nízkým hodnocením užitečná? ANO! Je nutné hledat další kriteria

Další hodnotící kritéria Inf. Teorie Informaticko-teoretická kriteria Většina postupů používá (empirické odhady) vzájmné informace mezi příznakem a cílovým hodnocením: p( x, y) I x y p x y dxdy (, ), i i i log p ( x ) p ( y ) x i y Výpočet pro diskrétní příznaky: P( X xi, Y y) I( xi, y) P( X xi, Y y)log xi y P ( X x ) P ( Y y ) (pravděpodobnost se odhaduje jako frekvence výskytu v trénovacích datech) i i

Osnova Introduction/Motivation Basic definitions, Terminology Variable Ranking methods Selekce podmnožiny příznaků

Výběr podmnožin příznaků Potřebujeme: Míru pro měření kvality vybrané podmnožiny příznaků (hodnotící funkci) Strategii prohledávání prostoru všech možných podmnožin => Good heuristics are needed! Používané metody: Filtrační metody Wrappers Vnořené metody jsou zabudované do jednotlivých algoritmů strojového učení (např. uvnitř ID3) [9] E. Amaldi, V. Kann: The approximability of minimizing nonzero variables and unsatisfied relations in linear systems. (1997)

Výběr podmnožiny příznaků Filtrační metody Vybírají podmnožinu příznaků obvykle v rámci předzpracování a nezávisle na tom, jaký bude použit klasifikátor!! Např. hodnocení jednotlivých příznaků je filtrační metoda Výhody: rychlé, universální (nezávisí na volbě následného použitého algoritmu )

Výběr podmnožiny příznaků Wrapper Methods Wrapper prohledává prostor všech možných podmnožin příznaků a každou zvažovanou podmnožinu hodnotí tak, že její kvalitu otestuje na trénovacích datech s použitím nějakého učicího algoritmu (chápe se jako černá skříňka ) Výsledky se liší podle použitých metod strojového učení (učicích algoritmů) Je nutné upřesnit způsob : prohledávání prostoru všech možných podmnožin (např. heuristické prohledávání dopředné nebo zpětné, hladové,..) Odhadu kvality výkonu dané množiny příznaků pro strojové učení (např. pomocí validační množiny, )

Výběr podmnožiny příznaků Wrapper:

Závěrečné poznámky Výběr příznaků může významně zlepšit výkon při řešení problému strojového učení (přesnost i npočítačová náročnost) ale jedná se o náročnou úlohu! Je to cesta k řešení problémů s velmi mnoha atributy Pozor na vztah mezi relevancí a optimalitou (nelze automaticky ignorovat všechny příznaky s malým hodnocením mohou mít význam v kombinaci). Prostor pro vylepšení: Prohledávání prostoru podmnožin příznaků Odhad kvality aktuální množiny příznaků Malé množiny příznaků lže najít i při použití metody boosting (kombinace klasifikátorů) pro klasifikátory s jediným příznakem!