Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 / 19
Motivace pro redukci dimezionality Prokletí dimenzionality obtížnost učení roste exponenciálně s počtem dimenzí, v řadě problémů je ale vnitřní dimenzionalita nižší než ta nominální, tj. než je počet příznaků. Snížení dimenzionality transformace z prostoru vyšší dimenze do prostoru nižší dimenze s co nejmenší ztrátou informace, typicky jde o maximalizaci rozptylu, zachování podobnosti mezi objekty atd. Jednu metodu snížení dimenzionality již známe samoorganizující se mapy, redukce dosáhneme náhradou původních souřadnic objektů souřadnicemi jim nejbližšího neuronu v mřížce sousednosti. ČVUT (FEL) Redukce dimenzionality 2 / 19
Motivace pro redukci dimezionality (II) ČVUT (FEL) Redukce dimenzionality 3 / 19
Analýza hlavních komponent Jde o statistickou metodu pro redukci dimenzionality. Označení PCA z anglického Principal Component Analysis. Jde o lineární transformaci nové příznaky jsou lineární kombinací původních, v původním prostoru je lze popsat jako osy, první osa vede směrem, který má největší rozptyl hodnot, druhá osa směrem, kde je druhý největší rozptyl, atd. osy jsou ortogonální, tedy vzájemně pravoúhlé. Vrátí stejný počet nových os, jako mají původní data dimenzí je tedy bezeztrátová, ale já se mohu rozhodnout některé nepoužít. ČVUT (FEL) Redukce dimenzionality 4 / 19
Analýza hlavních komponent (II) Kudy vede osa s největším rozptylem hodnot? ČVUT (FEL) Redukce dimenzionality 5 / 19
Analýza hlavních komponent (II) Kudy vede osa s největším rozptylem hodnot? ČVUT (FEL) Redukce dimenzionality 6 / 19
Analýza hlavních komponent (II) Kudy vede osa s největším rozptylem hodnot? ČVUT (FEL) Redukce dimenzionality 7 / 19
Analýza hlavních komponent (III) Výpočet nových souřadnic pomocí kovariance, vlastních čísel a vlastních vektorů. Uvažujme projekci na u 1 jednotkové délky projekce objektů xi do nové osy dosáhneme skalárním součinem u 1 x i resp. u T 1 x i, střední hodnota projekce v dané ose odpovídá projekci střední hodnoty u 1 x resp. u T 1 x, maximalizujeme-li rozptyl projekce, maximalizujeme výraz 1 N N (u T 1 x i u 1T x) 2 = u T 1 Su 1 i=1 kde N je počet instancí a S je kovarianční matice dat, řešením je největší vlastní vektor S Su 1 = λu 1 u1 je první hlavní komponentou, další z dalších vlastních vektorů. ČVUT (FEL) Redukce dimenzionality 8 / 19
Využití PCA obecně PCA je nejčatěji používanou metodou redukce dimenze silný předpoklad linearity vztahů mezi proměnnými nemusí vždy platit, umožňuje ale robustní výpočet i pro malý počet trénovacích instancí vzhledem k dimenzi. Další využití má v dekorelaci proměnných ta může být na obtíž např. u lineární regrese. Nevýhodou je umělost nových os jež znesnadňuje interpretaci získaných výsledků: 0.125 petal length + 0.578 petal width + 0.934 sepal length 0.346 sepal width. ČVUT (FEL) Redukce dimenzionality 9 / 19
Vztah PCA a LDA Obě metody jsou lineární transformací použitelnou pro snížení dimenze. Maximalizace rozptylu nebere nijak v potaz závisle proměnnou. PCA není optimální z hlediska možné příští separace tříd. Tuto separaci maximalizuje Fisherův diskriminant použitý v lineární diskriminační analýze. ČVUT (FEL) Redukce dimenzionality 10 / 19
Využití PCA v SOM Mohu provést PCA projekci SOM sítě do 2D a zobrazit si ji. ČVUT (FEL) Redukce dimenzionality 11 / 19
Sammonova projekce Jinou možností redukce dimenze je Sammonova projekce. Ta netransformuje osy, ale znovu umísťuje objekty v novém (méně dimenzionálním) prostoru. Při umisťování se snaží zachovat vztahy v datech (data, která byla blízko v původním prostoru, budou blízko i v novém prostoru). ČVUT (FEL) Redukce dimenzionality 12 / 19
Sammonova projekce (2) Sammonova projekce minimalizuje stresovou funkci: 1 (dist E = (x i, x j ) dist(x i, x j )) 2 i<j dist (x i, x j ) dist (x i, x j ) dist (x i, x j ) je vzdálenost x i a x j v původním prostoru. i<j dist(x i, x j ) je vzdálenost x i a x j v novém prostoru (v projekci). Pro minimalizaci se používají standardní optimalizační metody pro tuto úlohu typicky iterační metody. Při minimalizaci se pohybuje body v novém prostoru (v projekci). Tím ovlivníte dist(x i, x j ) a můžete dosáhnout zmenšení E. ČVUT (FEL) Redukce dimenzionality 13 / 19
Sammonova projekce - ukázka Ukázka několika iterací Sammonovy projekce na Iris datech. Počáteční stav 1. iterace 10. iterace ČVUT (FEL) Redukce dimenzionality 14 / 19
SOM vs PCA SOM je nelineárním zobecněním PCA. ČVUT (FEL) Redukce dimenzionality 15 / 19
Výběr relevatních příznaků Co mohu dělat v úlohách, kde je určena závisle proměnná? Co mohu dělat kromě transformace, tj. extrakce nových příznaků? Potřebuji opravdu všechny vstupní proměnné ke klasifikaci? Při klasifikaci zdravých a nemocných lidí asi bude hrát větší roli jejich teplota a tlak, než barva vlasů. Techniky, které vybírají vhodné vstupní proměnné, se označují jako feature selection (případně feature ranking) metody. A dělí se do dvou hlavních kategorií: feature selection tyto metody dodají seznam vstupních proměnných (atributů), které považují za důležité, feature ranking tyto metody přiřadí každému atributu skóre, který indikuje vliv atributu na výstupní třídu. ČVUT (FEL) Redukce dimenzionality 16 / 19
Feature selection Typicky hledají podmnožinu atributů, na které model ještě funguje dobře. Dělí se do 3 hlavních kategorií: Wrappers vyberou skupinu atributů, nad ní naučí nějaký model, spočítají jeho přesnost a podle přesnosti upraví skupinu atributů, atd... Filters vybírají atributy nezávisle na modelu, vyhodnocují se tzv. filtry těmi se v této souvislosti rozumí například korelace mezi vybranou skupinou vstupů a výstupem nebo vzájemná informace,... obvykle časově méně náročný přístup, mohou vybírat vzájemně redundantní příznaky. Embedded techniques tento způsob je zabudován do učícího algoritmu modelu a podle toho, které proměnné model využívá, se sestavuje seznam důležitých atributů. ČVUT (FEL) Redukce dimenzionality 17 / 19
Feature selection (2) Při hledání vhodné kombinace se často uplatňuje hladový přístup. Nejprve hledám množinu s jedním atributem, která má nejvyšší skóre (například nejvyšší přesnost modelu). K této jednoprvkové množině zkouším přidávat další atribut a hledám, který přinese největší zlepšení modelu. Pak hledám třetí, a tak dále, dokud se model nepřestane zlepšovat. ČVUT (FEL) Redukce dimenzionality 18 / 19
Feature ranking Přiřazuje každé vstupní proměnné skóre, které určuje její významnost. Často se používají stejné metody, které se na předchozím slajdu označovaly jako filters: vzájemná informace mezi jednotlivými atributy a výstupem, korelace, informační entropie, přesnost perceptronu s jedním vstupem. Je pak na člověku, jak těchto informací využije. ČVUT (FEL) Redukce dimenzionality 19 / 19