Přednáška 13 Redukce dimenzionality

Podobné dokumenty
Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Miroslav Čepek

Státnice odborné č. 20

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

Miroslav Čepek

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Vytěžování znalostí z dat

LDA, logistická regrese

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Základy vytěžování dat

Klasifikace a rozpoznávání. Lineární klasifikátory

Klasifikace a rozpoznávání. Extrakce příznaků

ANALÝZA A KLASIFIKACE DAT

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Úvodem Dříve les než stromy 3 Operace s maticemi

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Předzpracování dat. Lenka Vysloužilová

Vícerozměrné statistické metody

Úvod do optimalizace, metody hladké optimalizace

Úloha - rozpoznávání číslic

Získávání znalostí z dat

Statistické modely tvaru a vzhledu

Statistická analýza dat

Měření dat Filtrace dat, Kalmanův filtr

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Numerická stabilita algoritmů

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

AVDAT Mnohorozměrné metody metody redukce dimenze

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Strojové učení Marta Vomlelová

ANALÝZA A KLASIFIKACE DAT

Aplikovaná numerická matematika

Vytěžování znalostí z dat

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Extrakce a selekce příznaků

Lineární klasifikátory

Pokročilé neparametrické metody. Klára Kubošová

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Rosenblattův perceptron

Matematika pro geometrickou morfometrii

Vytěžování znalostí z dat

Selekce a extrakce příznaků 2

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Algoritmy pro shlukování prostorových dat

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

UČENÍ BEZ UČITELE. Václav Hlaváč

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Měření dat Filtrace dat, Kalmanův filtr

oddělení Inteligentní Datové Analýzy (IDA)

Katedra kybernetiky, FEL, ČVUT v Praze.

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

AVDAT Nelineární regresní model

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Numerické metody a programování. Lekce 8

Geometrické transformace

Základy vytěžování dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

AVDAT Mnohorozměrné metody, metody klasifikace

x T 1 matici & S 1 kovarianční matici &

Klasifikační metody pro genetická data: regularizace a robustnost

Asociační i jiná. Pravidla. (Ch )

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

You created this PDF from an application that is not licensed to print to novapdf printer (

Faktorová analýza (FACT)

Dynamické programování

Algoritmy a struktury neuropočítačů ASN P3

Vytěžování znalostí z dat

Analýza hlavních komponent

Lineární diskriminační funkce. Perceptronový algoritmus.

Detekce neznámých typů mutantů na základě odlišnosti kinetiky fluorescence

Vytěžování znalostí z dat

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

ZX510 Pokročilé statistické metody geografického výzkumu

11 Analýza hlavních komponet

(n, m) (n, p) (p, m) (n, m)

Měření závislosti statistických dat

Umělé neuronové sítě

Neuronové sítě AIL002. Iveta Mrázová 1 František Mráz 2. Neuronové sítě. 1 Katedra softwarového inženýrství. 2 Kabinet software a výuky informatiky

Moderní systémy pro získávání znalostí z informací a dat

Algoritmy a struktury neuropočítačů ASN P6

Trénování sítě pomocí učení s učitelem

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Kybernetika a umělá inteligence, cvičení 10/11

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

OSA. maximalizace minimalizace 1/22

1 0 0 u 22 u 23 l 31. l u11

4EK213 LINEÁRNÍ MODELY

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Pokročilé neparametrické metody. Klára Kubošová

Miroslav Čepek

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

3. Metody analýzy časových řad v klimatologii

Numerické metody optimalizace - úvod

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Globální matice konstrukce

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

4. Aplikace matematiky v ekonomii

Transkript:

Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 / 19

Motivace pro redukci dimezionality Prokletí dimenzionality obtížnost učení roste exponenciálně s počtem dimenzí, v řadě problémů je ale vnitřní dimenzionalita nižší než ta nominální, tj. než je počet příznaků. Snížení dimenzionality transformace z prostoru vyšší dimenze do prostoru nižší dimenze s co nejmenší ztrátou informace, typicky jde o maximalizaci rozptylu, zachování podobnosti mezi objekty atd. Jednu metodu snížení dimenzionality již známe samoorganizující se mapy, redukce dosáhneme náhradou původních souřadnic objektů souřadnicemi jim nejbližšího neuronu v mřížce sousednosti. ČVUT (FEL) Redukce dimenzionality 2 / 19

Motivace pro redukci dimezionality (II) ČVUT (FEL) Redukce dimenzionality 3 / 19

Analýza hlavních komponent Jde o statistickou metodu pro redukci dimenzionality. Označení PCA z anglického Principal Component Analysis. Jde o lineární transformaci nové příznaky jsou lineární kombinací původních, v původním prostoru je lze popsat jako osy, první osa vede směrem, který má největší rozptyl hodnot, druhá osa směrem, kde je druhý největší rozptyl, atd. osy jsou ortogonální, tedy vzájemně pravoúhlé. Vrátí stejný počet nových os, jako mají původní data dimenzí je tedy bezeztrátová, ale já se mohu rozhodnout některé nepoužít. ČVUT (FEL) Redukce dimenzionality 4 / 19

Analýza hlavních komponent (II) Kudy vede osa s největším rozptylem hodnot? ČVUT (FEL) Redukce dimenzionality 5 / 19

Analýza hlavních komponent (II) Kudy vede osa s největším rozptylem hodnot? ČVUT (FEL) Redukce dimenzionality 6 / 19

Analýza hlavních komponent (II) Kudy vede osa s největším rozptylem hodnot? ČVUT (FEL) Redukce dimenzionality 7 / 19

Analýza hlavních komponent (III) Výpočet nových souřadnic pomocí kovariance, vlastních čísel a vlastních vektorů. Uvažujme projekci na u 1 jednotkové délky projekce objektů xi do nové osy dosáhneme skalárním součinem u 1 x i resp. u T 1 x i, střední hodnota projekce v dané ose odpovídá projekci střední hodnoty u 1 x resp. u T 1 x, maximalizujeme-li rozptyl projekce, maximalizujeme výraz 1 N N (u T 1 x i u 1T x) 2 = u T 1 Su 1 i=1 kde N je počet instancí a S je kovarianční matice dat, řešením je největší vlastní vektor S Su 1 = λu 1 u1 je první hlavní komponentou, další z dalších vlastních vektorů. ČVUT (FEL) Redukce dimenzionality 8 / 19

Využití PCA obecně PCA je nejčatěji používanou metodou redukce dimenze silný předpoklad linearity vztahů mezi proměnnými nemusí vždy platit, umožňuje ale robustní výpočet i pro malý počet trénovacích instancí vzhledem k dimenzi. Další využití má v dekorelaci proměnných ta může být na obtíž např. u lineární regrese. Nevýhodou je umělost nových os jež znesnadňuje interpretaci získaných výsledků: 0.125 petal length + 0.578 petal width + 0.934 sepal length 0.346 sepal width. ČVUT (FEL) Redukce dimenzionality 9 / 19

Vztah PCA a LDA Obě metody jsou lineární transformací použitelnou pro snížení dimenze. Maximalizace rozptylu nebere nijak v potaz závisle proměnnou. PCA není optimální z hlediska možné příští separace tříd. Tuto separaci maximalizuje Fisherův diskriminant použitý v lineární diskriminační analýze. ČVUT (FEL) Redukce dimenzionality 10 / 19

Využití PCA v SOM Mohu provést PCA projekci SOM sítě do 2D a zobrazit si ji. ČVUT (FEL) Redukce dimenzionality 11 / 19

Sammonova projekce Jinou možností redukce dimenze je Sammonova projekce. Ta netransformuje osy, ale znovu umísťuje objekty v novém (méně dimenzionálním) prostoru. Při umisťování se snaží zachovat vztahy v datech (data, která byla blízko v původním prostoru, budou blízko i v novém prostoru). ČVUT (FEL) Redukce dimenzionality 12 / 19

Sammonova projekce (2) Sammonova projekce minimalizuje stresovou funkci: 1 (dist E = (x i, x j ) dist(x i, x j )) 2 i<j dist (x i, x j ) dist (x i, x j ) dist (x i, x j ) je vzdálenost x i a x j v původním prostoru. i<j dist(x i, x j ) je vzdálenost x i a x j v novém prostoru (v projekci). Pro minimalizaci se používají standardní optimalizační metody pro tuto úlohu typicky iterační metody. Při minimalizaci se pohybuje body v novém prostoru (v projekci). Tím ovlivníte dist(x i, x j ) a můžete dosáhnout zmenšení E. ČVUT (FEL) Redukce dimenzionality 13 / 19

Sammonova projekce - ukázka Ukázka několika iterací Sammonovy projekce na Iris datech. Počáteční stav 1. iterace 10. iterace ČVUT (FEL) Redukce dimenzionality 14 / 19

SOM vs PCA SOM je nelineárním zobecněním PCA. ČVUT (FEL) Redukce dimenzionality 15 / 19

Výběr relevatních příznaků Co mohu dělat v úlohách, kde je určena závisle proměnná? Co mohu dělat kromě transformace, tj. extrakce nových příznaků? Potřebuji opravdu všechny vstupní proměnné ke klasifikaci? Při klasifikaci zdravých a nemocných lidí asi bude hrát větší roli jejich teplota a tlak, než barva vlasů. Techniky, které vybírají vhodné vstupní proměnné, se označují jako feature selection (případně feature ranking) metody. A dělí se do dvou hlavních kategorií: feature selection tyto metody dodají seznam vstupních proměnných (atributů), které považují za důležité, feature ranking tyto metody přiřadí každému atributu skóre, který indikuje vliv atributu na výstupní třídu. ČVUT (FEL) Redukce dimenzionality 16 / 19

Feature selection Typicky hledají podmnožinu atributů, na které model ještě funguje dobře. Dělí se do 3 hlavních kategorií: Wrappers vyberou skupinu atributů, nad ní naučí nějaký model, spočítají jeho přesnost a podle přesnosti upraví skupinu atributů, atd... Filters vybírají atributy nezávisle na modelu, vyhodnocují se tzv. filtry těmi se v této souvislosti rozumí například korelace mezi vybranou skupinou vstupů a výstupem nebo vzájemná informace,... obvykle časově méně náročný přístup, mohou vybírat vzájemně redundantní příznaky. Embedded techniques tento způsob je zabudován do učícího algoritmu modelu a podle toho, které proměnné model využívá, se sestavuje seznam důležitých atributů. ČVUT (FEL) Redukce dimenzionality 17 / 19

Feature selection (2) Při hledání vhodné kombinace se často uplatňuje hladový přístup. Nejprve hledám množinu s jedním atributem, která má nejvyšší skóre (například nejvyšší přesnost modelu). K této jednoprvkové množině zkouším přidávat další atribut a hledám, který přinese největší zlepšení modelu. Pak hledám třetí, a tak dále, dokud se model nepřestane zlepšovat. ČVUT (FEL) Redukce dimenzionality 18 / 19

Feature ranking Přiřazuje každé vstupní proměnné skóre, které určuje její významnost. Často se používají stejné metody, které se na předchozím slajdu označovaly jako filters: vzájemná informace mezi jednotlivými atributy a výstupem, korelace, informační entropie, přesnost perceptronu s jedním vstupem. Je pak na člověku, jak těchto informací využije. ČVUT (FEL) Redukce dimenzionality 19 / 19