Klasifikace a rozpoznávání. Extrakce příznaků

Podobné dokumenty
Klasifikace a rozpoznávání. Lineární klasifikátory

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

11 Analýza hlavních komponet

Přednáška 13 Redukce dimenzionality

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

SVD rozklad a pseudoinverse

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

AVDAT Mnohorozměrné metody metody redukce dimenze

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Vlastní číslo, vektor

PRAVDĚPODOBNOST A STATISTIKA

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

EUKLIDOVSKÉ PROSTORY

Vlastní čísla a vlastní vektory

Analýza hlavních komponent

AVDAT Mnohorozměrné metody, metody klasifikace

Necht L je lineární prostor nad R. Operaci : L L R nazýváme

Náhodné vektory a matice

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Numerické metody a programování. Lekce 4

Napěťový vektor 3d. Díky Wikipedia za obrázek. n n n

Matematika I 12a Euklidovská geometrie

Implementace Bayesova kasifikátoru

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT

Statistické modely tvaru a vzhledu

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Detekce neznámých typů mutantů na základě odlišnosti kinetiky fluorescence

Matice. Předpokládejme, že A = (a ij ) je matice typu m n: diagonálou jsou rovny nule.

AVDAT Geometrie metody nejmenších čtverců

Základy matematiky pro FEK

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Kybernetika a umělá inteligence, cvičení 10/11

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Rosenblattův perceptron

SRE 03 - Statistické rozpoznávání

Lineární algebra : Metrická geometrie

AVDAT Klasický lineární model, metoda nejmenších

1 0 0 u 22 u 23 l 31. l u11

[1] Motivace. p = {t u ; t R}, A(p) = {A(t u ); t R} = {t A( u ); t R}

Odhad stavu matematického modelu křižovatek

Úlohy nejmenších čtverců

Singulární rozklad. Petr Tichý. 31. října 2013

15 Maticový a vektorový počet II

Aplikovaná matematika I

Symetrické a kvadratické formy

Linearní algebra příklady

Numerické metody a programování

Vícerozměrné statistické metody

Ing. Václav Eksler Ústav telekomunikací FEKT VUT v Brně

Statistická analýza dat

NALG 001 Lineární algebra a geometrie 1, zimní semestr MFF UK Doba řešení: 3 hodiny

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

DEFINICE Z LINEÁRNÍ ALGEBRY

Regresní analýza 1. Regresní analýza

Definice : Definice :

Normální rozložení a odvozená rozložení

9.1 Definice a rovnice kuželoseček

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

2 Vektorové normy. Základy numerické matematiky - NMNM201. Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro

z = a bi. z + v = (a + bi) + (c + di) = (a + c) + (b + d)i. z v = (a + bi) (c + di) = (a c) + (b d)i. z v = (a + bi) (c + di) = (ac bd) + (bc + ad)i.

Uspořádanou n-tici reálných čísel nazveme aritmetický vektor (vektor), ā = (a 1, a 2,..., a n ). Čísla a 1, a 2,..., a n se nazývají složky vektoru

Projektivní geometrie. Ing. Zdeněk Krňoul, Ph.D. Katedra Kybernetiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

0.1 Úvod do lineární algebry

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

A0B01LAA Lineární algebra a aplikace (příklady na cvičení- řešení)

VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Základy maticového počtu Matice, determinant, definitnost

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Matematika pro geometrickou morfometrii

aneb jiný úhel pohledu na prvák

1 Linearní prostory nad komplexními čísly

1 Projekce a projektory

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Úvod do optimalizace, metody hladké optimalizace

ROZ II cv. 01 Dekonvoluce KM - FJFI - ČVUT

Požadavky ke zkoušce

5. Singulární rozklad

19. Druhý rozklad lineární transformace

Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat

11 Vzdálenost podprostorů

Program SMP pro kombinované studium

Drsná matematika I 13. přednáška Kvadriky a projektivní rozšíření

AVDAT Vektory a matice

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Základy navrhování průmyslových experimentů DOE

Statistická analýza jednorozměrných dat

3. Metody analýzy časových řad v klimatologii

= x (1.1) Komentář [j1]: Odstaveček na webu Následující text je... prosím nahradit za tyto tři odstavce. Děkuji.

ROZ II cv. 01 Dekonvoluce KM - FJFI - ČVUT

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Transkript:

Klasifikace a rozpoznávání Extrakce příznaků

Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám rozpoznávače Klasifikátory mají rády parametry které jsou: Gaussovského rozložení (většinou vícerozměrného) Nekorelované Nízkodimenzionální

Příklad parametrizace pro 2D vstupní vektory Mějme vzorky (příklady) 2D rozložení pro dvě třídy. 2. koeficient 1. koeficient

Příklad parametrizace pro 2D vstupní vektory Rozložení není příliš gaussovské. Provedeme třetí odmocninou obou koeficientů. 2. koeficient 1. koeficient

Příklad parametrizace pro 2D vstupní vektory Prostor se komprimuje nelineárně deformuje... 2. koeficient po kompresi 1. koeficient po kompresi

Příklad parametrizace pro 2D vstupní vektory... a rozložení pro každou třídu je nyní gaussovské. Koeficienty jsou ale korelované. Je vhodné prostor otočit tak aby se koeficienty dekorelovaly. 2. koeficient po kompresi 1. koeficient po kompresi

Příklad parametrizace pro 2D vstupní vektory Nyní jsou koeficienty dekorelovány. Svislá dimenze je navíc zbytečná, protože třídy se v ní zcela překrývají. 2. dimenze po rotaci 1. dimenze po rotaci

Gaussovské rozložení (jednorozměrné) Evaluation: N (x; μ, σ 2 ) = 1 σ 2π (x μ) 2 e 2σ 2.4.35.3 ML odhad parametrů (Trénování): μ = 1 T P T t=1 x(t).25 p(x).2.15.1 σ 2 = 1 P T T t=1 (x(t) μ)2.5 5 4 3 2 1 1 2 3 4 x

Gaussian distribution (2 dimensions) 1 N (x; μ, Σ) = (2π)P Σ e 1 2 (x μ)t Σ 1 (x μ).8.7.6.5 p(x).4.3.2 2 ML odhad of parametrů (Trénování):.1 1 4 3 2 1 1 2 1 x 2 μ = 1 T P T t=1 x(t) x 1 Σ = 1 P T T t=1 (x(t) μ)(x(t) μ)t

Plná a diagonální kovarianční matice.3.25.2.2.15 p(x).1 p(x).1.5 4 3 2 4 1 x 1 1 2 3 3 2 1 x 2 1 2 3 4 4 3 2 4 1 x 1 1 2 3 3 2 1 x 2 1 2 3 4 3 3 2 2 1 1 x1 x1 1 2 μ = 1.5 Σ = 1.8.8 1 1 2 μ = 1.5 Σ =.4 1.5 3 3 2 1 1 2 3 x2 3 3 2 1 1 2 3 x2

Diagonální kovarianční matice 1 N (x; μ, Σ) = (2π)P Σ e 1 2 (x μ)t Σ 1 (x μ) Pokud je Σ diagonální matice s koeficienty v diagonále σ 2 i N (x; μ, Σ) = = = 1 q (2π) Q exp( 1 PX (x i μ i ) 2 P P 2 σ 2 i=1 σ2 i i=1 i PY 1 p exp( 1 (x i μ i ) 2 ) (2π)σ 2 i 2 i=1 PY N (x i ; μ i, σi 2 ) i=1 σ 2 i )

Diagonální kovarianční matice P (A, B) = P (A)P (B) Jevy A a B jsou statisticky nezávislé N (x; μ, Σ) = Q P i=1 N (x i; μ i, σ 2 i ) Koeficienty x i příznakového vektoru x jsou statisticky nezávislé. x 2 p(x 2 ) p(x) = p(x 1,x 2 ) p(x 1 ) x 1

Diagonální kovarianční matice Proč nás zajímá? Pomůže nám pochopit význam plné kovarianční matice v gaussovském rozložení Úspora parametrů při modelování dat Pokud jsou data korelována (viz červená třída na prvním obr.) Zvláště pro vysoce dimenzionální příznaky, modelování pomocí směsi gaussovských rozložení s diagonální Σ může být úspornější než použití jedné gaussovky s plnou Σ Můžeme se pokusit data natočit - dekorelovat

Skalární součin x = x1 x 2 bx = b 1 b 2 x 1 x 2 b = b 1 b 2 = b 1 x 1 + b 2 x 2 x. b bx b

Rotace vektoru Nechť b 1 a b 2 jsou ortonormální baze Vektory jsou na sebe kolmé Mají délku b 1 = b 2 = 1 Potom y = B x je otočený vektor x, kde b 1 a b 2 ukazují v původním prostoru směry nových os b 2 b 1 y 2. x =. x1 x 2 x y 1 B =. b1 b 2 = y 2 b11 b 12 b 21 b 22.. y 1. y

Projekce vektoru Nechť B je matice ortonormálních bází a B matice tvořena pouze několika řádky (bázemi) matice B. Potom y = B T B x je projekce vektoru x do bází B. b 2 x b 1.. y = b T 1 b 1 x

Vlastní čísla a vektory λ je vlastní číslo a e je odpovídající vlastni vektor čtvercové matice Σ, pokud platí: Σe = eλ PxP matice má (nanejvýš) P různých vlastních čísel. Nechť je Λ diagonální matice všech vlastních čísel a matice E obsahuje ve sloupcích odpovídající vlastní vektory. ΣE = EΛ Nás bude zajímat speciální případ kdy matice Σ je symetrická. Potom budou sloupce matice E tvořit ortonormální báze. Pro takovou matici potom platí: E T E = E -1 E = I, kde I je jednotková matice. Tedy platí následující rozklady matic: E T ΣE = Λ Σ = EΛE T

μ transformovaných dat Jak se změní odhady střední hodnoty a kovarianční matice pokud původní data transformujeme: y = Ax μ y = 1 T = A 1 T TX Ax(t) t=1 = Aμ x TX x(t) t=1

Σ transformovaných dat Σ y = 1 T = A 1 T TX (Ax(t) μ y )(Ax(t) μ y ) T t=1 TX (x(t) μ x )(x(t) μ x ) T A T t=1 = AΣ x A T Co se stane když jako A použijeme transponovanou matici vlastních vektoru kovarianční matice Σ x? (Proč transponovanou? Protože vlastní vektory máme ve sloupcích a ne v řádcích). Jaký význam mají vlastní čísla?

Analýza hlavních komponent (Principal Component Analysis - PCA) Data distribution 2 nd PCA dimension 1 st PCA dimension original space coordinates

Analýza hlavních komponent Umožňuje: Dekorelaci vlastní vektory kovarianční matice definuji souřadný systém ve kterých jsou data dekorelována mají diagonální kovarianční matici Redukci dimenzí promítnutí dat do pouze několika vlastních vektorů odpovídajících největším vlastním číslům (směry s nevětší variancí) umožní optimální rekonstrukci dat s nejmenší kvadratickou chybou (mean square error - MSE) Redukce dimenzí provádíme pokud věříme, že v některých směrech není užitečná informace ale pouze (gaussovský) šum s nízkou variabilitou.

Interpretace Σ v gaussovském rozložení N (x; μ, Σ) = = = 1 p (2π) P Σ e 1 2 (x μ)t Σ 1 (x μ) 1 p (2π) P Σ e 1 2 (x μ)t EΛ 1 E T (x μ) 1 p (2π) P Λ e 1 2 (ET x E T μ) T Λ 1 (E T x E T μ)

PCA - Příklad Obrázky 1x1 pixelů 1 dimensionální vektory Střední hodnota, vlastní čísla a vlastní vektory μ λ 1 =3.4 1 5 λ 2 =2.8 1 5 λ 3 =2.4 1 5 λ 3 =1.6 1 5 Střední hodnota, vlastní čísla a vlastní vektory Originál M = 1 M=1 M=5 M=25

PCA - Příklad Jakou dimenzi si PCA vybere na tomto příkladě? Bude to výhodné pro klasifikaci tříd?

Lineární diskriminační analýza Opět se pokusíme promítnout data pouze do určitého směru: Tentokrát ale budeme chtít aby v tomto směru byly separovány třídy. Intuitivně by nás mohlo napadnout vybrat směr ve kterém jsou nejlépe odděleny průměty středních hodnot tříd m 1 a m 2. Hledáme tedy w, které maximalizuje: m 1 m 2

Lineární diskriminační analýza Lze však najít i lepší směr: Snažíme se data promítnout do takového směru, kde Maximalizujeme vzdálenost mezi středními hodnotami tříd Minimalizujeme průměrnou varianci tříd Maximalizujeme tedy

Lineární diskriminační analýza 1 st LDA dimension Class 1 Class 2

Lineární diskriminační analýza Σ ac Σ 1 LDA dimenze dány vlastními vektory matice wc Σ ac kovarianční matice spočítaná se středních hodnot tříd Σ wc průměrná kovarianční matice tříd Lze zobecnit pro více tříd vlastní vektory s největšími vlastními čísly odpovídají směrům ve kterých jsou třídy nelépe separovány Pro J tříd bude pouze J-1 vlastních čísel nenulových Pokud mají všechny třídy gaussovské rozložení se stejnou kovarianční maticí, LDA transformace transformuje prostor tak, že mohou byt třídy optimálně modelovány gaussovským rozložení s diagonální kovarianční maticí

LDA a lineární klasifikátor Dvě třídy s gaussovským rozložením se stejnou kovarianční matici jsou opravdu optimálně oddělitelné lineárním klasifikátorem (přímkou, rovinou, hyper-rovinou)

Extrakce příznaku pro řeč -MFCC (Mel frequency cepstral coefficients) 5 1 15 2 25 Nejprve řečový signál rozdělíme do asi 2ms překrývajících se segmentů

1 a) Segment of speech signal for vowel iy.5 b) Speech segment after preemphasis and windowing.5.5 1 5 1 15 2 25 6 time [ms] c) Fourier spectrum of speech segment.5 5 1 15 2 25 2 time [ms] d) Filter bank energies smoothed spectrum 5 4 15 3 1 2 1 5 5 1 15 2 25 3 35 4 4 frequency [Hz] e) Log of filter bank energies 1 3 5 7 9 11 13 15 17 19 21 23 5 band number f) Mel frefuency cepstral coefficients 3 2 1 1 2 3 4 1 3 5 7 9 11 13 15 17 19 21 23 band number 5 2 4 6 8 1 12 mel quefrency

Původní signál 5 1 15 2 25 Logaritmický vystup z banky filtru je třeba již jen dekorelovat 22 2 18 16 14 12 1 8 6 4 2 2 4 6 8 1 12

3 a) Eigen values.5 b) 1st Eigen vector 25 2 15 1 5 1 3 5 7 9 11 13 15 17 19 21 23.5 band number c) 2nd Eigen vector.5 1 3 5 7 9 11 13 15 17 19 21 23.5 band number d) 3rd Eigen vector.5 1 3 5 7 9 11 13 15 17 19 21 23.5 band number e) 4th Eigen vector.5 1 3 5 7 9 11 13 15 17 19 21 23.5 band number f) 5th Eigen vector.5 1 3 5 7 9 11 13 15 17 19 21 23 band number.5 1 3 5 7 9 11 13 15 17 19 21 23 band number

Singular Value Decomposition - SVD A je jakákoli mxn matice U je mxn matice kde sloupce jsou ortonormální báze V je nxn matice kde sloupce jsou ortonormální báze D je nxn je diagonální matice Předpokládejme, že matice A je matice s příznakovými vektory v řádcích s již odečtenou střední hodnotou Σ = A T A Potom z následujících vztahů vyplývá, ze: V jsou vlastní vektory Σ Diagonála D obsahuje odmocniny z vlastních čísel Σ (variance ve směrech vlastních vektorů)