ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz
IV. LINEÁRNÍ KLASIFIKACE
PRINCIPY KLASIFIKACE pomocí diskriminačních funkcí funkcí, které určují míru příslušnosti k dané klasifikační třídě; pomocí definice hranic mezi jednotlivými třídami a logických pravidel; pomocí vzdálenosti od reprezentativních obrazů (etalonů) klasifikačních tříd; pomocí ztotožnění s etalony;
LINEÁRNÍ SEPARABILITA lineárně separabilní úloha lineárně neseparabilní úloha lineárně separované klasifikační třídy nelineárně separabilní úloha
DICHOTOMICKÁ ÚLOHA PRINCIP nejjednodušší realizace hraniční plochy je lineární funkcí y(x) = w T x + w 0 w je váhový vektor, w 0 je práh; x ω 1, když y(x) 0 x ω 2, když y(x) < 0 rovnice hranice je y(x) = w T x + w 0 = 0 ((n-1)-rozměrná nadplocha (nadrovina) v n- rozměrném prostoru
DICHOTOMICKÁ ÚLOHA ZÁKLADNÍ VLASTNOSTI zápis v jiném (kompaktnějším) tvaru: x 0 =1 a pak w ~ = (w, w) a ~ x = (x, ) z toho 0 0 x ~T x w~ y( ) =. x~
DICHOTOMICKÁ ÚLOHA ZÁKLADNÍ VLASTNOSTI pro x A, x B na hraniční přímce je y(x A )= y(x B )= 0; proto je i w T (x A -x B )=0 vektor w je ortogonální (kolmý) k hraniční přímce; je-li x na hraniční přímce, je y(x)= 0 a tak normálová vzdálenost počátku od hraniční přímky je dána vztahem T w x w0 = w w
DICHOTOMICKÁ ÚLOHA ZÁKLADNÍ VLASTNOSTI
DICHOTOMICKÁ ÚLOHA ZÁKLADNÍ VLASTNOSTI y(x) udává kolmou vzdálenost d bodu x od hraniční přímky (je-li x ortogonální projekce x na hranici tak, že x = x vynásobením obou stran w T, přičtením w 0 a s použitím y(x) = w T x + w 0 a y(x ) = w T x + w 0 = 0, dostaneme y(x) d = w + d w w
ÚLOHA S VÍCE TŘÍDAMI kombinace více tříd (problém?): klasifikace jedna versus zbytek R-1 hranice oddělí jednu klasifikační třídu od všech dalších klasifikace jedna versus jedna R(R-1)/2 binárních hranic mezi každými dvěma třídami
ÚLOHA S VÍCE TŘÍDAMI jak se vyhnout problémům? zavedením principu diskriminační funkce g r (x) = w rt x + w r0 do r-té třídy ω r zařadíme obraz x za předpokladu, že g r (x) > g s (x) pro r s klasifikační hranice je průmět průsečíku g r (x) = g s (x) do obrazového prostoru takto definovaný klasifikační prostor je vždy spojitý a konvexní
METODY STANOVENÍ KLASIFIKAČNÍCH HRANIC metoda nejmenších čtverců perceptron (neuron) Fisherova lineární diskriminace
METODA NEJMENŠÍCH ČTVERCŮ minimalizace součtu čtverců chybové funkce; mějme cílový (klasifikační) vektor vyjádřen binárním kódem 1 z R (t = (0,0,0,1,0) T ) každá je třída ω r popsána lineární funkcí kde r = 1,,R; g r (x) = w rt x + w r0,
METODA NEJMENŠÍCH ČTVERCŮ sumární popis těchto reprezentací je ~ T g ( x) = W. x~ ~ T kde W je matice, jejíž r-tý sloupec zahrnuje ~ n+1 dimenzionální vektor T w = (w, w ) a ~ x = (x, x T ) r 0 r 0 hodnota x na vstupu je zařazena do třídy, pro ~ T níž je g ( x ) = w. ~ x největší; r = r
METODA NEJMENŠÍCH ČTVERCŮ pokud máme učební množinu vyjádřenou {x i,t i }, i=1,,n a i-tý řádek matice T obsahuje vektor t T i a ~ T v matici X je i-tý řádek ~x x i, pak funkce součtu čtverců chyb je ~ 1 { ( ~ ~ ) T ( ~ ~ )} E n ( W) = Tr X.W T X.W T 2 Derivací podle W ~, kterou položíme rovno nule dostáváme ~ ~ T I W X X ~ 1~ T ~ = ( ) X T = X T I kde X ~ je tzv. pseudoinverzní matice k matici X ~. Diskriminační funkce pak jsou ve tvaru ~ T ~ g x W. x ~ T I ( ) T ( X ) T = =. x~
METODA NEJMENŠÍCH ČTVERCŮ
METODA NEJMENŠÍCH ČTVERCŮ
PERCEPTRON MODEL NEURONU
MODEL NEURONU vstup výstup d k= 1 d k=1= 1 ξ xw < T 0 i i xw T i i n n = wx i i θ = i= 1 i= 0 Lineární model neuronu s prahem 1 wx i i
PERCEPTRON předpokládejme, že w* T x > 0 pro x ω 1 ω w* T x < 0 pro x ω 2 snažíme se o nalezení extrému ztrátové funkce perceptronu J( w) = x Y ( δ x w T x) ( ) Y je podmnožina učební množiny, jejíž obrazy byly chybně klasifikovány s daným nastavením váhového vektoru w; hodnoty proměnné δ x jsou stanoveny tak, že δ x =-1 pro x ω 1 a δ x =1 pro x ω 2. součet ( ) je zřejmě vždycky nezáporný a roven nule pokud Y je prázdná množina. je to funkce spojitá a po částech lineární (gradient není definován ve chvíli, kdy se mění počet chybně klasifikovaných vektorů x)
PERCEPTRON algoritmus výpočtu w* (gradientní metoda): J( w) w(t + 1) = w(t) ρt w w w = w(t) w(t) je vektor váhových koeficientů v t-tém kroku iterace; ρ t > 0 tam kde je gradient definován je J( w) w = x Y po dosazení do definičního vztahu je δ x x w (t + 1) = w (t) ρt δδ x x x Y
PERCEPTRON algoritmus výpočtu w* - pseudokód: zvolte náhodně w(0) ρ zvolte ρ 0 t=0 repeat Y={ } for i=1 to N if δ xi w(t) T x i 0 then Y = Y {x i } w(t+1) = w(t) - ρ t Σ x Y δ x x nastavte ρ t t=t+1 until Y={ }
PERCEPTRON
FISHEROVA DISKRIMINACE redukce dimenzionality? nejdříve dichotomický problém: předpokládejme na vstupu n-rozměrný vektor x, který promítneme do jednoho rozměru pomocí y=w T x projekcí do jednoho rozměru ztrácíme mnohou zajímavou informaci, ale určením prvků váhového vektoru w můžeme nastavit projekci, která maximalizuje separaci tříd;
FISHEROVA DISKRIMINACE
FISHEROVA DISKRIMINACE předpokládejme, že známe učební množinu n 1 obrazů z třídy ω 1 a n 2 obrazů z ω 2 ; střední vektory reprezentující každou třídu jsou 1 1 m = = 1 xi a m2 xi n n 1 i ω 2 1 i ω 1 nejjednodušší míra separace klasifikačních tříd, je separace klasifikačních průměrů, tj. stanovení w tak, aby byla maximalizována hodnota m 2 -m 1 =w T (m 2 -m 1 ), kde m r =w T m r je průměr projektovaných dat ze třídy ω r ;
FISHEROVA DISKRIMINACE aby hodnota m 2 -m 1 neomezeně nerostla s růstem modulu w, předpokládáme jeho jednotkovou délku, tj. Σ 2 i w i2 =1 Langrangův součinitel (multiplikátor) pro hledání vázaného extrému w α (m 2 m 1 ) Fisherův diskriminátor podle Fisherova pravidla stanovíme pouze optimální směr souřadnice, na kterou promítáme obrazy klasifikovaných tříd. abychom stanovili rozhodovací pravidlo, musíme určit hodnotu prahu w 0
LANGRANGŮV SOUČINITEL Langragova metoda neurčitých koeficientů Nechť f(x,y) a g(x,y) mají v okolí bodů křivky g(x,y)=0 totální diferenciál. Nechť v každém bodě křivky g(x,y)=0 je aspoň jedna z derivací g/ x, g/ y různá od nuly. Má-li funkce z=f(x,y,) v bodě [x 0,y 0] křivky g(x,y)=0 lokální extrém na této křivce, pak existuje taková konstanta λ, že pro funkci F(x,y)=f(x,y) + λ.g(x,y) jsou v bodě [x 0,y 0 ] splněny rovnice F(x 0,y 0 )/ x=0; F(x 0,y 0 )/ y=0 a samozřejmě g(x 0,y 0 )=0 (podmínky nutné). ( ) ( ) Vázané extrémy lze tedy hledat tak, že sestrojíme funkci ( ) a řešíme rovnice ( ) pro neznámé x 0,y 0, λ (λ nazýváme Lagrangeův součinitel (multiplikátor)).
LANGRANGŮV SOUČINITEL Langragova metoda neurčitých koeficientů totální diferenciál: Je-li f(x,y) v [x 0,y 0 ] diferencovatelná, nazývá se výraz dz =( f/ x).dx + ( f/ y).dy totální diferenciál funkce z=f(x,y).
LANGRANGŮV SOUČINITEL Langragova metoda neurčitých koeficientů podmínky postačující: Sestrojme v bodě [x 0,y 0 ] druhý diferenciál funkce ( ) d 2 F(x 0,y 0)= 2 F(x 0,y 0)/ x 2 +2 2 F(x 0,y 0)/ x x + 2 F(x 0,y 0)/ y 2 ( ) Jestliže pro všechny body [x 0 +dx,y 0 +dy] z určitého okolí bodu [x 0,y 0] takové, že g(x 0+dx,y 0+dy)=0 a že dx a dy nejsou zároveň rovny nule, je ( ) kladné, resp. záporné, pak je v bodě [x 0,y 0 ] vázaný lokální extrém, a to minimum (resp. maximum).
LANGRANGŮV SOUČINITEL Langragova metoda neurčitých koeficientů Obdobně se řeší úloha najít vázané extrémy funkce několika proměnných, např. nutná podmínka k existenci lokálního extrému funkce w=f(x,y,z,u,v) při podmínkách F 1 (x,y,z,u,v), F 2(x,y,z,u,v) je splnění rovnic G/ x=0, G/ y=0, G/ z=0, G/ u=0, G/ v=0, F 1 =0 a F 2 =0, kde G= f+ λ 1 F 1 +λ 2 F 2, tj. soustava 7 rovnic pro 7 neznámých.
FISHEROVA DISKRIMINACE problém: řešení: nejen maximální vzdálenost tříd, ale současně i minimální rozptyl uvnitř tříd
FISHEROVA DISKRIMINACE variance transformovaných dat ze třídy ω 1 je dána 2 2 s r = (y i m i) kde y T i = w x i ; i ω 1 celková variance uvnitř klasifikačních tříd z celé báze dat jednoduše součtem s 1 2 + s 2 2
FISHEROVA DISKRIMINACE Fisherovo kritérium: J( w ) = (m po dosazení maticově: J ( w ) = 2 2 m1) 2 2 + 2 s 1 s w T S B w ( ) kde S B matice kovariance mezi třídami w T S W w S B =(m 2 -m 1 )(m 2 -m 1 ) T a S W je matice celkové kovariance uvnitř tříd SW = ( xi m1 )( xi m1 ) + ( xi m2 )( xi m2 ) i ω 1 i T ω 2 T
FISHEROVA DISKRIMINACE maximální J(w) určíme po derivaci ( ) podle w tehdy, když platí z toho pak (w T S B w)s w w = (w T S W w)s B w w α S w -1 (m 2 -m 1 ) α je Langrangův multiplikátor Fisherův diskriminátor směr vektoru m 2 -m 1 je na rozdíl od původního případu modifikován maticí S w ; pokud je kovariance uvnitř tříd izotropní (rozptyl je týž ve všech směrech), S w je úměrná jednotkové matici a w má opět směr vektoru m 2 -m 1
předpoklady: počet tříd: R>2 rozměr dat: n>r FISHEROVA DISKRIMINACE VÍCE KLASIFIKAČNÍCH TŘÍD zavedeme n > 1 lineárních funkcí y k =W T k X, kde k=1,2,,n. Hodnoty y k tvoří vektor y. Podobně váhové vektory W k reprezentují sloupce matice W y = W T x zobecnění matice kovariance uvnitř tříd R kde S S W = S r r= 1 1 ( x T r = xi mr)( xi mr) a mr =. n i ω r i ω r n r je počet vzorků v r-té třídě r i
FISHEROVA DISKRIMINACE VÍCE KLASIFIKAČNÍCH TŘÍD abychom byli schopni určit zobecněnou matici kovariance mezi třídami, určíme nejdříve celkovou kovarianční matici S n T T = ( xi m )( xi m ) i= 1 kde m je průměr celé množiny obrazů m = 1. n n 1 R x = i. nrxian = i= 1 n pro celkovou kovarianční matici platí S T = S W + S B, kde R r= 1 SB = nr ( mr m )( mr m ) r= 1 T r n r
FISHEROVA DISKRIMINACE VÍCE KLASIFIKAČNÍCH TŘÍD podobně mohou být definovány matice v transformovaném n rozměrném prostoru y s W = R r = 1i ω R r ( y i µ r )( y i µ s B = n r( µ r µ )( µ r µ ), kde µ r = r=1 1 1 yia µ = n r n R i ω r= 1 r n T r r µ ) r T a
FISHEROVA DISKRIMINACE VÍCE KLASIFIKAČNÍCH TŘÍD opět chceme určit co největší skalár když je velká kovariance mezi třídami a malá kovariance uvnitř tříd z mnoha kritérií, např. J( W) = 1 Tr{ s W. s B } toto kritérium může být přepsáno do tvaru J( W ) = Tr{( WS W W T ) 1 ( WS W W T )} váhové vektory jsou v tom případě dány vlastními vektory matice S -1 W S B, které odpovídají jejím n největším vlastním číslům
Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ