ANALÝZA A KLASIFIKACE DAT

Podobné dokumenty
Lineární klasifikátory

ANALÝZA A KLASIFIKACE DAT

Definice globální minimum (absolutní minimum) v bodě A D f, jestliže X D f

Funkce v ıce promˇ enn ych Extr emy Pˇredn aˇska p at a 12.bˇrezna 2018

Diferenciál funkce dvou proměnných. Má-li funkce f = f(x, y) spojité parciální derivace v bodě a, pak lineární formu (funkci)

5. Lokální, vázané a globální extrémy

Vlastní (charakteristická) čísla a vlastní (charakteristické) Pro zadanou čtvercovou matici A budeme řešit maticovou

Aplikovaná numerická matematika

Matematika pro informatiky

Průvodce studiem. do bodu B se snažíme najít nejkratší cestu. Ve firmách je snaha minimalizovat

I. Diferenciální rovnice. 3. Rovnici y = x+y+1. převeďte vhodnou transformací na rovnici homogenní (vzniklou

Drsná matematika III 3. přednáška Funkce více proměnných: Inverzní a implicitně definovaná zobrazení, vázané extrémy

Extrémy funkce dvou proměnných

1 Funkce dvou a tří proměnných

Definice Řekneme, že funkce z = f(x,y) je v bodě A = [x 0,y 0 ] diferencovatelná, nebo. z f(x 0 + h,y 0 + k) f(x 0,y 0 ) = Ah + Bk + ρτ(h,k),

Matematika II, úroveň A ukázkový test č. 1 (2016) 1. a) Napište postačující podmínku pro diferencovatelnost funkce n-proměnných v otevřené

ANALÝZA A KLASIFIKACE DAT

9. přednáška 26. listopadu f(a)h < 0 a pro h (0, δ) máme f(a 1 + h, a 2,..., a m ) f(a) > 1 2 x 1

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

verze 1.4 Ekvivalentní podmínkou pro stacionární bod je, že totální diferenciál je nulový

Kybernetika a umělá inteligence, cvičení 10/11

Napište rovnici tečné roviny ke grafu funkce f(x, y) = xy, která je kolmá na přímku. x = y + 2 = 1 z

AVDAT Nelineární regresní model

Matematika II, úroveň A ukázkový test č. 1 (2017) 1. a) Napište postačující podmínku pro diferencovatelnost funkce n-proměnných v otevřené

Hledáme lokální extrémy funkce vzhledem k množině, která je popsána jednou či několika rovnicemi, vazebními podmínkami. Pokud jsou podmínky

Interpolace, ortogonální polynomy, Gaussova kvadratura

Řešení 1b Máme najít body, v nichž má funkce (, ) vázané extrémy, případně vázané lokální extrémy s podmínkou (, )=0, je-li: (, )= +,

Úvod do lineární algebry

EXTRÉMY FUNKCÍ VÍCE PROMĚNNÝCH

4. Diferenciál a Taylorova věta

Matematika II, úroveň A ukázkový test č. 1 (2018) 1. a) Napište postačující podmínku pro diferencovatelnost funkce n-proměnných v otevřené

10 Funkce více proměnných

f ( x) = 5x 1 + 8x 2 MAX, 3x x ,

AVDAT Mnohorozměrné metody, metody klasifikace

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Matematika I A ukázkový test 1 pro 2014/2015

EXTRÉMY FUNKCÍ VÍCE PROMĚNNÝCH

5.3. Implicitní funkce a její derivace

Učební texty k státní bakalářské zkoušce Matematika Základy teorie funkcí více proměnných. študenti MFF 15. augusta 2008

4EK213 LINEÁRNÍ MODELY

verze 1.3 x j (a) g k 2. Platí-li vztahy v předchozím bodu a mají-li f, g 1,..., g s v a diferenciál K = f + j=1

III. Diferenciál funkce a tečná rovina 8. Diferenciál funkce. Přírůstek funkce. a = (x 0, y 0 ), h = (h 1, h 2 ).

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Otázku, kterými body prochází větev implicitní funkce řeší následující věta.

1. DIFERENCIÁLNÍ POČET FUNKCE DVOU PROMĚNNÝCH

Úvod do optimalizace, metody hladké optimalizace

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Hledání extrémů funkcí

Nalezněte hladiny následujících funkcí. Pro které hodnoty C R jsou hladiny neprázdné

Úvodní informace. 17. února 2018

Matematika I A ukázkový test 1 pro 2011/2012. x + y + 3z = 1 (2a 1)x + (a + 1)y + z = 1 a

4EK213 LINEÁRNÍ MODELY

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Globální extrémy. c ÚM FSI VUT v Brně. 10. ledna 2008

Funkce dvou a více proměnných

Dodatek 2: Funkce dvou proměnných 1/9

1 Projekce a projektory

Diferenˇcní rovnice Diferenciální rovnice Matematika IV Matematika IV Program

PŘÍKLADY K MATEMATICE 2

Matematická analýza pro informatiky I.

Lineární diskriminační funkce. Perceptronový algoritmus.

1. července 2010

12. Křivkové integrály

Lineární algebra : Metrická geometrie

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25

Diferenciální počet funkcí více proměnných

Náhodné vektory a matice

MATEMATIKA III. Olga Majlingová. Učební text pro prezenční studium. Předběžná verze

Kapitola 4: Extrémy funkcí dvou proměnných 1/5

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

Statistika II. Jiří Neubauer

Globální extrémy (na kompaktní množině)

Přednáška 13 Redukce dimenzionality

y = 2x2 + 10xy + 5. (a) = 7. y Úloha 2.: Určete rovnici tečné roviny a normály ke grafu funkce f = f(x, y) v bodě (a, f(a)). f(x, y) = x, a = (1, 1).

Vysoké učení technické v Brně, Fakulta strojního inženýrství MATEMATIKA 2

PRAVDĚPODOBNOST A STATISTIKA

Úloha - rozpoznávání číslic

Numerická matematika 1

9 Kolmost vektorových podprostorů

DERIVACE FUKNCÍ VÍCE PROMĚNNÝCH

Funkce více proměnných. April 29, 2016

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Projekty - Úvod do funkcionální analýzy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Obsah Obyčejné diferenciální rovnice

Zavedeme-li souřadnicový systém {0, x, y, z}, pak můžeme křivku definovat pomocí vektorové funkce.

Necht L je lineární prostor nad R. Operaci : L L R nazýváme

Drsná matematika III 1. přednáška Funkce více proměnných: křivky, směrové derivace, diferenciál

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

ALGEBRA. Téma 5: Vektorové prostory

Matematika II: Pracovní listy Funkce dvou proměnných

CHOVÁNÍ FUNKCÍ VÍCE PROMĚNNÝCH Z HLEDISKA EXTRÉMŮ

Lineární rovnice prvního řádu. Máme řešit nehomogenní lineární diferenciální rovnici prvního řádu. Funkce h(t) = 2

Matematika 5 FSV UK, ZS Miroslav Zelený

Soustavy linea rnı ch rovnic

APLIKACE. Poznámky Otázky

Přijímací zkouška na navazující magisterské studium 2014

Aplikovaná matematika I

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Transkript:

ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz

IV. LINEÁRNÍ KLASIFIKACE

PRINCIPY KLASIFIKACE pomocí diskriminačních funkcí funkcí, které určují míru příslušnosti k dané klasifikační třídě; pomocí definice hranic mezi jednotlivými třídami a logických pravidel; pomocí vzdálenosti od reprezentativních obrazů (etalonů) klasifikačních tříd; pomocí ztotožnění s etalony;

LINEÁRNÍ SEPARABILITA lineárně separabilní úloha lineárně neseparabilní úloha lineárně separované klasifikační třídy nelineárně separabilní úloha

DICHOTOMICKÁ ÚLOHA PRINCIP nejjednodušší realizace hraniční plochy je lineární funkcí y(x) = w T x + w 0 w je váhový vektor, w 0 je práh; x ω 1, když y(x) 0 x ω 2, když y(x) < 0 rovnice hranice je y(x) = w T x + w 0 = 0 ((n-1)-rozměrná nadplocha (nadrovina) v n- rozměrném prostoru

DICHOTOMICKÁ ÚLOHA ZÁKLADNÍ VLASTNOSTI zápis v jiném (kompaktnějším) tvaru: x 0 =1 a pak w ~ = (w, w) a ~ x = (x, ) z toho 0 0 x ~T x w~ y( ) =. x~

DICHOTOMICKÁ ÚLOHA ZÁKLADNÍ VLASTNOSTI pro x A, x B na hraniční přímce je y(x A )= y(x B )= 0; proto je i w T (x A -x B )=0 vektor w je ortogonální (kolmý) k hraniční přímce; je-li x na hraniční přímce, je y(x)= 0 a tak normálová vzdálenost počátku od hraniční přímky je dána vztahem T w x w0 = w w

DICHOTOMICKÁ ÚLOHA ZÁKLADNÍ VLASTNOSTI

DICHOTOMICKÁ ÚLOHA ZÁKLADNÍ VLASTNOSTI y(x) udává kolmou vzdálenost d bodu x od hraniční přímky (je-li x ortogonální projekce x na hranici tak, že x = x vynásobením obou stran w T, přičtením w 0 a s použitím y(x) = w T x + w 0 a y(x ) = w T x + w 0 = 0, dostaneme y(x) d = w + d w w

ÚLOHA S VÍCE TŘÍDAMI kombinace více tříd (problém?): klasifikace jedna versus zbytek R-1 hranice oddělí jednu klasifikační třídu od všech dalších klasifikace jedna versus jedna R(R-1)/2 binárních hranic mezi každými dvěma třídami

ÚLOHA S VÍCE TŘÍDAMI jak se vyhnout problémům? zavedením principu diskriminační funkce g r (x) = w rt x + w r0 do r-té třídy ω r zařadíme obraz x za předpokladu, že g r (x) > g s (x) pro r s klasifikační hranice je průmět průsečíku g r (x) = g s (x) do obrazového prostoru takto definovaný klasifikační prostor je vždy spojitý a konvexní

METODY STANOVENÍ KLASIFIKAČNÍCH HRANIC metoda nejmenších čtverců perceptron (neuron) Fisherova lineární diskriminace

METODA NEJMENŠÍCH ČTVERCŮ minimalizace součtu čtverců chybové funkce; mějme cílový (klasifikační) vektor vyjádřen binárním kódem 1 z R (t = (0,0,0,1,0) T ) každá je třída ω r popsána lineární funkcí kde r = 1,,R; g r (x) = w rt x + w r0,

METODA NEJMENŠÍCH ČTVERCŮ sumární popis těchto reprezentací je ~ T g ( x) = W. x~ ~ T kde W je matice, jejíž r-tý sloupec zahrnuje ~ n+1 dimenzionální vektor T w = (w, w ) a ~ x = (x, x T ) r 0 r 0 hodnota x na vstupu je zařazena do třídy, pro ~ T níž je g ( x ) = w. ~ x největší; r = r

METODA NEJMENŠÍCH ČTVERCŮ pokud máme učební množinu vyjádřenou {x i,t i }, i=1,,n a i-tý řádek matice T obsahuje vektor t T i a ~ T v matici X je i-tý řádek ~x x i, pak funkce součtu čtverců chyb je ~ 1 { ( ~ ~ ) T ( ~ ~ )} E n ( W) = Tr X.W T X.W T 2 Derivací podle W ~, kterou položíme rovno nule dostáváme ~ ~ T I W X X ~ 1~ T ~ = ( ) X T = X T I kde X ~ je tzv. pseudoinverzní matice k matici X ~. Diskriminační funkce pak jsou ve tvaru ~ T ~ g x W. x ~ T I ( ) T ( X ) T = =. x~

METODA NEJMENŠÍCH ČTVERCŮ

METODA NEJMENŠÍCH ČTVERCŮ

PERCEPTRON MODEL NEURONU

MODEL NEURONU vstup výstup d k= 1 d k=1= 1 ξ xw < T 0 i i xw T i i n n = wx i i θ = i= 1 i= 0 Lineární model neuronu s prahem 1 wx i i

PERCEPTRON předpokládejme, že w* T x > 0 pro x ω 1 ω w* T x < 0 pro x ω 2 snažíme se o nalezení extrému ztrátové funkce perceptronu J( w) = x Y ( δ x w T x) ( ) Y je podmnožina učební množiny, jejíž obrazy byly chybně klasifikovány s daným nastavením váhového vektoru w; hodnoty proměnné δ x jsou stanoveny tak, že δ x =-1 pro x ω 1 a δ x =1 pro x ω 2. součet ( ) je zřejmě vždycky nezáporný a roven nule pokud Y je prázdná množina. je to funkce spojitá a po částech lineární (gradient není definován ve chvíli, kdy se mění počet chybně klasifikovaných vektorů x)

PERCEPTRON algoritmus výpočtu w* (gradientní metoda): J( w) w(t + 1) = w(t) ρt w w w = w(t) w(t) je vektor váhových koeficientů v t-tém kroku iterace; ρ t > 0 tam kde je gradient definován je J( w) w = x Y po dosazení do definičního vztahu je δ x x w (t + 1) = w (t) ρt δδ x x x Y

PERCEPTRON algoritmus výpočtu w* - pseudokód: zvolte náhodně w(0) ρ zvolte ρ 0 t=0 repeat Y={ } for i=1 to N if δ xi w(t) T x i 0 then Y = Y {x i } w(t+1) = w(t) - ρ t Σ x Y δ x x nastavte ρ t t=t+1 until Y={ }

PERCEPTRON

FISHEROVA DISKRIMINACE redukce dimenzionality? nejdříve dichotomický problém: předpokládejme na vstupu n-rozměrný vektor x, který promítneme do jednoho rozměru pomocí y=w T x projekcí do jednoho rozměru ztrácíme mnohou zajímavou informaci, ale určením prvků váhového vektoru w můžeme nastavit projekci, která maximalizuje separaci tříd;

FISHEROVA DISKRIMINACE

FISHEROVA DISKRIMINACE předpokládejme, že známe učební množinu n 1 obrazů z třídy ω 1 a n 2 obrazů z ω 2 ; střední vektory reprezentující každou třídu jsou 1 1 m = = 1 xi a m2 xi n n 1 i ω 2 1 i ω 1 nejjednodušší míra separace klasifikačních tříd, je separace klasifikačních průměrů, tj. stanovení w tak, aby byla maximalizována hodnota m 2 -m 1 =w T (m 2 -m 1 ), kde m r =w T m r je průměr projektovaných dat ze třídy ω r ;

FISHEROVA DISKRIMINACE aby hodnota m 2 -m 1 neomezeně nerostla s růstem modulu w, předpokládáme jeho jednotkovou délku, tj. Σ 2 i w i2 =1 Langrangův součinitel (multiplikátor) pro hledání vázaného extrému w α (m 2 m 1 ) Fisherův diskriminátor podle Fisherova pravidla stanovíme pouze optimální směr souřadnice, na kterou promítáme obrazy klasifikovaných tříd. abychom stanovili rozhodovací pravidlo, musíme určit hodnotu prahu w 0

LANGRANGŮV SOUČINITEL Langragova metoda neurčitých koeficientů Nechť f(x,y) a g(x,y) mají v okolí bodů křivky g(x,y)=0 totální diferenciál. Nechť v každém bodě křivky g(x,y)=0 je aspoň jedna z derivací g/ x, g/ y různá od nuly. Má-li funkce z=f(x,y,) v bodě [x 0,y 0] křivky g(x,y)=0 lokální extrém na této křivce, pak existuje taková konstanta λ, že pro funkci F(x,y)=f(x,y) + λ.g(x,y) jsou v bodě [x 0,y 0 ] splněny rovnice F(x 0,y 0 )/ x=0; F(x 0,y 0 )/ y=0 a samozřejmě g(x 0,y 0 )=0 (podmínky nutné). ( ) ( ) Vázané extrémy lze tedy hledat tak, že sestrojíme funkci ( ) a řešíme rovnice ( ) pro neznámé x 0,y 0, λ (λ nazýváme Lagrangeův součinitel (multiplikátor)).

LANGRANGŮV SOUČINITEL Langragova metoda neurčitých koeficientů totální diferenciál: Je-li f(x,y) v [x 0,y 0 ] diferencovatelná, nazývá se výraz dz =( f/ x).dx + ( f/ y).dy totální diferenciál funkce z=f(x,y).

LANGRANGŮV SOUČINITEL Langragova metoda neurčitých koeficientů podmínky postačující: Sestrojme v bodě [x 0,y 0 ] druhý diferenciál funkce ( ) d 2 F(x 0,y 0)= 2 F(x 0,y 0)/ x 2 +2 2 F(x 0,y 0)/ x x + 2 F(x 0,y 0)/ y 2 ( ) Jestliže pro všechny body [x 0 +dx,y 0 +dy] z určitého okolí bodu [x 0,y 0] takové, že g(x 0+dx,y 0+dy)=0 a že dx a dy nejsou zároveň rovny nule, je ( ) kladné, resp. záporné, pak je v bodě [x 0,y 0 ] vázaný lokální extrém, a to minimum (resp. maximum).

LANGRANGŮV SOUČINITEL Langragova metoda neurčitých koeficientů Obdobně se řeší úloha najít vázané extrémy funkce několika proměnných, např. nutná podmínka k existenci lokálního extrému funkce w=f(x,y,z,u,v) při podmínkách F 1 (x,y,z,u,v), F 2(x,y,z,u,v) je splnění rovnic G/ x=0, G/ y=0, G/ z=0, G/ u=0, G/ v=0, F 1 =0 a F 2 =0, kde G= f+ λ 1 F 1 +λ 2 F 2, tj. soustava 7 rovnic pro 7 neznámých.

FISHEROVA DISKRIMINACE problém: řešení: nejen maximální vzdálenost tříd, ale současně i minimální rozptyl uvnitř tříd

FISHEROVA DISKRIMINACE variance transformovaných dat ze třídy ω 1 je dána 2 2 s r = (y i m i) kde y T i = w x i ; i ω 1 celková variance uvnitř klasifikačních tříd z celé báze dat jednoduše součtem s 1 2 + s 2 2

FISHEROVA DISKRIMINACE Fisherovo kritérium: J( w ) = (m po dosazení maticově: J ( w ) = 2 2 m1) 2 2 + 2 s 1 s w T S B w ( ) kde S B matice kovariance mezi třídami w T S W w S B =(m 2 -m 1 )(m 2 -m 1 ) T a S W je matice celkové kovariance uvnitř tříd SW = ( xi m1 )( xi m1 ) + ( xi m2 )( xi m2 ) i ω 1 i T ω 2 T

FISHEROVA DISKRIMINACE maximální J(w) určíme po derivaci ( ) podle w tehdy, když platí z toho pak (w T S B w)s w w = (w T S W w)s B w w α S w -1 (m 2 -m 1 ) α je Langrangův multiplikátor Fisherův diskriminátor směr vektoru m 2 -m 1 je na rozdíl od původního případu modifikován maticí S w ; pokud je kovariance uvnitř tříd izotropní (rozptyl je týž ve všech směrech), S w je úměrná jednotkové matici a w má opět směr vektoru m 2 -m 1

předpoklady: počet tříd: R>2 rozměr dat: n>r FISHEROVA DISKRIMINACE VÍCE KLASIFIKAČNÍCH TŘÍD zavedeme n > 1 lineárních funkcí y k =W T k X, kde k=1,2,,n. Hodnoty y k tvoří vektor y. Podobně váhové vektory W k reprezentují sloupce matice W y = W T x zobecnění matice kovariance uvnitř tříd R kde S S W = S r r= 1 1 ( x T r = xi mr)( xi mr) a mr =. n i ω r i ω r n r je počet vzorků v r-té třídě r i

FISHEROVA DISKRIMINACE VÍCE KLASIFIKAČNÍCH TŘÍD abychom byli schopni určit zobecněnou matici kovariance mezi třídami, určíme nejdříve celkovou kovarianční matici S n T T = ( xi m )( xi m ) i= 1 kde m je průměr celé množiny obrazů m = 1. n n 1 R x = i. nrxian = i= 1 n pro celkovou kovarianční matici platí S T = S W + S B, kde R r= 1 SB = nr ( mr m )( mr m ) r= 1 T r n r

FISHEROVA DISKRIMINACE VÍCE KLASIFIKAČNÍCH TŘÍD podobně mohou být definovány matice v transformovaném n rozměrném prostoru y s W = R r = 1i ω R r ( y i µ r )( y i µ s B = n r( µ r µ )( µ r µ ), kde µ r = r=1 1 1 yia µ = n r n R i ω r= 1 r n T r r µ ) r T a

FISHEROVA DISKRIMINACE VÍCE KLASIFIKAČNÍCH TŘÍD opět chceme určit co největší skalár když je velká kovariance mezi třídami a malá kovariance uvnitř tříd z mnoha kritérií, např. J( W) = 1 Tr{ s W. s B } toto kritérium může být přepsáno do tvaru J( W ) = Tr{( WS W W T ) 1 ( WS W W T )} váhové vektory jsou v tom případě dány vlastními vektory matice S -1 W S B, které odpovídají jejím n největším vlastním číslům

Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ