ROBUST, 5 58 c JČMF NEPARAMETRICKÁ DISKRIMINAČNÍ ANALÝZA MARIE FORBELSKÁ Abstrakt. In the paper the attention is focused to the application of kernel density estimators to statistical discrimination. After a brief description of the discriminant analysis problem the nonparametric approach to discriminant analysis is described. The multivariate product polynomial kernels with data-driven choices of the bandwidth are used for density estimators and this nonparametric approach are compared with classical one by some simulated data. Rezme: Cel~ to$i stat~i kasaets priloeni ocenki plotnosti verotnosti pri pomoxi der v diskriminantnom analizu. Vstat~e snaqala rassmatrivats lementarnye svedeni po diskriminantnomu analizu i potom issleduets neparametriqeski$i podhod pri pomoxi mnogomernyh polinomial~nyh der, postroennyh kak proizvedenie odnomernyh der, vmeste savtomatiqeskim vyborom optimal~nogosglaivawego parametra. Parametriqeski$i i neparametriqeski$i podhody srovnivats pri pomoxi imitiruwih dannyh.. Podstata diskriminační analýzy Uvažujme danou množinu n objektů, označme ji S a předpokládejme, že S je tvořená objekty k různých typů. Budeme říkat, že objekt patří do třídy S j, je-li typu j (j =,...,k. OtřídáchS j budeme předpokládat, že jsou po dvou disjunktnía S = k j= S j. Na každém objektu zjišťujeme dva statistické znaky X a Y. X určuje příslušnost objektu do dané třídy, je to diskrétní náhodná veličina a X = j právě když daný objekt patřído třídy S j, j =,...,k. Y = (Y,,Y m je m-rozměrný náhodný vektor, který nějak charakterizuje příslušnou třídu objektů. Označme dále (X i, Y i hodnoty znaků X a Y na i-tém objektu a předpokládejme, že (X i, Y i jsou nezávislé náhodné vektory, které tvořínáhodný výběr z rozdělení náhodného vektoru (X, Y. Cílem diskriminační analýzy je stanovit na základě daného náhodného výběru optimálníklasifikačnípravidlo, které by při pozorovánívektoruy na nějakém daném objektu, který již nepatřído třídy S, umožnilo jeho zařazení do příslušné třídy s minimálníztrátou. Při konstrukci takového klasifikačního pravidla vyjdeme z úplného rozkladu S = {S,...,S k } prostoru R m možných hodnot vektoru Y do k disjunktních tříd S,...,S k. Když na uvažovaném objektu zjistíme hodnotu znaku Y, která patří do třídy S j, rozhodneme, že tento objekt patřído třídy S j. S užitím tohoto klasifikačního pravidla spojíme ztrátu, která bude způsobena chybnou klasifikací objektu. Je-li daný objekt charakterizován vektorem (X, Y a máme-li klasifikačnípravidlo dané rozkladem S, pak příslušnou ztrátu definujeme jako transformovanou diskrétní Mathematics Subject Classification. Primary 6H; Secondary C. Klíčová slova. Lineární a kvadratická diskriminační analýza, neparametrická diskriminační analýza, jádrové odhady hustot, součinová jádra. Příspěvek vznikl s podporou výzkumného záměru MŠMT, CEZ: J7/98:.
Neparametrická diskriminační analýza 5 náhodnou veličinu Z S danou předpisem Z S = Z S (X, Y =z jl pokud X = j a Y S l l, j =,...,k, kde z jl jsou daná reálná čísla, charakterizující reálnou ztrátu při zařazení objektu ze třídy S j do třídy S l. V diskriminačníanalýze se často volíz ll =az jl =, l, j =,...,k; l j. Klasifikačnípravidlo, které minimalizuje středníhodnotu ztráty, pak nazýváme optimálním. Abychom odvodili optimální klasifikační pravidlo, vyjdeme z následujících předpokladů a značení. Nechť náhodný vektor (X, Y definovaný na nějakém pravděpodobnostním prostoru (Ω, A,P má hustotu f XY (j, y vzhledem k součinové míře = ν X Y, kde ν X je čítací míra a Y je Lebesquova míra, přičemž tato hustota je tvaru f XY (j, y =p j f j (y, j =,...,k, y R m, p + + p k =, p j > af j (y pro každé j =,...,k je hustota rozdělenípravděpodobnostívzhledem k Lebesquově míře. Zřejmě f j (y je podmíněná hustota Y, kdyžx = j. Pak náhodná veličina X má marginálnípravděpodobnostnífunkci P (X = j =p j (j =,...,k a marginálnírozdělenípravděpodobnostíu náhodného vektoru Y je dáno hustotou f Y (y = k j= p jf j (y, y R m. Tedy v uvedeném značenímá ztráta Z S pravděpodobnostnífunkci tvaru p ZS (j, l =P (X = j, Y S l = S l p j f j (yd Y (y, l, j =,...,k. Snadno nahlédneme, že k l= z jlp (Z S = z jl = k E(Z S =L S = k k j= j= l= z jlp (X = j, Y S l = = k k j= l= z jlp ZS (j, l = k k j= i=l z jl S l p j f j (yd Y (y = = k k l= j= z jl S l p j f j (yd Y (y = k k l= S l j= z jlp j f j (yd Y (y Funkci q l (y = k j= z jlp j f j (y nazvemel-tý skór vektoru Y a při konstrukci klasifikačního pravidla hraje centrální roli. Cílem nyní je určit optimální úplný rozklad S = {S,...,S k } m-rozměrného euklidovského prostoru R m tak, aby středníhodnota ztráty E(Z S byla minimální Důležitou roli hraje následující lemma (viz. []. Lemma.. Nechť S = {S,...,S k } je takový rozklad Rm,žepro t {,...,k} platí (. y S t q t (y q j (y, j =,...,k. Pak tento rozklad minimalizuje E(Z S, tj. označíme-li L = E(Z S = k i= S q i (yd Y (y, i pak platí L S = E(Z S L = E(Z S pro každý rozklad S. Důkaz. L = E(Z S = k l= S l q l (yd Y (y = k k l= t= S l S q l (yd Y (y t k k l= t= q t (yd Y (y = k t= q t (yd Y (y =E(Z S =L S l S t Je zřejmé, že hodnota L je stejná pro všechny rozklady splňující podmínku předchozího lemmatu. Z lemmatu. plyne, že klasifikační pravidlo dané rozkladem (. je optimální. Pokud tedy při daném Y = y pro všechna j t platí q t (y <q j (y, pak optimálním rozhodnutím je zařadit daný objekt do t-té třídy. V případě, že v předchozím vzorci platí rovnost i pro další j(j t, je lhostejné, podle kterého pravidla budeme z těchto minimalizujících indexů vybírat. S t
5 Marie Forbelská Při volbě z ll = a z jl =, l,j =,...,k, l j, kdy q l (y = k p j f j (y p l f l (y =f Y (y p l f l (y, j= snadno dostaneme dalšíekvivalentníoptimální klasifikační pravidlo založené na nerovnosti (. p t f t (y p j f j (y pro j =,...,k.. Rozhodovací pravidla v případě normálních rozdělení V tomto odstavci budeme předpokládat, že podmíněné rozdělení náhodného vektoru Y za podmínky, že X =j, je m-rozměrné normálnírozdělenín m ( j, V j se známým vektorem středních hodnot E(Y X =j = j a známou variančnímaticí var(y X = j =V j (j =,...,k. Pak hustota tohoto podmíněného rozdělení je dána vzorcem [ f j (y =(π m Vj exp ] (y j V j (y j. Klasifikačnípravidlo (. lze v tomto případě vyjádřit jako log p t +logf t (y > log p j +logf j (y, j =,...,k, j t. Označme D j = log V j (y j Vj (y j +logp j. Pak klasifikačnípravidlo (. odpovídá (. D t >D j, j =,...,k, j t. Diskriminačnímetoda založená na nerovnosti (. se nazývá kvadratická diskriminační analýza. Pokudjsousivšechny varianční matice rovny, tj.v = = V k = V, potom D j = log V (y j V (y j +logp j = = log V +logp j y V y + y V j j V j Označme d j = y V j j V j +logp j. Pak D j = d j log V y V y a klasifikační pravidlo (. je v tomto speciálním případě ekvivalentní s nerovností (. d t >d j, j =,...,k, j t. Diskriminačnímetoda založená na nerovnosti (. se nazývá lineární diskriminační analýza.. Diskriminace z experimentálních dat Při praktickém prováděnídiskriminačníanalýzy máme k dispozici k souborů objektů, přičemž víme, který objekt do které třídy patří. Těmto souborům se někdy říká trénovací. Počet objektů v j-tém souboru označme n j a realizace vektoru Y v j-tém souboru označme y j,...,y jnj. Mějmedálerealizaciy R m náhodného vektoru Y, o které nevíme, odkud pochází. Protože obvykle neznáme rozdělenínáhodného vektoru (X, Y, pak se při klasifikaci neznámého objektu nabízí dva možné přístupy :
Neparametrická diskriminační analýza 5 Parametrický přístup: Předpokládáme, že podmíněné rozdělení náhodného vektoru Y za podmínky, že X = j, je normální. V konkrétních situacích obvykle neznáme vektory středních hodnot,..., k a variančnímatice V,...,V k. K dispozici však máme trénovacísoubory a pomocínich určíme ȳ j = nj n j i= y ji, C j = n j i= (y ji ȳ j (y ji ȳ j n, ˆp j = j n + +n k. Jestliže vektor j odhadneme vektorem ȳ j,maticiv j maticí ˆV j = n C j j aapriornípravděpodobnost p j relativníčetnostíˆp j, můžeme pro zařazeníobjektu, jehož příslušnost nepoznáme, použít postupy předchozího odstavce tak, že neznámé parametry nahradíme jejich odhady. Neparametrický přístup: Nebudeme předpokládat určitý typ podmíněného rozdělenívektoru Y za podmínky, že X=j, ale pomocítrénovacích dat odhadneme neznámé podmíněné hustoty f j (y. Přirozeně se nabízí použít neparametrické metody odhadu hustot, např. jádrové odhady hustoty, odhady hustoty pomocík nejbližších sousedů a další(viz. [7]. Pro zařazeníobjektu, jehož příslušnost nepoznáme, potom použijeme rozhodovací pravidlo (. s tím, že neznámé podmíněné hustoty f j (y nahradíme neparametrickým odhadem ˆf j (y a apriornípravděpodobnost p j n relativníčetnostíˆp j = j n + +n k. Dostaneme tak rozhodovací pravidlo: realizaci y zařadíme do t-té skupiny, pokud pro všechna j t bude platit ˆp t ˆft (y ˆp j ˆfj (y. Obvykle, před zařazováním nových objektů, ověříme klasifikační proceduru na samotných objektech z trénovacích souborů a registrujeme procento nesprávných zatřídění. Jestliže soubor trénovacích dat neumožňuje vytvořit spolehlivou klasifikační proceduru ani pro trénovacídata samotná, nelze samozřejmě klasifikaci realizovat.. Jádrové odhady použité v neparametrické diskriminační analýze V tomto odstavci zavedeme jednorozměrná (resp. vícerozměrná jádra pro odhad hustoty pravděpodobnosti náhodných veličin (resp. náhodných vektorů a popíšeme speciálnítypy jader, která budou použita pro neparametrickou diskriminaci. Nechť y,...,y n jsou nezávislá pozorovánínáhodné veličiny Y s hustotou f(y. Jádrem rozumíme libovolnou funkci K : (R, B (, +, jež je symetrická, ohraničená a pro niž (. K(ydy =, a lim y K(y =, y ± Nechť {h n } n= je posloupnost kladných čísel taková, že lim n h n =, lim n nh n = a K(y jeněkteréjádro. Jádrový odhad hustoty je definován vztahem (viz. [] a [5]. (. ˆfn (y = n ( y yi K y R. nh n h i= n Velká pozornost musíbýt věnována volbě nejvhodnější konstanty h n, tzv. šířce okna, neboť podstatným způsobem ovlivňuje kvalitu odhadu. Pro optimální volbu parametru h n je třeba provést také odhad derivace funkce f (viz. [7] a [8]. Symbolem C k označme množinu všech k -krát spojitě diferencovatelných reálných funkcí, kde k > je celé číslo. Jsou-li navíc tyto funkce nulové vně intervalu [, ], označme množinu těchto funkcísymbolem C k [, ]. Nechť y,...,y n jsou nezávislá pozorovánínáhodné veličiny Y s hustotou f(y C k. Jádrový odhad derivace f (ν pro pevné ν < k je definován
5 Marie Forbelská vztahem (ν (. ˆf h,k (y = n ( y yi nh ν+ K. h i= Označme Lip[a, b] třídu spojitých funkcí splňujících Lipschitzovu podmínku na [a, b]: f(x f(y L x y x, y [a, b], L >. Nechť ν, k jsou nezáporná celá čísla, ν<k<k ajádrok Lip[, ], přičemž nosič jádra support(k [, ]. Nechť K splňuje následující momentové podmínky j<k,j ν (. x j K(xdx = ( ν ν! j = ν β k j = k pak říkáme, že jádro K je řádu (ν, k apíšemek Sν,k. Pro nechťk C [, ], K Sν,k. Navíc nechť platí K(j (=K (j ( =, j =,,...,, ν k aν + k je sudé. Pak takové jádro se nazývá jádro hladkosti apíšemek S ν,k. Příkladem jádra S, je Epanečnikovo jádro, S, kvartické (biweight jádro a S, triweight jádro (viz. []. ( V práci použijeme jádra : Epanečnikovo K(y = y I [,] (y kvartické(biweight K(y = 5 6 ( y I [,] (y triweight K(y = 5 ( y I [,] (y { y [a, b] kde I [a,b] (y = (viz. obrázek. jinak Epan. biweight triweight S : ν= k= = ν,k.8.6.. S ν,k : ν= k= =.8.6.. S ν,k : ν= k= =.8.6...5.5 K(y=/ ( y I [,] (y.5.5 K(y=5/6 ( y I [,] (y.5.5 K(y=5/ ( y I [,] (y Obrázek : Ukázka jader typu K S ν,k Pro optimálnívolbu šířky okna tohoto typu jader použijeme algoritmus, který je popsán v práci []. Pro odhad hustoty pravděpodobnosti náhodných vektorů jsou definovány vícerozměrné jádrové odhady vztahem n ( y y i (.5 ˆfn (y = K,, y m y im, nh...h m h h m i= kde y =(y,...,y m,...,y n =(y n,...,y nm je náhodný výběr z m-rozměrného spojitého rozdělenío hustotě f(y, y =(y,...,y m R m.
.6 Neparametrická diskriminační analýza 55 V dalším budeme používat jako jádro m-proměnných tzv. součinové jádro, které je součinem m jader jedné proměnné, tj. n m ( yj y ij (.6 ˆfn (y = K, nh...h m h i= j= j kde K S ν,k, přičemž opět využijeme algoritmus automatického vyhledáváníoptimálníšířky oken pro tento typ jader (viz. []. 5. Srovnání parametrické a neparametrické diskriminace Srovnáníparametrické a neparametrické diskriminace je provedeno na simulovaných datech ze směsi normálních rozdělení: (5. f a (y,y = k f aj (y,y = k ( exp k k j= j= πσ j σ j ρ q j(y,y j kde q j (y,y = ρ j azesměsihustot: [ (y ( ( j y j y j ρ j σ j (5. f b (y,y = k kde f bj (y,y = π σ j k f bj (y,y j= σ j + ( ] y j ( ρ j (y j + exp ( (y j +(y j (y j +(y j σ j. Příklady směsí typu (5. a (5. pro k = jsou uvedeny na obrázku a výsledky diskriminace těchto směsíjsou demonstrovány na obrázcích a. Pro generování pseudonáhodných čísel z rozdělení typu (5. byl použit algoritmus doporučený v [6]. Normal Mixture: f a (y,y =.5 f a (y,y +.5 f a (y,y Nonnormal mixture: f b (y,y =.5 f b (y,y +.5 f b (y,y.7.86.579.55.6.566.98.8.679.77.6.55.865.877.579.865.77.98.8.877.679.55 n = n = Obrázek : Simulovaná data spolu s vrstevnicovými grafy funkcí f a (x, y a f b (x, y sparametry: a =; a =; σ =; σ =.5; ρ a =.5; a =; a =.5; σ = ; σ =; ρa =.5 ab =; b =.75; ρb =.5; b =.5; b =; ρb =.5.
. 56 Marie Forbelská linear discrimination analysis quadratic discrimination analysis...5..... var.5.5 var.6 var kernel discrimination analysis: S ν,k ν=, k=, = var kernel discrimination analysis: S ν,k ν=, k=, =. var... var..8.5.5....5 var kernel discrimination analysis: S ν,k ν=, k=, =...5 var M I S C L A S S I F I C A T I O N in % method group group all lin.discr.....6. quad.discr.... var..5.8...5 S k.discr....5 S k.discr....5 S k.discr.. 8...6 var Markers: Misclassification group n= group n= Obrázek : Srovnání parametrické a neparametrické diskriminace s užitím jader typu K S ν,k (ν=,k=,=,, pro simulovaná data ze směsi f a(x, y normálních rozdělení. linear discrimination analysis quadratic discrimination analysis var. var... var kernel discrimination analysis: S ν,k ν=, k=, = var kernel discrimination analysis: S ν,k ν=, k=, = var..5.5 var.5 var kernel discrimination analysis: S ν,k ν=, k=, = var M I S C L A S S I F I C A T I O N in % method group group all lin.discr. 5...5 var....5..5.5. quad.discr.... S k.discr.... S k.discr.... S k.discr. 5...5 Markers: Misclassification var group n= group n= Obrázek : Srovnání parametrické a neparametrické diskriminace s užitím jader typu K S ν,k (ν=,k=,=,, pro simulovaná data ze směsi f b(x, y.
Neparametrická diskriminační analýza 57 Bylo provedeno simulacínormálních směsítypu (5. (viz. řádky až na obrázku 5 a 8 simulacísměsíhustot typu (5. (viz. řádky 5 až na obrázku 5, kdy se měnily parametry polohy a měřítka hustot, velikost a počet skupin. Normal and Nonnormal Mixtures Group Group Group Misclassification in % V V V class.methods kernel methods σ σ ρ n σ σ ρ n σ σ ρ n lin. quad. S S S.5.5.5...67.67.67.5.5 5.5 5......5.5 7.5 7....7.7.5.5.5.5.5.5.5.5 5.5.5 5.5 5.67.... 6.5.5.5.75.75.75.75. 7.5.5.5.5.....67 8.5.5 5.5.5 5..... 9.5.5 7.5.5 7......5.5.5.5.5..5.5..5.5 5.5.5 5.67..67...5.5.5.5.5.75.75.5.5.5.5.5.7..5. 6.67 5.56 6.67 6.67.5.5 5.5 5.7..5 5 8. 6.67 6.67 6.67 8. 5.5.5 7.5 7.7..5 7 8. 6.67 5.7 6.9 7.6 6.5.5.5.7..5 8. 7.67 8. 8. 8.67 7.5.5 5.5 5.7..5 5 6.67 5.56 5.56 5.78 6. 8.5.5.5.7..5 9.7 7.8 7.67 7.67 5.5 9.5.5.5.75.7..5 8.89 7.78. 6.67 8.89.5.5 5.5.75 5.7..5 5. 6.67 8.67 9. 9..5.5 7.5.75 7.7..5 7. 6.9 5. 7.6 8..5.5.5.75.7..5 7. 6.67 5.67 6. 6.67.5.5 5.5.75 5.7..5 5 8. 6.89 6.67 6.67 6.67.5.5.5.75.7..5 8. 7. 7.7 7.7.7 5.5.5..... 6.5 5.5 5..... 7.5 7.5 7..... 8.5.5.5..5.. 9.5 5.5 5......5.5...75.75..5.5.5.5.67..67.67.67.5.5 5.5.5 5......5.5 7.5.5 7.57.57..57.9.5.5.5.5..5.5.. 5.5.5 5.5.5 5.67...67.67 6.5.5.5.5...5.5.75 7.75.5.5.5 6.67 6.67. 6.67 6.67 8.75.5 5.5.5 5 6. 6. 5. 7. 7. 9.75.5 7.5.5 7 6. 7. 5. 6. 7..75.5.5.5 5. 5..5 5.5 5..75.5 5.5.5 5...67 5. 5.67.75.5.5.5.75.5...75 Obrázek 5: Tabulka parametrů simulovaných dat spolu s celkovým procentem nesprávně klasifikovaných objektů pro klasické i neparametrické metody diskriminace. Výsledky srovnáníneparametrické diskriminace s lineárnía kvadratickou diskriminacíjsou uvedeny v tabulkách na obrázku 6, kde znaménka po řadě +, = a - značílepší, stejné a horšívýsledky neparametrické diskriminace vůči klasickým metodám na základě celkového procenta špatně klasifikovaných objektů.
58 Marie Forbelská Pomocísimulacíse ukázalo, že neparametrická diskriminace založená na jádrech S, dává nejlepšívýsledky, o něco horšíneparametrická diskriminace založená na jádrech S, a výrazně horšívýsledky dosahuje neparametrická diskriminace založená na jádrech S, (v důsledku příliš širokých vyhlazovacích oken poskytnutých algoritmem popsáným v práci []. Pro tyto prvotnísimulace se tedy ukazuje, že neparametrická diskriminace, tak jak je popsaná v předchozím odstavci, může být srovnatelnou náhradou klasické diskriminace dokonce i v případě normálních směsí a může být užitečná v situacích, kdy nenídostatečná informace o typu rozděleníve směsi. Normal Mixtures method lin.discr. quad.discr. + = + = S k.discr. 75..5.5 7.5.67.8 S k.discr. 75. 6.67 8. 9.7. 7.5 S k.discr. 6.5.7..5.8 66.67 Nonnormal Mixtures method lin.discr. quad.discr. + = + = S k.discr. 7. 6.67. 77.78.. S k.discr. 7.78 7.78. 8.89. 7.78 S k.discr. 7.78 7.78.... Obrázek 6: Tabulky srovnání parametrické a neparametrické diskriminace (hodnoty jsou uvedeny v %. Literatura [] Anděl, J.: Matematická statistika. SNTL/ALFA. Praha 978 [] Antoch, J.,Vorlíčková, D.: Vybrané metody statistické analýzy dat. Academia, Praha 99 [] Horová, I.: Optimatization Problems Connected with Kernel Smoothing, Signal Processing, Communications and Computer Science World. Scientific and Engineering Press, str. 9-5. [] Horová, I., Vieu, P. Zelinka, J.: Optimal Choice of Nonparametric Estimates of a Density and of its Derivates, zasláno k tisku [5] Michálek, J.:Kernel estimators - basic properties and optimal choice of parameters for estimation. Proceedings ROBUST 9. Prague, 99. [6] Nachtsheim, Ch.,J, Johnson, M.,E.:A New Family of Multivariate Distributions With Applications to Monte Carlo Studies. Journal of the American Statistical Association, Volume 8, Issue (Dec.,988, 98-989 [7] Silverman, B. W.: Density Estimation for Statistics and Data Analysis. Chapman and Hall, New York, 99. [8] Wand, I.P. and Jones, I.C.: Kernel Smoothing. Chapman & Hall, London 995 MU PřF, KAM, Janáčkovo nám. a, 66 95 Brno E-mail: forbel@math.muni.cz