Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Postup: I) zvolení metriky pro výpočet vzdáleností dvou bodů II) zvolení metriky pro určení vzdálenosti mezi dvěma množinami bodů Předpoklad: budeme shlukovací algoritmy využívat jako neučící se algoritmy (klasifikátor natrénujeme na celé trénovací množině a pak už pouze klasifikujeme nové subjekty (např. už nepřepočítáváme centroid po zařazení každého nového subjektu či objektu apod.)) 1.1 Metoda k nejbližších sousedů + Euklidova metrika: Znázornění výpočtu vzdálenosti dvou bodů pomocí Euklidovy metriky je uvedeno na Obr. 1. 1 1 1 2 1 2 Obr.1: Ilustrace výpočtu vzdálenosti dvou bodů pomocí Euklidovy metriky (vlevo) a znázornění klasifikace podle nejbližšího souseda (vpravo). Modře je vyznačena množina bodů, které mají od testovacího subjektu stejnou vzdálenost. d E (x 1, x 0 ) = (x x 01 ) 2 + (x x 02 ) 2 = (2,) 2 + ( ) 2 = 2,2 + =, d E (x 2, x 0 ) = (x 21 x 01 ) 2 + (x 22 x 02 ) 2 = (,) 2 + ( ) 2 = 0,2 + 1 = 1, d E (x, x 0 ) = (x 1 x 01 ) 2 + (x 2 x 02 ) 2 = (,) 2 + ( ) 2 = 0,2 + 1 = 1, d E (x, x 0 ) = (x 1 x 01 ) 2 + (x 2 x 02 ) 2 = (,) 2 + ( ) 2 = 2,2 + = 2, d E (x, x 0 ) = (x 1 x 01 ) 2 + (x 2 x 02 ) 2 = (,) 2 + ( ) 2 = 0,2 d E (x, x 0 ) = (x 1 x 01 ) 2 + (x 2 x 02 ) 2 = (,) 2 + ( ) 2 = 0,2 + 1 =,0 d E (x, x 0 ) < d E (x 2, x 0 ) d E (x, x 0 ) < d E (x, x 0 ) < d E (x 1, x 0 ) < d E (x, x 0 ) 1
pro k = 1: nejbližší soused bodu x 0 je bod x, protože d E (x, x 0 ) je nejmenší ; lze rovněž zapsat jako: d NN (D, x 0 ) = min d E (x i, x 0 ) = 1,, kde i = 1,2,, a d NN (H, x 0 ) = min d E (x i, x 0 ), kde i =,,; protože d NN (H, x 0 ) < d NN (D, x 0 ), pro k = : subjekt zařazen do třídy pacientů, protože mezi nejbližšími sousedy jsou 2 a 1 pro k = : nelze rozhodnout pro k = : subjekt zařazen do třídy pacientů, protože mezi nejbližšími sousedy jsou a 2 y pro k = : nelze rozhodnout Poznámka: je nutné volit liché k Poznámka 2: závisí na volbě k, kam subjekt zařadíme (tzn., pro různá k se zařazení může lišit např. v tomto případě pro k = 1 subjekt zařazen do třídy kontrolních subjektů a pro k = a k = subjekt zařazen do třídy pacientů) 1.2 Metoda průměrné vazby + Euklidova metrika: d GG (D, x 0 ) = d E(x 1,x 0 )+d E (x 2,x 0 )+d E (x,x 0 ) d GG (H, x 0 ) = d E(x,x 0 )+d E (x,x 0 )+d E (x,x 0 ) =,+1,+1, = 2,+0,+,0 = 1, = 2, Protože d GG (D, x 0 ) < d GG (H, x 0 ), bude zařazen do třídy pacientů. 1. Centroidová metoda + Euklidova metrika: x D = 1 n D 1 n x n i1 D D i=1 x n i2 D i=1 = 1 (2 + + ) 1 ( + + ) = [ ] centroid pacientů x H = 1 n H 1 n x n i1 H i=1 H x n i2 H i=1 = 1 ( + + ) 1 ( + + ) = [ ] centroid kontrol d CC (D, x 0 ) = d E (x D, x 0 ) = (,) 2 + ( ) 2 = 0,2 + 1 = 1, d CC (H, x 0 ) = d E (x H, x 0 ) = (,) 2 + ( ) 2 = 0,2 + = 2,0 Protože d CC (D, x 0 ) < d CC (H, x 0 ), bude zařazen do třídy pacientů. Znázornění klasifikace testovacího subjektu pomocí centroidové metody, přičemž vzdálenosti testovacího subjektu od centroidů skupin jsou počítány pomocí Euklidovy metriky, je na Obr. 2. Medoid (odvozen vizuálně spočítal by se tak, že by se našel nejbližší bod k centroidu u dané skupiny nebo jako bod s nejmenší sumou vzdáleností od ostatních bodů) medoid pro pacienty: x D = x 2 = [ ] medoid pro : x H = x = [ ] d CCC (D, x 0 ) = d E (x D, x 0 ) = d E (x 2, x 0 ) = (,) 2 + ( ) 2 = 0,2 + 1 = 1, d CCC (H, x 0 ) = d E (x H, x 0 ) = d E (x, x 0 ) = (,) 2 + ( ) 2 = 2,2 + = 2, Protože d CCC (D, x 0 ) < d CCC (H, x 0 ), bude zařazen do třídy pacientů. 2
1 centroid pacientů centroid kontrol 1 2 Obr. 2: Ilustrace klasifikace testovacího subjektu pomocí centroidové metody, přičemž vzdálenosti testovacího subjektu od centroidů skupin jsou počítány pomocí Euklidovy metriky. Je patrné, že subjekt bude zařazen do třídy pacientů, protože jeho Euklidova vzdálenost od centroidu pacientů je menší než od centroidu kontrol. 2.1 Metoda k nejbližších sousedů + Hammingova (manhattanská) metrika: Znázornění výpočtu vzdálenosti dvou bodů pomocí Hammingovy (manhattanské) metriky je uvedeno na Obr.. d H (x 1, x 0 ) = x x 01 + x x 02 = 2, + = 1, + =, d H (x 2, x 0 ) = x 21 x 01 + x 22 x 02 =, + + 1 = 1, d H (x, x 0 ) = x 1 x 01 + x 2 x 02 =, + + 1 = 1, d H (x, x 0 ) = x 1 x 01 + x 2 x 02 =, + = 1, + 2 =, d H (x, x 0 ) = x 1 x 01 + x 2 x 02 =, + + 0 d H (x, x 0 ) = x 1 x 01 + x 2 x 02 =, + + =, d H (x, x 0 ) < d H (x 2, x 0 ) d H (x, x 0 ) < d H (x, x 0 ) < d H (x 1, x 0 ) d E (x, x 0 ) pro k = 1: nejbližší soused bodu x 0 je bod x, protože d H (x, x 0 ) je nejmenší pro k = : subjekt zařazen do třídy pacientů, protože mezi nejbližšími sousedy jsou 2 a 1 pro k = : nelze rozhodnout pro k = : nelze rozhodnout pro k = : nelze rozhodnout
1 1 1 2 1 2 Obr. : Ilustrace výpočtu vzdálenosti dvou bodů pomocí Hammingovy (manhattanské) metriky (vlevo) a znázornění klasifikace podle nejbližšího souseda (vpravo). Modře je vyznačena množina bodů, které mají od testovacího subjektu stejnou vzdálenost. 2.2 Metoda průměrné vazby + Hammingova (manhattanská) metrika: d GG (D, x 0 ) = d H(x 1,x 0 )+d H (x 2,x 0 )+d H (x,x 0 ) d GG (H, x 0 ) = d H(x,x 0 )+d H (x,x 0 )+d H (x,x 0 ) =,+1,+1, =,+0,+, = 2, = 2, Protože d GG (D, x 0 ) < d GG (H, x 0 ), bude zařazen do třídy pacientů. 2. Centroidová metoda + Hammingova (manhattanská) metrika: d CC (D, x 0 ) = d H (x D, x 0 ) =, + + 1 = 1, d CC (H, x 0 ) = d H (x H, x 0 ) =, + + 2 = 2, Protože d CC (D, x 0 ) < d CC (H, x 0 ), bude zařazen do třídy pacientů. Znázornění klasifikace testovacího subjektu pomocí centroidové metody, přičemž vzdálenosti testovacího subjektu od centroidů skupin jsou počítány pomocí Hammingovy (manhattanské) metriky, je na Obr.. d CCC (D, x 0 ) = d H (x D, x 0 ) = d H (x 2, x 0 ) =, + + 1 = 1, d CCC (H, x 0 ) = d H (x H, x 0 ) = d H (x, x 0 ) =, + = 1, + 2 =, Protože d CCC (D, x 0 ) < d CCC (H, x 0 ), bude zařazen do třídy pacientů.
1 centroid pacientů centroid kontrol 1 2 Obr. : Ilustrace klasifikace testovacího subjektu pomocí centroidové metody, přičemž vzdálenosti testovacího subjektu od centroidů skupin jsou počítány pomocí Hammingovy (manhattanské) metriky. Je patrné, že subjekt bude zařazen do třídy pacientů, protože jeho Hammingova (manhattanská) vzdálenost od centroidu pacientů je menší než od centroidu kontrol..1 Metoda k nejbližších sousedů + Čebyševova metrika: d C (x 1, x 0 ) = max( x x 01 ; x x 02 ) = max( 2, ; ) = max(1,; ) = d C (x 2, x 0 ) = max( x 21 x 01 ; x 22 x 02 ) = max(, ; ) = max(0,; 1) = 1 d C (x, x 0 ) = max( x 1 x 01 ; x 2 x 02 ) = max(, ; ) = max(0,; 1) = 1 d C (x, x 0 ) = max( x 1 x 01 ; x 2 x 02 ) = max(, ; ) = max(1,; 2) = 2 d C (x, x 0 ) = max( x 1 x 01 ; x 2 x 02 ) = max(, ; ) = max(0,; 0) d C (x, x 0 ) = max( x 1 x 01 ; x 2 x 02 ) = max(, ; ) = max(0,; ) = d C (x, x 0 ) < d C (x 2, x 0 ) d C (x, x 0 ) < d C (x, x 0 ) < d C (x 1, x 0 ) < d C (x, x 0 ) pro k = 1: nejbližší soused bodu x 0 je bod x, protože d C (x, x 0 ) je nejmenší pro k = : subjekt zařazen do třídy pacientů, protože mezi nejbližšími sousedy jsou 2 a 1 pro k = : nelze rozhodnout pro k = : subjekt zařazen do třídy pacientů, protože mezi nejbližšími sousedy jsou a 2 y pro k = : nelze rozhodnout.2 Metoda průměrné vazby + Čebyševova metrika: d GG (D, x 0 ) = d C(x 1,x 0 )+d C (x 2,x 0 )+d C (x,x 0 ) = +1+1 = 1,
d GG (H, x 0 ) = d C(x,x 0 )+d C (x,x 0 )+d C (x,x 0 ) = 2+0,+ = 2,1 Protože d GG (D, x 0 ) < d GG (H, x 0 ), bude zařazen do třídy pacientů.. Centroidová metoda + Čebyševova metrika: d CC (D, x 0 ) = d C (x D, x 0 ) = max(, ; ) = max(0,; 1) = 1 d CC (H, x 0 ) = d C (x H, x 0 ) = max (, ; ) = max(0,; 2) = 2 Protože d CC (D, x 0 ) < d CC (H, x 0 ), bude zařazen do třídy pacientů. d CCC (D, x 0 ) = d C (x D, x 0 ) = d C (x 2, x 0 ) = max(, ; ) = max(0,; 1) = 1 d CCC (H, x 0 ) = d C (x H, x 0 ) = d C (x, x 0 ) = max(, ; ) = max(1,; 2) = 2 Protože d CCC (D, x 0 ) < d CCC (H, x 0 ), bude zařazen do třídy pacientů..1 Metoda k nejbližších sousedů + Canberrská metrika: d CC (x 1, x 0 ) = x x 01 + x x 02 = 2, + = 1, + = 0,2 x + x 01 x + x 02 2 +, +, 21 d CC (x 2, x 0 ) = x 21 x 01 + x 22 x 02 =, + + 1 = 0, x 21 + x 01 x 22 + x 02 +, +, 1 d CC (x, x 0 ) = x 1 x 01 + x 2 x 02 =, + + 1 = 0,1 x 1 + x 01 x 2 + x 02 +, +, 1 d CC (x, x 0 ) = x 1 x 01 + x 2 x 02 =, + = 1, + 2 = 0,0 x 1 + x 01 x 2 + x 02 +, +, 1 d CC (x, x 0 ) = x 1 x 01 + x 2 x 02 =, + + 0 = 0,0 x 1 + x 01 x 2 + x 02 +, +, 1 d CC (x, x 0 ) = x 1 x 01 + x 2 x 02 =, + + x 1 + x 01 x 2 + x 02 +, +, 1 d CC (x, x 0 ) < d CC (x 2, x 0 ) < d CC (x, x 0 ) < d CC (x, x 0 ) < d CC (x, x 0 ) < d CC (x 1, x 0 ) pro k = 1: nejbližší soused bodu x 0 je bod x, protože d CC (x, x 0 ) je nejmenší pro k = : subjekt zařazen do třídy pacientů, protože mezi nejbližšími sousedy jsou 2 a 1 pro k = : nelze rozhodnout pro k = : subjekt zařazen do třídy kontrolních subjektů, protože mezi nejbližšími sousedy jsou 2 a y pro k = : nelze rozhodnout.2 Metoda průměrné vazby + Canberrská metrika: d GG (D, x 0 ) = d CC(x 1,x 0 )+d CC (x 2,x 0 )+d CC (x,x 0 ) d GG (H, x 0 ) = d CC(x,x 0 )+d CC (x,x 0 )+d CC (x,x 0 ) = 0,2+0,+0,1 = 0,0+0,0+0, = 0,2 = 0,2 Protože d GG (D, x 0 ) < d GG (H, x 0 ), bude zařazen do třídy pacientů.
. Centroidová metoda + Canberrská metrika: d CC (D, x 0 ) = d CC (x D, x 0 ) =, + + 1 = 0,1 +, +, 1 d CC (H, x 0 ) = d CC (x H, x 0 ) =, + + 2 = 0,1 +, +, 1 Protože d CC (D, x 0 ) < d CC (H, x 0 ), bude zařazen do třídy pacientů. d CCC (D, x 0 ) = d CC (x D, x 0 ) = d CC (x 2, x 0 ) =, + + 1 = 0, +, +, 1 d CCC (H, x 0 ) = d CC (x H, x 0 ) = d CC (x, x 0 ) =, + = 1, + 2 = 0,0 +, +, 1 Protože d CCC (D, x 0 ) < d CCC (H, x 0 ), bude zařazen do třídy pacientů..1 Metoda k nejbližších sousedů + Mahalanobisova metrika: Nejprve je potřeba vypočítat výběrové kovarianční matice pro třídu pacientů a kontrol, tzn. S D = 1 1 1 a S H = 1 1 (výpočet výběrových kovariančních matic lze nalézt ve Cvičení 1) 1 a jejich inverzi její inverzi S 1 D = 1 1 1 a S H 1 = 1 1 1. d MM (x 1, x 0 ) = (x 1 x 0 ) T S 1 D (x 1 x 0 ) = [2, ] 1, 2 = 1, 1 1 d MM (x 2, x 0 ) = (x 2 x 0 ) T S 1 D (x 2 x 0 ) = [, ] 1, 1 1 = 1 d MM (x, x 0 ) = (x x 0 ) T S 1 D (x x 0 ) = [, ] 1, 1 1 = 1 d MM (x, x 0 ) = (x x 0 ) T S 1 H (x x 0 ) = [, ] 1, = 1, 1 1 d MM (x, x 0 ) = (x x 0 ) T S 1 H (x x 0 ) = [, ] 1, 1 1 d MM (x, x 0 ) = (x x 0 ) T S 1 H (x x 0 ) = [, ] 1, = 2,0 1 1 d MM (x, x 0 ) < d MM (x 2, x 0 ) d MM (x, x 0 ) < d MM (x, x 0 ) < d MM (x 1, x 0 ) < d MM (x, x 0 ) pro k = 1: nejbližší soused bodu x 0 je bod x, protože d CC (x, x 0 ) je nejmenší pro k = : subjekt zařazen do třídy pacientů, protože mezi nejbližšími sousedy jsou 2 a 1
pro k = : nelze rozhodnout pro k = : subjekt zařazen do třídy pacientů, protože mezi nejbližšími sousedy jsou a 2 y pro k = : nelze rozhodnout.2 Metoda průměrné vazby + Mahalanobisova metrika: d GG (D, x 0 ) = d MM(x 1,x 0 )+d MM (x 2,x 0 )+d MM (x,x 0 ) d GG (H, x 0 ) = d MM(x,x 0 )+d MM (x,x 0 )+d MM (x,x 0 ) = 1,+1+1 = 1,2 = 1,0 Protože d GG (D, x 0 ) < d GG (H, x 0 ), bude zařazen do třídy pacientů.. Centroidová metoda + Mahalanobisova metrika: = 1,+0,+2,0 d CC (D, x 0 ) = d MM (x D, x 0 ) = [, ] 1, 1 1 d CC (H, x 0 ) = d CC (x H, x 0 ) = [, ] 1, 1 1 = 1 Protože d CC (D, x 0 ) < d CC (H, x 0 ), bude zařazen do třídy pacientů. d CCC (D, x 0 ) = d MM (x D, x 0 ) = d MM (x 2, x 0 ) = 1 d CCC (H, x 0 ) = d MM (x H, x 0 ) = d MM (x, x 0 ) = 1, Protože d CCC (D, x 0 ) < d CCC (H, x 0 ), bude zařazen do třídy pacientů. Výsledky uspořádáme do tabulky: metrika Euklidova Hammingova Čebyševova Canberrská Mahalanobisova NN H H H H H -NN D D D D D -NN D - D H D GA D D D D D CE-centroid D D D D D CE-medoid D D D D D Je patrné, že výsledek klasifikace se může lišit při použití různých metrik vzdálenosti.