Shluková analýza (Cluster analysis, numerická taxonomie,... ) Cíle shlukové analýzy : ne testovací, ale popisné: klasifikace objektů (Q-technika) nebo znaků (R-technika) nalezení typů generování hypotéz o klasifikaci Předpoklady: Každý objekt je popsán týmiž znaky. Množinu objektů označme O Martin Betinec Shluková analýza 2 Shlukovací metody: hierarchické: Výsledkem je systém {A i } i, kde A i, A j O : buď A i A j = nebo A i A j = A i nebo A i A j = A j shlukovací (aglomerativní) rozhlukovací (divisivní) nehierarchické: Výsledný systém {A i } i tvoří disjunktní množiny optimalizační analýzy modů Výsledek: Ne vždy jednoznačný závislý na: shlukovací metodě měření vzdálenosti, tj. na volbě míry nepodobnosti (metriky) kódování znaků (u nominálních veličin) standartizace znaků (u kardinálních veličin) závislostní struktuře zahrnutých znaků 1 Martin Betinec Shluková analýza 3 1. Data Datový soubor se skládá ze trojice proměnných, které uvádějí počety vězňů odsouzených za přepadení, vraždu, znásilnění na 100 000 obyvatel každého ze 50 států USA. Čtvrtá proměnná je procentuální zastoupení městského obyvatelstva daného státu. Datová matice x 1,1 x 1,2 x 1,3 x 1,4 x 2,1 x 2,2 x 2,3 x 3,4 X =.. x k,1 x k,2 x k,3 x k,4 (1.1).. x 50,1 x 50,2 x 50,3 x 50,4 Vektor k-tého pozorování x k = (x k,1, x k,2, x k,3, x k,4 ) pro k = 1,, 50. Vektor j-té proměnné x j = pro j = 1,, 4. x 1,j x 2,j. x 50,j Martin Betinec Shluková analýza 4 Murder Assault UrbanPop Rape 13.2 236 58 21.2 10 263 48 44.5 8.1 294 80 31 8.8 190 50 19.5 9 276 91 40.6 7.9 204 78 38.7 3.3 110 77 11.1 5.9 238 72 15.8 15.4 335 80 31.9 17.4 211 60 25.8 5.3 46 83 20.2 2.6 120 54 14.2 10.4 249 83 24 7.2 113 65 21 2.2 56 57 11.3 6 115 66 18 9.7 109 52 16.3 15.4 249 66 22.2 2.1 83 51 7.8 11.3 300 67 27.8 4.4 149 85 16.3 12.1 255 74 35.1 2.7 72 66 14.9 16.1 259 44 17.1 9 178 70 28.2 6 109 53 16.4 4.3 102 62 16.5 12.2 252 81 46 2.1 57 56 9.5 7.4 159 89 18.8 11.4 285 70 32.1 11.1 254 86 26.1 13 337 45 16.1 0.8 45 44 7.3 7.3 120 75 21.4 6.6 151 68 20 4.9 159 67 29.3 6.3 106 72 14.9 3.4 174 87 8.3 14.4 279 48 22.5 3.8 86 45 12.8 13.2 188 59 26.9 12.7 201 80 25.5 3.2 120 80 22.9 2.2 48 32 11.2 8.5 156 63 20.7 4 145 73 26.2 5.7 81 39 9.3 2.6 53 66 10.8 6.8 161 60 15.6
Martin Betinec Shluková analýza 5 Martin Betinec Shluková analýza 6 Popis dat 50 100 200 300 Murder 50 150 250 0.80 0.07 Assault 10 20 30 40 0.56 0.26 0.67 5 10 15 1.1. Měřítko. Hodnoty znaku Assault zřetelně dominují všem ostatním viz obr. 15 a tab. 6, to může silně zkreslit měření vzdáleností jednotlivých objektů: odlišnost v této proměnné může zastínit odlišnosti v ostatních. Viz dále. Proto je vhodné proměnné standardizovat, tj. hodnotu j-tého znaku i-tého státu, přepočítáme: kde x j = 1 50 50 i=1 x i,j a s j = z i,j = x i,j x j, s j 1 49 50 i=1 (x i,j x j ) 2 10 20 30 40 UrbanPop 0.41 Rape 30 40 50 60 70 80 90 Murder Assault UrbanPop Rape min 0.80 45.00 32.00 7.30 prumer 7.79 170.76 65.54 21.23 median 7.25 159.00 66.00 20.10 max 17.40 337.00 91.00 46.00 var 18.97 6945.17 209.52 87.73 st.dev 4.36 83.34 14.47 9.37 Tabulka 1. Shrnutí vlastností znaků. 5 10 15 30 50 70 90 Obrázek 1. Popis pozorování Martin Betinec Shluková analýza 7 1.2. Nezávislost znaků. Je zřejmé, že znaky popisující kriminalitu jsou korelované, viz obr. 15 a tab. 7: Murder Assault UrbanPop Rape Murder 1.00 0.80 0.07 0.56 Assault 0.80 1.00 0.26 0.67 UrbanPop 0.07 0.26 1.00 0.41 Rape 0.56 0.67 0.41 1.00 Tabulka 2. Korelační koeficienty znaků. Klasický Pearsonův test shodně s pořadovým Spearmanovým i Kendallovým testem na hladině 95% zamítají nekorelovanost veličin Murder, Assault, Rape, jakož i nekorelovanost UrbanPop a Rape, viz tab. 8. Nekorelovanost UrbanPop a Assault je na hranici zamítnutí. (1,2) (1,3) (1,4) (2,3) (2,4) (3,4) Pearson 0.00 0.63 0.00 0.07 0.00 0.00 Spearman 0.00 0.46 0.00 0.05 0.00 0.00 Kendall 0.00 0.45 0.00 0.04 0.00 0.00 Tabulka 3. Dosažené hladiny korelačních testů (p-value). Martin Betinec Shluková analýza 8 2. Měření vzdálenosti vzdálenosti se měří mezi objekty: (Q techniky) dle typu znaků, které objekt nese binární symetrický asymetrický nominální ordinální kardinální intervalové poměrové znaky (R techniky) verze cor koeficientu (Pearson,Spearman, χ 2 )
Martin Betinec Shluková analýza 9 pro objekty (znaky) i, j míry podobnosti (similarities)... s platí: (1) 0 s(i, j) 1 (2) s(i, j) = s(j, i) (3) s(i, i) = 1 míry nepodobnosti (disimilarities)... d platí: (1) 0 s(i, j) 1 (2) s(i, j) = s(j, i) (3) s(i, i) = 0 d(i, j) = 1 s(i, j) zadány přímo matice (ne)podobností (např. hodnocení soudců) prostřednictvím souřadnic objektů nutno spočítat Martin Betinec Shluková analýza 10 Míra nepodobnosti proměnných kardinální a ordinální d(f, g) odvozeno od Pearsonova, resp. Spearmanova cor(f, g) * d(f, g) = 1 cor(f,g) 2 d(f, g) = * d(f, g) = 1 cor(f, g) 0, cor(f, g) = 1 0.5, 0 1, +1 { 0, cor(f, g) = ±1 d(f, g) = 1, 0 nominální p-level χ 2 testu homogenity f a g nelze užit přímo statstiky X 2 různé DF Martin Betinec Shluková analýza 11 Binární proměnné symetrické setkání dvou 1 nese stejnou informaci jako setkání dvou 0 je jedno, který stav okóduji 1 a který 0 př. žena v celkové populaci užívají se invariantní koeficienty Simple matching, Rogers - Tanimoto, Sokal - Sneath asymetrické setkání dvou 1 nese informaci navíc, setkání dvou 0 nikoli indikátory řídkých jevů, např. žena v populaci fotbalových chuligánů, volič extrémistů, deviace,... užívají se neinvariantni koeficienty Jaccard, Dice - Sorensen, Sokal - Sneath Martin Betinec Shluková analýza 12 objekt j objekt i 1 0 celkem 1 a b a+b 0 c d c+d celkem a+c b+d p=a+b+c+d Tabulka 4. Asociační tabulka. typ název s(i, j) d(i, j) a+d sym Simple matching p a+d Rogers & Tanimoto Sokal & Sneath asym Jaccard Dice Sokal & Sneath a+d+2(c+b) 2(a+d) 2(a+d)+(c+b) a a+b+c 2a 2a+b+c a a+2(c+b) c+b p 2(c+b) a+d+2(c+b) c+b 2(a+d)+(c+b) b+c a+b+c b+c 2a+b+c 2(c+b) a+2(c+b) Tabulka 5. Asociační koeficienty binárních veličin.
Nominální proměnné Martin Betinec Shluková analýza 13 Ordinální proměnné Martin Betinec Shluková analýza 14 Strategie: sloučit hladiny tak, aby vznikla binární = ztráta info pro každou hladinu zavést 1 (asymetrickou) binární (indikátor) mnoho nových proměnných & typ (asymetrické), Simple matching tj. s(i, j) = u p d(i, j) = p u u nutno zvážit případné vážení dle počtu hladin (tj. dle míry informace při shodě) diskrétní spojité měřítko není lineární = lze se spolehnout jen na pořadí Př.: monotonní nelineární trafo intervalové proměnné, např.: y = log x, y = x, y = e x,... Označme: r if... pořadí i-tého pozorování proměnné f. M f = max i r if trafo r if na < 0, 1 > z if = r if 1 M f 1 vzdálenost z if a z jf se nyní změří pomocí Manhattan metriky Kardinální proměnné Martin Betinec Shluková analýza 15 intervalové informaci nese interval poměrové kladné, informaci nese poměr, stejné intervaly nemají stejnou informační hodnotu. Platí: d(20, 20) = d(20, 200) tj. např. koncentrace, radiační intenzita,..., často závislosti typu ae bx, kde a > 0 Poměrové kardinální znaky lze zpracovat jako intervalové = chyba spojité ordinální (tj. pracovat s pořadími) trafo y = log x a pak jako intervalové Martin Betinec Shluková analýza 16 Intervalové kardinální znaky Nechť je objekt číslo i reprezentován vektorem x i = (x i,1,, x i,p ). Resp. v případě standartizovaných dat z i = (z i,1,, z i,m ), viz část 3. Příklad: kriminalita v USA i = 1,, 50 a p = 4. Vzdálenost(metrika) je zobrazení d: R p R p R + 0, které pro x i, x j, x k R p, x i = (x i,1,, x i,p ), x j = (x j,1,, x j,p ), x k = (x k,1,, x k,p ). splňuje: (1) d(x i, x j ) 0 (2) d(x i, x j ) = 0 x i = x j (3) symetrie d(x i, x j ) = d(x j, x i ) (4) trojúhelníková nerovnost d(x i, x j ) d(x i, x k ) + d(x k, x j )
J OT Většina metrik je odvozena od: (1) Minkowského d t (x i, x j ) = Martin Betinec Shluková analýza 17 [ p k=1 (x i,k x j,k ) t ]1 t t = 1, 2, 3, (2.1) např. (2) Manhattan (city-block) vznikne z d t (1.1) pro t = 1 p d 1 (x i, x j ) = x i,k x j,k, (2.2) k=1 (3) euklidovská vznikne z d t (1.1) pro t = 2 p d E (x i, x j ) = (x i,k x i,j ) 2, (2.3) k=1 je to Pythagorova věta v p dimenzích. Pro binární veličiny d E (x i, x j ) = d 1 (x i, x j ) (4) Lagrangeova(supremální, L -metrika) d (x i, x j ) = lim t d t(x i, x j ) = max k=1,,p x i,k x j,k, (2.4) Platí: Martin Betinec Shluková analýza 18 d 1 (x i, x j ) d E (x i, x j ) d (x i, x j ) (5) Canberra d Cb (x i, x j ) = p k=1 x i,k x j,k x i,k + x j,k, (2.5) (6) Mahalanobisova d M (x i, x j ) = (x i x j ) T S 1 (x i x j ) p p = (x i,h x j,h )(x i,k x j,k )(S 1 ) hk h=1 k=1 (2.6) jedná se o mnohorozměrnou standardizaci = bere v úvahu korelaci znaků eliminuje vliv multikolinearity S 2 se počítá z celého souboru může vybírat matoucí korelace, které nejsou uvnitř skupin přítomny viz násl. příklady a obr. 2 až 6 Martin Betinec Shluková analýza 19 Příklad Kolaps Malahanobisovy metriky I 2 vnitřne nekorelované skupiny, které mezi sebou maji korelaci y 2 4 6 8 C B A F E D I H G data M L K J Q P O N U T S R Y X W V Height 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 A D GB C EF H IJ Agnes: DAISY K NO L MP Martin Betinec Shluková analýza 20 Q RS V WT daisy(x) Agglomerative Coefficient = 0.87 Agnes: DAISY n = 25 U XY 2 clusters C j 1 : 9 0.79 2 : 16 0.72 Height 0.0 0.5 1.0 1.5 2.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 A E I D H G Agnes: Mahalanobis B F C Y N S XR W V K P UL as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.81 Agnes: Mahalanobis n = 25 Q M 3 clusters C j 1 : 9 0.49 2 : 10 0.40 3 : 6 0.56 2 4 6 8 x Average silhouette width : 0.75 Average silhouette width : 0.47 Obrázek 2. Vnitřne nekorelované skupiny. Obrázek 3. Hierarchické rozklady a jejich hodnocení.
Martin Betinec Shluková analýza 21 Component 2 y Component 2 J KS 2 J Martin Betinec Shluková analýza 22 2 Pam: DAISY 4 2 0 2 4 6 Component 1 These two components explain 94.94 % of the Pam: Mahalanobis D BE A G CHF P TI O XUS Q W R LY M N KV J D BEA I G CHF Q P M UKL O T R YJ W N SV X Pam: DAISY n = 25 Average silhouette width : 0.75 2 clusters C j 1 : 9 0.79 2 : 16 0.72 Pam: Mahalanobis n = 25 3 clusters C j 1 : 9 0.49 2 : 10 0.40 3 : 6 0.56 počet klastrů dist metoda 2 3 4 5 Daisy Agnes 0.75 0.48 0.46 0.51 Pam 0.75 0.45 0.42 0.41 Mahalanobis Agnes 0.45 0.47 0.44 0.43 Pam 0.45 0.47 0.37 0.32 Tabulka 6. Průměrné siluety pro různé počty klastrů. Interpretace: Daisy rozpozná strukturu jako silnou max k s(k) =.75 Mahalanobisova metrika vkládá umělou strukturu a vnímá ji jako slabou max k s(k) =.47 1.0 0.5 0.0 0.5 1.0 1.5 Component 1 These two components explain 91.9 % of the p Average silhouette width : 0.47 Obrázek 4 Nejlepší nehierarchické rozklady. Martin Betinec Shluková analýza 23 Příklad Kolaps Malahanobisovy metriky II 2 vnitřne silně korelované skupiny, které mezi sebou maji silnou korelaci 5 10 15 20 E A F B G C H D I data 5 10 15 20 Obrázek 5. Vnitřne korelované skupiny. počet klastrů dist metoda 2 3 4 5 Daisy Agnes 0.84 0.68 0.55 0.46 Pam 0.84 0.68 0.63 0.49 Mahalanobis Agnes 0.52 0.60 0.56 0.49 Pam 0.52 0.60 0.55 0.52 Tabulka 7. Průměrné siluety pro různé počty klastrů. x J S K T L U M V N W O X P Y Q Z R Height 0 5 10 15 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 A FE B GC H DI Agnes: DAISY L TM U NV Martin Betinec Shluková analýza 24 O WP X QY daisy(x) Agglomerative Coefficient = 0.96 Agnes: DAISY n = 26 R Z Average silhouette width : 0.84 2 clusters C j 1 : 9 0.9 2 : 17 0.82 Height 0.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 A F E B GC Agnes: Mahalanobis H DI K SL T MU N VO W PX Q YR as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.9 Agnes: Mahalanobis n = 26 Z Average silhouette width : 0.6 Obrázek 6 Hierarchické rozklady a jejich hodnocení. 3 clusters C j 1 : 9 0.65 2 : 9 0.55 3 : 8 0.61
Component 2 Component 2 J SK 6 4 2 0 2 4 6 y 2 Pam: DAISY 10 5 0 5 10 15 Component 1 These two components explain 99.84 % of the point Pam: Mahalanobis 1.0 0.5 0.0 0.5 Component 1 These two components explain 94.73 % of the point Martin Betinec Shluková analýza 25 G C B F H D A E I V W M N O U X P L T Q KY S R JZ G C B H D F A E I T K S L M JU V N Q Y R PZ W OX Pam: DAISY n = 26 Average silhouette width : 0.84 Pam: Mahalanobis n = 26 Obrázek 7 Nejlepší nehierarchické rozklady. 2 clusters C j 1 : 9 0.9 2 : 17 0.82 Average silhouette width : 0.6 3 clusters C j 1 : 9 0.65 2 : 9 0.55 3 : 8 0.61 Martin Betinec Shluková analýza 26 Příklad Kolaps Malahanobisovy metriky III 2 vnitřne pozitivně korelované skupiny, které mezi sebou maji silnou korelaci 5 10 15 20 E F G A B I C H D data 5 10 15 20 x S T U J K L V W X M N O Y Z P Q R Obrázek 8. Vnitřne pozitivně korelované skupiny. počet klastrů dist metoda 2 3 4 5 Daisy Agnes 0.87 0.67 0.59 0.42 Pam 0.87 0.67 0.62 0.55 Mahalanobis Agnes 0.51 0.53 0.52 0.47 Pam 0.51 0.55 0.50 0.44 Tabulka 8. Průměrné siluety pro různé počty klastrů. Martin Betinec Shluková analýza 27 Martin Betinec Shluková analýza 28 Height 0 5 10 15 20 A EB C IF D HG Agnes: DAISY T LU M VN W OX P YQ Z R Height 0.0 0.5 1.0 1.5 2.0 A G B I H C DE Agnes: Mahalanobis F JUK V ST L WM X NY O Z P Q R Component 2 4 2 0 2 4 Pam: DAISY C I G BF E D H A O N W M VX P Q UY L R TZ K S J Pam: DAISY n = 26 2 clusters C j 1 : 9 0.92 2 : 17 0.84 10 5 0 5 10 15 daisy(x) Agglomerative Coefficient = 0.96 as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.86 Component 1 These two components explain 99.77 % of the point Average silhouette width : 0.87 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Agnes: DAISY n = 26 2 clusters C j 1 : 9 0.92 2 : 17 0.84 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Agnes: Mahalanobis n = 26 3 clusters C j 1 : 9 0.63 2 : 6 0.64 3 : 11 0.38 Component 2 Pam: Mahalanobis B I G HA C D F E U V J T W SK L X O P R Z Q M YN Pam: Mahalanobis n = 26 3 clusters C j 1 : 9 0.63 2 : 9 0.52 3 : 8 0.5 0.2 1.5 0.5 0.0 0.5 1.0 1.5 Average silhouette width : 0.87 Average silhouette width : 0.53 Component 1 These two components explain 92.42 % of the point Average silhouette width : 0.55 Obrázek 9 Hierarchické rozklady a jejich hodnocení. Obrázek 10 Nejlepší nehierarchické rozklady.
Martin Betinec Shluková analýza 29 Příklad: USArrests Situaci demonstrují obrázky 10 až 12, které vznikly metodu nejbližšího souseda. Situace se trochu lišila pro metodu nejbližšího a nejvzdálenějšího souseda, odlišnosti týkaly především spodních pater, viz obr. 13. a některých případů (pro supremální a euklidovskou metriku např. zařazení Montany a u). Použití euklidovské metriky produkuje podobný strom jako vznikne pro supremalní metriku, viz obr. 10. Hint: Začněme dešifrovat shluky od, resp. od Oklahomy či od u Shluk {,, } je až na malé permutace ( vs. {Connectitcut, } apod.) totožný v obou stromech. Shluk {,, } je v obou stromech téměř totožný. Shluk {,, Lousiana} ve druhém případě připojuje Aljašku dříve než ostatní shluky, jinak se liší pouze na spodních úrovních. Srovnání euklidovské a manhattanské metriky. Velmi se liší zařazení Nevady a Arizony. Stabilitu vykazují shluky {,, }, dále {,,}. Nicméně jejich spojení je různé. Martin Betinec Shluková analýza 30 Strom vypěstovaný z canberrské metriky se liší od předchozích dost podstaně, srov. např. a klastr {, a spol.}, nicméně i zde jsou někeré stabilní shluky Martin Betinec Shluková analýza 31 Martin Betinec Shluková analýza 32 0.0 0.5 1.0 1.5 2.0 euclidian 0.0 0.5 1.0 1.5 2.0 euclidian 0.0 0.4 0.8 1.2 1.6 maximum 0.0 1.0 2.0 3.0 manhattan Obrázek 11. Euklidian a sup. Obrázek 12. Euklidian a Manhattan.
0.0 0.5 1.0 1.5 2.0 2.5 0.0 1.0 2.0 3.0 Obrázek 15. Euklidian a sup (4 complete linkage ). 3 2 3 complete,eukl 3 2 3 complete,supr Martin Betinec Shluková analýza 35 Obrázek 13. Manhattan a Canberra. canberra manhattan Martin Betinec Shluková analýza 33 Strategie zvláštní analýzu pro každý typ znaků problém: když nesouhlasí zacházet se všemi jako s intervalovými problém: nominální a asymetrické binární (místo ordinálních = pořadí... OK místo poměrových = log x... OK) vše převést na binární problém: ztráta info, volba prahu kombinovaná míra např.: DAISY, Gower,... shlukování objektů 3. Smíšené znaky Martin Betinec Shluková analýza 36 Obrázek 14. Euklidian a sup (4 complete linkage ). 0 1 2 3 4 maximum (complete) 0 1 2 3 4 5 6 euclidian (complete) Martin Betinec Shluková analýza 34
d ij.f je-li f nominální, binární Martin Betinec Shluková analýza 37 Martin Betinec Shluková analýza 38 DAISY (Kaufman - Rousseeuw) d(i, j) = p f=1 δ ij.fd ij.f p f=1 δ ij.f = d ij.f = 1 x if x jf d ij.f = 0 x if = x jf δ ij.f δ ij.f = 0 když x if = NA nebo x jf = NA když znak f je asymetrická binární a objekty i a j utvořily shodu (0, 0), je-li f intervalová d ij.f = x if x jf max h x hf min h x hf (3.1) δ ij.f = 1 jinak je-li f ordinální nahrazeny pořadími, na ně aplikováno (2.1). je-li f poměrová buď jako ordinální, nebo log trafo a opět (2.1) Jsou-li všechny znaky nominální = d(i, j)... simple matching symetrické binární asymetrické binární = Jaccardův koef. intervalové = standardiz. Manhattan Martin Betinec Shluková analýza 39 4. Různé metody shlukování 4.1. Hierarchické metody. nejvzdálenějšího souseda (complete linkage) viz obr. 16 nejbližšího souseda (single linkage) viz obr. 16 Wardova viz obr. 18 centroidní viz obr. 19 mediánová viz obr. 19 průměrné nepodobnosti (group average) viz obr. 18 McQuittyho viz obr. 20 Martin Betinec Shluková analýza 40 Metoda nejvzdálenějšího souseda (complete linkage, furthest neighbour) Míra nepodobnosti shluků A, B: D(A, B) = max d(o i, O j ) (4.1) O i A,O j B D(A, A) = 0 (4.2) Metoda nejbližšího souseda (single linkage, nearest neghbour, friend of friends) Míra nepodobnosti shluků A, B: D(A, B) = min d(o i, O j ) O i A,O j B
Obrázek 16. Complete a single linkage. 0.0 0.5 1.0 1.5 2.0 single 0 1 2 3 4 5 6 complete Martin Betinec Shluková analýza 43 D(R, U) = 1 2 D(P, U) + 1 2 D(Q, U) 1 4 D(P, Q) D({Oi}, {Oj}) = d 2 E(Oi, Oj) a Pro shluky P, Q, U, R = P Q, platí Mediánová metoda (unweighted group method) řešení: Problém: Ovlivněná počty prvků shluku D(R, U) = P Q P Q D(P, U) + D(Q, U) D(P, Q) R R R 2 D({Oi}, {Oj}) = d 2 E (O i, Oj) a Platí: Pro shluky P, Q, U, R = P Q, platí kde A, B jsou těžiště shluků A, B. D(A, B) = d 2 E (A, B), Míra nepodobnosti shluků A, B: Metoda centroidní (weighted group method) Martin Betinec Shluková analýza 41 Obrázek 17. Complete linkage a group average. 0 1 2 3 4 5 6 complete 0.0 1.0 2.0 3.0 average Martin Betinec Shluková analýza 44 i:oi A j IAB = EC (EA + EB), kde (4.5) EA = (oij oj) 2 (4.6) Pro sloučeni shluků A, B do shluku C minimalizuje Wardova a Wishartova metoda D(A, B) = d(oi, Oj) A D(A, A) = 0 1 B (4.3) (i,j) (4.4) Míra nepodobnosti shluků A, B: Metoda průměrné nepodobnosti shluků (group average) Martin Betinec Shluková analýza 42
0 1 2 3 4 0.0 1.0 2.0 3.0 0 5 10 20 30 0.0 1.0 2.0 3.0 Obrázek 20. Group average a McQuitty. mcquitty average Martin Betinec Shluková analýza 47 Obrázek 18. Group average a Wardova. ward average Martin Betinec Shluková analýza 45 Pořadí slučování nižších pater není rozhodující, spíš počet shluků. V tomto případě buď 2 nebo 4 (resp. 5 se samostatnou Aljaškou). vykazují stabilitu víceméně při všech metodách. Značně se liší metoda nejbližšího souseda viz např.,,. (2) {,,} Některé shluky, viz obr. 16: (1) {,, } Martin Betinec Shluková analýza 48 Obrázek 19. Centroidní a medianová metoda. 0.0 0.5 1.0 1.5 2.0 2.5 median 0.0 0.5 1.0 1.5 2.0 centroid Martin Betinec Shluková analýza 46
Martin Betinec Shluková analýza 49 4.2. Nehierarchické metody. Na základě předchozích výsledků jsem zkusil rozklad do 4 a 5 shluků. 4.2.1. Rozklad na čtyři shluky. Objekty se shlukovaly klasickou metodou k-means následovně: (1),,,,,,,, RhodeIsland,,,,, (2),,,,,,,, West, (3),,,,,,,,,,,,,,, (4),,,,,,,,, size 16 8 13 13 withinss 16.212 8.316 11.952 19.922 Tabulka 9. Vlastnosti jednotlivých shluků. Robustnější verze téhož PAM vytvorila stejné shluky, kromě toho, že zařadila do shluku č. 4. Martin Betinec Shluková analýza 50 Murder Assault UrbanPop Rape 13.2 236 58 21.2 12.1 255 74 35.1 6.6 151 68 20 2.1 57 56 9.5 Tabulka 10. Typické objekty jednotlivých shluků. p.usa.sc14$med[1, ] 1.0 0.5 0.0 0.5 1.0 1.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 pomx Obrázek 21. Profily shluků. Martin Betinec Shluková analýza 51 Martin Betinec Shluková analýza 52 size max.diss av.diss diameter separation 1 12.00 2.12 1.19 3.29 1.17 2 10.00 1.67 0.83 2.40 0.61 3 8.00 1.60 0.98 2.34 0.99 4 20.00 1.97 1.05 3.05 0.61 Tabulka 11. Vlastnosti PAM shluků. k means,4 3 2 3 complete,eukl 3 2 3 Obrázek 22. Srovnání hierarchické a nehierarchické metody.
Martin Betinec Shluková analýza 53 4.2.2. Rozklad na pět shluků. Klasickou metodou k-means: Martin Betinec Shluková analýza 54 5 clusters (1), NorthCarolina (2),,,,,,,,,,, NewHampshire, NorthDakota,,, SouthDakota,,, West, (3),,,,,,,,, NewYork (4),,,, NewJersey,,, RhodeIsland,,,,, (5),,, NewMexico,SouthCarolina size 2 20 10 13 5 withinss 742.20 19263.760 5070.312 7382.59 1633.352 Tabulka 12. Vlastnosti jednotlivých shluků. 3 2 3 5clusters 3 2 3 Obrázek 23. K means. Martin Betinec Shluková analýza 55 Robustnější metodou PAM (1),,,,,,,,, NewYork (2),,, NewMexico, NorthCarolina, SouthCarolina (3),,,,, NewJersey,,, RhodeIsland,,,, (4),,,,,,,,,, (5),,,, NewHampshire, NorthDakota, SouthDakota,, West, Murder Assault UrbanPop Rape 12.10 255.00 74.00 35.10 11.30 300.00 67.00 27.80 9.00 178.00 70.00 28.20 6.00 115.00 66.00 18.00 2.10 57.00 56.00 9.50 Tabulka 13. Typické objekty jednotlivých shluků. Cvičení: Jakým stromům odpovídají zmíněná řešení? Martin Betinec Shluková analýza 56 size max.diss av.diss diameter separation 1 10.00 35.44 20.77 55.68 21.17 2 6.00 44.64 23.72 65.19 21.17 3 13.00 35.57 24.40 68.76 10.31 4 11.00 31.94 13.28 45.43 10.31 5 10.00 31.24 19.35 57.27 23.64 Tabulka 14. Vlastnosti jednotlivých shluků.
Martin Betinec Shluková analýza 57 Martin Betinec Shluková analýza 58 clusplot(pam(x = usa.sc, k = 5)) Silhouette plot of pam(x = usa.sc, k = 3 2 3 clusplot(pam(x = usa.sc, k = 4)) Silhouette width Silhouette plot of pam(x = usa.sc, k = 3 2 3 3 2 3 Obrázek 24. PAM. Silhouette width 3 2 3 Obrázek 25. PAM Projekce do 2. a 3. proměnné Martin Betinec Shluková analýza 59 k means Martin Betinec Shluková analýza 60 k means 3 2 3 PAM 3 2 3 PAM PC2 3 2 3 3 2 3 Obrázek 26. Srovnání pro 5 shluků Obrázek 27. Srovnání pro 4 shluky
Martin Betinec Shluková analýza 61 4.3. Nestandardizovaná data. Pro zajímavost: shluková analýza u nestandardizovaných dat je znehodnocena měřítkom porměnné Assault (tj. směrodatnou odchylkou), takže je vidět, že shluky vpodstatě jen vytvářejí škálu podél této proměnné. 30 40 50 60 70 80 90 Martin Betinec Shluková analýza 62 k means 50 100 150 200 250 300 PAM 30 40 50 60 70 80 90 50 100 150 200 250 300 Obrázek 28. Srovnání pro 5 shluků, nestandardizovaná data Martin Betinec Shluková analýza 63 k means 30 40 50 60 70 80 90 50 100 150 200 250 300 PAM 30 40 50 60 70 80 90 50 100 150 200 250 300 Obrázek 29. Srovnání pro 4 shluky, nestandardizovaná data