Shluková analýza. shlukovací metodě

Podobné dokumenty
Shluková analýza dat a stanovení počtu shluků

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Vícerozměrné statistické metody

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Vícerozměrné statistické metody

Úvodem Dříve les než stromy 3 Operace s maticemi

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

Kontingenční tabulky, korelační koeficienty

Cvičná bakalářská zkouška, 1. varianta

Státnice odborné č. 20

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Pravděpodobnost a aplikovaná statistika

Metody analýzy dat I. Míry a metriky - pokračování

Kontingenční tabulky, korelační koeficienty

Vícerozměrná analýza dat

Multivariátní porovnání dat - klastrová (shluková) analýza

Mnohorozměrná statistická data

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Míry podobnosti, základy fuzzy matematiky

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Charakterizace rozdělení

Testování hypotéz a měření asociace mezi proměnnými

6. Lineární regresní modely

Jana Vránová, 3. lékařská fakulta UK

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Miroslav Čepek

Vícerozměrné statistické metody

odlehlých hodnot pomocí algoritmu k-means

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

14/10/2015 Z Á K L A D N Í C E N Í K Z B O Ž Í Strana: 1

Mnohorozměrná statistická data

1 Zobrazení 1 ZOBRAZENÍ 1. Zobrazení a algebraické struktury. (a) Ukažte, že zobrazení f : x

NADSTAVBOVÝ MODUL MOHSA V1

12. cvičení z PST. 20. prosince 2017

Poznámky k předmětu Aplikovaná statistika, 4. téma

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Dopady programového období regionální politiky EU na rozvoj českých mikroregionů PAVEL ZDRAŽIL, PETRA A PPLOVÁ

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

Poznámky k předmětu Aplikovaná statistika, 4. téma

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

= = = : 1 k > 0. x k + (1 x) 4k = 2k x + 4 4x = 2 x = x = = 2 : 1.

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků:

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Testy nezávislosti kardinálních veličin

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

MATEMATICKÁ STATISTIKA - XP01MST

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

Algoritmy pro shlukování prostorových dat

Analýza dat na PC I.

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

4.3.2 Koeficient podobnosti

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Euklidovský prostor. Parametrické rovnice roviny. Obecná rovnice roviny. . p.1/25

1 Báze a dimenze vektorového prostoru 1

KGG/STG Statistika pro geografy

Korelační a regresní analýza

LWS při heteroskedasticitě

Necht L je lineární prostor nad R. Operaci : L L R nazýváme

Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy.

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Notice:Jagran Infotech Ltd. Printed by Fontographer 4.1 on 6/3/2003 at 7:12 PM

Univerzita Pardubice. Fakulta ekonomicko-správní

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Lineární algebra : Skalární součin a ortogonalita

NMAI059 Pravděpodobnost a statistika

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

y (5) (x) y (4) (x) + 4y (3) (x) 12y (x) 45y (x) 27y(x) (horní indexy značí derivaci) pro 3. y(x) = x sin 3x 4. y(x) = x cos 3x 9.

FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Statistická analýza jednorozměrných dat

Upozornění : barevné odstíny zobrazené na této stránce se mohou z důvodu možného zkreslení Vašeho monitoru lišit od fyzické dodávky.

KORELACE. Komentované řešení pomocí programu Statistica

Aplikovaná statistika v R - cvičení 2

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistické testování hypotéz II

ELIMINACE VLIVU DRUHÉ ROTACE PŘI AFINNĚ INVARIANTNÍM 2D ROZPOZNÁVÁNÍ

4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k?

Transkript:

Shluková analýza (Cluster analysis, numerická taxonomie,... ) Cíle shlukové analýzy : ne testovací, ale popisné: klasifikace objektů (Q-technika) nebo znaků (R-technika) nalezení typů generování hypotéz o klasifikaci Předpoklady: Každý objekt je popsán týmiž znaky. Množinu objektů označme O Martin Betinec Shluková analýza 2 Shlukovací metody: hierarchické: Výsledkem je systém {A i } i, kde A i, A j O : buď A i A j = nebo A i A j = A i nebo A i A j = A j shlukovací (aglomerativní) rozhlukovací (divisivní) nehierarchické: Výsledný systém {A i } i tvoří disjunktní množiny optimalizační analýzy modů Výsledek: Ne vždy jednoznačný závislý na: shlukovací metodě měření vzdálenosti, tj. na volbě míry nepodobnosti (metriky) kódování znaků (u nominálních veličin) standartizace znaků (u kardinálních veličin) závislostní struktuře zahrnutých znaků 1 Martin Betinec Shluková analýza 3 1. Data Datový soubor se skládá ze trojice proměnných, které uvádějí počety vězňů odsouzených za přepadení, vraždu, znásilnění na 100 000 obyvatel každého ze 50 států USA. Čtvrtá proměnná je procentuální zastoupení městského obyvatelstva daného státu. Datová matice x 1,1 x 1,2 x 1,3 x 1,4 x 2,1 x 2,2 x 2,3 x 3,4 X =.. x k,1 x k,2 x k,3 x k,4 (1.1).. x 50,1 x 50,2 x 50,3 x 50,4 Vektor k-tého pozorování x k = (x k,1, x k,2, x k,3, x k,4 ) pro k = 1,, 50. Vektor j-té proměnné x j = pro j = 1,, 4. x 1,j x 2,j. x 50,j Martin Betinec Shluková analýza 4 Murder Assault UrbanPop Rape 13.2 236 58 21.2 10 263 48 44.5 8.1 294 80 31 8.8 190 50 19.5 9 276 91 40.6 7.9 204 78 38.7 3.3 110 77 11.1 5.9 238 72 15.8 15.4 335 80 31.9 17.4 211 60 25.8 5.3 46 83 20.2 2.6 120 54 14.2 10.4 249 83 24 7.2 113 65 21 2.2 56 57 11.3 6 115 66 18 9.7 109 52 16.3 15.4 249 66 22.2 2.1 83 51 7.8 11.3 300 67 27.8 4.4 149 85 16.3 12.1 255 74 35.1 2.7 72 66 14.9 16.1 259 44 17.1 9 178 70 28.2 6 109 53 16.4 4.3 102 62 16.5 12.2 252 81 46 2.1 57 56 9.5 7.4 159 89 18.8 11.4 285 70 32.1 11.1 254 86 26.1 13 337 45 16.1 0.8 45 44 7.3 7.3 120 75 21.4 6.6 151 68 20 4.9 159 67 29.3 6.3 106 72 14.9 3.4 174 87 8.3 14.4 279 48 22.5 3.8 86 45 12.8 13.2 188 59 26.9 12.7 201 80 25.5 3.2 120 80 22.9 2.2 48 32 11.2 8.5 156 63 20.7 4 145 73 26.2 5.7 81 39 9.3 2.6 53 66 10.8 6.8 161 60 15.6

Martin Betinec Shluková analýza 5 Martin Betinec Shluková analýza 6 Popis dat 50 100 200 300 Murder 50 150 250 0.80 0.07 Assault 10 20 30 40 0.56 0.26 0.67 5 10 15 1.1. Měřítko. Hodnoty znaku Assault zřetelně dominují všem ostatním viz obr. 15 a tab. 6, to může silně zkreslit měření vzdáleností jednotlivých objektů: odlišnost v této proměnné může zastínit odlišnosti v ostatních. Viz dále. Proto je vhodné proměnné standardizovat, tj. hodnotu j-tého znaku i-tého státu, přepočítáme: kde x j = 1 50 50 i=1 x i,j a s j = z i,j = x i,j x j, s j 1 49 50 i=1 (x i,j x j ) 2 10 20 30 40 UrbanPop 0.41 Rape 30 40 50 60 70 80 90 Murder Assault UrbanPop Rape min 0.80 45.00 32.00 7.30 prumer 7.79 170.76 65.54 21.23 median 7.25 159.00 66.00 20.10 max 17.40 337.00 91.00 46.00 var 18.97 6945.17 209.52 87.73 st.dev 4.36 83.34 14.47 9.37 Tabulka 1. Shrnutí vlastností znaků. 5 10 15 30 50 70 90 Obrázek 1. Popis pozorování Martin Betinec Shluková analýza 7 1.2. Nezávislost znaků. Je zřejmé, že znaky popisující kriminalitu jsou korelované, viz obr. 15 a tab. 7: Murder Assault UrbanPop Rape Murder 1.00 0.80 0.07 0.56 Assault 0.80 1.00 0.26 0.67 UrbanPop 0.07 0.26 1.00 0.41 Rape 0.56 0.67 0.41 1.00 Tabulka 2. Korelační koeficienty znaků. Klasický Pearsonův test shodně s pořadovým Spearmanovým i Kendallovým testem na hladině 95% zamítají nekorelovanost veličin Murder, Assault, Rape, jakož i nekorelovanost UrbanPop a Rape, viz tab. 8. Nekorelovanost UrbanPop a Assault je na hranici zamítnutí. (1,2) (1,3) (1,4) (2,3) (2,4) (3,4) Pearson 0.00 0.63 0.00 0.07 0.00 0.00 Spearman 0.00 0.46 0.00 0.05 0.00 0.00 Kendall 0.00 0.45 0.00 0.04 0.00 0.00 Tabulka 3. Dosažené hladiny korelačních testů (p-value). Martin Betinec Shluková analýza 8 2. Měření vzdálenosti vzdálenosti se měří mezi objekty: (Q techniky) dle typu znaků, které objekt nese binární symetrický asymetrický nominální ordinální kardinální intervalové poměrové znaky (R techniky) verze cor koeficientu (Pearson,Spearman, χ 2 )

Martin Betinec Shluková analýza 9 pro objekty (znaky) i, j míry podobnosti (similarities)... s platí: (1) 0 s(i, j) 1 (2) s(i, j) = s(j, i) (3) s(i, i) = 1 míry nepodobnosti (disimilarities)... d platí: (1) 0 s(i, j) 1 (2) s(i, j) = s(j, i) (3) s(i, i) = 0 d(i, j) = 1 s(i, j) zadány přímo matice (ne)podobností (např. hodnocení soudců) prostřednictvím souřadnic objektů nutno spočítat Martin Betinec Shluková analýza 10 Míra nepodobnosti proměnných kardinální a ordinální d(f, g) odvozeno od Pearsonova, resp. Spearmanova cor(f, g) * d(f, g) = 1 cor(f,g) 2 d(f, g) = * d(f, g) = 1 cor(f, g) 0, cor(f, g) = 1 0.5, 0 1, +1 { 0, cor(f, g) = ±1 d(f, g) = 1, 0 nominální p-level χ 2 testu homogenity f a g nelze užit přímo statstiky X 2 různé DF Martin Betinec Shluková analýza 11 Binární proměnné symetrické setkání dvou 1 nese stejnou informaci jako setkání dvou 0 je jedno, který stav okóduji 1 a který 0 př. žena v celkové populaci užívají se invariantní koeficienty Simple matching, Rogers - Tanimoto, Sokal - Sneath asymetrické setkání dvou 1 nese informaci navíc, setkání dvou 0 nikoli indikátory řídkých jevů, např. žena v populaci fotbalových chuligánů, volič extrémistů, deviace,... užívají se neinvariantni koeficienty Jaccard, Dice - Sorensen, Sokal - Sneath Martin Betinec Shluková analýza 12 objekt j objekt i 1 0 celkem 1 a b a+b 0 c d c+d celkem a+c b+d p=a+b+c+d Tabulka 4. Asociační tabulka. typ název s(i, j) d(i, j) a+d sym Simple matching p a+d Rogers & Tanimoto Sokal & Sneath asym Jaccard Dice Sokal & Sneath a+d+2(c+b) 2(a+d) 2(a+d)+(c+b) a a+b+c 2a 2a+b+c a a+2(c+b) c+b p 2(c+b) a+d+2(c+b) c+b 2(a+d)+(c+b) b+c a+b+c b+c 2a+b+c 2(c+b) a+2(c+b) Tabulka 5. Asociační koeficienty binárních veličin.

Nominální proměnné Martin Betinec Shluková analýza 13 Ordinální proměnné Martin Betinec Shluková analýza 14 Strategie: sloučit hladiny tak, aby vznikla binární = ztráta info pro každou hladinu zavést 1 (asymetrickou) binární (indikátor) mnoho nových proměnných & typ (asymetrické), Simple matching tj. s(i, j) = u p d(i, j) = p u u nutno zvážit případné vážení dle počtu hladin (tj. dle míry informace při shodě) diskrétní spojité měřítko není lineární = lze se spolehnout jen na pořadí Př.: monotonní nelineární trafo intervalové proměnné, např.: y = log x, y = x, y = e x,... Označme: r if... pořadí i-tého pozorování proměnné f. M f = max i r if trafo r if na < 0, 1 > z if = r if 1 M f 1 vzdálenost z if a z jf se nyní změří pomocí Manhattan metriky Kardinální proměnné Martin Betinec Shluková analýza 15 intervalové informaci nese interval poměrové kladné, informaci nese poměr, stejné intervaly nemají stejnou informační hodnotu. Platí: d(20, 20) = d(20, 200) tj. např. koncentrace, radiační intenzita,..., často závislosti typu ae bx, kde a > 0 Poměrové kardinální znaky lze zpracovat jako intervalové = chyba spojité ordinální (tj. pracovat s pořadími) trafo y = log x a pak jako intervalové Martin Betinec Shluková analýza 16 Intervalové kardinální znaky Nechť je objekt číslo i reprezentován vektorem x i = (x i,1,, x i,p ). Resp. v případě standartizovaných dat z i = (z i,1,, z i,m ), viz část 3. Příklad: kriminalita v USA i = 1,, 50 a p = 4. Vzdálenost(metrika) je zobrazení d: R p R p R + 0, které pro x i, x j, x k R p, x i = (x i,1,, x i,p ), x j = (x j,1,, x j,p ), x k = (x k,1,, x k,p ). splňuje: (1) d(x i, x j ) 0 (2) d(x i, x j ) = 0 x i = x j (3) symetrie d(x i, x j ) = d(x j, x i ) (4) trojúhelníková nerovnost d(x i, x j ) d(x i, x k ) + d(x k, x j )

J OT Většina metrik je odvozena od: (1) Minkowského d t (x i, x j ) = Martin Betinec Shluková analýza 17 [ p k=1 (x i,k x j,k ) t ]1 t t = 1, 2, 3, (2.1) např. (2) Manhattan (city-block) vznikne z d t (1.1) pro t = 1 p d 1 (x i, x j ) = x i,k x j,k, (2.2) k=1 (3) euklidovská vznikne z d t (1.1) pro t = 2 p d E (x i, x j ) = (x i,k x i,j ) 2, (2.3) k=1 je to Pythagorova věta v p dimenzích. Pro binární veličiny d E (x i, x j ) = d 1 (x i, x j ) (4) Lagrangeova(supremální, L -metrika) d (x i, x j ) = lim t d t(x i, x j ) = max k=1,,p x i,k x j,k, (2.4) Platí: Martin Betinec Shluková analýza 18 d 1 (x i, x j ) d E (x i, x j ) d (x i, x j ) (5) Canberra d Cb (x i, x j ) = p k=1 x i,k x j,k x i,k + x j,k, (2.5) (6) Mahalanobisova d M (x i, x j ) = (x i x j ) T S 1 (x i x j ) p p = (x i,h x j,h )(x i,k x j,k )(S 1 ) hk h=1 k=1 (2.6) jedná se o mnohorozměrnou standardizaci = bere v úvahu korelaci znaků eliminuje vliv multikolinearity S 2 se počítá z celého souboru může vybírat matoucí korelace, které nejsou uvnitř skupin přítomny viz násl. příklady a obr. 2 až 6 Martin Betinec Shluková analýza 19 Příklad Kolaps Malahanobisovy metriky I 2 vnitřne nekorelované skupiny, které mezi sebou maji korelaci y 2 4 6 8 C B A F E D I H G data M L K J Q P O N U T S R Y X W V Height 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 A D GB C EF H IJ Agnes: DAISY K NO L MP Martin Betinec Shluková analýza 20 Q RS V WT daisy(x) Agglomerative Coefficient = 0.87 Agnes: DAISY n = 25 U XY 2 clusters C j 1 : 9 0.79 2 : 16 0.72 Height 0.0 0.5 1.0 1.5 2.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 A E I D H G Agnes: Mahalanobis B F C Y N S XR W V K P UL as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.81 Agnes: Mahalanobis n = 25 Q M 3 clusters C j 1 : 9 0.49 2 : 10 0.40 3 : 6 0.56 2 4 6 8 x Average silhouette width : 0.75 Average silhouette width : 0.47 Obrázek 2. Vnitřne nekorelované skupiny. Obrázek 3. Hierarchické rozklady a jejich hodnocení.

Martin Betinec Shluková analýza 21 Component 2 y Component 2 J KS 2 J Martin Betinec Shluková analýza 22 2 Pam: DAISY 4 2 0 2 4 6 Component 1 These two components explain 94.94 % of the Pam: Mahalanobis D BE A G CHF P TI O XUS Q W R LY M N KV J D BEA I G CHF Q P M UKL O T R YJ W N SV X Pam: DAISY n = 25 Average silhouette width : 0.75 2 clusters C j 1 : 9 0.79 2 : 16 0.72 Pam: Mahalanobis n = 25 3 clusters C j 1 : 9 0.49 2 : 10 0.40 3 : 6 0.56 počet klastrů dist metoda 2 3 4 5 Daisy Agnes 0.75 0.48 0.46 0.51 Pam 0.75 0.45 0.42 0.41 Mahalanobis Agnes 0.45 0.47 0.44 0.43 Pam 0.45 0.47 0.37 0.32 Tabulka 6. Průměrné siluety pro různé počty klastrů. Interpretace: Daisy rozpozná strukturu jako silnou max k s(k) =.75 Mahalanobisova metrika vkládá umělou strukturu a vnímá ji jako slabou max k s(k) =.47 1.0 0.5 0.0 0.5 1.0 1.5 Component 1 These two components explain 91.9 % of the p Average silhouette width : 0.47 Obrázek 4 Nejlepší nehierarchické rozklady. Martin Betinec Shluková analýza 23 Příklad Kolaps Malahanobisovy metriky II 2 vnitřne silně korelované skupiny, které mezi sebou maji silnou korelaci 5 10 15 20 E A F B G C H D I data 5 10 15 20 Obrázek 5. Vnitřne korelované skupiny. počet klastrů dist metoda 2 3 4 5 Daisy Agnes 0.84 0.68 0.55 0.46 Pam 0.84 0.68 0.63 0.49 Mahalanobis Agnes 0.52 0.60 0.56 0.49 Pam 0.52 0.60 0.55 0.52 Tabulka 7. Průměrné siluety pro různé počty klastrů. x J S K T L U M V N W O X P Y Q Z R Height 0 5 10 15 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 A FE B GC H DI Agnes: DAISY L TM U NV Martin Betinec Shluková analýza 24 O WP X QY daisy(x) Agglomerative Coefficient = 0.96 Agnes: DAISY n = 26 R Z Average silhouette width : 0.84 2 clusters C j 1 : 9 0.9 2 : 17 0.82 Height 0.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 A F E B GC Agnes: Mahalanobis H DI K SL T MU N VO W PX Q YR as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.9 Agnes: Mahalanobis n = 26 Z Average silhouette width : 0.6 Obrázek 6 Hierarchické rozklady a jejich hodnocení. 3 clusters C j 1 : 9 0.65 2 : 9 0.55 3 : 8 0.61

Component 2 Component 2 J SK 6 4 2 0 2 4 6 y 2 Pam: DAISY 10 5 0 5 10 15 Component 1 These two components explain 99.84 % of the point Pam: Mahalanobis 1.0 0.5 0.0 0.5 Component 1 These two components explain 94.73 % of the point Martin Betinec Shluková analýza 25 G C B F H D A E I V W M N O U X P L T Q KY S R JZ G C B H D F A E I T K S L M JU V N Q Y R PZ W OX Pam: DAISY n = 26 Average silhouette width : 0.84 Pam: Mahalanobis n = 26 Obrázek 7 Nejlepší nehierarchické rozklady. 2 clusters C j 1 : 9 0.9 2 : 17 0.82 Average silhouette width : 0.6 3 clusters C j 1 : 9 0.65 2 : 9 0.55 3 : 8 0.61 Martin Betinec Shluková analýza 26 Příklad Kolaps Malahanobisovy metriky III 2 vnitřne pozitivně korelované skupiny, které mezi sebou maji silnou korelaci 5 10 15 20 E F G A B I C H D data 5 10 15 20 x S T U J K L V W X M N O Y Z P Q R Obrázek 8. Vnitřne pozitivně korelované skupiny. počet klastrů dist metoda 2 3 4 5 Daisy Agnes 0.87 0.67 0.59 0.42 Pam 0.87 0.67 0.62 0.55 Mahalanobis Agnes 0.51 0.53 0.52 0.47 Pam 0.51 0.55 0.50 0.44 Tabulka 8. Průměrné siluety pro různé počty klastrů. Martin Betinec Shluková analýza 27 Martin Betinec Shluková analýza 28 Height 0 5 10 15 20 A EB C IF D HG Agnes: DAISY T LU M VN W OX P YQ Z R Height 0.0 0.5 1.0 1.5 2.0 A G B I H C DE Agnes: Mahalanobis F JUK V ST L WM X NY O Z P Q R Component 2 4 2 0 2 4 Pam: DAISY C I G BF E D H A O N W M VX P Q UY L R TZ K S J Pam: DAISY n = 26 2 clusters C j 1 : 9 0.92 2 : 17 0.84 10 5 0 5 10 15 daisy(x) Agglomerative Coefficient = 0.96 as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.86 Component 1 These two components explain 99.77 % of the point Average silhouette width : 0.87 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Agnes: DAISY n = 26 2 clusters C j 1 : 9 0.92 2 : 17 0.84 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Agnes: Mahalanobis n = 26 3 clusters C j 1 : 9 0.63 2 : 6 0.64 3 : 11 0.38 Component 2 Pam: Mahalanobis B I G HA C D F E U V J T W SK L X O P R Z Q M YN Pam: Mahalanobis n = 26 3 clusters C j 1 : 9 0.63 2 : 9 0.52 3 : 8 0.5 0.2 1.5 0.5 0.0 0.5 1.0 1.5 Average silhouette width : 0.87 Average silhouette width : 0.53 Component 1 These two components explain 92.42 % of the point Average silhouette width : 0.55 Obrázek 9 Hierarchické rozklady a jejich hodnocení. Obrázek 10 Nejlepší nehierarchické rozklady.

Martin Betinec Shluková analýza 29 Příklad: USArrests Situaci demonstrují obrázky 10 až 12, které vznikly metodu nejbližšího souseda. Situace se trochu lišila pro metodu nejbližšího a nejvzdálenějšího souseda, odlišnosti týkaly především spodních pater, viz obr. 13. a některých případů (pro supremální a euklidovskou metriku např. zařazení Montany a u). Použití euklidovské metriky produkuje podobný strom jako vznikne pro supremalní metriku, viz obr. 10. Hint: Začněme dešifrovat shluky od, resp. od Oklahomy či od u Shluk {,, } je až na malé permutace ( vs. {Connectitcut, } apod.) totožný v obou stromech. Shluk {,, } je v obou stromech téměř totožný. Shluk {,, Lousiana} ve druhém případě připojuje Aljašku dříve než ostatní shluky, jinak se liší pouze na spodních úrovních. Srovnání euklidovské a manhattanské metriky. Velmi se liší zařazení Nevady a Arizony. Stabilitu vykazují shluky {,, }, dále {,,}. Nicméně jejich spojení je různé. Martin Betinec Shluková analýza 30 Strom vypěstovaný z canberrské metriky se liší od předchozích dost podstaně, srov. např. a klastr {, a spol.}, nicméně i zde jsou někeré stabilní shluky Martin Betinec Shluková analýza 31 Martin Betinec Shluková analýza 32 0.0 0.5 1.0 1.5 2.0 euclidian 0.0 0.5 1.0 1.5 2.0 euclidian 0.0 0.4 0.8 1.2 1.6 maximum 0.0 1.0 2.0 3.0 manhattan Obrázek 11. Euklidian a sup. Obrázek 12. Euklidian a Manhattan.

0.0 0.5 1.0 1.5 2.0 2.5 0.0 1.0 2.0 3.0 Obrázek 15. Euklidian a sup (4 complete linkage ). 3 2 3 complete,eukl 3 2 3 complete,supr Martin Betinec Shluková analýza 35 Obrázek 13. Manhattan a Canberra. canberra manhattan Martin Betinec Shluková analýza 33 Strategie zvláštní analýzu pro každý typ znaků problém: když nesouhlasí zacházet se všemi jako s intervalovými problém: nominální a asymetrické binární (místo ordinálních = pořadí... OK místo poměrových = log x... OK) vše převést na binární problém: ztráta info, volba prahu kombinovaná míra např.: DAISY, Gower,... shlukování objektů 3. Smíšené znaky Martin Betinec Shluková analýza 36 Obrázek 14. Euklidian a sup (4 complete linkage ). 0 1 2 3 4 maximum (complete) 0 1 2 3 4 5 6 euclidian (complete) Martin Betinec Shluková analýza 34

d ij.f je-li f nominální, binární Martin Betinec Shluková analýza 37 Martin Betinec Shluková analýza 38 DAISY (Kaufman - Rousseeuw) d(i, j) = p f=1 δ ij.fd ij.f p f=1 δ ij.f = d ij.f = 1 x if x jf d ij.f = 0 x if = x jf δ ij.f δ ij.f = 0 když x if = NA nebo x jf = NA když znak f je asymetrická binární a objekty i a j utvořily shodu (0, 0), je-li f intervalová d ij.f = x if x jf max h x hf min h x hf (3.1) δ ij.f = 1 jinak je-li f ordinální nahrazeny pořadími, na ně aplikováno (2.1). je-li f poměrová buď jako ordinální, nebo log trafo a opět (2.1) Jsou-li všechny znaky nominální = d(i, j)... simple matching symetrické binární asymetrické binární = Jaccardův koef. intervalové = standardiz. Manhattan Martin Betinec Shluková analýza 39 4. Různé metody shlukování 4.1. Hierarchické metody. nejvzdálenějšího souseda (complete linkage) viz obr. 16 nejbližšího souseda (single linkage) viz obr. 16 Wardova viz obr. 18 centroidní viz obr. 19 mediánová viz obr. 19 průměrné nepodobnosti (group average) viz obr. 18 McQuittyho viz obr. 20 Martin Betinec Shluková analýza 40 Metoda nejvzdálenějšího souseda (complete linkage, furthest neighbour) Míra nepodobnosti shluků A, B: D(A, B) = max d(o i, O j ) (4.1) O i A,O j B D(A, A) = 0 (4.2) Metoda nejbližšího souseda (single linkage, nearest neghbour, friend of friends) Míra nepodobnosti shluků A, B: D(A, B) = min d(o i, O j ) O i A,O j B

Obrázek 16. Complete a single linkage. 0.0 0.5 1.0 1.5 2.0 single 0 1 2 3 4 5 6 complete Martin Betinec Shluková analýza 43 D(R, U) = 1 2 D(P, U) + 1 2 D(Q, U) 1 4 D(P, Q) D({Oi}, {Oj}) = d 2 E(Oi, Oj) a Pro shluky P, Q, U, R = P Q, platí Mediánová metoda (unweighted group method) řešení: Problém: Ovlivněná počty prvků shluku D(R, U) = P Q P Q D(P, U) + D(Q, U) D(P, Q) R R R 2 D({Oi}, {Oj}) = d 2 E (O i, Oj) a Platí: Pro shluky P, Q, U, R = P Q, platí kde A, B jsou těžiště shluků A, B. D(A, B) = d 2 E (A, B), Míra nepodobnosti shluků A, B: Metoda centroidní (weighted group method) Martin Betinec Shluková analýza 41 Obrázek 17. Complete linkage a group average. 0 1 2 3 4 5 6 complete 0.0 1.0 2.0 3.0 average Martin Betinec Shluková analýza 44 i:oi A j IAB = EC (EA + EB), kde (4.5) EA = (oij oj) 2 (4.6) Pro sloučeni shluků A, B do shluku C minimalizuje Wardova a Wishartova metoda D(A, B) = d(oi, Oj) A D(A, A) = 0 1 B (4.3) (i,j) (4.4) Míra nepodobnosti shluků A, B: Metoda průměrné nepodobnosti shluků (group average) Martin Betinec Shluková analýza 42

0 1 2 3 4 0.0 1.0 2.0 3.0 0 5 10 20 30 0.0 1.0 2.0 3.0 Obrázek 20. Group average a McQuitty. mcquitty average Martin Betinec Shluková analýza 47 Obrázek 18. Group average a Wardova. ward average Martin Betinec Shluková analýza 45 Pořadí slučování nižších pater není rozhodující, spíš počet shluků. V tomto případě buď 2 nebo 4 (resp. 5 se samostatnou Aljaškou). vykazují stabilitu víceméně při všech metodách. Značně se liší metoda nejbližšího souseda viz např.,,. (2) {,,} Některé shluky, viz obr. 16: (1) {,, } Martin Betinec Shluková analýza 48 Obrázek 19. Centroidní a medianová metoda. 0.0 0.5 1.0 1.5 2.0 2.5 median 0.0 0.5 1.0 1.5 2.0 centroid Martin Betinec Shluková analýza 46

Martin Betinec Shluková analýza 49 4.2. Nehierarchické metody. Na základě předchozích výsledků jsem zkusil rozklad do 4 a 5 shluků. 4.2.1. Rozklad na čtyři shluky. Objekty se shlukovaly klasickou metodou k-means následovně: (1),,,,,,,, RhodeIsland,,,,, (2),,,,,,,, West, (3),,,,,,,,,,,,,,, (4),,,,,,,,, size 16 8 13 13 withinss 16.212 8.316 11.952 19.922 Tabulka 9. Vlastnosti jednotlivých shluků. Robustnější verze téhož PAM vytvorila stejné shluky, kromě toho, že zařadila do shluku č. 4. Martin Betinec Shluková analýza 50 Murder Assault UrbanPop Rape 13.2 236 58 21.2 12.1 255 74 35.1 6.6 151 68 20 2.1 57 56 9.5 Tabulka 10. Typické objekty jednotlivých shluků. p.usa.sc14$med[1, ] 1.0 0.5 0.0 0.5 1.0 1.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 pomx Obrázek 21. Profily shluků. Martin Betinec Shluková analýza 51 Martin Betinec Shluková analýza 52 size max.diss av.diss diameter separation 1 12.00 2.12 1.19 3.29 1.17 2 10.00 1.67 0.83 2.40 0.61 3 8.00 1.60 0.98 2.34 0.99 4 20.00 1.97 1.05 3.05 0.61 Tabulka 11. Vlastnosti PAM shluků. k means,4 3 2 3 complete,eukl 3 2 3 Obrázek 22. Srovnání hierarchické a nehierarchické metody.

Martin Betinec Shluková analýza 53 4.2.2. Rozklad na pět shluků. Klasickou metodou k-means: Martin Betinec Shluková analýza 54 5 clusters (1), NorthCarolina (2),,,,,,,,,,, NewHampshire, NorthDakota,,, SouthDakota,,, West, (3),,,,,,,,, NewYork (4),,,, NewJersey,,, RhodeIsland,,,,, (5),,, NewMexico,SouthCarolina size 2 20 10 13 5 withinss 742.20 19263.760 5070.312 7382.59 1633.352 Tabulka 12. Vlastnosti jednotlivých shluků. 3 2 3 5clusters 3 2 3 Obrázek 23. K means. Martin Betinec Shluková analýza 55 Robustnější metodou PAM (1),,,,,,,,, NewYork (2),,, NewMexico, NorthCarolina, SouthCarolina (3),,,,, NewJersey,,, RhodeIsland,,,, (4),,,,,,,,,, (5),,,, NewHampshire, NorthDakota, SouthDakota,, West, Murder Assault UrbanPop Rape 12.10 255.00 74.00 35.10 11.30 300.00 67.00 27.80 9.00 178.00 70.00 28.20 6.00 115.00 66.00 18.00 2.10 57.00 56.00 9.50 Tabulka 13. Typické objekty jednotlivých shluků. Cvičení: Jakým stromům odpovídají zmíněná řešení? Martin Betinec Shluková analýza 56 size max.diss av.diss diameter separation 1 10.00 35.44 20.77 55.68 21.17 2 6.00 44.64 23.72 65.19 21.17 3 13.00 35.57 24.40 68.76 10.31 4 11.00 31.94 13.28 45.43 10.31 5 10.00 31.24 19.35 57.27 23.64 Tabulka 14. Vlastnosti jednotlivých shluků.

Martin Betinec Shluková analýza 57 Martin Betinec Shluková analýza 58 clusplot(pam(x = usa.sc, k = 5)) Silhouette plot of pam(x = usa.sc, k = 3 2 3 clusplot(pam(x = usa.sc, k = 4)) Silhouette width Silhouette plot of pam(x = usa.sc, k = 3 2 3 3 2 3 Obrázek 24. PAM. Silhouette width 3 2 3 Obrázek 25. PAM Projekce do 2. a 3. proměnné Martin Betinec Shluková analýza 59 k means Martin Betinec Shluková analýza 60 k means 3 2 3 PAM 3 2 3 PAM PC2 3 2 3 3 2 3 Obrázek 26. Srovnání pro 5 shluků Obrázek 27. Srovnání pro 4 shluky

Martin Betinec Shluková analýza 61 4.3. Nestandardizovaná data. Pro zajímavost: shluková analýza u nestandardizovaných dat je znehodnocena měřítkom porměnné Assault (tj. směrodatnou odchylkou), takže je vidět, že shluky vpodstatě jen vytvářejí škálu podél této proměnné. 30 40 50 60 70 80 90 Martin Betinec Shluková analýza 62 k means 50 100 150 200 250 300 PAM 30 40 50 60 70 80 90 50 100 150 200 250 300 Obrázek 28. Srovnání pro 5 shluků, nestandardizovaná data Martin Betinec Shluková analýza 63 k means 30 40 50 60 70 80 90 50 100 150 200 250 300 PAM 30 40 50 60 70 80 90 50 100 150 200 250 300 Obrázek 29. Srovnání pro 4 shluky, nestandardizovaná data