Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar

Podobné dokumenty
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2

Vícerozměrné statistické metody

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice

6 Skalární součin. u v = (u 1 v 1 ) 2 +(u 2 v 2 ) 2 +(u 3 v 3 ) 2

Státnice odborné č. 20

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Pravděpodobnost a statistika

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

7. Rozdělení pravděpodobnosti ve statistice

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení.

1 Báze a dimenze vektorového prostoru 1

Základy matematické analýzy

6. Vektorový počet Studijní text. 6. Vektorový počet

I. D i s k r é t n í r o z d ě l e n í

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

Euklidovský prostor. Funkce dvou proměnných: základní pojmy, limita a spojitost.

Cvičná bakalářská zkouška, 1. varianta

10 Funkce více proměnných

p(x) = P (X = x), x R,

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy.

Množiny, relace, zobrazení

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Dijkstrův algoritmus

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Matematika pro informatiky

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

Texty k přednáškám z MMAN3: 4. Funkce a zobrazení v euklidovských prostorech

5. Lokální, vázané a globální extrémy

Náhodné chyby přímých měření

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

REÁLNÁ FUNKCE JEDNÉ PROMĚNNÉ

1 Linearní prostory nad komplexními čísly

Matematika I 12a Euklidovská geometrie

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

STATISTICKÉ ODHADY Odhady populačních charakteristik

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.

Lineární algebra : Metrická geometrie

Základy teorie pravděpodobnosti

AVDAT Mnohorozměrné metody, metody klasifikace

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Úloha - rozpoznávání číslic

Matematika (KMI/PMATE)

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce

Funkce a lineární funkce pro studijní obory

Algoritmy pro shlukování prostorových dat

Matematická analýza III.

Pravděpodobnost a aplikovaná statistika

4EK213 Lineární modely. 10. Celočíselné programování

Elementární křivky a plochy

6 Ordinální informace o kritériích

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Extrémy funkce dvou proměnných

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

1 Topologie roviny a prostoru

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

5 Orientované grafy, Toky v sítích

Interpolace, ortogonální polynomy, Gaussova kvadratura

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Regresní analýza 1. Regresní analýza

0.1 Funkce a její vlastnosti

Normální (Gaussovo) rozdělení

f(x) = arccotg x 2 x lim f(x). Určete všechny asymptoty grafu x 2 2 =

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Statistika pro geografy

Aplikovaná numerická matematika - ANM


EUKLIDOVSKÉ PROSTORY

NÁHODNÁ VELIČINA. 3. cvičení

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Matematika 1 MA1. 1 Analytická geometrie v prostoru - základní pojmy. 4 Vzdálenosti. 12. přednáška ( ) Matematika 1 1 / 32

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Aplikovaná numerická matematika

Kapitola Základní množinové pojmy Princip rovnosti. Dvě množiny S a T jsou si rovny (píšeme S = T ) prvek T je také prvkem S.

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

4. Aplikace matematiky v ekonomii

Algoritmizace prostorových úloh

0.1 Úvod do matematické analýzy

Popisná statistika kvantitativní veličiny

Numerická stabilita algoritmů

Markovské metody pro modelování pravděpodobnosti

(4x) 5 + 7y = 14, (2y) 5 (3x) 7 = 74,

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

3. přednáška 15. října 2007

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují

Transkript:

Vysoká Škola Báňská Technická Univerzita Ostrava Fakulta Elektrotechniky a Informatiky Katedra Informatiky Metody shlukování 2003 Martin Hynar

Obsah Seznam obrázků ii 1 Motivace 1 2 Míra (ne)podobnosti objektů 1 2.1 Binární atributy..................................... 2 2.2 Nominální atributy................................... 3 2.3 Ordinální atributy.................................... 4 2.4 Reálně hodnotové atributy............................... 4 2.5 Řešení se smíšenými atributy.............................. 6 3 Míra (ne)podobnosti shluků 6 3.1 Metoda nejbližšího souseda............................... 7 3.2 Metoda nejvzdálenějšího souseda............................ 8 3.3 Centroidní metoda................................... 8 3.4 Metoda průměrné nepodobnosti objektů........................ 9 3.5 Mediánová metoda................................... 9 4 Nehierarchické shlukování 9 4.1 Optimalizační k středové algoritmy.......................... 10 4.1.1 Metody s pevným počtem shluků....................... 10 4.1.2 Metody s proměnným počtem shluků..................... 13 4.2 Analýza modů...................................... 15 5 Hierarchické shlukování 16 5.1 Hierarchický rozklad.................................. 16 5.2 Metody hierarchického rozkladu............................ 18 i

Seznam obrázků 1 Třídění objektů..................................... 1 2 Asociační tabulka.................................... 2 3 Geometrické znázornění objektů v 2 rozměrném prostoru............... 5 4 Metoda nejbližšího souseda............................... 7 5 Metoda nejvzdálenějšího souseda............................ 8 6 Rozložení se dvěma mody............................... 15 7 µ souvislý shluk.................................... 19 ii

1 Motivace 1 1 Motivace V praxi se často setkáváme s problémem roztřídění skupiny nějakých objektů do skupin. Těmito objekty mohou být libovolné hmotné předměty (jablka, hrušky), ale i libovolné abstraktní nehmotné objekty, které reprezentujeme v paměti počítače (typy chování, tvůrčí schopnosti). Ono roztřídění je ale nutno přesněji specifikovat. Úkolem tedy je vypozorovat mezi danými objekty skupinky objektů, v nichž se pozorované vlastnosti příliš neliší, ale mezi těmito skupinami jsou rozdíly hodnot těchto vlastností patrné. Obrázek 1: Třídění objektů Tento neformální popis problému třídění je vlastně nevědomky popisem procesu klasifikace. Klasifikace je tedy činnost, jíž vzniká rozklad množiny objektů do systému navzájem disjunktních tříd. Množina takto vzniklých tříd je obvykle nazývána klasifikační systém. Otázkou však stále zůstává, jak tyto třídy odhalit. Způsobů existuje několik. Asi nejčastějším přístupem je, že možné třídy vyhledá v množině objektů expert. Tento přístup je však již na první pohled velmi subjektivní a může se stát, že takový klasifikační systém bude chybný. Jisté řešení přináší do této oblasti shluková analýza. Tento přístup, který má své matematické základy, porovnává podobnost předložených objektů na základě výpočtu podobnosti z jejich zákódování a vytváří shluky podobných objektů. Skutečnost, že shluková analýza vytváří shluky na základě pevně daných pravidel, se využívá ke kontrole klasifikačního systému vytvořeného expertem. Ale i zde je nutné mít na paměti, že i pouhý výběr shlukovací metody a nastavení vstupních parametrů může mít významný subjektivizující vliv na výsledek. Z úvodního popisu vyplývá několik skrytých podúkolů, které je třeba u všech přístupů vytváření klasifikačních systémů vyřešit. První velmi důležitým úkolem je řešení otázky vzájemného porovnání jednotlivých objektů a posléze také množin objektů. S tím je dále spojena otázka vyhodnocení jednotlivých typů proměnných a vlivu jednotlivých typů při jejich kombinaci. V dalším se již budeme zabývat pouze přístupy, které do problematiky klasifikace a určování rozkladů přináší shluková analýza. 2 Míra (ne)podobnosti objektů Pro účely shlukování je velmi důležité jakým způsobem porovnáváme vzájemnou podobnost objektů. Navíc, v některých případech je porovnávací pravidlo přímo vázáno na konkrétní shlukovací metodu. V jiných případech jde zase o dvě různé nezávislé části, ale je důležité vybrat nejvhodnější způsob porovnávání podobnosti. Ve všech případech ale hledáme vhodný předpis π, který dvojici objektů O i, O j přiřadí číslo π(o i, O j ), které vyjadřuje míru podobnosti objektů. Tento předpis by navíc měl splňovat alespoň tyto dvě podmínky:

2.1 Binární atributy 2 π(o i, O j ) 0 (1) π(o i, O j ) = π(o j, O i ) (2) Pokud uvažujeme π jako míru podobnosti pak by kromě podmínek (1) a (2) mělo platit, že hodnota π(o i, O i ), tedy podobnost objektu se sebou samým, je maximální možnou. Jednoduše řečeno, čím více jsou si objekty podobné, tím více hodnota π narůstá. Pro účely shlukování se všam jeví mnohem lepší použití míry k π duální míry nepodobnosti ν. Podmínky (1) a (2) musí být splněny i v tomto případě, ale pro podobnost totožných objektů platí ν(o i, O i ) = 0. Přestože jsou pravidla, která musí míra podobnosti či nepodobnosti splňovat dostatečně přesně definována, neexistuje žádna univerzální míra, kterou by bylo možné použít pro všechny typy úloh a všechny typy dat. Z hlediska řešené úlohy se často stává, že měřítkem podobnosti objektů bývá intuitivní pojetí podobnosti. Pro různé typy dat pak jsou definovány nejrůznější, ale pouze úzce zaměřené míry. 2.1 Binární atributy Binární atributy jsou takové atributy, které mohou nabývat pouze dvou různých hodnot. Jestliže má binární atribut hodnotu 1, pak daná vlastnost u zkoumanéno objektu je přítomna. Jestliže má takový atribut hodnotu 0, pak daná vlastnost přítomna není. Binární atributy mohou být dvou různých typů: Symetrický, je takový binární atribut, pro nějž obě možné hodnoty mají stejnou váhu. Nesymetrický, je takový binární atribut, u nějž má jedna z možných hodnot vyšší váhu než druhá hodnota. Koeficienty, kterými se objekty popsané binárními atributy porovnávají se nazývají koeficienty asociace. Pro definování jednotlivých koeficientů si nejprve vytvoříme tzv. asociační tabulku. O i 1 0 O j 1 a b 0 c d Obrázek 2: Asociační tabulka Hodnota a vyjadřuje počet případů pozitivní shody (oba objekty danou vlastnost mají), hodnota d počet případů negativní shody (oba objekty danou vlastnost nemají). Hodnoty b a c pak vyjadřují počet případů, kdy danou vlastnost má pouze jeden z objektů. Navíc, písmenem p označíme počet všech případů.

2.2 Nominální atributy 3 S pomocí těchto hodnot je definována celá řada asociačních koeficientů. Většinou se tyto koeficienty konstruují tak, aby oborem jejich hodnot byl interval < 0, 1 >. Uved me si několik nejznámějších koeficientů spolu s jejich stručným popisem. Jaccardův koeficient, není definován v případech, kdy dojde ve všech případech pouze k negativní shodě. Jinak se jedná o poměr mezi počtem pozitivních shod a počtem případů, kde alespoň jeden z objektů danou vlastnost má. S J = a a + b + c Sokalův a Michenerův koeficient (simple matching koeficient), vyjadřuje poměr mezi počtem shod a počtem všech případů. (3) S SM = a + d a + b + c + d (4) Russellův a Raoův koeficient, jeho nevýhodou je, že různě hodnotí podobnost objektu se sebou samým. S SM = a a + b + c + d Diceův koeficient, má stejné omezení jako Jaccardův koeficient (3). (5) S SM = 2a 2a + b + c (6) Hamannův koeficient, jeho oborem hodnot je interval < 1, 1 >. Hodnota -1 nastane v případě, kdy nedojde k žádné shodě a hodnota 0 v případě stejného počtu shod jako neshod. S SM = (a + d) (b + c) a + b + c + d (7) 2.2 Nominální atributy Nominální atributy jsou jakýmsi zobecněním nebo rozšířením binárních atributů. Namísto dvouhodnotového ohodnocení mohou mít tyto atributy více možných hodnot. Příkladem může být atribut barva s množinou přípustných hodnot červená, zelená,... V praxi se pak používá spíše numerického zakódování jednotlivých hodnot, což usnadňuje manipulaci s nimi. Podobnostní koeficient pro objekty popsané nominálními atributy pak může být jednoduše definován analogicky k asociačním koeficientům pro binární proměnné. Příkladem může být koeficient S = p m p (8) kde p je počet všech případů a m je počet shod. Dalším možným řešením pro hodnocení podobnosti objektů s nominálními atributy je převedení těchto atributů na binární. Například zmiňovaný atribut barva se převede na množinu atributů je červený, je zelený, atd. Takto upravené objekty lze porovnávat s použitím dříve zmíněných asociačních koeficientů.

2.3 Ordinální atributy 4 2.3 Ordinální atributy Ordinální atributy jsou velmi podobné atributům nominálním. Stejně jako ony, mohou nabývat hodnoty z nějaké množiny přípustných diskrétních hodnot. Jediným rozdílem je to, že tyto hodnoty jsou uspořádané podle nějakého kritéria. Například atribut věkové kategorie lze považovat za ordinální. Můžeme zavést věkové intervaly 0 10, 11 20, 21 30,... a tyto intervaly považovat za jednotlivé kategorie. Kritériem pro porovnání (uspořádání) těchto kategorií může být například relace být starší. Taková relace nám na množině věkových kategorií zavede uspořádání a to takové, že platí (0 10) < (11 20) < (21 30) atd. Pokud bychom zavedli jinou relaci, obdrželi bychom kategorie uspořádané jinak. Otázkou zůstává, jak hodnotit podobnost objektů popsaných ordinálními atributy. Celou problematiku můžeme vyřešit v několika krocích. Představme si, že k je jeden atribut z množiny ordinálních atributů, které popisují zkoumané objekty. Výpočet podobnosti objektů s přihlédnutím k atributu k probíhá ve třech krocích: 1. Hodnota atributu k pro i tý objekt je x ik s tím, že o může nabývat M k uspořádaných stavů, které ohodnotíme r ik {1,..., M k } 2. Aby bylo možné porovnávat objekty popsané různými ordinálními atributy, musíme hodnoty těchto atributů nějakým způsobem normalizovat, nejlépe pak do intervalu < 0, 1 > a tím dosáhnout stejné váhy u všech atributů. Takového výsledku dosáhneme substitucí hodnoty r ik za hodnotu z ik = r ik 1 M k 1 3. Podobnost objektů nyní můžeme posuzovat použitím stejných vztahů, které si uvedeme v části věnované reálně hodnotovým atributům. Za hodnotu atributu k u objektu i budeme považovat číslo z ik. (9) 2.4 Reálně hodnotové atributy Nejobvyklejší způsob vyjádření míry podobnosti mezi objekty vychází z jejich geometricné reprezentace v prostoru. Máme-li libovolné množství navzájem různých objektů, které jsou popsányp různými reálně hodnotovými atributy (znaky, veličiny), můžeme tyto objekty zobrazit v p rozměrném prostoru pomocí diskrétních bodů. Situaci v jedno-, dvou- a tří rozměrném prostoru ještě dokážeme posoudit okem, avšak s těmito případy se v praxi nesetkáme příliš často, jelikož jednotlivé objekty bývají popsány větším množstvím měření. Ve vícerozměrném prostoru se pak již jen těžko obejdeme bez vhodného nástroje, který by objektivně posoudil vzájemný vztah dvou bodů tohoto prostoru. Pravidla, ktera musí tento nástroj splňovat lze vyjádřit pojmem metrika. Metrikou ρ je funkce definovaná na kartézském součinu p rozměrného prostoru E p E p. Metrika ρ přiřazuje každé dvojici bodů A, B, tohoto prostoru, reálné číslo ρ(a, B), které splňuje čtyři podmínky ( A, B, C E p ):

2.4 Reálně hodnotové atributy 5 znak 2 z 22 o 2 d(o,o ) 1 2 z 21 o 1 z 12 z 11 znak 1 Obrázek 3: Geometrické znázornění objektů v 2 rozměrném prostoru ρ(a, B) = 0 A = B (10) ρ(a, B) 0 (11) ρ(a, B) = ρ(b, A) (12) ρ(a, C) ρ(a, B) + ρ(b, C) (13) Porovnáme li podmínky (1) a (2) s podmínkami (11) a (12), vidíme, že jsou shodné. Podmínka (10) pak odpovídá požadavku, aby míra podobnosti objektu se sebou samým nabývala hodnoty 0. Jedná se tedy o míru nepodobnosti. Nakonec poslední podmínka vyjadřuje trojúhelníkovou nerovnost. Uved me si nyní několik nejznámějších metrik, které jsou používány k posouzení míry podobnosti objektů. Manhattan metrika ρ 1 (A, B) = p a i b i (14) i=1 Eukleidovská metrika p ( ) 2 ρ E (A, B) = a i b i (15) i=1 Minkowského metrika, je zobecněním obou předchozích metrik a také Sup metriky (18), která je limitou této metriky p ( ) k ρ M (A, B) = k a i b i (16) i=1 Sokalova metrika ( ρ S (A, B) = ρ 2 E ) (A, B) p (17)

2.5 Řešení se smíšenými atributy 6 Sup metrika ρ (A, B) = max i=1,..,p ( a i b i ) (18) 2.5 Řešení se smíšenými atributy V předchozích odstavcích jsme popsali jak porovnávat objekty v případě, že jsou popsány jediným typem atributů. Kriticky si ale řekněme, že takových případů je jako šafránu. Vyvstává tedy otázka, jak porovnávat objekty, jsou li popsány atributy různých typů. Existuje vlastně dvojí přístup, první spočívá v provedení více shlukovacích procesů, pokaždé s jediným typem atributů. Tento přístup můžeme použít pouze v případech, kdy separátní analýzy produkují srovnatelné výsledky. Bohužel, na toto se nemůžeme spolehnout. Druhým, mnohem přijatelnějším řešením, je provedení pouze jediné shlukovací procedury bez ohledu na typ atributů. Jedna z technik, jak lze shlukování objektů popsaných různými typy atributů provést, je výpočet matice nepodobnosti za použití speciálního koeficientu nepodobnosti. Představme si, že máme k dispozici množinu objektů popsaných p různými atributy různých typů. Podobnost jednotlivých objektů určíme na základě předpisu: d(i, j) = p k=1 δk ij dk ij p k=1 δk ij (19) kde koeficient δ k ij = 0 jestliže 1. x ik nebo x jk chybí, tj. příslušné měření není k dispozici, 2. x ik = x jk = 0 a atribut k je binární asymetrický. V ostatních případech je hodnota koeficientu δij k = 1. Příspěvek atributu k k celkové míře podobnosti je pak spočten na základě typu konkrétního atributu. Jestliže se jedná o binární nebo nominální atribut, pak je hodnota d k ij x ik = x jk, jinak je rovna 1. = 0 v případě, že Jestliže se jedná o reálně hodnotový atribut, pak d k ij = x ik x jk max h x hk min h x hk, kde h probíhá všechny objekty úplné vzhledem k h. Jestliže se jedná o ordinální atribut, pak je určena hodnota r ik a vypočtena hodnota z ik = r ik 1 M k 1. Hodnotu z ik je pak dosazena do vztahu pro reálně hodnotové atributy. 3 Míra (ne)podobnosti shluků Zatímco v předchozí kapitole jsme hovořili o určování míry podobnosti jednotlivých objektů, tak v této části se zaměříme na vyhodnocení míry podobnosti množin objektů shluků. Definujme si nyní míru podobnosti shluků více formálněji.

3.1 Metoda nejbližšího souseda 7 Míru podobnosti (A i, A j ) shluků A i a A j definujeme jako funkci splňující následjící tři podmínky: (A i, A i ) = 0 (20) (A i, A j ) 0 (21) (A i, A j ) = (A j, A i ) (22) Dále lze rozlišit tří různé přístupy k určování podobnosti shluků podle toho, jak shluky porovnáváme. 1. uni míra, pokud posuzujeme shluky A i, A j jako jejich sjednocení A i A j. 2. bi míra, pokud posuzujeme shluky A i, A j jako dvě samostatné množiny. 3. tri míra, pokud posuzujeme shluky A i, A j jako trojici tvořenou samotnými shluky a také jejich sjednocením. Představme si dále několik nejznámějších měr pobobnosti shluků. Ve všech případech se jedná o bi míru nepodobnosti. 3.1 Metoda nejbližšího souseda V praxi se můžeme setkat také s názvy nearest neighbour nebo single linkage. Necht d je libovolný koeficient nepodobnosti objektů a A, B jsou shluky. Potom (A, B) = min {d(o i, O j )} (23) O i A O j B Slovy bychom tuto míru nepodobnosti shluků mohli popsat jako nejmenší vzdálenost mezi takovými dvěmi objekty, z nichž jeden leží ve shluku A a druhý ve shluku B. Graficky je situace znázorněna na obrázku 4. Zde jsou k sobě nejblíže objekty X a Y. Vzdálenost těchto objektů tedy bude nejmenší ze všech možných a tato strategie ji použije jako hodnocení míry nepodobnosti příslušných shluků. A X d(x, Y) Y B Obrázek 4: Metoda nejbližšího souseda Pro tuto metodu určení míry nepodobnosti shluků lze použít libovolnou metodu určení nepodobnosti objektů. Například některou z těch, které jsme si představili v předchozí kapitole.

3.2 Metoda nejvzdálenějšího souseda 8 3.2 Metoda nejvzdálenějšího souseda Známá také pod názvem furthest neighbour nebo complete linkage. Necht d je libovolný koeficient nepodobnosti objektů a A, B jsou shluky. Je li A B definujeme jinak v případě, že A = B (A, B) = max{d(o i, O j )} (24) O i A O j B (A, A) = 0 (25) Stejně jako v případě metody nejbližšího souseda, tak i při použití této metody můžeme použít libovolného koeficientu nepodobnosti objektů. Znázorněme si také graficky, jak posuzuje tato strategie nepodobnost dvojice shluků. X A d(x, Y) Obrázek 5: Metoda nejvzdálenějšího souseda Y B Jak z matematického předpisu, tak i z obrázku je zřejmé, že tato metoda posuzuje míru nepodobnosti shluků jako maximální vzdálenost objektů z nichž jeden je prvkem prvního shluku a druhý prvek druhého shluku. 3.3 Centroidní metoda Tato metoda, která je rovněž známá pod názvem weighted group method vychází z geometrického modelu v prostoru E n s tím, že nepodobnost dvou shluků je dána eukleidovskou vzdáleností jejich těžišt. Abychom ale mohli korektně zavést centroidní metodu, musíme nejprve formálně definovat pojem shluk 1. Shluk tedy rekurzivně definujeme jako množinu menších navzájem disjunktních shluků. Tyto menší shluky ovšem chápeme naprosto stejně, přičemž limitním případem ukončujícím rekurzi je shluk obsahující jediný objekt.nyní již můžeme přistoupit k definici centridní metody jako takové. Necht jsou A = {A 1, A 2,..., A k } a B = {B 1, B 2,..., B l } shluky tvořené podshluky A 1, A 2,..., A k a B 1, B 2,..., B l. Dále pak at Ā a B jsou těžiště shluků A a B, tj. necht platí Ā = (ā 1, ā 2,..., ā p ), ā j = 1 k B = ( b 1, b 2,..., b p ), b j = 1 l k a ij (26) i=1 k b ij (27) i=1 pro j = 1,..., p 1 Tato definice je konstruktivní.

3.4 Metoda průměrné nepodobnosti objektů 9 Míra nepodobnosti shluků porovnávaná centroidní metodou je pak dána jako hodnota eukleidovské vzdálenosti těžišt těchto shluků, případně čtverec této vzdálenosti, který je využíván mnohem častěji. (A, B) = ρ E (Ā, B) (28) (A, B) = ρ 2 E(Ā, B) (29) 3.4 Metoda průměrné nepodobnosti objektů V praxi se můžeme setkat rovněž s názvem group average method. V této metodě můžeme použít libovolný koeficient nepodobnosti objektů d. Máme li pak shluky A = {A 1, A 2,..., A k } a B = {B 1, B 2,..., B l } definované stejně jako v předchozím případě, můžeme jejich nepodobnost vyjádřit vztahem (A, B) = 1 k l d(a i, B j ) (30) kl (i,j) (A, A) = 0 (31) 3.5 Mediánová metoda Zavedením této metody, známé také pod názvem unweighted group method byla snaha odstranit nedostatek centroidní metody, který spočíval v následujícím: Rozdílné počty objektů shluků způsobí rozdílnou váhu prvních dvou složek rekurzivního předpisu této metody 2. Tím se pak ztrácí vlastnosti menších shluků. Rekurzivní předpis této strategie si rovněž ukážeme později, zde nám postačí vědět, že nějaký existuje. 4 Nehierarchické shlukování Metody, které lze souhrně nazvat nehierarchickými shlukovacími metodami, se obecně snaží najít jediný optimální rozklad zadané množiny objektů. Tento rozklad lze pak chápat jako nejvhodnější klasifikaci zkoumaných objektů 3. V rámci této skupiny metod můžeme rozlišit několit základních přístupů, jak problematiku shlukování řešit. 1. Optimalizační k středové algoritmy 2. Analýza modů 3. Fuzzy C means algoritmy 4. Neuronové sítě Zde se budeme zabývat především metodami prvních dvou skupin, které lze považovat za jakousi klasiku celé této oblasti. 2 S tímto předpisem se seznámíme v části o hierarchických shlukovacích metodách. 3 Pokud je tento rozklad správný.

4.1 Optimalizační k středové algoritmy 10 4.1 Optimalizační k středové algoritmy U algoritmů, které hledají optimální rozklad množiny objektů, je typická úloha stanovení tzv. počátečního rozkladu do k shluků 4. Tento úvodní rozklad je pak dále zlepšován a to bud, že počet shluků zůstává konstantní nebo se mění v závislosti na určitých řídících parametrech. Stanovení počátečního rozkladu je obzvláště důležité v případě první skupiny metod. Je to hlavně z toho důvodu, že v průběhu optimalizace úvodního rozkladu nemůže dojít ke změně počtu shluků a tedy volbou nevhodného počtu nebude výsledný odpovídat rozklad skutečné klasifikaci. Způsobů, pomocí nichž lze vybrat k úvodních bodů (semenných bodů, seed points) je několik. Jedním z možných přístupů je využití analytika, který se znalostí zkoumaného problému určí množinu bodů, kolem nichž lze předpokládat vznik shluků. Obecně se však takový přístup nedoporučuje, aby se takto nevnesla přílišná subjektivita. Pro náhodné určení semenných bodů bylo proto vymyšleno několik metod. MacQueenova metoda (TYP1) Vybrat prvních k bodů z libovolně uspořádané množiny zkoumaných bodů. McRaeho metoda (TYPN) Body jsou označeny pořadovými čísly a je vygenerováno náhodně k pořadových čísel. Frommova a Northouseova metoda, použita v algoritmu CLASS (TYPF) Je určeno k = 2 p + 1 bodů, kde p je počet rozměrů prostoru zkoumaných bodů. Prvním bodem je těžiště celé množiny a další jsou pak vrcholy p rozměrného kvádku se středem v těžišti a hranami délky 2s 5 i rovnoběžnými s osami soustavy souřadnic. Označíme li si nyní T = (t 1, t 2,..., t p ) těžiště dané množinybodů a Y j = (y j1, y j2,..., y jp ) j tý počáteční bod, vypočteme i tou souřadnici j tého bodu podle vzorce y ji = t i + sgn ( sin ( 2π 2 i j 2π 2 i+1 )) s i (32) Abychom mohli volit všechny vrcholy p rozměrného kvádru, musí nutně platit 2 p < n, kde n je počet zkoumaných bodů. Pokud by podmínka splněna nebyla, použijeme pouze prvních k počátečních typických bodů. k bodů v těžišti a na prvních hlavních osách (TYPC) První typický bod je v těžišti celé množiny. Další jsou posunuty v kladném a záporném směru podél jedné z prvních souřadných os o standardní odchylku příslušné souřadnice. 4.1.1 Metody s pevným počtem shluků Forgyova a Janceyova shlukovací metoda Obě tyto metody lze charakterizovat tím, že iterativně provádí dva kroky. Prvním krokem je výpočet typických bodů existujících množin shlukovaných objektů. Druhým krokem je pak přiřazení každého objektu ke skupině, ke které je daný objekt nejblíže. Tyto dva kroky následně 4 Odtud název k středové. 5 s i je směrodatná odchylka hodnot i té souřadnice

4.1 Optimalizační k středové algoritmy 11 střídáme tak dlouho, dokud nedospějeme do stabilního stavu tj. stavu kdy následující rozklad je totožný s předchozím. Obě metody se liší pouze způsobem jakým jsou určeny nové typické body. Forgyova metoda považuje za nový typický bod těžiště uvažované skupiny objektů. Janceyova metoda umist uje nový typický bod do místa souměrně sdruženého s těžištěm uvažované skupiny. Definujme nyní formálně obě metody. Necht A h = {O h1, O h2,..., O hr } je podmnožina množiny všech objektů a necht každý objekt je popsán p atributy takto O hi = (o hi1, o hi2,..., o hip ) pro i = 1, 2,..., r. Těžištěm množiny A h je vektor T (A h ) = (t h1, t h2,..., t hp ) pro jehož j tou složku, kde j = 1, 2,..., p, platí t hj = 1 r r o hij (33) i=1 Forgyova a Janceyova metoda pracuje nad množinou objektů O = {O 1, O 2,..., O n }. Nejprve určíme k počátečních typických bodů Y 01, Y 02,..., Y 0k, které nemusí být prvky množiny O, nebo určíme počáteční rozklad Ω 0 a typické body jsou par určeny těžišti jednotlivých shluků tohoto rozkladu 6. 1. V první iteraci vytvoříme rozklad Ω 1 = {A 11, A 12,..., A 1k } množiny objektů do k množin A 11, A 12,..., A 1k tak, aby pro každý objekt O i platilo O i A 1h d E (O i, Y 0h ) = min j=1,2,...,k {d E(O i, Y 0j )} (34) přičemž h {1, 2,..., k}. Potom pro každou podmnožinu A 1j, kde j = 1, 2,..., k vypočteme těžiště Y 1j = T (A 1j ). Takto dostaneme množinu Y 1 = {Y 11, Y 12,..., Y 1k } typických bodů první iterace. 2. Necht v s té iteraci (s 1) dosáhneme rozkladu Ω s = {A s1, A s2,..., A sk } množiny všech objektů a množina typických bodů s té iterace jey s = {Y s1, Y s2,..., Y sk }. Potom následující (s+1) rozklad Ω s+1 = {A s+1,1, A s+1,2,..., A s+1,k } vytvoříme tak, aby pro každý objekt O i platilo O i A s+1,h d E (O i, Y sh ) = min {d E(O i, Y sj )} (35) j=1,2,...,k přičemž h {1, 2,..., k}. Potom pro každou podmnožinu A s+1,j, kde j = 1, 2,..., k vypočteme těžiště Y s+1,j = T (A s+1,j ). Porovnáme li nyní rozklady Ω a a Ω s+1 může nastat jedna ze dvou možností. (a) Existuje alespoň jedna taková podmnožina A sh rozkladu Ω s, pro niž platí A sh A s+1,j (36) pro h {1, 2,..., k} a j = 1, 2,..., k. V takovém případě přiřadíme jednotlivým množinám A s+1,j nové typické body Y s+1,j tak, že platí pro Forgyovu metody 6 Čísla 1, 2,..., k slouží jako identifikátory typických bodů. Y s+1,j = T (A s+1,j ) (37)

4.1 Optimalizační k středové algoritmy 12 pro Janceyovu metodu Y s+1,j T (A s+1,j ) = T (A s+1,j ) Y sj tj. Y s+1,j = 2T (A s+1,j ) Y sj (38) a pokračujeme vytvářením rozkladu Ω s+2 (b) Neplatí podmínka (36) a rozklady Ω s, Ω s+1 jsou tvořeny stejnými podmnožinami. V tomto případě ukončíme shlukovací proces a rozklad Ω s = {A s1, A s2,..., A sk } prohlásíme za výsledné nehierarchické shlukování s tím, že každý shluk A sj, kde j = 1, 2,..., k, je reprezentován typickým bodem ležícím v těžišti shluku a platí tedy Y sj = T (A sj ). MacQueenova a Wishartova shlukovací metoda Tyto dvě metody se liší od předchozích dvou hlavně tím, že přepočítávají typické body skupin vždy hned po přemístění nějakého bodu. Tento přístup ovšem způsobuje závislost výsledků shlukování na uspořádání objektů původní množiny. V prvním kroku MacQueenovy metody musíme nejprve určit k počátečních bodů. Zde autor doporučuje vybrat prvních k bodů z libovolně uspořádané množiny objektů. Objekty pak po jednom přiřazujeme k nejbližšímu typickému bodu s tím, že po každém přiřazení přepočteme typický bod, kterým je těžiště skupiny. Po vyčerpání celé množiny objektů považujeme těžiště skupin za typické body. Shlukované objekty znovu přiřazujeme k typickým bodům, které opět po každém přiřazení přepočteme. Wishart používá konvergentní variantu MacQueenovy shlukovací metody. Zlepšení a urychlení konvergence celé metody spočívá v tom, že typické body nejsou přepočítávány vždy po přiřazení bodu k typickému bodu, ale pouze tehdy, změní li objekt svou příslušnost. Definujme nyní formálně obě metody. Mějme množinu objektů O = {O 1, O 2,..., O n } a množinu počátečních typických bodů Y 0 takové, že jsou splněny tytéž podmínky jako v případě Forgyovy a Janceyovy metody. Definujme nejprve rekurzivně posloupnost množin Φ 1, Φ 2,..., Φ n pomocí níž vytváří jak MacQueenova tak Wishartova metoda rozklad množiny O. i tým členem posloupnosti je množina Φ i = {F i1, F i2,..., F ik } jejíž prvky F ij (j = 1, 2,..., k) jsou navzájem disjunktní podmnožiny množiny O. 1. Položme Φ 0 = {{Y 01 }, {Y 02 },..., {Y 0k }}. Pro j = 1, 2,..., k je tedy F 0j = {T 0j } = T (F 0j ). 2. Je li Φ i i tý člen posloupnosti, kde 0 i n 1, pak následující (i+1) ní člen Φ i+1 získáme takto: Platí li pro (i+1) ní objekt O i+1 d E (O i+1, T (F ih )) = min j=1,2,...,k {d E(O i+1, T (F ij )} (39) pak F i+1,h = F i O ij, přičemž ostatní podmnožiny F i+1,j (j = 1, 2,..., k j h) zůstávají beze změny. Shlukování nehierarchickou Wishartovou metodou pak definují následující dva opakující se kroky.

4.1 Optimalizační k středové algoritmy 13 1. Vytvoříme rozklad Ω 1 = {A 11, A 12,..., A 1k } jako poslední člen posloupnosti Φ s tím, že člen Φ 0 = {{Y 01 }, {Y 02 },..., {Y 0k }} a vypočteme těžiště všech podmnožin A 1j. 2. Necht Ω s = {A s1, A s2,..., A sk } (s 1) je rozklad množiny objektů v s té iteraci. Potom následující (s+1) ní rozklad Ω s+1 = {A s+1,1, A s+1,2,..., A s+1,k } vytvoříme jako poslední člen posloupnosti Φ, v níž je Ω 0 = {{T (A s1 )}, {T (A s2 )},..., {A sk }}. Porovnáme li nyní rozklady Ω s a Ω s+1, může nastat jedna ze dvou možností. (a) Existuje podmnožina A sh rozkladu Ω s taková, že platí A sh A s+1,j (40) pro h {1, 2,..., k} a j = 1, 2,..., k. V takovém případě vypočteme T (A s+1,j ) a pokračujeme vytvářením dalšího rozkladu Ω s+2. (b) Neplatí podmínka (40) a rozklady Ω s, Ω s+1 jsou tvořeny stejnými podmnožinami. V tomto případě ukončíme shlukovací proces a rozklad Ω s = {A s1, A s2,..., A sk } prohlásíme za výsledné nehierarchické shlukování s tím, že každý shluk A sj, kde j = 1, 2,..., k, je reprezentován typickým bodem ležícím v těžišti shluku a platí tedy Y sj = T (A sj ). MacQueenova metoda se liší od metody Wishartovy tím, že shlukování nekončí v okamžiku dosažení stabilního stavu, ale je ukončen v druhé iteraci. Postup shlukování MacQueenovou metodou dostaneme z postupu Wishartovy metody tak, že v druhém kroku položíme s = 1 a porovnávání rozkladů Ω 1 a Ω 2 neprovádíme. Rozklad Ω 2 je tedy výsledným shlukováním. 4.1.2 Metody s proměnným počtem shluků V předchozí kapitole jsme se seznámili s metodami u kterých jsme nejprve museli určit počet shluků a poté tyto shluku vytvořit. V této kapitole si představíme skupinu metod, které obě zmíněné úlohy provádějí najednou. V průběhu procesu shlukování tedy může docházet jak k rozdělování tak ke slučování shluků a výsledný počet shluků nemusí nutně odpovídat počtu shluků stanovenému na začátku. Jak lze asi očekávat je pro tyto metody zapotřebí zadat kromě počtu počátečních k skupin také další řídící parametry, které budou určovat zda má dojít ke sloučení nebo rozdělení shluků. Můžeme se setkat se dvěma typy řídících parametrů. Prvním typem jsou parametry zadané analytikem, které zůstávají po celou dobu shlukování konstantní. Stanovení těchto parametrů je očividně velmi subjektivní záležitostí i když je často předcházeno úvodní analýzou zpracovávaných dat. Druhý způsob, který je velmi doporučován, určuje řídící parametry samostatně přímo ze zpracovávaných dat.zde si ukážeme dva zástupce ze skupiny metod, kde je nutné zadat řídící parametry manuálně. MacQueenova metoda se dvěma parametry Algoritmus této metody sestává ze dvou fází. Tou první z nich je separace typických bodů procedurou TYPM a druhá fáze je pak realizována MacQueenovým algoritmem popsaným dříve. Procedura TYPM, která určuje typické body nebyla mezi ostatní, dříve zmíněné, zařazena, protože má lehce odlišné chování. Tato procedura v závislosti na dvojici řídících parametrů nejen určuje typické body, ale také mění jejich počet. Definujme si chování této metody.

4.1 Optimalizační k středové algoritmy 14 Vstupními parametry metody jsou počet typických bodů k, slučovací parametr C a rozdělovací parametr R. Prvních k bodů dosadíme za typické body a dále provedeme následující dva kroky: 1. Vypočteme vzájemnou vzdálenost typických bodů. Je li nejmenší z těchto vzdáleností menší než C, pak skupiny bodů s nejmenší vzdáleností typických bodů sjednotíme v jedinou a nový typický bod umístíme do těžiště této skupiny. Toto opakujeme až do okamžiku, kdy jsou všechny typické body navzájem vzdáleny alespoň C. 2. Provedeme postupné přiřazení zbývajících n k zkoumaných bodů k existujícím typickým bodům. Má li bod vzdálenost od nejbližšího typického bodu nejvýše R, přiřadíme jej k tomuto bodu a a typický bod přemístíme do těžiště zvětšené skupiny. Potom znovu zkontrolujeme typické body, zda jsou rozmístěny tak, aby splňovaly podmínku v bodě 1. Je li vzdálenost zkoumaného bodu k nejbližšímu typickému bodu větší než R stává se tento bod novým typickým bodem. Na výslednou množinu typických bodů aplikujeme MacQueenovu nehierarchickou shlukovací metodu pro pevný počet bodů. Wishartova metoda RELOC Tato metoda vyžaduje zadání čtyř vstupních parametrů a to vzdáleností práh THRESH, minimální počet objektů ve shluku MINSIZ, maximální počet iterací MAXIT a minimální počet shluků MINC. Nejprve je zapotřebí určit počáteční rozklad do k > MINC skupin bodů libovolnou metodou. Typické body jsou určeny těžišti těchto skupin. Dále pak střídavě provádíme dva kroky, až do okamžiku, kdy žádný bod již nezmění svou příslušnost ve skupině nebo počet iterací dosáhne hodnoty MAXIT. Vytváření shluků Body v daném pořadí přiřazujeme k nejbližšímu typickému bodu nebo zařazujeme do skupiny zbytků. Pro každý bod vypočteme vzdálenost ke všem typickým bodům a pokud nejmenší z těchto vzdáleností překročí vzdálenostní práh THRESH, nepřiřadíme tento bod k žádnému typickému bodu, ale zařadíme jej do skupiny zbytků. Jinak přiřadíme zkoumaný bod k nejbližšímu typickému bodu. Ve skupině, která byla v tomto kroku změněna, s výjimkou skupiny zbytků, přemístíme typický bod do nového těžiště. Rozpouštění shluků Všechny vytvořené skupiny s počtem obsažených bodů menším než MINSIZ zrušíme a jejich body přemístíme do skupiny zbytků. V každé iteraci provádíme přiřazování všech bodů a tedy i těch, které jsme přemístili do skupiny zbytků. Iterace pak provádíme tak dlouho, dokud se skupiny bodů včetně skupiny zbytků po dvou za sebou následujících iteracích vzájemně liší. Dosáhneme li ustálení, iterace ukončíme. Skupinu zbytků však na rozdíl od ostatních skupin nepovažujeme za shluk ale jako neklasifikované body. Poklesne li počet shluků na hodnotu MINC, ukončíme shlukování, jinak pokračujeme v iteracích, v každé sloučíme dva nejbližší shluky a znovu provedeme proces slučování a rozpouštění shluků.

4.2 Analýza modů 15 Výstupem této metody je tedy posloupnost rozkladů množiny bodů do skupin s tím že posledním rozkladem je množina MINC shluků. 7 4.2 Analýza modů Analýza modů je trochu odlišný přístup k úloze shlukování. Vyžívá především pojmů teorie pravděpodobnosti a matematické statistiky. Hlavní myšlenka tohoto přístupu je, že znaky popisující objekty můžeme považovat za diskrétní nebo spojité náhodné veličiny. A zde vzniká prostor pro úvahy o tom, s jakou pravděpodobností nabývá znak určité hodnoty. K popisu rozložení pravděpodobnosti, že znak X nabyde nějaké hodnoty x slouží tzv. frekvenční funkce 8 f(x), která definuje jakou pravděpodobnost má jev, že daný znak nabyde této konkrétní hodnoty f(x) = P (X = x) (41) Modus je potom taková hodnota x mod náhodné veličiny X, v níž nabývá frekvenční funkce náhodné veličiny X lokálního maxima. Na obrázku 6 je zobrazeno rozložení se dvěma mody. x mod1 x mod2 Obrázek 6: Rozložení se dvěma mody V praxi se často přistupuje ke zjednodušení a variační interval se rozdělí do kategorií v nichž se sleduje četnost výskytů. Z histogramu relativních četností lze pak odhadovat existenci a polohu modů frekvenční funkce. V těchto modech pak hledáme shluky, protože zde lze očekávat největší koncentraci objektů. Největší problém s nalezením polohy modů nastává tehdy, pokud nahodnou veličinou je vektor hodnot. Lze také očekávat, že se zvětšující se dimenzí zkoumaného prostoru neuměrně naroste počet nutných testu pro zjištění příslušnosti bodu do nějakého intervalu. Výhodné se však jeví hledat shluky na základě hustých oblastí, tj. takových kam padne relativně velké množství bodů. Ukažme si jednoho zástupce metod hledání hustých oblastí a shluků pomocí analýzy modů. Kittlerova metoda hledání modů Ke každému bodu O i množiny O = {O 1, O 2,..., O n } sestrojíme jeho α okolí N α (O i ) jako množinu všech bodů O j pro něž platí d(o i, O j ) < α. Sestrojíme množinu S takových bodů, které mají ve svém okolí alespoň jeden další bod. Dokud je množina S neprázdná, vyjmeme odtud libovolný bod O k1 a zaznamenáme všechny body z 7 Tato posloupnost není shlukováním hierarchickým a to z důvodů, které se dozvíme v kapitole 5 8 V případě spojité náhodné veličiny nazývaná také hustota pravděpodobnosti.

5 Hierarchické shlukování 16 jeho α okolí, které přemístíme do množiny P. Pokud je množina P neprázdná, vyjmeme z ní další bod O k2, který má nejpočetnější okolí. Body tohoto okolí s výjimkou bodu O k2 vložíme do množiny P. Toto opakujeme až do okamžiku, kdy se množina P vyprázdní. Pak vybereme ze zbývajících bodů množiny S další bod a celý postup opakujeme, dokud nedojdou body v množině S. Výstupem této procedury je posloupnost dvojic přirozených čísel pořadové číslo a velikost α okolí příslušného bodu. Na základě průběhu funkce f pak můžeme usuzovat, které z bodů posloupnosti představují relativně husté oblasti. 5 Hierarchické shlukování Mezi shlukovacími metodami, které se do dnešní doby vyvinuly lze postřehnout skupinu metod, ze kterých postupně vzešla metoda jediná. V detailech ji lze pak rozdělit pouze podle toho, že různě hodnotí podobnost shluků. V předchozích kapitolách bylo popsáno několik přístupů, jak je možné shluky vzájemně porovnat. A právě díky těmto různým přístupům bylo větší množství shlukovacích metod, protože se rozlišovalo mezi shlukovací metodou nejbližšího souseda, shlukovací metodou nejvzdálenějšího souseda, atd. Nyní již rozlišujeme pouze mezi způsoby hodnocení míry nepodobnosti shluků, ale pouze v rámci jediné hierarchické aglomerativní shlukovaní procedury. 5.1 Hierarchický rozklad To, že se metody mohly spojit v jedinou je dáno tím, že s výjimkou hodnocení nepodobnosti shluků, prováděly stejný postup vytváření posloupnosti rozkladů množiny objektů O = {O 1, O 2,..., O n }. Na začátku tvoří každý objekt množiny O jednoprvkový shluk a tyto shluky tvoří počáteční rozklad Ω 0. V prvním kroku shlukování vybereme podle použité míry nepodobnosti dva nejpodobnější shluky a sloučíme je v jeden. Tento nový shluk spolu se všemi ostatními tvoří nový rozklad Ω 1. Dále pak Ω s je s tý rozklad a protože v každém z předchozích kroků jsme snížili počet shluků o hodnotu 1, zbývá n s shluků. Tento rozklad je tvořen novým shlukem vzniklým v kroce s 1 sloučením dvou nejpodobnějších shluků a ostatních nezměněných shluků rozkladuω s 1. Z rozkladu Ω s pak opět vybereme dva nejpodobnější shluky a sloučíme je. Tento nový shluk a všechny ostatní tvoří nový s+1 rozklad Ω s+1. Tímto způsobem pokračujeme tak dlouho až dospějeme k (n 1) nímu rozkladu Ω n 1 který obsahuje jediný shluk tvořený všemi objekty množiny O. Systém podmnožin množiny objektů tvořících rozklady Ω 0, Ω 1...., Ω n 1 je výsledným hierarchickým shlukováním. Pánové Lance a Williams uvedli obecnější přístup k hierarchickým shlukovacím metodám s tím, že zavedli pojem koeficient nepodobnosti shluků a dále se pak zabývali metodou, která byla v této kapitole popsána. Dospěli k závěru, že pro některé strategie je možné určit hodnotu koeficientu nepodobnosti nově vzniklého shluku a ostatních nezměněných shluků z hodnot vypočtených v rámci předchozího rozkladu. Strategie, pro něž je toto možné provést nazvali kombinatorickými. Dále pak uvedli obecné schéma, podle nějž lze u kombinatorických metod nepodobnost nově vzniklých shluků vypočíst. Chceme tedy určit nepodobnost shluků U, R tak, že R je nově vzniklý shluk pro který platí

5.1 Hierarchický rozklad 17 R = P L, dále P, L jsou shluky, které byly v předchozím rozkladu nejpodobnější a U je libovolný nezměněný shluk. Potom (U, R) = α i (U, P) + α j (U, L) + β (P, L) + γ (U, P) (U, L) (42) Koeficienty α i, α j, β, γ se mění v závislosti na použité míře nepodobnosti shluků. Představme si nyní rekurzivní definice jednotlivých metod, jenž jsme si výše ukázali. Metoda nejbližšího souseda 1. ({O i }, {O j }) = d(o i, O j ) 2. Je li R = P L shluk (s+1) rozkladu získaný sjednocením shluků P a L s tého rozkladu, platí pro všechny shluky U s tého rozkladu přecházející do (s+1) ního rozkladu beze změny Metoda nejvzdálenějšího souseda (U, R) = 1 2 (U, P) + 1 2 (U, L) 1 (U, P) (U, L) 2 1. ({O i }, {O j }) = d(o i, O j ) 2. Za stejných podmínek jako v předchozím případě platí Centroidní metoda (U, R) = 1 2 (U, P) + 1 2 (U, L) + 1 (U, P) (U, L) 2 1. ({O i }, {O j }) = d(o i, O j ) 2. Za stejných podmínek jako v předchozím případě platí (U, R) = P R Metoda průměrné nepodobnosti objektů 1. ({O i }, {O j }) = d(o i, O j ) (U, P) + L R 2. Za stejných podmínek jako v předchozím případě platí Mediánová metoda 1. ({O i }, {O j }) = d 2 E (O i, O j ) P L (U, L) (P, L) R 2 (U, R) = P L (U, P) + (U, L) R R 2. Za stejných podmínek jako v předchozím případě platí (U, R) = 1 2 (U, P) + 1 2 (U, L) 1 (P, L) 4 Lanceova a Williamsova pružná strategie Autoři rekurzivního předpisu samozřejmě také experimentovali s různými hodnotami parametrů. Dospěli k závěru, že nejlepší výsledky dává metoda, v níž je možno nepodobnost

5.2 Metody hierarchického rozkladu 18 nově vzniklého shluku s ostatními shluky definovanou uvedeným schématem měnit vhodnými volbami koeficientů α i, α j, β, γ přičemž je potřeba dodržet tyto podmínky. α i = α j, α i + α j + β = 1, β < 1, γ = 0 (43) Z těchto podmínek lze pak odvodit, že α i = α j = 1 β 2 Rekurzivní předpis této metody pak vypadá následovně (44) 1. ({O i }, {O j }) = d 2 E (O i, O j ) 2. (U, R) = 1 β 2 1 β (U, P) + 2 (U, L) + β (P, L) přičemž d je libovolný koeficient nepodobnosti objektů. Dále si pak definujme několik pojmů. Stratifikované hierarchické shlukování je úplné hierarchické shlukování 9, na němž je definováno zobrazení θ, které přiřazuje každému shluku A reálné nezáporné číslo θ(a) shlukovací hladinu. Pro shluky o jediném objektu definujeme θ(a) = 0. Podobnostní strom je stratifikované hierarchické shlukování, kde pro dvojici shluků A, B platí A B θ(a) θ(b) (45) Dendrogram je grafická reprezentace podobnostního stromu. Ve dvou navzájem kolmých směrech dendrogramu jsou zaznamenány pořadová čísla objektů a monotónní posloupnost shlukovacích hladin. 5.2 Metody hierarchického rozkladu Se znalostí hierarchického rozkladu a metod pro vyjádření míry nepodobnosti shluků, které byly popsány v části 3 a zde doplněny o svůj rekurzivní předpis, můžeme nyní formálně definovat hierarchickou aglomerativní metodu. Necht je dána množina objektů O = {O 1, O 2,..., O n } a předpis umožňující hodnocení míry nepodobnosti shluků. Hierarchická shlukovací procedura přiřadí množině objektů O postupně posloupnost jejích rozkladů Ω 0, Ω 1,..., Ω n 1 na shluky a zároveň přiřadí každému shluku A v každém rozkladu reálné nezáporné číslo θ(a) takto: 1. V prvním kroku je rozklad Ω 0 tvořen jednotlivými objekty, které považujeme za jednoprvkové shluky A 0i = {O i } ohodnocené shlukovací hladinou θ(a 0i ) = 0. 2. V i tém kroku procedury (0 < i n 2) je Ω i = {A i1, A i2,..., A n i } rozklad v němž každému shluku přísluší jedno reálné nezáporné číslo θ(a ij ). S pomocí zvoleného koeficientu nepodobnosti shluků vybereme jedinou dvojici shluků (A ix, A iy ) pro niž je hodnota hodnota koeficientu nepodobnosti nejmenší a pro níž platí (A ix, A iy ) = µ i. Následující rozklad Ω i+1 získáme tak, že všechny shluky s výjimkou shluků A ix, A iy přejdou z i tého do (i+1) ního rozkladu nezměněny a sjednocení A ix A iy = A i+1,t, kde t {1, 2,..., n i 1}, tvoří nový shluk (i+1) ního rozkladu. Přičemž definujeme θ(a i+1,t ) = µ i. 9 T.j. posloupnost rozkladů, kde jeden z těchto rozkladů obsahuje jediný shluk se všemi objekty O a jeden rozklad obsahující pouze shluky tvořené jednotlivě všemi objekty {O 1}, {O 2},... {O n}.

5.2 Metody hierarchického rozkladu 19 3. V posledním kroku procedury jsou všechny shluky sjednoceny v jediný shluk a platí tedy Ω n 1 = {A n 1,1 } = O, přičemž θ(a n 1,1 ) = µ n 2. Ve zmíněných třech krocích byla rekurzivně zavedena hierarchická shlukovací metoda s koeficientem nepodobnosti. Čísla µ 0, µ 1,..., µ n 2 jsou shlukovací hladiny příslušející postupně jednotlivým rozkladům. Z postupu právě popsané metody je zřejmé, že může nastat problém, pokud bude mít stejnou nejmenší hodnotu koeficientu nepodobnosti více dvojic. Zde pak musí být jasně definováno, jakým způsobem se vybere dvojice jediná. Nejčastejší metodou výběru je zvolení dvojice s objektem, který má nejvyšší(nejnižší) pořadové číslo. Toto ale nepochybně vede k silné závislosti na počátením uspořádání objektů. Podstatné vylepšení této metody přináší zavedení definitní hierarchické shlukovací metody a pojmu µ souvislý shluk. V této metodě se ustupuje od nutnosti vybrat z většího množství stejně podobných shluků pouze jedinou dvojici, ale zpracovávají se všechny tyto dvojice v jediném kroku. Zaved me si ale nejprve pojem µ souvislý shluk. Shluk A x je se shlukem A y µ souvislý, pro pevně danou hodnotu µ, jestliže existuje řetězec shluků A x = A 1, A 2,..., A m = A y (m > 1) takový, že (A k, A k+1 ) = µ, pro k = 1, 2,..., m 1. (A, A ) 1 2 = u, A 1 A 2 (A j 1, A j ) = u, (2< j <k 1) A k 1 A k (A k 1, A k ) = u, Obrázek 7: µ souvislý shluk Označme nyní Ω i = {A 1, A 2,..., A ni } rozklad množiny objektů v i tém kroce do n i shluků a necht µ i je minimální hodnota koeficientu nepodobnosti shluků rozkladu Ω i. Potom µ i souvislým shlukem označíme takovou podmnožinu shluků z Ω i, která spňuje: 1. Každá dvojice shluků z této podmnožiny je µ i souvislá. 2. Žádný shluk z Ω i nepatřící do této podmnožiny není µ i souvislý s žádným shlukem, který do této podmnožiny patří. Definujme si nyní rekurzivní předpis vylepšené hierarchické aglomerativní shlukovací metody s použitím µ souvislých shluků a s okamžitým shlukováním většího množství dvojic shuků se shodným nejmenším koeficientem nepodobnosti. Necht O je množina n zkoumaných objektů a použitý koeficient nepodobnosti shluků. Pro množinu O sestrojíme posloupnost jejích rozkladů Ω 0, Ω 1,..., Ω m 1 (1 m n) a v ní přiřadíme každému shluku A reálnou nezápornou hladinu shlukování θ(a).

5.2 Metody hierarchického rozkladu 20 1. V prvním kroku se vylepšená metoda od svého předchůdce ničím neliší. Obě považují za počáteční rozklad Ω 0 množinu jednoprvkových shluků, kterým přiřazují shlukovací hladinu θ(a 0i ) = 0. 2. Necht Ω i = {A i1, A i2,..., A ini } je rozklad v i tém kroku (0 i m 2), každý ze shluků tohoto rozkladu je ohodnocen hladinou shlukování θ(a ij ) a µ i = min x,y=1,2,...,n i x y (A ix, A iy ) (46) je minimální hodnota koeficientu nepodobnosti. Potom každý µ i souvislý shluk vzniklý ze shluků A ik1, A ik2,..., A iks rozkladu Ω i přechází do následujícího rozkladu Ω i+1 = {A i+1,1, A i+1,2,..., A i+1,ni +1} jako shluk A i+1,j = A ik1 A ik2 A iks (47) Pro každý takto vzniklý shluk definujeme θ(a i+1,j ) = µ i. Ostatní shluky přecházejí do následujícího rozkladu beze změny. 3. V posledním kroku je Ω m = {A m1 } a θ(a m1 = µ m 1 ). Shluk A m1 samozřejmě odpovídá celé množině objektů O. Procedura, která byla nyní popsána, přiřazuje každé množině objektů stratifikované hierarchické shlukování. Aby bylo toto shlukování také podobnostním stromem, musí operátor splňovat podmínku: Necht µ je minimální hodnota koeficientu nepodobnosti v rámci nějakého rozkladu Ω a skupiny shluků A p1, A p2,..., A ps a A q1, A q2,..., A qt tvoří µ souvislé shluky rozkladu Ω přecházející do následujícího rozkladu jako samostatné shluky. 1. Pro každý shluk A k, který přechází do následujícího rozkladu nezměnněný platí: (A p1 A p2 A ps, A k ) µ (A q1 A q2 A qt, A k ) µ 2. (A p1 A p2 A ps, A q1 A q2 A qt µ V úvodu této části jsme si představili rekurzivní předpis pro výpočet míry nepodobnosti shluků v některých strategiích. Protože v této vylepšené metodě se již neomezujeme na vznik pouze jediného nového shluku, musíme zde definovat dva předpisy: Předpis pro stanovení míry nepodobnosti nově vzniklého shluku s nezměněnými shluky. Předpis pro určení vzájemné nepodobnosti nově vzniklých shluků. Nyní budou uvedeny rekurzivní definice jednotlivých koeficientů nepodobnosti pro obě požadované kombinace shluků. Necht P = P 1 P 2 P s je sjednocení shluků do prvního nového shluku a L = L 1 L 2 L t sjednocení shluků do nějakého dalšího nového shluku, které přechází do nového rozkladu. Dále necht U je nějaký shluk, který přechází do následujícího rozkladu nezměněn.

5.2 Metody hierarchického rozkladu 21 Metoda nejbližšího souseda 1. (P, U) = min{ (P i, U)} 2. (P, L) = min i=1,2,...,s j=1,2,...,t Metoda nejvzdálenějšího souseda { (P i, L j )} 1. (P, U) = max{ (P i, U)} 2. (P, L) = max i=1,2,...,s j=1,2,...,t { (P i, L j )} Centroidní metoda Je li použita metrika d 2 E, t.j. čtverec eukleidovské metriky a označíme li X A = ( x 1A, x 2A,..., x pa ) těžiště shluku A, můžeme rekurzivní předpis definovat takto. 1. Nově vzniklý shluk s nezměněným shlukem. (P, U) = p j=1 2. Dva nově vzniklé shluky. (P, L) = ( x jp x ju ) 2 = 1 P s i=1 p ( x jp x jl ) 2 = j=1 1 P 2 ( 2) s (i,j) P i (P i, U) 1 P 2 1 s t P + L (i,j) P i P j (P i, P j ) 1 L 2 Tento koeficient nesplňuje výše uvedenou podmínku. Metoda průměrné nepodobnosti objektů 1. Nově vzniklý shluk s nezměněným shukem. 2. Dva nově vzniklé shluky. (P, U) = 1 P ( 2) s P i P j (P i, P j ) (i,j) P i L j (P i, L j ) ( 2) t L i L j (L i, L j ) (i,j) s P i (P i, U) i=1 (P, L) = 1 s t P i L j (P i, L j ) P L Mediánová metoda Je li použita metrika d 2 E, t.j. čtverec eukleidovské metriky a označíme li X A = ( x 1A, x 2A,..., x pa ) těžiště shluku A, můžeme rekurzivní předpis definovat takto. 1. Nově vzniklý shluk s nezměněným shlukem. (i,j) (P, U) = p j=1 ( 1 P s ) 2 1 ( x jpi x ju ) = P i=1 s i=1 (P i, U) 1 P 2 ( 2) s (P i, P j ) (i,j)

5.2 Metody hierarchického rozkladu 22 2. Dva nově vzniklé shluky. (P, L) = p j=1 ( 1 P (i,j) s i=1 x jpi 1 L t ) 2 x jlk k=1 = 1 s t (P i, L j ) 1 P L P 2 Tento koeficient nesplňuje výše uvedenou podmínku. ( 2) s (i,j) (P i, P j ) 1 L 2 ( 2) t (L i, L j ) Lanceova a Williamsova pružná strategie Tento koeficient byl specificky navrhnut pro hierarchické shlukování, kde se v každém kroku může shluknout pouze jediná dvojice. (i,j)

REFERENCE 23 Reference [1] Han J., Kamber M.: Data mining: concepts and techniques. Academic press, 2001. ISBN 1 55860 489 8 [2] Lukasová A., Šarmanová J.: Metody shlukové analýzy. SNTL, 1985. [3] Šarmanová J.: Metody analýzy dat. Učební text k předmětu Metody analýzy dat na VŠB TU. [4] Mařík V., Štěpánková O., Lažanský J.: Umělá inteligence 4. Academia, 2003. ISBN 80 200 1044 0 [5] Jain A.K., Murty M.N., Flynn P.J.: Data clustering: A review. www.citeseer.org [6] Zaïanne O.R., Foss A., Lee Ch., Wang W.: On data clustering analysis: Scalability, constraints and validation. www.citeseer.org