Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Podobné dokumenty
ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Vícerozměrné statistické metody

Shluková analýza dat a stanovení počtu shluků

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Úvodem Dříve les než stromy 3 Operace s maticemi

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Státnice odborné č. 20

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Algoritmy pro shlukování prostorových dat

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků:

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Univerzita Pardubice 8. licenční studium chemometrie

Vícerozměrné statistické metody

6. Lineární regresní modely

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Vnitřní vazby a skrytá struktura v hutnických datech vícerozměrnou statistickou analýzou

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Přednáška 13 Redukce dimenzionality

Cvičná bakalářská zkouška, 1. varianta

Testování hypotéz a měření asociace mezi proměnnými

Nehierarchické shlukování

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Shluková analýza. shlukovací metodě

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Kontingenční tabulky, korelační koeficienty

Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2

Mnohorozměrná statistická data

Mnohorozměrná statistická data

4.6.2 Analýza shluků CLU

Kontingenční tabulky, korelační koeficienty

Miroslav Čepek

PRAVDĚPODOBNOST A STATISTIKA

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Inovace bakalářského studijního oboru Aplikovaná chemie

http: //meloun.upce.cz,

UČENÍ BEZ UČITELE. Václav Hlaváč

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Regresní a korelační analýza

Korelační a regresní analýza

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Testování hypotéz o parametrech regresního modelu

Statistika pro geografy

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

odlehlých hodnot pomocí algoritmu k-means

odpovídá jedna a jen jedna hodnota jiných

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Analýza dat na PC I.

Shluková analýza, Hierarchické, Nehierarchické, Optimum, Dodatek. Učení bez učitele

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

KGG/STG Statistika pro geografy

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

Měření závislosti statistických dat

LINEÁRNÍ REGRESE. Lineární regresní model

6. Lineární regresní modely

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Rosenblattův perceptron

Testování hypotéz o parametrech regresního modelu

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Jana Vránová, 3. lékařská fakulta UK

Kanonická korelační analýza

UNIVERZITA PARDUBICE

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák

Umělé neuronové sítě

Tvorba nelineárních regresních

Regresní a korelační analýza

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Regresní a korelační analýza

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

STATISTICKÉ CHARAKTERISTIKY

Kalibrace a limity její přesnosti

Vícerozm rná analýza dat metodou hlavních komponent a shluk

PRAVDĚPODOBNOST A STATISTIKA

Úloha - rozpoznávání číslic

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Regresní a korelační analýza

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

INDUKTIVNÍ STATISTIKA

Charakteristika datového souboru

Regresní a korelační analýza

Statistická analýza jednorozměrných dat

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

Prostorová variabilita

Transkript:

Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V

Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti a dle vybraných vlastností - proměnných. Objekty se často zařazují do skupin: Periodická tabulka prvků (chemie) Taxonomie rostlin a živočichů (zoologie, botanika) Účelem je: popis systematiky (taxonomie) Sumarizace podle jistých kritérií (zjednodušení) Predikce chování Vysvětlení zvláštností (predikce vztahů) Každá klasifikace objektů je závislá na cíli: různé cíle vedou k různým členěním. Klasifikace vyžaduje definici podobnosti resp. různosti objektů. O užitečnosti klasifikace rozhoduje využitelnost výsledků. Je výhodu, pokud existuje teoretické zdůvodnění klasifikace.

Typy klasifikace Cíl: zařazení objektů do skupin (tříd) na základě výsledků měření na těchto objektech. Řízená (supervised): třídy jsou předdefinován. Je třeba použít množinu označených objektů (trénovací nebo učící) pro vytvoření klasifikátoru umožňujícího klasifikaci budoucích objektů (diskriminační analýza) Neřízená (unsupervised): třídy jsou neznámé. Je třeba je stanovit na základě informací o objektech. (analýza shluků)

Analýza shluků K dispozici je n objektů, každý je popsán pomocí m rysů, proměnných resp. charakteristik. Cílem je zařazení objektů do skupin. Často se požaduje dělení objektů. Hledají se souvislosti v datech. Objasňuje se chování dat. Provádí se předpověď chování Provádí se vizualizace dat ve vhodné soustavě Neřízené učení Jde většinou o ne stochastické metody.

Struktura dat Matice dat (dva módy) Matice nepodobnosti (jeden mód) x... x... x 11 1j 1n............... x... x... x i1 ij in............... x... x... x n1 nj nn 0 d(2,1) 0 d(3,1) d(3,2) 0 : : : d(n,1) d(n,2)...... 0 Shlukovací znaky 1) Znaky charakterizující shlukované objekty. 2) Analýza nerozlišuje významné a nevýznamné znaky. 3) Odlišení shluků za použití všech navržených znaků. 4) Na volbě znaků závisí nalezení správných shluků. 5)Výběr znaků, které dostatečně rozlišují mezi objekty.

Kvalita shlukování Nepodobost/Podobnost : Podobnost je vyjádřena jako funkce vzdálenosti, která je obecně vhodná metrika : d(i, j) Kvalita shluků je popsána speciálními charakteristikami. Funkce vzdálenosti se obyčejně silně liší pro různé typy speciálních škál dat jako jsou kardinální, booleovské, kategorizované, ordinální a nominální znaky. Pro různé znaky lze použít různé typy váhových koeficientů. Je složité vyjádřit dostatečně podobné nebo dostatečně dobré Podobnost : Podle vzdálenosti 1 a 9 jsou blízké 1, 9 a 7 jsou nepodobné Podle struktury 1 a 7 jsou podobné 1, 7 a 9 jsou nepodobné Vyjádření kvality je obyčejně pouze subjektivní.

Vzdálenost objektů I Pro hodnocení podobnosti/nepodobnosti se používají různé typy vzdáleností mezi dvojicemi objektů Populární je Minkowského vzdálenost: dij (, ) = q ( x x + x x +... + x x ) q q q i1 j1 i2 j2 im jm kde i = (x i1, x i2,, x im ) a j = (x j1, x j2,, x jm ) jsou dva m- rozměrné datové objekty a q je celé kladné číslo Pokud je q = 1, je d. Manhattanská vzdálenost dij (, ) = x x + x x +... + x x i1 j1 i2 j2 im jm

Vzdálenost objektů II Pokud je q = 2, je d tzv. Eukleidovská vzdálenost dij x i x j x i x j x i x j 2 2 2 (, ) = ( + +... + ) 1 1 2 2 m m Vlastnosti d(i,j) 0 d(i,i) = 0 y1 Euklidovská vzdálenost A D = (y 2 -y 1 )+(x 2 -x 1 ) y 2 -y 1 y1 Manhattanovská vzdálenost A D = Iy 2 -y 1 I+Ix 2 -x 1 I y 2 -y 1 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) y2 x 2 -x 1 B y2 x 2 -x 1 B x1 x2 x1 x2 Je možné použít také vážené vzdálenosti, Pearsonův korelační koeficient a jiné míry nepodobnosti.

Vzdálenost objektů III Tětivová vzdálenost (chord distance) m = dij (, ) = 2 1 x x ik jk k 1 m m 2 2 x ik x jk k= 1 k= 1 Mahalanobisova vzdálenost pro silně korelované znaky x i x j ) V případě tří znaků je tětivová vzdálenost přímou vzdáleností dvou bodů na povrchu koule s jednotkovým poloměrem a počátkem v těžišti. Problém všech vzdálenostních měr: při použití nestandardizovaných dat mohou při různých jednotkách měření vyjít značné rozdíly mezi různými typy vzdáleností. dij (, ) T = x x C x x ( ) 1 ( ) i j i j C (m x m) kovarianční matice pro m znaků

Vzdálenost objektů IV Korelační míry párové korelační koeficienty r ij mezi dvojicí objektů x i a x j pro m znaků ri (, j ) = k = m ( xik xi )( xjk xj ) 1 m m 2 ( xik xi ) ( xjk xj ) k= 1 k= 1 Silná korelace r ij 1 značí vysokou podobnost Slabá korelace r ij 0 značí nízkou podobnost 2 x 1 x 2 x 3 x 1 x 2 x 3

Podobnost pro binární proměnné (míry asociace) Kontingenční tabulka (odezva typu 0,1) Objekt j 1 0 suma Objekt i 1 a b a+ b 0 c d c+ d suma a+ c b+ d m Sokal Michener koeficient shody Hamman dij (, ) = a+ d a + b + c + d dij (, ) = a+ d b c a + b + c + d dij Russel Rao Rogers Tanimoto dij (, ) = d a + b + c + d dij (, ) = a+ d a + 2b + 2c + d a..pozitivní shoda tj. počet znaků, kde oba objekty mají hodnotu 1. d negativní shoda tj. počet znaků, kde oba objekty mají hodnotu 0. c. počet znaků, kde objekt i má hodnotu 0. a objekt j hodnotu 1 b počet znaků, kde objekt i má hodnotu 1. a objekt j hodnotu 0 (, ) = Korelační koeficient ad bc ( a+ b)( c+ d)( a+ c)( b+ b) Soerensen dij (, ) = 2a 2a+ b+ c

Podobnost mezi binárními proměnnými - příklad jméno pohlaví horečka kašel Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N Pohlaví je symetrický atribut Ostatní jsou asymetrické binární atributy Nechť M, Y a P jsou rovny 1, a N, F je rovno 0 Jack Mary 1 0 suma 1 2 1 3 0 1 3 4 suma 3 4 7 Sokalův koeficient d(jack, Mary) = (2+3)/7 = 0.714 Russel Rao koeficient d(jack, Mary) = (3)/7 = 0. 428

Podobnost pro nominální proměnné Jde o zobecnění binárních proměnných pro více stavů např. barvy, značky aut, typ technologie atd. Metoda 1: Jednoduchá shoda p : počet shod, m : celkový počet znaků (proměnných) dij (, ) = m p m Metoda 2: převedení na binární proměnné Každý z M nominálních stavů je nová binární proměnná

Ordinální proměnné Ordinální proměnná je diskrétní nabývající konečného počtu stavů Důležité je uspořádání (pořadí) od nejhoršího k nejlepšímu Lze je zpracovat podobně jako spojité proměnné náhrada hodnoty x ij i-tého objektu a j-tého znaku odpovídajícími pořadími p ij p ij {1,..., M } mapování rozmezí každého znaku do intervalu [0, 1] náhradou i tého objektu pro j tý znak veličinou z ij p = M ij j j 1 1 Výpočet míry nepodobnosti pro z ij jako pro spojité proměnné

Kardinální proměnné Je možné použít všech typů vzdáleností. Protože jsou jednotlivé znaky v různých jednotkách (rozmezí) je vhodná standardizace dat. Výhodné je použití průměrné absolutní odchylky pro j tý znak: Výpočet z skóre s = n 1 x x aj n ij j z ij i= 1 = Průměrná absolutní odchylka je robustnější než směrodatná odchylka. x x s ij aj j

Předpoklady analýzy shluků Analýza shluků je objektivní kvantifikace strukturních zvláštností sledovaných objektů. Nejsou zde požadavky na normalitu, linearitu, nebo homoskedasticitu. Dva kritické předpoklady: Reprezentativnost výběru objektů Nalezené shluky mají odpovídat struktuře populace. Odlehlé objekty mohou způsobit vznik nevhodných shluků, které negativně ovlivní odhad struktury objektů. Vliv multikolinearity Multikolineární znaky jsou implicitně váženy intenzivněji. V případě silné multikolinearity je možno snížit počet znaků nebo použít Mahalanobisovu vzdálenost.

Problémy s definicí shluků

Základní přístupy ke shlukování Dělící (nehierarchické) Konstrukce různých skupin objektů (shluků) a výběr nejvhodnější podle zadaného kritéria. Hierarchické algoritmy: Konstrukce hierarchického rozkladu množiny objektů podle vhodného kritéria Rozlišovací kritérium: maximalizace rozdílů mezi shluky, Proměnlivost mezi shluky vůči proměnlivosti uvnitř shluků. Test: poměr rozptylu mezi shluky vůči rozptylu uvnitř shluků

Nehierarchické shlukování základy Dělící postupy: Celkem n objektů se dělí do k shluků nalezených podle zvoleného kritéria. Počet shluků je předem zvolen. Globální optimalita: hodnocení všech možných kombinací objektů ve shlucích Heuristické metody: k-means a k-medoids algoritmy k-means (MacQueen 67): Každý shluk je representován svým středem (těžištěm) k-medoids resp. PAM (Partition around medoids) (Kaufman & Rousseeuw 87): Každý shluk je representován jedním objektem, který v něm leží.

Nehierarchické shlukování postup 1. Zadání zárodku shluku (= počátečního středu shluku). 2. Objekty ležící uvnitř zadané vzdálenosti jsou do shluku zařazeny. 3. Zadání zárodku dalšího shluku a pokračování krokem 2. Postupy K-means shlukování (nejbližších středů, těžišť) (a) Sekvenční práh: začíná se volbou jednoho zárodku a zahrnují se všechny objekty uvnitř dané vzdálenosti. Dále je vybrán zárodek druhého shluku, atd. (b) Paralelní práh: vybírá se několik zárodků současně a objekty se zařazuje podle prahové vzdálenosti od nejbližšího zárodku. (c) Optimalizace: je možné znovu zařazení objektů. Když se objekt dostane blíže jinému shluku, než se právě nachází, je přeřazen do bližšího shluku.

Metoda shlukování K- Means Pro dané k, je k-means algoritmus rozdělen do těchto fází: Rozdělení objektů do k neprázdných podmnožin Výpočet bodů počátku (zárodků) jako centroidů shluků pro dané rozdělení objektů. Centroid je střed (průměrný bod) shluku. Přiřazení objektu do shluku s nejbližším bodem počátku. Návrat na krok 2, dokud se již nerealizuje další přiřazení. Klíčovým problémem je vhodná volba shlukových zárodků. Potíže u zašuměných dat a vybočujících hodnot. Shluky musí mít konvexní tvar. Musí být možné určit průměr. Je nalezeno lokální optimum. 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

Shlukování: nejbližší soused Znak 2 Znak 1

Shlukování: nejbližší soused Znak 2 Znak 1

Shlukování: nejbližší soused Znak 2 Znak 1

Shlukování: nejbližší soused Znak 2 Znak 1

Shlukování: nejbližší soused Znak 2 Znak 1

Shlukování: nejbližší soused Znak 2 Znak 1 Vzdálenost objektu od shluku je definována jako nejmenší vzdálenost mezi tímto bodem a libovolným bodem ve shluku.

Metoda shlukování K-Medoids Funguje dobře jen pro malé počty objektů 1. Nalezení počáteční skupiny reprezentujících objeků (medoidů) Medoid - střed shluku, je objekt, pro který platí, že průměrná vzdálenost k ostatním objektům v tomto shluku je minimální. 2. Po nalezení medoidů jsou data klasifikována do shluků vždy okolo nejbližšího medoidu. Medoidy a shluky se vytvářejí na základě vzdáleností d ij. Algoritmus vyhledává dosud nezařazené objekty a přemísťuje je tak, aby se hodnota D snižovala. Jako účelová funkce se bere celková vzdálenost mezi všemi objekty ve shluku podle vzorce n D = j= 1 i c k j c k kde k je celkový počet shluků, d je vzdálenost mezi i-tým a j-tým objektem a c k udává všechny objekty ve shluku l. d ij

10 9 8 7 6 5 4 3 2 1 Celková cena za výměnu t 0 0 1 2 3 4 5 6 7 8 9 10 i j h C jih = d(j, h) - d(j, i) 10 9 8 7 6 5 4 3 2 1 h i t 0 0 1 2 3 4 5 6 7 8 9 10 C jih = d(j, t) - d(j, i) j 10 9 8 7 6 5 4 3 2 1 t j h i 0 0 1 2 3 4 5 6 7 8 9 10 C jih = 0 10 9 8 7 6 5 4 3 2 1 i h t 0 0 1 2 3 4 5 6 7 8 9 10 C jih = d(j, h) - d(j, t) j Pro všechny dvojice nevybraného objektu h a vybraného objektu i, se určí celková cena za výměnu TC ih Pokud je TC ih < 0, je objekt i nahrazen objektem h Pak je každý nevybraný objekt přiřazen k nejpodobnějšímu medoidu Postup se opakuje až již neproběhne žádná náhrada. TC ih n = j= 1 C jih

Hierarchické shlukování I 1 2 3 4 5 C1 C2 C3 C4 C5 C6.. Data 5 5 Kritéria podobnosti d ij Matice podobnosti (vzdálenosti) Kritéria shlukování Dendrogram

Hierarchické shlukování II Jako kritérium pro shlukování se využívá matice vzdáleností. Je třeba definovat kritérium pro ukončení. Algoritmy seskupování a rozdělování Krok 0 Krok 1 Krok 2 Krok 3 Krok 4 a b c d e a b d e c d e a b c d e Krok 4 Krok 3 Krok 2 Krok 1 Krok 0 seskupování (AGNES) rozdělování (DIANA)

Hierarchické shlukování III Způsob seskupování: 1. Dva objekty, jejichž vzdálenost je nejmenší se spojí do prvního shluku. 2. Vypočte se nová matice vzdáleností, v níž jsou vynechány objekty z prvního shluku, a tento shluk je pak zařazen jako objekt. 3. Celý postup se opakuje tak dlouho, dokud všechny objekty netvoří jeden velký shluk, nebo dokud nezůstane určitý, předem zadaný počet shluků. Způsob rozdělování: Inverzní postup od jednoho shluku ke shlukům jednoprvkovým

Mezi shlukové vzdálenosti Metoda nejbližšího souseda: minimální vzdálenosti mezi objekty dvou shluků Metoda nejvzdálenějšího souseda: maximální vzdálenost mezi objekty dvou shluků Metoda průměrového linkování: průměrná vzdálenost všech objektů v jednom shluku ke všem objektům ve druhém shluku. Wardova metoda: minimalizace přírůstku vnitro shlukové variability VSS (suma čtverců odchylek od průměrů znaků pro všech m objektů). Metoda těžiště: vzdálenost těžišť shluků. Těžiště shluku je průměrná hodnota shlukových znaků. k objektů ve shluku Metoda těžiště

Příklad: metoda nejbližšího souseda Data Matice eukleidovských vzdáleností E1 Spojí se objekt 1 a 2, protože jejich vzdálenost je v matici E1 nejmenší. Sestavení matice vzdáleností E2, zbylých objektů od shluku (1, 2). d (1,2).3) = min (d 1,3, d 2,3 ) = min (29, 26)= 26, d (1,2),4) = min (d 1,4, d 2,4 ) = 49, d (1,2),5) = min (d 1,5, d 2,5 ) = 50, Matice vzdáleností E2 Matice vzdáleností E3 další shluk (4, 5).

Porovnání mezi shlukových vzdálenosti 1. Skupinový průměr, Kofenetická korelace: 0.987, Delta(0.5): 0.137; 2. Nejbližší soused, Kofenetická korelace: 0.989, Delta(0.5): 0.474; 3. Nejvzdálenější soused, Kofenetická korelace: 0.989, Delta(0.5): 0.178 ; 4. Wardova metoda, Kofenetická korelace: 0.979, Delta(0.5): 0.549 Nejbližší soused Nejvzdálenější soused Průměrná vzdálenost Wardova metoda

Míry věrohodnosti 1. kritérium těsnosti proložení : kofenetický korelační koeficient CC - nejlépe odpovídá struktuře objektů a znaků mezi objekty, - je to Pearsonův korelační koeficient mezi skutečnou a predikovanou vzdáleností, založenou na dendrogramu. 2. kritérium těsnosti proložení: kritérium delta - měří stupeň přetvoření struktury dat, - je žádoucí, aby hodnoty delta byly blízké nule, kde A = 0.5 nebo 1, d ij je vzdálenost v původní matici vzdáleností a d * ij je vzdálenost získaná z dendrogramu.

Porovnání shlukovacích metod (1) Hierarchické metody: a) Hierarchické metody jsou rychlé. b) Hierarchické metody mohou být ovlivněny odlehlými objekty., c) Hierarchické metody nejsou vhodné pro velké počty objektů. (2) Nehierarchické metody: a) Použití nehierarchických metod závisí na schopnosti uživatele vybrat zárodkové body. b) Výsledky nehierarchických metod jsou méně ovlivněny odlehlými body. (3) Kombinace obou metod, hierarchických a nehierarchických: a) Nejprve se hierarchickou metodou určí: počet shluků, profily shlukovaných center a zřetelně odlehlé body. b) Po odstranění odlehlých bodů: zbývající objekty jsou shlukovány nehierarchicky se zárodky z výsledků hierarchické metody.

Zatím vše!!!